论文解读---The Emotionally Intelligent Robot: Improving Social Navigation in Crowded Environments

时间 2021-04-21 标签论文笔记情绪识别社交机器人导航行人轨迹预测社交舒适空间建模

论文地址：https://arxiv.org/abs/1903.03217

Abstract— We present a real-time algorithm for emotion-aware navigation of a robot among pedestrians. Our approach estimates time-varying emotional behaviors of pedestrians from their faces and trajectories using a combination of Bayesian inference, CNN-based learning, and the PAD (Pleasure-Arousal-Dominance) model from psychology. These PAD characteristics are used for long-term path prediction and generating proxemic constraints for each pedestrian. We use a multi-channel model to classify pedestrian characteristics into four emotion categories (happy, sad, angry, neutral). In our validation results, we observe an emotion detection accuracy of 85:33%. We formulate emotion-based proxemic constraints to perform socially-aware robot navigation in low- to medium-density environments. We demonstrate the benefits of our algorithm in simulated environments with tens of pedestrians as well as in a real-world setting with Pepper, a social humanoid robot.

本文提出了一种面向人群、可以感知行人情绪的实时机器人导航算法。该算法结合贝叶斯推理、CNN学习和心理学的PAD(愉悦-唤醒-受支配)模型，从行人的面部和轨迹来估计实时情绪状态。这些PAD数据用于长期路径预测和为每个行人生成空间约束。本文使用多通道模型将行人分为四种情绪类别(快乐、悲伤、愤怒、中性)。在实验验证结果中，情绪检测的准确率为85.33%。本文对基于情绪的空间约束进行了建模，以在低到中等密度的环境中执行社交感知机器人导航。本文演示了在有数十个行人的模拟环境中，以及在有Pepper(一个社交类人机器人)的真实环境中，本文所提算法的优势。

1. 论文动机（Motivation）

最近的先进技术预测，人类很快就会在公共场所、人行道和室内与移动的、自主的机器人共享空间。

除了满足物理空间的限制外，开发具有情感智能的机器人变得越来越重要。

传统基于面部表情的情感识别存在可靠性低，在实验条件下难以获得完整面部图像等不足。因此，本文拟将面部表情与行人运动轨迹结合起来，用于人类情绪状态识别。

2. 贡献（Contribution）

本文提出了一个实时基于数据驱动，考虑行人情绪状态的机器人社交感知导航算法。

基于愉悦-唤醒-受支配(PAD)模型，结合面部表情与行人轨迹两种类型的数据预测行人情绪。

提出了一种新的数据驱动映射—TEM(基于行人轨迹的情绪预测模型)。

在模拟和真实环境下分别进行了定性与定量实验分析。

3. 方法（Methods）

3.1 数据表示

行人状态表示，

依次为行人位置，当前速度，面部图像，预测速度，面部情绪矢量，轨迹情绪矢量.

机器人状态表示，

依次为机器人位置，当前速度，预测速度.

情绪表示，

以矢量表示情绪状态，根据此矢量可以将情绪状态离散化，

其中θ为数值阈值，文中设置为0.55.

3.2 系统总体框架Overview

基于行人轨迹的情绪识别（Emotion Learning from Trajectories (TEM)）

作者收集了包含23个视频的行人行走数据集用于基于轨迹的情绪识别研究（文中说后续会公开此数据集）.

首先，使用贝叶斯学习（Bayesian learning）方法计算行人的运动模型参数Planning Horiz (s)、Radius (m)、Pref Speed (m/s)；

然后，招募100位志愿者通过观看视频的方式对目标行人的情绪状态进行标记；

最后，通过线性回归的方式建立运动模型参数与情绪矢量之间的关系，

本文使用Xception卷积神经网络模型实现基于面部特征的情绪识别

使用加权组合的方式对情绪状态进行联合表达

α在0~1.

本文建立了基于情感的接近约束，并将其与避障约束相结合用于机器人导航。行人情绪预测也被用于路径预测。

4. 实验结果与分析（Experiments & Discussion）

可达距离 peripersonal-action (reachability distance)：reachability distance refers to the distance at which pedestrians feel comfortable interacting with other pedestrians.

舒适距离 interpersonal-social (comfort distance)：comfort distance refers to the distance at which pedestrians feel comfortable with the presence of a pedestrian.

题注中的“green”与“blue”位置反了.

本文提出了一种考虑了可达距离与舒适距离的GVO（Generalized Velocity Obstacles）扩展方法，用于机器人社交感知与无碰撞导航。

实验结果显示，情绪悲伤的参与者被给予了更大的行走空间；情绪愤怒的参与者报告说，机器人给行人让路的速度更快；情绪愉快和中性的参与者没有报告明显的变化，但有些人注意到机器人的速度有轻微的减慢。

本文在没有考虑空间和情绪约束的情况下，定量地评估了本文基于GVO的社交感知导航算法的性能。

5. 启示（Conclusion）

本文假定行人的轨迹是从固定在环境高处的摄像机拍摄到的，而机器人自带的摄像机用于捕捉行人面部图像。情绪模型是基于PAD模型得到的，目前只能分为四类。未来，将从全身步态中学习情绪，并整合三个传感器通道。还想把群体行为和文化背景考虑到具有社会意识的导航中，或者考虑用不同的情绪表征模型。