论文解读---The Emotionally Intelligent Robot: Improving Social Navigation in Crowded Environments

论文地址:https://arxiv.org/abs/1903.03217

Abstract— We present a real-time algorithm for emotion-aware navigation of a robot among pedestrians. Our approach estimates time-varying emotional behaviors of pedestrians from their faces and trajectories using a combination of Bayesian inference, CNN-based learning, and the PAD (Pleasure-Arousal-Dominance) model from psychology. These PAD characteristics are used for long-term path prediction and generating proxemic constraints for each pedestrian. We use a multi-channel model to classify pedestrian characteristics into four emotion categories (happy, sad, angry, neutral). In our validation results, we observe an emotion detection accuracy of 85:33%. We formulate emotion-based proxemic constraints to perform socially-aware robot navigation in low- to medium-density environments. We demonstrate the benefits of our algorithm in simulated environments with tens of pedestrians as well as in a real-world setting with Pepper, a social humanoid robot.

本文提出了一种面向人群、可以感知行人情绪的实时机器人导航算法。该算法结合贝叶斯推理、CNN学习和心理学的PAD(愉悦-唤醒-受支配)模型,从行人的面部和轨迹来估计实时情绪状态。这些PAD数据用于长期路径预测和为每个行人生成空间约束。本文使用多通道模型将行人分为四种情绪类别(快乐、悲伤、愤怒、中性)。在实验验证结果中,情绪检测的准确率为85.33%。本文对基于情绪的空间约束进行了建模,以在低到中等密度的环境中执行社交感知机器人导航。本文演示了在有数十个行人的模拟环境中,以及在有Pepper(一个社交类人机器人)的真实环境中,本文所提算法的优势。


1. 论文动机(Motivation)

最近的先进技术预测,人类很快就会在公共场所、人行道和室内与移动的、自主的机器人共享空间。

除了满足物理空间的限制外,开发具有情感智能的机器人变得越来越重要。

传统基于面部表情的情感识别存在可靠性低,在实验条件下难以获得完整面部图像等不足。因此,本文拟将面部表情与行人运动轨迹结合起来,用于人类情绪状态识别。

2. 贡献(Contribution)

本文提出了一个实时基于数据驱动,考虑行人情绪状态的机器人社交感知导航算法。

基于愉悦-唤醒-受支配(PAD)模型,结合面部表情与行人轨迹两种类型的数据预测行人情绪。

提出了一种新的数据驱动映射—TEM(基于行人轨迹的情绪预测模型)。

在模拟和真实环境下分别进行了定性与定量实验分析。

3. 方法(Methods)

3.1 数据表示

行人状态表示,

                                              

依次为行人位置,当前速度,面部图像,预测速度,面部情绪矢量,轨迹情绪矢量.

机器人状态表示,

                                                    

依次为机器人位置,当前速度,预测速度.

情绪表示,

以矢量表示情绪状态,根据此矢量可以将情绪状态离散化,

                        

其中θ为数值阈值,文中设置为0.55.

3.2 系统总体框架Overview

基于行人轨迹的情绪识别(Emotion Learning from Trajectories (TEM)

作者收集了包含23个视频的行人行走数据集用于基于轨迹的情绪识别研究(文中说后续会公开此数据集).

                         

首先,使用贝叶斯学习(Bayesian learning)方法计算行人的运动模型参数Planning Horiz (s)、Radius (m)、Pref Speed (m/s);

然后,招募100位志愿者通过观看视频的方式对目标行人的情绪状态进行标记;

最后,通过线性回归的方式建立运动模型参数与情绪矢量之间的关系,

                                          

本文使用Xception卷积神经网络模型实现基于面部特征的情绪识别

使用加权组合的方式对情绪状态进行联合表达

                                     

α在0~1.

本文建立了基于情感的接近约束,并将其与避障约束相结合用于机器人导航。行人情绪预测也被用于路径预测。

4. 实验结果与分析(Experiments & Discussion)

可达距离 peripersonal-action (reachability distance):reachability distance refers to the distance at which pedestrians feel comfortable interacting with other pedestrians.

舒适距离 interpersonal-social (comfort distance):comfort distance refers to the distance at which pedestrians feel comfortable with the presence of a pedestrian.

                          

                        

题注中的“green”与“blue”位置反了.

本文提出了一种考虑了可达距离与舒适距离的GVO(Generalized Velocity Obstacles)扩展方法,用于机器人社交感知与无碰撞导航。

                          

实验结果显示,情绪悲伤的参与者被给予了更大的行走空间;情绪愤怒的参与者报告说,机器人给行人让路的速度更快;情绪愉快和中性的参与者没有报告明显的变化,但有些人注意到机器人的速度有轻微的减慢。

本文在没有考虑空间和情绪约束的情况下,定量地评估了本文基于GVO的社交感知导航算法的性能。

                         

5. 启示(Conclusion)

本文假定行人的轨迹是从固定在环境高处的摄像机拍摄到的,而机器人自带的摄像机用于捕捉行人面部图像。情绪模型是基于PAD模型得到的,目前只能分为四类。未来,将从全身步态中学习情绪,并整合三个传感器通道。还想把群体行为和文化背景考虑到具有社会意识的导航中,或者考虑用不同的情绪表征模型。