学习报告：基于步态的人类情绪识别模型-k8凯发旗舰

脑机接口与混合智能研究小组

910

2023-01-17

本篇学习报告基于《tntc: two-stream network with transformer-based complementarity for gait-based emotion recognition》，第一作者是。该文献发表在icassp2022上，由东南大学、南京应用数学中心以及浙江大学合作完成。该工作提出了一个新的基于步态的人类情感识别的新方法，从骨骼关节和情感特征编码的图像中学习深层特征。

1.研究背景

基于视觉线索的人类情绪识别已广泛应用于各种应用场景，如视频监控、行为预测、机器人导航和人机交互。面部表情是最主要的可用于识别人类情绪的途径，通过人类的面部表情可以识别出愤怒、厌恶、快乐、悲伤、恐惧等情绪。然而，面部表情可能在复杂情况下不可靠，例如当人伪装自己的表情来掩盖内心的真实情绪时，对其进行面部情绪识别就将会得出错误的输出。因此，最近的研究逐渐关注人类表达情绪的其他特征，例如人类行走的步态。

2.作者贡献/创新点

前人对于步态的情绪识别的研究，存在两个不足之处。一个是骨骼关节和情感特征无法很好的结合在一起，导致信息的利用不足。另一个则是现有研究忽略了空间域和时间域的长时间的依赖关系，这对于描述关节之间的暗含的相互作用关系十分重要。

作者在该论文的两个主要创新点：一是提出了一种基于步态的人类情感识别的新方法，从骨骼关节和情感特征编码的图像中学习深层特征。作者是最早将情感特征表示为基于步态的人类情感识别图像的人之一。二是提出了tcm (transformer-based complementarity module)模块，被用来通过捕获远程依赖性来有效地补充骨骼关节和情感特征之间的信息。

3.模型总体框架

作者针对前人研究的不足之处，加强了关节特征和情感特征的结合，以及利用率空间域和时间域的长时间依赖关系，提出了一种基于图像的用于识别人类情绪的transformer新型双流网络，称为tntc (two-stream network with transformer-based complementarity)。作者认为骨架序列的空间和时间信息可以通过cnn在图像域中有效地提取。同时，transformer 可以通过自注意力机制处理捕获长时间依赖关系，其注意力机制的有效性已在许多计算机视觉任务中得到验证。

图1.tntc网络结构

如图1所示，首先生成骨骼关节图像sji (skeleton joint image)。将骨架序列编码为图像是因为cnn能利用这些图像迅速地提取局部时空特征，作者将关节的3d坐标编码为图像的三个通道。

图2.三个平面的关节投影角度

而情感特征则通过一种新颖的编码方法转换成情感特征图像afi（affective feature image）。情感特征，如姿势和运动，在人的步态当中传递情感信息，这对于预测主体的情感状态至关重要。本文仅将关节角度视为情感特征，并丢弃其他特征，例如关节的距离和速度，原因是这些特征隐含在关节流和情感特征流的卷积运算中。为了构建可靠的 afi，我们利用关节在三个平面上的投影角度来避免由不同视点引起的不一致。如图2所示，关节在三个平面上的投影角度明显不随任意视点而变化。

图3.tcm内部细节

下一步通过tcm来捕获骨骼关节流和情感特征流之间的依赖关系，tcm内部细节如图3所示，p、c、s、u分别表示平均池化操作、连接操作、分裂操作和上采样操作。逐元素求和表示为“ ”。骨架特征f_j和情感特征f_a作为tcm的输入，每一个序列由一个特征向量进行表示，tcm则可以捕获特征向量之间的长时间依赖性。首先将原本大小为h×w×c通过平均池化操作减小f_j和f_a的大小为h′×w′×c′，其中 h′ = h/l，w'= w/l，f_j和f_a缩小的尺度相同，尺度参数 l 被设置为不同的值以修改每个级别中具有固定大小的特征，接着连接两个特征f_a,f_j变为f_aj作为transformer的输入，经过transformer的处理后变为f^'_aj，再将其分为两个互补信息和分别用于关节流和情感流中。

在tntc的最后处理环节，关节特征和情感特征被池化为1×1×512，即512维的特征向量，该特征向量输入进分类模块mcm(multi-layer perceptron (mlp)-based classification module)预测人类的情绪。

4.实验结果

作者在emotion-gait数据集上进行了验证，该数据集由 2177 个真实步态序列组成，分别注释为四种情绪类别之一，包括快乐、悲伤、愤怒或中性。

表1.各模型在emotion-gait准确度对比

根据表1，作者的方法使得tntc实现了最高的准确率，这比目前的最高准确度的方法提升了4.08%。为了进行公平比较，作者通过公共代码重现这些方法，并使用相同的评估方法对比实验结果。

表2.消融实验

为了验证双流架构的有效性，作者分别尝试了只训练关节和只训练情感特征，以没有tcm作为基线来进行对比，如表二所示，没有训练关节的准确率只有79.52%，没有训练情感特征的准确率为80.71%，而基线的准确率为81.53%，从实验结果证明了双流架构的有效性。

为了验证tcm 的有效性，作者逐渐增加tcm的数量，可以观察到，准确性随着 tcm 数量的增加而提高，在插入了4个tcm后准确率提高到了85.97%，这表示tcm可以关注两个流之间的互补信息来提高模型的准确率。

5.总结

在这篇论文中，作者提出了一种基于步态的人类情感识别的新方法，构建了tntc双流网络模型，使用了骨骼关节和情感特征作为双流模型的输入。结果表明，所提出的tntc双流网络模型能可靠的从步态识别人类情绪，并在广泛使用的emotion-gait数据集上取得了最先进的结果。

从实验结果来看，模型的输入以及对输入信息的处理十分重要。作者在该论文选择了关节以及情感特征(关节角度) 作为tntc模型的输入，以及使用了tcm捕获骨骼关节流和情感特征流之间的依赖关系。

综上，后续的研究可以从以下角度出发。从输入的角度考虑，一方面可以从增加输入的个数从双流增加为三流，例如以关节关节角度关节速度作为模型输入可能会达到更好的效果。另一方面可以尝试更改双流的输入，例如考虑关节的运动速度作为情感特征，以骨骼关节关节运动速度作为双流的输入。从对输入信息的处理的角度考虑，本论文已经验证了transformer对捕捉双流的互补信息的有效性，因此可以尝试增加tcm在tntc中的数量以及对tcm的结构进行优化。

论文：

撰稿人：卢亮宇

指导老师：周成菊

登录用户可以查看和发表评论，请前往或注册。