《Facial Expression Recognition in Video with Multiple Feature Fusion》论文笔记

编程入门 行业动态 更新时间:2024-10-26 14:30:28

《Facial Expression Recognition in Video with Multiple Feature Fusion》论文<a href=https://www.elefans.com/category/jswz/34/1770047.html style=笔记"/>

《Facial Expression Recognition in Video with Multiple Feature Fusion》论文笔记

论文信息

J Chen,Z Chen,Z Chi,H Fu
The Hong Kong Polytechnic University
《IEEE Transactions on Affective Computing》
2018

一、论文主要工作

  • 提出新的特征描述方法—三个正交平面的定向梯度直方图(HOG-TOP)来表征面部外观的变化
  • 提出一种新的有效几何特征(GWF)来捕获面部形态变化
  • 讨论声学特征在FER的作用
  • 开发了一个基于视频的面部表情识别框架,采用多特征融合方法在受控环境(lab-controlled)和自然场景(in the wild) 分别进行基于视频的面部表情识别实验

二、介绍

  • AFEC(Automatic facial expression recognition)的重要性和关注度
  • 两种FER流派:基于AU和直接识别
  • 基于外观:描述面部纹理变化
    基于几何:用面部基准点表征面部形状
  • 静态图像和视频的区别:额外的可获得信息

我对于视频所包含的额外信息的理解示意图:

三、相关工作和动机

  • 基于静态图像识别的方法
    选择一个或多个峰值帧来提取外观或几何特征
  • 基于动态纹理识别的方法
    同时建模空间外观和视频中的动态运动
  • 基于视听结合的方法
    提取声学特征与视觉特征相结合
  • 动机
    LBP-TOP有限制:大小为59*3,可以处理光照变化但对面部肌肉变形不敏感
    现有的一些方法不能很好地捕捉面部形态变化
    non-rigid changes(非刚性变换):描述对几何物体大小而非形状的改变

四、方法论

1.HOG-TOP

定向梯度直方图(HOG) 在2005年首次被提出用于人类检测
基本思想:局部物体的外观和形状通常可以通过局部强度梯度或边缘方向的分布来很好地表征
由于面部表情是由面部肌肉运动引起的,所以HOG可以有效地捕捉和表示这些变形,但只限于处理静态图像
考虑加入时序信息来扩展,XY、XT、YT

扩展内容-关于HOG的计算

第一步,提取一张图片的其中一块(例子中的大小是8*8),将这个块逐像素求梯度方向和梯度值并存放到两张表中:

第二步,利用这两张表遍历每个元素构建梯度直方图,这里的角度为从0到180度,分为9个角度区域:

比如梯度值为2,角度为80度的像素点就会放到直方图里的80度位置;梯度值为4,角度为10的像素点会均分后放到0和20的位置。有一种特殊情况,就是角度超过160度的像素点,会按超出部分/20-超出部分的比例进行分配:

然后,我们就可以得到一张图片中一块的HOG:

知道了HOG的提取规则之后,我们分别提取三个正交平面的HOG,步骤如下:

1)提取三个正交平面的序列信息

2)将序列信息转化为HOG直方图

3)将属于一个动态序列的块拼接到一起

以下面的图片为例,人脸首先从原始图像中裁剪出来,并调整为128×128的大小。将人脸图像分成8×8个块,然后将每个块的HOG-TOP特征拼接起来,得到一组动态序列的HOG-TOP特征表示:3(正交平面个数)×9(单个直方图的长度)×8×8=1728

2.提取几何变形特征(GWF)

假设每个人脸图像由许多子区域组成。这些子区域可以由位于面部标志点的三角形构成。面部标志的移位引起三角形的变形。所以面部形态的变化可以用这些三角形的变化来表示:


简单说明一下GWF是如何提取的

如上图,三角形ABC表示处于中性脸的一块区域,当其表情转变时形变变为A’B’C’。对于ABC中的一点(x,y),可以由ABC三点表示,根据(1)式可以求得(2)和(3)式:


由于上图中黄色的平行四边形是同一个平行四边形,所以λ1和λ2依然满足(4)式,从而得出(5)式:

这样我们就可以得到从一个中性脸到一个表情脸的仿射变换,某一个三角形的6个参数(由ABC和A’B’C’的坐标点表示)的特征。将所有参数连接成一个长的全局特征向量,用于表征面部形态的变化。
本文采用109个三角形,所以每次表征面部形态的变化需要109*6=654个参数。

3.提取声学特征

  • 使用的长度为1582的声学特征,来自:
    A. Dhall, R. Goecke, J. Joshi, K. Sikka, and T. Gedeon, ”Emotion
    Recognition In The Wild Challenge 2014: Baseline, Data and Pro-
    tocol ”
    Abhinav Dhall, Roland Goecke, Simon Lucey , and T. Gedeon, ”A
    semi-automatic method for collecting richly labelled large facial
    expression databases from movies”,2012.
  • 利用openEAR工具包(基于OpenSMILE)对声学特征进行提取。

4.特征融合

1)使用多核SVM学习决策边界和核组合权重

2)采用多个核的线性组合来代替单个核:

3)对于HOG-TOP特征(x)和声学特征(z)的组合,有:

4)两步法寻找最优的β和α:
外部循环中,采用网格搜索来寻找核权β
在内部迭代中,使用LIBSVM作为支持向量机的求解器,通过固定核权重β来求系数α

5)采用一对一的方法处理多类SVM问题,并采用maxwin投票策略进行分类:


五、论文实验

1.数据集

1)Extended Cohn-Kanade (CK+)

场景为实验室,取自123个体的593个图像序列,持续时间从10到60帧不等,有愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶7种情绪表情标签。每个图像序列从起始(中性帧)到峰值(表达帧)的变化。另外,对数据库中的每幅图像分别给出68个人脸标志性点的X-Y坐标。人工标记每个视频序列内关键帧的标志性点,使用AAM拟合算法自动对剩余帧进行对齐。

2)GEMEP-FERA 2011

包含289个序列10个演员,谁是由专业导演训练。它分为155个序列的训练集和134个序列的测试集。每个序列都被分为以下五种情绪:愤怒、恐惧、快乐、宽慰和悲伤。只有训练集提供了情绪标签。这个数据库比CK+数据库更具挑战性,因为在图像序列中有头部运动和手势变化。

3)Acted Facial Expression in Wild (AFEW) 4.0

包括从不同的电影收集的视频剪辑,被认为是接近真实世界的情况。数据库分为训练集、验证集和测试集,训练集中有578个视频片段,验证集和测试集分别有383个视频片段和407个视频片段。每个视频片段都属于七个类别中的一个:愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶。这个数据库提供原始的视频剪辑和对齐的面部序列。

4)大致对比

2.实验结果

1)HOG-TOP与LBP-TOP进行对比

分别在三个数据集上进行准确率对比:

![在这里插入图片描述](.png

2)GWF与其他其他不同几何特征进行对比

在CK+数据集下对比

3)特征融合与使用单独特征进行对比

Hybird1表示直接拼接特征向量、Hybird2表示进行特征最优组合

在CK+数据集进行对比

4)在受控条件下的比较

在CK+数据集进行对比

5)在自然场景下的比较

在AFEW 4.0数据集进行对比

6)HOG-TOP中不同Block Size的比较

通过调整Block的大小来进行对比



六、总结

本文提出了2种新的特征提取方式:HOG-TOP和GWF,并且考虑声学特征在FER中的应用,使用了特征融合的方法。在当时的一些公开数据集中取得了一些不错的效果。

在汇报结束后,学长问为什么这篇文章不考虑用深度学习的方式去做。

我的回答是:

1)数据集数量不大
2)在自然场景下还有很多亟待挖掘的特征

先给自己挖个坑,等以后有思路了再来。

更多推荐

《Facial Expression Recognition in Video with Multiple Feature Fusion》论文笔记

本文发布于:2024-02-27 12:08:15,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1706454.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:笔记   论文   Recognition   Expression   Facial

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!