Image-Text Interaction Network（CCF B）|电子爱好者

admin管理员组
文章数量:1589748

Zhu T, Li L, Yang J, et al. Multimodal sentiment analysis with image-text interaction network[J]. IEEE Transactions on Multimedia, pages 1–1, 2022（CCF B类）

一、本文贡献

二、本文所提出的方法

1.模型框架

2.图像文本交互

（1）Cross-modal Alignment Module

（2）Cross-modal Gating Module

（3）语境信息提取

（4）Multimodal Sentiment Classification

三、实验

1.在MVSA-S和在MVSA-M上的实验结果

2.消融实验的实验结果

3.案例分析

一、本文贡献

提出一种新的针对于多模态情感分析的图像文本交互网络。该方法通过对齐情感图像区域和文本词用于分析图像文本交互。
基于跨模态的注意力机制提出了一种跨模态的对齐模块，用来捕获图像区域和文本单词之间的细粒度对应关系；为抑制错位对齐的区域单词对所产生的消极影响，提出一个自适应的跨模态门模块融合多模态特征。
大量的实验验证了本文方法的优点。进行消融实验，验证方法的合理性。

二、本文所提出的方法

1.模型框架

2.图像文本交互

（1）Cross-modal Alignment Module

跨模态对齐模块目的是在嵌入空间中对齐图像区域和句子中的单词。

图像区域特征提取：对于输入的图像I，使用在Visual Genomes数据集上预训练的Faster R-CNN检测图像区域以及相关的表示。取每个图像的前m个区域提示框，每个区域是一个2048维的向量，定义为𝑓𝑖，i=1,2,3…m。通过一个线性映射将𝑓𝑖到维度为d的区域特征𝑟𝑖。

文本特征提取：使用预训练的Bert-Base将具有n个词的句子中的每一个词表示为768维的向量𝑥𝑖，i∈[1,n]。然后使用双向GRU概括句子中的上下文信息。

第一个h𝑖指前向传播的隐藏状态，第二个h𝑖指反向传播的隐藏状态，最终的词向量𝑤𝑖为两个方向的隐藏状态取平均。

已知区域级别的特征集 R={r1,…,rm} 和单词级别的特征集 W={w1,….,wn} 。使用跨模态注意力机制，模型可以根据每一个图像区域特征关注句子中的单词，从而发现和每一个区域特征最相关的文本信息。

注意力矩阵计算过程：

通过两个矩阵Wr和Wt，将R和W映射到同一个共享空间中，随后进行矩阵乘法得到注意力分数矩阵A，A∈𝑅𝑚∗𝑛。𝐴𝑖𝑗揭示着第i个区域和第j个单词之间的关系。

对矩阵A在每一行上使用softmax函数，使得矩阵A的行和为1，得到每一个单词与相应图像区域的关联程度。

使用规范化的矩阵A，根据每一个图像区域聚集所有的词向量。U的第i行表示与图像第i个区域对应的交互文本向量。

（2）Cross-modal Gating Module

跨模块对齐模块生成了与每一个区域最相关的词语级别的特征信息。然而不是所有得到的区域文本对可以很好地对齐。该模块通过控制特征融合的强度，消除未对齐的区域文本对的影响，增强跨模态信息的交互。

通过计算gate value评估对齐程度，

接下来使用gate value控制向后面传递的信息量，若图像区域和相应的单词对齐的很好，那么gate value就大；若图像区域和相应的单词对齐的不好，那么gate value的值就小，小的值可以达到抑制消极信息的目的。

由于图像使用了m个区域，所以最终得到的Z={z1,z2,…,zm}，Z的size为（m，d）。Z是一个融合特征，暗含图像区域和词之间的对齐信息。

最后，使用注意力机制聚集特征Z得到整个输入的图像文本对的表示C。

（3）语境信息提取

同一个物体在不同的语境中会表达不同的情感，使用Faster R-CNN提取区域特征并不涉及语境信息的提取。针对图像，使用在ImageNet上预训练的ResNet提取图像的语境信息。

针对于文本，使用双向GRU的文本特征表示中已经包含了语境信息，所以选择对所用的文本向量执行求和取平均的操作获得文本的语境信息。

接下来将图像语境信息V和文本语境信息S加入到向量C中。F为最终的跨模态交互向量，F中含有对齐信息和语境信息。

（4）Multimodal Sentiment Classification

将特征向量F送入到softmax层预测最终的情感类别。

三、实验

1.在MVSA-S和在MVSA-M上的实验结果

2.消融实验的实验结果

（1）没有对齐层的ITIN效果更差，这证明了对齐图像区域和文本单词的有效性

（2）不使用Gating的ITIN效果差于ITIN，表明门控机制可以进一步增强跨模态交互作用。

（3）不使用Context的ITIN效果差于ITIN，验证了语境信息对情感分类任务的补充作用。

（4）ITIN w/o Context和ITIN only Context的结果比较，表明细粒度的跨模态交互有利于多模态情感分析。

3.案例分析

第一列是输入的image-text pair，第二列是用彩色边框标记的图像区域和对应的不同深浅颜色的文本单词，其中单词的权重越大，颜色也就越深。通过颜色识别图像区域和文本之间的对应关系。第三列是区域文本对的gate value，可以发现对齐的区域文本对的gate value的值大，对不不匹配的则gate value的值就小。

本文标签： Text Image Interaction CCF Network

版权声明：本文标题：Image-Text Interaction Network（CCF B）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1728075672a1144439.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Image-Text Interaction Network（CCF B）

一、本文贡献

二、本文所提出的方法

1.模型框架

2.图像文本交互

（1）Cross-modal Alignment Module

（2）Cross-modal Gating Module

（3）语境信息提取

（4）Multimodal Sentiment Classification

三、实验

1.在MVSA-S和在MVSA-M上的实验结果

2.消融实验的实验结果

3.案例分析

更多相关文章

openlayers6【六】地图交互 interaction详解

人物交互（human object interaction）论文汇总-2019年

Learning Attentive Pairwise Interaction for Fine-Grained Classification论文解读

Unity XR Interaction Toolkit 组件解析（一）Action-based 和 Device-based 的区别

Unity XR Interaction Toolkit中Action与Device的差异探究

Channel Interaction Networks for Fine-Grained Image Categorization论文解读

Channel Interaction Networks for Fine-Grained Image Categorization-笔记

AppsFilter: interaction: ***BLOCKED 错误

生存分析亚组交互函数scitb5.coxph 1.6尝鲜版（P for interaction）发布----用于一键生成交互效应表、森林图

手把手教你使用SPSS做出亚组分析的交互作用效应(p for Interaction)

12An Interaction-aware Attention Network for Speech Emotion Recognition in Spoken Dialogs

多模态融合(七)Multi-modality Latent Interaction Network for Visual Question Answering

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks

openlayers3-interaction之select、modify和draw(选中、绘制和编辑要素)

有关OpenLayers中ol.interaction.Translate的hitTolerance属性的问题

Openlayers ol.interaction.Select取消默认选中效果

QCustomPlot之Interaction简单解析

p for trend p for interaction per 1 sd 的R语言实现

论文浏览(8) Asynchronous Interaction Aggregation for Action Detection

关于vivado implement后clockinteraction报告的理解（更新中）

发表评论

推荐文章

非常好用的在线画树网站（树结构的自动生成工具，免去手动画树的烦恼）

一些linux常用命令 nohup不挂断的启服务 启动nginx 启动redis ps-ef查看进程

回收站删除文件恢复，记好这3个简单操作！

台式电脑键盘f1是计算机怎么取消,开机F1怎么取消,教您开机F1怎么取消

HTC VIVE丨3. 基于Player的人物传送（InteractionSystem）

热门文章

搭建sqlsugar代码生成器

linux raid1无法恢复,RAID1单硬盘损坏更换硬盘后恢复的方法

笔记本电脑的计算机配置在哪里可以找到,笔记本无线设置在哪里_笔记本电脑设置无线网络的步骤-win7之家...

html将网页保存成图片,谷歌浏览器保存网页为图片方法_chrome如何将网页保存为图片-win7之家...

Python 之 线程

Windows系统的四个常见后门

qq不显示我的android手机,qq2013不显示手机在线怎么办

Ubuntu16.04及以上安装TIM、微信、QQ步骤【基于deepin_wine，目前最优雅稳定的方案】

百度云网盘svip超级会员激活码2024

FPGA开发技能(7)Vivado设置bit文件加密

最新文章

linux Ubuntu Python 3.10 环境报错与解决方案集合

安全装备检测系统源码分享

奶糖检测检测系统源码分享 # [一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

BOMB开发文档

电脑可以开机怎么重装win7(电脑可以开机重装win7方法)

[踩坑记] CUDA环境下bitsandbytes安装报错异常解决

服装尺码标签检测系统源码分享

医生手写药品名称检测系统源码分享 # [一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

6.26科技新闻

国产免费虚拟化OVM与 OpenStack对比

用mvn exec:java执行Java程序出现告警日志was interrupted but is still alive after waiting at least 15000msecs

饮料品牌识别检测系统源码分享 # [一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

骑行安全检测系统源码分享 # [一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

“小身材，大味道”小蚁4K+运动相机深度测评

从里面学到的关于过去的经验 前篇

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

一些linux常用命令 nohup不挂断的启服务启动nginx 启动redis ps-ef查看进程

Python 之线程

从里面学到的关于过去的经验前篇

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载