多模态融合(七)Multi-modality Latent Interaction Network for Visual Question Answering

编程入门 行业动态 更新时间:2024-10-23 19:20:55

背景

本篇论文的工作来自于香港中文大学-商汤联合实验室。与DFAF出自同一作者之手。论文接收于ICCV2019

摘要

现有的解决VQA问题的方法大都是关注于各个独立的image regions于question words之间的联系(比如对intra-modal、inter-modal的联系建模,使用SA、GA等各注意力手段),始终是从局部的视角来捕捉特征间的联系。(缺乏大局观,对全局特征利用甚少,这与人类回答VQA问题有所不同,人善于利用各种信息进行summarization,从全局的视野来完成这个任务)

前人对特征的处理方式与本文提出的方法

框架


与DFAF网络结构类似的是,本文提出的MLIN网络也是由MLI这样的block堆叠而成。送入网络的图文特征表示为

每种模态的特征进行summarization操作,得到k个向量表示。每种模态的k个summarization vector可以理解成是从全局视角捕捉到输入特征的k个不同方面的表示。 由sumarization vector组成的矩阵分别记为 R ^ \hat R R^ E ^ \hat E E^.
利用每个模态k个全局特征的表示,来进行模态间联系的建模,得到关系矩阵 A ∈ R k × k × 512 A\in\R^{k\times k\times 512} ARk×k×512,简单reshape成 A ^ ∈ R k 2 × 512 \hat A\in\R^{k^2\times 512} A^Rk2×512
接下来按照作者的说法,接着执行两次线性操作来捕捉cross-modal间的线性关系矩阵 A ^ c \hat A_c A^c和高阶非线性关系矩阵 A ^ p \hat A_p A^p,两道关系矩阵逐元素加和得到融合的关系矩阵:

之后利用送入MLI模块的原特征R和E生成Query矩阵,利用 A ^ \hat A A^生成Key矩阵和Vaule矩阵。利用K、Q、V模式对R、E进行重建。 这样模块的输出维度还原到了输入的维度,MLI模块得以堆叠。

实验结果

结论

在本文中,我们提出了一个新的MLIN来探讨求解VQA问题。在MLIN中,多模态推理是通过总结、交互、传播和聚合的过程来实现的。MLIN可以被堆叠成几层,以便更好地进行关系推理。我们的方法在基准的VQA数据集上以更小的消息传递时间获得了有竞争力的性能。此外,我们证明了一个良好的预训练语言模型来用作问题编码器对VQA性能的重要性。

更多推荐

多模态融合(七)Multi-modality Latent Interaction Network for Visual Question Answering

本文发布于:2023-06-11 01:35:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1368417.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:多模   modality   Latent   Interaction   Multi

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!