多模态融合(七)Multi-modality Latent Interaction Network for Visual Question Answering

编程入门行业动态更新时间:2024-10-23 19:20:55

背景

本篇论文的工作来自于香港中文大学-商汤联合实验室。与DFAF出自同一作者之手。论文接收于ICCV2019

摘要

现有的解决VQA问题的方法大都是关注于各个独立的image regions于question words之间的联系(比如对intra-modal、inter-modal的联系建模，使用SA、GA等各注意力手段)，始终是从局部的视角来捕捉特征间的联系。(缺乏大局观，对全局特征利用甚少，这与人类回答VQA问题有所不同，人善于利用各种信息进行summarization，从全局的视野来完成这个任务)。

前人对特征的处理方式与本文提出的方法

框架

与DFAF网络结构类似的是，本文提出的MLIN网络也是由MLI这样的block堆叠而成。送入网络的图文特征表示为

每种模态的特征进行summarization操作，得到k个向量表示。每种模态的k个summarization vector可以理解成是从全局视角捕捉到输入特征的k个不同方面的表示。 由sumarization vector组成的矩阵分别记为 R ^ \hat R R^和 E ^ \hat E E^.
利用每个模态k个全局特征的表示，来进行模态间联系的建模，得到关系矩阵 A ∈ R k × k × 512 A\in\R^{k\times k\times 512} A∈Rk×k×512，简单reshape成 A ^ ∈ R k 2 × 512 \hat A\in\R^{k^2\times 512} A^∈Rk2×512。
接下来按照作者的说法，接着执行两次线性操作来捕捉cross-modal间的线性关系矩阵 A ^ c \hat A_c A^c和高阶非线性关系矩阵 A ^ p \hat A_p A^p，两道关系矩阵逐元素加和得到融合的关系矩阵：

之后利用送入MLI模块的原特征R和E生成Query矩阵，利用 A ^ \hat A A^生成Key矩阵和Vaule矩阵。利用K、Q、V模式对R、E进行重建。　这样模块的输出维度还原到了输入的维度，MLI模块得以堆叠。

实验结果

结论

在本文中，我们提出了一个新的MLIN来探讨求解VQA问题。在MLIN中，多模态推理是通过总结、交互、传播和聚合的过程来实现的。MLIN可以被堆叠成几层，以便更好地进行关系推理。我们的方法在基准的VQA数据集上以更小的消息传递时间获得了有竞争力的性能。此外，我们证明了一个良好的预训练语言模型来用作问题编码器对VQA性能的重要性。

更多推荐

多模态融合(七)Multi-modality Latent Interaction Network for Visual Question Answering

本文发布于:2023-06-11 01:35:00，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1368417.html