背景
本篇论文的工作来自于香港中文大学-商汤联合实验室。与DFAF出自同一作者之手。论文接收于ICCV2019
摘要
现有的解决VQA问题的方法大都是关注于各个独立的image regions于question words之间的联系(比如对intra-modal、inter-modal的联系建模,使用SA、GA等各注意力手段),始终是从局部的视角来捕捉特征间的联系。(缺乏大局观,对全局特征利用甚少,这与人类回答VQA问题有所不同,人善于利用各种信息进行summarization,从全局的视野来完成这个任务)。
前人对特征的处理方式与本文提出的方法
框架
与DFAF网络结构类似的是,本文提出的MLIN网络也是由MLI这样的block堆叠而成。送入网络的图文特征表示为
每种模态的特征进行summarization操作,得到k个向量表示。每种模态的k个summarization vector可以理解成是从全局视角捕捉到输入特征的k个不同方面的表示。 由sumarization vector组成的矩阵分别记为
R
^
\hat R
R^和
E
^
\hat E
E^.
利用每个模态k个全局特征的表示,来进行模态间联系的建模,得到关系矩阵
A
∈
R
k
×
k
×
512
A\in\R^{k\times k\times 512}
A∈Rk×k×512,简单reshape成
A
^
∈
R
k
2
×
512
\hat A\in\R^{k^2\times 512}
A^∈Rk2×512。
接下来按照作者的说法,接着执行两次线性操作来捕捉cross-modal间的线性关系矩阵
A
^
c
\hat A_c
A^c和高阶非线性关系矩阵
A
^
p
\hat A_p
A^p,两道关系矩阵逐元素加和得到融合的关系矩阵:
之后利用送入MLI模块的原特征R和E生成Query矩阵,利用
A
^
\hat A
A^生成Key矩阵和Vaule矩阵。利用K、Q、V模式对R、E进行重建。 这样模块的输出维度还原到了输入的维度,MLI模块得以堆叠。
实验结果
结论
在本文中,我们提出了一个新的MLIN来探讨求解VQA问题。在MLIN中,多模态推理是通过总结、交互、传播和聚合的过程来实现的。MLIN可以被堆叠成几层,以便更好地进行关系推理。我们的方法在基准的VQA数据集上以更小的消息传递时间获得了有竞争力的性能。此外,我们证明了一个良好的预训练语言模型来用作问题编码器对VQA性能的重要性。
更多推荐
多模态融合(七)Multi-modality Latent Interaction Network for Visual Question Answering
发布评论