论文解读"/>
Out of the Box: Reasoning with Graph ConvolutionNets for Factual Visual Question Answering论文解读
文章目录
- 1. 介绍
- 2. Visual Question Answering with Knowledge Bases
- 3. 实验
论文链接: .00538.
1. 介绍
对于大多数的VQA来说,可以直接从图像内容获取到问题的答案无须推理过程,使用一般知识进行推理仍然是算法挑战。为了推进这方面的研究,最近引入了一种新的“基于事实的”视觉问题回答(FVQA)任务,以及一个附带的数据集,其中包含图像,带有相应答案的问题以及从三个不同来源提取的事实的知识库(KB):WebChild ,DBPedia 和ConceptNet 。与经典的VQA数据集不同,FVQA数据集中的问题是通过对图像中的信息和知识库中的事实的集体分析来回答的。每个问题都映射到一个包含问题答案的支持事实。因此,回答一个问题需要分析图像并选择正确的支持事实。
给定一个图像 I 和相应的问题Q,基于事实的图像问答任务(FVQA)任务是使用一个由事实组成的外部知识库KB来预测答案,即,KB={f1,f2,…,f|KB|}。一个事实表示为 f=(x,r,y)形式,其中x是一个基于图像的视觉概念,y是一个属性或短语,r∈R是x和y两个实体之间的关系,分别使用x(f)、y(f)或rel(f)提取。知识库中的关系是一组13个可能的关系的一部分:R={Category,Comparative,HasA
更多推荐
Out of the Box: Reasoning with Graph ConvolutionNets for Factual Visual Question
发布评论