Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering心得体会

编程入门行业动态更新时间:2024-10-18 20:32:58

Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering<a href=https://www.elefans.com/category/jswz/34/1747755.html style= 心得体会"/>

Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering心得体会

最近两周研读了一篇文章，题目是《Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering》，文章链接如下：Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering

一、文章引入
在回答给定上下文（例如图像）的问题时，我们将观察到的内容与常识无缝结合在一起。对于自然参与我们日常工作的自主代理和虚拟助手，在最常根据上下文和常识回答问题的地方，利用观察到的内容和常识的算法非常有用。我们注意到，许多前述方法集中在问题回答任务的视觉方面，即，通过结合问题和图像的表示来预测答案。这与描述的类人方法明显不同，后者将观察与常识相结合。为此，相关研究设计了一种从问题中提取关键字并从知识库中检索包含这些关键字的事实的方法。但是，同义词和同形异义词构成了难以克服的挑战。
为了解决这个问题，我们开发了一种基于学习的检索方法。更具体地说，我们的方法学习事实和问题图像对到嵌入空间的参数映射。为了回答问题，我们使用与所提供的问题图像对最一致的事实。
知识库中的事实是根据视觉概念（例如，对象，场景和从输入图像中提取的动作）进行过滤的。然后将预测的查询应用于过滤后的数据库，从而获得一组检索到的事实。然后，在检索到的事实和问题之间计算匹配分数，以确定最相关的事实。最正确的事实构成了问题答案的基础。
二、文章精读

图1：拟议方法概述。给定图像和关于图像的问题，我们通过在图像上使用CNN，在问题上使用LSTM以及将两种方式组合在一起的多层感知器（MLP）来获得图像+问题嵌入。为了从知识库（KB）中过滤相关事实，我们使用另一个LSTM从问题中预测事实关系类型。使用GloVe嵌入对检索到的结构化事实进行编码。通过嵌入向量之间的点积对检索到的事实进行排序，并返回排名靠前的事实以回答问题。
图一概述了本文开发的方法。当前的任务是通过使用外部知识库KB来预测给定图像x的问题Q的答案y，该知识库由一组事实fi组成，知识库中的每个事实fi都表示为形式为f_i =（a_i，r_i，b_i）的资源描述框架（RDF）三元组，其中a_i是图像中的视觉概念，b_i是与主题相关的属性或短语 r_i是两个实体之间的关系。数据集| R | = 13包含关系r∈R = {Category，Comparative，HasA，IsA&#