《Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data》阅读笔记

编程入门 行业动态 更新时间:2024-10-08 06:18:02

《Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data》阅读<a href=https://www.elefans.com/category/jswz/34/1770047.html style=笔记"/>

《Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data》阅读笔记

《From Captions to Visual Concepts and Back》在论文提到了一种新的image caption方法,visual detector、language model、multimodel similarity model,在近两年的caption论文很多都采用了这种思路。今天阅读的论文在此基础上,提出了Deep Compositional Captioning(DCC)用于解决 paired image-sentence datasets不存在的新对象描述的任务。

一、介绍

这部分解释DCC为什么是Compositional,因为它可以通过将new object与paired image-sentence datasets中已经看到的语言表达相结合,无缝地构建关于new object的句子。下图展示了DCC网络工作的一个实例,otter是一个new object,DCC也可以生成对应的image caption,而传统的image caption模型则不能生成正确的结果。

 

 DCC有两个核心的设计。

1.独立的lexical classifer(词汇检测器)、language model,这两部分分别在unpaired image、unpaired text data上预训练,预训练好了,再结合起来组成 caption model,caption model在paired image-sentence上训练;

2.multimodal layer,作用是将paired image-sentence中学过的已知object的信息转换到new object上

二、相关工作

提到目前已知的Deep caption方法、Zero-Shot Learning、Describing New Objects In Context

三、Deep Compositional Captioner

主要分为三步:

(1)利用unpaired data训练lexical classifer、language model

(2)将lexical classifer跟language model组合成caption model,并在paired data上训练

(3)将paired data上学到的words知识转换到未出现在paired data的new objects上

3.1 Deep Lexical Classifer

我们首先通过提取每个单词的词性来挖掘paired image-sentence中常见的concepts然后选择最常见的形容词,动词和名词。这里的concepts跟《From Captions to Visual Concepts and Back》提到的visual concepts有一点不同,不是严格的visual。除了这些concepts外,还需要加入需要描述的new object。

CNN提取的特征记做fI

3.2 Language Model

由上图可以看到,Language Model类似Sequence-to-Sequence结构,不同点是预测输出用到的特征是输入单词的embedding跟LSTM的隐状态的组合,记做fL

3.3Caption Model

由fI跟fL,进一步得到预测的输出单词

这里,有一点需要注意,WI仅仅用paired image-sentence训练,而WL在Language Model这一步先做预训练,然后在Caption Model 训练中用paired image-sentence 微调

3.4 Transferring Information Between Objects

方法一:Direct Transfer

 论文举了一个例子,alpaca是一个new object,在vocabulary里语义上最接近的单词是sheep

假设sheep、alpaca在vocabulary对应的索引是、,根据预测单词计算公式,单词sheep对应的计算值为

类似地,单词alpaca对应的计算值为

 

为了像生成包含单词sheep的句子那样生成包含alpaca的句子,首先将、、直接传递到、、,我们期望单词sheep的预测高度依赖于图像中存在sheep的可能性。由于检测到sheep时单词sheep对应的概率最大,fI里对应sheep这一类别的索引值应该主要决定了输出值。为了保证检测到alpaca时单词alpaca对应概率也最大,令

 、分别是alpace、sheep在中对应的类别索引。上面的操作实际就是把单词sheep对应的权值转换到单词alpaca上,然后找到sheep、alpaca在中对应的类别索引、,再将单词sheep权值在的值赋值给单词alpaca权值在位置的值。个人理解的、就是之前提到的、

方法二:Delta Transfer

首先定义一个单词的

相关符号解释:

 

 然后根据语义相似性:

上述两种方法都依赖于语义相似性,因此,检测new object跟 paired image-sentence中单词的语义相似性是转换权值的核心

更多推荐

《Deep Compositional Captioning: Describing Novel Object Categories without Paire

本文发布于:2024-02-14 06:03:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1762161.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:笔记   Captioning   Describing   Deep   Compositional

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!