《Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data》阅读笔记

编程入门行业动态更新时间:2024-10-08 06:18:02

《Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data》阅读<a href=https://www.elefans.com/category/jswz/34/1770047.html style= 笔记"/>

《Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data》阅读笔记

《From Captions to Visual Concepts and Back》在论文提到了一种新的image caption方法，visual detector、language model、multimodel similarity model，在近两年的caption论文很多都采用了这种思路。今天阅读的论文在此基础上，提出了Deep Compositional Captioning（DCC）用于解决 paired image-sentence datasets不存在的新对象描述的任务。

一、介绍

这部分解释DCC为什么是Compositional，因为它可以通过将new object与paired image-sentence datasets中已经看到的语言表达相结合，无缝地构建关于new object的句子。下图展示了DCC网络工作的一个实例，otter是一个new object，DCC也可以生成对应的image caption，而传统的image caption模型则不能生成正确的结果。

DCC有两个核心的设计。

1.独立的lexical classifer（词汇检测器）、language model，这两部分分别在unpaired image、unpaired text data上预训练，预训练好了，再结合起来组成 caption model，caption model在paired image-sentence上训练；

2.multimodal layer，作用是将paired image-sentence中学过的已知object的信息转换到new object上

二、相关工作

提到目前已知的Deep caption方法、Zero-Shot Learning、Describing New Objects In Context

三、Deep Compositional Captioner

主要分为三步：

（1）利用unpaired data训练lexical classifer、language model

（2）将lexical classifer跟language model组合成caption model，并在paired data上训练

（3）将paired data上学到的words知识转换到未出现在paired data的new objects上

3.1 Deep Lexical Classifer

我们首先通过提取每个单词的词性来挖掘paired image-sentence中常见的concepts然后选择最常见的形容词，动词和名词。这里的concepts跟《From Captions to Visual Concepts and Back》提到的visual concepts有一点不同，不是严格的visual。除了这些concepts外，还需要加入需要描述的new object。

CNN提取的特征记做fI

3.2 Language Model

由上图可以看到，Language Model类似Sequence-to-Sequence结构，不同点是预测输出用到的特征是输入单词的embedding跟LSTM的隐状态的组合，记做fL

3.3Caption Model

由fI跟fL，进一步得到预测的输出单词

这里，有一点需要注意，WI仅仅用paired image-sentence训练，而WL在Language Model这一步先做预训练，然后在Caption Model 训练中用paired image-sentence 微调

3.4 Transferring Information Between Objects

方法一：Direct Transfer

论文举了一个例子，alpaca是一个new object，在vocabulary里语义上最接近的单词是sheep

假设sheep、alpaca在vocabulary对应的索引是、，根据预测单词计算公式，单词sheep对应的计算值为

类似地，单词alpaca对应的计算值为

为了像生成包含单词sheep的句子那样生成包含alpaca的句子，首先将、、直接传递到、、，我们期望单词sheep的预测高度依赖于图像中存在sheep的可能性。由于检测到sheep时单词sheep对应的概率最大，fI里对应sheep这一类别的索引值应该主要决定了输出值。为了保证检测到alpaca时单词alpaca对应概率也最大，令

、分别是alpace、sheep在中对应的类别索引。上面的操作实际就是把单词sheep对应的权值转换到单词alpaca上，然后找到sheep、alpaca在中对应的类别索引、，再将单词sheep权值在的值赋值给单词alpaca权值在位置的值。个人理解的、就是之前提到的、

方法二：Delta Transfer

首先定义一个单词的