《Bilateral Knowledge Interaction Network for Referring Image Segmentation》论文笔记|电子爱好者

admin管理员组
文章数量:1589799

引言

作者认为在RIS任务中，抽象知识来源于对自然语言对目标的抽象描述，具体知识来源于特定的图像，例如下图：对于同一个句子“the cat on the sofa.”，对应的猫可能会有不同的外观与不同的输入图像。我们把猫在不同形象中的具体表象作为具体知识

作者认为以往的方法都是基于抽象知识直接分割出最相关的区域，由于缺乏与目标物体各区域的正确对应关系，无法得到准确的分割。因此，提出了BKINet网络：BKINet的主要原理是捕获图像中目标对象的具体知识，并将文本中的抽象知识与具体知识相结合，将目标对象从图像中分割出来。

BKINet网络概述

BKINet由知识学习模块(KLM)和知识应用模块(KAM)组成，实现双方的知识交互。具体而言，KLM通过一种由粗到精的策略，通过聚合与目标对象最相关的视觉信息来增强文本特征，该策略将对象的具体知识补充到文本的抽象知识中，从而生成包含参考信息的KI核。然后，KAM应用包含具体和抽象知识的KI核来突出视觉特征。然后，利用突出的视觉特征通过卷积层预测准确的分割掩码。

具体实现

特征提取

文本的提取使用了CLIP的文本特征提取方法得到了语言特征和全局文本特征。

视觉特征的提取：作者使用基于ResNet的CLIP的图片编码器，取2~4层的特征映射与全局文本特征相结合得到图像特征。具体操作：

1.先将第4层的特征映射和相乘融合得到F_s。

2.再对F_s进行2倍下采样与第3层的特征映射在通道维度拼接，再过一个卷积模块控制通道数。

3.将第2层的特征映射进行平均池化实现2倍下采样，再与之前的融合结果进行通道维度拼接，卷积模块控制通道数。

4.将前三步的特征自下而上的进行再次的融合的到最后的图像特征。

5.接着引入两个transformer层作为image Attention,利用图像特征通过建立图像特征之间的关系来产生视觉特征。

（源码中还有一些过度模块，这里省略）

这里的两层transformer目的是可以初步识别出对象之间的关系。

知识学习模块（Knowledge Learning Module）

KLM以粗到精的策略捕获目标对象的具体知识，能够生成包含丰富参考信息的KI核。KLM包含两个主要组件：image-to-text-Attentiion和进一步的细化操作。前者粗融合参考表示，后者用输入图像的具体知识增强对目标的表示。

image-to-text-Attention：将图像特征的通道维度映射到,将平坦的空间域H*W映射到C，得到变形后的图像特征。然后将其作为查询，通过对文本特征进行聚合，生成粗知识交互核，如下所示:

此时的所涉及的信息是来自文本特征的抽象知识构成，这些知识仅限于适应对象的独特外观。但是他们仍然缺乏具体的知识。

接下来，利用视觉特征和粗知识交互核的关系来生成一个gate特征来控制知识的结合：

通过关注每个位置的视觉特征和每个核的相关性，可以充分考虑抽象知识与具体知识之间的关系。

得到具体知识增强视觉特征：

其中

同时，利用门特征G增强来自核的抽象知识：

最终的KI核表示为：

知识应用模块（Knowledge Applying Module）

利用KI核在视觉特征中突出与目标相关的信息，并根据突出的视觉特征来预测分割掩码。

首先，以KI核作为视觉特征上的动态卷积核，得到响应图。

接下来就是要对响应图进行自适应的组合，这里作者根据每个响应图和对应的KI内核求了一个置信度。

然后根据置信度对响应图进行聚合，并将视觉特征突出显示为:

最后与视觉特征相加以用来预测最后的分割掩码。

实验设置

损失函数采用二值交叉熵损失。原文：我们使用ResNet-50[65]作为提取视觉特征的主干，使用Transformer[29]提取文本特征。图像和文本编码器都用CLIP[67]初始化。输入图像被调整为416 × 416。图像注意和图像到文本注意中的转换编码器层有8个头，所有头中的隐藏层的大小设置为64。图像注意由2层构成，图像到文本注意包含1层。KI kernel的个数Nk设置为16。RefCOCO和RefCOCO+的输入语言表达式的最大长度设置为17,G-Ref的最大长度设置为22，包括[SOS]和[EOS]令牌。我们使用Adam[68]优化器训练网络50个epoch，初始学习率为2.5 × 10−5，并在第20、30和40 epoch以0.1的衰减率衰减学习率。我们在单个Tesla A100 GPU上训练批量大小为32的模型。

本文标签：笔记论文 Interaction Knowledge Bilateral

版权声明：本文标题：《Bilateral Knowledge Interaction Network for Referring Image Segmentation》论文笔记内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728076850a1144590.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

《Bilateral Knowledge Interaction Network for Referring Image Segmentation》论文笔记

引言

BKINet网络概述

具体实现

特征提取

知识学习模块（Knowledge Learning Module）

知识应用模块（Knowledge Applying Module）

实验设置

更多相关文章

Protein-protein interaction site prediction through combining local and global features 文章梳理

Bi-directional Interaction Network for Person Search 阅读笔记

Danmaku: A New Paradigm of Social Interaction via Online Videos作者的两篇论文核心概括

【论文】(IJCAI20 知识图谱神经网络)KGNN: Knowledge Graph Neural Network for Drug-Drug Interaction Prediction

XR Interaction Toolkit教程⭐四、实现与UI交互

C# 学习笔记四 弹出输出框 Interaction.InputBox

读论文，第十三天：DualRing: Enabling Subtle and Expressive Hand Interaction with Dual IMU Rings

《Bilateral Knowledge Interaction Network for Referring Image Segmentation》论文笔记

多模态融合(七)Multi-modality Latent Interaction Network for Visual Question Answering

Interaction triggers in WPF

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks

OpenLayer学习之ol.interaction.Select

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 论文阅读

WPF MVVM UserControl 的 i:Interaction.Triggers 应用

openlayers3-interaction之select、modify和draw(选中、绘制和编辑要素)

有关OpenLayers中ol.interaction.Translate的hitTolerance属性的问题

【论文笔记】《Efficient Physics-Based Implementation for Realistic Hand-Object Interaction...》

Natural Language Inference Over Interaction Space(DIIN)阅读笔记

分子间相互作用——偶极作用dipolar-dopolar interaction

Unity Shader学习 + 3D Interaction

发表评论

推荐文章

使用朴素贝叶斯算法，通过用户安装的APP列表来推测用户的性别

Uni-app 小程序 App 的广告变现之路：全屏视频广告

linux查看cpu状态相关命令

解决windows 10 开机密码输入正确但总是提示不正确

10款国民级企业文件加密系统介绍，究竟哪一个是你的菜？

热门文章

100个网站推广方法

【网络教程】群晖修改 sn 和 MAC，生成器，cpolar内网穿透

jquery框架

Windows电脑双开多开微信最简便的办法

windows10共享打印机无法连接，报错（错误 0x00000709）

Windows10上安装使用Linux子系统(WSL)

原本只是想装个系统 结果变成了这个样子OTZ

SignalR快速入门 ~ 仿QQ即时聊天，消息推送，单聊，群聊，多群公聊（基础=》提升）...

2024年idea和IntelliJ系列激活码（持续更新）

Vux的VChart支持antv F2交互行为（Interaction）

最新文章

深度学习：RuntimeError: No CUDA GPUs are available

解决ssh使用public key远程登录服务器拒绝问题

webpack打包 css顺序异常问题解决

云原生--ceph故障排错

我们选择登月（肯尼迪总统在赖斯大学的演讲）

gre阅读passage131-174

在c语言程序中main函数的位置,在C语言程序中,main函数的位置_________。

CAP理解

「SAP技术」SAP MM 明明有维护源清单，还是不能下PO？

考研英语 长难句训练day32

词汇的逻辑＜一＞:政法(1)

Google China confident despite loss of Lee

Metosploit翻译

webpack3升级为webpack4的实践

安装运行bitsandbytes失败

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

C# 学习笔记四弹出输出框 Interaction.InputBox

原本只是想装个系统结果变成了这个样子OTZ

考研英语长难句训练day32

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载