【论文阅读】Multimodal Chain-of-Thought Reasoning in Language Models|电子爱好者

admin管理员组
文章数量:1564172

【还是写写CSDN自我激励一下吧哈哈】
今天分享的是亚马逊推出的multimodal-COT，使用多模态数据触发CoT进行推理问答，在参数量小于 10 亿的情况下，在 ScienceQA 基准测试中，比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%)，甚至超过了许多人类。

论文：https://arxiv/pdf/2302.00923.pdf
源码：https://github/amazon-science/mm-cot

Problem

目前大规模语言模型在利用思维链进行复杂推理时都仅考虑了单模态（语言模态）
当参数量小于1千亿（100 billion）的时候，LMs容易胡说八道（hallucinated rationales）从而产生错误答案。

多模态CoT任务示例

输入：Question text (Q), context text ©, multiple options (M)
输出：answer (A) 或以rationale为条件给出answer（RA）或先给答案再给rationale（AR）

Motivation

经过系列实验，作者有以下观察：

观察1：没有R比有R好，推测可能是因为模型胡言乱语（hallucinated rationales），误导了答案。
观察2：加入视觉模态特征可以大幅度修正模型胡言乱语的情况。
于是乎，作者就提出了两阶段的multimodal-CoT，先用文本和视觉两类特征得到较为准确的rationale（R），然后再由R和文本以及视觉特征得到最后的answer。

模型框架

分为rationale generation和answer inference两阶段，它们使用相同的模型但是输入和输出不同
（1）rationale generation
输入：X = {X1 language , Xvision}
输出：R = F(X)
（2）answer inference
输入：X0 = {X2 language , Xvision}
其中，X2 language = X1 language ◦ R（◦表示拼接）
输出：A = F(X0 )
分别为两个阶段有监督训练了两个模型

模型结构

可以分为encoding、interaction和decoding三步

总体目标

（1）Encoding
H_language = LanguageEncoder(X_language),
使用Transformer model 【T5的encoder】
H_vision = W_h · VisionExtractor(X_vision)
使用 DETR提取patch-level vision feature
（2） Interaction
使用单头注意力网络将文本token和图像patch相关联
Query=H_language, Key=H_vision, Value=H_vision

用门控机制融合

（3）Decoding
用的T5的Decoder

整个算法过程：

Experiment

a. 数据集：ScienceQA，首个标注详细解释的多模态科学问答数据集。
b. 实验结果：

本文标签：论文 chain Multimodal Thought language

版权声明：本文标题：【论文阅读】Multimodal Chain-of-Thought Reasoning in Language Models 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1726875748a1088328.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【论文阅读】Multimodal Chain-of-Thought Reasoning in Language Models

Problem

多模态CoT任务示例

Motivation

模型框架

模型结构

总体目标

整个算法过程：

Experiment

更多相关文章

使用 Skeleton of Thought 技术实现更高效的 AI 文本生成

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models导读

“Chain of Thought Reasoning“ 和 “Chain Prompts“ 是什么

移动端芯片性能评测论文出炉

ICDE‘22推荐系统论文梳理之Industry篇

【论文笔记】Digital Twin in Industry: State-of-the-Art——Tao Fei

《强化学习周刊》第64期：Neurips2022强化学习论文推荐（2）、英伟达提出树搜索策略梯度...

[读论文] Electric Drive Technology Trends, Challenges, and Opportunities for Future Electric Vehicles

初写数学建模论文 -- 摸鱼1

基于java的课程设计管理系统设计论文

【微生物研究】微生物交互关系研究论文摘要集锦

论文将文献上标的快捷键ctrl shift =

Introduction:论文引言句式积累

[论文总结] 中国工科生常见英文写作问题总结

[论文阅读笔记04]GFTE：Graph-based Financial Table Extraction

从70%到11%‼️pp论文修改助手怎么样

【图像超分】论文精读：CoSeR: Bridging Image and Language for Cognitive Super-Resolution（CoSeR）

CBT-LLM: A Chinese Large Language Model for Cognitive Behavioral Therapy-based Mental Health QA

认知心理学论文精选Cognitive Psychology

[论文阅读] (19)英文论文Evaluation（实验数据集、指标和环境）如何描述及精句摘抄——以系统AI安全顶会为例

发表评论

推荐文章

移动应用的全新方式：超级app+轻应用

adb指令禁用软件_MIUI系统adb指令禁用系统应用

Windwos10系统提示”无法完成更新、正在撤销更改、请不要关闭你的计算机“解决办法

esp8266搭建智能家居系统

电脑丢失dll文件一键修复需要什么软件？快速修复dll文件的方法

热门文章

路由器（Tenda 811R）变砖——修复

台式计算机激光头,cd机激光头维修论坛-CD机维修，我家台式CD机坏了，进仓后激光头只动动，但是不发红光，懂的朋友来指点。-电气资讯- 电工屋...

英语作文 谈谈计算机1.我们已进入了计算机时代2.计算机有很多优点,关于电脑优点英语作文...

华为移动应用引擎初体验——先于windows 11支持安卓？

IRQL_NOT_LESS_OR_EUQAL，间歇性蓝屏，4800h笔记本，暗影精灵6，解决办法，蓝屏问题排查

win搜索框无法输入中文

论文常用词

linux系统重装yum工具与python环境

linux安装谷歌浏览器（chrome）教程

python模拟浏览器爬虫之使用代理驱动“谷歌浏览器”

最新文章

记一次老手机连接Wifi显示已保存，却不真正连接

安卓手机WiFi信号桥，增强版个人热点，wifi中继（第三方软件设置）root权限设置增强版个人热点名称密码

Kali Linux基础-抓包与WIFI密码暴力破解

android wifi热点默认名称,Android 修改WiFi热点的默认SSID和密码

W ndows7怎样查看wF密码,Win7秘笈：如何查看系统储存的WiFi密码？

android 手机wifi重启,android – 如何通过重启来记住wifi配置和连接网络

android wifi名称修改器,360随身WIFI(SSID)名称修改工具v1.5.0

教你如何查看连接过的wifi密码

怎么更改wifi频段_我告诉你wifi频段怎么设置

手机怎么看WiFi的IP地址

kali linux破解wifi密码-超详细过程

MAC系统下破解WIFI密码

Android Wifi热点通信，及Android7.0上修改手机连接wifi方法，和其他大神提供的方法稍作修改

kali系统破解wifi密码

【毕业设计】 stm32单片机的远程WIFI密码锁 - 物联网 嵌入式

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

英语作文谈谈计算机1.我们已进入了计算机时代2.计算机有很多优点,关于电脑优点英语作文...

【毕业设计】 stm32单片机的远程WIFI密码锁 - 物联网嵌入式

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载