CV每日论文--2024.7.5|电子爱好者

admin管理员组
文章数量:1565350

1、Understanding Alignment in Multimodal LLMs: A Comprehensive Study

中文标题：了解多模式法学硕士的一致性：一项综合研究

简介：优先偏好已经成为提高大型语言模型(LLMs)性能的一个关键因素。在多模态大型语言模型(MLLMs)中,优先偏好的影响相对较少被探索。与语言模型类似,用于图像理解任务的MLLMs也面临幻觉等挑战。在MLLMs中,幻觉可能通过陈述不正确事实或产生与图像内容不一致的响应而产生。优先偏好的主要目标是鼓励这些模型将响应与图像信息更紧密地对齐。

近期,多篇论文研究了MLLMs的优先偏好数据集及对齐方法,包括直接优先偏好优化(DPO)和近端策略优化(PPO)。但由于数据集、基础模型和对齐方法的差异,尚不清楚哪些具体元素对改进贡献最大。

本文独立分析了MLLMs中优先偏好对齐的每个方面。我们将对齐算法分为离线(如DPO)和在线(如在线DPO)两组,发现在某些情况下可以通过组合这两种方法来提高模型性能。我们回顾了已发布的多模态优先偏好数据集,分析了它们的构建细节对模型性能的影响。基于此,我们提出了一种新型的多模态优先偏好数据创建方式-偏见驱动幻觉抽样(BDHS),无需额外注释或外部模型,并展示其在一系列基准测试中可以达到与以前发布的工作相当的性能。

2、Predicting Visual Attention in Graphic Design Documents

中文标题：预测平面设计文档中的视觉注意力

简介：这篇文章提出了一个用于预测在浏览图形设计文件时的视觉注意力的模型。与现有的研究关注预测静态显著性不同,这项工作是首次尝试使用基于深度学习的模型来预测文档区域的空间注意力和动态时间顺序。

该模型分为两个阶段:

1. 预测每个文档组件(如网页中的标志、横幅、文本等)的显著性图,条件是文档布局的类型。然后将这些组件显著性图联合起来预测整个文档的显著性。

2. 使用这些特定于布局的组件显著性图作为逆强化学习模型的状态表示,预测文档浏览期间的注视扫描路径。

为了测试模型,作者收集了一个包含41人在自由浏览450个网页时的眼动数据的新数据集,这是同类数据集中最大的。实验结果表明,该模型在网页的显著性和扫描路径预测方面优于现有模型,并且在其他图形设计文件和自然图像中也具有良好的泛化能力。

总之,这项工作提出了一个创新的两阶段模型,能够有效地预测图形设计文件浏览时的视觉注意力,在实际应用中具有重要意义。

3、Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs

中文标题：视频水印：保护您的视频免受基于视频的法学硕士的（未经授权）注释的影响

简介：这篇文章介绍了一种新颖的视频水印技术,用于保护视频免受视频型大语言模型的未授权注释。

随着视频型大语言模型的出现,视频理解能力得到了显著增强,但也引发了一些数据保护的安全问题。视频内容可以更容易地被注释,甚至是在没有授权的情况下。

为了解决这一问题,文章提出了一种视频水印技术。通过在关键视频帧中使用多模态流损失无法察觉地嵌入水印,该方法能在保持观看体验的同时,防止视频型大语言模型的误用。

广泛的实验表明,该视频水印技术可以显著降低各种视频型大语言模型的可理解性,并展示了其隐蔽性和鲁棒性。

总的来说,这种视频水印技术为保护视频内容提供了一种解决方案,在不断发展的视频型大语言模型技术面前确保了视频内容的完整性和保密性。

本文标签：论文 CV

版权声明：本文标题：CV每日论文--2024.7.5 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1725897883a1047872.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

CV每日论文--2024.7.5

更多相关文章

告别重复率烦恼：论文润色降重助手帮你搞定降重！

「 论文投稿 」《IEEE Robotics and Automation Letters》与ICRA会议，录用经历

论文阅读之Multimodal Chain-of-Thought Reasoning in Language Models

论文翻译 | Chain-of-Thought Prompting Elicits Reasoningin Large Language Models 思维链提示在大型语言模型中引出推理

Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs论文阅读笔记（未完待续）

移动端芯片性能评测论文出炉

【论文笔记】Digital Twin in Industry: State-of-the-Art——Tao Fei

翻译论文需注意的问题

《强化学习周刊》第64期：Neurips2022强化学习论文推荐（2）、英伟达提出树搜索策略梯度...

[读论文] Electric Drive Technology Trends, Challenges, and Opportunities for Future Electric Vehicles

利用Adobe Photoshop 2020导入和批量输出论文中的图片

论文伪代码规范，伪代码在线编辑器，

推荐文章：打造专业学术简历 —— Academic CV

【微生物研究】微生物交互关系研究论文摘要集锦

论文阅读：Protecting Intellectual Property of Deep Neural Networks with Watermarking

Financial Statement Analysis with Large Language Models论文精读

论文笔记与源码阅读：《Cognitive Graph for Multi-Hop Reading Comprehension at Scale》

Cognitive Graph for Multi-Hop Reading Comprehension at Scale论文泛读笔记

[论文阅读] (19)英文论文Evaluation（实验数据集、指标和环境）如何描述及精句摘抄——以系统AI安全顶会为例

Google大数据论文GFS(Google File System)介绍

发表评论

推荐文章

Ubuntu16更新内核之后无法进入系统

MAC上Cisco AnyConnect删除不干净,造成无法重新安装的解决办法

selenium java 谷歌浏览器

itunes计算机无法启动,打开电脑中的iTunes显示Apple Mobile Device Service无法启动如何解决...

SOLIDWORKS正版一年多少钱 2024版报价

热门文章

python无法启动0xc0000022_无法正常启动0xc0000022？0xc0000022一键修复教程

Android版edge插件,Win10手机版Edge浏览器支持插件？微软官方说法

tl-wn821n无线网卡驱动 linux,tl-wn821n win10驱动

Linux文件系统（busybox）

7233 java game_7233游戏盒子下载

edgechrome谷歌浏览器崩溃，所有页面（包括设置都无法打开）所有方法都尝试过的，试试这个方法

win10共享打印机搜索不到计算机,Win10专业版在局域网中搜索不到打印机

操作系统-MIT6.S081学习

Objective-C 03Foundation Kit

2022 年面向初学者的 10 大免费 3D 建模软件

最新文章

【工具】Windows下常用录屏软件

武林外传书生版单机安装教程+GM工具+虚拟机一键端

电脑大神偷偷藏着的u盘恢复数据5个方法，现在公开

硬件知识：U盘缩水是怎么回事，如何恢复U盘真实容量？

u盘文件加密怎么设置？丢失重要数据怎么办？

网络配置切换神器 - NetSetman介绍

专注于Win7系统清除附带推广和工具

U盘文件夹为空恢复方法，恢复U盘的空白文件夹

备份数据选u盘还是硬盘？数据丢失又该如何恢复？

【数据恢复】【傲梅分区助手】

逆向工程第007篇：扫雷辅助的研究——0秒实现一键自动扫雷

win7 内存补丁_封装Win7系统定制私人GHO包必须要做的55个优化步骤

U盘跨机使用难题：打不开的困境与数据恢复之道

u盘文件夹被隐藏怎么恢复正常？

u盘中raw数据如何恢复？数据恢复软件管用吗

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

「论文投稿」《IEEE Robotics and Automation Letters》与ICRA会议，录用经历

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载