admin管理员组

文章数量:1565350

1、Understanding Alignment in Multimodal LLMs: A Comprehensive Study

中文标题:了解多模式法学硕士的一致性:一项综合研究

简介:优先偏好已经成为提高大型语言模型(LLMs)性能的一个关键因素。在多模态大型语言模型(MLLMs)中,优先偏好的影响相对较少被探索。与语言模型类似,用于图像理解任务的MLLMs也面临幻觉等挑战。在MLLMs中,幻觉可能通过陈述不正确事实或产生与图像内容不一致的响应而产生。优先偏好的主要目标是鼓励这些模型将响应与图像信息更紧密地对齐。

近期,多篇论文研究了MLLMs的优先偏好数据集及对齐方法,包括直接优先偏好优化(DPO)和近端策略优化(PPO)。但由于数据集、基础模型和对齐方法的差异,尚不清楚哪些具体元素对改进贡献最大。

本文独立分析了MLLMs中优先偏好对齐的每个方面。我们将对齐算法分为离线(如DPO)和在线(如在线DPO)两组,发现在某些情况下可以通过组合这两种方法来提高模型性能。我们回顾了已发布的多模态优先偏好数据集,分析了它们的构建细节对模型性能的影响。基于此,我们提出了一种新型的多模态优先偏好数据创建方式-偏见驱动幻觉抽样(BDHS),无需额外注释或外部模型,并展示其在一系列基准测试中可以达到与以前发布的工作相当的性能。

2、Predicting Visual Attention in Graphic Design Documents

中文标题:预测平面设计文档中的视觉注意力

简介:这篇文章提出了一个用于预测在浏览图形设计文件时的视觉注意力的模型。与现有的研究关注预测静态显著性不同,这项工作是首次尝试使用基于深度学习的模型来预测文档区域的空间注意力和动态时间顺序。

该模型分为两个阶段:

1. 预测每个文档组件(如网页中的标志、横幅、文本等)的显著性图,条件是文档布局的类型。然后将这些组件显著性图联合起来预测整个文档的显著性。

2. 使用这些特定于布局的组件显著性图作为逆强化学习模型的状态表示,预测文档浏览期间的注视扫描路径。

为了测试模型,作者收集了一个包含41人在自由浏览450个网页时的眼动数据的新数据集,这是同类数据集中最大的。实验结果表明,该模型在网页的显著性和扫描路径预测方面优于现有模型,并且在其他图形设计文件和自然图像中也具有良好的泛化能力。

总之,这项工作提出了一个创新的两阶段模型,能够有效地预测图形设计文件浏览时的视觉注意力,在实际应用中具有重要意义。

3、Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs

中文标题:视频水印:保护您的视频免受基于视频的法学硕士的(未经授权)注释的影响

简介:这篇文章介绍了一种新颖的视频水印技术,用于保护视频免受视频型大语言模型的未授权注释。

随着视频型大语言模型的出现,视频理解能力得到了显著增强,但也引发了一些数据保护的安全问题。视频内容可以更容易地被注释,甚至是在没有授权的情况下。

为了解决这一问题,文章提出了一种视频水印技术。通过在关键视频帧中使用多模态流损失无法察觉地嵌入水印,该方法能在保持观看体验的同时,防止视频型大语言模型的误用。

广泛的实验表明,该视频水印技术可以显著降低各种视频型大语言模型的可理解性,并展示了其隐蔽性和鲁棒性。

总的来说,这种视频水印技术为保护视频内容提供了一种解决方案,在不断发展的视频型大语言模型技术面前确保了视频内容的完整性和保密性。

本文标签: 论文CV