【AI视野·今日CV 计算机视觉论文速览第276期】Thu, 26 Oct 2023

编程入门行业动态更新时间:2024-10-09 10:21:28

【AI<a href=https://www.elefans.com/category/jswz/34/1759907.html style= 视野·今日CV 计算机视觉论文速览第276期】Thu, 26 Oct 2023"/>

【AI视野·今日CV 计算机视觉论文速览第276期】Thu, 26 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 26 Oct 2023
Totally 95 papers
👉上期速览✈更多精彩请移步主页

Daily Computer Vision Papers

Proposal-Contrastive Pretraining for Object Detection from Fewer Data
Authors Quentin Bouniot, Romaric Audigier, Ang lique Loesch, Amaury Habrard
使用预训练的深度神经网络是一种利用少量可用数据即可获得良好结果的有吸引力的方法。当专门研究对象检测等密集问题时，学习图像中的局部信息而不是全局信息已被证明更有效。然而，对于无监督预训练，流行的对比学习需要大批量，因此需要大量资源。

LightSpeed: Light and Fast Neural Light Fields on Mobile Devices
Authors Aarush Gupta, Junli Cao, Chaoyang Wang, Ju Hu, Sergey Tulyakov, Jian Ren, L szl A Jeni
由于计算能力和存储空间有限，移动设备上的实时新颖视图图像合成是令人望而却步的。由于体积渲染的计算成本很高，因此在移动设备上使用体积渲染方法（例如 NeRF 及其衍生物）并不合适。另一方面，神经光场表示的最新进展在移动设备上显示出了有希望的实时视图合成结果。神经光场方法学习从光线表示到像素颜色的直接映射。当前选择的光线表示是分层光线采样或 Plcker 坐标，忽略了经典的光板两个平面表示，这是在光场视图之间插值的首选表示。在这项工作中，我们发现使用光板表示是学习神经光场的有效表示。更重要的是，它是一种较低维的光线表示，使我们能够使用特征网格来学习 4D 光线空间，而特征网格的训练和渲染速度要快得多。尽管主要是针对正面视图而设计的，但我们表明，可以使用分而治之的策略将光板表示进一步扩展到非正面场景。

PERF: Panoramic Neural Radiance Field from a Single Panorama
Authors Guangcong Wang, Peng Wang, Zhaoxi Chen, Wenping Wang, Chen Change Loy, Ziwei Liu
神经辐射场 NeRF 在给定多视图图像的新颖视图合成方面取得了实质性进展。最近，一些工作尝试从具有 3D 先验的单个图像训练 NeRF。它们主要关注有限的视野，并且几乎没有不可见的遮挡，这极大地限制了它们对具有大尺寸遮挡的现实世界360度全景场景的可扩展性。在本文中，我们提出了 PERF，一种 360 度新颖的视图合成框架，可以从单个全景图中训练全景神经辐射场。值得注意的是，PERF 允许在复杂场景中进行 3D 漫游，而无需昂贵且繁琐的图像收集。为了实现这一目标，我们提出了一种新颖的协作 RGBD 修复方法以及渐进式修复和擦除方法，将 360 度 2D 场景提升为 3D 场景。具体来说，我们首先预测全景深度图作为给定单个全景图的初始化，并通过体积渲染重建可见的 3D 区域。然后，我们将协作 RGBD 修复方法引入 NeRF，用于从随机视图完成 RGB 图像和深度图，该方法源自 RGB 稳定扩散模型和单目深度估计器。最后，我们引入了修复和擦除策略，以避免新采样的视图和参考视图之间的几何图形不一致。这两个组件在统一的优化框架中集成到 NeRF 的学习中，并取得了可喜的结果。对副本和新数据集 PERF 进行的广泛实验证明了我们的 PERF 相对于最先进方法的优越性。我们的 PERF 可广泛用于现实世界的应用，例如全景转 3D、文本转 3D 以及 3D 场景风格化应用。

CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images
Authors Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov
我们组装了一个知识共享许可的 CC 图像数据集，用于训练一组开放扩散模型，这些模型在质量上可与 Stable Diffusion 2 SD2 竞争。这项任务提出了两个挑战 1 高分辨率 CC 图像缺乏训练文本到图像生成模型所需的标题 2 CC 图像相对稀缺。反过来，为了应对这些挑战，我们使用直观的迁移学习技术来生成一组与精选的 CC 图像配对的高质量合成字幕。然后，我们开发了一种数据和计算高效的训练方案，训练现有 SD2 模型所需的 LAION 2B 数据仅需 3 个，但获得的质量相当。这些结果表明我们有足够数量的 CC 图像 7000 万张来训练高质量模型。我们的训练方案还实施了各种优化，可将训练速度提高 3 倍，从而实现快速模型迭代。我们利用这个方法来训练几个高质量的文本到图像模型，我们将其称为 CommonCanvas 系列。尽管我们在比 LAION 小得多的 CC 数据集上进行训练并使用合成字幕进行训练，但我们最大的模型在人类评估中实现了与 SD2 相当的性能。

DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior
Authors Jingxiang Sun, Bo Zhang, Ruizhi Shao, Lizhen Wang, Wen Liu, Zhenda Xie, Yebin Liu
我们提出 DreamCraft3D，这是一种分层 3D 内容生成方法，可生成高保真度和连贯的 3D 对象。我们通过利用 2D 参考图像来指导几何雕刻和纹理增强阶段来解决这个问题。这项工作的中心重点是解决现有作品遇到的一致性问题。为了雕刻连贯渲染的几何图形，我们通过视图相关扩散模型执行分数蒸馏采样。这种 3D 先验以及多种训练策略优先考虑几何一致性，但会损害纹理保真度。我们进一步建议使用 Bootstrapped Score Distillation 来专门增强纹理。我们在场景的增强渲染上训练个性化扩散模型 Dreambooth，为其注入正在优化的场景的 3D 知识。这种 3D 感知扩散先验的分数蒸馏为场景提供了视图一致的指导。值得注意的是，通过对扩散先验和 3D 场景表示的交替优化，我们实现了相辅相成的改进，优化的 3D 场景有助于训练场景特定的扩散模型，从而为 3D 优化提供越来越一致的视图指导。优化因此被引导并导致显着的纹理增强。通过在整个分层生成过程中定制的 3D 先验，DreamCraft3D 可以生成具有照片级真实感渲染的连贯 3D 对象，从而推进 3D 内容生成的最新技术。

Fingervein Verification using Convolutional Multi-Head Attention Network
Authors Raghavendra Ramachandra, Sushma Venkatesh
生物特征验证系统部署在各种基于安全的访问控制应用程序中，这些应用程序需要用户友好且可靠的人员验证。在不同的生物识别特征中，指静脉生物识别技术因其可靠的验证性能而受到广泛的研究。此外，指静脉图案驻留在皮肤内部，在外部不可见，因此，它们具有对外部因素引起的呈现攻击和退化的固有抵抗力。在本文中，我们介绍了一种新颖的指静脉验证技术，该技术使用称为 VeinAtnNet 的卷积多头注意力网络。所提出的 VeinAtnNet 旨在通过较少数量的可学习参数实现轻量级，同时从正常和增强的指静脉图像中提取判别信息。所提出的 VeinAtnNet 在新构建的指静脉数据集上进行了训练，该数据集包含在多个会话中捕获的 300 个独特的指静脉模式，以获得每个独特的指静脉 92 个样本。在新收集的数据集 FV 300 以及公开的 FV USM 和 FV PolyU 指静脉数据集上进行了广泛的实验。

The GOOSE Dataset for Perception in Unstructured Environments
Authors Peter Mortimer, Raphael Hagmanns, Miguel Granero, Thorsten Luettel, Janko Petereit, Hans Joachim Wuensche
通过改善对环境的感知和解释，可以显着增加部署自主系统的潜力。然而，由于训练和测试的数据可用性有限，在非结构化户外环境中开发基于深度学习的自主系统技术面临着挑战。为了解决这一差距，我们推出了德国户外和越野数据集 GOOSE，这是一个专为非结构化户外环境设计的综合数据集。 GOOSE 数据集包含 10,000 个带标签的图像和点云对，用于在图像和点云数据上训练一系列最先进的分割模型。我们开源数据集、非结构化地形本体以及数据集标准和指南。该倡议旨在建立一个通用框架，实现现有数据集的无缝包含，并快速增强在非结构化环境中运行的各种机器人的感知能力。

S$^3$-TTA: Scale-Style Selection for Test-Time Augmentation in Biomedical Image Segmentation
Authors Kangxian Xie, Siyu Huang, Sebastian Cajas Ordone, Hanspeter Pfister, Donglai Wei
深度学习模型在生物医学图像分割方面取得了成功。为了推广现实世界的部署，通常使用测试时间增强 TTA 方法将测试图像转换为更接近训练域的不同版本。不幸的是，由于实例规模和图像风格的巨大多样性，许多增强测试图像产生了不良结果，从而降低了整体性能。这项工作提出了一种新的 TTA 框架 S 3 TTA，它根据变换一致性指标为每个测试图像选择合适的图像比例和风格。此外，S 3 TTA构建了端到端增强分段联合训练管道，以确保面向任务的增强。

Kiki or Bouba? Sound Symbolism in Vision-and-Language Models
Authors Morris Alper, Hadar Averbuch Elor
尽管人类语言中声音和意义之间的映射被认为在很大程度上是任意的，但认知科学研究表明，跨语言和人口群体的特定声音和意义之间存在着重要的相关性，这种现象被称为声音象征主义。在意义的许多维度中，声音象征尤为突出，并且在语言和视觉领域之间的跨模式关联方面得到了很好的证明。在这项工作中，我们解决了声音象征主义是否反映在视觉和语言模型（例如 CLIP 和稳定扩散）中的问题。使用零样本知识探测来研究这些模型的固有知识，我们发现强有力的证据表明它们确实表现出这种模式，与心理语言学中众所周知的 kiki bouba 效应相似。我们的工作提供了一种利用计算工具展示声音象征意义并理解其本质的新颖方法。

ConvNets Match Vision Transformers at Scale
Authors Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
许多研究人员认为，ConvNet 在小型或中等大小的数据集上表现良好，但在访问网络规模的数据集时，与 Vision Transformer 相比并不具有竞争力。我们通过评估在 JFT 4B 上预先训练的高性能 ConvNet 架构来挑战这一信念，JFT 4B 是一个经常用于训练基础模型的大型标记图像数据集。我们考虑预训练计算预算在 0.4k 到 110k TPU v4 核心计算小时之间，并训练一系列来自 NFNet 模型系列的深度和宽度不断增加的网络。我们观察到保留损失和计算预算之间的对数对数缩放定律。在对 ImageNet 进行微调后，NFNet 将 Vision Transformer 报告的性能与可比较的计算预算相匹配。

CAD -- Contextual Multi-modal Alignment for Dynamic AVQA
Authors Asmar Nadeem, Adrian Hilton, Robert Dawes, Graham Thomas, Armin Mustafa
在视听问答 AVQA 任务的背景下，可以在三个级别上学习视听模式：1 空间、2 时间和 3 语义。现有的 AVQA 方法存在两个主要缺点：通过网络的视听 AV 信息在空间和时间级别上不对齐，并且模间音频和视觉语义信息通常在上下文中不平衡，这会导致性能不佳。在本文中，我们提出了一种新颖的端到端上下文多模态对齐 CAD 网络，通过引入无参数随机上下文块来解决 AVQA 方法中的挑战，该块可确保空间级别上稳健的音频和视觉对齐 ii 提出预训练技术用于在自我监督的环境中在时间级别上进行动态音频和视觉对齐，以及 iii 引入交叉注意机制来平衡语义级别上的音频和视觉信息。所提出的新颖 CAD 网络在 MUSIC AVQA 数据集上的整体性能比最先进的方法平均提高了 9.4。

Metrically Scaled Monocular Depth Estimation through Sparse Priors for Underwater Robots
Authors Luca Ebner, Gideon Billings, Stefan Williams
在这项工作中，我们解决了移动水下航行器的单目图像的实时密集深度估计问题。我们制定了一个深度学习模型，融合三角测量特征的稀疏深度测量，以改进深度预测并解决尺度模糊问题。为了允许任意稀疏的先前输入，我们应用了密集参数化方法。我们的模型将最近最先进的方法扩展到基于单目图像的深度估计，使用高效的编码器解码器主干和现代轻量级变压器优化阶段来编码全局上下文。该网络在前瞻性水下数据集 FLSea 上以监督方式进行训练。该数据集的评估结果表明，通过稀疏特征先验的融合，深度预测精度得到显着提高。此外，在没有任何重新训练的情况下，我们的方法在我们使用潜水员操作的相机设备收集的向下观察的数据集上实现了类似的深度预测精度，对珊瑚礁进行了调查。该方法实现了实时性能，在笔记本电脑 GPU 上以 160 FPS 运行，在单 CPU 内核上以 7 FPS 运行，适合直接部署在嵌入式系统上。

A No-Reference Quality Assessment Method for Digital Human Head
Authors Yingjie Zhou, Zicheng Zhang, Wei Sun, Xiongkuo Min, Xianghe Ma, Guangtao Zhai
近年来，数字人类被广泛应用于增强虚拟现实（VR）领域，观众可以自由观察立体内容并与之互动。然而，数字人在生成和传输的过程中可能会出现各种失真的退化。此外，在数字人类的感知质量评估方面投入很少。因此，迫切需要开展客观的质量评估方法来应对数字人体质量评估DHQA的挑战。在本文中，我们开发了一种基于 Transformer 的新型无参考 NR 方法，以多任务方式处理 DHQA。具体来说，数字人的正面 2D 投影被渲染为输入，并采用视觉变换器 ViT 进行特征提取。然后，我们设计了一个多任务模块来对失真类型进行联合分类并预测数字人类的感知质量水平。

Rebuild City Buildings from Off-Nadir Aerial Images with Offset-Building Model (OBM)
Authors Kai Li, Yupeng Deng, Yunlong Kong, Diyou Liu, Jingbo Chen, Yu Meng, Junxian Ma
在极高分辨率遥感图像中准确测量从屋顶到足迹的偏移对于城市信息提取任务至关重要。在深度学习的帮助下，现有方法通常依赖两阶段 CNN 模型来提取构建特征图上的感兴趣区域。在第一阶段，应用区域提议网络 RPN 来提取数千个 ROI 感兴趣区域，并将其导入到基于区域的卷积神经网络 RCNN 中以提取所需信息。然而，由于 RPN 不灵活，这些方法往往缺乏有效的用户交互，在实例对应方面遇到困难，难以跟上通用人工智能的进步。本文介绍了一种与提示编码器相结合的交互式 Transformer 模型，可以精确提取建筑物分割以及从屋顶到足迹的偏移向量。在我们的模型中，一个强大的模块，即 ROAM，是针对预测屋顶到占地面积偏移的常见问题而定制的。我们在公开的 BONAI 数据集上测试了我们的模型的可行性，实现了提示实例级别偏移误差的显着降低，范围从 14.6 到 16.3。此外，我们还开发了针对大规模建筑物偏移量的距离 NMS 算法，以简单有效的方式显着提高了预测建筑物偏移角度和长度的准确性。为了进一步验证模型的稳健性，我们使用来自中国惠州的0.5m遥感影像创建了一个新的测试集，用于推理测试。

Nighttime Driver Behavior Prediction Using Taillight Signal Recognition via CNN-SVM Classifier
Authors Amir Hossein Barshooi, Elmira Bagheri
本文旨在通过识别人类驾驶和自动驾驶车辆的尾灯来增强预测夜间驾驶行为的能力。所提出的模型采用了定制检测器，旨在准确检测道路上的前车尾灯。在检测器的开始，实现了一个可学习的预处理块，它从输入图像中提取深层特征并计算每个特征的数据稀有度。下一步，从软注意力中汲取灵感，设计了一个加权二元掩模，引导模型更多地关注预定区域。这项研究利用卷积神经网络 CNN 从这些区域中提取显着特征，然后使用主成分分析 PCA 来降低维度。最后，支持向量机SVM用于预测车辆的行为。为了训练和评估模型，从福特汽车公司车辆后视的两种行车记录仪和 Insta360 摄像头收集了大规模数据集。该数据集包括在白天和夜间捕获的超过 12k 帧。为了解决夜间数据有限的问题，采用了独特的像素级图像处理技术，将白天图像转换为逼真的夜间图像。实验结果表明，所提出的方法可以准确地对车辆行为进行分类，准确度为 92.14，特异性为 92.09，灵敏度为 92.09，F1 测量为 92.10，Cohen s Kappa 统计量为 0.895。

From Pointwise to Powerhouse: Initialising Neural Networks with Generative Models
Authors Christian Harder, Moritz Fuchs, Yuri Tolkach, Anirban Mukhopadhyay
传统的初始化方法，例如他和 Xavier 有效地避免了神经网络中梯度消失或爆炸的问题。然而，他们只使用简单的点状分布，对一维变量进行建模。此外，他们忽略了有关架构的大部分信息，也忽略了过去的培训经验。这些限制可以通过采用生成模型进行初始化来克服。在本文中，我们介绍了两组新的初始化方法。首先，我们通过使用变分自动编码器来局部初始化权重组。其次，我们通过使用图超网络来全局初始化完整的权重集。我们从准确性、收敛速度和集成方面全面评估了所采用的生成模型对最先进的神经网络的影响。我们的结果表明，全局初始化可以带来更高的精度和更快的初始收敛速度。然而，通过图超网络的实现会导致分布数据外的集成性能下降。为了解决这个问题，我们提出了一种称为噪声图超网络的修改，它鼓励产生的集成成员的多样性。此外，我们的方法可能能够将学到的知识转移到不同的图像分布。

DSAM-GN:Graph Network based on Dynamic Similarity Adjacency Matrices for Vehicle Re-identification
Authors Yuejun Jiao, Song Qiu, Mingsong Chen, Dingding Han, Qingli Li, Yue Lu
近年来，随着智能交通系统的发展，车辆重新识别Re ID在辅助驾驶系统、交通流管理和车辆跟踪等各种应用中变得越来越重要。然而，无关背景信息和遮挡的存在可能会干扰判别特征的学习，导致同一车辆图像在不同场景下出现显着变化。本文提出了一种基于动态相似邻接矩阵 DSAM GN 的图网络方法，该方法采用了一种构建邻接矩阵的新方法来捕获局部特征的空间关系并减少背景噪声。具体来说，所提出的方法将提取的车辆特征划分为不同的块作为图网络内的节点。采用基于空间注意力的相似性邻接矩阵生成SASAMG模块来计算节点的相似性矩阵，并应用动态擦除操作来断开相似性低的节点，从而产生相似性邻接矩阵。最后，将节点和相似性邻接矩阵输入到图网络中，以提取更多用于车辆重新识别的判别性特征。

Robust Source-Free Domain Adaptation for Fundus Image Segmentation
Authors Lingrui Li, Yanfeng Zhou, Ge Yang
无监督域适应 UDA 是一种学习技术，它将源域中学到的知识从标记的训练数据转移到仅使用未标记数据的目标域。由于通常缺乏标记的训练数据，它对于医学图像分割非常重要。尽管人们在优化 UDA 技术以提高目标域中分割模型的准确性方面做出了广泛的努力，但很少有研究解决 UDA 下这些模型的鲁棒性。在本研究中，我们提出了一种用于鲁棒域适应的两阶段训练策略。在源训练阶段，我们利用对抗性样本增强来增强源模型的鲁棒性和泛化能力。在目标训练阶段，我们提出了一种新颖的鲁棒伪标签和伪边界PLPB方法，该方法有效地利用未标记的目标数据来生成伪标签和伪边界，从而无需源数据即可实现模型自适应。跨域眼底图像分割的广泛实验结果证实了我们方法的有效性和多功能性。

A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation
Authors Eyal Segalis, Dani Valevski, Danny Lumen, Yossi Matias, Yaniv Leviathan
文本到图像扩散模型在过去几年中实现了功能上的显着飞跃，能够根据文本提示实现高质量和多样化的图像合成。然而，即使是最先进的模型也常常难以精确遵循提示中的所有指示。这些模型中的绝大多数都是在由图像、标题对组成的数据集上进行训练的，其中图像通常来自网络，标题是它们的 HTML 替代文本。一个值得注意的例子是稳定扩散和其他模型使用的 LAION 数据集。在这项工作中，我们观察到这些标题通常质量较低，并认为这会显着影响模型理解文本提示中细微语义的能力。我们表明，通过使用专门的自动字幕模型重新标记语料库并在重新描述的数据集上训练文本到图像模型，该模型全面受益。首先，在整体图像质量方面，例如根据人类评估，FID 14.84 与基线 17.87 相比，在忠实图像生成方面有 64.3 的改进。其次，在语义对齐方面，例如语义对象准确度为 84.34 vs. 78.90，计算对齐错误为 1.32 vs. 1.44，位置对齐错误为 62.42 vs. 57.60。我们分析了重新标记语料库的各种方法，并提供证据证明这种技术（我们称之为 RECAP）既可以减少训练推理差异，又可以为模型提供每个示例的更多信息，从而提高样本效率并允许模型更好地理解字幕之间的关系

EmoCLIP: A Vision-Language Method for Zero-Shot Video Facial Expression Recognition
Authors Niki Maria Foteinopoulou, Ioannis Patras
面部表情识别 FER 是情感计算中的一项关键任务，但其传统上对七种基本情感的关注限制了其对复杂且不断扩展的情感范围的适用性。为了解决野外动态 FER 中存在的新的和看不见的情感问题，我们提出了一种新颖的视觉语言模型，该模型利用样本级文本描述，即上下文、表达或情感线索的标题作为自然语言监督，旨在增强学习丰富的潜在表示，用于零样本分类。为了测试这一点，我们使用在四个流行的动态 FER 数据集上的样本级别描述上训练的模型的零样本分类进行评估。我们的研究结果表明，与基线方法相比，这种方法产生了显着的改进。具体来说，对于零镜头视频 FER，我们在多个数据集上的加权平均召回率比 CLIP 好 10 倍，在未加权平均召回率方面比 CLIP 好 5 倍。此外，我们评估了从使用心理健康症状估计下游任务的样本水平描述训练的网络获得的表示，实现了与最先进的方法相当或更好的性能，并与人类专家高度一致。也就是说，我们在精神分裂症症状严重程度估计方面实现了高达 0.85 的皮尔逊相关系数，这与人类专家的共识相当。

Driving through the Concept Gridlock: Unraveling Explainability Bottlenecks
Authors Jessica Echterhoff, An Yan, Kyungtae Han, Amr Abdelraouf, Rohit Gupta, Julian McAuley
通过使用一组人类定义的概念对模型中的信息进行编码，概念瓶颈模型已成功用于可解释的机器学习。在人类辅助或自动驾驶的背景下，可解释性模型可以帮助用户接受和理解自动驾驶车辆做出的决策，这可用于合理化和解释驾驶员或车辆的行为。我们提出了一种新方法，使用概念瓶颈作为控制命令预测和用户和车辆行为解释的视觉特征。我们学习人类可理解的概念层，用于解释顺序驾驶场景，同时学习车辆控制命令。然后，该方法可用于确定人类或自动驾驶车辆的首选间隙或转向命令的变化是否是由外部刺激或偏好变化引起的。

EdgeCalib: Multi-Frame Weighted Edge Features for Automatic Targetless LiDAR-Camera Calibration
Authors Xingchen Li, Yifan Duan, Beibei Wang, Haojie Ren, Guoliang You, Yu Sheng, Jianmin Ji, Yanyong Zhang
在多模态感知系统中，实现激光雷达和相机之间的精确外在校准至关重要。以前的校准方法通常需要特定的目标或手动调整，这使得它们既费力又昂贵。基于特征的在线标定方法已经被提出，但这些方法遇到了特征提取不精确、跨模态关联不可靠、场景特定要求高等挑战。为了解决这个问题，我们引入了一种基于边缘的方法，用于在现实场景中自动在线校准激光雷达和摄像机。在各种环境中普遍存在的边缘特征在图像和点云中对齐以确定外在参数。具体来说，使用基于SAM的方法提取稳定且鲁棒的图像边缘特征，并通过多帧加权策略对从点云提取的边缘特征进行加权以进行特征过滤。最后，基于边缘对应约束优化准确的外在参数。我们对 KITTI 数据集和我们的数据集进行了评估。

Real-time 6-DoF Pose Estimation by an Event-based Camera using Active LED Markers
Authors Gerald Ebmer, Adam Loch, Minh Nhat Vu, Germain Haessig, Roberto Mecca, Markus Vincze, Christian Hartl Nesic, Andreas Kugi
自主操作的实时应用在很大程度上取决于快速且强大的基于视觉的定位系统。由于图像处理任务需要处理大量数据，因此计算资源通常会限制其他进程的性能。为了克服这一限制，传统的基于标记的定位系统被广泛使用，因为它们易于集成并实现可靠的精度。然而，基于经典标记的定位系统很大程度上依赖于低帧速率的标准相机，而这些相机通常由于运动模糊而缺乏准确性。相比之下，基于事件的相机提供高时间分辨率和高动态范围，即使在具有挑战性的视觉条件下，也可用于快速定位任务。本文提出了一种简单但有效的基于事件的姿态估计系统，使用主动 LED 标记 ALM 进行快速、准确的姿态估计。所提出的算法能够实时运行，延迟低于 SI 0.5 毫秒，同时保持 SI 3 kHz 的输出速率。

Context Does Matter: End-to-end Panoptic Narrative Grounding with Deformable Attention Refined Matching Network
Authors Yiming Lin, Xiao Bo Jin, Qiufeng Wang, Kaizhu Huang
全景叙事基础 PNG 是一种新兴的视觉基础任务，旨在根据密集的叙事字幕分割图像中的视觉对象。当前最先进的方法首先通过聚合最相似的 k 个图像像素来细化短语的表示，然后将细化的文本表示与图像特征图的像素进行匹配以生成分割结果。然而，简单地聚合采样图像特征会忽略上下文信息，这可能导致短语与像素不匹配。在本文中，我们提出了一种称为可变形注意力精细匹配网络 DRMN 的新型学习框架，其主要思想是在特征学习的迭代过程中引入可变形注意力，以合并不同尺度像素的基本上下文信息。 DRMN 在更新前 k 个最相似像素的特征表示后，使用可变形注意网络迭代地重新编码像素。因此，DRMN 可以产生准确但有区别的像素表示，纯化前 k 个最相似的像素，从而大大减轻短语到像素的不匹配。实验结果表明，我们的新颖设计显着改善了文本短语和图像像素之间的匹配结果。具体而言，DRMN 在 PNG 基准上实现了新的最先进性能，平均召回率提高了 3.5。

$\mathbb{VD}$-$\mathbb{GR}$: Boosting $\mathbb{V}$isual $\mathbb{D}$ialog with Cascaded Spatial-Temporal Multi-Modal $\mathbb{GR}$aphs
Authors Adnen Abdessaied, Lei Shi, Andreas Bulling
我们提出了 mathbb VD mathbb GR 一种新颖的视觉对话模型，它将预先训练的语言模型 LM 与图神经网络 GNN 结合起来。先前的工作主要集中于一类模型，而牺牲了另一类模型，从而错过了结合各自优点的机会。 mathbb VD mathbb GR 的核心是一种新颖的集成机制，它在时空多模态 GNN 和 BERT 层之间交替，涵盖三个不同的贡献。在执行 BERT 全局注意力之前对话历史并利用其局部结构。其次，我们提出链接到一个模态图中所有其他节点的中心节点，允许模型以级联方式将信息从一种 GNN 模态传播到另一种模态。第三，我们使用细粒度多模态 GNN 特征增强 BERT 隐藏状态，然后将它们传递到下一个 mathbb VD mathbb GR 层。

Learning to Explain: A Model-Agnostic Framework for Explaining Black Box Models
Authors Oren Barkan, Yuval Asher, Amit Eshel, Yehonatan Elisha, Noam Koenigstein
我们提出了学习解释 LTX，这是一个模型无关的框架，旨在为视觉模型提供事后解释。 LTX 框架引入了一个解释器模型，该模型可以生成解释图，突出显示证明所解释模型做出的预测合理的关键区域。为了训练解释器，我们采用了一个两阶段过程，包括初始预训练和每个实例的微调。在训练的两个阶段中，我们利用独特的配置，将解释模型对屏蔽输入的预测与其对未屏蔽输入的原始预测进行比较。这种方法可以使用一种新颖的反事实目标，其目的是使用输入图像的屏蔽版本来预测模型的输出。重要的是，LTX 框架不限于特定的模型架构，并且可以为基于 Transformer 的模型和卷积模型提供解释。

Adapt Anything: Tailor Any Image Classifiers across Domains And Categories Using Text-to-Image Diffusion Models
Authors Weijie Chen, Haoyu Wang, Shicai Yang, Lei Zhang, Wei Wei, Yanning Zhang, Luojun Lin, Di Xie, Yueting Zhuang
我们在本文中并不追求新颖的方法，而是旨在研究现代文本到图像扩散模型是否可以跨领域和类别定制任何任务自适应图像分类器。现有的域自适应图像分类工作利用源数据和目标数据进行域对齐，以便将从标记的源数据学到的知识转移到未标记的目标数据。然而，随着文本到图像扩散模型的发展，我们想知道从文本到图像生成器的高保真合成数据是否可以作为现实世界中源数据的替代品。这样，我们就不需要以一对一的方式收集和注释每个领域适应任务的源数据。相反，我们仅利用一种现成的文本到图像模型来合成具有从相应文本提示派生的类别标签的图像，然后利用代理数据作为桥梁，将嵌入在任务无关文本到图像生成器中的知识传输到通过域适应的面向任务的图像分类器。这种万能的适应范式允许我们仅使用一种文本到图像生成器以及相应的未标记目标数据来适应世界上的任何事物。

Flow-Attention-based Spatio-Temporal Aggregation Network for 3D Mask Detection
Authors Yuxin Cao, Yian Li, Yumeng Zhu, Derui Wang, Minhui Xue
由于欺骗攻击带来的安全威胁，反欺骗检测已成为人脸识别系统的必要条件。尽管在传统攻击中取得了巨大成功，但大多数基于深度学习的方法在 3D 掩模方面表现不佳，3D 掩模可以在外观和结构上高度模拟真实人脸，但在仅关注单帧输入的空间域时存在泛化性不足。最近引入的一种称为 rPPG 远程光电体积描记法的生物医学技术缓解了这一问题。然而，基于rPPG的方法对噪声干扰敏感，并且需要至少一秒25帧的观察时间，这会导致较高的计算开销。为了应对这些挑战，我们提出了一种新颖的 3D 掩模检测框架，称为基于 FASTEN Flow Attention 的 Spatio Temporal aggrEgation Network 。我们对网络进行了定制，使其更关注大运动中的细粒度细节，这可以消除冗余的时空特征干扰，并在更少的帧中快速捕获 3D 掩模的拼接痕迹。我们提出的网络包含三个关键模块：1 面部光流网络，用于获取非 RGB 帧间流信息；2 流注意，为每个帧分配不同的重要性；3 时空聚合，聚合高级空间特征和时间过渡特征。通过大量的实验，FASTEN 仅需要 5 帧输入，并且在多个检测指标方面的数据集内和跨数据集评估方面均优于八个竞争对手。

ParisLuco3D: A high-quality target dataset for domain generalization of LiDAR perception
Authors Jules Sanchez, Louis Soum Fontez, Jean Emmanuel Deschaud, Francois Goulette
LiDAR 是一种传感器系统，通过收集有关场景的精确几何信息来支持自动驾驶。

Dual Defense: Adversarial, Traceable, and Invisible Robust Watermarking against Face Swapping
Authors Yunming Zhang, Dengpan Ye, Caiyun Xie, Long Tang, Chuanxi Chen, Ziyi Liu, Jiacheng Deng
以换脸为代表的深度伪造恶意应用带来了错误信息传播、身份欺诈等安全威胁。虽然一些研究提出使用鲁棒的水印方法来追踪面部图像的版权以进行事后追溯，但这些方法不能有效地从源头上防止伪造的产生并遏制其传播。为了解决这个问题，我们提出了一种结合可追溯性和对抗性的新型综合主动防御机制，称为双重防御。双重防御在目标人脸中无形地嵌入单个强大的水印，以主动应对突发的恶意换脸情况。它破坏了换脸模型的输出，同时在整个传播过程中保持水印信息的完整性。这允许在图像跟踪的任何阶段提取水印以实现可追溯性。具体来说，我们介绍了一种基于原始域特征模拟攻击的水印嵌入网络。该网络学习目标面部图像的强大对抗特征并嵌入水印，通过感知对抗编码策略在水印不可见性、对抗性和可追溯性之间寻求良好的平衡。大量实验表明，双重防御实现了最佳的整体防御成功率，并在反换脸任务和数据集泛化能力方面表现出了有希望的通用性。

Learning Robust Deep Visual Representations from EEG Brain Recordings
Authors Prajwal Singh, Dwip Dalal, Gautam Vashishtha, Krishna Miyapuram, Shanmuganathan Raman
解码人脑一直是神经科学家和人工智能研究人员的标志。脑电图脑电图信号的视觉图像重建由于其在脑机接口中的应用而引起了广泛的关注。本研究提出了一种两阶段方法，其中第一步是获取脑电图派生特征以进行深度表示的鲁棒学习，然后利用学习到的表示进行图像生成和分类。我们使用具有监督和对比学习方法的深度学习架构，展示了我们的特征提取管道在三个不同数据集上的通用性。我们执行了零样本脑电图分类任务以进一步支持普遍性主张。我们观察到，在单峰设置中单独使用脑电图数据来学习主体不变的线性可分离视觉表示，与脑电图和图像之间的联合表示学习相比，它提供了更好的 k 均值准确性。最后，我们提出了一种新颖的框架，将看不见的图像转换到脑电图空间并通过近似重建它们，展示了脑电图信号图像重建的潜力。

Enhancing Document Information Analysis with Multi-Task Pre-training: A Robust Approach for Information Extraction in Visually-Rich Documents
Authors Tofik Ali, Partha Pratim Roy
本文介绍了一种为文档信息分析量身定制的深度学习模型，强调文档分类、实体关系提取和文档可视化问答。所提出的模型利用基于变压器的模型来编码文档图像中存在的所有信息，包括文本、视觉和布局信息。该模型经过预先训练，随后针对各种文档图像分析任务进行微调。所提出的模型在预训练阶段包含三个附加任务，包括文档图像中不同布局片段的阅读顺序识别、根据 PubLayNet 的布局片段分类以及给定布局片段文本块内的文本序列的生成。该模型还采用了集体预训练方案，其中考虑了所有正在考虑的任务的损失，包括所有数据集的预训练和微调任务。 RoBERTa 网络中添加了额外的编码器和解码器块，以生成所有任务的结果。所提出的模型在所有任务中都取得了令人印象深刻的结果，在用于文档分类的 RVL CDIP 数据集上的准确度为 95.87，在实体的 FUNSD、CORD、SROIE 和 Kleister NDA 数据集上的 F1 分数分别为 0.9306、0.9804、0.9794 和 0.8742关系提取，视觉问答的 DocVQA 数据集上的 ANLS 得分为 0.8468。

Lang3DSG: Language-based contrastive pre-training for 3D Scene Graph prediction
Authors Sebastian Koch, Pedro Hermosilla, Narunas Vaskevicius, Mirco Colosi, Timo Ropinski
D 场景图是一种新兴的 3D 场景表示，它对场景中存在的对象及其关系进行建模。然而，学习 3D 场景图是一项具有挑战性的任务，因为它不仅需要对象标签，还需要关系注释，而这在数据集中非常稀缺。虽然人们普遍认为预训练是在低数据条件下提高模型性能的有效方法，但在本文中，我们发现现有的预训练方法不适合 3D 场景图。为了解决这个问题，我们提出了第一种基于语言的 3D 场景图预训练方法，利用场景图和语言之间的紧密关系。为此，我们利用流行的视觉语言模型 CLIP 的语言编码器，将其知识提炼到我们基于图形的网络中。我们制定了对比预训练，将关系主谓宾三元组的文本嵌入和预测的 3D 图特征对齐。我们的方法在主要语义 3D 场景图基准上取得了最先进的结果，显示出比预训练基线更高的有效性，并且显着优于所有现有的完全监督场景图预测方法。此外，由于我们的场景图特征是语言对齐的，因此它允许我们以零镜头方式查询特征的语言空间。

On the Powerfulness of Textual Outlier Exposure for Visual OoD Detection
Authors Sangha Park, Jisoo Mok, Dahuin Jung, Saehyung Lee, Sungroh Yoon
成功检测分布外 OoD 数据对于确保神经网络的安全部署变得越来越重要。 OoD 检测的主要挑战之一是神经网络对 OoD 数据输出过于自信的预测，使得很难仅根据其预测来确定数据的 OoD 性。异常值暴露通过引入额外的损失来解决这个问题，该损失鼓励在训练期间对 OoD 数据进行低置信度预测。虽然离群值暴露在提高 OoD 检测性能方面显示出巨大的潜力，但之前所有关于离群值暴露的研究都仅限于利用视觉离群值。本文从视觉语言预训练的最新进展中汲取灵感，探索文本异常值暴露的未知领域。首先，我们通过用文本等价物替换图像域中的真实或虚拟异常值来揭示使用文本异常值的好处。然后，我们提出了生成更好的文本异常值的各种方法。我们广泛的实验表明，生成的文本异常值在大规模 OoD 和硬 OoD 基准测试中实现了具有竞争力的性能。

Gramian Attention Heads are Strong yet Efficient Vision Learners
Authors Jongbin Ryu, Dongyoon Han, Jongwoo Lim
我们引入了一种新颖的架构设计，通过合并多个头分类器（即分类头）来增强表现力，而不是依赖于通道扩展或额外的构建块。我们的方法采用基于注意力的聚合，利用成对特征相似性以最小的资源开销增强多个轻量级头。我们计算格拉米亚矩阵来强化每个头的注意力层中的类标记。这使得头部能够学习更多有辨别力的表示，从而增强它们的聚合能力。此外，我们提出了一种学习算法，通过减少聚合的相关性来鼓励头部相互补充。我们的模型最终在 ImageNet 1K 上的准确性吞吐量权衡方面超越了最先进的 CNN 和 ViT，并在各种下游任务中提供了卓越的性能，例如 COCO 对象实例分割、ADE20k 语义分割和细粒度视觉分类数据集。我们框架的有效性得到了实际实验结果的证实，并得到了泛化误差界限的进一步支持。

Show from Tell: Audio-Visual Modelling in Clinical Settings
Authors Jianbo Jiao, Mohammad Alsharid, Lior Drukker, Aris T. Papageorghiou, Andrew Zisserman, J. Alison Noble
听觉和视觉信号通常一起出现并相互关联，不仅在自然环境中而且在临床环境中也是如此。然而，由于音频视频信号的不同来源以及听觉信号（通常是语音）中的信号级和语义级的噪声，后一种情况下的视听建模可能更具挑战性。在本文中，我们考虑临床环境中的视听建模，提供一种学习医学表征的解决方案，有利于各种临床任务，无需人工专家注释。为此，提出了一种简单而有效的多模式自监督学习框架。所提出的方法能够在超声成像期间定位感兴趣的解剖区域，仅以语音音频作为参考。

DualMatch: Robust Semi-Supervised Learning with Dual-Level Interaction
Authors Cong Wang, Xiaofeng Cao, Lanzhe Guo2, Zenglin Shi
半监督学习提供了一个表达框架，用于在标签不足时利用未标记的数据。以往的半监督学习方法通常以单级交互的方式匹配不同数据增强视图的模型预测，这高度依赖伪标签的质量，导致半监督学习不稳健。在本文中，我们提出了一种称为 DualMatch 的新型 SSL 方法，其中类预测以双级交互方式联合调用特征嵌入。 DualMatch 需要对数据增强进行一致的正则化，具体来说，1 确保不同的增强视图通过一致的类预测进行调节，2 确保一类的不同数据通过相似的特征嵌入进行调节。大量实验证明了 DualMatch 的有效性。在标准 SSL 设置中，该提案与 SOTA 方法相比实现了 9 个错误减少，即使在更具挑战性的类不平衡设置中，该提案仍然可以实现 6 个错误减少。

Towards Explainability in Monocular Depth Estimation
Authors Vasileios Arampatzakis, George Pavlidis, Kyriakos Pantoglou, Nikolaos Mitianoudis, Nikos Papamarkos
二维图像的深度估计长期以来一直是计算机视觉领域一个具有挑战性且被广泛研究的课题。最近，随着基于深度学习的方法的出现取得了重大进展，事实证明这些方法非常成功。本文重点讨论单目深度估计方法在人类如何感知深度方面的可解释性。这项初步研究强调了最重要的视觉线索之一，即相对大小，它在几乎所有观看的图像中都很突出。我们设计了一个特定的实验来模拟人类实验，并测试了最先进的方法来间接评估所定义上下文中的可解释性。此外，我们观察到测量准确性需要进一步关注，并为此提出了一种特殊的方法。

ChimpACT: A Longitudinal Dataset for Understanding Chimpanzee Behaviors
Authors Xiaoxuan Ma, Stephan P. Kaufhold, Jiajun Su, Wentao Zhu, Jack Terwilliger, Andres Meza, Yixin Zhu, Federico Rossano, Yizhou Wang
了解非人类灵长类动物的行为对于改善动物福利、模拟社会行为以及深入了解人类特有的和系统发育上共有的行为至关重要。然而，非人类灵长类动物行为数据集的缺乏阻碍了对灵长类动物社会互动的深入探索，给我们现存的近亲的研究带来了挑战。为了解决这些局限性，我们提出了 ChimpACT，这是一个用于量化社会群体内黑猩猩的纵向行为和社会关系的综合数据集。 ChimpACT 从 2015 年到 2018 年，收录了居住在德国莱比锡动物园的 20 多只黑猩猩的视频，特别注重记录一只年轻雄性黑猩猩 Azibo 的发育轨迹。 ChimpACT 既全面又具有挑战性，由 163 个视频组成，累计 160,500 帧，每个视频都带有检测、识别、姿势估计和细粒度时空行为标签的丰富注释。我们对 ChimpACT i 跟踪和识别、ii 姿势估计和 iii 黑猩猩时空动作检测的三个轨迹的代表性方法进行了基准测试。我们的实验表明，ChimpACT 为设计新方法和调整现有方法提供了充足的机会，以解决应用于黑猩猩群体的基本计算机视觉任务，例如检测、姿势估计和行为分析，最终加深我们对非人类沟通和社交的理解

DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models
Authors Ge Zheng, Bin Yang, Jiajin Tang, Hong Yu Zhou, Sibei Yang
人工智能系统的一个长期目标是像人类一样执行复杂的多模式推理。最近，大型语言模型法学硕士仅通过利用思想链 CoT 来模仿人类思维，就在语言模态的多步推理方面取得了显着的进步。然而，将这些进步转移到多模态环境中带来了更大的挑战，包括但不限于对劳动密集型注释的不切实际的需求以及灵活性、普遍性和可解释性方面的限制。为了唤起多模态中的 CoT 推理，这项工作首先对多模态带来的这些挑战进行了深入分析，并提出了保持批判性思维和让每个人在多模态 CoT 推理中各司其职的两个关键见解。此外，本研究提出了一种新颖的DDCoT提示，通过负空间提示保持批判态度，并将多模态融入推理，首先将法学硕士的推理责任划分为推理和识别，然后将视觉模型的视觉识别能力融入联合推理过程。

On Pixel-level Performance Assessment in Anomaly Detection
Authors Mehdi Rafiei, Toby P. Breckon, Alexandros Iosifidis
异常检测方法在各种应用中都取得了显着的成功。然而，由于正常样本和异常样本之间最常见的严重不平衡，评估它们的性能，特别是在像素级别，提出了复杂的挑战。为像素级检测设计的常用评估指标可能无法有效捕获此类不平衡引起的细微性能变化。在本文中，我们剖析了这一挑战的复杂性，并通过视觉证据和统计分析强调了这一点，从而深入研究了解释不平衡的评估指标的必要性。我们使用十一种当代领先的异常检测方法来解决二十一个异常检测问题，从而提供更准确指标的见解。

An Integrative Paradigm for Enhanced Stroke Prediction: Synergizing XGBoost and xDeepFM Algorithms
Authors Weinan Dai, Yifeng Jiang, Chengjie Mou, Chongyu Zhang
中风预测在预防和管理这种使人衰弱的疾病方面发挥着至关重要的作用。在本研究中，我们使用综合数据集解决了中风预测的挑战，并提出了一种结合了 XGBoost 和 xDeepFM 算法功能的集成模型。我们的工作旨在通过实现更高的准确性和鲁棒性来改进现有的中风预测模型。通过严格的实验，我们使用 AUC 指标验证了集成模型的有效性。通过将我们的研究结果与该领域其他模型的研究结果进行比较，我们对各种方法的优点和缺点获得了宝贵的见解。

Video Referring Expression Comprehension via Transformer with Content-conditioned Query
Authors Ji Jiang, Meng Cao, Tengtao Song, Long Chen, Yi Wang, Yuexian Zou
视频引用表达理解 REC 旨在根据查询的自然语言定位视频中的目标对象。最近视频 REC 的改进是使用基于 Transformer 的方法和可学习查询进行的。然而，我们认为，考虑到文本监督带来的视频 REC 的开放世界性质，这种简单的查询设计并不理想。由于存在大量潜在的语义类别，仅依靠一些缓慢更新的查询不足以表征它们。我们对此问题的解决方案是创建以输入视频和语言为条件的动态查询，以对所引用的不同对象进行建模。具体来说，我们在整个框架中放置固定数量的可学习边界框，并使用相应的区域特征来提供先验信息。此外，我们注意到当前的查询功能忽略了跨模式对齐的重要性。为了解决这个问题，我们将句子中的特定短语与语义相关的视觉区域对齐，并在现有视频数据集 VID Sentence 和 VidSTG 中对它们进行注释。通过结合这两种设计，我们提出的名为 ConFormer 的模型在广泛的基准数据集上优于其他模型。例如，在 VID Sentence 数据集的测试分割中，ConFormer 在 Accu 上实现了 8.75 的绝对改进。

Fuse Your Latents: Video Editing with Multi-source Latent Diffusion Models
Authors Tianyi Lu, Xing Zhang, Jiaxi Gu, Hang Xu, Renjing Pei, Songcen Xu, Zuxuan Wu
潜在扩散模型 LDM 以其强大的图像和视频合成功能而闻名。然而，视频编辑方法存在预训练数据不足或视频重新训练成本不足的问题。为了解决这一差距，我们提出了 FLDM Fused Latent Diffusion Model，这是一种免训练框架，通过在视频 LDM 中应用现成的图像编辑方法来实现文本引导视频编辑。具体来说，FLDM 在去噪过程中融合了图像 LDM 和视频 LDM 的潜在特征。通过这种方式，视频 LDM 可以保持时间一致性，同时也可以利用图像 LDM 的高保真度。同时，FLDM具有很高的灵活性，可以替代图像LDM和视频LDM，从而可以利用InstructPix2Pix和ControlNet等先进的图像编辑方法。据我们所知，FLDM 是第一种将现成的图像编辑方法应用到视频 LDM 中进行视频编辑的方法。

MVFAN: Multi-View Feature Assisted Network for 4D Radar Object Detection
Authors Qiao Yan, Yihan Wang
4D雷达因其在恶劣天气条件下的弹性和成本效益而受到认可，从而在自动驾驶中发挥着关键作用。虽然摄像头和激光雷达通常是自动驾驶汽车感知模块中使用的主要传感器，但雷达是一种有价值的补充传感器。与激光雷达和摄像头不同，雷达不会受到恶劣天气条件的影响，从而在充满挑战的环境中提供可靠的替代方案。开发基于雷达的 3D 物体检测不仅可以增强自动驾驶汽车的能力，还可以带来经济效益。为此，我们提出了多视图特征辅助网络 textit MVFAN，这是一种端到端、无锚定、单级框架，用于自动驾驶车辆基于 4D 雷达的 3D 物体检测。考虑到雷达点云的不规则分布，我们通过引入一种新颖的位置图生成模块来解决特征利用不足的问题，通过重新权衡前景和背景点及其特征来增强特征学习。此外，我们提出了一个开创性的骨干网，即雷达特征辅助骨干网，专门设计用于充分利用 4D 雷达传感器提供的宝贵的多普勒速度和反射率数据。在 Astyx 和 VoD 数据集上进行的综合实验和消融研究证明了我们框架的有效性。多普勒速度和 RCS 反射率的结合极大地提高了行人和骑自行车者等小型移动物体的检测性能。

Deepfake Detection: Leveraging the Power of 2D and 3D CNN Ensembles
Authors Aagam Bakliwal, Amit D. Joshi
在深度伪造检测的动态领域，这项工作提出了一种验证视频内容的创新方法。该方法融合了先进的 2 维和 3 维卷积神经网络。 3D 模型经过专门定制，可通过滑动滤波器捕获时空特征，并延伸到空间和时间维度。这种配置能够在像素排列和跨帧的时间演化中进行细致入微的模式识别。同时，2D 模型利用 EfficientNet 架构，利用卷积神经网络中的自动缩放功能。值得注意的是，该集成集成了投票集成和自适应加权集成。 3 维模型输出的战略优先级利用了其卓越的时空特征提取。

Open-NeRF: Towards Open Vocabulary NeRF Decomposition
Authors Hao Zhang, Fang Li, Narendra Ahuja
在本文中，我们解决了将神经辐射场 NeRF 分解为开放词汇中的对象的挑战，这是 3D 重建和视图合成中对象操作的关键任务。当前的 NeRF 分解技术涉及处理开放词汇查询的灵活性和 3D 分割的准确性之间的权衡。我们提出了开放词汇嵌入式神经辐射场 Open NeRF，它利用大规模、现成的分割模型（如 Segment Anything Model SAM），并引入具有分层嵌入的集成和提炼范式，以实现开放词汇查询和 3D 的灵活性分割精度。 Open NeRF 首先利用大规模基础模型从不同的角度生成分层的 2D 掩模建议。然后，这些建议通过跟踪方法进行对齐，并集成到 3D 空间内，随后提炼到 3D 领域。即使在涉及遮挡和模糊特征的挑战性场景中，此过程也可确保从不同角度对对象进行一致的识别和粒度。我们的实验结果表明，在开放词汇场景中，所提出的 Open NeRF 优于 LERF cite lerf 和 FFD cite ffd 等最先进的方法。

Towards Large-scale Masked Face Recognition
Authors Manyuan Zhang, Bingqi Ma, Guanglu Song, Yunxiao Wang, Hongsheng Li, Yu Liu
在COVID 19冠状病毒流行期间，几乎每个人都戴着口罩，这对基于深度学习的人脸识别算法提出了巨大的挑战。在本文中，我们将在 ICCV MFR WebFace260M 和 InsightFace 无约束赛道上展示我们的 textbf 锦标赛解决方案。我们将重点关注大规模蒙面人脸识别中的四个挑战，即超大规模训练、数据噪声处理、蒙面和非蒙面人脸识别精度平衡以及如何设计推理友好的模型架构。

DiffRef3D: A Diffusion-based Proposal Refinement Framework for 3D Object Detection
Authors Se Ho Kim, Inyong Koo, Inyoung Lee, Byeongjun Park, Changick Kim
去噪扩散模型在生成任务中表现出卓越的性能，并且它们在感知任务中的潜在应用正在引起人们的兴趣。在本文中，我们介绍了一种名为 DiffRef3D 的新颖框架，该框架首次采用扩散过程进行点云 3D 物体检测。具体来说，我们将两阶段 3D 对象检测器的提议细化阶段表述为条件扩散过程。在训练过程中，DiffRef3D 逐渐向提案和目标对象之间的残差添加噪声，然后将噪声残差应用于提案以生成假设。细化模块利用这些假设对噪声残差进行去噪并生成准确的框预测。在推理阶段，DiffRef3D 通过从高斯分布中采样噪声作为残差来生成初始假设，并通过迭代步骤细化假设。 DiffRef3D 是一种多功能提案细化框架，可持续提高现有 3D 对象检测模型的性能。我们通过 KITTI 基准测试的大量实验证明了 DiffRef3D 的重要性。

Dolfin: Diffusion Layout Transformers without Autoencoder
Authors Yilin Wang, Zeyuan Chen, Liangjun Zhong, Zheng Ding, Zhizhou Sha, Zhuowen Tu
在本文中，我们介绍了一种新颖的生成模型，即没有自动编码器 Dolfin 的扩散布局变压器，与现有方法相比，它显着提高了建模能力，同时降低了复杂性。 Dolfin 采用基于 Transformer 的扩散过程来模拟布局生成。除了有效的双向非因果联合序列表示之外，我们还提出了一种自回归扩散模型 Dolfin AR，它特别擅长捕获相邻对象的丰富语义相关性，例如对齐、大小和重叠。当根据标准生成布局基准进行评估时，Dolfin 显着提高了各种指标 fid、对齐、重叠、MaxIoU 和 DocSim 分数的性能，从而增强了流程中的透明度和互操作性。此外，Dolfin 的应用超出了布局生成的范围，使其适合对几何结构（例如线段）进行建模。

MotionAGFormer: Enhancing 3D Human Pose Estimation with a Transformer-GCNFormer Network
Authors Soroush Mehraban, Vida Adeli, Babak Taati
最近基于 Transformer 的方法在 3D 人体姿势估计方面表现出了出色的性能。然而，它们具有整体视图，并且通过编码所有关节之间的全局关系，它们不能精确捕获局部依赖关系。在本文中，我们提出了一种新颖的 Attention GCNFormer AGFormer 块，它通过使用两个并行变压器和 GCNFormer 流来划分通道数。我们提出的 GCNFormer 模块利用相邻关节之间的局部关系，输出与变压器输出互补的新表示。通过以自适应方式融合这两种表示，AGFormer 展现出了更好地学习底层 3D 结构的能力。通过堆叠多个 AGFormer 块，我们提出了四种不同变体的 MotionAGFormer，可以根据速度精度权衡进行选择。我们在两个流行的基准数据集 Human3.6M 和 MPI INF 3DHP 上评估我们的模型。 MotionAGFormer B 实现了最先进的结果，P1 误差分别为 38.4 毫米和 16.2 毫米。值得注意的是，它使用了四分之一的参数，并且计算效率比 Human3.6M 数据集上的先前领先模型高出三倍。

TransPose: 6D Object Pose Estimation with Geometry-Aware Transformer
Authors Xiao Lin, Deming Wang, Guangliang Zhou, Chengju Liu, Qijun Chen
估计 6D 物体位姿是许多应用中的一项基本任务。由于缺乏深度信息，现有的基于 RGB 的方法对遮挡和光照变化很敏感。如何提取和利用深度信息中的几何特征对于实现准确预测至关重要。为此，我们提出了 TransPose，这是一种新颖的 6D 姿势框架，它利用带有几何感知模块的 Transformer Encoder 来更好地学习点云特征表示。具体来说，我们首先对点云进行均匀采样，并使用基于图卷积网络设计的局部特征提取器提取局部几何特征。为了提高遮挡的鲁棒性，我们采用Transformer进行全局信息的交换，使得每个局部特征都包含全局信息。最后，我们在Transformer Encoder中引入了几何感知模块，该模块对点云特征学习形成有效约束，使全局信息交换与点云任务更加紧密地耦合。

Deep Learning for Plant Identification and Disease Classification from Leaf Images: Multi-prediction Approaches
Authors Jianping Yao, Son N. Tran, Saurabh Garg, Samantha Sawyer
深度学习在现代农业中发挥着重要作用，特别是在使用叶子图像的植物病理学中，卷积神经网络 CNN 引起了很多关注。尽管许多评论探讨了深度学习在该研究领域的应用，但由于评估中使用了不同的数据集，因此仍然明显缺乏实证研究来提供有见地的比较。此外，这些方法中的大多数倾向于将问题作为单一的预测任务来解决，忽略了预测植物物种和疾病类型的各个方面的多方面性质。最后，显然需要更深入地考虑植物物种和疾病类型背后的语义关系。在本文中，我们通过调查当前用于植物识别和疾病分类的深度学习方法来开始我们的研究。我们将这些方法分为多模型、多标签、多输出和多任务，其中可以采用不同的主干 CNN。此外，基于对植物病理学现有方法的调查和机器学习中可用方法的研究，我们提出了一种名为广义堆叠多输出 CNN GMo CNN 的新模型。为了研究不同骨干 CNN 和学习方法的有效性，我们对三个基准数据集 Plant Village、Plant Leaves 和 PlantDoc 进行了深入的实验。实验结果表明，InceptionV3 可以成为骨干 CNN 的不错选择，因为它的性能优于 AlexNet、VGG16、ResNet101、EfficientNet、MobileNet 和我们开发的自定义 CNN。有趣的是，实证结果支持这样的假设：使用单个模型可以比使用两个模型具有可比性或更好。

SCB-ST-Dataset4: Extending the Spatio-Temporal Behavior Dataset in Student Classroom Scenarios Through Image Dataset Method
Authors Fan Yang, Xiaofei Wang
使用深度学习方法自动检测学生的课堂行为是分析学生课堂表现和提高教学效果的一种有前景的方法。然而，缺乏公开的学生行为时空数据集，以及手动标记此类数据集的高昂成本，给该领域的研究人员带来了重大挑战。为了解决这个问题，我们提出了一种通过图像数据集扩展学生课堂场景SCB ST数据集4中时空行为数据集的方法。我们的 SCB ST 数据集4 包含 754094 张图像和 25670 个标签，重点关注举手、阅读、书写 3 种行为。我们提出的方法可以快速生成时空行为数据集，而无需注释。此外，我们提出了行为相似度指数 BSI 来探索行为的相似度。我们使用 YOLOv5、YOLOv7、YOLOv8 和 SlowFast 算法评估数据集，获得高达 82.3 的平均精度图。实验进一步证明了我们方法的有效性。该数据集为学生行为检测的未来研究奠定了坚实的基础，可能有助于该领域的进步。

UAV-Sim: NeRF-based Synthetic Data Generation for UAV-based Perception
Authors Christopher Maxey, Jaehoon Choi, Hyungtae Lee, Dinesh Manocha, Heesung Kwon
基于无人机的成像条件的巨大变化加上很大的自由度，导致充分学习基于无人机的感知模型的数据严重缺乏。将各种合成渲染器与感知模型结合使用来创建合成数据以增强地面成像领域的学习是很普遍的。然而，基于无人机领域的严峻挑战需要独特的数据增强图像合成解决方案。在这项工作中，我们利用神经渲染方面的最新进展来改进基于小说视图无人机的静态和动态图像合成，特别是从高空捕捉显着的场景属性。

Pixel-Level Clustering Network for Unsupervised Image Segmentation
Authors Cuong Manh Hoang, Byeongkeun Kang
虽然图像分割在自动驾驶、抓取和机器人导航等各种计算机视觉应用中至关重要，但在像素级别注释所有对象以进行训练几乎是不可能的。因此，无监督图像分割方法的研究十分必要。在本文中，我们提出了一种像素级聚类框架，用于在不使用地面实况注释的情况下将图像分割成区域。所提出的框架包括具有注意机制的特征嵌入模块、特征统计计算模块、图像重建和超像素分割，以实现精确的无监督分割。此外，我们提出了一种训练策略，利用每个超像素内的内部一致性、相邻超像素之间的相似性差异以及图像之间的结构相似性。为了避免由基于超像素的损失引起的潜在过度分割，我们还提出了一种后处理方法。此外，我们提出了所提出的无监督语义分割方法的扩展。我们在三个公开数据集 Berkeley 分割数据集、PASCAL VOC 2012 数据集和 COCO Stuff 数据集上进行了实验，以证明所提出框架的有效性。

TiC-CLIP: Continual Training of CLIP Models
Authors Saurabh Garg, Mehrdad Farajtabar, Hadi Pouransari, Raviteja Vemulapalli, Sachin Mehta, Oncel Tuzel, Vaishaal Shankar, Fartash Faghri
使大型基础模型保持最新数据本质上是昂贵的。为了避免不断重新训练的高昂成本，必须不断训练这些模型。由于缺乏任何大规模的持续学习基准或基线，这个问题变得更加严重。我们引入了第一组网络规模的 Time Continual TiC 基准，用于训练视觉语言模型 TiC DataCompt、TiC YFCC 和 TiC RedCaps，包含超过 12.7B 的时间戳图像文本对，时间跨度从 2014 年到 2022 年 9 年。我们首先使用我们的基准来策划各种动态评估，以衡量现有模型的时间鲁棒性。我们发现，与 OpenCLIP 存储库中最近训练的模型相比，在 2020 年之前对数据进行训练的 OpenAI CLIP 在我们策划的检索任务中从 2021 年到 2022 年损失了大约 8 个零射击精度。然后我们研究如何在时间连续数据上有效地训练模型。

ShadowSense: Unsupervised Domain Adaptation and Feature Fusion for Shadow-Agnostic Tree Crown Detection from RGB-Thermal Drone Imagery
Authors Rudraksh Kapil, Seyed Mojtaba Marvasti Zadeh, Nadir Erbilgin, Nilanjan Ray
由于森林树冠的茂密性和不同环境变化的存在，例如重叠的树冠、遮挡和不同的照明条件，从遥感数据中准确检测单个树冠提出了重大挑战。此外，缺乏训练鲁棒模型的数据给有效研究复杂的森林条件带来了另一个限制。本文提出了一种检测阴影树冠的新颖方法，并提供了一个具有挑战性的数据集，其中包含大约 5 万对 RGB 热图像，以促进未来照明不变检测的研究。所提出的方法 ShadowSense 是完全自我监督的，利用没有源域注释的域对抗训练来进行特征提取和特征金字塔网络的前景特征对齐，以分别通过关注可见前景区域来适应域不变表示。然后，它融合两种模式的互补信息，以有效改进 RGB 训练检测器的预测并提高整体准确性。大量实验证明了所提出的方法相对于基线 RGB 训练检测器和依赖于无监督域适应或早期图像融合的最先进技术的优越性。

Sea-Land-Cloud Segmentation in Satellite Hyperspectral Imagery by Deep Learning
Authors Jon Alvarez Justo, Joseph Landon Garrett, Mariana Iuliana Georgescu, Jesus Gonzalez Llorente, Radu Tudor Ionescu, Tor Arne Johansen
卫星越来越多地采用机载人工智能技术，通过边缘推理增强平台自主性。在这种情况下，利用深度学习 DL 技术在 HS 卫星图像中进行分割为遥感应用提供了优势，因此，我们训练了 16 个不同的模型，其代码通过我们的研究提供，我们认为这些模型与以下领域相关：对 HS 图像进行多类分割，重点是对海洋、陆地和云层进行分类。我们采用 HYPSO 1 任务作为海陆云分割的说明性案例，并为了演示分段的实用性，我们引入了一种新颖的海陆云排名应用场景。我们的系统根据分段图像的海洋、陆地和云覆盖级别优先考虑 HS 图像下行链路。我们比较评估在轨部署的模型，考虑性能、参数计数和推理时间。这些模型包括浅层模型和深层模型，在我们提出四个新的深度学习模型之后，我们证明了分割单个光谱特征 1D 优于包含光谱 1D 和空间 2D 上下文的 3D 数据处理。我们得出的结论是，我们的轻量级深度学习模型（称为 1D Justo LiuNet）在性能 0.93 精度和参数计数 4,563 方面始终超越了最先进的海陆云分割模型，例如 U Net 及其变体。然而，在测试的处理架构中，一维模型的推理时间较长，为 15 秒，这显然不是最理想的。

iNVS: Repurposing Diffusion Inpainters for Novel View Synthesis
Authors Yash Kant, Aliaksandr Siarohin, Michael Vasilkovsky, Riza Alp Guler, Jian Ren, Sergey Tulyakov, Igor Gilitschenski
我们提出了一种从单个源图像生成一致的新颖视图的方法。我们的方法侧重于最大限度地重用源图像中的可见像素。为了实现这一目标，我们使用单目深度估计器将可见像素从源视图传输到目标视图。从预先训练的 2D 修复扩散模型开始，我们在大规模 Objaverse 数据集上训练我们的方法以学习 3D 对象先验。在训练时，我们使用基于极线的新颖掩蔽机制来进一步提高我们方法的质量。这使得我们的框架能够对各种对象执行零镜头新颖的视图合成。我们在三个具有挑战性的数据集（Google Scanned Objects、Ray Traced Multiview 和 Common Objects in 3D）上评估了我们的框架的零射击能力。

MyriadAL: Active Few Shot Learning for Histopathology
Authors Nico Schiavone, Jingyi Wang, Shuangzhi Li, Roger Zemp, Xingyu Li
Active Learning AL 和 Few Shot Learning FSL 是两种标签高效方法，最近取得了优异的效果。然而，这两种学习范式中的大多数现有技术都未能探索大量未标记数据的财富。在本研究中，我们在注释预算非常有限但目标任务有大量未标记数据可用的情况下解决了这个问题。我们在组织病理学的背景下开展这项工作，其中标记的费用极其昂贵。为此，我们引入了一个主动的少数镜头学习框架，Myriad Active Learning MAL，包括对比学习编码器、伪标签生成和循环中的新颖查询样本选择。具体来说，我们建议以自监督的方式处理未标记的数据，其中获得的数据表示和聚类知识构成激活 AL 循环的基础。根据每个 AL 周期中预言机的反馈，通过优化编码器顶部的浅层任务特定网络来细化未标记数据的伪标签。这些更新的伪标签用于通知和改进主动学习查询选择过程。此外，我们引入了一种新颖的方法来结合现有的不确定性测量，并利用整个不确定性列表来减少 AL 中的样本冗余。

Yin Yang Convolutional Nets: Image Manifold Extraction by the Analysis of Opposites
Authors Augusto Seben da Rosa, Frederico Santos de Oliveira, Anderson da Silva Soares, Arnaldo Candido Junior
计算机视觉总体上呈现出一些进步，例如训练优化、新架构纯注意力、高效块、视觉语言模型、生成模型等。这提高了分类等多项任务的性能。然而，这些模型中的大多数都侧重于与大脑相关的现实神经科学方法相距甚远的修改。在这项工作中，我们采用了一种更具生物启发的方法，并提出了阴阳卷积网络，这是一种提取视觉流形的架构，其块旨在分离其初始层的颜色和形式的分析，模拟枕叶的操作。我们的结果表明，我们的架构在数据集 CIFAR 10 的低参数架构中提供了最先进的效率。我们的第一个模型达到了 93.32 的测试精度，比该类别中较旧的 SOTA 高 0.8，同时总共减少了 150k 参数（726k）。我们的第二个模型使用 52k 个参数，仅损失 3.86 的测试精度。我们还对 ImageNet 进行了分析，使用 160 万个参数达到了 66.49 的验证准确度。

Subtle Signals: Video-based Detection of Infant Non-nutritive Sucking as a Neurodevelopmental Cue
Authors Shaotong Zhu, Michael Wan, Sai Kumar Reddy Manne, Emily Zimmerman, Sarah Ostadabbas
非营养性吸吮 NNS 是指在不摄入营养的情况下吸吮奶嘴、手指或类似物体的行为，在评估健康的早期发育中起着至关重要的作用。对于早产儿来说，NNS 行为是决定他们是否准备好喂养的关键因素。在年龄较大的婴儿中，NNS 行为的特征为神经和运动发育提供了宝贵的见解。此外，NNS 活动已被提议作为预防婴儿猝死综合症 SIDS 的潜在保障措施。然而，目前NNS评估的临床应用受到劳动密集型和主观评价的阻碍。因此，研究人员经常采用昂贵的压力传感器来进行客观的 NNS 信号测量。为了提高临床医生和研究人员 NNS 信号监测的可访问性和可靠性，我们引入了一种基于视觉的算法，旨在使用自然环境中的婴儿监视器镜头非接触式检测 NNS 活动。我们的方法涉及对光流和时间卷积网络的全面探索，从而能够检测和放大微妙的婴儿吸吮信号。我们成功地将统一长度的短视频剪辑分为 NNS 和非 NNS 时段。此外，我们研究了基于手动和学习的技术来拼凑局部分类结果，从而促进将较长的混合活动视频分割成不同持续时间的 NNS 和非 NNS 片段。

Stereoscopic Depth Perception Through Foliage
Authors Robert Kerschner, Rakesh John Amala Arokia Nathan, Rafal Mantiuk, Oliver Bimber
人类和计算方法都很难区分隐藏在树叶下的物体的深度。然而，当我们将计算光学合成孔径传感与人类融合立体图像的能力结合起来时，这种区分就变得可行。对于搜索和救援、野生动物观察、监视和早期野火检测所需的物体识别任务，深度有助于区分真假发现，例如人、动物或车辆与地面或地下的太阳加热斑块。树冠，或地面火灾与树干。我们使用无人机在茂密的林地上方拍摄的视频来测试用户辨别深度的能力。我们发现，当观看单视场视频并依赖运动视差时，这是不可能的。由于树叶造成的遮挡，立体视频也是如此。然而，当使用合成孔径传感来减少遮挡并呈现视差缩放立体视频时，虽然计算立体匹配方法不成功，但人类观察者成功地区分了深度。

Wakening Past Concepts without Past Data: Class-Incremental Learning from Online Placebos
Authors Yaoyao Liu, Yingying Li, Bernt Schiele, Qianru Sun
当模型不断适应新班级时，不忘记旧班级知识是班级增量学习 CIL 的关键挑战。解决这个问题的常用技术是知识蒸馏 KD，它会惩罚新旧模型之间的预测不一致。这种预测几乎是用新的类数据进行的，因为由于 CIL 中严格的内存限制，旧类数据极其稀缺。在本文中，我们深入研究了 KD 损失，发现使用新类数据进行 KD 不仅阻碍了学习新类的模型适应，而且导致保留旧类知识的效率低下。我们通过使用 KD 旧类的安慰剂来解决这个问题，其中安慰剂以自动且经济的方式从免费图像流（例如 Google 图片）中选择。为此，我们训练了一种在线安慰剂选择策略，以快速评估流图像好坏安慰剂的质量，并仅使用好的安慰剂进行 KD 的一次性前馈计算。我们将策略训练过程制定为在线马尔可夫决策过程 MDP，并引入在线学习算法来解决该 MDP 问题，而不会造成太多计算成本。在实验中，我们表明，即使安慰剂和原始旧类数据之间没有类重叠，我们的方法 1 也令人惊讶地有效，2 不需要任何额外的监督或内存预算，3 显着优于许多表现最佳的 CIL 方法，

Towards long-tailed, multi-label disease classification from chest X-ray: Overview of the CXR-LT challenge
Authors Gregory Holste, Yiliang Zhou, Song Wang, Ajay Jaiswal, Mingquan Lin, Sherry Zhuge, Yuzhe Yang, Dongkyun Kim, Trong Hieu Nguyen Mau, Minh Triet Tran, Jaehyup Jeong, Wongi Park, Jongbin Ryu, Feng Hong, Arsh Verma, Yosuke Yamagishi, Changhyun Kim, Hyeryeong Seo, Myungjoo Kang, Leo Anthony Celi, Zhiyong Lu, Ronald M. Summers, George Shih, Zhangyang Wang, Yifan Peng
许多现实世界的图像识别问题，例如诊断医学成像检查，都是长尾 unicode x2013，有一些常见的发现，后面跟着许多相对罕见的情况。在胸部X光检查中，诊断是一个长尾和多标签问题，因为患者经常同时出现多个发现。虽然研究人员已经开始研究医学图像识别中的长尾学习问题，但很少有人研究长尾、多标签疾病分类引起的标签不平衡和标签共现的相互作用。为了与研究界就这一新兴主题进行交流，我们开展了一项公开挑战 CXR LT，该挑战针对胸部 X 射线 CXR 的长尾、多标签胸部疾病分类。我们公开发布了包含超过 350,000 个 CXR 的大规模基准数据集，每个 CXR 至少标记有遵循长尾分布的 26 项临床结果中的一项。我们综合了最佳表现解决方案的共同主题，为长尾、多标签医学图像分类提供实用建议。

LaksNet: an end-to-end deep learning model for self-driving cars in Udacity simulator
Authors Lakshmikar R. Polamreddy, Youshan Zhang
大多数道路事故是由于人为失误造成的，包括分心、鲁莽和酒后驾驶。克服这种危险情况的有效方法之一是在车辆中实施自动驾驶技术。在本文中，我们专注于为自动驾驶汽车构建高效的深度学习模型。我们提出了一种新的有效的卷积神经网络模型，称为 LaksNet，由四个卷积层和两个全连接层组成。我们使用 LaksNet 模型以及 Udacity 模拟器生成的训练数据进行了广泛的实验。

Deep Feature Registration for Unsupervised Domain Adaptation
Authors Youshan Zhang, Brian D. Davison
虽然已经探索了无监督域适应以利用从标记源域到未标记目标域的知识，但现有方法侧重于两个域之间的分布对齐。然而，如何更好地对齐源特征和目标特征还没有得到很好的解决。在本文中，我们提出了一种深度特征配准DFR模型来生成保持域不变特征的注册特征，并同时通过直方图匹配最小化注册特征和目标特征的域差异。我们进一步采用伪标签细化过程，该过程考虑概率软选择和基于中心的硬选择，以提高目标域中伪标签的质量。

Anatomically-aware Uncertainty for Semi-supervised Image Segmentation
Authors Sukesh Adiga V, Jose Dolz, Herve Lombaert
半监督学习通过利用未标记的数据，缓解了对用于图像分割的大型像素级标记数据集的需求。利用未标记数据的一个重要方法是规范模型预测。由于未标记数据的预测可能不可靠，因此通常采用不确定性感知方案来逐渐从有意义且可靠的预测中学习。然而，不确定性估计方法依赖于必须为每个训练步骤计算的模型预测的多重推论，这在计算上是昂贵的。此外，这些不确定性图捕获像素级差异，并且不考虑全局信息。这项工作提出了一种通过利用分割掩模中的全局信息来估计分割不确定性的新方法。更准确地说，首先学习解剖学感知的表示来对可用的分割掩模进行建模。学习到的表示随后将新分割的预测映射到解剖学上合理的分割。与合理分割的偏差有助于估计潜在的像素级不确定性，以便进一步指导分割网络。因此，所提出的方法使用我们的表示的单个推论来估计不确定性，从而减少总计算量。我们在心脏 MRI 中的左心房和腹部 CT 中的多个器官的两个公开可用的分割数据集上评估我们的方法。

RePoseDM: Recurrent Pose Alignment and Gradient Guidance for Pose Guided Image Synthesis
Authors Anant Khandelwal
姿势引导人物图像合成任务需要重新渲染参考图像，该图像应具有逼真的外观和完美的姿势转移。由于人物图像是高度结构化的，现有的方法需要密集连接来实现复杂的变形和遮挡，因为这些通常是通过潜在空间中的多级扭曲和掩蔽来处理的。但卷积神经网络生成的特征图不具有等方差性，因此即使是多级扭曲也不具有完美的姿态对齐。受扩散模型从给定条件指导生成逼真图像的能力的启发，我们提出循环姿势对齐以提供姿势对齐的纹理特征作为条件指导。此外，我们提出了来自姿势交互场的梯度引导，在给定目标姿势作为输入的情况下，输出与有效姿势流形的距离。这有助于学习合理的姿势转移轨迹，从而实现真实感和不扭曲的纹理细节。两个大规模基准测试和用户研究的广泛结果证明了我们提出的方法在具有挑战性的场景下生成逼真的姿势转移的能力。

Correlation Debiasing for Unbiased Scene Graph Generation in Videos
Authors Anant Khandelwal
从视频中生成动态场景图 SGG 不仅需要全面了解场景中容易出现时间波动的对象，还需要对时间运动和与不同对象的交互进行建模。此外，视觉关系的长尾分布是大多数动态 SGG 方法的关键瓶颈，因为它们大多数都专注于使用复杂的架构捕获时空上下文，这导致生成有偏差的场景图。为了应对这些挑战，我们提出了 FloCoDe Flow 感知时间一致性和相关去偏以及无偏动态场景图的不确定性衰减。 FloCoDe 利用流的特征扭曲来检测帧中时间一致的对象。此外，它使用相关去偏来学习长尾类的无偏关系表示。此外，为了减弱预测的不确定性，它使用 S 形交叉熵损失和对比损失的混合来合并标签相关性，以识别常见的共存关系并帮助消除长尾关系的偏差。

CPSeg: Finer-grained Image Semantic Segmentation via Chain-of-Thought Language Prompting
Authors Lei Li
自然场景分析和遥感图像为大规模语言引导的上下文感知数据利用的进步提供了巨大的潜力。这种潜力对于提高下游任务的性能尤其重要，例如通过设计的语言提示进行对象检测和分割。有鉴于此，我们引入了 CPSeg（用于更细粒度语义分割的思想链语言提示），这是一种创新框架，旨在通过集成利用与图像相关的文本信息的新颖的思想链过程来增强图像分割性能。这种开创性的方法已应用于洪水灾害场景。 CPSeg 对源自各种句子的提示文本进行编码，以形成连贯的思想链。我们提出了一个新的视觉语言数据集 FloodPrompt，其中包括图像、语义掩模和相应的文本信息。这不仅加强了对场景的语义理解，而且还通过像素和文本匹配图的相互作用来帮助完成语义分割的关键任务。

SparseDFF: Sparse-View Feature Distillation for One-Shot Dexterous Manipulation
Authors Qianxu Wang, Haotong Zhang, Congyue Deng, Yang You, Hao Dong, Yixin Zhu, Leonidas Guibas
由于人类理解不同实例之间的语义对应关系，因此他们擅长在不同的物体形状、姿势和外观之间转移操作技能。为了赋予机器人类似的高级理解能力，我们开发了适用于 3D 场景的蒸馏特征场 DFF，利用大型 2D 视觉模型从多视图图像中提取语义特征。虽然当前的研究证明了从密集视图重建 DFF 的先进性能，但从稀疏视图学习 DFF 的发展相对刚刚起步，尽管它在使用固定相机的众多操作任务中很流行。在这项工作中，我们介绍了 SparseDFF，这是一种从稀疏 RGBD 观察中获取视图一致的 3D DFF 的新颖方法，从而能够一次性学习可转移到新场景的灵巧操作。具体来说，我们将图像特征映射到 3D 点云，允许在 3D 空间中传播以建立密集的特征场。 SparseDFF 的核心是一个轻量级特征细化网络，在将图像特征反向投影到 3D 点云上后，通过成对视图之间的对比损失进行优化。此外，我们实现了点修剪机制来增强每个局部邻域内的特征连续性。通过在源场景和目标场景上建立一致的特征场，我们设计了一种能量函数，有助于最小化特征差异。演示和目标操纵之间的末端执行器参数。

LLM-FP4: 4-Bit Floating-Point Quantized Transformers
Authors Shih yang Liu, Zechun Liu, Xijie Huang, Pingcheng Dong, Kwang Ting Cheng
我们提出 LLM FP4，用于以训练后的方式将大型语言模型 LLM 中的权重和激活量化为 4 位浮点值。现有的训练后量化 PTQ 解决方案主要基于整数，并且难以应对低于 8 位的位宽。与整数量化相比，浮点 FP 量化更加灵活，可以更好地处理长尾或钟形分布，并且已成为许多硬件平台的默认选择。 FP量化的特点之一是其性能很大程度上取决于指数位和限幅范围的选择。在这方面，我们通过搜索最佳量化参数构建了强大的 FP PTQ 基线。此外，我们观察到激活分布中存在较高的通道间方差和较低的通道内方差模式，这增加了激活量化的难度。我们认识到这种模式在为不同任务设计的一系列 Transformer 模型中是一致的，例如 LLM、BERT 和 Vision Transformer 模型。为了解决这个问题，我们提出了每通道激活量化，并表明这些额外的缩放因子可以重新参数化为权重的指数偏差，从而产生的成本可以忽略不计。我们的方法首次可以将 LLaMA 13B 中的权重和激活量化为仅 4 位，并在常识零样本推理任务上获得了 63.1 的平均分数，仅比全精度模型低 5.8，显着比之前的技术水平高出 12.7 个点。

TD-MPC2: Scalable, Robust World Models for Continuous Control
Authors Nicklas Hansen, Hao Su, Xiaolong Wang
TD MPC 是一种基于模型的强化学习 RL 算法，可在学习的隐式解码器自由世界模型的潜在空间中执行局部轨迹优化。在这项工作中，我们提出了 TD MPC2 对 TD MPC 算法的一系列改进。我们证明，TD MPC2 在跨越 4 个不同任务领域的 104 个在线 RL 任务中比基线有了显着改进，通过一组超参数实现了一致的强劲结果。我们进一步表明，代理能力随着模型和数据大小的增加而增加，并成功训练单个 317M 参数代理来跨多个任务域、实施例和动作空间执行 80 项任务。最后，我们总结了与大型 TD MPC2 代理相关的经验教训、机遇和风险。

MixerFlow for Image Modelling
Authors Eshant English, Matthias Kirchler, Christoph Lippert
归一化流是统计模型，通过使用双射变换将复杂密度转换为更简单的密度，从而实现密度估计和从单个模型生成数据。在图像建模的背景下，主要的选择是基于 Glow 的架构，而研究界基本上尚未探索替代架构。在这项工作中，我们提出了一种名为 MixerFlow 的新颖架构，基于 MLP Mixer 架构，进一步统一了生成式和判别式建模架构。 MixerFlow 为基于流的模型提供了一种有效的权重共享机制。我们的结果表明，在固定的计算预算和规模下，可以更好地对图像数据集进行密度估计，并且随着图像分辨率的增加，MixeFlow 成为基于 Glow 的架构的强大而简单的替代方案。

Interferometric Neural Networks
Authors Arun Sehrawat
一方面，人工神经网络在机器学习和优化领域有许多成功的应用。另一方面，干涉仪是光学、天文学和量子物理学等任何涉及波的领域不可或缺的一部分。在这里，我们引入由干涉仪组成的神经网络，然后从中构建生成对抗网络。我们的网络没有任何经典层，可以在量子计算机或光子芯片上实现。我们展示了它们在组合优化、图像分类和图像生成方面的适用性。对于组合优化，我们的网络始终收敛于全局最优值或保持在其狭窄范围内。在多类图像分类任务中，我们的网络达到了 93 和 83 的准确率。

Deep Learning Techniques for Cervical Cancer Diagnosis based on Pathology and Colposcopy Images
Authors Hana Ahmadzadeh Sarhangi, Dorsa Beigifard, Elahe Farmani, Hamidreza Bolhasani
宫颈癌是一种流行病，每年影响全球数百万女性。它需要高度重视，因为癌前阶段的早期发现提供了治愈的机会。宫颈癌的筛查和诊断依靠细胞学和阴道镜检查方法。深度学习是计算机视觉领域一项很有前景的技术，与容易出现人为错误的传统临床检查方法相比，深度学习已成为提高宫颈癌筛查准确性和效率的潜在解决方案。本文讨论了宫颈癌及其筛查过程，随后介绍了深度学习训练过程以及宫颈癌诊断的分类、分割和检测任务。此外，我们还探讨了细胞学和阴道镜检查中最常见的公共数据集，并重点介绍了研究人员应用于细胞学和阴道镜检查的流行和最常用的架构。我们对本研究中精选的 24 篇实用论文进行了回顾和总结。

Adaptive Uncertainty Estimation via High-Dimensional Testing on Latent Representations
Authors Tsai Hor Chan, Kin Wai Lau, Jiajun Shen, Guosheng Yin, Lequan Yu
不确定性估计旨在评估经过训练的深度神经网络的置信度。然而，现有的不确定性估计方法依赖于低维分布假设，因此受到潜在特征高维的影响。现有方法往往关注离散分类概率的不确定性，这导致对其他任务的不确定性估计的通用性较差。此外，大多数文献要求在训练中查看分布外的 OOD 数据，以便更好地估计不确定性，这限制了实践中的不确定性估计性能，因为 OOD 数据通常是看不见的。为了克服这些限制，我们提出了一种使用数据自适应高维假设检验进行不确定性估计的新框架，该框架利用了特征表示的统计特性。我们的方法直接对潜在表示进行操作，因此不需要在修改后的目标下重新训练特征编码器。检验统计量将特征分布假设放宽到高维，并且对潜在表示中的不确定性更具辨别力。我们证明，使用贝叶斯神经网络编码特征可以提高测试性能并导致更准确的不确定性估计。我们进一步引入了家庭明智的测试程序来确定 OOD 检测的最佳阈值，从而最大限度地减少错误发现率 FDR 。大量的实验验证了我们的框架在不确定性估计和特定任务预测方面优于各种竞争对手的令人满意的性能。 OOD 检测任务的实验也表明，当训练中看不到 OOD 数据时，我们的方法具有令人满意的性能。

An Early Evaluation of GPT-4V(ision)
Authors Yang Wu, Shilong Wang, Hao Yang, Tian Zheng, Hongbo Zhang, Yanyan Zhao, Bing Qin
在本文中，我们评估了 GPT 4V 的不同能力，包括视觉理解、语言理解、视觉解谜以及对深度、热、视频和音频等其他模式的理解。为了评估 GPT 4V 的性能，我们手动构建了 656 个测试实例，并仔细评估了 GPT 4V 的结果。我们的发现要点如下： 1 GPT 4V 在以英语视觉为中心的基准测试中表现出令人印象深刻的表现，但无法识别图像中的简单中文文本 2 GPT 4V 在回答与性别、种族和性别等敏感特征相关的问题时，表现出不一致的拒绝行为年龄 3 GPT 4V 在语言理解任务（包括一般语言理解基准和视觉常识知识评估基准）上获得比 GPT 4 API 更差的结果 4 很少的镜头提示可以提高 GPT 4V 在视觉理解和语言理解上的表现 5 GPT 4V 很难找到两个相似图像之间的细微差别并解决简单的数学图片难题 6 GPT 4V 在与图像类似的模式（例如视频和热）任务中表现出非凡的性能。

Winning Prize Comes from Losing Tickets: Improve Invariant Learning by Exploring Variant Parameters for Out-of-Distribution Generalization
Authors Zhuo Huang, Muyang Li, Li Shen, Jun Yu, Chen Gong, Bo Han, Tongliang Liu
分布外 OOD 泛化旨在学习稳健的模型，这些模型可以很好地泛化到各种环境，而不适合分布的特定特征。最近基于彩票假设 LTH 的研究通过最小化学习目标来找到一些对任务至关重要的参数来解决这个问题。然而，在 OOD 问题中，此类解决方案并不是最优的，因为学习任务包含严重的分布噪声，这可能会误导优化过程。因此，除了寻找与任务相关的参数（即不变参数）之外，我们还提出了探索不变学习 EVIL 的变体参数，它还利用分布知识来寻找对分布偏移敏感的参数（即变体参数）。一旦将变量参数排除在不变学习之外，就可以找到抵抗分布变化的鲁棒子网络。此外，可以将跨分布相对稳定的参数视为不变参数，以改进不变学习。通过充分探索变量和不变参数，我们的 EVIL 可以有效地识别稳健的子网络以提高 OOD 泛化能力。

Frequency-Aware Transformer for Learned Image Compression
Authors Han Li, Shaohui Li, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong
近年来，学习图像压缩 LIC 作为图像存储和传输的有效解决方案而受到关注。然而，由于捕获各向异性频率分量和保留方向细节方面的限制，现有的 LIC 方法在潜在表示方面是多余的。为了克服这些挑战，我们提出了一种新型频率感知变压器 FAT 块，首次实现了 LIC 的多尺度定向分析。 FAT 块包含频率分解窗口注意 FDWA 模块，用于捕获自然图像的多尺度和方向频率分量。此外，我们引入调频前馈网络 FMFFN 来自适应调制不同的频率分量，从而提高率失真性能。此外，我们提出了一种基于变压器的通道明智自回归 T CA 模型，可以有效地利用通道依赖性。

Instance-wise Linearization of Neural Network for Model Interpretation
Authors Zhimin Li, Shusen Liu, Kailkhura Bhavya, Timo Bremer, Valerio Pascucci
神经网络在许多科学领域取得了令人瞩目的成功。然而，神经网络模型的可解释性仍然是将该技术部署到我们日常生活中的主要瓶颈。该挑战可以深入研究神经网络的非线性行为，这提出了一个关键问题：模型如何使用输入特征来做出决策。解决这一挑战的经典方法是特征归因，它为每个输入特征分配一个重要的分数，并揭示其对当前预测的重要性。然而，当前的特征归因方法通常表明每个输入特征的重要性，而没有详细说明模型内部如何实际处理它们。

On the Foundations of Shortcut Learning
Authors Katherine L. Hermann, Hossein Mobahi, Thomas Fel, Michael C. Mozer
深度学习模型可以从数据中提取丰富的特征。模型使用哪些特征不仅取决于特征指示训练集标签的预测性，还取决于从输入中提取或利用特征的可用性。关于快捷学习的文献已经提到了一些例子，其中模型将一个特征优先于另一个特征，例如纹理优先于形状，图像背景优先于前景对象。在这里，我们测试关于哪些输入属性对模型更可用的假设，并系统地研究预测性和可用性如何相互作用以塑造模型特征的使用。我们构建了一个最小的、显式的生成框架，用于合成具有两个潜在特征的分类数据集，这两个潜在特征的预测性和我们假设与可用性相关的因素有所不同，并量化模型的捷径偏差，即其对捷径更可用、预测性较差的特征的过度依赖。以牺牲核心较少可用、更具预测性的功能为代价。我们发现线性模型相对无偏差，但引入具有 ReLU 或 Tanh 单元的单个隐藏层会产生偏差。我们的实证研究结果与基于神经正切核的理论解释一致。最后，我们研究了实践中使用的模型如何在自然数据集中权衡预测性和可用性，发现可增加模型捷径偏差程度的可用性操作。

Hierarchical Randomized Smoothing
Authors Yan Scholten, Jan Schuchardt, Aleksandar Bojchevski, Stephan G nnemann
现实世界的数据很复杂，通常由可以分解为多个实体的对象组成，例如将图像转化为像素，将图形转化为互连的节点。随机平滑是一个强大的框架，通过在分类前随机添加噪声时保证多数投票的鲁棒性，使模型能够证明其对输入的微小变化具有鲁棒性。然而，当对手不会任意扰乱整个对象（例如，物体）时，通过随机平滑来证明此类复杂数据的鲁棒性具有挑战性。图像，但只是其实体的子集，例如像素。作为解决方案，我们引入分层随机平滑我们通过仅在随机选择的实体子集上添加随机噪声来部分平滑对象。通过以比现有方法更有针对性的方式添加噪声，我们在保持高精度的同时获得了更强的鲁棒性保证。我们使用不同的噪声分布初始化分层平滑，为离散和连续域生成新颖的鲁棒性证书。我们通过实验证明了分层平滑在图像和节点分类中的重要性，它产生了卓越的鲁棒性准确性权衡。

Learning Low-Rank Latent Spaces with Simple Deterministic Autoencoder: Theoretical and Empirical Insights
Authors Alokendu Mazumder, Tirthajit Baruah, Bhartendu Kumar, Rishab Sharma, Vishwajeet Pattanaik, Punit Rathore
自动编码器是一种无监督学习范例，旨在通过最小化重建损失来创建数据的紧凑潜在表示。然而，它往往忽视了这样一个事实：大多数数据图像都嵌入在较低维空间中，这对于有效的数据表示至关重要。为了解决这个限制，我们提出了一种称为低秩自动编码器 LoRAE 的新方法。在 LoRAE 中，我们结合了一个低秩正则器来自适应地重建低维潜在空间，同时保留自动编码器的基本目标。这有助于将数据嵌入到较低维度的空间中，同时保留重要信息。它是一个简单的自动编码器扩展，可以学习低秩潜在空间。理论上，我们为模型建立了更严格的误差界限。根据经验，我们的模型的优越性体现在图像生成和下游分类等各种任务中。

G-CASCADE: Efficient Cascaded Graph Convolutional Decoding for 2D Medical Image Segmentation
Authors Md Mostafijur Rahman, Radu Marculescu
近年来，医学图像分割已成为计算机辅助诊断领域的重要应用。在本文中，我们首先提出了一种新的基于图卷积的解码器，即级联图卷积注意力解码器 G CASCADE，用于 2D 医学图像分割。 G CASCADE 使用高效的图卷积块逐步细化由分层变换器编码器生成的多级特征图。编码器利用自注意力机制来捕获长范围依赖性，而解码器则由于图卷积块的全局感受野而细化保留长范围信息的特征图。对我们的解码器和多个变压器编码器在五个医学图像分割任务（即腹部器官、心脏器官、息肉病变、皮肤病变和视网膜血管）上的严格评估表明，我们的模型优于其他最先进的 SOTA 方法。我们还证明，我们的解码器比 SOTA CASCADE 解码器获得了更好的 DICE 分数，参数减少了 80.8，FLOP 减少了 82.3。

Pix2HDR -- A pixel-wise acquisition and deep learning-based synthesis approach for high-speed HDR videos
Authors Caixin Wang, Jie Zhang, Matthew A. Wilson, Ralph Etienne Cummings
准确捕捉具有大范围运动和光强度的动态场景对于许多视觉应用至关重要。然而，获取高速高动态范围 HDR 视频具有挑战性，因为相机的帧速率限制了其动态范围。现有方法牺牲速度来获取多重曝光帧。然而，这些帧中未对准的运动仍然会给 HDR 融合算法带来复杂性，从而导致伪影。我们不是基于帧的曝光，而是使用不同曝光和相位偏移的各个像素对视频进行采样。我们的采样模式在像素级可编程图像传感器上实现，可同时捕获高动态范围的快速运动。然后，我们使用深度神经网络的端到端学习权重将像素级输出转换为 HDR 视频，从而实现高时空分辨率和最小化运动模糊。我们演示了 1000 FPS 的无锯齿 HDR 视频采集，解决了低光照条件下和明亮背景下的快速运动问题，这对传统相机来说都是具有挑战性的条件。

Complex Image Generation SwinTransformer Network for Audio Denoising
Authors Youshan Zhang, Jialu Li
在现实应用中实现高性能音频降噪仍然是一项具有挑战性的任务。现有的时频方法常常忽略生成的频域图像的质量。本文将音频去噪问题转化为图像生成任务。我们首先开发一个复杂图像生成 SwinTransformer 网络，以从复杂傅里叶域捕获更多信息。然后，我们施加结构相似性和详细的损失函数来生成高质量图像并开发 SDR 损失以最小化去噪音频和干净音频之间的差异。

Learned, Uncertainty-driven Adaptive Acquisition for Photon-Efficient Multiphoton Microscopy
Authors Cassandra Tong Ye, Jiashu Han, Kunzan Liu, Anastasios Angelopoulos, Linda Griffith, Kristina Monakhova, Sixian You
多光子显微镜 MPM 是一种强大的成像工具，一直是活体组织成像的关键推动者。然而，由于大多数多光子显微镜平台依赖于点扫描，因此在采集时间、视场 FOV、光毒性和图像质量之间存在固有的权衡，当需要快速、大 FOV 和/或温和成像时，通常会导致测量结果出现噪声。深度学习可用于对多光子显微镜测量进行降噪，但这些算法可能容易产生幻觉，这对医学和科学应用来说可能是灾难性的。我们提出了一种同时去噪和预测多光子成像测量的像素不确定性的方法，提高算法的可信度并为深度学习预测提供统计保证。此外，我们建议利用这种学习到的像素级不确定性来驱动自适应采集技术，仅重新扫描样本中最不确定的区域。我们在人类子宫内膜组织的实验性噪声 MPM 测量中展示了我们的方法，表明我们可以在预测每个像素的不确定性的同时保持精细特征并优于其他去噪方法。最后，通过我们的自适应采集技术，我们证明采集时间和总光剂量减少了 120 倍，同时成功恢复了样本中的精细特征。

Confounder Balancing in Adversarial Domain Adaptation for Pre-Trained Large Models Fine-Tuning
Authors Shuoran Jiang, Qingcai Chen, Yang Xiang, Youcheng Pan, Xiangping Wu
预训练大型模型 PLM 具有出色的泛化能力、情境学习能力和涌现能力，无需直接训练数据即可处理特定任务，使它们成为对抗域适应 ADA 方法中更好的基础模型，将从源域学到的知识转移到目标域。然而，现有的 ADA 方法未能正确考虑混杂因素，这是源数据分布与目标域不同的根本原因。本研究提出了一种具有混杂因素平衡的对抗性域适应方法，用于 PLM 微调 ADA CBF。 ADA CBF 包括作为特征提取器、领域分类器和混杂分类器的基础模型的 PLM，并且它们通过对抗性损失进行联合训练。这种损失旨在通过削弱域分类器中的歧视来改进域不变表示学习。同时，对抗性损失还平衡了训练中源域和未测量域之间的混杂因素分布。与现有的 ADA 方法相比，ADA CBF 可以正确识别领域不变特征中的混杂因素，从而消除从 PLM 中提取的特征中的混杂因素偏差。 ADA CBF 中的混杂因素分类器设计为即插即用，可应用于混杂因素可测量、不可测量或部分可测量的环境。

Segue: Side-information Guided Generative Unlearnable Examples for Facial Privacy Protection in Real World
Authors Zhiling Zhang, Jie Zhang, Kui Zhang, Wenbo Zhou, Weiming Zhang, Nenghai Yu
人脸识别技术的广泛使用引起了隐私问题，因为许多人担心他们的面部数据被收集和使用。为了解决这些问题，研究人员正在积极探索不可学习示例的概念，通过在模型训练阶段向数据添加难以察觉的扰动，旨在防止模型学习目标人脸的辨别特征。然而，当前的方法效率低下，不能同时保证可迁移性和鲁棒性，导致在现实世界中不切实际。为了解决这个问题，我们提出了一种称为 Segue Side 信息引导生成不可学习示例的新方法。具体来说，我们利用一次训练过的多次使用模型来生成所需的扰动，而不是耗时的基于梯度的方法。为了提高可转移性，我们引入了真实标签和伪标签等辅助信息，这些信息在不同场景中本质上是一致的。为了增强鲁棒性，将失真层集成到训练管道中。大量实验表明，所提出的 Segue 比之前的方法快了 1000 倍，并且在不同数据集和模型架构之间实现了可转移的有效性。

Chinese Abs From Machine Translation

Papers from arxiv

更多精彩请移步主页

pic from pexels

更多推荐

【AI视野·今日CV 计算机视觉论文速览第276期】Thu, 26 Oct 2023

本文发布于:2024-02-07 07:49:51，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1754681.html