M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining 论文解读|电子爱好者

admin管理员组
文章数量:1609966

2022年CVPR《M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining》
论文地址：https://arxiv/pdf/2109.04275.pdf
代码地址：https://github/Xiaodongsuper/SCALE_code

本文贡献主要有二：

开源了一个大规模的多模态预训练数据集M5Product。

该数据集包括5种模式（图像、文本、表格、视频和音频），涵盖6000多个类别和5000个属性，比具有类似模式数量的最大的公开数据集大500倍。此外，M5Product包含不完整的模式对和噪声，同时也有一个长尾分布，类似于大多数真实世界的问题。
提出了一个预训练框架Self-harmonized ContrAstive LEarning（SCALE）

通过自适应特征融合机制将不同的模态整合到一个统一的模型中，每个模态的重要性直接从模态嵌入中学习，并在多模态变换器模型中影响模态间的对比学习和掩码任务。

1 背景

问题背景：
目前的研究界大多集中在一般多模态和电子商务数据集中的两种模态（文本和图像），而忽略了来自表格结构数据以及视频和音频的额外补充信息的重要性。

例如，表格数据可以提供关于属性和特征的详细信息，如品牌、材料、属性和场景，而音频和视频可以传达不同的视角、规模、承受力、卖点、特征和使用场景，而这些从图像或文本中是不明显的。关注这两种模式的部分原因是缺乏具有不同模式的数据集，以及对平衡这些环境中模式重要性的方法探索不足。特别是，两个关键的挑战是。
1）模态交互。如何从单模态、双模态、三模态甚至多模态的关系中学习共同的表征，使用一种优雅的方法来扩展到大量的模态；
2）模态噪声：如何在训练过程中减少模态噪声（丢失和不完整的模态）的影响。

2 M5Product数据集简介

从阿里电商提取，有5,679种产品和24,398,673个参数值，构建了一个由电子商务商家标注的表数据库。处理之后，数据集包含6,313,067个样本。多模态信息如下：

3 SCALE预训练框架

3.1 框架设计

框架结构如上图，结构为单塔（流）模型。

通过编码器提取各种模态特征的嵌入，具体的：

文本和表格编码器是标准的转化器，分别对产品的标题和表格信息进行编码。
图像编码器并非以自下而上的注意力提取作为输入，而从视频中采样的序号帧则被送入视频编码器。
对于音频编码器，SCALE从音频中提取MFCC特征。在经过独立的模态编码器处理后，不同模态的标记特征被串联起来，并送入联合共变器（JCT）模块，以捕捉不同模态间的标记关系。

3.2 多模态掩码任务学习

和之前工作类似，这里采用掩码任务来进行学习。

为了从图像和文本模态中进行模态特征学习，我们在JCT之后分别采用了掩码区域预测任务（MRP）和掩码语言建模任务（MLM）。

利用表格、视频和音频模态的特点，我们进一步提出了掩码实体建模任务（MEM）、掩码帧预测任务（MFP）和掩码音频建模任务（MAM），遵循预测掩码标记的类似策略。

在所有的掩码任务中，真实标签是被掩码区域的特征。对于所有的掩码任务，15%的输入被掩码掉，其余的输入被用来重建被掩码的信息。请注意，与MLM任务中15%的单词被屏蔽不同，MEM任务中15%的实体（房产、品牌名称等）被完全屏蔽掉。这促使我们的模型学习更好的表征来恢复被掩盖的输入。

模态内的损失函数为：

3.3 自我协调的模态间对比学习

通过一种自我协调的自适应跨模态对比学习方法实现不同模态之间的语义对齐。

对于样本对，通过构建模态间的正负样本来求解损失函数。在以往的工作中，只有文本-图像两种模态，可以使用损失函数2求解。

但是对于3种以上模态数据，直接拟合损失函数是不合适的，因为它没有考虑到不同模态贡献的互补信息的差异。为了解决这个问题，我们定义了一个简单而有效的自洽方法来模拟模态间关系的互补过程。如下图：

引入一个模态对齐得分矩阵，来编码模态间损失 L C L L_{CL} LCL和模态内损失 L M i L_{Mi} LMi之间的关系。每个数据样本的排列分数矩阵S由一个零矩阵初始化，并作为自由模型参数更新。为了获得每个模态组合的模态重要性分数，我们对S应用softmax函数。最后，重要性分数相乘，生成模态排列分数S，即S=S-softmax(S).

4 下游任务

1 多模态检索/匹配
这项任务的目的是使用两种或多种模式的组合找到最相关的目标产品。如果一对产品都属于同一类别，则被认为是匹配的。

2 细粒度的多模态检索
在实例层面上进行检索，只有相同产品（即颜色、型号、形状和样式）的样本才被视为匹配

3多模态分类
使用线性分类器对从SCALE的联合共变换器中提取的多模态特征进行产品类别分类。

4多模态聚类
使用k-Means聚类和与分类设置中相同的特征进行产品类别聚类

5 结论

实验评估表明，SCALE能够从大量的模式中学习有效的表征，用于检索、分类和聚类。

为了促进多模态的预训练，我们提出了M5Product数据集，这是最大的多模态电子商务产品数据集，包括五个核心模态（图像、文本、表格、视频和音频）。为了进一步促进零售业的多模态研究，提高卖家和买家的参与度，我们还提出了新颖的SCALE多模态预训练框架。通过利用Self-harmonized Inter-Modality Contrastive Learning（SIMCL），SCALE能够有效地建模和利用模态关系，并在M5Product多模态检索、分类和聚类任务上优于以前的方法。

本文标签：论文 Contrastive Learning M5Product harmonized

版权声明：本文标题：M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining 论文解读内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1728586865a1164997.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining 论文解读

1 背景

2 M5Product数据集简介

3 SCALE预训练框架

3.1 框架设计

3.2 多模态掩码任务学习

3.3 自我协调的模态间对比学习

4 下游任务

5 结论

更多相关文章

基于MUI框架的影视播放APP的设计与实现毕业设计论文参考【原查重5.1%】

基于SSM的献血管理系统设计与实现(论文+源码)_kaic

武利中学校园网络规划与设计(论文+源码)_kaic

论文翻译：OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics

论文查重时的近义词同义词替换清单？

（springboot+小程序）心理疗愈 毕业设计源码论文+答辩PPT

AUTORT 论文翻译: EMBODIED FOUNDATION MODELS FOR LARGE SCALE ORCHESTRATION OF ROBOTIC AGENTS

论文阅读“Automatic detection of hardhats worn by construction personnel”

Llama 3.1：系列模型原理讲解论文(章节1-3)

基于Java的高校教材订购系统的设计与实现(源码+论文)

看了几十篇轻量化目标检测论文扫盲做的摘抄笔记

[论文总结] 智慧农业论文摘要阅读概览

【论文阅读】Further Non-local and Channel Attention Networks for Vehicle Re-identification

【论文解读+代码实现】Neural Response Interpretation through the Lens of Critical Pathways

【论文笔记】SelfIE: Self-Interpretation of Large Language Model Embeddings

笔记3（总结）-THE TUH EEG CORPUS: A Big Data Resource for Automated EEG Interpretation（论文）

遥感领域多模态综述论文翻译

论文阅读：multimodal remote sensing survey 遥感多模态综述

Deep Learning Meets SAR

ACL2021 知识图谱、推荐系统相关论文

发表评论

推荐文章

xilinx下载器驱动提示“系统找不到指定的路径”的解决过程

RAR Extractor v11.20(mac解压缩软件)

使用Nacos遇到io.netty.channel.AbstractChannel$AnnotatedConnectException: Connection timed out: no furthe

移动端测试介绍和练习

pytorch——迁移学习实战宝可梦精灵分类

热门文章

python恢复手机数据的软件_有什么万能的手机数据恢复软件吗？

Office Tool Plus部署、激活

SpringCloud学习笔记，课程源自黑马程序员，笔记持续更新中...

系统学习深度学习（二十二）--CNN经典模型总结

我的模型有多快？——深度学习网络模型的运算复杂度、空间占用和内存访问情况计算

【Spring Boot:[Tomcat] Error parsing HTTP request header】

Excel表格列多选

win10升级

【Leetcode】1678. Goal Parser Interpretation

【时间序列】KDD 2021丨时间序列相关研究论文汇总

最新文章

[学习笔记]2020年win10最常用dos命令以及win+R即可运行的命令（使用命令打开自己想要的内容，总比找不到更好，赶快收藏）

史上最详细的Studio One 6.6.2破解版2024最新图文安装激活教程（附Crack下载）

WIN2012远程桌面授权服务器许可证问题解决方法

机器学习环境的搭建和使用----anacondajupytertensorflow-gpu opencv等 win10安装和常用使用方法总结

CorelDRAW2024精简版安装包下载包含CDR2024绿色永久激活码

win10系统连接wifi后可以上网但是显示【无Internet，安全】解决 and Maple初始化失败问题

EditPlus激活码

Xshell完美连接win10 Linux子系统

win10上成功运行faster-rcnn.pytorch-1.0

Beyond Compare 软件如何永久试用？

Office激活后还是弹激活窗口解决办法

typroa的永久使用

Win10下安装OpenVINO

【关闭个人数据跨境传输】

2024年手把手教你下载、安装和激活Guitarpro8中文永久破解版（附Crack）

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

（springboot+小程序）心理疗愈毕业设计源码论文+答辩PPT

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载