admin管理员组

文章数量:1652184

Jo-SRC: A Contrastive Approach for Combating Noisy Labels

  • Abstract
  • Introduction
  • Method
  • Summary

整理了文章的关键内容,内容源自 Jo-SRC: A Contrastive Approach for Combating Noisy Labels。

Abstract

  1. we train the network in a contrastive learning manner
    对比学习
  2. Predictions from two different views of each sample are used to estimate its “likelihood” of being clean or out-of-distribution.
    一个样本在两个不同的视图预测下,来评估其是否是噪声
  3. we propose a joint loss to advance the model generalization performance by introducing consistency regularization
    联合损失:通过引入一致性正则化来提高模型泛化性能

Introduction

  1. 介绍了深度学习和噪声标签的背景,说明处理噪声标签的必要性

  2. 先前方法:

    • Loss correction: 如噪声转移矩阵,鲁棒损失函数
    • Sample Selection: 如co-teaching

    噪声比较高容易失效

  3. 研究表明DNN在过拟合前优先记住干净简单的模式,目前的方法主要在ID(in-distribution)闭集上进行研究,而在OOD(out-of-distribution)开集上研究较少

  4. contribution

    • Jo-SRC 用联合损失训练网络,包括交叉熵项和一致性项,以获得更高的分类和泛化性能
    • 采用 Jensen-Shannon 散度来衡量每个样本清洁的可能性,区分ID噪声和OOD噪声
    • 在现实数据集中表现优异(实验)

Method

framework

OOD:out of distribution -> 开放集合上的噪声
ID: in distribution -> 封闭集合的噪声

  1. Global clean sample selection
    CELoss熵较小时数据更倾向于清洁,在每个小batch选择一定比例的样本作为清洁标签(co-teaching);但是这个比例很难把控
    选择清洁标签的策略,量化求出预测值pi和标签yi的距差异:

    DKL表示KL散度,样本清洁的概率为Pclean(xi)=1-di.
    当Pclean(xi) > τ \tau τclean时,定义为清洁标签
    好处:交叉熵取值不受限制,而JS散度的值控制在[0,1],因而可以看成全局性质的选择指标,而不是一个小batch的指标,这样子可以避免一个batch内噪声比不平衡的问题
    对于 τ \tau τclean,其中 τ \tau τw为超参数(作者取值0.95)

  2. 作者提出了区分OOD和ID的方法
    考虑self-supervised contrastive learning和agreement maximization principle,作者使用一致性差异来实现OOD和ID的区分
    使用两种transform生成两个视图模型T和T’,对应的预测值为p和p’

    输入x为Pclean较小的样本,给定参数tood
    Pood(xi)>tood: 不同的transform下,预测结果不一致,OOD噪声
    Pood(xi)<tood: 不同的transform下,预测结果一致,ID噪声

  3. 算法流程
    对于clean label使用标签平滑更改标签

    对于ID label 根据 mean-teacher model生成伪标签

    对于OOD label,仍然使用mean-teacher model,强制对 OOD 样本进行预测以拟合近似均匀的分布,以提高泛化性能

    利用之前的三个集合进行迭代训练

    实质上看到,这个算法最终将数据集分成3个部分,不同类别的数据集使用不同的方法重新打标签,训练前期使用的是干净数据集而后期使用的是三个分好类别的数据集
    这一点不太理解,t<tw应该是epoch较小的训练前期,这个时候模型本身预测就不准确,使用的clean set真的就是clean的吗?存疑求解但

  4. 一致性正则化
    所有模块一起的loss:

    干净模块的损失

    ID与OOD模块的Loss损失

Summary

作者主要通过标签清洗的方式,使得数据集中的标签更加有效,噪声更少

本文标签: 论文SRCJoContrastivelabels