admin管理员组文章数量:1654387
Identify Mislabeled Data using the Area Under the Margin Ranking
Paper Reading
- Identify Mislabeled Data using the Area Under the Margin Ranking
- Background
- Contribution
- Methodology
- Discussion
Background
- 目前关于noise-label 学习的工作一般包括两个大类
- loss,一般就是通过改进loss,使得不同样本具有不同的权重,从而改善模型的效果,避免过拟合到noise label
- re-label,一般就是通过某种方法找到可能是噪声的数据,从而给他们re-label
- 本文从大类上看属于第二种范式,re-label。不同之处在于本文只关注找到mislabeled data,不会去纠正他们的标签。
- 作者认为通过找到mislabeled data,然后删除他们可以构建一个较为纯净的数据集
Contribution
- 作者提出了一种度量方式用于区分噪声数据和非噪声数据,称之为AUM(Area Under the Margin Ranking)。该方法可以针对每个sample计算一个AUM值。
- 上述AUM值可以通过阈值来划分,但是阈值需要手动调整。因此作者提出了一种自动确定阈值的方法。
Methodology
- Margin的定义如下所示,其中t代表是第t个epoch,x代表是输入的数据,y代表annotation labe,z代表的是最终prediction的logits。由式子定义可知其可能会去到负数,当为负数的时候,代表模型预测的结果可能和真值结果存在不同,因此当前样本可能是噪声。
M t ( x , y ) = z y t ( x ) − m a x i ! = y z i t ( x ) M^{t}(x,y) = z^{t}_{y}(x) - max_{i != y}z^{t}_{i}(x) Mt(x,y)=zyt(x)−maxi!=yzit(x) - 考虑到不同epoch margin值可能是不一样的,因此作者定义了如下所示的AUM值,它相当于对前T个epoch的Margin值计算了平均。
A U M ( x , y ) = 1 T ∑ t = 1 T M t ( x , y ) AUM(x, y) = \frac{1}{T}\sum_{t=1}^T{M^t(x,y)} AUM(x,y)=T1t=1∑TMt(x,y) - AUM值越小代表这个样本越有可能是噪声数据,但是只根据ranking是没有办法得到一个绝对的划分。因此需要一个绝对的划分。
- 作者提出使用threshold samples,作者从训练集合中抽样一部分数据出来作为threshold samples,这部分数据会人为的指定噪声标签,并且加入训练。最终这部分数据的AUM前从高到底排序的90分位值即可以作为AUM的阈值,用于划分噪声数据和非噪声数据。
Discussion
- 关于截止时间。因为训练到后面均会在训练集上拟合的较好,因此如何选择AUM计算的终止时间至关重要。作者提出在第一次进行学习率调整的时候即可以终止。
- 关于噪声数据的噪声分布。该文章大部分的假设是基于噪声数据是平均分布的,即就是等概率的分为其他类别。作者也讨论了非对称的噪声分布。相比于等概率的平均分布,非对称噪声数据对噪声的容错能力较低。作者实验证明,非对称数据中,40%的数据是噪声数据,其偏向于某一类。在该组实验中,非对称组对噪声识别的recall就会大幅降低(即不能找到噪声数据)。原因在于如果是非对称分布,就会使得正确样板的AUM值减少,mislabeled的AUM值增大。如第一个公式所示。正确样本的前一项减少(因为原来最大可能是80%,现在就变成了60%)。mislabeled样本的margin会增大。
本文标签: AUMidentifypaperreadingMislabeled
版权声明:本文标题:[Paper Reading] AUM Identify Mislabeled Data using the Area Under the Margin Ranking 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dianzi/1729649418a1208860.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论