Difficult Samples Re-embedding via Mutual Information Constrained Semantically Oversampling

编程入门行业动态更新时间:2024-10-28 14:30:02

EMNLP2021

Introduction

不平衡样本分类可以通过对少数样本过采样或是对多数样本欠采样的方式解决，或者使用GAN进行采样使得采样之后的数据仍然遵循原始数据分布。当然，之前读过的数据增强MixText也是一种方法。
但是，少数类的困难样本通常很难被分类，因为它们嵌入到与多数类重叠的语义区域。比如，如图所示：

如Traditional embedding展示的那样，红色的重叠区域的样本识别往往是困难的，因为它们在表面形式(例如，n-gram或语法)方面与Mahority样本相似。例如，在数据集Yelp.P中，