Difficult Samples Re-embedding via Mutual Information Constrained Semantically Oversampling

编程入门 行业动态 更新时间:2024-10-28 14:30:02

EMNLP2021

Introduction

不平衡样本分类可以通过对少数样本过采样或是对多数样本欠采样的方式解决,或者使用GAN进行采样使得采样之后的数据仍然遵循原始数据分布。当然,之前读过的数据增强MixText也是一种方法。
但是,少数类的困难样本通常很难被分类,因为它们嵌入到与多数类重叠的语义区域。比如,如图所示:

如Traditional embedding展示的那样,红色的重叠区域的样本识别往往是困难的,因为它们在表面形式(例如,n-gram或语法)方面与Mahority样本相似。例如,在数据集Yelp.P中,

my parents didn’t want to go back to beautiful Miami

更多推荐

Difficult Samples Re-embedding via Mutual Information Constrained Semantically O

本文发布于:2023-06-13 22:28:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1412251.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:embedding   Mutual   Difficult   Samples   Semantically

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!