【nlp】1.5 文本数据增强(回译法)

编程入门 行业动态 更新时间:2024-10-19 08:45:56

【nlp】1.5 <a href=https://www.elefans.com/category/jswz/34/1771357.html style=文本数据增强(回译法)"/>

【nlp】1.5 文本数据增强(回译法)

文本数据增强

  • 回译数据增强法

回译数据增强法

回译数据增强目前是文本数据增强方面效果较好的增强方法, 一般基于google翻译接口,将文本数据翻译成另外一种语言(一般选择小语种),之后再翻译回原语言,,即可认为得到与与原语料同标签的新语料,新语料加入到原数据集中即可认为是对原数据集数据增强。

回译数据增强优势:

  • 操作简便, 获得新语料质量高

回译数据增强存在的问题:

  • 在短文本回译过程中,新语料与原语料可能存在很高的重复率, 并不能有效增大样本的特征空间

高重复率解决办法:

  • 进行连续的多语言翻译,如: 中文→韩文→日语→英文→中文,根据经验,最多只采用3次连续翻译, 更多的翻译次数将产生效率低下, 语义失真等问题.

回译数据增强实现:

# 思路分析
# 1 实例化翻译对象  google_translator()
# 2 translate(text,  lang_src='zh-cn', lang_tgt='ko') 中文翻译成韩语
# 3 translate(ko_res, lang_src='ko', lang_tgt='zh-cn

更多推荐

【nlp】1.5 文本数据增强(回译法)

本文发布于:2023-11-14 14:30:21,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1587761.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:文本   数据   nlp   回译法

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!