综述：基于深度学习的文本分类 --《Deep Learning Based Text Classification: A Comprehensive Review》总结(二)|电子爱好者

admin管理员组
文章数量:1565292

文章目录

- 综述：基于深度学习的文本分类
- - - 《Deep Learning Based Text Classification: A Comprehensive Review》论文总结(二)
    - 3.文本分类数据集
    - - 3.1 情绪分析数据集
      - 3.2新闻分类数据集
      - 3.3主题分类数据集
      - 3.4 QA Datasets
      - 3.5 NLI数据集
    - 4.实验性能分析
    - - 4.1 常用的文本分类指标
      - Accuracy and Error Rate
        Precision / Recall / F1 score
      - Exact Match (EM)
      - Mean Reciprocal Rank (MRR)平均倒数排名
    - 5.挑战和机遇

综述：基于深度学习的文本分类

《Deep Learning Based Text Classification: A Comprehensive Review》论文总结(二)

Minaee S, Kalchbrenner N, Cambria E, et al. Deep learning based text classification: A comprehensive review[J]. arXiv preprint arXiv:2004.03705, 2020.
原文链接：https://arxiv/pdf/2004.03705.pdf

参考博主「一只羊呀」:Deep Learning Based Text Classification: A Comprehensive Review（部分翻译总结）的总结

3.文本分类数据集

3.1 情绪分析数据集

Yelp:Yelp是最流行的情感分类数据集之一。在此数据集上定义了两个分类任务。一种是检测细粒度的情感标签，称为Yelp-5。另一个预测负面和正面情绪，被称为Yelp评论极性或Yelp-2。
IMDb:IMDB数据集被开发用于电影评论的二进制情感分类的任务。
SST:斯坦福情感树库（SST）数据集。有两个版本可用，一个带有细粒度标签（五类），另一个带有二进制标签，称为SST-1和SST-2。
MPQA:多视角问答数据集，是具有两个类别的意见语料库标签。
Amazon：这是从亚马逊网站收集的热门产品评论语料库。
一些受欢迎的数据集包括SemEval-2014 Task4，Twitter，SentiHood等。

3.2新闻分类数据集

AG News：是学术新闻搜索引擎ComeToMyHead从2000多个新闻来源收集的新闻文章的集合。每个样本都是带有四类标签的简短文本。
20 Newsgroups：是发布在20个不同主题上的新闻组文档的集合。
Sogou News：是SogouCA和SogouCS新闻语料库的混合。
Reuters news：是用于文本分类研究的最广泛使用的数据集之一。
为新闻分类开发的其他数据集包括：Bing news, NYTimes, BBC, Google news。

3.3主题分类数据集

DBpedia：是大规模的多语言知识库，它是根据Wikipedia中最常用的信息框创建的。
Ohsumed：每个文档都是医学摘要，由选自23种心血管疾病类别的一个或多个类别标记。
EUR-Lex：包括不同类型的文档，这些文档根据几种正交分类方案进行索引以允许使用多种搜索工具。该数据集的最流行版本基于欧盟法律的不同方面。
WOS：Web of Science（WOS）数据集是可从Web of Science获得的已发表论文的数据和元数据的集合。
PubMed：PubMed是由美国国家医学图书馆开发的搜索引擎，用于医学和生物科学论文。

3.4 QA Datasets

SQuAD：斯坦福大学问答数据集（SQuAD）是从Wikipedia文章中获得的问题-答案对的集合。
MS MARCO：该数据集由Microsoft发布。与SQuAD不同的是，所有问题都是由编辑产生的；在MS MARCO中，使用Bing搜索引擎从用户查询和真实Web文档的段落中抽取所有问题。
TREC-QA：是用于QA研究的最受欢迎和研究最多的数据集之一。该数据集具有两个版本，称为TREC-6和TREC-50。TREC-6由6个类别的问题组成，而TREC-50由五十个类别的问题组成。
WikiQA：由一组问题-答案对组成，它们被收集并注释以用于开放域QA研究。数据集还包含没有正确答案的问题，使研究人员可以评估答案触发模型。
Quora：包含超过40万个问题对。为每个问题对分配一个二进制值，指示两个问题是否相同。
其他数据集包括Adversarial Generations (SWAG), WikiQA, SelQA。

3.5 NLI数据集

SNLI：斯坦福自然语言推断数据集被广泛用于NLI。该数据集包含550,1句子对，每对带有三个标签之一：neutral, entailment, contradiction。
Multi-NLI：SNLI的扩展，涵盖更广泛的口语和书面语体裁，并支持独特的跨体裁归纳评估。
SICK：英语句子对，并用三个标签进行注释：entailment, contradiction, and neutral。
MSRP：通常用于文本相似性任务。每个样本都是一个句子对，并用二进制标签注释，指示两个句子是否为释义。
其他NLI数据集还包括Semantic Textual Similarity (STS), RTE, SciTail。

4.实验性能分析

4.1 常用的文本分类指标

Accuracy and Error Rate

A c c u r a c y = ( T P + T N ) N , E r r o r r a t e = ( F P + F N ) N Accuracy=\frac{\left( TP+TN \right)}{N},Error\ rate=\frac{\left( FP+FN \right)}{N} Accuracy=N(TP+TN),Error rate=N(FP+FN)
E r r o r r a t e = 1 − A c c u r a c y Error\ rate=1-Accuracy Error rate=1−Accuracy

TP,FP、TN、FN分别表示真阳性、假阳性、真阴性、假阴性

Precision / Recall / F1 score

对于不平衡的测试集，它们比准确性或错误率更常用，F1分数是精确度和召回率的调和平均值。F1得分的最佳值为1(完美的精度和召回)，最差值为0。例如，大多数测试样本都有一个类标签。二分类的准确率和召回率定义为
P r e c i s i o n = T P T P + F P , Re c a l l = T P T P + F N ， F 1 − s c o r e = 2 P r e ⋅ Re c P r e + Re c Precision=\frac{TP}{TP+FP},\text{Re}call=\frac{TP}{TP+FN}\text{，}F1-score=\frac{2Pre\cdot \text{Re}c}{Pre+\text{Re}c} Precision=TP+FPTP,Recall=TP+FNTP，F1−score=Pre+Rec2Pre⋅Rec
对于多类分类问题，我们总是可以计算每个类标签的准确率和召回率，并分析个体在类标签上的表现，或者将值取平均值，得到整体的准确率和召回率。

Exact Match (EM)

精确匹配指标是问答系统的一个流行指标，它衡量的是准确匹配任何一个ground truth answer的预测百分比。

Mean Reciprocal Rank (MRR)平均倒数排名

MRR常被用于评估NLP任务中排序算法的性能，如查询文档排序和QA。其中Q是所有可能答案的集合， r a n k i rank_i ranki是真实答案的排名位置。
M R R = 1 ∣ Q ∣ ∑ i = 1 Q 1 r a n k i MRR=\frac{1}{|Q|}\sum_{i=1}^Q{\frac{1}{rank_i}} MRR=∣Q∣1i=1∑Qranki1
其他广泛使用的指标包括Mean Average Precision (MAP)平均精度(MAP)、Area Under Curve(AUC)曲线下面积、False Discovery Rate错误发现率，False Omission Rate误漏率等等

5.挑战和机遇

为更具有挑战性的任务构建新的数据集

尽管近年来已经收集了大量的大型数据集用于常见的文本分类任务，但仍然需要新的数据集来完成更具挑战性的任务，如多步骤推理的QA和多语言文档的文本分类。为这些任务提供大规模的标记数据集有助于加速这些领域的进展。

建立常识知识模型

将常识性知识融入深度学习模型有可能显著提高模型性能，这与人类利用常识性知识执行不同任务的方式几乎相同。例如，一个配备常识知识库的QA系统可以回答关于真实世界的问题。常识知识也有助于在信息不完整的情况下解决问题。人工智能系统利用人们对日常事物或概念的普遍信念，以类似的方式，基于对未知事物的“默认”假设进行推理。虽然这种思想已经被研究用于情感分类，但如何在神经模型中有效地建模和使用常识知识还需要更多的研究。

可解释的深度学习模型

尽管深度学习模型在具有挑战性的基准测试中取得了令人满意的性能，但大多数模型都是不可解释的，并且仍然存在许多悬而未决的问题。例如，为什么一个模型在一个数据集上优于另一个模型，但在其他数据集上却表现不佳？深度学习模式到底学到了什么？什么是最小的神经网络结构，能够在给定的数据集上达到一定的精度？尽管注意和自我注意机制为回答这些问题提供了一些见解，但对这些模型的潜在行为和动力学的详细研究仍然缺乏。更好地理解这些模型的理论方面有助于开发针对各种文本分析场景的更好的模型。

内存效率模型

大多数现代神经语言模型需要大量的记忆来训练和推理。但是，为了满足移动设备的计算和存储限制，这些模型必须进行简化和压缩。这可以通过使用知识蒸馏来构建学生模型，或者使用模型压缩技术来实现。开发与任务无关的模型简化方法是一个活跃的研究课题。

少样本和零样本学习

大多数深度学习模型都是有监督的模型，需要大量的领域标签。实际上，为每个新域收集这样的标签是昂贵的。微调一个针对特定任务的预训练语言模型（PLM）如BERT和OpenGPT比从头开始训练一个模型需要更少的领域标签，从而为开发基于PLM的新的少样本和零样本学习方法提供了机会。

本文标签：深度文本 Learning Deep Based

版权声明：本文标题：综述：基于深度学习的文本分类 --《Deep Learning Based Text Classification: A Comprehensive Review》总结(二) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1725896957a1047761.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

综述：基于深度学习的文本分类 --《Deep Learning Based Text Classification: A Comprehensive Review》总结(二)

文章目录

综述：基于深度学习的文本分类

《Deep Learning Based Text Classification: A Comprehensive Review》论文总结(二)

3.文本分类数据集

3.1 情绪分析数据集

3.2新闻分类数据集

3.3主题分类数据集

3.4 QA Datasets

3.5 NLI数据集

4.实验性能分析

4.1 常用的文本分类指标

Accuracy and Error Rate

Precision / Recall / F1 score

Exact Match (EM)

Mean Reciprocal Rank (MRR)平均倒数排名

5.挑战和机遇

更多相关文章

基于文本数据的情感分析系统

读懂人工智能、机器学习、深度学习、大数据，自然语言处理……

3D深度相机调研【史上最全，不服来战】

苹果第一台计算机的诞生的,纪念Mac诞生30周年：第一台Mac电脑深度拆解

深度学习基础入门

1.当推荐系统邂逅深度学习

xp查询保存的共享计算机密码,用于设置共享文件夹密码（winxp）的图形文本教程...

腾讯御安全深度解读影响全球的CPU漏洞：熔断与幽灵

风靡全球的ChatGPT是什么？深度解读ChatGPT的方方面面！

探索宇宙的开源力量：NASA的Core Flight Executive (cFE)项目深度解析

深度linux如何安装迅雷,deepin官方论坛-深度科技官网旗下网站

深度linux系统想运行安卓软件下载,在Deepin上安装Android投屏软件scrcpy的方法

Linux服务器下配置深度学习环境（PyTorch）

emotion数据集下载_text2emotion python包，用于从文本数据中检测情感

【Ubuntu】深度学习模型训练到一半卡死的解决方法

深度学习的边缘坑——ubuntu 16开机密码循环输入

Spectrum Sensing Based on Deep Learning Classification for Cognitive Radios阅读 2019

html调用讯飞语音文本朗读,(原创)讯飞输入法的妙用:语音翻译+智能OCR + 文本转语音播报...

讯飞输入法将深度神经网络DNN技术应用于语音识别达到业界领先水平

【论文阅读|2024 WACV 多目标跟踪Deep-EloU】

发表评论

推荐文章

总结整理大全，69个后端技术头大问题

怎样利用计算机名共享打印设置,怎样设置打印机共享？

深入解析Linux驱动开发中的I2C时序及I2C高频面试题

vba 定义类_在类中定义和触发自己的事件（上）

lisp 天正标高_建筑设计选择 CAD 和天正画图哪个更好？

热门文章

手机上的计算机黑屏怎么办,电脑黑屏不显示怎么办？不花钱就能解决的方法，分分钟教会你！...

Hacking Team Android Browser Exploit代码分析

分享几种修复msvcp100.dll丢失的文件，一键修复丢失msvcp100.dll文件

中国android用户多少,中国手机浏览器用户突破1.7亿 安卓用户占34

LLMs之InstructGPT：《Training language models to follow instructions with human feedback》翻译与解读

如何下载ChromeDriver115及其以上版本

win10如何共享打印机_windows1064位系统如何连接window732位共享打印机

局域网下两台电脑ping不通

windows 11 mysq8 数据文件目录迁移后mysql服务无法正常启动

百度输入法正式登陆Linux嵌入式：响应自主可控号召

最新文章

【最新Globalmapper中文入门到精通系列实验图文教程】（附配套实验数据+中文安装包23+24+25，持续同步更新）

acme cadsee 2020

CAD2012

使用.NET开发AutoCAD——设计师不做画图匠（一）

基于TOP256Y电源原理与PI Expert设计软件

非常实用的电脑软件推荐

halcon教程之VisionPro软件和Halcon软件 的详细对比

lisp提取长方形坐标_求修改lisp程序，如何提取CAD中多个点的坐标，（本人想提取UCS坐标系）另外只需要提取X,Y值，不要Z...

从欧美到亚洲，2019年全球有多少个软件工程师?

6个终身受益的免费自学网站，每天花15分钟，效果立竿见影！

企业防泄密一定要做！2024文件加密软件

企业软件资产和License管理遇到的问题和解决办法

在一周内学会使用 AUTO CAD

solidwork软件安装显示失败问题处理

世界坐标系前端分类

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中国android用户多少,中国手机浏览器用户突破1.7亿安卓用户占34

halcon教程之VisionPro软件和Halcon软件的详细对比

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载