Every Document Owns Its Structure: Inductive Text Classification via GNN (TextING)|电子爱好者

admin管理员组
文章数量:1565352

文章目录

- 摘要
- 引言
- - 文本分类方法
  - TextING构建思路和创新点
- 方法
- - 构图
  - 基于图的词交互
  - 读出函数
  - 模型变种
- 实验
- - 数据集
  - 对比模型
  - 实验设置
  - 结果
参考文献

摘要

文本分类是自然语言的基础，GNN进来被广泛用于该任务。然而，现有的基于图的工作既不能捕捉每个文档中的上下文关系也不能实现对新单词的归纳学习。在本工作中，为了克服如上问题，提出通过GNN进行归纳文本分类的模型TextING。首先对每一个文档建立独立的图，然后使用GNN学习基于局部结构的细粒度词表示。该方法也可以在新文档中对没有见过的词进行有效的嵌入。最后，将词节点合并为文档嵌入。在四个基准数据集上进行了大量实验，结果表明文章所提方法优于文本分类的先进方法。

引言

文本分类方法

传统方法：朴素贝叶斯、K近邻、支持向量机等。它们主要依赖手工特征，牺牲了劳动力和效率。
深度学习方法：RNN、CNN为典型，及其延伸方法TextCNN、TextRNN和TextRCNN等。它们只关注词的局部位置，因此忽略了长距离和非连续的词的交互。
图方法：不把文本视作一个序列而实将其看作一组共现的单词。如TextGCN将文本分类任务转换为一个节点分类任务，Huang等(2019)通过引入信息传递机制减少了内存消耗。
图方法有两个主要的弊端：首先，忽略了文档中上下文相关的单词关系；其次，由于图的全局结构，测试文档在训练中是强制性的。因此它们有着固有的转导性，并难以进行归纳学习。

TextING构建思路和创新点

如上，文章通过GNN提出了一种新颖的文本分类方法TextING，该方法仅通过训练文档就可以详细的描述词词之间的关系，并在测试中对新文档进行归纳。方法使用滑动窗口在每个文档中构建独立的图，词节点的信息通过门控GNN传递给他们的邻居，然后聚合到文档嵌入中。
作者进行了大量的实验验证模型相较于基线方法的优点，即便测试中的词很多都没有出现过。文章的主要贡献如下：

提出了一种用于文本分类的GNN，其中每个文档都是一个独立的图，并且文本级别的单词交互可以在其中学习。
所提方法可以对在训练中未出现的新单词进行归纳。
验证了方法的性能要优于已有的先进文本分类方法。

方法

方法的三个主要部分：构图、基于图的词交互、读出函数；

构图

通过将独特的词表示为顶点，将词与词之间的共同出现表示为边来构建文本文档的图。文本以标准化方式进行预处理，包括表计划和停止字删除。顶点嵌入使用单词特征进行初始化。由于每个文档建立了独立的图，词特征信息在词的交互阶段被传播和聚合。

基于图的词交互

在每个图上使用门控GNN学习词节点的嵌入。每个节点可以从它的邻居节点获得信息并与自身的表示合并来更新。当图层对一阶邻居进行操作时，我们可以将该层堆叠t次来实现高阶特征交互，则节点可以到达t跳远的另一个节点。

其中， A A A是邻接矩阵， σ \sigma σ是sigmoid函数， W , U , b W, U, b W,U,b是训练权重和偏置， z , r z, r z,r分别表示更新门和重置门，决定邻居信息对当前节点嵌入的贡献程度。

读出函数

在词节点得到充分更新后，它们被聚合为文档的图级别的表示。基于此，最终的预测被产生。

其中， f 1 , f 2 f_{1}, f_{2} f1,f2是两个多层的感知机，前者作为软注意力权重，后者作为非线性特征变换。除了平均加权的词特征之外，将最大池化函数用于图表示。这背后的想法是，每个词都在文本中发挥作用，关键词应该更明确地发挥作用。最后通过将图级向量喂入softmax层得到预测标签，损失函数使用交叉熵损失

模型变种

使用一个多通道的分支TextING-M拓展了模型，具有局部特征的图（TextING）和具有全局结构的图（来自TextGCN的子图）可以并行工作。节点保持不变，而后者的边是从每个文档的大图(建立在整个语料库上)中提取的。分别训练它们并使它们对最终的投票比为1：1。

实验

实验测试主要关注三个方面：1）所提方法和其他比较模型的性能及优点，2）方法对从未出现过的词的适应性，3）关于词语如何影响一个文档的方法的可解释性。

数据集

四个基线数据集：

MR：分为正面和负面情绪的电影评论
R8：将出现在路透社的文档分为8类
R52：将出现在路透社的文档分为52类
Ohsumed：将医疗摘要分为23个心血管疾病类别

对比模型

三类模型：

传统的深度学习方法TextCNN和TextRN；
简单而有效的策略fastText和SWEM；
用于文本分类的基于图的方法TextGCN；

实验设置

训练集：验证集=9：1，并根据验证集的性能表现调整超参数。
Adam优化器，学习率0.01，dropout=0.5。
对于单词的嵌入，使用预训练的Glove。

结果

参考文献

[1] Zhang Y, Yu X, Cui Z, et al. Every document owns its structure: Inductive text classification via graph neural networks[J]. arXiv preprint arXiv:2004.13826, 2020.

本文标签： Structure Inductive Document Owns GNN

版权声明：本文标题：Every Document Owns Its Structure: Inductive Text Classification via GNN (TextING) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1725840802a1044990.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Every Document Owns Its Structure: Inductive Text Classification via GNN (TextING)

文章目录

摘要

引言

文本分类方法

TextING构建思路和创新点

方法

构图

基于图的词交互

读出函数

模型变种

实验

数据集

对比模型

实验设置

结果

参考文献

更多相关文章

idea中project structure中Libraries爆红的解决方法

SFM(structure from motion 从运动恢复结构)和MVS(multi-view stereo 多视图立体视觉)

kripke structure

Windows系统下使用pyinstaller打包PaddleOCR中表格识别PP-Structure

Ultra Fast Structure-aware Deep Lane Detection (ECCV2020)实验

Dynamic Hypergraph Structure Learning笔记（IJCAI-18）

[解决]Converting circular structure to JSON

Every Document Owns Its Structure: Inductive Text Classification via GNN (TextING)

idea配置Project Structure及Tomcat并支持热部署

Structure From Motion(SFM)入门讲解

IDEA的Project Structure和部署Tomcat设置

Opencv报错：(parameter or structure field))Unrecognized or unsupported array type in functon ‘cvGetMat‘

Cross-SRN:Structure-Preserving Super-Resolution Network with Cross Convolution

linux Structure needs cleaning(结构需要清理)解决

Charles抓包，Structure没有显示抓取到的请求内容的原因

关于IDEA，Project Structure中的modules的作用

IDEA的Project与Structure依赖jar包的方式

C++ 语言结构体 (structure - struct)

Structure Sensor扫描的数据通过Skanect Pro进行三维重建

Intellij Idea中Project Structure 讲解

发表评论

推荐文章

linux下误操作startx命令后，在登录界面进不去解决办法

Win10下安装Ubuntu16.04(UEFI+GPT)

讯飞输入法，你可以成为下一个小米（3）

如何使用移动云搭建个人网站（保姆级教程）

Code Review代码审查的思路

热门文章

取消服务器密码后不能进入系统了,win10系统输入密码后不能进入桌面怎么办_网站服务器运行维护,win10,桌面...

手机safari导入html书签,iPhone手机Safari浏览器书签如何同步至电脑?

使用mkiso向服务器传文件,Linux mkisofs 创建光盘镜像文件(Linux指令学习笔记)

如何重装win7系统,怎么重装win7系统

python模拟浏览器爬虫之使用代理驱动“谷歌浏览器”

计算机对等网络的组建,两台电脑对等网组建连接教程

Android获取手机当前连接的WiFi信息（SSID，IP，连接状态）

终极解决电脑缺失dll，应用程序无法正常启动0xc000007b

关于各大输入法词库格式之间的转换

CAD想画得快，你需要看看我的吐槽

最新文章

基于YOLOv8YOLOv7YOLOv6YOLOv5的行人跌倒检测系统（深度学习+UI界面+完整训练数据集）

【工具】Windows下常用录屏软件

武林外传书生版单机安装教程+GM工具+虚拟机一键端

电脑大神偷偷藏着的u盘恢复数据5个方法，现在公开

硬件知识：U盘缩水是怎么回事，如何恢复U盘真实容量？

网络配置切换神器 - NetSetman介绍

专注于Win7系统清除附带推广和工具

U盘文件夹为空恢复方法，恢复U盘的空白文件夹

备份数据选u盘还是硬盘？数据丢失又该如何恢复？

【数据恢复】【傲梅分区助手】

FL Studio21.2.3.4004中文版一键安装版专业版水果FL Studio2024最新完整版免费下载

逆向工程第007篇：扫雷辅助的研究——0秒实现一键自动扫雷

win7 内存补丁_封装Win7系统定制私人GHO包必须要做的55个优化步骤

U盘跨机使用难题：打不开的困境与数据恢复之道

u盘文件夹被隐藏怎么恢复正常？

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载