admin管理员组

文章数量:1565352

文章目录

    • 摘要
    • 引言
      • 文本分类方法
      • TextING构建思路和创新点
    • 方法
      • 构图
      • 基于图的词交互
      • 读出函数
      • 模型变种
    • 实验
      • 数据集
      • 对比模型
      • 实验设置
      • 结果
  • 参考文献

摘要

  文本分类是自然语言的基础,GNN进来被广泛用于该任务。然而,现有的基于图的工作既不能捕捉每个文档中的上下文关系也不能实现对新单词的归纳学习。在本工作中,为了克服如上问题,提出通过GNN进行归纳文本分类的模型TextING。首先对每一个文档建立独立的图,然后使用GNN学习基于局部结构的细粒度词表示。该方法也可以在新文档中对没有见过的词进行有效的嵌入。最后,将词节点合并为文档嵌入。在四个基准数据集上进行了大量实验,结果表明文章所提方法优于文本分类的先进方法。

引言

文本分类方法

  • 传统方法:朴素贝叶斯、K近邻、支持向量机等。它们主要依赖手工特征,牺牲了劳动力和效率。

  • 深度学习方法:RNN、CNN为典型,及其延伸方法TextCNN、TextRNN和TextRCNN等。它们只关注词的局部位置,因此忽略了长距离和非连续的词的交互。

  • 图方法:不把文本视作一个序列而实将其看作一组共现的单词。如TextGCN将文本分类任务转换为一个节点分类任务,Huang等(2019)通过引入信息传递机制减少了内存消耗。

  • 图方法有两个主要的弊端:首先,忽略了文档中上下文相关的单词关系;其次,由于图的全局结构,测试文档在训练中是强制性的。因此它们有着固有的转导性,并难以进行归纳学习。

TextING构建思路和创新点

  如上,文章通过GNN提出了一种新颖的文本分类方法TextING,该方法仅通过训练文档就可以详细的描述词词之间的关系,并在测试中对新文档进行归纳。方法使用滑动窗口在每个文档中构建独立的图,词节点的信息通过门控GNN传递给他们的邻居,然后聚合到文档嵌入中。
作者进行了大量的实验验证模型相较于基线方法的优点,即便测试中的词很多都没有出现过。文章的主要贡献如下:

  1. 提出了一种用于文本分类的GNN,其中每个文档都是一个独立的图,并且文本级别的单词交互可以在其中学习。
  2. 所提方法可以对在训练中未出现的新单词进行归纳。
  3. 验证了方法的性能要优于已有的先进文本分类方法。

方法

  方法的三个主要部分:构图、基于图的词交互、读出函数;

构图

  通过将独特的词表示为顶点,将词与词之间的共同出现表示为边来构建文本文档的图。文本以标准化方式进行预处理,包括表计划和停止字删除。顶点嵌入使用单词特征进行初始化。由于每个文档建立了独立的图,词特征信息在词的交互阶段被传播和聚合。

基于图的词交互

  在每个图上使用门控GNN学习词节点的嵌入。每个节点可以从它的邻居节点获得信息并与自身的表示合并来更新。当图层对一阶邻居进行操作时,我们可以将该层堆叠t次来实现高阶特征交互,则节点可以到达t跳远的另一个节点。

其中, A A A是邻接矩阵, σ \sigma σ是sigmoid函数, W , U , b W, U, b W,U,b是训练权重和偏置, z , r z, r z,r分别表示更新门和重置门,决定邻居信息对当前节点嵌入的贡献程度。

读出函数

  在词节点得到充分更新后,它们被聚合为文档的图级别的表示。基于此,最终的预测被产生。

其中, f 1 , f 2 f_{1}, f_{2} f1,f2是两个多层的感知机,前者作为软注意力权重,后者作为非线性特征变换。除了平均加权的词特征之外,将最大池化函数用于图表示。这背后的想法是,每个词都在文本中发挥作用,关键词应该更明确地发挥作用。最后通过将图级向量喂入softmax层得到预测标签,损失函数使用交叉熵损失

模型变种

  使用一个多通道的分支TextING-M拓展了模型,具有局部特征的图(TextING)和具有全局结构的图(来自TextGCN的子图)可以并行工作。节点保持不变,而后者的边是从每个文档的大图(建立在整个语料库上)中提取的。分别训练它们并使它们对最终的投票比为1:1。

实验

  实验测试主要关注三个方面:1)所提方法和其他比较模型的性能及优点,2)方法对从未出现过的词的适应性,3)关于词语如何影响一个文档的方法的可解释性。

数据集

  四个基线数据集:

  • MR:分为正面和负面情绪的电影评论
  • R8:将出现在路透社的文档分为8类
  • R52:将出现在路透社的文档分为52类
  • Ohsumed:将医疗摘要分为23个心血管疾病类别

对比模型

三类模型:

  1. 传统的深度学习方法TextCNN和TextRN;
  2. 简单而有效的策略fastText和SWEM;
  3. 用于文本分类的基于图的方法TextGCN;

实验设置

  • 训练集:验证集=9:1,并根据验证集的性能表现调整超参数。
  • Adam优化器,学习率0.01,dropout=0.5。
  • 对于单词的嵌入,使用预训练的Glove。

结果





参考文献

[1] Zhang Y, Yu X, Cui Z, et al. Every document owns its structure: Inductive text classification via graph neural networks[J]. arXiv preprint arXiv:2004.13826, 2020.

本文标签: StructureInductiveDocumentOwnsGNN