admin管理员组

文章数量:1589779

目录

  • 多模块NER任务交互网络
      • 核心
      • 模型架构
        • 前言
        • 模型整体架构
        • 模型组成
        • 边界模块
      • 类型模块
      • 交互机制
        • 联合训练
    • 模型性能分析

多模块NER任务交互网络

核心

整个NER任务分为了多个子模块,每个子模块负责学习不同类型的信息,信息是关于NER任务的,比如,边界检测、类型检测。
模块交互中,需要注意、学习和实现,是采用了gate机制的方法,不是简单的concat方式。

模型架构

前言

对于 NER 任务,边界检测和类型预测可以相互配合,这两个子任务通过共享信息相互加强也很重要。
一种新颖的模块化交互网络 (MIN) 模型,它同时利用段级信息(segment information )和词级依赖关系(word-level information),并结合交互机制来支持边界检测和类型预测之间的信息共享,以提高 NER 的性能任务。

模型整体架构


(边界模块中,实体头指向实体尾;其余的非实体词指向了最后一个词)

模型组成

the NER Module (主干模型), Boundary Module(子模型), Type Module(子模型) and Interaction Mechanism(交互机制)

主干模型

  • word represention:
    • concatenate word-level and character level embedding
  • BiLSTM Encoder
  • gate function做信息的融合
  • Hbdy为boundary 信息
  • Htype为实体类型信息
    HBdy and HType represent the distinct representations of hidden sequences from the Boundary Module and Type Module respectivel

    HB, HT and HS represent the boundary, type and segment information respectively to be injected into the NER Module from the gate function.
    HB, HT and HS ——是需要inject到NER module的表示信息。
  • Hner的表示:HNER = W[H; HB; HT; HS] + b
  • CRF decoder——得到每个token的tag
边界模块

训练一个实体的start 指向end位置,其余的word指向一个无意义的标记词。
具体过程
应用了无方向LSTM作为decoder,得到每个step的表示。LSTM的输入是:current,previous and next的word表示。

之后,采用 * biaffine attention * 得到每个position的表示,在通过softmax函数得到每个segment是否start with word wj和end with wi.

最终的segment的表示获取: 计算过程中,使用了概率函数作为判断wi和wj是否为边界的计算公式:we use the probability p (wi|wj ) as the confidence of the segment that starts with word wj and ends with word wi

类型模块

类型模块的信息表示采用BiLSTM得到相应的表示:

交互机制

边界信息和类型信息两者之间可以彼此交互。
注意力机制:biaffine attention mechanism

注意力分值计算:

更新后的边界表示:

联合训练

三个模块的损失函数:

模型的总损失是:三个loss之和。NER+Type+Boundy

模型性能分析

  • 不同的实体长度下,模型的表现效果
  • 不同模块对于模型性能的影响。(Ablation study )


本文标签: NetworkInteractionModularizedRecognitionentity