ERICA: Improving Entity and Relation Understanding for PLM via Contrastive Learning翻译

编程入门行业动态更新时间:2024-10-10 23:26:44

ERICA: Improving <a href=https://www.elefans.com/category/jswz/34/1752899.html style= Entity and Relation Understanding for PLM via Contrastive Learning翻译"/>

ERICA: Improving Entity and Relation Understanding for PLM via Contrastive Learning翻译

摘要

预训练语言模型（PLM）在各种下游自然语言处理（NLP）任务上表现出卓越的性能。然而，传统的预训练目标没有显示地建模文本中的实体和关系，而实体关系对于文本理解至关重要。为了解决这个问题，我们提出了一种新的对比学习框架ERICA，以获得对文本中实体及关系的深刻理解。具体而言，我们定义了两种新的预训练任务，以更好地学习实体和关系：（1）实体判别任务，通过给定的头实体来区别哪个尾实体能够被推断出来; （2）关系判别任务，以区分两个关系是否相似，这涉及复杂的关系推理。实验结果表明，ERICA可以在几种语言理解任务中改进传统的PLM（BERT和Roberta），这些任务包括关系提取，实体类别标记和问答，特别是在低资源配置下。

1.介绍

　　预训练语言模型（PLM）在各种自然语言处理（NLP）任务中展示出了较高的性能，如文本分类，命名实体识别以及问答。得益于各种有效的自监督学习目标被设计（例如屏蔽语言建模），PLM可以有效地捕获文本中的语法和语义，从而为下游NLP任务生成信息语言表示。
　　然而，传统的预训练目标没有明确地建模实体和关系，而实体关系对于文本理解至关重要。为了解决这个问题，最近的一些研究试图改善PLM以更好地了解实体之间的关系。然而，他们主要关注单个句子内的实体关系，忽略了在文档一级对实体，以及多个实体间交互的理解，并且实体间关系涉及复杂的推理模式。根据 Yao et al. (2019) 从维基百科文档中抽取的人工标注的语料库的统计数据，至少40.7％的实体关系都要求从多个句子中提取。具体而言，我们展示了图1中的一个例子，为了回答““Guadalajara is located in Mexico”，我们需要共同考虑以下线索：（i）句子1中“Culiacán”是“Mexico”中的一个城市；（ii）句子6中“Culiacán”位于“Panamerican Highway”的铁路交界处；（iii）句子6中“Panamerican Highway”连接到“Guadalajara”。从这个例子中，我们可以看到，捕获文本内部实体关系有两个主要挑战：
　　1. 要了解实体，我们应该全面地考虑其与其他实体的关系。在该示例中，出现在句子1，2，3，5，6和7中的实体“Culiacán”在回答所给问题时起到了重要作用。要了解“Culiacán”，我们应该考虑其所有连接的实体和各种关系。
　　2. 要了解关系，我们应该考虑文本中的复杂推理模式。例如，为了理解该示例中的复杂推理链，我们需要执行多跳推理，即通过前两条线索来推断“Panamerican Highway”位于“Mexico”。
　　在本文中，我们提出了一种新的框架ERICA，通过对比学习来提高PLM的实体和关系理解能力（Entity and RelatIon understanding via ContrAstive learning），其旨在通过考虑实体和关系的交互来更好地捕获文实体本关系。具体而言，我们定义了两种新预训练任务：（1）实体判别任务，通过给定的头实体和关系来区别哪个尾实体能够被推断出来。它通过考虑其与文本中的其他实体的关系来提高对每个实体的理解；（2）关系判别任务，以区分两个关系是否相似。使用文档级远程监督来构建实体对，以隐式的方式考虑复杂的关系推理链，从而提高了关系理解。
　　我们在一套语言理解任务中进行实验，包括关系提取，实体识别和问答。实验结果表明，ERICA提高了传统PLM（BERT和ROBERTA）的性能，尤其是在低资源配置下，这表明ERICA有效地改善了PLMS的实体和关系理解并捕获了文本中的实体关系。

2.相关工作

Dai and Le (2015) 和 Howard and Ruder (2018) 提出在未标注的文本上去训练一个通用的语言表示，并执行特定于任务的微调。随着计算能力的进步，基于深度Transformer架构的OpenAI GPT，BERT和XLNET等PLMS，展示了它们在各种下游NLP任务中的优越性。从那以后，研究人员已经提出了许多PLM扩展，以进一步探索各种模型架构，更大的模型尺寸，更多训练数据，以获得更好的通用语言理解能力。这虽然取得了巨大的成功，但这些PLMS通常将单词视为文本理解的基本单位，忽略了实体及其关系间的信息，而这对理解整个文本至关重要。
　　为了改善PLMS对实体和关系的理解能力，典型的研究方向是知识引导的PLM，它将外部知识（如知识图谱KG）纳入PLM，以增强对实体和关系理解。一些工作强制PLMS记住有关现实世界实体的信息，并提出新的预训练目标。而另外的方法则是修改PLM的内部结构，以融合文本和KG的信息。虽然知识引导的PLMS在KG中引入了额外的实体知识，但这些方法忽略了文本中的内在实体关系，难以理解超出KG的实体信息或下游任务中的知识，更不用说KG存在的错误和不完整。这验证了指导PLMS了解来自上下文的实体关系的必要性。
　　另一项工作是直接在预训练阶段建模训练文本中的实体或关系，以打破单个token表示的局限性。一些工作专注于获得更好的跨度表示，包括实体提及，通过基于跨度的预训练。其他工作则学会通过比较共享相同实体对或KG中远程监督关系的句子，来提取文本中基于关系的语义。但是，这些方法只考虑了单个实体或句子内部的关系，这限制了在文档级别处理多个实体和关系方面的性能。相比之下，我们的ERICA全面考虑了多个实体和关系之间的交互，实现了更好地文本中实体关系的理解。

3.方法

在本节中，我们介绍了ERICA实现的细节。我们首先进行了符号的定义，并描述了如何表示文档中的实体和关系。然后我们详细介绍了两种新的预训练任务：实体判别（ED）任务和关系判别（RD）任务，用以和主目标联合训练。

3.1 Notations

ERICA在大规模未标注的语料库上训练，并利用外部KG K \mathcal K K进行远程监督。正式地，令 D = { d i } i = 1 ∣ D ∣ \mathcal D=\{d_i\}^{|\mathcal D|}_{i=1} D={di}i=1∣D∣表示一批文档， E i = { e i j } j = 1 ∣ E i ∣ \mathcal E_i = \{e_{ij}\}^{|\mathcal E_i|}_{j=1} Ei={eij}j=1∣Ei∣表示 d i d_i di中的所有命名实体，其中 e i j e_{ij} eij是 d i d_i di中的第 j j j个实体。对于每个文档di，我们枚举所有实体对 ( e i j , e i k ) (e_{ij},e_{ik}) (eij,eik)并将它们链接到 K \mathcal K K中（如果存在）对应的关系 r j k i r^i_{jk} rjki，最终将获得一个元组集合 T i = { t j k i = ( d i , e i j , r j k i , e i k ) ∣ j ≠ k } \mathcal T_i=\{t^i_{jk}=(d_i,e_{ij},r^i_{jk},e_{ik})|j\ne k\} Ti={tjki=(di,eij,rjki,eik)∣j=k}。我们将 n o _ r e l a t i o n no\_relation no_relation分配给在 K \mathcal K K中没有关系的实体对。然后我们获得了这批数据的完整元组集合 T = T 1 ⋃ T 2 ⋃ . . . ⋃ T ∣ D ∣ \mathcal T =\mathcal T_1\bigcup \mathcal T_2\bigcup ...\bigcup \mathcal T_{|\mathcal D|} T=T1⋃T2⋃...⋃T∣D∣。通过从 T \mathcal T T中删除关系为 n o _ r e l a t i o n no\_relation no_relation的所有元组来构建正例元组集合 T + \mathcal T^+ T+。受益于文档级远程监督， T + \mathcal T^+ T+包括句子内（简单样例）和句子间的实体对（难例），其关系理解涉及跨句，多跳或经过推理，即， T + = T s i n g l e + ⋃ T c r o s s + \mathcal T^+ =\mathcal T^+_{single}\bigcup \mathcal T^+_{cross} T+=Tsingle+⋃Tcross+。

3.2 Entity & Relation Representation

对于每个文档 d i d_i di，我们首先使用PLM来编码并获得一系列隐藏状态 { h 1 , h 2 , . . . , h ∣ d i ∣ } \{\textbf h_1,\textbf h_2,...,\textbf h_{|d_i|}\} {h1,h2,...,h∣di∣}，然后我们在与实体 e i j e_{ij} eij关联的连续token上应用平均池化操作来获得局部实体表示。注意到 e i j e_{ij} eij可能在 d i d_i di中出现多次，因此包含token索引从 n s t a r t k n^k_{start} nstartk到 n e n d k n^k_{end} nendk的第k-th个 e i j e_{ij} eij，可表示为：
m e i , j k = M e a n P o o l ( h n s t a r t k , . . . , h n e n d k ) . (1) \textbf m^k_{e_{i,j}}=MeanPool(\textbf h_{n^k_{start}},...,\textbf h_{n^k_{end}}).\tag{1} mei,jk=MeanPool(hnstartk,...,hnendk).(1)
为了汇总有关 e i j e_{ij} eij的所有信息，我们将 e i j e_{ij} eij的所有表示 m e i j k \textbf m^k_{e_{ij}} meijk进行平均来作为全局实体表示 e i j \textbf e_{ij} eij。类似于Soares et al. (2019)，我们将两个实体 e i j 1 , e i j 2 \textbf e_{ij_1},\textbf e_{ij_2} eij1,eij2的最终表示进行拼接，以表示两个实体间关系，即 r j 1 j 2 i = [ e i j 1 ; e i j 2 ] \textbf r^i_{j_1j_2}=[\textbf e_{ij_1}; \textbf e_{ij_2}] rj1j2i=[eij1;eij2]。

3.3 Entity Discrimination Task

　　实体判别（ED）任务旨在根据给定的头实体和关系来推断文档中的尾实体。通过将真实的尾实体与文本中的其他实体进行区分，它引导PLM通过考虑与其他实体的关系来理解当前实体。
　　如图2所示，我们首先从 T + \mathcal T^+ T+中采样一个元祖 t j k i = ( d i , e i j , r j k i , e i k ) t^i_{jk}=(d_i,e_{ij},r^i_{jk},e_{ik}) tjki=(di,eij,rjki,eik)，然后PLMS被要求从文档 d i d_i di中的其他实体区分出真实尾实体 e i k e_{ik} eik。为了提醒PLM需要以头实体和关系为条件，我们对关系 r j k i r^i_{jk} rjki和头实体 e i j e_{ij} eij的名称进行拼接，然后放置在 d i d_i di前，并用分隔字符 [ S E P ] [SEP] [SEP]分隔，即 d i ∗ = “ “ r e l a t i o n _ n a m e e n t i t y _ m e n t i o n [ S E P ] d i “ d^*_i =““relation\_name~entity\_mention~[ SEP]~d_i“ di∗=““relation_name entity_mention [SEP] di“。实体判别任务的目标相当于最大化后验 P ( e i k ∣ e i j , r j k i ) = s o f t m a x ( f ( e i k ) ) \mathcal P(e_{ik}|e_{ij},r^i_{jk})=softmax(f(\textbf e_{ik})) P(eik∣eij,rjki)=softmax(f(eik))（ f ( ⋅ ) f(·) f(⋅)表示实体分类器）。但是，我们经验验证发现直接优化后验无法让模型深入考虑实体之间的关系。因此，我们使用对比学习的想法来使正例对 ( e i j , e i k ) (e_{ij},e_{ik}) (eij,eik)相对于负例对靠得更近。最终，ED任务的损失函数可写为：
L E D = − ∑ t j k i ∈ T + l o g e x p ( c o s ( e i j , e i k ) / τ ) ∑ l = 1 , l ≠ j ∣ E i ∣ e x p ( c o s ( e i j , e i l ) / τ ) , (2) \mathcal L_{ED}=-\sum_{t^i_{jk}\in \mathcal T^+}~log \frac{exp(cos(\textbf e_{ij},\textbf e_{ik})/\tau)}{\sum^{|\mathcal E_i|}_{l=1,l\ne j}exp(cos(\textbf e_{ij},\textbf e_{il})/\tau)},\tag{2} LED=−tjki∈T+∑ log∑l=1,l=j∣Ei∣exp(cos(eij,eil)/τ)exp(cos(eij,eik)/τ),(2)
其中 c o s ( ⋅ , ⋅ ) cos(·,·) cos(⋅,⋅)是两个实体表示之间的余弦相似性，而 τ τ τ（温度）是一个超参数。

3.4 Relation Discrimination Task

　　关系判别（RD）任务旨在区分两个关系是否相似。与现有的 relation-enhanced PLMS相比，我们采用文档级而不是句子级远程监督，进一步使PLMS理解现实世界情景中的复杂推理链，从而改善PLMS的关系理解能力。
　　如图3所示，我们训练基于文本的关系表示，以在语义空间中将具有相同的关系的实体对靠得更近。在实践中，我们从 T s + ( T s i n g l e + ) \mathcal T^+_s(\mathcal T^+_{single}) Ts+(Tsingle+)或 T c + ( T c r o s s + ) \mathcal T^+_c(\mathcal T^+_{cross}) Tc+(Tcross+)线性地采样出元组对 t A = ( d A , e A 1 , r A , e A 2 ) t_A=(d_A,e_{A_1},r_A,e_{A_2}) tA=(dA,eA1,rA,eA2)和 t B = ( d B , e B 1 , r B , e B 2 ) t_B=(d_B,e_{B_1},r_B,e_{B_2}) tB=(dB,eB1,rB,eB2)，其中 r A = r B r_A=r_B rA=rB。使用3.2节中提到的方法，我们获得了 t A t_A tA和 t B t_B tB的关系表示 r t A \textbf r_{t_A} rtA和 r t B \textbf r_{t_B} rtB。为了能够从负例关系中判别正例，我们采用了对比学习并定义了RD任务的损失函数，如下所示：
L R D T 1 , T 2 = − ∑ t A ∈ T 1 , t B ∈ T 2 l o g e x p ( c o s ( r t A , r t B ) / τ ) Z , Z = ∑ t C ∈ T / { t A } N e x p ( c o s ( r t A , r t C ) / τ ) , L R D = L R D T s + , T s + + L R D T s + , T c + + L R D T c + , T s + + L R D T c + , T c + , (3) \mathcal L^{\mathcal T_1,\mathcal T_2}_{RD}=-\sum_{t_A\in\mathcal T_1,t_B\in \mathcal T_2}log\frac{exp(cos(\textbf r_{t_A},\textbf r_{t_B})/\tau)}{\mathcal Z},\\ \mathcal Z=\sum^{N}_{t_C\in\mathcal T/\{t_A\}}exp(cos(\textbf r_{t_A},\textbf r_{t_C})/\tau),\\ \mathcal L_{RD}=\mathcal L^{\mathcal T^+_s,\mathcal T^+_s}_{RD}+\mathcal L^{\mathcal T^+_s,\mathcal T^+_c}_{RD}+\mathcal L^{\mathcal T^+_c,\mathcal T^+_s}_{RD}+\mathcal L^{\mathcal T^+_c,\mathcal T^+_c}_{RD},\tag{3} LRDT1,T2=−tA∈T1,tB∈T2∑logZexp(cos(rtA,rtB)/τ),Z=tC∈T/{tA}∑Nexp(cos(rtA,rtC)/τ),LRD=LRDTs+,Ts++LRDTs+,Tc++LRDTc+,Ts++LRDTc+,Tc+,(3)
其中 N N N是超参数。我们确保 t B t_B tB是在 Z \mathcal Z Z中采样，并通过从 T \mathcal T T而不是 T + \mathcal T^+ T+中采样 t C t_C tC来构造 N − 1 N-1 N−1个负例。除此之外，考虑到等式（3）中的 L R D \mathcal L_{RD} LRD的最后三项，这需要模型能够区分文本中那些复杂的句间关系。以隐式的方式，PLMS被训练以执行推理，以学习那些“难”的句间关系。

4.5 Overall Objective

现在我们展示ERICA的总体训练目标。为了避免灾难性的遗忘通用语言一般理解能力，我们将屏蔽语言建模任务（ L M L M \mathcal L_{MLM} LMLM）与ED和RD任务一起联合训练。因此，整体学习目标描述如下：
L = L E D + L R D + L M L M . (4) \mathcal L=\mathcal L_{ED}+\mathcal L_{RD}+\mathcal L_{MLM}.\tag{4} L=LED+LRD+LMLM.(4)
值得一提的是，我们还试图按 Soares et al. (2019) 和Peng et al. (2020) 建议的去MASK实体，旨在避免让模型很容易地就学习到实体关系信息。但是，我们没有观察到这种MASK策略所带来的性能增益。我们猜测在我们的文档级设置中，由于文档级远程监督更好的覆盖性和一般性，因此难以让模型过度学习。此外，MASK实体在预训练和微调之间产生差距，这可能是先前relation-enhanced PLM的缺点。

更多推荐

ERICA: Improving Entity and Relation Understanding for PLM via Contrastive Learn

本文发布于:2024-03-06 03:12:08，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1714200.html