文献学习

编程入门行业动态更新时间:2024-10-14 22:19:38

文献学习

论文信息

（1）题目：An attentive neural architecture for joint segmentation and parsing
and its application to real estate ads（用于联合分割和解析的注意神经架构及其在房地产广告中的应用）

（2）文章下载地址：-

（3）相关代码：-

（4）作者信息：-

摘要：

1、Introduction

2、Related work

2.1 Sequence labeling

2.2 Dependency parsing

2.3 Joint learning

3、Problem definition

4、Methodology

4.1 Two-step pipeline

4.1.1 Sequence labeling

4.1.2 Part-of tree construction

4.2 Joint model

4.2.1 Embedding layer

4.2.2 Bidirectional LSTM encoding layer

4.2.3 Joint learning as head selection

4.2.4 Attention layer

4.2.5 Tree construction step: Edmonds' algorithm

5、Result and discussion

5.1 Experiment setup

5.2 Comparison of the pipeline and the joint model

5.3 Comparison of the joint and the attention model

5.4 Discussion

6、Conclusions

摘要：

在使用自然语言处理 (NLP) 技术处理人类生成的文本时，出现的两个基本子任务是 (i) 将纯文本分割为有意义的子单元（例如实体），以及 (ii) 依存解析以建立子单元之间的关系。这种文本的结构解释为上游专家系统任务提供了必要的构建模块：例如，通过解释文本房地产广告，人们可能希望提供准确的价格估计和/或为寻找特定房产的最终用户提供选择过滤器——这一切可以依靠了解房间的类型和数量等。在本文中，我们开发了一种相对简单且有效的神经联合模型，该模型同时执行分割和依存解析，而不是像大多数最先进的作品那样一个接一个地执行。我们将特别关注房地产广告设置，旨在将广告转换为结构化描述，我们将其命名为“属性树”，包括以下任务：(1) 从分类广告中识别财产的重要实体（例如房间）和（ 2）将它们构造成树格式。在这项工作中，我们提出了一种新的联合模型，它能够同时处理两个任务并通过以下方式构建属性树：（i）避免以流水线方式一个接一个地子任务产生的错误传播，以及（ii））利用子任务之间的相互作用。为此，我们对管道方法和新提出的联合模型进行了广泛的比较研究，报告称属性树的整体边缘 F1 分数提高了三个以上百分点。此外，我们提出了注意力方法，以鼓励我们的模型在构建属性树期间关注显着标记。因此，我们通过实验证明了注意力神经架构对于所提出的联合模型的有用性，展示了我们的应用程序的边缘 F1 分数进一步提高了两个百分点。虽然所展示的结果适用于特定的房地产环境，但该模型本质上是通用的，因此可以同样应用于需要 (i) 检测实体（分割）和 (ii) 建立关系的一般任务的其他专家系统场景其中（依赖解析）。

1、Introduction

许多面向消费者的数字应用程序依赖于目标受众提供的输入数据。例如，房地产网站从房地产经纪人或个人卖家那里收集所提供分类广告的房产描述。在这种情况下，很难在结构化和非结构化信息之间取得适当的平衡：对数据格式（即预定义形式）实施限制或结构可能会减少数据的数量或多样性，而非结构化数据（即原始文本））可能需要不平凡（即难以自动化）转换为更结构化的形式，以便对预期应用有用/实用。在房地产领域，文字广告是一种非常有用但高度非结构化的表示房地产的方式。然而，广告的结构化描述非常有帮助，例如，对于房地产机构来说，可以为其客户建议最合适的销售/租赁，同时限制人类的阅读工作。例如，通常由客户使用的特殊搜索过滤器不能直接应用于文本广告。相反，财产的结构化表示（例如，财产的树格式）可以通过应用特定的过滤器（例如，基于卧室数量、楼层数量或需求）来简化非结构化文本信息。一楼有一间带厕所的浴室），它也有利于其他相关应用，例如自动价格预测（Nagaraja，Brown，＆Zhao，2011；Pace，Barry，Gilley，＆Sirmans，2000）。

Bekoulis、Deleu、Demeester 和 Develder（2017）定义的新房地产结构化预测问题的主要目标是基于其自然语言描述构建财产的树状表示（即财产树）。这可以通过一系列单独的子任务来处理关系提取任务，包括（i）命名实体识别（NER）（Nadeau＆Sekine，2007）和（ii）关系提取（Bach＆Badaskar，2007）。与之前关于关系抽取的研究（Li & Ji，2014；Miwa & Bansal，2016）不同，Bekoulis 等人（2017）的工作中，关系抽取模块被依存句法分析所取代。事实上，共同定义房屋结构的关系应该形成一棵树，其中实体是彼此的一部分（例如，地板是房屋的一部分，房间是地板的一部分）。该属性树在结构上类似于解析树。尽管 Bekoulis 等人 (2017) 的工作朝着属性树的构建迈出了一步，但它遵循管道设置，这存在两个严重的问题：(i) 子任务之间的错误传播，即 NER 和依存解析， (ii) 不考虑跨任务依赖性，例如，忽略指示可以帮助 NER 模块的实体之间的关系（包含、包含等）的术语。由于管道模型中堆叠两个模块（即 NER 和依存解析）的单向性质，因此没有信息从依存解析流到 NER 子任务。这样，解析器就无法影响 NER 的预测。其他关于类似任务的研究（Kate & Mooney，2010；Li & Ji，2014）联合考虑了这两个子任务。他们通常通过在第一个模块（即 NER）之上实施波束搜索来同时提取实体提及和它们之间的关系，但这些方法需要手动提取手工制作的特征。最近，神经网络深度学习受到了广泛关注，有几种方法（Miwa & Bansal，2016；Zheng et al，2017）应用长短期记忆（LSTM）循环神经网络和卷积神经网络（CNN）来实现状态-在类似问题上的出色表现。这些模型依赖于 NER 和关系提取组件之间的共享参数，其中 NER 模块通常是单独预训练的，以提高联合模型的训练效果。

在这项工作中，我们提出了一种新的联合模型来解决房地产结构化预测问题。我们的模型能够学习结构化预测任务，而无需复杂的特征工程。鉴于之前关于联合方法的研究（Li，Zhang，Fu，& Ji，2017；Li，Zhang，Zhang，& Ji，2016；Miwa & Bansal，2016；Zheng et al，2017）关注于关系提取问题，我们构造属性树归结为解决依赖解析问题，该问题受到更多限制，因此更困难。因此，以前的方法不能直接与我们的模型进行比较，也不能直接应用于我们的房地产任务。在这项工作中，我们将这两个子任务视为一个子任务，将它们重新表述为头部选择问题（Zhang、Cheng 和 Lapata，2017）。

本文是 Bekoulis 等人 (2017) 的后续工作。与介绍房地产提取任务并应用一些基本的最先进技术作为第一个基线解决方案的会议论文相比，我们现在介绍：（i）共同考虑两个子任务的高级神经模型，以及（ii）对数据集注释表示的修改如下所述。更具体地说，这项工作的主要贡献如下：

(1)我们提出了一种新的联合模型，将识别实体以及它们之间的依赖关系的两个任务编码为单头选择问题，而不需要单独共享参数或对第一个实体识别模块进行预训练。此外，我们的模型已经将依赖标签预测纳入其评分公式中，而不是（i）预测未标记的依赖关系和（ii）训练额外的分类器来预测已识别头的标签（Zhang et al, 2017）。

(2)我们将所提出的联合模型与已建立的管道方法进行比较，并报告 NER 中的 F1 提高了 1.4%，依存解析子任务中的 F1 提高了 6.2%，对应于属性树中整体边缘 F1 提高了 3.4%。

(3)与我们的原始数据集（Bekoulis 等人，2017）相比，我们对数据引入了两个扩展：（i）我们一致地将广告中出现的特定实体的第一次提及指定为该实体的主要提及。这导致联合模型和管道模型的 F1 分数分别提高了约 3% 和 4%。 (ii) 我们将等效关系添加到带注释的数据集，以明确表示广告中的多个提及可能指的是同一实体。

(4)我们对几种注意力机制进行了广泛的分析，这些机制使我们基于 LSTM 的模型能够专注于信息丰富的单词和短语，报告称 F1 性能提高了约 2.1%。

2、Related work

文本广告中的房地产结构化预测问题可以分解为子问题：（i）序列标记（识别房地产的核心部分）和（ii）非投影依赖解析（将识别的部分连接成树）类结构）（Bekoulis 等人，2017）。人们可以通过流水线方法逐一解决这两个步骤，也可以通过联合模型同时解决这两个步骤。管道方法是最常用的方法（Bekoulis et al, 2017; Fundel, Kffner, & Zimmer, 2007; Gurulingappa, MateenRajpu, & Toldo, 2012），独立处理这两个步骤并传播序列标记子任务的输出（例如，命名实体识别）（Chiu & Nichols，2016；Lample、Ballesteros、Subramanian、Kawakami 和 Dyer，2016）到关系分类模块（dos Santos、Xiang 和 Zhou，2015；Xu 等人，2015）。联合模型能够同时提取实体提及及其之间的关系（Li & Ji，2014；Miwa & Bansal，2016）。在这项工作中，我们提出了一种新的联合模型，它能够恢复属性的树状结构，并将其框架为依赖解析问题，给定我们目标输出的非投影树结构。我们现在介绍序列标记和依存解析子任务以及联合模型的相关工作。

2.1 Sequence labeling

Structured prediction problems become challenging due to the large output space. Specifically in NLP, sequence labeling (e.g., NER) is the task of identifying the entity mention boundaries and assigning a categorical label (e.g., POS tags) for each identified entity in the sentence.(具体来说，在NLP中，序列标记，如NER，是识别实体提及及边界并为句子中每个实体的实体分配分类标签的任务，如POS标签)。 A number of different methods have been proposed, namely （重要参考文献）

Hidden Markov Models (HMMs) (Rabiner & Juang, 1986), 隐马尔科夫模型HMM

Conditional Random Fields (CRFs) (Lafferty, McCallum, & Pereira, 2001), 条件随机场CRF

Maximum Margin Markov Network (M3N) (Taskar, Guestrin, & Koller, 2003), 最大裕度马尔科夫网络M3N

generalized support vector machines for structured output (SVMstruct) (Tsochantaridis, Hofmann, Joachims, & Altun, 2004) 用于结构化输出的广义支持向量机

and Search-based Structured Prediction (SEARN) (Daumé, Langford, & Marcu, 2009). 基于搜索的结构化预测。

Those methods heavily rely on hand-crafted features and an in-depth review can be found in Nguyen and Guo (2007). 这些方法严重依赖手工制作的特征，可以在（Nguyen and Guo (2007)）中找到深入的评论。

Several variations of these models that also require manual feature engineering have been used in different application settings (e.g., biology, social media context) and languages (e.g., Turkish) (Atkinson & Bull, 2012; Jung, 2012; Konkol, Brychc An, & Konop Ak, 2015; Küçük & Yazıcı, 2012). 几种模型的变体应用于不同场景下，生物学、社交媒体环境和语言（土耳其语言）

Recently, deep learning with neural networks has been succesfully applied to NER. Collobert et al. (2011) proposed to use a convolutional neural network (CNN) followed by a CRF layer over a sequence of word embeddings. 神经网络深度学习已成功应用于NER，Collobert 等人提出使用卷积神经网络CNN，然后在一系列词嵌入上使用CRF层。

Recurrent Neural Networks (RNNs) constitute another neural network architecture that has attracted attention, due to the state-of-the-art performance in a series of NLP tasks (e.g., sequence-to-sequence (Sutskever, Vinyals, & Le, 2014), parsing (Kiperwasser & Goldberg, 2016)). RNN构成了另一种备受关注的神经网络架构，因为它在一系列NLP任务（例如序列到序列）中具有最先进的性能(Sutskever, Vinyals, & Le, 2014)，解析(Kiperwasser & Goldberg, 2016))。

In this context, Gillick, Brunk, Vinyals, and Subramanya (2016) use a sequence-to-sequence approach for modeling the sequence labeling task. In addition, several variants of combinations between LSTM and CRF models have been proposed (Huang, Xu, & Yu, 2015; Lample et al., 2016; Ma & Hovy, 2016) achieving state-of-the-art performance on publicly available datasets.

2.2 Dependency parsing

依存句法分析是 NLP 社区中一项经过深入研究的任务，旨在分析句子的语法结构。我们将属性树构建问题视为依存解析任务，即学习分类的依存弧。有两种行之有效的方法可以通过基于图的解析器和基于转换的解析器来解决依赖解析问题。基于图：在 McDonald、Pereira、Ribarov 和 Hajic (2005) 以及 McDonald 和 Pereira (2007) 的工作中，依存解析需要在图中搜索得分最高的最大生成树以用于投影（不允许依赖分别使用 Eisner 算法（Eisner，1996）和 Chu-Liu-Edmonds 算法（Chu & Liu，1965；Edmonds，1967）构建非投影（允许交叉依赖）树。结果表明，利用图中的高阶信息（例如兄弟姐妹、祖父母关系），而不是仅仅使用一阶信息（即父母关系）（Carreras，2007；Zhang & McDonald，2012）可能会产生解析精度显着提高，但代价是模型复杂性增加。 Koo、Globerson、Carreras 和 Collins（2007）通过采用矩阵树定理（MTT）（Tutte，2001）来训练所有非投影依赖树，向具有手工制作特征的全局标准化模型迈出了重要的一步。我们探索 MTT 方法作为管道基线之一。与基于神经图的解析的最新进展类似（Kiperwasser & Goldberg，2016；Wang & Chang，2016；Zhang et al，2017），与手工制作的基于特征的方法相比，我们使用 LSTM 来捕获更丰富的上下文信息。我们的工作在概念上与Zhang et al (2017)相关，他们将依存句法分析问题表述为头选择问题。我们朝这个方向更进一步，通过选择最有可能的头部和标签组合来制定联合解析和标签问题。

基于转换的：基于转换的解析器（Nivre，Hall，Nilsson，Eryigit，ˇ＆Marinov，2006；Yamada＆Matsumoto，2003）用近似但更快的推理方法取代了基于图的解析器的精确推理。依赖关系解析问题现在由抽象状态机解决，该状态机逐渐逐个令牌构建依赖树。这种解析器的目标是在给定一组允许的操作（即 LEFT-ARC 、RIGHT-ARC、SHIFT）并且它们能够处理投影和非投影依赖性（Nivre，2003，2009）。在最简单的情况下（即贪婪推理），分类器根据当前配置预测下一个转换。与基于图的依赖解析器相比，基于转换的解析器由于线性时间复杂度而能够更好地扩展，而在非投影情况下基于图的复杂度上升到 O(n2)。 Chen 和 Manning (2014) 提出了一种学习神经网络分类器的方法，用于贪婪的、基于转换的依赖解析器，同时使用低维、密集的词嵌入，而不需要手动提取特征。全局归一化的基于转换的解析器（Andor 等人，2016）可以被认为是 Chen 和 Manning（2014）的扩展，因为它们执行波束搜索来维护多个假设，并引入具有 CRF 目标的全局归一化。 Dyer、Ballesteros、Ling、Matthews 和 Smith（2015）引入了具有入栈和出栈操作的 stack-LSTM 模型，该模型能够学习解析器转换状态，同时保持其内容的摘要嵌入。尽管基于转换的系统以其速度和最先进的性能而闻名，但我们没有将它们纳入我们的研究中，因为与基于图的解析器相比，它们在房地产任务中的性能较差（Bekoulis 等人，2017）。

2.3 Joint learning

针对所考虑的问题类型采用管道策略有两个主要缺点：（i）序列标记错误传播到依赖项解析步骤，例如，房屋（实体）的错误识别部分可能会连接到真正存在的实体，并且(ii) 不考虑组件之间的交互（子任务之间的反馈），例如，对两个潜在实体之间的关系进行建模可能有助于决定实体本身的性质。在更一般的关系提取设置中，大量工作（Kate & Mooney，2010；Li & Ji，2014；Miwa & Sasaki，2014）共同考虑了实体识别和关系提取这两个子任务。然而，所有这些模型都利用手工制作的特征，这些特征：（i）需要手动特征工程，（ii）在各种应用程序之间通用性较差，（iii）可能需要大量的计算成本。

一般关系提取联合模型的最新进展考虑使用 LSTM 和 CNN 等神经网络架构的联合任务（Li 等人，2017 年；Miwa 和 Bansal，2016 年；Zheng 等人，2017 年）。然而，我们的工作与典型的关系提取设置不同，因为我们的目标是建模有向生成树，或者等效地，非投影依赖结构。特别是，关系中涉及的实体不一定在文本中相邻，因为中间可能会提到其他实体，这使解析变得复杂。事实上，在这项工作中，我们专注于依存解析，因为建立树状结构很困难，而不仅仅是关系提取（每个实体可以有任意关系弧，不管其他实体及其关系），这就是前面引用的情况联合模型。此外，与大多数将问题框架为两个组件的堆叠的工作不同，或者至少首先训练 NER 模块来识别实体，然后与关系分类模块一起进一步训练，我们将 NER 直接包含在依赖项中解析组件。

总之，我们的联合分割和依存解析方法（在第 4 节中详细描述）的概念优势如下：与关系提取中最先进的联合模型相比，它 (i) 本质上是通用的，不需要任何手动特征工程，（ii）提取完整的树结构而不是单个二元关系实例。

3、Problem definition

在本节中，我们定义了房地产结构化预测问题中使用的具体术语。我们将实体定义为独立存在的财产的明确、独特的部分（例如卧室、厨房、阁楼）。实体提及被定义为可以潜在地链接到一个或多个实体的一个或多个连续标记（例如，“大公寓”）。实体提及具有独特的语义含义，指的是特定实体或一组相似实体（例如“六间卧室”）。实体本身是另一个实体的一部分，并且可以在文本中多次提及不同的实体提及。例如，“房子”实体可能出现在文本中，实体提到“大别墅”和“新建的房子”。对于 Bekoulis 等人 (2017) 中提出的管道设置，我们进一步将实体分类为类型（为广告中的每个单词分配一个命名实体类型）。该任务使用 BIO（开始、内部、外部）编码转换为序列标记问题。实体类型如表1所示。例如，在标记“large Apartment”的序列中，B-PROPERTY被分配给标记“large”作为实体的开头，I-PROPERTY在标记“apartment”中被分配为实体的内部，但不是实体内的第一个标记，O 表示所有其他非实体的标记。与之前的研究不同（Li et al, 2017; Li et al, 2016; Miwa & Bansal, 2016; Cheng et al, 2017），对于我们的联合模型，不需要对标签进行这种类型的分类，因为这两个组件是将统一视为单个依存解析问题。

房地产结构化预测任务的目标是将分类的文本属性映射为树状结构化表示，即所谓的属性树，如图 1 所示。在管道设置中，这种转换意味着检测 ( i) 各种类型的实体以及 (ii) 它们之间的部分依赖关系。例如，实体“客厅”是实体“大公寓”的一部分。在联合模型中，每个标记（例如，“公寓”、“生活”、“浴室”、“包括”、“带有”、“3”）都被单独检查，并定义了 4 种不同类型的关系，即部分关系、分段、跳过和等效项。部分关系类似于在管道设置中定义的方式，但我们不检查实体，即标记序列（例如“客厅”），而是检查（单个）标记是否是部分关系另一个（个人）令牌（例如，“房间”是“公寓”的一部分）。我们使用分段标签对实体识别任务进行编码，并遵循与联合模型的部分关系相同的方法。具体来说，我们检查一个令牌是否是另一个令牌的片段（例如，令牌“room”作为片段附加到令牌“living”，“3”作为片段附加到令牌“bedrooms”和“spacious” ”也作为一个段附加到令牌“卧室”上——这样我们就能够对“3间宽敞的卧室”段进行编码）。通过这样做，我们将序列标记子任务转化为依赖解析问题。指代同一实体的标记属于等价关系（“home”相当于“apartment”）。对于每个实体，我们将文本中出现顺序中的第一个提及定义为主要提及，其余的则定义为与此主要提及等效。最后，不具有任何上述类型关系的每个标记与其自身具有跳跃关系（例如，“包含”与“包含”具有跳跃关系），使得每个标记具有唯一定义的头部。

因此，我们将从广告中提取属性树的结构化预测任务视为依赖解析问题，(给问题进行了定性描述)其中（i）一个实体只能是一个（其他）实体的一部分，因为所有部分的决策都是同时做出的关系（例如，某个房间只能是单个楼层的一部分），并且（ii）对于可以成为其他房间一部分的实体或令牌的类型没有先验的限制（例如，一个房间可以是要么是楼层的一部分，要么是房产本身，比如公寓）。值得一提的是，我们问题的依赖注释表现出大量的非投影弧 (26%)，其中部分依赖关系允许交叉（见图 3），这意味着参与部分关系的实体是不相邻（即与其他实体交错）。例如，附加到实体“车库”的所有实体或管道和联合模型的标记与附加到实体“公寓”的实体重叠，使得解析更加复杂：仅处理投影如图 2 所示，依赖关系是一项更容易的任务。我们注意到，段依赖关系不会受到非投影性的影响，因为标记总是相邻且连续的（例如，“3 间宽敞的卧室”）

4、Methodology

我们现在描述两种方法，即管道模型和联合模型来构建文本广告的属性树，如图4所示。对于管道系统（第4.1节），我们（1）识别实体提及（第 4.1.1 节），然后（2）预测它们之间的部分依赖关系（第 4.1.2 节），最后（3）构造文本分类的树表示（即属性树）（例如，如图1）。在步骤（2）中，我们应用本地或全局训练的基于图的模型。我们将步骤（2）的结果表示为图模型，然后通过针对有向情况应用最大生成树算法（Chu & Liu，1965；Edmonds，1967）来解决步骤（3）（参见 McDonald 等人，2005））。考虑到 Bekoulis 等人（2017 年）之前提出的性能较差的问题，我们没有将众所周知的、基于快速转换的系统（具有手工制作的特征）应用于非投影依赖结构（Bohnet & Nivre，2012；Nivre，2009）。在第 4.2 节中，我们描述了联合执行步骤 (1) 和 (2) 的联合模型。对于步骤（3），我们应用最大生成树算法（Chu & Liu，1965；Edmonds，1967），与管道设置（第 4.1 节）类似。

4.1 Two-step pipeline

下面我们重新审视 Bekoulis 等人 (2017) 中提出的管道方法，该方法作为我们比较神经模型的基线。如前所述，管道模型包含两个子任务：（1）序列标记和（2）部分树构建。在以下小节中，我们将描述适用于两者的方法。

4.1.1 Sequence labeling

我们的管道方法的第一步是类似于 NER 的序列标记子任务。假设文本房地产已分类，我们（i）识别实体提及边界，并（ii）将每个识别的实体提及映射到分类标签，即实体类型。一般来说，在序列标注任务中，考虑相邻标记中标签之间的相关性，即考虑邻域，联合为给定的输入句子找到最可能的标签链（维特比算法对于最有可能的标签链是有益的。可能的任务）。例如，在我们遵循 NER 标准 BIO 编码（Ratinov & Roth，2009）的问题中，如果不首先通过 B-SPACE 打开类型，则 I-PROPERTY 后面不能跟 I-SPACE。我们使用 CRF 算法的一个特例（Lafferty et al, 2001; Peng & McCallum, 2006），即线性链 CRF，它通常应用于序列标记问题，以学习从特征空间到输出的直接映射空间（类型），我们联合建模标签序列，而不是独立解码每个标签。具有参数 w 的线性链 CRF 定义了标签序列 y = y1,...的条件概率 Pw(y|x)。给定文本广告的标记 x = x1... 为

其中，Z是归一化常数，是计算给定广告和标签序列的特征向量的特征函数。

4.1.2 Part-of tree construction

Locally trained model (LTM)

Globall trained model (MTT) 采用矩阵树定理

在给定实体集I的所有可能的依赖结构的集合记为T(I)。所有依赖结构上的条件分布可以定义为：

其中，每个相关性(h,m)的系数形成实值权重向量。配分函数是一个归一化因子。

4.2 Joint model

在本节中，我们提出如图 5 所示的新联合模型，该模型同时预测句子中的实体以及它们之间的依赖关系，最终目标是获得树结构，即属性树。我们将实体提及的识别问题以及它们之间的依赖弧作为头选择问题提出（Zhang et al, 2017）。具体来说，给定长度为 N 的句子作为输入，模型输出广告的每个标记的预测父级以及它们之间最可能的依赖标签。我们首先描述标记在模型中的表示方式，即使用固定的预训练嵌入（第 4.2.1 节），它们形成 LSTM 层的输入（第 4.2.2 节）。 LSTM 输出用作实体和依赖评分层的输入（第 4.2.3 节）。作为该模型的扩展，我们建议在 LSTM 和评分层之间使用各种注意力层，以鼓励模型关注显着信息，如第 4.2.4 节所述。联合模型的最终输出仍然不能保证形成树结构。因此，我们仍然应用 Edmonds 算法（即管道方法的步骤 (3)），如第 4.2.5 节所述。

4.2.1 Embedding layer

嵌入层将所考虑广告的输入序列 x1, ..., x_N 的每个标记映射到低维向量空间。我们通过在大量房地产广告上训练 Skip-Gram word2vec 模型（Mikolov、Sutskever、Chen、Corrado 和 Dean，2013）来获得词级嵌入。我们在 N 长度的输入序列前面添加一个符号 x0，它将作为属性树的根，并在嵌入层中用全零向量表示。

4.2.2 Bidirectional LSTM encoding layer

文献中已经提出了许多神经网络架构：LSTM（Hochreiter & Schmidhuber，1997）、CNN（LeCun 等人，1989）、回声状态网络（Jaeger，2010）或随机配置网络（Wang & Li，2017），以仅举几个例子。许多其他内容可以在有关该主题的参考著作中找到（Goldberg & Hirst，2017；Goodfellow、Bengio 和 Courville，2016）。在这项工作中，我们使用的 RNN 已被证明在许多 NLP 任务中特别有效（Lample 等人，2016 年；Miwa 和 Bansal，2016 年；Sutskever 等人，2014 年）。事实上，RNN 是对序列数据建模的常见且合理的选择，并且本质上能够应对不同的序列长度。然而，普通的 RNN 往往会遇到梯度消失/爆炸问题，因此无法成功捕获长期依赖性（Bengio、Simard 和 Frasconi，1994；Pascanu、Mikolov 和 Bengio，2013）。 LSTM 是一种更先进的 RNN，已成功应用于多个捕获长期依赖性的任务，因为它们能够有效克服梯度消失问题。对于许多 NLP 任务来说，在其自己的上下文中表示每个单词至关重要，即考虑过去（左）和未来（右）的相邻信息。实现这一目标的有效解决方案是使用双向 LSTM (BiLSTM)。基本思想是从左到右（向前）和从右到左（向后）对每个序列进行编码。这样，就有一个隐藏状态代表过去的信息，另一个隐藏状态代表未来的信息。 LSTM 的高级表述是：

4.2.3 Joint learning as head selection

在本小节中，我们描述联合学习任务（即识别实体并预测它们之间的依赖关系），我们将其表述为头部选择问题（Zhang 等人，2017）。事实上，每个单词 xi 应该有一个唯一的头部（父代）——同时它可以有多个从属单词——因为最终的输出应该形成属性树。与标准的头选择依存解析框架（Zhang et al, 2017）不同，我们联合预测每个单词 xi 的头 yi 以及它们之间的关系 ci，而不是首先获得未标记依存关系的二元预测，然后通过一个额外的分类器来预测标签。

给定一个文本广告作为标记序列x=x0,x1,...,xN。其中，x0是虚根符号，预定义标签的集合C={part-of, segment, equivalent, skip}，文中的目标是为每个标记找到xi最可能的头xj和最可能的标签c, c \in C 。文中使用softmax将token xj 的联合概率建模为xi的头部，并用ck表示它们之间的关系。

其中 hi 和 hj 分别是单词 xi 和 xj 的 BiLSTM 编码。对于评分公式 Score(hj, hi, ck)，我们使用神经网络层计算特定标签 ck 的位置 i 和 j 之间的相对分数，如下所示：

通过最小化交叉熵损失 L 来训练文中的模型，针对所考虑的训练实例编写为：

其中 yi ∈ x 和 ci ∈ C 分别是 xi 的真实头和标签。训练后，我们遵循贪婪推理方法，对于每个标记，根据估计的联合概率同时保留最高得分的头 y^i 和 xi 的标签 c^i：

4.2.4 Attention layer

（1）Commonly used attention mechanisms 三种常用的注意力机制

the additive (Vinyals, Fortunato, & Jaitly, 2015),

bilinear, and multiplicative attention models (Luong, Pham, & Manning, 2015),

which have been extensively used in machine translation. Given the representations hi and hj for tokens xi and xj, we compute the attention scores as follows:

（2）Biaffine attention 用于依存句法分析的注意力模型（.01734.pdf）

我们使用biaffine注意力模型（Dozat & Manning，2017），该模型最近已应用于依存句法分析，并且是 Kiperwasser 和 Goldberg（2016）提出的基于神经图的方法的修改。在此模型中，Dozat 和 Manning（2017）尝试通过在 LSTM 之上应用此类神经网络层来降低 LSTM 循环状态的维数。这个想法基于这样一个事实：每个隐藏状态中都存在冗余信息，（i）降低了解析速度，（ii）增加了过度拟合的风险。为了解决这些问题，他们降低了维度，然后应用非线性。深度双线性注意力机制定义如下：

（3）Tensor attention

本节介绍神经张量网络（Socher、Chen、Manning 和 Ng，2013），该网络已用作实体之间关系分类的评分公式。该任务可以描述为现有关系网络中实体之间的链接预测。通过以下函数应用张量评分公式，就像令牌是实体一样：

知识拓展，可以学习一下：.05893v1.pdf

（4）Edge attention

在边缘注意力模型中，我们受到 Gilmer、Schoenholz、Riley、Vinyals 和 Dahl (2017) 的启发，该模型在化学结构中应用了神经消息传递。假设单词是图中的节点，并且消息从节点 xi 流向 xj，将边表示定义为：

4.2.5 Tree construction step: Edmonds' algorithm

在解码时，贪婪推理不能保证最终会形成树结构的弧依赖关系，并且分类决策可能包含循环(这是问题)。在这种情况下，可以使用最大生成树算法对输出进行后处理（如图 4 中的第三步）。我们构建完全连接的有向图 G = (V, E)，其中顶点 V 是广告的标记（不会被预测为跳过），而虚拟根符号 E 包含代表最高评分关系的边（例如，part-of、segment、equivalent），各自的交叉熵分数作为权重。由于 G 是有向图，因此 s(xi, xj) 不一定等于 s(xj, xi)。与 McDonald 等人 (2005) 类似，我们采用 Edmonds 的有向图最大生成树算法 (Chu & Liu, 1965; Edmonds, 1967) 来构建非投影解析器。事实上，在我们的设置中，我们有大量（用于实验的数据集中的 26%，请进一步查看）非相邻部分关系和等价关系（非投影）。值得注意的是，在分段关系的情况下，所涉及的单词不会被其他标记交错，并且总是相邻的。我们将 Edmonds 算法应用于构建的每个图，以获得最高得分的图结构，即使在树已经通过贪婪推理形成的情况下也是如此。对于跳过，我们认为预测是从贪婪方法获得的，并且我们不将它们包含在完全连接的加权图中，因为对于密集图，Edmonds 的复杂度为 O(n2)，可能会导致解码时间变慢。

5、Result and discussion

描述实验数据集，实验设置，并比较了前面部分中分析的结果。

5.1 Experiment setup

我们的数据集包含来自房地产代理网站的大量荷兰房地产广告（即 887,599 个）。在这个大型数据集中，2318 个分类广告的子集合已由 3 位训练有素的人工注释者手动注释（每个广告 1 个注释，每个注释者 773 个广告）。注释遵循属性树的格式，属性树的格式在第 3 节中详细描述，如图 1 所示。该数据集可用于研究目的，请参阅我们的 github 代码库。1 在实验中，我们仅使用带注释的文本广告进行管道设置，即 LTM（本地训练模型）、MTT（全局训练模型）。在神经网络方法的情况下，我们使用 word2vec 模型（Mikolov 等人，2013）在大型集合上训练嵌入，而在联合学习中，我们仅使用带注释的文档，类似于管道方法。 LTM 和 MTT 手工系统的代码可以在 github 上找到。我们还使用我们自己的 CRF 实现。联合模型的代码已使用 Tensorflow 机器学习库（Abadi 等人，2016）用 Python 开发，也将公开。对于评估，我们使用 70% 用于训练，15% 用于验证，15% 作为测试集。我们通过计算测试集上的 F1 分数来衡量性能。在我们的例子中，准确性指标可能会产生误导，因为我们必须处理不平衡的数据（skip标签的比例过高）。我们只报告结构化类的数字，即part-of和segment，因为其他依赖项（skip、equivalent）在联合模型中是辅助的，并且不直接有助于实际属性树的构建。对于整个 F1，我们再次只考虑结构化类别。最后，我们在应用 Edmonds 算法之前报告所有模型的属性树数量（这表明我们的模型在不应用 Edmonds 算法（即仅通过贪婪推理）的情况下生成树的可能性有多大），以保证预测的树结构。

参数设置：

5.2 Comparison of the pipeline and the joint model

文中研究的主要贡献之一是管道方法和所提出的联合模型的比较。我们将识别实体（即段）并预测它们之间的依赖关系（即属性树的构造）的问题表述为联合模型。与最近使用 LSTM 处理类似任务的联合模型的研究（Miwa & Bansal，2016；Zheng et al，2017）不同，我们的神经模型不需要两个组件来对问题进行建模（即 NER 和依存解析）。据我们所知，我们的研究是第一个在实际联合设置中制定任务的研究，而无需预先训练序列标记组件或它们之间的参数共享，因为我们仅使用一个组件来完成两个子任务。在表 2 中，我们展示了管道模型（手工制作）和提出的联合模型（LSTM）的结果。联合模型相对于管道的改进是明确的，即 MTT（得分最高的管道模型）和 LSTM+E（采用 Edmonds 算法的 LSTM 模型）之间的总体 F1 分数差异为 3.42%。当我们为我们的联合模型考虑双层 LSTM (2xLSTM+E) 时，额外增加了 ∼ 2.3%。表 2 中的所有结果（除了 LSTM 之外）都是使用 Edmonds 算法构建属性树的。分别检查每个标签，我们观察到原始 LSTM+E 模型 (73.78%) 在实体分割方面比 CRF (72.35%) 表现好 1.43%。 LSTM 模型在实体识别任务中实现了更好的性能，因为它必须同时学习两个子任务，从而导致组件（即 NER 和依赖解析器）之间的交互。这样，实体识别的决策可以受益于对部分关系所做的预测。

关于部分依赖关系，我们注意到 LSTM 的性能比手工方法高 6.23%。此外，在应用 Edmonds 算法之前构建的有效树的数量几乎是 LSTM 模型的两倍。堆叠双层 LSTM 可以使分割任务提高约 1%，使部分关系提高约 3%。手工方法的贪婪推理不会产生结构良好的树，这意味着与 LSTM 模型性能相比，使用 Edmonds 算法（强制树结构）进行后处理有望提高手工模型的性能。

事实上，表 2 中没有报告没有 Edmonds 模型的基于特征的手工模型（即 LTM 和 MTT）的性能，因为它们在我们的任务中表现不佳（即总体 F1 约为 60%，总体 F1 约为 51%）。 % 部分），但在使用 Edmonds 进行后处理后，性能显着提高（即~ 65%）。另一方面，与原始 LSTM 模型相比，在 LSTM 模型上应用 Edmonds 算法会导致性能略有下降（约 0.2%），这可能表明强制结构约束对于明显有能力形成模型的模型来说并不有利。贪婪推理期间有效的树结构。尽管人们可能不想强制执行树结构（使用 Edmonds 进行后处理），但由于我们问题的性质，我们必须在所有模型中强制执行树约束。

5.3 Comparison of the joint and the attention model

在确定使用 LSTM 的神经方法比基于手工制作特征的更传统（LTM 和 MTT）方法具有优越的性能之后，我们现在讨论使用注意力模型的进一步改进。注意力机制旨在鼓励联合模型关注信息丰富的标记。我们利用了第 4.2.4 节中介绍的几种注意力机制。表 2 显示了各种模型的性能。总体而言，与以 Edmonds 为首的原始联合模型相比，注意力模型在总体 F1 分数方面表现更好。尽管与其他注意力模型的改进相比，Biaffine 和 Tensor 模型的性能有限，但我们重点关注：（i）Biaffine 模型，因为它在依赖项解析任务上实现了最先进的性能，并且（ ii) 张量模型，因为我们期望它的表现与双线性模型类似（它有一个双线性张量层）。尽管很简单，但就总体 F1 分数而言，双线性模型是表 2 中表现第二好的注意力模型。

Edge3（总体 F1 得分为 70.70%）在实体识别和依存解析任务中比其他注意力机制取得了更好的结果。我们观察到，在边缘模型中多次运行消息传递步骤，在应用最大生成树算法之前构建的有效树的数量呈增加趋势。

这并不奇怪，因为我们期望多次运行消息传递阶段可以改进边缘表示。当我们运行消息传递 3 次时，就达到了无需 Edmonds 进行后处理的树的最大数量，而进一步增加超过 3 次（例如 4 次）的数量似乎不再有利。与 Edge3 注意力模型相比，在联合模型 (2xLSTM+E) 之上堆叠第二个 LSTM 层，性能略微提高了 0.2%。但与顶部有注意力层的联合模型相比，添加第二个 LSTM 层会带来计算时间增加的额外成本。这说明：（i）可能还有进一步改进注意力模型的空间，并且（ii）我们不必担心我们方法的二次性质，因为就速度而言，注意力模型能够超越两层 LSTM。 LSTM 的顺序处理可能是 2xLSTM 的计算时间比其他注意力模型慢的原因。具体来说，在 Intel(R) Xeon(R) CPU E5-2650 v2 @ 2.60 GHz 处理器上，性能最佳的模型（即 Edge3）每个周期需要 ∼ 2 分钟，而在 2xLSTM 情况下，需要 ∼ 2.5 分钟才能达到减速约 25%。 Edge3 中有效树的广告百分比比两层 LSTM 高出 1%，这展示了 Edge 模型在贪婪推理过程中形成更多有效树的能力。

5.4 Discussion

在本节中，我们将讨论问题的一些其他方面以及我们处理这些问题所遵循的方法。正如我们之前提到的，单个实体可以出现在文本中并多次提及。这给我们的任务带来了额外的难度。

例如，在图1的示例中，实体“large apartment”在广告中表达为提及“large apartment”和“home”。因此，其他实体应该附加到哪个提及上是令人困惑的。一种方法是将它们连接到两者，然后使用 Edmonds 的生成树算法消除其中一个连接，这是 Bekoulis 等人 (2017) 所采用的方法。这种方法的问题在于，生成树算法会随机删除除一个之外的所有提及，可能会导致不确定的结果。为了避免这个问题，我们现在使用文本中出现顺序的第一个提及（例如，我们的示例中的“large apartment”）作为实体的主要提及，并将其余提及（例如，“home”）附加为与主要提及的内容相同。通常，对于一个实体来说，信息最丰富的提及是第一个出现的实体，因为我们再次引用之前提到的实体，并且通常带有较短的描述。根据我们的直觉，神经模型的整体性能提高了 ∼ 3%（从 66% 提高到 69%，在部分关系中提高了 5% 以上），管道方法提高了近 4%（从 61%，Bekoulis 等人报告） al (2017) 达到 65%，在部分关系中超过 5%）。

我们还尝试引入等价关系。尽管它是数据集中代表性严重不足的类别，并且模型对此标签的表现很差（等效边缘 F1 分数为 10%），但引入等效标签是对我们的问题进行建模的自然方法（即，为每个附加提及分配一个相当于主要提到的内容）。我们发现，引入这种类型的关系会导致部分关系略有减少（~1%），而作为主要关系的段关系则略有增加（~0.3%），同时保留了问题的本质。

在管道方法中，它会导致部分关系的 F1 分数下降 9%。这就是表 2 中给出的结果没有考虑手工制作模型的等价关系以在结构化类中进行公平比较的原因。

我们相信我们对各种架构模型变化的实验比较为从业者提供了有用的发现。具体来说，对于需要分割（实体识别）和依赖解析（结构化预测）的应用程序，我们的发现可以定性地总结如下：（i）联合建模是最合适的方法，因为它减少了组件之间的错误传播，（ii） LSTM 模型比依赖手工特征的模型更有效，因为它自动从原始文本中提取信息特征，(iii) 注意力模型被证明是有效的，因为它们鼓励模型关注显着标记，(iv) 边缘注意力模型提高了性能，因为它通过使用图形表示更好地编码了实体之间的信息流，并且 (v) 堆叠第二个 LSTM 略微提高了性能，这表明可能还有一些轻微改进的空间通过添加 LSTM 层来改进注意力模型。

最后，我们指出我们的模型与该领域最先进的技术到底有什么关系。我们的联合模型能够提取实体提及（即执行分割）并进行依赖项解析，我们在房地产问题上进行了演示。先前的研究（Kate & Mooney，2010；Li & Ji，2014；Miwa & Sasaki，2014）共同考虑了两个子任务（即分割和关系提取）：（i）需要手动特征工程和（ii）之间的泛化能力较差各种应用程序。另一方面，在我们的工作中，我们依靠神经网络方法（即 LSTM）自动从房地产文本描述中提取特征并联合执行这两个任务。尽管还有其他使用神经网络架构的方法（Li et al, 2017；Miwa & Bansal, 2016；Zheng et al, 2017）专注于关系提取问题，但我们的工作有所不同，因为我们的目标是对有向生成树进行建模从而解决更加受限和困难的依存解析问题（比提取二元关系的单个实例）。此外，所引用的方法需要参数共享或分割模块的预训练，这使学习变得复杂。因此，引用的方法不能直接与我们的模型进行比较，也不能直接应用于我们的房地产任务。然而，我们模型的主要限制是二次评分层，它将分割任务的时间复杂度从线性（条件随机场 CRF 的复杂度）增加到 O(n2)。因此，它牺牲了分割任务的标准线性复杂度，以减少子任务之间的错误传播，从而在联合、端到端可微的设置中执行学习。

6、Conclusions

在本文中，我们提出了一种基于 LSTM 的神经模型来联合执行分割和依存解析。我们将其应用于处理文本广告的房地产用例，从而（1）识别财产的重要实体（例如房间），以及（2）根据财产的自然语言描述将它们构建为树格式。我们将我们的模型与适合我们任务的传统管道方法进行了比较，结果显示总体边缘 F1 分数提高了 3.4%。此外，我们还尝试了不同的注意架构以及在基本联合模型上堆叠第二个 LSTM 层。结果表明，利用注意力机制鼓励我们的模型关注信息丰富的标记，可以提高模型性能（总体边缘 F1 分数增加约 2.1%），并提高在预测阶段形成有效树的能力（4-10%在应用最大生成树算法之前，需要为两种最佳评分注意力机制提供更多有效的树。

这项研究对专家和智能系统研究的贡献有三方面：（i）我们引入了一种通用联合模型，同时解决了分割（即实体提取）和依存解析（即提取实体之间的关系）的子任务），与该领域之前的工作不同，不依赖于手动设计的特征，（ii）特别是对于房地产领域，从文本广告中提取结构化的财产树，我们改进了注释并另外提出了注意力模型，与该应用程序的初步工作，最后 (iii) 我们通过大量实验证明了我们提出的通用联合模型的有效性（参见前面提到的 2.1% 的 F1 改进）。尽管实验重点关注房地产领域，但我们强调该模型本质上是通用的，并且可以同样应用于需要检测实体（分割）和建立实体之间关系（依赖解析）的一般任务的其他专家系统场景。

我们还注意到，我们的模型不是专注于从句子中提取单个二元关系（如传统的关系提取设置），而是生成完整的树结构。

未来的工作可以评估我们在其他特定应用领域（例如生物学、医学、新闻）中为专家和智能系统引入的联合模型的价值。例如，可以评估该方法的实体识别和二元关系提取（ACE 04 和 ACE 05 数据集；参见 Miwa & Bansal (2016)）或生物医学文本中的药物不良反应（参见 Li 等人（2016））。在模型扩展和改进方面，一个研究问题是通过修改该组件的二次评分层来解决 NER 部分的时间复杂度。另一个研究方向是研究 NER 组件的不同损失函数（例如，采用条件随机场（CRF）方法），因为这已被证明在 NER 任务中是有效的（Lample 等人，2016）。我们设想的最后一个扩展是实现实体对之间关系的多标签分类。

更多推荐

文献学习

本文发布于:2024-03-10 12:06:08，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1727919.html