实 体 消 歧 综 述
概念
实体消歧是将文本中出现的命名实体映射到一个已知的无歧义的结构化知识库中的技术。是自然语言处理中的关键性问题。
目前,在搜索引擎上检索常会得到多个同名但并非相关的实体内容。这一问题源于不同实体可能有多个文本表达。——实体消歧可以解决。
实体消歧是指解决同名实体存在一词多义歧义问题。
常用方法
基于实体链接的实体消歧。
简介
命名实体的歧义指的是一个实体指称项可对应于多个真实世界实体,确定一个实体指称项所指向的真实世界实体就是命名实体消歧。
实体消歧系统通过以下一个五元组进行定义:
M = ( N , E , D , O , K ) M = (N,E,D,O,K) M=(N,E,D,O,K)
- N N N: 待消歧的实体名集合;
- E E E: 待消歧的实体名的目标列表。通常为知识库或知识图谱的实体
- D D D: 是一个包含待消歧实体名的文本集。
- O O O: D D D中的实体指称项集合。
一个实体指称项是在具体的上下文中出现的待消歧的实体名。 - K K K:实体消歧任务所使用的背景知识,关于目标实体的描述。
分类
安实体任务领域划分
- 基于结构化文本的实体消歧。
实体的指称项通常被存储在数据库中,表示为一个结构化文本记录,这种指称项缺少上下文信息,主要依赖字面意思和实体关系信息进行消歧。 - 基于非结构化文本的实体消歧。
实体的指称项表示一段非结构化文本,含有大量的上下文信息,,主要利用指称项上下文信息进行消歧.
按照有无目标知识库划分
- 基于无监督聚类的实体消歧。
- 所有实体指称项按其指向的目标实体进行聚类
- 基于实体链接的实体消歧
- 将实体指称项链接到目标候选实体列表中所对应的实体上实现实体消歧
按照链接知识库类型划分
- 基于实体链接的实体消歧划分
- 基于知识库的实体链接和
如何在大型文本的知识库中提取上下文特征以及如何获取待消歧实体指称项的上下文信息。 - 基于知识图谱的实体链接。
主要利用知识图谱的结构来表示实体之间的关系以及候选实体的上下文特征。
- 基于知识库的实体链接和
实体消歧分类
词义消歧
- 基于知识库的消歧方法
- 基于语料库的消歧方法
命名实体识别(实体抽取)
- 实体边界识别
- 确定一个字符是否构成一个实体
- 实体类别标注
- 将识别出的实体实现划分为指定的不同类别。
方法
- 基于规则的方法
- 基于统计的方法
- 基于深度学习的方法
实体消歧任务的前提是识别出待消歧文本中的实体指称项。
实体消歧方法概述
基于无监督聚类实体消歧
- 基于词袋模型的聚类方法
- 基于语义特征的聚类方法
- 基于社会化网络的聚类方法
- 基于百科知识的聚类方法
- 基于多源异构语义知识融合的聚类方法
基于实体链接的实体消歧
- 任务:将给定实体指称项链接到目标知识库中的相应实体上
- 候选实体的生成
- 候选实体的链接
- 基于知识库的实体链接以及
- 基于知识图谱的实体链接.
候选实体生成
- 候选实体集的质量
- 是否包含目标实体
- 候选实体的数目
方法
- 基于词典构建的方
法、 - 基于表面形式扩展的候选生成方法以及
- 基于目标库的候选生成方法.
- 基于启发式方法
- 基于监督学习方法
基于知识库的实体链接系统
- 局部实体链接
- 通常得到实体指称以及实体的上下文信息的特征表示,然后计算实体指称以及实体表示的相似度以选出目标实体
- 传统特征方法和表示学习方法两种
表示学习方法
- 核心:如何获得实体和实体指称项的上下文分布式表示。
- 实体的表示比较复杂,可能从不同粒度来表示实体。可能会用到实体的类别信息。
- 常用的方法: LSTM、CNN、RNN等。
- 采用神经网络进行实体链接有两种方法:排序方法和二值分类方法。
- 将符号知识集成到神经网络中进行实体消歧,降低实体消歧的时间复杂度。
- 利用远程监督的方法进行实体消歧。
协同实体链接
- 认为一个文档的实体具有一定的关联性,因而在局部链接之上增加了一个全局项(协同策略)来综合考虑目标实体的一致性。
- 基于图的方法、
- 基于条件随机场的方法、
- 基于Pair-Linking的方法和基于深度
基于知识图谱的实体链接系统
- 知识图谱从概念上来说是一个新的研究领域,但它其实是一个结构化的语义知识库,数据的内容通常采用三元组的内容表示。基于知识图谱的实体消
歧所使用的候选实体多侧重于从图结构中获取上下文信息,涉及图拓扑结构 - 从图结构中获取上下文信息。
- 局部实体链接和协同实体链接。
- 局部实体链接:主要利用实体指称以及候选实体的上下文信息选出目标实体候选实体。
- 深层语义匹配模型。
- 知识图谱利用图神经网络进行学习,能更好的学习到图结构数据的特征表示。GCN、GAT。
协同实体链接
假设文档中所有实体指称在知识图谱中所对应的目标实体是相关的,
所以对一个文档中的多个指称项一起连接到目标知识图谱中[76-77
其他实体消歧
跨语言实体消歧。
- 是将一种语言表述的实体指称项链接到另一种语言的知识库[
难点
- 很多语言Wikipedia不完备,造成实体信息缺乏,
- 跨语言的候选实体生成很难。‘
- 神经网络跨语言实体链接需要解决实体指称项所描述的语言词向量和英文词向量位于不同语义空间的问题.
社交数据中的实体消歧
- 在社交信息中,指利用上下文信息是不充分的,还要利用用户发布的其他推文来辅助链接。社交媒体数据中一般会有时间戳,有些文本还有
地点信息以及候选实体的先验信息会随着时空信息
发生变化
主要挑战
受限知识库的实体消歧
- 基于实体链接的知识消歧方法要借助知识库中实体的丰富的信息。实体的描述、实体的不同属性、实体的超链接等等。
实体消歧的应用
- 实体消歧旨在解决文本中广泛存在的名称歧义问题
知识图谱的构建:对知识图谱的构建有重要作用
语义搜索:
问答系统:面向知识图谱的问答系统。
推荐系统:实体消歧系统为推荐系统提供关键词到知识图谱的定位,通过定位才能完成个性化推荐任务。
实体消歧评测
-
括实体消歧评测会议、:有MUC、ACE、TAC-KBP.
- SemEval、WWW、TREC、INEX、CLP.
-
实体消歧评测框架
-
实体消歧宏观评测指标。
实体消歧评测数据集
AIDA、WNED、MSNBC、AQUAINT、ACE2004.、
实体消歧展望
空实体链接
实体消歧与实体识别的联合学习
基于多种语言的实体消歧
多种语言实体消歧数据集构建.
) 基于多种语言的聚类实体消歧
基于多种语言的实体链接
其他研究方向
多领域数据集构建问题
别名实体候选生成问题
实体消歧中,实体、实体的类别信息、关系信息
以及实体上下文信息对实体消歧非常重要,但经常会出现实体数据集不完整的情况
经验
- 研究时候可以尝试找特定领域的数据集进行研究,稍微修改以下成为自己的创新点。
- 找与知识图谱相关的,经典数据集的与未来待研究的进行调试模型开始将其搞定都行啦的回事与打算。
- 先大致了解以下知识图谱,然后沿着某一领域,自己构建将其全部都搞定都行啦的回事与打算。会自己构建知识图谱系统。
更多推荐
实 体 消 歧 综 述
发布评论