admin管理员组

文章数量:1630025

文章目录

  • Named Entity Extraction for KnowledgeGraphs: A Literature Overview
    • Abstract
    • 正文
      • Introduction
      • Background
      • Representing Named Entities In KGs
      • Discussion
      • Conclusion

Named Entity Extraction for KnowledgeGraphs: A Literature Overview

知识图谱相关的实体识别:文献综述

Abstract

从自然语言文本中挖掘(或提升)知识图需要自然语言处理(NLP)。问题的核心部分是提取文本中的命名实体。本文概述了这一领域的最新进展,包括:命名的实体识别(NER)、命名实体消歧(NED)和命名实体链接(NEL)。许多NED和NEL的方法都是基于旧的NER方法,需要利用最先进的NER系统的输出。还需要使用标准方法来评估和比较命名实体提取方法。最近的NEL(命名实体消歧)的两个趋势:(1)之前的循序渐进的过程变为端到端的过程。(2)以前单独的分析的分析实体到现在考虑每个实体的上下文信息来分析实体。这主要是深度学习的成果。

正文

Introduction

  1. 知识图谱为2012年为了提高搜索引擎的效果而提出的概念,节点表示具体的对象、概念、信息资源或有关它们的数据,而边表示节点之间的语义关系。知识图谱建立在Tim Berners-Lee语义网的基础上的。KG现有的标准,如RDF、RDFS和OWL。
  2. 目前互联网上的大部分信息越来越多被表示为自然语言的形式,这种自然语言的形式不易被计算机处理,因此需要进行自然语言处理,这里面一项核心的挑战便是命名实体识别,命名实体可以文本中的实体,亦可以是个人命名的实体或者是抽象的概念。本文主要是自然语言文本提升到知识图谱的的核心进展:从文本中提取命名实体,即命名实体提取任务(NEE):(1)识别文本中提到的命名实体。(2) 命名实体消歧(NED)(3)将命名实体链接到知识库。
  3. 在这个快速发展的领域,本文主要概括了该领域在过去5年年的快速发展,主要从这6个digital library 提取了(2014-2019)的文章:ACM,IEEE,Science Direct,Springer,WoS ,Google Scholar.并将一些低质量的论文排除在外。通过摘要筛选供筛选了362篇论文,进一步筛选只保留了89篇论文,主要分为NER、NED、NEL三个核心的论文。

Background

  1. NLP(Natural Language Processing)
    自然语言处理(NLP)试图让计算机以有效的方式处理人类语言。NLP通常用于从文本或语音导出语义,并将其编码为适合语义搜索和其他类型的计算机处理的结构化格式。主要nlp的分析的服务: NLTK , Stanford CoreNLP,DBpedia Spotlight ,以及API接口:OpenIE,MinIE.
  2. KG(Knowledge Graphs)
    知识图(KG)将语义数据表示为三元组(即,作为有序的术语集)组成为(s, p, o):主语s,谓语p,宾语o。通过使用定义了类型、实例和关系含义的术语,知识图的目标是精确地描述真实世界实体及其关系的语义。

Representing Named Entities In KGs

  • 命名实体是:个人,如人、组织、位置或事件。提及是指一个实体的一段文本。
  • 三个主要任务:
    • 命名实体识别(NER)尝试查找文本中提到命名实体的每个段。
    • 命名实体消歧(NED)试图确定所提到的命名实体是指哪个实体;
    • 命名实体链接(NEL)试图为每个消除歧义的实体提供一个标准的IRI。
  • 主要步骤
    • Pre-processing
      • 最常用的预处理是分词词性标记。其他常见的技术包括:去停用词,标准化(主要应用于英文),句子拆分,词性还原(主要应用于英文),分块(提取短句),结构分析
      • 词袋模型的方法可以去停用词

本文标签: ExtractionentitynamedOverviewLiterature