图谱1(实体抽取)"/>
知识图谱1(实体抽取)
对于知识图谱而言,首要的问题是:如何从海量的数据提取有用信息并将得到的信息有效表示并储存,就是所谓的知识抽取与表示技术。
知识抽取与表示技术(信息抽取),其目标主要是从样本源中抽取特定种类的信息,例如,实体、关系和属性,并将这些信息通过一定形式表达并储存。它分为:实体抽取、关系抽取和属性抽取。
本文重点介绍实体抽取。实体抽取也称为命名实体识别。实体是知识图谱最基本的元素,实体抽取的完整性、准确率、召回率将直接影响知识图谱的质量。
复习一下准确率和召回率。
混淆矩阵中T、F、P、N的含义:
T:真 F:假 P:阳性 N:阴性
则TP: 真阳性 TN:真阴性 FP:假阳性 FN:假阴性
正确率(你认为对的中,有多少确实是对的,所占的比率):
召回率(本来是对的,你找回了多少对的,所占的比率):
实体抽取的方法归纳为3种:
(1)基于规则与词典的方法:通常需要为目标实体编写相应的规则,然后在原始语料中进行匹配。
(2)基于统计机器学习的方法:主要利用数据来对模型进行训练,然后再利用训练好的模型去识别实体。
(3)面向开放域的抽取方法:主要是针对海量网络数据。
更多推荐
知识图谱1(实体抽取)
发布评论