图谱行业应用课程笔记"/>
王昊奋知识图谱行业应用课程笔记
目录
- 应用
- 挑战
- 行业知识图谱生命周期
应用
Google:搜索,things not strings
智能硬件
通用知识图谱:
- 广度,强调实体,以常识性知识为主,“结构化的百科知识”
- 自底向上,很难形成全局的本体上的管理
- 使用者是普通用户
项目如:
- 语言类的:WordNet,MIT-ConceptNet5的中文部分,汉语开放词网(Chinese Open WordNet)
- 百科类:DBpedia,中文通用百科知识图谱(CN-Dbpedia),Zhishi.me,PKU-PIE知识库
行业知识图谱:
- 特定领域,深度和完备性,“基于语义技术的行业知识库”
- 准确度非常高,复杂分析应用和决策支持,
- 严格与丰富的数据模式
- 使用者是行业人员
首先想到的是 Palantir
行业知识图谱数据的特点:
- 数据来源多:内部,互联网,第三方
- 数据类型多:结构化,半结构化,非结构化
- 数据模式无法预先确定:模式在数据出现后才能确定,并且随着数据增长和任务不断演变
- 数据量大:TB,PB级别
金融证券,生物医疗,图书情报,电商,农业,政府,电信,出版,看OpenKG中的项目
通用知识图谱可以作为行业知识图谱的基础,行业知识图谱又可以形成通用知识图谱的一部分
企业知识图谱:
- 企业风险评估、企业路径发现,企业控制发现,上市企业只能问答(股票问问)
- 用户为:银行、投行、政府。。。
金融交易知识图谱:
- 辅助信贷审核
- 反欺诈
- 异常(交易,客户)分析
医疗知识图谱:
- 中医药知识服务平台
- Watson诊断
图情资源知识图谱:
- 知识导航和资源展示
- 知识点推荐和搜索
- 图情资源统计
挑战
企业大数据的挑战:
- 多源异构数据难融合
- 数据模式动态变迁难:自由可扩展模式
- 非结构数据计算机难理解
- 数据使用专业程度高
- 分散的数据难以统一消费利用
解决方案:
- 使用知识图谱(本体)对各种类型的数据进行抽象建模
- 使用可支持数据模式动态变化的知识图谱的数据存储
- 利用信息抽取技术,进行结构化,形成知识图谱形式的知识
- 在知识融合的基础上,基于语义检索、智能问答、图计算、推理、可视化等技术,提供统一的数据检索、分析和利用平台,降低数据使用门槛
行业知识图谱生命周期
建模——获取——融合——存储——计算——应用
行业知识图谱的技术栈:
- RDF:建模
- SPAQL:检索
- RDFS, OWL:推理
RDF(Resource Description Framework资源描述框架):
- 是语义网标准中的第一层
- RDF的含义
- R:页面、图片、视频等任何具有URI标识符的资源;
- D:属性、特征和资源之间的关系
- F: 模型、语言和这些描述的语法
-
三元组模型,每一份知识分解为:SPO(subject predicte object主谓宾)
-
构建链接资源的图模型,三元组可以看成是图中的弧
-
各种序列化表示方法:Turtle, TriG, N-Triples, N-Quads, JSON, RDFa
OWL:RDFS的扩展
- 复杂类: 交、并、补
- 属性约束:存在量化、全称量化
- 基数约束:最大基数约束、最小基数约束
- 属性特征:反、对称、非对称、不相交、自反
- 属性链
SPARAL:
- RDF的查询语言,基于RDF数据模型
- 可以对不同的数据集撰写复杂的连接
- 由所有主流图数据库支持
知识建模
一站式工具:
- LOD2:没有中文支持
- Stardog:仅对结构化数据,没有知识融合
策略:
- 使用套装工具
- 扩充套装工具
- 生命周期中的相应工具
- 扩充生命周期中的相应工具
- 从零开始
一般是选择2,3,4
金融:平安,蚂蚁金服
更多推荐
王昊奋知识图谱行业应用课程笔记
发布评论