【NLP公开数据集】NCBI疾病数据集

编程入门 行业动态 更新时间:2024-10-10 12:19:16

【NLP公开<a href=https://www.elefans.com/category/jswz/34/1771445.html style=数据集】NCBI疾病数据集"/>

【NLP公开数据集】NCBI疾病数据集

NCBI疾病数据集是一个在提及和概念层面进行全面标注的数据集。

数据包含

  • 793篇摘要
  • 2783个句子
  • 6892个疾病mention
  • 790个唯一疾病概念
    – 医学主题词【Medical Subject Headings (MeSH®)】
    – 人类孟德尔遗传学【Online Mendelian Inheritance in Man (OMIM®)】
  • mention表中的91%都由一个疾病概念一一对应,分成训练集、验证集和测试集

数据标注

  • 14个标注人员
  • 每个文档都有2个标注人员(随机分配)
  • 3个标注阶段
  • 检查所有语料的一致性

数据分布情况如下

ClassesTrain setTest setDev set
Modifiers1292264218
Specific Disease2959556409
Composite Mentions1162037
Disease Class781121127

用途
可以用于实体识别实验,常用于疾病实体识别研究。

参考文献:
[1] /

更多推荐

【NLP公开数据集】NCBI疾病数据集

本文发布于:2024-02-11 15:42:21,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1681796.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:数据   疾病   NLP   NCBI

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!