人工智能兼职讲师叶梓人工智能培训课件:人工智能之最新NLP自然语言处理技术与实战"/>
人工智能兼职讲师叶梓人工智能培训课件:人工智能之最新NLP自然语言处理技术与实战
接上一篇
P18-19
词性标注
词性标注:语料库内词语的词性按其含义和上下文内容进行标记的文本数据处理技术。是各类基于文本的机器学习任务,例如:语义分析和指代消解的预处理步骤。
汉语词类系统有18个子类,含7类体词,4类谓词、5类虚词、代词和感叹词。
示例:国务院/ni 总理/n 李克强/nh 调研/v 上海/ns 外高桥/ns 时/n 提出/v ,/wp 支持/v 上海/ns 积极/a 探索/v 新/a 机制/n 。/wp
方法
ü基于最大熵的词性标注
ü基于统计最大概率输出词性
ü基于HMM词性标注
ü基于CRF的词性标注
ICTCLAS 3.0汉语词性标记集
词性标记数据集
Ø 《PFR 人民日报标注语料库 》 词性编码表 Ø 计算所 ICTCLAS 3.0 汉语词性标记集 Ø 《 现代汉语语料库加工规范 —— 词语切分与词性标注 》 词性标记 Ø HanLP 词性标注集 Ø BosonNLP 词性标注 Ø Stanford Corenlp 中文词性标注 Ø 中科院( nlpir 、 ictcla )词性标注集 Ø 哈工大( ltp )词性标注集
未完,待续……
更多推荐
人工智能兼职讲师叶梓人工智能培训课件:人工智能之最新NLP自然语言处理技术与实战
发布评论