【nlp】1.1文本处理的基本方法

编程入门 行业动态 更新时间:2024-10-23 09:25:02

【nlp】1.1<a href=https://www.elefans.com/category/jswz/34/1771357.html style=文本处理的基本方法"/>

【nlp】1.1文本处理的基本方法

文本处理的基本方法

  • 1 什么是分词
  • 2 什么是命名实体识别
  • 3 什么是词性标准

1 什么是分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程。

举个例子:

上海海事大学是一个以航运、物流、海洋为特色的安全管理高校['上海', '海事', '大学', '是', '一个', '以', '航运', '、', '物流', '、', '海洋', '为', '特色', '的', '安全', '管理', '高校']
  • 分词的作用:
    词作为语言语义理解的最小单元,是人类理解文本语言的基础。因此也是A解决NLP领域高阶任务,如自动问答,机器翻译,文本生成的重要基础环节。

  • 流行中文分词工具jieba:
    愿景:“结巴”中文分词,做最好的 Python 中文分词组件。jiieba的特性:

  • 支持多种分词模式

    • 精确模式
    • 全模式
    • 搜索引擎模式
  • 支持中文繁体分词

    <

更多推荐

【nlp】1.1文本处理的基本方法

本文发布于:2023-11-15 01:56:44,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1591679.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:文本   方法   nlp

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!