文本处理的基本方法"/>
【nlp】文本处理的基本方法
文本处理的基本方法
- 1 什么是分词
- 2 什么是命名实体识别
- 3 什么是词性标准
1 什么是分词
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程。
举个例子:
上海海事大学是一个以航运、物流、海洋为特色的安全管理高校['上海', '海事', '大学', '是', '一个', '以', '航运', '、', '物流', '、', '海洋', '为', '特色', '的', '安全', '管理', '高校']
-
分词的作用:
词作为语言语义理解的最小单元,是人类理解文本语言的基础。因此也是A解决NLP领域高阶任务,如自动问答,机器翻译,文本生成的重要基础环节。 -
流行中文分词工具jieba:
愿景:“结巴”中文分词,做最好的 Python 中文分词组件。jiieba的特性: -
支持多种分词模式
- 精确模式
- 全模式
- 搜索引擎模式
-
支持中文繁体分词
<
更多推荐
【nlp】文本处理的基本方法
发布评论