NLP系列

编程入门行业动态更新时间:2024-10-20 20:35:34

NLP<a href=https://www.elefans.com/category/jswz/34/1770787.html style= 系列"/>

NLP系列

中文分词概述
词是最小的能够独立活动的有意义的语言成分，一般分词是自然语言处理的第一项核心技术。英文中每个句子都将词用空格或标点符号分隔开来，而在中文中很难对词的边界进行界定，难以将词划分出来。在汉语中，虽然是以字为最小单位，但是一篇文章的语义表达却仍然是以词来划分的。因此处理中文文本时，需要进行分词处理，将句子转为词的表示，这就是中文分词。

中文分词的三个难题：
分词规则，消除歧义和未登录词识别。

构建完美的分词规则便可以将所有的句子正确的划分，但是这根本无法实现，语言是长期发展自然而然形成的，而且语言规则庞大复杂，很难做出完美的分词规则。

在中文句子中，很多词是由歧义性的，在一句话也可能有多种分词方法。比如：”结婚/的/和尚/未结婚/的“，“结婚/的/和/尚未/结婚/的”，人分辨这样的句子都是问题，更何况是机器。

此外对于未登陆词，很难对其进行正确的划分。

目前主流分词方法：
基于规则，基于统计以及二者混合。

基于规则的分词：
主要是人工建立词库也叫做词典，通过词典匹配的方式对句子进行划分。其实现简单高效，但是对未登陆词很难进行处理。主要有正向最大匹配法，逆向最大匹配法以及双向最大匹配法。

正向最大匹配法（FMM）
FMM的步骤是：

（1）从左向右取待分汉语句的m个字作为匹配字段，m为词典中最长词的长度。（2ÿ

更多推荐

NLP系列

本文发布于:2024-03-07 02:57:25，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1716654.html

系列 NLP

发布评论取消回复

评论列表（有 0 条评论）

NLP系列

NLP系列

发布评论取消回复

最近发表

热门文章

标签列表