jieba库统计出现词语次数和词云绘制

编程入门 行业动态 更新时间:2024-10-10 23:22:33

jieba库统计出现<a href=https://www.elefans.com/category/jswz/34/1760328.html style=词语次数和词云绘制"/>

jieba库统计出现词语次数和词云绘制

jieba库是 Python 第三方中文分词库,分词原理是利用一个中文词库,将待分词的内容与分词词库进行比较,通过图和动态规划方法找到最大概率的词组。
jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式
(1)精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析。
jieba.lcut(s)–返回列表
jieba.cut(s)–返回一个可迭代的generator,可以使用 for 循环来获得分词后得到的每一个词语(可以用.join(generator)输出str类型)

import jieba
#输出列表
jieba.lcut('好好学习,天天向上')
Out[20]: ['好好学习', ',', '天天向上']
#输出可迭代的generatora = jieba.cut('好好学习,天天向上')
print("/ ".join(a))
Out:好好学习/ ,/ 天天向上

(2)全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据。
jieba.lcut(s,cut_all=True) //‘cut_all=True’ 指定全模式(输出列表)
jieba.cut(s,cut_all=True) --输出可迭代的generator

import jieba
#输出列表
jieba.lcut('好好学习,天天向上',cut_all=True)
Out[21]: ['好好', '好好学', '好好学习', '好学', '学习', ',', '天天', '天天向上', '向上']
#输出可迭代的generatora = jieba.cut('好好学习,天天向上',cut_all=True)
print("/ ".join(a))
Out:好好/ 好好学/ 好好学习/ 好学/ 学习/ ,/ 天天/ 天天向上/ 向上
``

(3)搜索引擎模式:在精确模式的基础上,对长词再次进行切分,更倾向于寻找短词语。
jieba.lcut_for_search(s) --输出列表
jieba.cut_for_search(s)–输出可迭代的generator

import jieba
#输出列表
jieba.lcut_for_search('好好学习,天天向上')
Out[22]: ['好好', '好学', '学习', '好好学', '好好学习', ',

更多推荐

jieba库统计出现词语次数和词云绘制

本文发布于:2024-02-14 09:17:11,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1762903.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:词语   次数   jieba

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!