python英文分词统计词频

编程入门 行业动态 更新时间:2024-10-25 04:14:47

python英文分词统计<a href=https://www.elefans.com/category/jswz/34/1767675.html style=词频"/>

python英文分词统计词频

读取数据

由于我们之前是吧每个职位都存储为单个的csv文件,所以我们先把它们的details职位要求细节信息读取出来。代码如下,具体说明参照之前的文章。#cell-1 定义读取细节的函数def readDetail(fileName):

with open(fileName, 'r') as f:

job = json.load(f)

details = job['details'].lower()

details = details.replace(' ', '').replace('\xa0', '')        return details#cell-2 读取文件列表,把细节信息合并到textimport os

text = ''folder = '/Users/zhyuzh/Desktop/Jupyter/spiders/data/lagou_ai/jobs1000/'files = os.listdir(folder)

jobCount = 0for n in range(0, 1000):    if not files[n].find('.json') == -1:

details = readDetail(folder + files[n])        if details.find('python') != -1 or details.find('tensorflow') != -1:

jobCount += 1

text += details

print('>>Got jobs:', jobCount)

jieba分词

要统计单词的出现频率,首先我们要进行切词,仍然使用jieba分词。#cell-3使用jieba分词import jieba

words = jieba.lcut(text)  # 默认是精确模式cuted=' '.join(words)

print(cuted[:100])

这里print(cuted[:100])只输出前100个字看情况,应该得到类似这样的输出,每个词或标点被用空格分开了:

职位 描述 : 岗位职责 : 1 . 展开 机器 学习 / 深度 学习 等 相关 领域 研究 和 开发 工作 ; 2 . 负责 从事 深度 学习 框架 搭建 , 包括 机器 学习 、 图像处理 等 的

nltk词频统计

nltk全称是Natural Language Toolkit,自然语言工具包,是专门用来做文本语言分析的工具,和jieba类似,nltk包含了更多功能,但它是针对英文的,对中文来说有些功能还不太好,比如它的中文分词就不如jieba。

nltk官方网站

如果还没安装的话可以用命令conda install nltk或者pip3 install nltk进行安装。

使用下面代码统计单

更多推荐

python英文分词统计词频

本文发布于:2024-02-11 07:17:57,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1679804.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:词频   分词   英文   python

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!