词频"/>
python英文分词统计词频
读取数据
由于我们之前是吧每个职位都存储为单个的csv文件,所以我们先把它们的details职位要求细节信息读取出来。代码如下,具体说明参照之前的文章。#cell-1 定义读取细节的函数def readDetail(fileName):
with open(fileName, 'r') as f:
job = json.load(f)
details = job['details'].lower()
details = details.replace(' ', '').replace('\xa0', '') return details#cell-2 读取文件列表,把细节信息合并到textimport os
text = ''folder = '/Users/zhyuzh/Desktop/Jupyter/spiders/data/lagou_ai/jobs1000/'files = os.listdir(folder)
jobCount = 0for n in range(0, 1000): if not files[n].find('.json') == -1:
details = readDetail(folder + files[n]) if details.find('python') != -1 or details.find('tensorflow') != -1:
jobCount += 1
text += details
print('>>Got jobs:', jobCount)
jieba分词
要统计单词的出现频率,首先我们要进行切词,仍然使用jieba分词。#cell-3使用jieba分词import jieba
words = jieba.lcut(text) # 默认是精确模式cuted=' '.join(words)
print(cuted[:100])
这里print(cuted[:100])只输出前100个字看情况,应该得到类似这样的输出,每个词或标点被用空格分开了:
职位 描述 : 岗位职责 : 1 . 展开 机器 学习 / 深度 学习 等 相关 领域 研究 和 开发 工作 ; 2 . 负责 从事 深度 学习 框架 搭建 , 包括 机器 学习 、 图像处理 等 的
nltk词频统计
nltk全称是Natural Language Toolkit,自然语言工具包,是专门用来做文本语言分析的工具,和jieba类似,nltk包含了更多功能,但它是针对英文的,对中文来说有些功能还不太好,比如它的中文分词就不如jieba。
nltk官方网站
如果还没安装的话可以用命令conda install nltk或者pip3 install nltk进行安装。
使用下面代码统计单
更多推荐
python英文分词统计词频
发布评论