python英文分词统计词频

编程入门行业动态更新时间:2024-10-25 04:14:47

python英文分词统计<a href=https://www.elefans.com/category/jswz/34/1767675.html style= 词频"/>

读取数据

由于我们之前是吧每个职位都存储为单个的csv文件，所以我们先把它们的details职位要求细节信息读取出来。代码如下，具体说明参照之前的文章。#cell-1 定义读取细节的函数def readDetail(fileName):

with open(fileName, 'r') as f:

job = json.load(f)

details = job['details'].lower()

details = details.replace(' ', '').replace('\xa0', '') return details#cell-2 读取文件列表，把细节信息合并到textimport os

text = ''folder = '/Users/zhyuzh/Desktop/Jupyter/spiders/data/lagou_ai/jobs1000/'files = os.listdir(folder)

jobCount = 0for n in range(0, 1000): if not files[n].find('.json') == -1:

details = readDetail(folder + files[n]) if details.find('python') != -1 or details.find('tensorflow') != -1:

jobCount += 1

text += details

print('>>Got jobs:', jobCount)

jieba分词

要统计单词的出现频率，首先我们要进行切词，仍然使用jieba分词。#cell-3使用jieba分词import jieba

words = jieba.lcut(text) # 默认是精确模式cuted=' '.join(words)

print(cuted[:100])

这里print(cuted[:100])只输出前100个字看情况，应该得到类似这样的输出，每个词或标点被用空格分开了：

职位描述：岗位职责： 1 . 展开机器学习 / 深度学习等相关领域研究和开发工作； 2 . 负责从事深度学习框架搭建，包括机器学习、图像处理等的

nltk词频统计

nltk全称是Natural Language Toolkit，自然语言工具包，是专门用来做文本语言分析的工具，和jieba类似，nltk包含了更多功能，但它是针对英文的，对中文来说有些功能还不太好，比如它的中文分词就不如jieba。

nltk官方网站

如果还没安装的话可以用命令conda install nltk或者pip3 install nltk进行安装。

使用下面代码统计单

更多推荐

python英文分词统计词频

本文发布于:2024-02-11 07:17:57，感谢您对本站的认可！

词频分词英文 python

评论列表（有 0 条评论）