使用Python处理Excel数据并生成词云|电子爱好者

admin管理员组
文章数量:1609645

使用Python处理Excel数据并生成词云

一、目的
二、步骤
三、代码以及结果

一、目的

从Excel文件中找出喜欢的岗位类别，将其对应的岗位描述进行分析处理，并做出词云图。
work_all.xlsx

二、步骤

1.处理数据
找出自己喜欢的类别，我选的是岗位类别有：数据运营、机器学习、数据科学、数据分析师、数据产品经理、商业数据分析，将其统一替换为数据科学。
提取处理后的数据中岗位类别为数据科学的岗位描述。
2.进行文本预处理，去掉标点符号
3.使用jieba进行文本分词
4.运用过滤词表优化掉常用词
remove_words.txt

5.进行词频统计，使用pyecharts生成词云

三、代码以及结果

wordcloud.py

import pandas as  pd
import re
import collections
import jieba

from pyecharts.charts import WordCloud
from pyecharts import options as opts

'''
找出喜欢的岗位做岗位描述的分析，并做出词云图
'''
# 1.处理数据
# 读取数据
data = pd.read_excel('work_all.xlsx')
# 为了不影响原数据，所以拷贝一份
data_cy = data.copy()
# 提取指定岗位的数据
# 注意：岗位类别需要处理空字符问题，岗位类别后都有一个空格，要去除空格才能读出来
# 去除空格
A = data_cy['岗位类别'].str.strip()
# 把去除空格后的数据更改到原数据中
data_cy['岗位类别'] = A

'''
把属于数据运营、机器学习、数据科学、数据分析师、数据产品经理、商业数据分析的数据筛选出来，
并把其'岗位类别'列中的值全部替换为'数据科学'。
'''
# 把属于这些类别的提取出来放到B中
B = A.isin(['数据运营', '机器学习', '数据科学', '数据分析师', '数据产品经理', '商业数据分析'])
# 把这些岗位的类别都替换为数据科学
data_cy.loc[B, '岗位类别'] = '数据科学'

# 提取岗位类别为数据科学的数据
res = data_cy[data_cy['岗位类别'] == '数据科学']
# 更改到原数据中
data_cy = res


# 拼接所有岗位类别为数据科学的岗位描述
string_data = ''
for i in data_cy['岗位描述']:
    string_data += str(i)


# 2.文本预处理，去除各种标点符号，不然统计词频时会统计进去
# 定义正则表达式匹配模式，其中的|代表或
pattern = re.compile(u'\t|\n| |；|\.|。|：|：\.|-|:|\d|;|、|，|\)|\(|\?|"')
# 将符合模式的字符去除，re.sub代表替换，把符合pattern的替换为空
string_data = re.sub(pattern, '', string_data)

# 3.文本分词
seg_list_exact = jieba.cut(string_data, cut_all=False)  # 精确模式分词
# object_list  = list(seg_list_exact) # list()函数可以把可迭代对象转为列表

# 4.运用过滤词表优化掉常用词，比如“的”这些词，不然统计词频时会统计进去
object_list = []

# 读取过滤词表
with open('./remove_words.txt', 'r', encoding="utf-8") as fp:
    remove_words = fp.read().split()

# 循环读出每个分词
for word in seg_list_exact:
    #看每个分词是否在常用词表中或结果是否为空或\xa0不间断空白符，如果不是再追加
    if word not in remove_words and word != ' ' and word != '\xa0':
        object_list.append(word)  # 分词追加到列表

# 5.进行词频统计，使用pyecharts生成词云
# 词频统计
word_counts = collections.Counter(object_list)  # 对分词做词频统计
word_counts_top = word_counts.most_common(100)  # 获取前100最高频的词

# 绘图
# https://gallery.pyecharts/#/WordCloud/wordcloud_custom_mask_image
# 去pyecharts官网找模板代码复制出来修改
c = (
    WordCloud()
    .add("", word_counts_top)#根据词频最高的词
    .render("wordcloud.html")#生成页面
)

运行生成wordcloud.html页面
wordcloud.html

数据文件和代码已托管到GitHub：PythonWordCloud

本文标签：数据 Python Excel

版权声明：本文标题：使用Python处理Excel数据并生成词云内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1728571460a1164235.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

如何用excel做正交分析_excel表格分析正交数据-如何应用EXCEL表进行正交试验分析...

3小时前

如何用excel做正交实验回归分析应用方式如下：正交试验的极差分析法又称直观分析法，极差分析法又称直观分析法，它具有计算简单、直观形象、简单易懂等优点，算简单、直观形象、简单易懂等优点，是正交试验结果分析最常用的方法，交试验结果分

用mysql做小型数据库,怎样用excel制作一个小型数据库表格 | excel做数据库

3小时前

Excel 表格类似的数据结构，数据库应该如何设计想想一个三维的空间： x,y,z 分别表示坐标的 x,y,z 值，为整数(可以为负，如果你在应用里面将0设中点，且允许反方向存储数据的话，x,y 表示坐标，z 表示用户，那么任何一个数据就

excel制作订单管理系统_如何在Excel中制作订单

3小时前

excel制作订单管理系统 When you first start to use Excel, you probably work with files that somebody else set up. Eventually, you

excel图表技巧：如何制作自动刷新的动态喜报

3小时前

临近年关，各企业进入节日营销大战，每天都需要对销售数据进行统计分析，同时为了鼓励及带动新品的销售气氛，还会制作鼓励销售人员士气的喜报。今天就来分享使用E

【Excel】把拍照的图片快速做成电子表格的方法

3小时前

问题介绍： 将如下拍照的图片快速做成电子表格：方法： 使用QQ快捷键ctrlalto框选中表格，点击转为在线文档：右

excel制作（1）多记录跟进表格

3小时前

问题： 需要多次记录、跟进进度的表格，你都是怎么填写的呢？80% 的同学都是另起一列，直接填写；等项目结束一看表&#xff

用python制作一个简单处理Excel表格的小工具（需求）

3小时前

因为工作上每周都需要制作一份周报，公司有系统可以导出excel表格数据，但是导出来没办法直接用透视表算出最终的通报数据，每次还要进行分列、替换单元格内容、手工换算原始表数据等

用Excel制作贪吃蛇

3小时前

此文章最先发布于我的博客废话不多说，先放成果。在GitHub上查看源代码。开始编写阅读此教程，你需要了解什么是VBA，对VBA初步了解如何在Excel中编辑VBA，并启用它否则请另行百度。 ##最重要的两个函数 Rang

如何将 Matplotlib 可视化插入到 Excel 表格中？

3小时前

大家好，我是小五

EXCEL：查询系统的制作与跨表引用

3小时前

一、薪资查询系统 （一）前期资料 1、人事部门中的一些薪资情况的资料（作为基础数据库） 2、根据基础数据库建立以下查询表【该查询表的具体类目可以依据

php生成值班表,EXCEL表制作自动排列值班表【excel值班表表格制作教程】

3小时前

怎么用excel排值班表方法步骤 1 制作值班式 2 在单 F2中输入：TODAY()，单元格格示如图合A1-C1，在单元格中输入：TODAY(

用unity读取excel中的数据并绘制表格

3小时前

首先要感谢王王王渣渣这位大佬，把插件和制作步骤写的很清楚，原文链接请参考 https:blog.csdnwangjiangrongarticledetails79980447 在此

用python读取excel数据、并作图_Python读取Excel表格,并同时画折线图和柱状图的方法...

3小时前

今日给大家分享一个Python读取Excel表格，同时采用表格中的数值画图柱状图和折线图，这里只需要几行代码便可以实。首先我们需要安装一个Excel操作的库xlrd，这个很简单，在安装Python后直接在DOS命令下输入pip insta

excel合并两列内容_一起来学习Excel表格两列合并一列的两种方法

3小时前

在我们日常工作中，用Excel制作的表格，有时需要把两列数据合并成一列，如果一个个复制，数据少还好，数据多这样复制起来可是相当麻烦

Python读取excel表格数据并绘制成柱状图 | 数据排序、柱状图颜色、标签乱码等问题通通能够解决！

3小时前

hello大家好，我是你们的可爱丸，我们又见面啦！ python的功能十分强大，它不仅可以用来做爬虫，还可以用来做数据分析哦！那么今天我就带着大家用python 分析表格数据，并绘制成柱状图，让大家感受一下用python来绘制

python中批量根据自己指定数据量导出数据到excel表格，可以用excel存储超100w行的数据，分多个表格

3小时前

import pandasdef data_to_excel(data，row):lengthlen(data)numberlength rowfor i in range(number1):data[i

深度挖掘Python魅力——《Basic-Well-Log-Interpretation》项目全面解析

2小时前

深度挖掘Python魅力——《Basic-Well-Log-Interpretation》项目全面解析 Basic-Well-Log-Interpretation Basic Well Log Interpretation with pyt

笔记1（数据集介绍）-THE TUH EEG CORPUS: A Big Data Resource for Automated EEG Interpretation（论文）

2小时前

目录摘要：脑电图介绍： THU EEG Corpus介绍：采集：存储：数据裁剪：摘要：一、论文介绍了第一个脑电图（EEG）语料库，这个语料库由25000多个脑电图组成，还有神经科医

ACE2005数据集介绍、预处理及事件抽取

2小时前

ACE2005数据集介绍、预处理及事件抽取参考链接：https:www.jianshup71ed0d780210（感谢作者鲜芋牛奶西米爱solo，这篇博客介绍的非

用EasyRecovery软件修复硬盘找回数据

28分钟前

前几天，不知道什么原因，我的500G的硬盘，不能访问了，总是提示需要格式化。这个硬盘上存储了我多年积累的资料，而且最重要的是女儿的

电子爱好者 - 最新技术资讯及电子产品介绍！

使用Python处理Excel数据并生成词云

使用Python处理Excel数据并生成词云

一、目的

二、步骤

三、代码以及结果

更多相关文章

如何用excel做正交分析_excel表格分析正交数据-如何应用EXCEL表进行正交试验分析...

用mysql做小型数据库,怎样用excel制作一个小型数据库表格 | excel做数据库

excel制作订单管理系统_如何在Excel中制作订单

excel图表技巧：如何制作自动刷新的动态喜报

【Excel】把拍照的图片快速做成电子表格的方法

excel制作（1）多记录跟进表格

用python制作一个简单处理Excel表格的小工具（需求）

用Excel制作贪吃蛇

如何将 Matplotlib 可视化 插入到 Excel 表格中？

EXCEL：查询系统的制作与跨表引用

php生成值班表,EXCEL表制作自动排列值班表【excel值班表表格制作教程】

用unity读取excel中的数据并绘制表格

用python读取excel数据、并作图_Python读取Excel表格,并同时画折线图和柱状图的方法...

excel合并两列内容_一起来学习Excel表格两列合并一列的两种方法

Python读取excel表格数据并绘制成柱状图 | 数据排序、柱状图颜色、标签乱码等问题通通能够解决！

python中批量根据自己指定数据量导出数据到excel表格，可以用excel存储超100w行的数据，分多个表格

**深度挖掘Python魅力——《Basic-Well-Log-Interpretation》项目全面解析**

笔记1（数据集介绍）-THE TUH EEG CORPUS: A Big Data Resource for Automated EEG Interpretation（论文）

ACE2005数据集介绍、预处理及事件抽取

用EasyRecovery软件修复硬盘找回数据

发表评论

推荐文章

打开php页面变成下载的解决办法

jeecg-boot中实现跳过登录验证访问其他vue页面

终极WordPress安全入门指南(2022)

2024 吴声年度演讲：做你自己，因为别人都有人做了

win10家庭版 安装docker

热门文章

java实现pdf转word、Excel（无水印，无数量限制）

修改完pip的默认路径，pip install 仍然显示在C盘

Llama 3.1：系列模型原理讲解论文(章节1-3)

快速飞入城市空中交通的未来-权威公司发布参考

CSAPP: BombLab 拆炸弹谜题题解（x86 环境）

网络开发(详)

导出Excel表格

Structure and Interpretation of Computer Programs

【QT分享】基于QT+科大迅飞的连续语音识别

性能调优概述，这是一篇最通俗易懂的性能调优总结

最新文章

按键精灵手机助手连mumu模拟器

服务器虚拟连接按键精灵,服务器运行按键精灵

android 怎么获取root权限管理,安卓2.2怎么获取root权限

触动精灵将图片转成base64字符串后通过post方式上传给服务器

安卓手机怎么root_手机怎么root

服务器系统装驱动精灵,云服务器安装驱动精灵

三星android5 root包,三星N9200刷国行系统(含五件套root权限recovery SuperSU)

天猫精灵测评与开发案例

按键精灵 android,按键精灵手机版

触动精灵和按键精灵哪个好,如何用按键精灵ios触动精灵及脚本写自动答题脚本...

Android cpu降频工具,免root安卓cpu降频软件-安卓cpu降频软件免root版下载-游戏大玩家...

MTK Android N 源码Rom Root

【触动精灵】IDE 连接设备

小米手机6X获得ROOT权限的教程

【阿里云生活物联网架构师专题 ③】esp32 sdk 直连接入天猫精灵IOT开放平台，实现天猫精灵找队友零配网功能和语音控制；

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何将 Matplotlib 可视化插入到 Excel 表格中？

深度挖掘Python魅力——《Basic-Well-Log-Interpretation》项目全面解析

win10家庭版安装docker

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载