建模战疫—图解关键词数据"/>
建模战疫—图解关键词数据
建模战疫—图解关键词数据
- 引言
- 数据概览
- 图解数据
- python可视化
- excle可视化
- 小结
- 参考链接
引言
数据库课上,梁老师给到我们一份数据让同学“白拿”着尝试做些可视化的东西出来,作为作业,笔者将所作的相关效果通过博文进行一个简单的汇总。
数据概览
数据的主要来自某博,是通过爬取每日的评论等文本数据,随后利用python的第三方自然语言库NLP对其进行分词、计数处理。最终得到了由近10万条关键词数据与其在2019年12月至2020年4月初点击量所构成的数据表。
笔者将要做的是:如何将数据化繁为简,对其进行可视化的操作。这里,为了简单起见,减少些数据处理的工作量,笔者在大部分的数据可视化在操作中只提取了20年1月份的累计提及量在前15位的关键数据进行分析,而进一步的细化工作,笔者做出了省略。
图解数据
这里使用的可视化工具有两个—python、excle及其插件power view。
python可视化
首先将已经处理的数据导入jupyter notebook工具,并做简单的预览。
#引用约定
import numpy as np
import pandas as pd
from pylab import *
import matplotlib.pyplot as plt
import collections
from matplotlib.animation import FuncAnimation
mpl.rcParams['font.sans-serif'] = ['SimHei']#解决中文乱码问题
#导入数据
data=pd.read_csv('NCOV.csv')
dataT=pd.read_csv('NCOV.T.csv')
#两个数据集间互为转置关系
#data.head()
dataT.head()
这里笔者由于要(gs)所以结果不做展示。
随后尝试对数据进行进一步的分析,故尝试制作舆论气泡图,x轴作为日期,y轴作为关键词提及量,气泡大小代表关键词的提及量大小
# 定义每个点的面积并制定最大半径
max_radius = 0.00021
area = 3.14 * (max_radius *y )** 2 # 生成颜色
colors = np.random.rand(10)# 画出数据点
plt.title('累计关键舆论情况')
plt.ylabel('累计量')
plt.xlabel('词名')
plt.scatter(x, y, s=area, c=colors, alpha=1.0)
接下来还可以用python做的可视化图还有不少,笔者已气泡制作为例。此外制作动态气泡图、动态柱状图都是不错的选择。(但是代码量有点大)
excle可视化
excle的操作相对简单,其自带的插件工具power view功能也很强大,笔者的动态图制作选用的是此插件工具。
- 二维柱状图
-
折线图
-
散点图
-
气泡图
-
动态气泡图
关于动态气泡图的绘制可以选用的工具有不少,笔者认为比较好上手为excle自带的插件工具Power View。需要注意的是事先需要对数据进行一定处理后才能方便使用该插件工具。数据处理如下:
动态图相关参数设置为:
X轴为当日关键词提及量;
Y轴为截止的当日关键累计提及量;
播放轴日期为2020-01-01至2020-01-31;
气泡大小为关键词累计提及量;
效果如下图:
小结
通过本次可视化,完成了一些基本静态与动态的可视化操作,制作方式是按己需求截取一部分代表数据进行处理,任有不足,另外动态柱状图的绘制仍有待后期继续实现。
参考链接
.shtml
更多推荐
建模战疫—图解关键词数据
发布评论