mysql创建doctor表"/>
mysql创建doctor表
上周学习了利用excel进行数据分析,这周使用mysql进行数据分析。操作过程与利用excel进行分析相似,唯一的区别在数据清洗和建模这几步中,这几步也是最关键的几步。当时在数据清洗这一环节中,我曾经纠结过,到底是应该在excel中清洗好后导入mysql中进行建模分析,还是应该将原始数据直接导入到mysql中进行清洗,但是后者操作起来相当复杂,最后本着应该将mysql彻底落实到实践的想法,我从原始数据开始清洗到建模分析,所有的操作均在mysql中进行,中途碰到过种种的困难,但是我一一将它们解决了,成就感满满。好了,废话就说到这里,现在我将我的操作过程写下来,给自己复习的机会,希望也能给大家一些参考。
一、提出问题
1.在治疗甲亢疾病中,哪位专家的排名最靠前?
2.全国哪家医院擅长治疗甲亢的专家人数最多,占比是多少?
二、理解数据
利用**爬取工具从好大夫网上爬取了关于全国擅长治疗甲亢疾病的专家信息,一共爬取了3991条数据。
三、清洗数据
1.打开Navicat客户端,将excel文件导入到mysql数据库中
2.导入的新表名字为doctor,故新建一个表doctornew,进行相应处理后将导入的数据复制一份并保存在doctornew中。处理过程如下:
⑴按doctor格式新建表doctornew
⑵删除不需要的列价格、医生活跃数,并新增列hospital_1、two_yr_vote、sum_vote。
⑶重命名列名,将中文列名更改为英文列名,方便后续查询。
⑷将doctor的数据复制到doctornew中
3.删除重复值
利用name和hospital两个字段列,对doctornew表进行重复值处理
⑴查询重复值
⑵删除重复值
删除重复值,需要新增一列自增列id
⑶验证重复值是否删除完全
确定没有重复值后进入下一步清洗。
4.缺失值处理
⑴查询是否存在缺失值
结果发现score中缺少2项,说明score中存在缺失值
⑵缺失值处理
查询缺失值详情:
由于score这一项我们不能进行人工填补,所以只能进行删除处理
5.一致化处理
⑴格式一致化处理
⑵分列
将hospital和vote两列分列
6.异常值处理
在skill列中,好多医生的擅长不一定是甲亢或是甲状腺,所以要将不包含甲状腺的列筛选出来并进行删除处理。
经过一系列处理后,数据结果如下图示:
四、构建模型
1.在治疗甲亢疾病中,哪位专家的排名最靠前?
结果发现:我们发现中山二院的蒋宁一主任是全国治疗甲亢最权威的专家,天津总医院的孟召伟主任、华西医院的于南副主任分别居第2和第3名,所以我们在选择医生时可优先考虑这3位专家,如果碰上挂号难或是不方便去这些医院的患者朋友,其他排名靠前的各位医生大家也可以选择。
2.全国哪家医院擅长治疗甲亢的专家人数最多,占比是多少?
我们发现天津总医院中共有35位医生入选,占比1.36%,郑大一附院有34位医生,占比1.32%,中国医大一院有28位,占比1.09%,北京协和医院25位,占比0.97%,山东省立医院有25位医生,占比0.97%,所以在上述几家医院患者有更多的选择权去选择甲亢专家。
结论:通过上面的分析,我们可以得到以下的结论:⑴中山二院的蒋宁一主任是全国治疗甲亢最权威的专家,天津总医院的孟召伟主任、华西医院的于南副主任分别居第2和第3名,所以在选择医生时可优先考虑这3位专家;⑵天津总医院在甲亢治疗领域中有更多的专家,如果方便去天津总医院会有更多的选择。
更多推荐
mysql创建doctor表
发布评论