数据分析"/>
2023年如何利用python进行数据分析
Numy和Pandas包
numpy和pandas是数据分析绝对绕不过的工具包。numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效。pandas是基于numpy的数据分析工具,能更方便的操作大型数据集。
以下是对numpy和pandas的基础知识的总结:
二、数据分析过程
数据分析过程如下:
三、实际数据分析
本文以朝阳医院2018年药品销售数据为例,利用上述分析工具,按照完整的分析流程进行数据分析。
1、提出问题
数据分析的首要任务就是明确分析的目标,即需要分析什么,分析的目的是什么。实际工作中需要和业务部门进行沟通确定分析的任务。本次练习中需要分析的指标有月消费次数、月均消费金额、客单价以及消费趋势。
2、理解数据
利用pandas包对数据进行查看,了解数据的基本情况。
(1)读取数据
(2查看行数和列数
(3)查看数据类型
3、数据清洗
(1)选择子集
本次案例对全部数据进行分析,因此不需要选择子集。
(2)列名重命名
将‘购药时间’改为‘销售时间’
(3)缺失数据处理
由于缺失数据量很小,本次案例采取删除缺失值的方法处理。
(4)数据类型转换
首先对社保卡号,商品编码数据继续数据类型的转换
接着对日期数据进行处理,先分割字符串,再用索引提取日期数据
将‘销售时间’这一列数据类型转换为日期型
(5)排序
按销售时间进行排序,排序完需要重新设置索引。
(6)异常值处理
首先利用描述统计信息来查看数据中是否有异常值。
发现销售数量、应收金额、实收金额数据均存在负值,与实际情况不符,判定为异常值。
接着处理异常值,采取删除的方法。
4、数据分析
通过上述的数据处理工作,得到了分析中想要的数据。接下来利用这些数据计算分析问题中的指标。
(1)月均消费次数
月均消费次数=总消费次数/月份数
需要明确的是,本文将同一天内同一个人发生的所有消费算作一次消费。因此需要删除同一天同一人重复消费的数据,才能得到总消费次数。
月份数则利用最大日期和最小日期相差的天数,除以30天而得到。
(2)月均消费金额
月均消费金额=总消费金额/月份数
(3)客单价
客单价=总消费金额/总消费次数
(4)消费趋势
提取日期中的月份作为新的变量‘月’,描述月消费金额,月消费次数的变化趋势。
绘制消费趋势折线图
由图可以看出,消费金额和消费次数的变化趋势基本一致,4月份的销售金额和消费次数最多,7月的数据最低这是由于数据仅收集到7月19号,7月的数据并不完整。
知道你对python感兴趣,所以给你准备了下面的资料~
这份完整版的Python全套学习资料已经上传,朋友们如果需要可以点击链接免费领取或者滑到最后扫描二v码【保证100%免费
】
python学习资源免费分享,保证100%免费!!!
需要的话可以点击这里👉Python学习路线(2023修正版)附涉及资料 (安全链接,放心点击)
文末有福利领取哦~
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
三、精品Python学习书籍
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、Python视频合集
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
六、Python练习题
检查学习结果。
七、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
👉这份完整版的Python全套学习资料已经上传,朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取【保证100%免费
】Python学习路线(2023修正版)附涉及资料《Python学习资料》,已经打包好了,自取【ps:需要领取的资料(请备注清楚,查找与发送给你)】。因链接常://mp.weixin.qq/s/UVxw0daFCgAMFhz9cfrjAQ
更多推荐
2023年如何利用python进行数据分析
发布评论