母婴商品分析"/>
EXCEL数据分析之母婴商品分析
首先先明确一下对于该数据的分析流程
明确目的=》理解数据=》提出问题=》数据清洗=》描述性统计=》数据可视化=》总结分析
目录
首先先明确一下对于该数据的分析流程
一、明确目的
二、理解数据(字段)
三、提出问题(分析重点)
四、数据清洗
五、描述性统计
六、数据可视化
七、总结分析
一、明确目的
首先先了解一下数据集的基本情况
案例背景:这是一份淘宝母婴用品店的销售数据,需要帮助商家进行商品的最优选择(该数据集来自阿里天池)
目标:找出产品种类、时间、客户性别的变化对销售的影响
二、理解数据(字段)
数据集一共有两张表,一张是购买用户信息表,一张是商品购买记录表
(为啥要多复制一份?这是防止自己操作失误,导致的数据混乱甚至是删除,建立的一份保障)
首先先看商品购买记录表(7个字段)
用户ID:具有唯一性可识别,可作为主键
购买行为ID:购买行为的唯一编号
商品大类、小类、属性(无关字段)、购买数量、购买时间,这些字段应该都知道它的意思
再看一下用户信息表(3个字段)
需要特别强调一下出生日期是指婴儿的出生日期,性别也是指婴儿的性别
三、提出问题(分析重点)
1.哪些类别比较热销,总销量前5个占比
2.不同种类的商品销售趋势怎么样?
3.商品对于哪个年龄而言最热销
4.用户购买性别购买占比分布
四、数据清洗
数据清洗包含几个部分:子集选择,列名重命名,数据类型转换,数据重复值,缺失值处理,异常值处理,排序
对于商品购买记录表进行数据清洗
1.子集选择
刚刚说过商品属性是无关特征的,所以把它删除
2.列名重命名
对于这个数据集来说,我之前是已经重命名了,之前的数据字段名是英文状态
所以在此不进行操作
3.数据类型转换
a.购买数量(文本)==》数值类型
使用ctrl+H,把单位替换成空
那可能还有其他单位呢?
这个很好办,按ctrl+shift+L,进行筛选状态,按购买数量的下键,进行一个查看,如果还有其他单位,则重复上一个步骤
如果真的太多太多不一样的单位,这个动作岂不是要操作很多次?那可以使用到left,len,right等函数啦
b.购买时间(数值)==》时间类型
选择日期列,进行分列,然后选择日期类型,完成
4.删除重复值
随机选择一个单元格,选择删除重复值即可
5.缺失值处理
按住CTRL+G进行一个空值定位
缺失值多的话:进行一个平均数填充,或者中位数等方法进行填充
缺失值占比少的话:即进行一个删除行
用户信息表同理操作
6.异常值处理
这里还是需要用到一个筛选功能
异常值一般采取删除的操做(如果异常值不多的话)
如果异常值很多的话,那就需要进一步去了解异常值产生的原因
7.最后进行一个排序
这里我们对根据购买时间进行排序
用户信息表也同理进行操作
五、描述性统计
我们对购买数量进行一个初步了解
根据中位数和众数,发现大部分人购买1件商品居多
六、数据可视化
在可视化之前,我是先把出生日期和性别使用vlookup弄够来
对于婴儿的年龄字段的计算有必要说一下,婴儿年龄=year(购买时间)-year(出入日期)
为什么不用现在的日期去算,为什么要用购买时间去计算呢?
因为时效性!!!数据是有时效性的,你可以看到购买时间是2012年左右的,说明已经不能用今年来算,
因为我们要分析的的那时候状态,所以要计算他购买母婴产品时孩子的年龄
1.哪些类别比较热销,总销量前5个占比
对大类而言:28销售量是最多的
28的大类占比达到了43%
对于小类来说,50011993这一款是卖得最好的
2.不同种类的商品销售趋势怎么样?
28大类在每年的每一季都是趋递增的方向前进
折线图会更清楚的表达变化规律
28这大类具有一个季节性波动
50008168在2014年的第三季度时候销售是最优秀的,也是最明显的
3.商品对于哪个年龄而言最热销
可以看出0~3岁的销量是蛮乐观的,从7岁以上这个销量是明显很低的
4.用户购买性别购买占比分布
明显的是女孩纸的购买人数占多数
勾画出男生和女生中各种商品销量
七、总结分析
1.婴儿期(特别是0~3)岁的商品卖得特别好
2.14年相比13年总体销量是有明显提高的,特别是50008168和28商品卖得明显比较好
3.女性商品相对男性商品卖得会更多,男生59998168卖得比较好,女生中50014815卖得比较好
更多推荐
EXCEL数据分析之母婴商品分析
发布评论