商数据分析项目"/>
巴西电商数据分析项目
写作背景:从kaggle上找了一份巴西电商数据集,结合python+MYSQL+tableau等分析工具,从多个维度对网站的各项指标进行分析,发现网站现存的问题并对网站提出优化建议。
文章结构如下:
1、获取/理解数据
1.1获取数据
从kaggle上下载数据集,并读入python
import pandas as pd
df = pd.read_csv('Orders_merged.csv')
df.head()
数据共有96478行,38列
1.2理解数据
数据来源: 这是在Olist商店下订单的巴西电子商务公共数据集。 该数据集包含2016年至2018年在巴西多个市场上制作的10万张订单的信息。 它允许从多个维度查看订单:从订单状态,价格,付款和货运绩效到客户位置,产品属性以及最终由客户撰写的评论。这是真实的商业数据,已被匿名化。
数据链接:
字段说明(共38个字段):
1、product_id:商品ID
2、seller_id:商家ID
3、order_id:订单ID
4、customer_id:订单对应的用户ID。订单数据集的键,每个订单都有一个唯一的customer_id。
5、order_status:订单状态
6、order_purchase_timestamp:下单时间
7、order_approved_at:付款审批时间
8、order_delivered_carrier_date:订单过账日期
9、order_delivered_customer_date:客户实际订单交货日期
10、order_estimated_delivery_date:订单预计交货日期
11、customer_unique_id:用户ID
12、customer_zip_code_prefix:客户邮政编码前5位
13、customer_city:客户所在城市
14、customer_state:客户所在的州
15、review_id:评论ID
16、review_score:评价得分,客户在满意度调查中给出的注释范围为1到5。
17、review_comment_title:评论标题(葡萄牙语)
18、review_comment_message:评论内容(葡萄牙语)
19、review_creation_date:发出满意度调查日期
20、review_answer_timestamp:客户满意度回复日期
21、payment_sequential:付款顺序,客户可以使用多种付款方式付款。
22、payment_type:付款方式
23、payment_installments:客户选择的分期付款数量
24、payment_value:交易金额
25、order_item_id:序号,用于标识同一订单中包含的商品数量。
26、price:商品价格
27、freight_value:运费,物品运费价值物品(如果订单包含多个物品,则运费价值将在物品之间分配)
28、seller_zip_code_prefix:卖家邮政编码前5位
29、seller_city:卖家所在城市
30、seller_state:卖家所在州
31、product_category_name:类别名称
32、product_name_lenght:产品名称长度
33、product_description_lenght:产品说明长度
34、product_photos_qty:产品照片数量
35、product_weight_g:产品重量单位g
36、product_length_cm:产品长度单位cm
37、product_height_cm:产品高度单位cm
38、product_width_cm:产品宽度单位cm
2、构建分析框架
3、数据清洗
3.1选取子集(根据搭建的框架选取需要的字段,作为新的数据表)
commerce_data = df[['product_id&
更多推荐
巴西电商数据分析项目
发布评论