天池O2O比赛数据分析

编程入门 行业动态 更新时间:2024-10-11 05:31:19

<a href=https://www.elefans.com/category/jswz/34/1765651.html style=天池O2O比赛数据分析"/>

天池O2O比赛数据分析

提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取优惠券后15天以内的使用情况。 

一、总体分析

dfoff = pd.read_csv('data/ccf_offline_stage1_train.csv')
dfon = pd.read_csv('data/ccf_online_stage1_train.csv')
dftest = pd.read_csv('data/ccf_offline_stage1_test_revised.csv')

print('有优惠卷,购买商品:%d' % dfoff[(dfoff['Date_received'].notnull()) & (dfoff['Date'].notnull())].shape[0])
print('有优惠卷,未购商品:%d' % dfoff[(dfoff['Date_received'].notnull()) & (dfoff['Date'].isnull())].shape[0])
print('无优惠卷,购买商品:%d' % dfoff[(dfoff['Date_received'].isnull()) & (dfoff['Date'].notnull())].shape[0])
print('无优惠卷,未购商品:%d' % dfoff[(dfoff['Date_received'].isnull()) & (dfoff['Date'].isnull())].shape[0])

结果如下:

有优惠卷,购买商品:75382
有优惠卷,未购商品:977900
无优惠卷,购买商品:701602
无优惠卷,未购商品:0

可见,很多人(701602)购买商品却没有使用优惠券,也有很多人(977900)有优惠券但却没有使用

二、数据集划分:

       预测未来N天的流量(人流,销售等),预测未来N天内的用户-对象对(用户-商品等)的问题等,可以利用滑窗法解决。题目描述为预测未来N天的息,其中N的取值为大于等于1。基本诸如此种问题,题目会给出前X天的详细信息。这样,我们就知道,其完整的数据为 X+N 的形式,其中 N 是需要我们预测的部分,其真实值未知。

       需要在 X 中构造出与 X+N 格式一致的样本,这种情况下,切分X为两个部分,[X-M,M],其中M=N的长度。这样,就拥有了带有标签的数据,其中M是我们线下预测的部分其本质是符合线上的N的部分,而X-M类似于在[X,N]中的X部分。普遍在代码实现时,在[X-M,M]区间中,我们会首先提取M中的真实值Y和唯一标识ID,之后再X-M中不停的统

更多推荐

天池O2O比赛数据分析

本文发布于:2024-02-24 14:25:02,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1695604.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:天池   数据   O2O

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!