天池O2O比赛数据分析"/>
天池O2O比赛数据分析
提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取优惠券后15天以内的使用情况。
一、总体分析
dfoff = pd.read_csv('data/ccf_offline_stage1_train.csv')
dfon = pd.read_csv('data/ccf_online_stage1_train.csv')
dftest = pd.read_csv('data/ccf_offline_stage1_test_revised.csv')
print('有优惠卷,购买商品:%d' % dfoff[(dfoff['Date_received'].notnull()) & (dfoff['Date'].notnull())].shape[0])
print('有优惠卷,未购商品:%d' % dfoff[(dfoff['Date_received'].notnull()) & (dfoff['Date'].isnull())].shape[0])
print('无优惠卷,购买商品:%d' % dfoff[(dfoff['Date_received'].isnull()) & (dfoff['Date'].notnull())].shape[0])
print('无优惠卷,未购商品:%d' % dfoff[(dfoff['Date_received'].isnull()) & (dfoff['Date'].isnull())].shape[0])
结果如下:
有优惠卷,购买商品:75382 有优惠卷,未购商品:977900 无优惠卷,购买商品:701602 无优惠卷,未购商品:0
可见,很多人(701602)购买商品却没有使用优惠券,也有很多人(977900)有优惠券但却没有使用
二、数据集划分:
预测未来N天的流量(人流,销售等),预测未来N天内的用户-对象对(用户-商品等)的问题等,可以利用滑窗法解决。题目描述为预测未来N天的息,其中N的取值为大于等于1。基本诸如此种问题,题目会给出前X天的详细信息。这样,我们就知道,其完整的数据为 X+N 的形式,其中 N 是需要我们预测的部分,其真实值未知。
需要在 X 中构造出与 X+N 格式一致的样本,这种情况下,切分X为两个部分,[X-M,M],其中M=N的长度。这样,就拥有了带有标签的数据,其中M是我们线下预测的部分其本质是符合线上的N的部分,而X-M类似于在[X,N]中的X部分。普遍在代码实现时,在[X-M,M]区间中,我们会首先提取M中的真实值Y和唯一标识ID,之后再X-M中不停的统
更多推荐
天池O2O比赛数据分析
发布评论