爱奇艺用户存留预测|电子爱好者

admin管理员组
文章数量:1659575

用户行为序列建模

爱奇艺用户行为序列建模

文章目录

用户行为序列建模
前言
一、赛题背景
二、特征提取
- 1.用户行为序列特征提取
- 2.用户属性特征提取
三、建模
四、总结

前言

爱奇艺组织的用户存留预测竞赛，预测用户未来七天会有几天登陆app，可用多分类或者回归+阈值后处理来做。

一、赛题背景

训练集60万样本，给定了多张表，包含用户属性、登陆时间、播放时长等特征。测试集A榜1万5样本，只给了用户id和需要预测的时间点。选手需要自定义标签y。
官方网址：http://challenge.ai.iqiyi/detail?raceId=61600f6cef1b65639cd5eaa6
竞赛代码：https://github/Actor12/aiqiyi-userremain
数据集下载地址：链接：https://pan.baidu/s/1ZIlbWZATcQviutyjAS-jWQ 提取码：pwk8

二、特征提取

1.用户行为序列特征提取

需要先对登陆序列按时间进行排序，这样分组提取登陆时间和类型后，每个用户的序列都是顺时有序的，有利于后续模型提取信息。下面提取用户的登陆时间和登陆类型序列。最终用的是登陆类型序列直接放入gru训练。尝试了w2v提取登陆时间序列的embedding，但是训练太耗时未成功。
代码如下（示例）：

#构建序列
launch_grp = pd.DataFrame()

user_id = []
launch_date_str = []
launch_type_str = []
for i in launch.groupby('user_id'):
    launch_date = []
    launch_type = []
    user_id.append(i[0])
    for j in i[1]['date']:
        launch_date.append(j)
    for j in i[1]['launch_type']:
        launch_type.append(j)
        
    launch_date_str.append(str(launch_date))
    launch_type_str.append(str(launch_type))
launch_grp['user_id'] = list(user_id)
launch_grp['launch_date'] = list(launch_date_str)
launch_grp['launch_type'] = list(launch_type_str)
launch_grp.head()

提取的两种序列如下：

2.用户属性特征提取

这部分特征提取就是常规的特征衍生操作，包括分组聚合、target_encoding、逻辑交叉、长度统计等特征（用户登录类型个数、序列长度，近30、15、7天播放时长等等）。其中在制作统计特征时，注意不要特征穿越，需要先提取出enddate之前的序列作为训练集数据。代码如下（示例）：

def get_train_launch_date(row):
    count = 0
    launch_date_list = row.launch_date
    for i in launch_date_list:
        if row.end_date>=i:
            count += 1
        else:
            break
    
    return launch_date_list[:count]

然后再进行训练集的部分统计特征，这样就不会提取到end_date之后的统计信息。代码如下：

#构建登录的统计特征,注意只用结束时间以前的序列来构建特征，否则会穿越。上述已经解决了穿越问题
launch_grp['launch_times'] = [len(v) for v in launch_grp.launch_date.values]
launch_grp['launch_type_0'] = [len(v)-sum(v) for v in launch_grp.launch_type.values]
launch_grp['launch_type_1'] = [sum(v) for v in launch_grp.launch_type.values]
launch_grp['launch_type_01rate'] = [sum(v)/len(v) if len(v)>0 else 0 for v in launch_grp.launch_type.values]
launch_grp['start_end_launch'] = [max(v)-min(v) if len(v)>0 else 0 for v in launch_grp.launch_date.values]

#计算launch_date的序列长度
launch_date_len = []
for i in launch_grp.launch_date:
    launch_date_len.append(len(i))
launch_grp['launch_date_len'] = launch_date_len

launch_grp.head()

三、建模

输入模型的特征主要分为行为序列特征和用户属性等统计特征，行为序列都只截取了近一个月的登陆序列（也尝试了加入近15、7、3天的序列）。用户的多种序列读取模型后各自给一个gru去处理，属性统计特征给基层dnn去处理，在对他们的结果做拼接，然后relu（因为是当做回归来做的，没有sotfmax）。
数据读入方式如下：

#制作一个迭代器，迭代器里面的每个元素是一个bt=n的step
#https://blog.csdn/weixin_37737254/article/details/103884255
class DataGenerator(Sequence):
    def __init__(self, df, batch_size):
        self.data = df
        self.num = df.shape[0]
        self.batch_size = batch_size
        self.fea = ['father_id_score', 'cast_id_score', 'tag_score',
       'device_type', 'device_ram', 'device_rom', 'sex', 'age', 'education',
       'occupation_status', 'territory_score','launch_times', 
       'launch_times_31', 'launch_times_15', 'launch_times_7', 'playtime_31',
       'playtime_15', 'playtime_7']#'launch_date_len_target_enc','start_end_launch',目前最佳只有钱18个,'launch_date_len','launch_type_0', 'launch_type_1'

    def __len__(self):
        return math.ceil(self.num / self.batch_size)

    def __getitem__(self,idx):
        batch_data = self.data.iloc[idx*self.batch_size:(idx+1)*self.batch_size]

        input_1 = np.array([i for i in batch_data.launch_seq_31])
        input_2 = np.array([i for i in batch_data.playtime_seq])
        input_3 = np.array([i for i in batch_data.duration_prefer])
        input_4 = np.array([i for i in batch_data.interact_prefer])
        input_5 = np.array(batch_data[self.fea])
        #以上特征要做成[[][][]]这样的形式读取
        
        output = np.array(batch_data.label)

        return (input_1, input_2, input_3, input_4, input_5), output

最终的模型结构如下：

def build_model(seq_len,dur_seq_len,inter_seq_len, feature_num):
    input_1 = tf.keras.Input(shape=(seq_len,1))
    output_1 = tf.keras.layers.GRU(32)(input_1)

    input_2 = tf.keras.Input(shape=(seq_len,1))
    output_2 = tf.keras.layers.GRU(32)(input_2)
    
    input_3 = tf.keras.Input(shape=(inter_seq_len,1))
    output_3 = tf.keras.layers.GRU(11)(input_3)  #11
    
    input_4 = tf.keras.Input(shape=(dur_seq_len,1))
    output_4 = tf.keras.layers.GRU(16)(input_4)  #16
    
    input_5 = tf.keras.Input(shape=(feature_num, ))
    output_5 = tf.keras.layers.Dense(64, activation="relu")(input_5)

    output = tf.concat([output_1, output_2,output_3,output_4,output_5], -1)
#     output = tf.keras.layers.Dense(128, activation="relu")(output)
#     dp = tf.keras.layers.Dropout(0.15)(output)去掉涨了0.002
    output = tf.keras.layers.Dense(64, activation="relu")(output)
    output = tf.keras.layers.Dense(1, activation="relu")(output)

    model = tf.keras.Model(inputs=[input_1, input_2,input_3, input_4,input_5], outputs=output)

    return model

模型训练：

new_test = DataGenerator(test,100)

new_train = DataGenerator(train[:594000],100)
new_val = DataGenerator(train.iloc[594000:],100)
        
model = build_model(seq_len=32,dur_seq_len=16,inter_seq_len=11,feature_num=18)
model.summary()

model.compile(optimizer=tf.keras.optimizers.Adam(0.0008),loss="mse",metrics=["mse"])
early_stopping = tf.keras.callbacks.EarlyStopping(monitor="val_mse", patience=3, restore_best_weights=True)
lr_reduce = tf.keras.callbacks.ReduceLROnPlateau(patience=2,monitor='val_mse', factor=0.1)
best_checkpoint = tf.keras.callbacks.ModelCheckpoint(model_dir,save_best_only=True, save_weights_only=False,verbose=1)
#model.fit(iter(train_bt),steps_per_epoch=len(train_bt),validation_data=iter(val_bt),validation_steps=len(val_bt),epochs=20,callbacks=[best_checkpoint,early_stopping,lr_reduce])
#model.save('./data/model/model_fold{}.h5'.format(kf))
model.fit_generator(generator=new_train,
                    steps_per_epoch=len(new_train),
                    epochs=20,
                    verbose=1,
                    validation_data=new_val,
                    validation_steps=len(new_val),
#                     use_multiprocessing=False,
#                     workers=1,
                    callbacks=[best_checkpoint,early_stopping,lr_reduce])
    
#重新加载当前折最优的模型
best_model = tf.keras.models.load_model(model_dir)
#测试集推理
test_pred =  best_model.predict(new_test, steps=len(new_test))[:,0]
 
#验证集推理
val_pred =  best_model.predict(new_val, steps=len(new_val))[:,0]

#计算整体验证集得分
y_true = train.iloc[594000:]['label']
score = aiyiqi_metric(y_true,val_pred)
print('得分：{}'.format(score))

线上评价指标：

def aiyiqi_metric(y_true,y_pred):
    y_true = list(y_true)
    y_pred = list(y_pred)
    score = 0
    for i in range(len(y_true)):
        score += abs(y_true[i]-y_pred[i])/7
    return 100*(1-score/len(y_true))

另外尝试了多折交叉和半监督还有树模型，具体可参考github链接：https://github/Actor12/aiqiyi-userremain。

四、总结

参考本次竞赛以及以往竞赛，对于用户行为序列建模任务，用户的属性等统计特征是不怎么work的，关键在于其点击序列提取的如何，如何放入模型训练，用什么模型训练。其本质上可以当做是一个nlp的文本分类任务，以往类似竞赛也有top选手直接用bert训练行为序列。

本文标签：用户爱奇艺

版权声明：本文标题：爱奇艺用户存留预测内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1729832792a1214189.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

爱奇艺用户存留预测

用户行为序列建模

文章目录

前言

一、赛题背景

二、特征提取

1.用户行为序列特征提取

2.用户属性特征提取

三、建模

四、总结

更多相关文章

vue2仿照爱奇艺前端练习

爱奇艺边缘计算框架

爱奇艺基于 Vue 的微前端架构实践

爱奇艺向抖音开启授权，打开内容价值的新大门

CC++编程：爱奇艺网络协程编写高并发应用实践

学习笔记（1):爱奇艺ZoomAI视频增强技术的应用-ZoomAI视频增强技术的应用01

爱奇艺视频推荐领域的ANN实践

面试爱奇艺经验

爱奇艺视频播放怎么开加速

爱奇艺如何设置最小化显示在托盘

爱奇艺视频自动批量上传软件收录好吗

爱奇艺、美团、腾讯、转转专家齐聚，聊聊精准化、智能化测试

小白勿进！2021最新爱奇艺Java社招面试题目，全网独家首发！

爱奇艺私有云Serverless实践

爱奇艺QSV视频格式转换工具V3.2

爱奇艺联合IJCAI举办算法大赛 2020iCartoonFace正式启动

利用爱奇艺开放平台实现视频托管回调播放（一）——获取授权

爱奇艺Android客户端软件开发实战(全套)

outlook qr码在哪里_爱奇艺极速版邀请码是多少在哪里填写 邀请码怎么输入方法...

爱奇艺推出国际娱乐服务 携手Astro进行马来西亚地区本土化运营

发表评论

推荐文章

解决windows10启动报错Win32Bridge.Server.exe函数不正确

解决visual studio 各个版本运行慢问题，亲测有效

在酒店怎么让你电脑的网速比别人快？

详解Win10+Ubantu18.04双系统安装教程

单独编译和使用webrtc音频回声消除模块(附完整源码+测试音频文件)

热门文章

软件工程实践——软件评测作业

华硕顽石电脑共享名和计算机名称,华硕顽石五代FL8000UF：如同它的名字，像顽石一般实用...

用autoruns揪出流氓软件的驱动保护

清除流氓软件的第一利器(IceSword)

解决每次打开pycharm都特别慢的几个方法

数据分析实战项目1：应用商店Appstore数据分析

讯连科技

ipad怎么投屏到电视机？“屏幕镜像”功能用的很溜

爱奇艺qsv视频怎样转换成MP4

Adobe Flash Player Andriod版本下载安装

最新文章

IDEA：如何彻底删除工程文件（转载）

防止Win10安全中心(Microsoft Defender)总是删除或隔离文件

服务器上pdf文档无法删除,怎么对PDF文件进行编辑，PDF怎么删除空白页

为什么电脑自动会删除文件？win10自动删除的文件怎么恢复

文件和目录的创建、删除、移动、复制及文件时间与权限操作

Git-删除暂存区文件

qt 删除ui文件后出现‘xx.ui’ does not exist问题解决办法

unbutu服务器误删文件,Ubuntu误删系统文件修复办法

rm命令——删除文件或目录

python 删除csv文件的某几列，并写入新的csv文件

Mac下的.DS_Store文件删除，关掉这个功能

win10下文件名称过长，删除不掉怎么办

Makefile之删除目录中全部执行文件

定时删除指定目录的过期文件（linux）

sendencpac文件能删吗_手机中的这些英文文件夹，真的都可以删吗？还不知道的快了解一下...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

outlook qr码在哪里_爱奇艺极速版邀请码是多少在哪里填写邀请码怎么输入方法...

爱奇艺推出国际娱乐服务携手Astro进行马来西亚地区本土化运营

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载