admin管理员组

文章数量:1566220

前言

代码地址:github
注意torch的代码都是别人复现的,可能和原文有diff,还是建议github看tf的源码和原paper。
论文:AAAI

系列文章

推荐系统——Neural Collaborative Filtering(NMF)
推荐系统——Deep Interest Network for Click-Through Rate Prediction(DIN)
推荐系统——Deep Interest Evolution Network for Click-Through Rate Prediction(DIEN)
推荐系统——Deep Session Interest Network for Click-Through Rate Prediction(DSIN)
推荐系统——Multi-Interest Network with Dynamic Routing for Recommendation at Tmall(MIND)
推荐系统——Behavior Sequence Transformer for E-commerce Recommendation in Alibaba(BST)
持续更新中…

动机

作者认为用户以往的行为很难直接的表达出用户的兴趣,因此作者选择用GRU对用户潜在的兴趣进行建模。

网络结构

完整结构如下:

整体上和DIN结构相似,图中的attention部分也是沿用的DIN的attention,可以说就是增加了用GRU对序列的行为进行建模。

上图部分,将用户序列行为b(1)编码成embedding后得到e(1),送到GRU中,输出得到h(1),隐藏状态传给下一个GRU,以此类推。

上图部分,作者希望用隐藏层来挖掘用户的潜在行为,因此给GRU的输出加上了辅助的损失来监督,我是这么理解的,h(t)是用户在t时刻的行为,h(t+1)是用户在t+1时刻的行为,所以我们也可以参考t时刻的行为预测用户t+1时刻的行为,所以作者设计了这个辅助的loss,正样本就是t+1时刻的行为,负样本是在t+1时刻随机采样的一个负样本。

上图部分的AUGRU其实就可以简单的理解为,用target AD和h(t)参考DIN里面的attention计算得到attention score(这里不懂可以看:DIN)之后对h(t)加权了。
具体计算如下:

效果


在作者的工业数据上看起来比DIN涨了一个点。

本文标签: 系统InterestEvolutionNetworkDeep