《深度学习推荐系统》学习笔记(3)——深度学习推荐模型

编程知识 更新时间:2023-05-02 21:48:43
  • 参考:
    《深度学习推荐系统》王喆

深度学习推荐模型

文章目录

  • 深度学习推荐模型
    • 深度学习RS进展
    • 演化关系
    • AutoRec (2015,澳大利亚国立大学)
    • Deep Crossing (2016, Microsoft)
    • DSSM 双塔模型 (2013, Microsoft)
    • NeuralCF (2017,新加坡国立大学)
    • PNN (2016,SJTU)
    • Wide&Deep (2016, Google)
    • Deep&Cross / DCN (2017,Stanford + Google)
    • FNN (2016, 伦敦大学学院)
    • DeepFM (2017,哈工大 + 华为)
    • NFM (2017, 新加坡国立大学)
    • 小结
    • AFM (2017,浙江大学)
    • DIN (2018,阿里巴巴)
    • DIEN (2019,阿里巴巴)
    • DRN (2018,宾夕法尼亚州立大学 + 微软亚洲研究院)
    • 其他参考文献

深度学习RS进展

  1. DL模型表达能力更强,能够从数据中挖掘出更多的潜藏信息;
  2. DL模型能力灵活,能够根据业务场景和数据特点,灵活调整模型结构,使模型和应用场景完美契合;

演化关系

基础/核心:多层感知机(MLP)

  1. 改变神经网络复杂程度
    • AutoRec -> Deep Crossing
  2. 改变特征交叉方式
    • NeuralCF
    • PNN
  3. 组合模型
    • Wide&Deep
    • Deep&Cross
    • DeepFM
  4. FM的深度学习演化
    • NFM:使用NN提升FM二阶部分的特征交叉能力
    • FNN:利用FM结果进行网格初始化
    • AFM:注意力机制
  5. 注意力机制
    • AFM
    • DIN
  6. 序列模型
    • DIEN
  7. 强化学习
    • DRN

AutoRec (2015,澳大利亚国立大学)

  • 原理:基于自编码器,对用户或者物品进行编码,利用自编码器的泛化能力进行推荐
    • 对比Word2Vec
  • 特点:单隐层神经网络结构简单,可实现快速训练和部署
  • 局限:表达能力较差
  • U-AutoRec vs I-AutoRec

[3-1] SUVASH SEDHAIN, et al. Autorec: Autoencoders meet collaborative filtering[C]. Proceedings of the 24th International Conference on World Wide Web, 2015.
http://users.rsise.anu.edu.au/~akmenon/papers/autorec/autorec-paper.pdf

Deep Crossing (2016, Microsoft)

  • 原理:利用“Embedding层 + 多隐层 + 输出层”的经典深度学习框架,完成特征的自动深度交叉
  • 特点:经典的深度学习推荐模型框架
  • 局限:利用全连接隐层进行特征交叉,针对性不强
  • 结构:Embedding + Stacking + ResNet + Scoring(Softmax)

[3-2] YING SHAN, et al. Deep crossing: Web-scale modeling without manually crafted combinatorial features[C]. Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining, 2016.
http://www.kdd/kdd2016/papers/files/adf0975-shanA.pdf

DSSM 双塔模型 (2013, Microsoft)

  • 原理:用户塔 & 物品塔,广义的Item2Vec
  • 结构:Embedding + LR

[DSSM] Huang, Po Sen , et al. “Learning deep structured semantic models for web search using clickthrough data.” Proceedings of the 22nd ACM international conference on Conference on information & knowledge management ACM, 2013.
http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=0FAFB1358D0728F9160C2A8A06B1F81A?doi=10.1.1.399.5984&rep=rep1&type=pdf

NeuralCF (2017,新加坡国立大学)

  • 原理:将传统的矩阵分解中用户向量和物品向量的点积操作,换成由神经网络代替的互操作
    • 内积 -> MLP,广义矩阵分解模型GMF(Generalized Matrix Factorization)
      • 用户向量和物品向量充分交叉,得到更多有价值的特征组合信息;
      • 引入更多的非线性特征,模型表达能力变强
    • 广义的互操作
      • 混合NeuralCF:原始NeuralCF模型(MLP) + 以元素积为互操作的广义矩阵分解模型(GMF)
  • 特点:表达能力加强版的矩阵分解模型
  • 局限:
    • 只使用了用户和物品的id特征,没有加入更多其他特征
    • 对模型中互操作的种类,没有进一步探究和说明

[3-4] [NeuralCF] HE XIANGNAN, et al. Neural collaborative filtering. Proceedings of the 26h international conference on world wide web[C].International World Wide Web Conferences Steering Committee, 2017.
https://arxiv/pdf/1708.05031.pdf

  • (原始)NeuralCF模型

  • 混合NeuralCF模型

PNN (2016,SJTU)

  • 原理:针对不同特征域之间的交叉操作,定义“内积”、“外积”等多种积操作
    • PNN用Product Layer层代替了Deep Crossing的Stacking层,不同特征的Embedding向量不再简单拼接,而是用Prodect操作两两交互
    • 特征交叉部分:
      • 内积操作IPNN -> 标量,复杂度 M M M
      • 外积操作OPNN -> 方阵,复杂度 M 2 M^2 M2
        • 降维方法:先叠加(Superposition) ≈ 平均池化(Avarage Pooling),再外积互操作。需要谨慎对待。
  • 特点:在经典深度学习框架上,特征交叉能力提高
    • 交叉方式多样化
    • 更有针对性地强调了不同特征之间的交互,模型更容易捕获特征交叉信息
  • 局限:“外积”操作进行了近似化,一定程度上影响了其表达能力
    • 所有特征无差别交叉,一定程度上忽略了原始特征向量中包含的有价值信息。
    • 后续Wide&Deep模型和基于FM的各类DL模型,提出相应解决方案;

[3-5] [PNN] QU YANRU, et al.Product-based neural networks for user response prediction[C]2016 IEEE 16th International Conference on Data Mining (ICDM), 2016.
https://arxiv/pdf/1611.00144.pdf

Wide&Deep (2016, Google)

  • 原理:利用 Wide 部分加强模型的 “记忆能力”,利用Deep部分加强模型的 “泛化能力”
    • “记忆能力”:模型直接学习并利用历史数据中物品或特征的 **“共现频率”**的能力;
      • e.g. CF、LR等简单模型
    • “泛化能力”:模型传递特征的相关性,发掘稀疏、甚至从未出现过的 稀有特征 和 最终标签 相关性的能力;
      • e.g. 矩阵分解MF相比于CF泛化能力强。MF引入隐向量结果,将全局数据传递到稀疏物品上,从而提高泛化能力
  • 特点:开创了组合模型的构造方法,对深度学习推荐模型的后续发展产生重大影响
  • 局限:Wide 部分需要人工进行特征组合的筛选
    • 对业务场景的深刻理解,哪些特征输入Deep,哪些输入Wide

[3-6] CHENG HENG-TZE, et al. Wide & deep learning for recommender systems[C]. Proceedings of the 1st workshop on deep learning for recommender systems., 2016.
https://arxiv/pdf/1606.07792.pdf

Deep&Cross / DCN (2017,Stanford + Google)

  • 原理:用Cross网络替代Wide&Deep 模型中的Wide部分
    • 开启了不同网络结构融合的新思路
    • 使用 多层交叉层(Corss Layer) 对输入向量进行特征交叉,增加特征之间的交互力度
  • 特点:解决了 Wide&Deep 模型人工组合特征的问题
    • Cross Layer 在Wide&Deep模型中Wide部分的基础上,进行特征的自动化交叉,避免了基于业务理解的人工特征组合
    • Cross Layer 在参数方面比较“克制”
  • 局限:Cross 网络的复杂度较高
  • 成功的关键:
    • 抓住业务本质,优势融合:传统模型记忆能力 + DL模型泛化能力;
    • 模型结构不复杂,容易工程实现、训练、上线,加速了业界推广应用。

[3-7] WANG RUOXI, et al. Deep & cross network for ad click predictions[C]. Proceedings of the ADKDD’17, 2017.
http://arxiv/pdf/1708.05123.pdf

FNN (2016, 伦敦大学学院)

  • 原理:利用FM的参数来初始化深度神经网络的Embedding层参数
  • 特点:利用FM初始化参数,加快整个网络的收敛速度
    • 收敛速度往往受限于Embedding层
    • 特征被分成了不同特征域,每个特征域具有对应的Embedding层,每个特征域Embedding的维度都与FM隐向量维度保持一致。
    • 为另一种Emnedding层的处理方式————Embedding预训练提供了思路
  • 局限:模型的主结构比较简单,没有针对性的特征交叉层

[3-8] [FNN] ZHANG WEINAN, DU TIANMING, WANG JUN. Deep learning over multi-field categorical data. European conference on information retrieval. Springer, 2016.
https://arxiv/pdf/1601.02376.pdf

  • FNN

  • SNN
    • (a) sampling-based Neural Networks (SNN)
    • (b) sampling-based RBM, denoted as SNN-RBM
    • © sampling-based DAE, denoted as SNN-DAE

DeepFM (2017,哈工大 + 华为)

  • 原理:在Wide&Deep模型的基础上,用 FM替代原来的线性Wide部分
    • FM和Deep部分共享相同的Embedding层
  • 特点:加强了 Wide 部分的特征交叉能力
    • 改进了Wide&Deep模型中,Wide部分不具备自动特征组合能力的缺陷
    • 改进动机与Deep&Cross模型完全一致,区别:Deep&Cross利用多层Cross网络,DeepFM用的FM;
  • 局限:与经典的 Wide&Deep模型相比,结构差别不明显

[3-9] GUO HUIFENG, et al. DeepFM: a factorization-machine based neural network for CTR prediction[A/OL]: arXiv preprint arXiv:1703.04247 (2017).
http://arxiv/pdf/1703.04247.pdf

  • Wide & Deep

  • FM

  • DNN

  • FNN vs PNN vs Wide&Deep

NFM (2017, 新加坡国立大学)

  • 原理:用神经网络代替FM中二阶隐向量交叉的操作
    • 由于组合爆炸问题,FM几乎不能扩展到三阶以上
    • 用一个表达能力更强的函数 f ( x ) f(x) f(x),替代原FM中二阶隐向量内积的部分;
  • 特点:相比FM, NFM的表达能力和特征交叉能力更强
    • 可视作Wide&Deep模型的进化,对Deep部分加入特征交叉池化层(Bi-Interaction Pooling Layer),加强了特征交叉
  • 局限:与PNN模型的结构非常相似

[3-10] [NFM] HE XIANGNAN, CHUA TAT-SENG.Neural factorization machines for sparse predictive analytics[C]. Proceedings of the 40th International ACM SIGIR conference on Research and Development in Information Retrieval, 2017
http://staff.ustc.edu/~hexn/papers/sigir17-nfm.pdf

  • NFM (一阶LR部分未展示)

小结

  • 三个结合FM思路的深度学习模型:

    • FNN, DeepFM, NFM
    • 经典MLP基础上,加入有针对性的特征交叉,加强非线性表达能力(优点)
  • 特征工程自动化的思路

    • PNN -> Wide&Deep -> Deep&Cross -> FNN -> DeepFM -> NFM
    • 大量的、基于不同特征互操作思路的尝试,从特征工程的思路上提升模型的空间已经非常小(局限性)
  • 之后,陆续开始探索 “结构” 上的尝试

    • 注意力机制 (AFM, DIN)
    • 序列模型 (DIN)
    • 强化学习 (DRN)

AFM (2017,浙江大学)

  • 原理:在FM的基础上,在二阶隐向量交叉的基础上对每个交叉结果加入了注意力得分,并使用注意力网络学习注意力得分
    • 可视作NFM的延续:
      • NFM:加和池化(Sum Pooling) 相当于对待所有交叉特征“一视同仁”;
      • AFM:注意力网络(Attention Net) 为每一个交叉特征提供权重/注意力得分(“区别对待”)
  • 特点:不同交叉特征的重要性不同
    • 从改进模型结构的角度出发,进行的一次有益尝试,与具体的应用场景无关
  • 局限:注意力网络的训练过程比较复杂

[3-11] [AFM] XIAO JUN, et al. Attentional factorization machines: Learning the weight of feature interactions via attention networks[A/OL]: arXiv preprint arXiv: 1708.04617(2017).
https://arxiv/pdf/1708.04617.pdf
https://github/liulin7576/DL_CTR【转】

DIN (2018,阿里巴巴)

  • 原理:在传统深度学习推荐模型的基础上引入注意力机制,并利用用户行为历史物品和目标广告物品的相关性计算注意力得分
    • 业务气息
    • Base模型:序列中的商品,既没有区分重要程度,也和广告特征中的商品id没有关系;
    • 事实上,广告特征和用户特征的关联程度是非常强的。建模时,投给不同特征的“注意力”理应不同,而且“注意力得分”的计算应与广告特征有相关性;
    • 注意力激活单元(activation unit),生成注意力得分
    • 注意力的轻重,更应该由 同类信息的相关性 决定;
  • 特点:根据目标广告物品的不同,进行更有针对性的推荐
  • 局限:并没有充分利用除“历史行为”以外的其他特征

[3-12] [DIN] ZHOU GUORUI, et al. Deep interest network for click-through rate prediction[C]. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2018.
https://arxiv/pdf/1706.06978.pdf
http://www.researchgate/publication/317732664_Deep_Interest_Network_for_Click-Through_Rate_Prediction

  • DIN

  • Embedding

  • Attention

DIEN (2019,阿里巴巴)

  • 原理:将序列模型与深度学习推荐模型结合,使用序列模型模拟用户的兴趣进化过程
  • 特点:序列模型增强了系统对用户兴趣变迁的表达能力,使推荐系统开始考虑 时间相关的行为序列 中包含的有价值信息
    • 序列信息的重要性:
      • 加强了 最近行为下次行为 预测的影响;
      • 序列模型能够学习到 购买趋势 的信息(转移概率);
  • 局限:序列模型的训练复杂,线上服务的延迟较长,需要进行工程上的优化

[3-13] [DIEN] ZHOU GUORUI, et al. Deep interest evolution network for click-through rate prediction[J].Proceedings of the AAAI Conference on Artificial Intelligence.Vol. 33.2019.
https://arxiv/pdf/1809.03672.pdf
https://github/mouna99/dien【转】

  • DIEM 架构
    • 行为序列层(Behavior Layer,绿):原始id类行为序列 -> Embedding行为序列
    • 兴趣抽取层(Interest Extractor Layer,黄):模拟兴趣迁移,抽取用户兴趣
      • GRU:
        • 相比RNN:解决了梯度消失的问题;
        • 相比LSTM:参数量更少。
    • 兴趣进化层(Interest Evolving Layer,红):注意力机制,模拟兴趣进化/转移
      • 注意力得分生成过程与DIN完全一致;
      • AUGRU (GRU with Attentional Update gate)

DRN (2018,宾夕法尼亚州立大学 + 微软亚洲研究院)

  • 原理:将强化学习的思路应用于推荐系统,进行推荐模型的线上实时学习和更新
  • 特点:模型对数据实时性的利用能力大大加强
  • 局限:线上部分较复杂,工程实现难度较大
  • 启发:变静态为动态,模型学习的实时性提高;
  • 权衡:
    • 重量级、完美的、训练延迟大的模型 vs
    • 轻量级、准确率受损的、但能够实时训练的模型

[3-14] [DRN] ZHENG GUANJIE, et al. DRN: A deep reinforcement learning framework for news Recommender[C]. Proceedings of the 2018 World Wide Web Conference. International World Wide Web Conferences Steering Committee, 2018.
http://www.personal.psu.edu/~gjz5038/paper/www2018_reinforceRec/www2018_reinforceRec.pdf

  • 深度强化学习RS系统框架

  • DRN学习过程

  • Q网络

  • 在线学习方法 / 模型探索更新(双臂老虎机梯度下降)

其他参考文献

[3-3] [ResNet-152] HE KAIMING, et al. Deep residual learning for image recognition[C].Proceedings of the IEEE conference on computer vision and pattern recognition.2016.
https://arxiv/pdf/1512.03385.pdf

  • 残差单元

  • ImageNet

更多推荐

《深度学习推荐系统》学习笔记(3)——深度学习推荐模型

本文发布于:2023-04-28 22:13:00,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/f5ef564455328948f02c9f5da7f4ecff.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:深度   学习笔记   模型   系统

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!

  • 109535文章数
  • 27817阅读数
  • 0评论数