【推荐系统】AutoFIS: Automatic Feature Interaction Selection in FM for CTR Prediciton|电子爱好者

admin管理员组
文章数量:1589749

AutoFIS: Automatic Feature Interaction Selection in Factorization Models for Click-Through Rate Prediction

论文地址：https://arxiv/abs/2003.11235
代码地址：https://github/zhuchenxv/AutoFIS

Abstract

在推荐系统中学习有效的特征交互对于CTR预估任务是十分重要的。
本文提出了一种两阶段的算法：Automatic Feature Interaction Selection (AutoFIS).，能够自动识别(identify) 在因子分解模型（Factorization Models）中重要的特征交互(feature interactions)，而计算成本仅仅相当于将模型训练至收敛的计算成本：
- search stage: 引入结构上的参数（architecture parameters），并且使用正则化的优化器( regularized optimizer) 去学习这些参数，在这个阶段，architecture parameters的作用在于去除无效的feature interactions
- retrain stage: 根据search stage的结果，去除冗余的feature interactions，保留architecture parameters重新训练模型，这个时候，这些architecture parameters的作用相当于注意力单元(attention units)

Methodology

1. Factorization Model

Factorization models是这样一类模型：通过将不同特征的embedding利用诸如内积、神经网络等操作映射到一个实数上的过程对于特征的交互进行建模。

本文基于FM, DeepFM 和 IPNN 对 AutoFIS 进行探索。

模型主要有以下几个部分组成：

Embedding Layer
Feature Interaction Layer: 通过embedding内积的方式表示特征交互
- 二阶特征交互
- 三阶特征交互
MLP Layer:
Output Layer:
- FM
- Deep FM
- IPNN
Objective Function

2. AutoFIS

AutoFIS旨在自动识别出有效的feature interaction, 避免无效的feature interaction引入噪声。

分为两个阶段： search stage（去检测有效的feature interactions）和 retrain-stage（去除冗余的feature interactions重新训练模型）

2.1 search stage

Architecture parameters

为每个feature interaction引入一个gate来控制是否选择这个feature interaction:
- gate打开表示选择这个interaction进入模型训练，关闭则在训练时丢掉这个interaction
- 对于2阶的feature interaction，会有 C m 2 C_m^2 Cm2个gate，那么就需要在 2 C m 2 2^{C_m^2} 2Cm2的空间内去进行gate的最优解搜索，这是十分困难的
- 文章并没有在一个离散的空间内去解决这个问题，而是引入了 architecture parameters α \alpha α，通过梯度下降来学习每个feature interaction的相对重要性
  (instead of searching over a discrete set of open gates, we relax the choices to be continuous by introducing architecture parameters α \alpha α, so that the relative importance of each feature interaction can be learned by gradient descent.)
- 具体地，Factorization Models 中的 interaction layer 如下：
  
  其中， α = { α ( 1 , 2 ) , ⋯ , α ( m − 1 , m ) } \alpha=\{ \alpha_{(1,2)},\cdots, \alpha_{(m-1,m)} \} α={α(1,2),⋯,α(m−1,m)}是 architecture parameters。在 search stage, α \alpha α 表示每个feature interaction对于最后预测贡献的相对大小。

Batch Normalization

从整个神经网络的角度看，某个feature interaction的贡献由 α ( i , j ) < e i , e j ) > \alpha_{(i,j)}<e_i, e_j)> α(i,j)<ei,ej)> 整体的值来衡量。而将 α ( i , j ) \alpha_{(i,j)} α(i,j)和 < e i , e j ) > <e_i, e_j)> <ei,ej)> 同时 scale： ( α ( i , j ) η ) ⋅ ( η ⋅ < e i , e j ) > ) (\frac{\alpha_{(i,j)}}{\eta})\cdot(\eta \cdot <e_i, e_j)>) (ηα(i,j))⋅(η⋅<ei,ej)>)，feature interaction<i,j>的贡献值是不变的。
α ( i , j ) \alpha_{(i,j)} α(i,j)和 < e i , e j ) > <e_i, e_j)> <ei,ej)> 是共同学习的（都是可训练的），这就会导致 α ( i , j ) \alpha_{(i,j)} α(i,j)的预估值是不稳定的，也就是说， α ( i , j ) \alpha_{(i,j)} α(i,j)并不能表示 < e i , e j ) > <e_i, e_j)> <ei,ej)>的相对贡献大小。
为了去除 < e i , e j ) > <e_i, e_j)> <ei,ej)> 的缩放影响，对 < e i , e j ) > <e_i, e_j)> <ei,ej)>应用Batch Normalization:
在AutoFIS中，将 BN 中的 scale 和 shift 固定为1和0：

GRDA Optimizer
Generalized regularized dual averaging (GRDA) optimizer 会学习一个稀疏的神经网络(a sparse deep neural network)，在 step t t t，针对数据 Z t Z_t Zt, α \alpha α 的更新如下：
其中， g ( t , γ ) = c γ 1 / 2 ( t γ ) μ g(t,\gamma)=c{\gamma}^{1/2}(t\gamma)^\mu g(t,γ)=cγ1/2(tγ)μ， γ \gamma γ是 learning rate， c c c和 μ \mu μ是在accuracy 和 sparsity之间进行权衡的超参数
grda 的 github代码： https://github/donlan2710/gRDA-Optimizer
超参数调整建议：
- μ : 0.5 < μ < 1 \mu: 0.5<\mu <1 μ:0.5<μ<1. μ \mu μ越大，参数越稀疏。为了获得和原始网络相当的accuracy, 对于大型的任务，比如 ImageNet, μ \mu μ 可以设置的接近于0.5，比如0.501；而对于较小的任务，比如CIFAR-10， μ \mu μ可以大一点，比如0.6；
- c : 0 < c < 0.005 c: 0<c<0.005 c:0<c<0.005。 c c c越大，模型越稀疏。但是 c c c的影响小于 μ \mu μ，并且在模型训练早一些的step， c c c的影响较大，在训练后期，影响较小。
AutoFIS里的c和mu设置：

One Level Optimization
在DARTS中， α \alpha α被视作 higher-level的决策变量，而模型的其他参数 v v v 被视作是 lower-level的变量，假设模型只有在权重被正确学习之后，才能select operation，而 α \alpha α和 v v v是迭代学习的。
在本文中 α \alpha α 和 v v v被视作为同一层级的参数，模型同时学习这两套参数

代码
feature interaction layer的实现：

		#self.xv就是 <ei,ej> [batch_size, feature_num, emb_size]
        # 生成所有的二阶特征组合
        self.cols, self.rows = generate_pairs(range(self.xv.shape[1]),mask=comb_mask)
        t_embedding_matrix = tf.transpose(self.xv, perm=[1, 0, 2]) # [feature_num, batch_size, emb_size]
        left = tf.transpose(tf.gather(t_embedding_matrix, self.rows), perm=[1, 0, 2]) # [batch_size, C(feature_num,2), emb_size]
        right = tf.transpose(tf.gather(t_embedding_matrix, self.cols), perm=[1, 0, 2]) # [batch_size, C(feature_num,2), emb_size]
        level_2_matrix = tf.reduce_sum(tf.multiply(left, right), axis=-1) # [batch_size, C(feature_num,2)]	
        # edge_weights 就是 architecture parameters: alpha [C(feature_num,2)]
        with tf.variable_scope("edge_weight", reuse=tf.AUTO_REUSE):
            self.edge_weights = tf.get_variable('weights', shape=[len(self.cols)],
                                                initializer=tf.random_uniform_initializer(
                                                minval=weight_base - 0.001,
                                                maxval=weight_base + 0.001))
            normed_wts = tf.identity(self.edge_weights, name="normed_wts")
            tf.add_to_collection("structure", self.edge_weights)
            tf.add_to_collection("edge_weights", self.edge_weights)
            mask = tf.identity(normed_wts, name="unpruned_mask")
            mask = tf.expand_dims(mask, axis=0) #[1, C(feature_num,2)]
        level_2_matrix = tf.layers.batch_normalization(level_2_matrix, axis=-1, training=self.training,
                                                    reuse=tf.AUTO_REUSE, scale=False, center=False, name='prune_BN')
        level_2_matrix *= mask

参数的更新使用不同的optimizer:

weight_var = list(set(tf.get_collection("edge_weights")))
all_variable = [v for v in tf.trainable_variables()]
other_var = [i for i in all_variable if i not in weight_var]
self.optimizer1 = optimizer1.minimize(loss=_loss_, var_list=other_var) # adam
 self.optimizer2 = optimizer2.minimize(loss=_loss_, var_list=weight_var) # grda

2.2 retrain-stage

search stage之后，一些不重要的 feature interaction就被自动丢弃了。我们中 G i , j \mathcal{G}_{i,j} Gi,j 来表示 feature interaction < e i , e j > <e_i, e_j> <ei,ej> 的开关状态： α i , j ∗ = 0 \alpha^*_{i,j}=0 αi,j∗=0时， G i , j = 0 ; α i , j ∗ > 0 , G i , j = 1 \mathcal{G}_{i,j}=0; \alpha^*_{i,j}>0, \mathcal{G}_{i,j}=1 Gi,j=0;αi,j∗>0,Gi,j=1。

丢掉冗余的feature interaction，重新训练模型。在这个时候， α i , j \alpha_{i,j} αi,j 不再用来作为决定 feature interaction < e i , e j > <e_i, e_j> <ei,ej> 是否应该保留在模型中的indicator，而是作为一个注意力单元来学习被留下来的feature interaction的相对重要性，feature interaction layer如下：

注意，此时包括 α \alpha α在内的所有参数都是用同一个 Adam 优化器学习的:

all_variable = [v for v in tf.trainable_variables()]
self.optimizer1 = optimizer1.minimize(loss=_loss_, var_list=all_variable)

问题：

grad的超参不是很好调，而且筛选出来的特征不稳定（用不同天的训练集）

本文标签：系统 Automatic feature Interaction AutoFIS

版权声明：本文标题：【推荐系统】AutoFIS: Automatic Feature Interaction Selection in FM for CTR Prediciton 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728075778a1144453.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【推荐系统】AutoFIS: Automatic Feature Interaction Selection in FM for CTR Prediciton

AutoFIS: Automatic Feature Interaction Selection in Factorization Models for Click-Through Rate Prediction

Abstract

Methodology

1. Factorization Model

2. AutoFIS

2.1 search stage

2.2 retrain-stage

问题：

更多相关文章

Unity XR Interaction Toolkit中Action与Device的差异探究

[HOI Transfomer] End-to-End Human Object Interaction Detection with HOI Transformer(CVPR. 2021)

【OpenLayers】Select Interaction 手动添加选择的要素

Channel Interaction Networks for Fine-Grained Image Categorization《阅读笔记》

Predicting Drug−Target Interaction Using a Novel Graph Neural Network with 3D Structure-Embedded

Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation

XR Interaction Toolkit教程⭐四、实现与UI交互

WEBGIS使用OpenLayers3中Interaction绘制长方形和正方形

Openlayers ol.interaction.Select传值问题

IFM论文笔记：Interaction-aware Factorization Machines for Recommender Systems

基于XR Interaction ToolKit开发的VR双平台兼容项目(二)

16.Modularized Interaction Network for Named Entity Recognition 阅读笔记

IANet：Interaction-and-Aggregation Network for Person Re-identification阅读笔记

shap-Basic SHAP Interaction Value Example in XGBoost

WPF MVVM UserControl 的 i:Interaction.Triggers 应用

QCustomPlot之Interaction简单解析

MPAndroidChart 教程：与图表的交互 Interaction with the Chart

Cation–pi interaction in protein structures（1）

p for trend p for interaction per 1 sd 的R语言实现

MacBook苹果电脑重装、降级系统

发表评论

推荐文章

WinXP下安装未签名的驱动程序

python之路---线程

Ubuntu LinuxMint安装微信QQ阿里旺旺

WIN10忘记密码未设置密码 无法登陆

论文解读：SumGNN: Multi-typed Drug Interaction Prediction via Efficient Knowledge Graph Summarization（Bi）

热门文章

MobaXterm全解析：从下载到专业版激活的终极指南

Android逆向之脱掉“360加固”的壳

计算机 管理 mmc 注册表,win10注册表编辑器没有mmc怎么办_win10恢复注册表mmc文件夹的方法-win7之家...

Linux 学习笔记

主流分布式架构的风流韵事...

最新的 IDEA 2024 激活 Activation Code 码

MathType7.6官方最新破解版许可证激活码

navicat for mysql注册码，各种版本都有

计算机win10无法打开小键盘,win10数字小键盘开机不启动解决方法 | 专业网吧维护...

云服务器哪个最好？这家口碑杠杠的！

最新文章

linux Ubuntu Python 3.10 环境报错与解决方案集合

安全装备检测系统源码分享

奶糖检测检测系统源码分享 # [一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

BOMB开发文档

电脑可以开机怎么重装win7(电脑可以开机重装win7方法)

[踩坑记] CUDA环境下bitsandbytes安装报错异常解决

服装尺码标签检测系统源码分享

医生手写药品名称检测系统源码分享 # [一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

6.26科技新闻

国产免费虚拟化OVM与 OpenStack对比

Despite finishing additional abode in

用mvn exec:java执行Java程序出现告警日志was interrupted but is still alive after waiting at least 15000msecs

饮料品牌识别检测系统源码分享 # [一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

骑行安全检测系统源码分享 # [一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

“小身材，大味道”小蚁4K+运动相机深度测评

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

WIN10忘记密码未设置密码无法登陆

计算机管理 mmc 注册表,win10注册表编辑器没有mmc怎么办_win10恢复注册表mmc文件夹的方法-win7之家...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载