可解释性机器学习|电子爱好者

admin管理员组
文章数量:1609899

可解释性机器学习

背景

写这篇文章的背景就是可解释性机器学习在中文领域资料非常少，有一些零散的资料也不成系统，笔者根据这两个月的整理现阶段的一些可解释性的资料，可常用的代码和库，希望为大家尽一份力。文章分成，原理讲解，论文解析，代码整理，衡量特征重要性的度量四个部分。

Model-Agnostic Methods

找到所有模型都通用的检验方法，也成为post hoc interpretation。

模型解释分为两类，一类是全局的解释性（global），衡量特征在模型中起的整体作用，另一类是局部的解释性(local)，目的是对一个特定的预测条目，衡量该条样本预测分高的原因。

两类解释具有较大区别，以线性模型的解释为例，对于进行了归一化处理后的特征而言，最终的模型权重绝对值即为全局的特征重要性，因为权值越大该特征对最终分值影响越大，而对于一个取得高分的具体预测实例而言，可能在全局最重要的特征上，其分值较小，在该条样本的得分计算上并无多大贡献，因此对于线性模型单条样本的局部解释性，会使用权值乘以特征值来作为该维特征的贡献度，从而得到各个特征间的重要性排序。

Local的解释性可以通过两种方式来实现：

通过在一个instance的领域取点，通过简单的可解释性模型来学习complex模型的这个特定instance周边的关系。
用Surrogate方式。

PDP, Feature Importance, 是Global的解释方法。ICE, LIME, ALE, Anchors是local的解释方法。 Shap是既可以local又可以global。

PD & ICE

Partial Dependence和ICE通常放置在一起用，原理是对给定instance，固定除选择的特征外的其它特征值，然后对选择的特征列进行分箱迭代，每次迭代将选择的特征列全部赋予同一个值，从小到大，如果是PDP，则平均所有样本的预测值。
能展示预测值和特征之间的关系是线性的，单调性的，还是更复杂的。

For a selected predictor (x)
1. Determine grid space of j evenly spaced values across distribution of x
2: for value i in {1,...,j} of grid space do
     | set x to i for all observations
     | apply given ML model
     | estimate predicted value
     | if PDP: average predicted values across all observations
   end

def par_dep(xs, frame, model, resolution=20, bins=None):
	'''
		xs: 列名
		frame: Dataframe
		model: xgboost, lightgbm
		resolution: 分箱的精度
	'''
    pd.options.mode.chained_assignment = None
    par_dep_frame = pd.DataFrame(columns=[xs, 'partial_dependence'])    
    # 保留特定列
    col_cache = frame.loc[:, xs].copy(deep=True)  
    # 确定PD图x轴需要计算值
    if bins == None:
        min_ = frame[xs].min()
        max_ = frame[xs].max()
        by = (max_ - min_)/resolution
        bins = np.arange(min_, max_, by)  
    # 设置列为一个常数j，j按bins取值。i为总体预测的y值，j为i的均值。      
    for j in bins:
        frame.loc[:, xs] = j
        dframe = xgb.DMatrix(frame)
        par_dep_i = pd.DataFrame(model.predict(dframe))
        par_dep_j = par_dep_i.mean()[0]
        par_dep_frame = par_dep_frame.append({
   xs:j,
                                              'partial_dependence': par_dep_j}, 
                                              ignore_index=True)
    # 将特定列返回
    frame.loc[:, xs] = col_cache
    return par_dep_frame

ALE

主要解决特征间相互依赖问题。比如预测房子价格，特征-房间数量和特征-房子大小，比如PD会固定住房间大小，增加房间数量来画PD图，但这两个变量明显是有相关性的。ALE希望反映特征效果的相关性。通过找特征的条件分布的均值，我们平均了相似的x1值的instances的预测值。M-Plots避免平均不相似的数据的instances，但是他们混合了一个特征和其它相关特征的效果，其实就是画出两个变量的条件概率的分布。ALE通过计算预测值之间的差值，而不是求平均。比如，对于面积30m的，ALE用所有30m的例子，假装这批房子是31m和29m，用模型预测后做差。这样给了我们纯粹的面积的效果，而没有混合其它相关的特征。简单来说
，PDP和ALE都是计算了一个特征在某个格点值v时的效果。

PDP展示的是，模型的平均预测值，在数据的instance对应想要知道的特征，都赋予选定同一个格点值v，。
ALE是展示模型预测值在small window的变化。也就是用特征在格点值v的附近的small window的变化值。用small window的upper and lower limit of the interval来输入模型中预测后相减得到差值。

For a selected predictor (x)
1. Determine grid space of j evenly spaced values across distribution of x
2: for value i_lower, i_upper in {1,...,j} of grid space do
	   if x in (i_lower, i_upper)
	     | set x to i for all observations
	     | apply given ML model
	     | estimate difference between predicted value i_lower and i_upper
   end

Feature Interaction

通过H-statistic来衡量特征与其它特征的interaction的强度，H-statistic能够衡量根据预测结果中的特征间交互程度的方差。一般的工作流程是，先衡量interaction的强度，然后画出2D-PDP来检验interaction。
例子1: 衡量两个特征之间的Interaction程度。若两个特征之间没有interaction，则
P D j k ( x j , x k ) = P D j ( x j ) + P D k ( x k ) P D_{j k}\left(x_{j}, x_{k}\right)=P D_{j}\left(x_{j}\right)+P D_{k}\left(x_{k}\right) PDjk(xj,xk)=PDj(xj)+PDk(xk)
H j k 2 = ∑ i = 1 n [ P D j k ( x j ( i ) , x k ( i ) ) − P D j ( x j ( i ) ) − P D k ( x k ( i ) ) ] 2 / ∑ i = 1 n P D j k 2 ( x j ( i ) , x k ( i ) ) H_{j k}^{2}=\sum_{i=1}^{n}\left[P D_{j k}\left(x_{j}^{(i)}, x_{k}^{(i)}\right)-P D_{j}\left(x_{j}^{(i)}\right)-P D_{k}\left(x_{k}^{(i)}\right)\right]^{2} / \sum_{i=1}^{n} P D_{j k}^{2}\left(x_{j}^{(i)}, x_{k}^{(i)}\right) Hjk2=i=1∑n[PDjk(xj(i),xk(i))−PDj(xj(i))−PDk(xk(i))]2/i=1∑nPDjk2(xj(i),xk(i))

PD指partial dependence function。

1: for variable i in {1,...,p} do
     | f(x) = estimate predicted values with original model
     | pd(x) = partial dependence of variable i
     | pd(!x) = partial dependence of all features excluding i
     | upper = sum(f(x) - pd(x) - pd(!x))
     | lower = variance(f(x))
     | rho = upper / lower
   end
5. Sort variables by descending rho (interaction strength)

例子2:衡量一个特征与其余特征之间的Interaction程度。

f ^ ( x ) = P D j ( x j ) + P D − j ( x − j ) \hat{f}(x)=P D_{j}\left(x_{j}\right)+P D_{-j}\left(x_{-j}\right) f^(x)=P

本文标签：解释性机器

版权声明：本文标题：可解释性机器学习内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728576427a1164523.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

可解释性机器学习

可解释性机器学习

背景

Model-Agnostic Methods

PD & ICE

ALE

Feature Interaction

更多相关文章

python连接windows远程桌面,如何使用Paramiko、Python在windows机器之间建立远程桌面连接...

AMD(APU，无NV独显)机器使用vmware打开虚拟机卡在登陆界面循环的解决方案记录

高通 Android 1213 关闭wifi网络能否上网检测，解决机器重启不能自动回连wifi问题

【机器学习】模糊认知图（Fuzzy Cognitive Map, FCM）概念介绍

ATLAS——对抗性机器学习威胁矩阵＜简介＞

人工智能AI的春天来临，国内惊现100多元钱的机器视觉组件，即全局曝光的高速工业相机，最高可达210帧每秒。可应用于人脸识别、机器视觉、高速运动目标的图像获取。

机器视觉【基础】什么是机器视觉？

阿里巴巴(菜鸟) - 算法工程师(机器学习)提前批笔试面试总结

【GNN报告】GNN可解释性 &amp; 基于几何与拓扑特性的图学习

python机器视觉车牌识别_机器视觉—字符识别之车牌识别

数独难题_如何玩和赢得数独-使用数学和机器学习解决每个数独难题

十大Python机器学习常用库 python开发，你用过你个

十大Python机器学习常用库 python开发，你用过你个？

机械设计用python_十大Python机器学习常用库 python开发，你用过你个？

你必须知道的，常用的机器学习相关网站！！！

C++包扩展_10 种常用机器学习Python 包(Ref 1)

总结过去2017年最受欢迎的十大机器学习Python库

深度学习可解释性

可解释机器学习- LIME模型讲解｜interpretable machine learning-LIME

机器学习黑盒？SHAP（SHapley Additive exPlanations）使用 XGBoost 的可解释机器学习

发表评论

推荐文章

WiFi共享精灵自身存在的优势

HTML4+CSS2 模仿一个英雄联盟官网页面

office正在更新，一直不动

【异常】SpringBoot报错 Error parsing HTTP request header Invalid character found in method name

InSAR-DInSAR 技术细节（二） 干涉测量的条件（木有免费的午餐，以及晚餐））

热门文章

如何远程SSH连接在家的服务器主机(内网穿透)

xp与ubuntu双系统下使用一键GHOST

VXLAN-原理介绍+报文分析+配置实例-RFC7348RFC8365

win10怎么装c语言,WIN10上安装编写C++ C语言的软件教程

迈向全球经济结算层

further configuration avilable不见了

Spring Boot框架知识总结笔记（超详细，一次性到位）狂神说SpringBoot笔记

Python｜excel表格数据一键转json格式小工具｜支持xlsx、xls格式转json｜【源码+解析】

01-Win10家庭版修改C盘下的用户目录中账户文件夹名称（新版家庭版不能改了，新版家庭版此方法无效）

android 类似按键精灵脚本_脚本编辑器 -- 按键精灵 #Android

最新文章

在 装的Qt commercial 4.6.0 时报错

Toad DBA Suite for Oracle 12.6 64-bit Commercial 简单连接

Intel Non-Commercial Software Download

Toad for Oracle 10.5.1 Commercial

mysqlrouter、mycat+mysql8.0.30实现读写分离

电脑定时自动关机的多种实现方法

Toad for Oracle 10.5 Commercial

编译qt-win-commercial-src-4.3.0全过程。

java指令工具_jvm 指令工具 jcmd 命令（Java多功能命令行）

rpm 安装mysql的顺序_centos7 RPM方式安装MySQL5.7

Windows2000 server + Microsoft Visual Studio 6.0 + Qt-commercial4.22-src编译过程

每日论文推荐：我们距离GPT-4V有多远，最接近GPT-4V的开源多模态大模型

国际贸易术语(incoterms)

smartgit 授权文件 Free Trial License to Non-Commercial

Linux之Python代码打包工具Nuitka使用说明

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

【GNN报告】GNN可解释性 & 基于几何与拓扑特性的图学习

InSAR-DInSAR 技术细节（二）干涉测量的条件（木有免费的午餐，以及晚餐））

在装的Qt commercial 4.6.0 时报错

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载