检测数据分布的变化 TRACKING THE RISK OF A DEPLOYED MODEL AND DETECTING HARMFUL DISTRIBUTION SHIFTS

编程入门 行业动态 更新时间:2024-10-06 14:34:36

检测<a href=https://www.elefans.com/category/jswz/34/1771445.html style=数据分布的变化 TRACKING THE RISK OF A DEPLOYED MODEL AND DETECTING HARMFUL DISTRIBUTION SHIFTS"/>

检测数据分布的变化 TRACKING THE RISK OF A DEPLOYED MODEL AND DETECTING HARMFUL DISTRIBUTION SHIFTS


本文介绍一篇ICLR 2022的论文《TRACKING THE RISK OF A DEPLOYED MODEL AND DETECTING HARMFUL DISTRIBUTION SHIFTS》,题目直译为《追踪已部署模型的风险并检测有害的分布变化》。顾名思义,该研究认为数据流的分布是不断变化的,这些变化可能会导致已经部署的模型不再适应,使得模型准度(or 性能)下降。

此研究与先前工作最大的不同点在于:

  • 该研究将 Data Drift 归类为无害(benign)变化和有害(harmful)变化两类,对于无害变化可以不修改/替换模型;
  • 先前研究一般假设 Data Drift 只发生在 Input Covariate 或 Label 其中一个上,限制了应用场景;
  • 其可以持续的监控 Data Drift,并保证较低的 False Positive Rate;

试了以下New Bing对于这篇论文的总结:

一些定义

Notations解释
X , Y {X}, {Y} X,Y输入与输出;Covariate and Label Spaces
f : X → Y f: {X} \rightarrow {Y} f:X→Y预测模型;Predictor
l ( ⋅ , ⋅ ) l(\cdot,\cdot) l(⋅,⋅)损失函数;Loss Function
R ( f ) : = E [ l ( f ( X ) , Y ) ] R(f):= \mathbb{E}[l(f({X}),{Y})] R(f):=E[l(f(X),Y)]期望损失; corresponding expected loss (a.k.a., risk of f f f)

此文仅仅假设了损失函数是有边界的,没有其他任何附加的假设条件。

方法

此文首先将数据变化预测问题定义成了顺序假设检验,随后提出了顺序估计算法。

顺序假设检验 SEQUENTIAL HYPOTHESIS TEST

如果模型的风险在当前数据上(Target)比在之前数据上(Source)大出一定程度,该程度不可接受,则判定为有害变化,否则为无害变化。

当前/未来数据可能满足
(a). 独立同分布(i.i.d.):分布突然变化,但是仍然i.i.d.;很简单且不实际,这里不讨论
(b). 独立(independence):分布也可以缓慢变化;以下仅讨论 (b) 情况。

假设 Hypotheses 可以形式化地表示为:
H 0 : R T ( t ) ( f ) ≤ R S ( f ) + ϵ tol , ∀ t ≥ 1 H_0: R_T^{(t)}(f) \leq R_S(f) + \epsilon_\text{tol}, \forall t\geq 1 H0​:RT(t)​(f)≤RS​(f)+ϵtol​,∀t≥1 vs. H 1 : ∃ t ∗ : R T ( t ∗ ) ( f ) > R S ( f ) + ϵ tol H_1: \exists t^*: R_T^{(t^*)}(f) > R_S(f) + \epsilon_\text{tol} H1​:∃t∗:RT(t∗)​(f)>RS​(f)+ϵtol​
其中, ϵ tol \epsilon_\text{tol} ϵtol​ 为可接受的忍耐程度; R T ( t ) ( f ) R_T^{(t)}(f) RT(t)​(f) 和 R S ( f ) R_S(f) RS​(f) 分别表示 f f f 在当前数据和之前数据上的风险。

X 1 , X 2 , … X_1, X_2, \dots X1​,X2​,… 表示序列输入数据。
在某时刻 t t t,当前数据的风险是一个 running risk: R T ( t ) ( f ) = 1 t ∑ i = 1 t E [ l ( f ( X i ) , Y i ) ] R_T^{(t)}(f)= \frac{1}{t}\sum_{i=1}^{t} \mathbb{E}[l(f(X_i), Y_i)] RT(t)​(f)=t1​∑i=1t​E[l(f(Xi​),Yi​)]
在每一时刻 t t t,我们对先前所有的输入( X 1 , X 2 , … , X t X_1, X_2, \dots, X_t X1​,X2​,…,Xt​)做顺序检验,输出 0( H 0 H_0 H0​ 成立)或者 1( H 0 H_0 H0​ 被拒绝)。
由此我们会得到很多的 0 和 1:在大数定律的情况下,误报率最多是 δ \delta δ
用人话来说就是:有 1 − δ 1{-}\delta 1−δ 的概率(这个概率很大),对于数据分布的无害变化,此算法不会返回 1。

这个检验被称为 Level- δ \delta δ Sequential Test Φ \Phi Φ
其形式化表示为:
∪ n = 1 ∞ X n → { 0 , 1 } \cup_{n=1}^{\infty} X^n \rightarrow \{0, 1\} ∪n=1∞​Xn→{0,1},必须使得 P H 0 ( ∃ t ≥ 1 : Φ ( X 1 , … , X t ) = 1 ) ≤ δ \mathbb{P}_{H_0}(\exists t\geq 1: \Phi(X_1,\dots,X_t)=1)\leq \delta PH0​​(∃t≥1:Φ(X1​,…,Xt​)=1)≤δ

如果针对分类问题,也可以使用风险的相对变化来表示假设:
H 0 ′ : R T ( t ) ( f ) ≤ ( 1 + ϵ tol ) R S ( f ) , ∀ t ≥ 1 H_0': R_T^{(t)}(f) \leq (1 + \epsilon_\text{tol}) R_S(f), \forall t\geq 1 H0′​:RT(t)​(f)≤(1+ϵtol​)RS​(f),∀t≥1 vs. H 1 ′ : ∃ t ∗ : R T ( t ∗ ) ( f ) > ( 1 + ϵ tol ) R S ( f ) H_1': \exists t^*: R_T^{(t^*)}(f) > (1 + \epsilon_\text{tol}) R_S(f) H1′​:∃t∗:RT(t∗)​(f)>(1+ϵtol​)RS​(f)

顺序估计算法 SEQUENTIAL ESTIMATION

估计模型在先前数据上的表现
此文通过随机抽样( n S n_S nS​)来估计先前数据的表现: n S : { ( X i , Y i ) } i = 1 n S n_S:\{(X_i,Y_i)\}_{i=1}^{n_S} nS​:{(Xi​,Yi​)}i=1nS​​。
在抽样 n S n_S nS​ 上的风险为 R ^ S ( f ) : = ∑ i = 1 n S l ( f ( X i ) , Y i ) n S \widehat{R}_S(f):=\frac{\sum_{i=1}^{n_S}l(f(X_i),Y_i)}{n_S} R S​(f):=nS​∑i=1nS​​l(f(Xi​),Yi​)​;
在所有先前数据上的风险为 R S ( f ) = R ^ S ( f ) + ( R S ( f ) − R ^ S ( f ) ) R_S(f)=\widehat{R}_S(f)+(R_S(f)-\widehat{R}_S(f)) RS​(f)=R S​(f)+(RS​(f)−R S​(f));
此处的 R S ( f ) − R ^ S ( f ) R_S(f)-\widehat{R}_S(f) RS​(f)−R S​(f) 可以通过很多方法(Concentration Results)来估计上界,
即在给定 confidence level δ S \delta_S δS​ 时, R S ( f ) ≤ R ^ S ( f ) + ϵ appr R_S(f)\leq \widehat{R}_S(f) + \epsilon_\text{appr} RS​(f)≤R S​(f)+ϵappr​
例如 Hoeffding’s inequality 满足在 ∣ n S ∣ = O ( 1 ϵ appr 2 ) |n_S|=\mathcal{O}(\frac{1}{\epsilon_\text{appr}^2}) ∣nS​∣=O(ϵappr2​1​) 时给出上界。
此文使用更新的更紧的上界:Variance-adaptive Confidence Bounds;例如 [WS2021] 1

估计模型在目标数据上的表现
类似的,我们也可以用上述方法估计目标数据上的表现的下界。
但与之不同的是,由于我们无从得知目标数据的数量,这里使用了 Time-uniform Lower Confidence Bound [Howard2021] 2
P ( ∃ t ≥ 1 : R T ( t ) ( f ) < L ^ T ( t ) ( f ) ) ≤ δ T \mathbb{P}\left( \exists t\geq 1: R_T^{(t)}(f) < \widehat{L}_T^{(t)}(f) \right) \leq \delta_T P(∃t≥1:RT(t)​(f)<L T(t)​(f))≤δT​

估计出了先前数据的风险上界和目标数据的风险下界,那么可以执行如下算法:

总结

  1. 此方法可以设定绝对值阈值而不仅仅是相对阈值。
    例如:其可以在准确率绝对值低于 80% 时发出警告,而不是低于训练数据准确率 5%。

  1. Waudby-Smith, I., & Ramdas, A. (2020). Estimating means of bounded random variables by betting. arXiv preprint arXiv:2010.09686. ↩︎

  2. Howard, S. R., Ramdas, A., McAuliffe, J., & Sekhon, J. (2021). Time-uniform, nonparametric, nonasymptotic confidence sequences. ↩︎

更多推荐

检测数据分布的变化 TRACKING THE RISK OF A DEPLOYED MODEL AND DETECTING HARMFUL DISTRIBUTI

本文发布于:2024-02-19 14:08:11,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1764620.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:数据   RISK   DEPLOYED   MODEL   TRACKING

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!