检测数据分布的变化 TRACKING THE RISK OF A DEPLOYED MODEL AND DETECTING HARMFUL DISTRIBUTION SHIFTS

编程入门行业动态更新时间:2024-10-06 14:34:36

检测<a href=https://www.elefans.com/category/jswz/34/1771445.html style= 数据分布的变化 TRACKING THE RISK OF A DEPLOYED MODEL AND DETECTING HARMFUL DISTRIBUTION SHIFTS"/>

检测数据分布的变化 TRACKING THE RISK OF A DEPLOYED MODEL AND DETECTING HARMFUL DISTRIBUTION SHIFTS

本文介绍一篇ICLR 2022的论文《TRACKING THE RISK OF A DEPLOYED MODEL AND DETECTING HARMFUL DISTRIBUTION SHIFTS》，题目直译为《追踪已部署模型的风险并检测有害的分布变化》。顾名思义，该研究认为数据流的分布是不断变化的，这些变化可能会导致已经部署的模型不再适应，使得模型准度（or 性能）下降。

此研究与先前工作最大的不同点在于：

该研究将 Data Drift 归类为无害（benign）变化和有害（harmful）变化两类，对于无害变化可以不修改/替换模型；
先前研究一般假设 Data Drift 只发生在 Input Covariate 或 Label 其中一个上，限制了应用场景；
其可以持续的监控 Data Drift，并保证较低的 False Positive Rate；

试了以下New Bing对于这篇论文的总结：

一些定义

Notations	解释
X , Y {X}, {Y} X,Y	输入与输出；Covariate and Label Spaces
f : X → Y f: {X} \rightarrow {Y} f:X→Y	预测模型；Predictor
l ( ⋅ , ⋅ ) l(\cdot,\cdot) l(⋅,⋅)	损失函数；Loss Function
R ( f ) : = E [ l ( f ( X ) , Y ) ] R(f):= \mathbb{E}[l(f({X}),{Y})] R(f):=E[l(f(X),Y)]	期望损失； corresponding expected loss (a.k.a., risk of f f f)

此文仅仅假设了损失函数是有边界的，没有其他任何附加的假设条件。

方法

此文首先将数据变化预测问题定义成了顺序假设检验，随后提出了顺序估计算法。

顺序假设检验 SEQUENTIAL HYPOTHESIS TEST

如果模型的风险在当前数据上（Target）比在之前数据上（Source）大出一定程度，该程度不可接受，则判定为有害变化，否则为无害变化。

当前/未来数据可能满足

(a). 独立同分布（i.i.d.）：分布突然变化，但是仍然i.i.d.；很简单且不实际，这里不讨论

(b). 独立（independence）：分布也可以缓慢变化；以下仅讨论 (b) 情况。

假设 Hypotheses 可以形式化地表示为：
H 0 : R T ( t ) ( f ) ≤ R S ( f ) + ϵ tol , ∀ t ≥ 1 H_0: R_T^{(t)}(f) \leq R_S(f) + \epsilon_\text{tol}, \forall t\geq 1 H0:RT(t)(f)≤RS(f)+ϵtol,∀t≥1 vs. H 1 : ∃ t ∗ : R T ( t ∗ ) ( f ) > R S ( f ) + ϵ tol H_1: \exists t^*: R_T^{(t^*)}(f) > R_S(f) + \epsilon_\text{tol} H1:∃t∗:RT(t∗)(f)>RS(f)+ϵtol
其中， ϵ tol \epsilon_\text{tol} ϵtol 为可接受的忍耐程度； R T ( t ) ( f ) R_T^{(t)}(f) RT(t)(f) 和 R S ( f ) R_S(f) RS(f) 分别表示 f f f 在当前数据和之前数据上的风险。

X 1 , X 2 , … X_1, X_2, \dots X1,X2,… 表示序列输入数据。
在某时刻 t t t，当前数据的风险是一个 running risk： R T ( t ) ( f ) = 1 t ∑ i = 1 t E [ l ( f ( X i ) , Y i ) ] R_T^{(t)}(f)= \frac{1}{t}\sum_{i=1}^{t} \mathbb{E}[l(f(X_i), Y_i)] RT(t)(f)=t1∑i=1tE[l(f(Xi),Yi)]。
在每一时刻 t t t，我们对先前所有的输入（ X 1 , X 2 , … , X t X_1, X_2, \dots, X_t X1,X2,…,Xt）做顺序检验，输出 0（ H 0 H_0 H0 成立）或者 1（ H 0 H_0 H0 被拒绝）。
由此我们会得到很多的 0 和 1：在大数定律的情况下，误报率最多是 δ \delta δ。
用人话来说就是：有 1 − δ 1{-}\delta 1−δ 的概率（这个概率很大），对于数据分布的无害变化，此算法不会返回 1。

这个检验被称为 Level- δ \delta δ Sequential Test Φ \Phi Φ，
其形式化表示为：
∪ n = 1 ∞ X n → { 0 , 1 } \cup_{n=1}^{\infty} X^n \rightarrow \{0, 1\} ∪n=1∞Xn→{0,1}，必须使得 P H 0 ( ∃ t ≥ 1 : Φ ( X 1 , … , X t ) = 1 ) ≤ δ \mathbb{P}_{H_0}(\exists t\geq 1: \Phi(X_1,\dots,X_t)=1)\leq \delta PH0(∃t≥1:Φ(X1,…,Xt)=1)≤δ

如果针对分类问题，也可以使用风险的相对变化来表示假设：
H 0 ′ : R T ( t ) ( f ) ≤ ( 1 + ϵ tol ) R S ( f ) , ∀ t ≥ 1 H_0': R_T^{(t)}(f) \leq (1 + \epsilon_\text{tol}) R_S(f), \forall t\geq 1 H0′:RT(t)(f)≤(1+ϵtol)RS(f),∀t≥1 vs. H 1 ′ : ∃ t ∗ : R T ( t ∗ ) ( f ) > ( 1 + ϵ tol ) R S ( f ) H_1': \exists t^*: R_T^{(t^*)}(f) > (1 + \epsilon_\text{tol}) R_S(f) H1′:∃t∗:RT(t∗)(f)>(1+ϵtol)RS(f)

顺序估计算法 SEQUENTIAL ESTIMATION

估计模型在先前数据上的表现
此文通过随机抽样（ n S n_S nS）来估计先前数据的表现： n S : { ( X i , Y i ) } i = 1 n S n_S:\{(X_i,Y_i)\}_{i=1}^{n_S} nS:{(Xi,Yi)}i=1nS。
在抽样 n S n_S nS 上的风险为 R ^ S ( f ) : = ∑ i = 1 n S l ( f ( X i ) , Y i ) n S \widehat{R}_S(f):=\frac{\sum_{i=1}^{n_S}l(f(X_i),Y_i)}{n_S} R S(f):=nS∑i=1nSl(f(Xi),Yi)；
在所有先前数据上的风险为 R S ( f ) = R ^ S ( f ) + ( R S ( f ) − R ^ S ( f ) ) R_S(f)=\widehat{R}_S(f)+(R_S(f)-\widehat{R}_S(f)) RS(f)=R S(f)+(RS(f)−R S(f))；
此处的 R S ( f ) − R ^ S ( f ) R_S(f)-\widehat{R}_S(f) RS(f)−R S(f) 可以通过很多方法（Concentration Results）来估计上界，
即在给定 confidence level δ S \delta_S δS 时， R S ( f ) ≤ R ^ S ( f ) + ϵ appr R_S(f)\leq \widehat{R}_S(f) + \epsilon_\text{appr} RS(f)≤R S(f)+ϵappr；
例如 Hoeffding’s inequality 满足在 ∣ n S ∣ = O ( 1 ϵ appr 2 ) |n_S|=\mathcal{O}(\frac{1}{\epsilon_\text{appr}^2}) ∣nS∣=O(ϵappr21) 时给出上界。
此文使用更新的更紧的上界：Variance-adaptive Confidence Bounds；例如 [WS2021] ¹。

估计模型在目标数据上的表现
类似的，我们也可以用上述方法估计目标数据上的表现的下界。
但与之不同的是，由于我们无从得知目标数据的数量，这里使用了 Time-uniform Lower Confidence Bound [Howard2021] ²：
P ( ∃ t ≥ 1 : R T ( t ) ( f ) < L ^ T ( t ) ( f ) ) ≤ δ T \mathbb{P}\left( \exists t\geq 1: R_T^{(t)}(f) < \widehat{L}_T^{(t)}(f) \right) \leq \delta_T P(∃t≥1:RT(t)(f)<L T(t)(f))≤δT。

估计出了先前数据的风险上界和目标数据的风险下界，那么可以执行如下算法：

总结

此方法可以设定绝对值阈值而不仅仅是相对阈值。
例如：其可以在准确率绝对值低于 80% 时发出警告，而不是低于训练数据准确率 5%。

Waudby-Smith, I., & Ramdas, A. (2020). Estimating means of bounded random variables by betting. arXiv preprint arXiv:2010.09686. ↩︎
Howard, S. R., Ramdas, A., McAuliffe, J., & Sekhon, J. (2021). Time-uniform, nonparametric, nonasymptotic confidence sequences. ↩︎

更多推荐

检测数据分布的变化 TRACKING THE RISK OF A DEPLOYED MODEL AND DETECTING HARMFUL DISTRIBUTI

本文发布于:2024-02-19 14:08:11，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1764620.html