admin管理员组

文章数量:1579396

Proactive Learning: Cost-Sensitive Active Learning with Multiple Imperfect Oracles CIKM’08

主动学习有几个假设前提:专家可靠(never wrong)、不知疲倦的(always answers)、只有一个、成本无差别(always free or charge the same)。这篇文章讨论不严格限制这四个条件。所以作者抽象了三个multi-oracle场景出来:1、专家有时拒绝标注;2、专家成本不固定;3、专家可能标注错误。

Scenario 1:one reliable oracle and one reluctant oracle

可靠的专家每次都提供一个正确的回答;不情愿的专家不会每次都回答,但是如果回答一定正确,回答的概率和分类认为的难度有关。当然,二者的成本不同:可靠的专家更贵一些。这里固定预算,数据是无限的,因此我们的优化目标是在固定的预算下得到尽可能多的信息:
maximize ⁡ E [ V ( S ) ]  subject to  B \operatorname{maximize} E[V(S)] \text { subject to } B maximizeE[V(S)] subject to B
其中 B B B是预算, S S S是采样的所有数据, E [ V ( S ) ] E[V(S)] E[V(S)] S S S对于模型信息量的期望值。 V ( S ) V(S) V(S)可以是任何主动学习采样策略。上式可以写为:
max ⁡ S ⊆ U L E [ V ( S ) ] − λ ( ∑ k t k ∗ C k )  s.t.  \max _{S \subseteq U L} E[V(S)]-\lambda\left(\sum_{k} t_{k} * C_{k}\right) \quad \text { s.t. } SULmaxE[V(S)]λ(ktkCk) s.t. 

∑ k t k ∗ C k = B , ∑ k t k = ∣ S ∣ \sum_{k} t_{k} * C_{k}=B, \sum_{k} t_{k}=|S| ktkCk=B,ktk=S

其中下标 k ∈ K k \in K kK表示从专家集 K K K中选择的专家, λ \lambda λ是控制最大化信息量和最小化成本的关系参数,本文中令 λ = 1 \lambda = 1 λ=1 C k C_k Ck t k t_k tk表示所选专家的成本及其调用次数。上式有一个致命缺点就是在整个无标签数据集上最大化是无法实现的,只能用贪心方法:
( x ∗ , k ∗ ) = arg ⁡ max ⁡ x ∈ U , k ∈ K ( E k [ V ( x ) ] − C k ) (1) \left(x^{*}, k^{*}\right)=\arg \max _{x \in U, k \in K}\left(E_{k}[V(x)]-C_{k}\right) \t

本文标签: 主动LearningCostProactiveSensitive