admin管理员组文章数量:1579396
Proactive Learning: Cost-Sensitive Active Learning with Multiple Imperfect Oracles CIKM’08
主动学习有几个假设前提:专家可靠(never wrong)、不知疲倦的(always answers)、只有一个、成本无差别(always free or charge the same)。这篇文章讨论不严格限制这四个条件。所以作者抽象了三个multi-oracle场景出来:1、专家有时拒绝标注;2、专家成本不固定;3、专家可能标注错误。
Scenario 1:one reliable oracle and one reluctant oracle
可靠的专家每次都提供一个正确的回答;不情愿的专家不会每次都回答,但是如果回答一定正确,回答的概率和分类认为的难度有关。当然,二者的成本不同:可靠的专家更贵一些。这里固定预算,数据是无限的,因此我们的优化目标是在固定的预算下得到尽可能多的信息:
maximize E [ V ( S ) ] subject to B \operatorname{maximize} E[V(S)] \text { subject to } B maximizeE[V(S)] subject to B
其中 B B B是预算, S S S是采样的所有数据, E [ V ( S ) ] E[V(S)] E[V(S)]是 S S S对于模型信息量的期望值。 V ( S ) V(S) V(S)可以是任何主动学习采样策略。上式可以写为:
max S ⊆ U L E [ V ( S ) ] − λ ( ∑ k t k ∗ C k ) s.t. \max _{S \subseteq U L} E[V(S)]-\lambda\left(\sum_{k} t_{k} * C_{k}\right) \quad \text { s.t. } S⊆ULmaxE[V(S)]−λ(k∑tk∗Ck) s.t.
∑ k t k ∗ C k = B , ∑ k t k = ∣ S ∣ \sum_{k} t_{k} * C_{k}=B, \sum_{k} t_{k}=|S| k∑tk∗Ck=B,k∑tk=∣S∣
其中下标 k ∈ K k \in K k∈K表示从专家集 K K K中选择的专家, λ \lambda λ是控制最大化信息量和最小化成本的关系参数,本文中令 λ = 1 \lambda = 1 λ=1。 C k C_k Ck和 t k t_k tk表示所选专家的成本及其调用次数。上式有一个致命缺点就是在整个无标签数据集上最大化是无法实现的,只能用贪心方法:
( x ∗ , k ∗ ) = arg max x ∈ U , k ∈ K ( E k [ V ( x ) ] − C k ) (1) \left(x^{*}, k^{*}\right)=\arg \max _{x \in U, k \in K}\left(E_{k}[V(x)]-C_{k}\right) \t
本文标签: 主动LearningCostProactiveSensitive
版权声明:本文标题:【主动学习 04】Proactive Learning: Cost-Sensitive Active Learning with Multiple Imperfect Oracles(CIKM‘08) 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dianzi/1727846214a1133120.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论