【主动学习 01】经典综述-Active Learning Literature Survey-Burr Settles(2009)|电子爱好者

admin管理员组
文章数量:1630196

Active Learning Literature Survey - Burr Settles(2009)

Settles’ Survey，主动学习领域最经典的survey，主要介绍survey中采样策略部分。

通常在C-U和U-S上有比较多的工作

查询函数Q：不确定性准则（uncertainty）和差异性准则（diversity）

1）不确定性准则对于不确定性，我们可以借助信息熵的概念来进行理解。我们知道信息熵是衡量信息量的概念，也是衡量不确定性的概念。信息熵越大，就代表不确定性越大，包含的信息量也就越丰富。
不确定性策略就是要想方设法地找出不确定性高的样本，因为这些样本所包含的丰富信息量，对我们训练模型来说就是有用的。

2）差异性准则（diversity）
查询函数每次迭代中，查询一个或者一批样本。我们希望所查询的样本提供的信息是全面的，各个样本提供的信息不重复不冗余，即样本之间具有一定的差异性（概率分布尽量全面）。
在每轮迭代抽取单个信息量最大的样本加入训练集的情况下，每一轮迭代中模型都被重新训练，以新获得的知识去参与对样本不确定性的评估可以有效地避免数据冗余。但是如果每次迭代查询一批样本，那么就应该想办法来保证样本的差异性，避免数据冗余。

Uncertainty Sampling

对于二分类任务，以下三种方法是等价的。

Entropy

最简单最广泛使用的可能就是不确定性采样了，比如二分类问题，就取后验概率在0.5附近的样本点，非常的straightforward。

更普遍的不确定性采样策略是用***entropy***作为不确定性的度量：
x E N T ∗ = argmax ⁡ x − ∑ i P ( y i ∣ x ; θ ) log ⁡ P ( y i ∣ x ; θ ) x_{E N T}^{*}=\underset{x}{\operatorname{argmax}}-\sum_{i} P\left(y_{i} \mid x ; \theta\right) \log P\left(y_{i} \mid x ; \theta\right) xENT∗=xargmax−i∑P(yi∣x;θ)logP(yi∣x;θ)
其中 y i y_i yi覆盖了所有可能的标签。熵表示了encode一个分布所需要的信息量。在二分类问题中，熵最大等价于选择后验概率靠近0.5的。

Least confident

还可以用***least confident***，即“置信度最大的预测概率最低”。：
x L C ∗ = argmin ⁡ x P ( y ∗ ∣ x ; θ ) ， x_{L C}^{*}=\underset{x}{\operatorname{argmin}} P\left(y^{*} \mid x ; \theta\right)， xLC∗=xargminP(y∗∣x;θ)，

y ∗ = argmax ⁡ y P ( y ∣ x ; θ ) y^{*}=\operatorname{argmax}_{y} P(y \mid x ; \theta) y∗=argmaxyP(y∣x;θ)

举个例子就是 ( 0.9 , 0.1 ) (0.9, 0.1) (0.9,0.1)和 ( 0.51 , 0.49 ) (0.51, 0.49) (0.51,0.49)，后者应该采样。

Margin

边缘采样是指选择那些极易被判定为两类的样本数据，或者说这些数据被判定为两类的概率相差不大。边缘采样就是选择模型预测最大和第二大的概率差值最小的样本：
x M ∗ = argmin ⁡ x ( P θ ( y ^ 1 ∣ x ) − P θ ( y ^ 2 ∣ x ) ) x_{M}^{*}=\operatorname{argmin}_{x}\left(P_{\theta}\left(\hat{y}_{1} \mid x\right)-P_{\theta}\left(\hat{y}_{2} \mid x\right)\right) xM∗=argminx(Pθ(y^1∣x)−Pθ(y^2∣x))

不确定性采样采样策略也可以用在非概率模型。比如修改决策树和KNN模型，产生一个概率输出；SVM模型查询距离线性决策边界最近的点。

Query-By-Committee

委员会投票需要维护一个委员会 C = { θ ( 1 ) , … , θ ( C ) } \mathcal{C}=\left\{\theta^{(1)}, \ldots, \theta^{(C)}\right\} C={ θ(1),…,θ(C)}是 C C C个模型，这些模型都是通过数据集 L \mathcal{L} L训练得到的。所以最有信息的查询是他们预测最不一致的数据点。

QBC的根本假设在于借助多个委员会模型不断搜索（具体就是对输入空间的争议区域进行查询），可以更加精准的约束出version space：

因此实现一个QBC选择算法必须有两个条件：

能够构建出一系列委员会模型，来表示version space中的不同区域；
能够度量不同委员会模型之间的不一致性。

如果不需要考虑每个模型的检测效果，其实可以考虑类似不确定性采样中的 least confident 和 margin sampling 方法。可以选择某一个分类器难以区分的样本数据，也可以选择其中两三个分类器难以区分的数据。但是如果要考虑所有模型的分类效果的时候，则还是需要熵（Entropy）或者 KL 散度等指标。因此，QBC 通常也包括两种方法：

投票熵（Vote Entropy）：选择这些模型都无法区分的样本数据；
平均KL散度（Average Kullback-Leibler Divergence）：选择KL散度较大的样本数据。

Vote Entropy

对于这种多模型 { θ ( 1 ) , … , θ ( C ) } \left\{\theta^{(1)}, \ldots, \theta^{(C)}\right\} { θ(1),…,θ(C)}的场景而言，可以用熵来衡量样本数据被这些分类器区分的难易程度，如果这些分类器都把样本数据划分到某一类，则容易区分；如果分类器把样本数据划分到多类，则表示难以区分，需要重点关注：
x V E ∗ = argmax ⁡ x − ∑ i V ( y i ) C log ⁡ V ( y i ) C x_{V E}^{*}=\underset{x}{\operatorname{argmax}}-\sum_{i} \frac{V\left(y_{i}\right)}{C} \log \frac{V\left(y_{i}\rig

本文标签：主动经典 Active Learning Burr

版权声明：本文标题：【主动学习 01】经典综述-Active Learning Literature Survey-Burr Settles(2009) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1729055797a1183944.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【主动学习 01】经典综述-Active Learning Literature Survey-Burr Settles(2009)

Active Learning Literature Survey - Burr Settles(2009)

Uncertainty Sampling

Entropy

Least confident

Margin

Query-By-Committee

Vote Entropy

更多相关文章

Keep learning, be curious！目标就在前方，努力就对了。

The Fundamental Matrix Song【经典：国外大牛把它的作用变成一首歌了】

经典回忆Adobe Photoshop CS 2安装教程永久注册使用

经典组件大更新，微软为Windows 11重新设计记事本

Interference:Does learning new things block your old memories?(1)干扰:学习新东西会阻断旧记忆吗?(一)

计算机视觉领域经典论文源码大全

【论文阅读】Deep Learning Workload Scheduling in GPU Datacenters:Taxonomy, Challenges and Vision

【kg推荐-＞精读】Learning Intents behind Interactions with Knowledge Graph for Recommendation

[C2P3] Andrew Ng - Machine Learning

NLP系列经典论文(1)-- Attention Is All You Need

Federated Learning: Collaborative Machine Learning without Centralized Training Data

重温经典：iPhone 4S降级iOS 6.1.3系统指南

2007年各大论坛最新经典WindowsXP操作系统

经典升级，长直播，马上开课 | 第 20 期高级转录组分析和R数据可视化火热报名中！！！...

TwinCAT 3 Active电脑死机或蓝屏解决（干货）

格式工厂与转码宝：两款经典视频转码软件的对比

未来智能家居之战，智能路由如何主动上位？

[200715] Understanding of complex parts in literature of deep learning?

重读经典：《Generative Adversarial Nets》

Python 机器学习经典实例

发表评论

推荐文章

戴尔笔记本电脑游匣Dell G16 7620原装出厂Windows11系统下载

lol载入服务器无限崩溃,lol一直崩溃_lol无限崩溃重连

在 mac 上 使用idea设置eclipse快捷键 之后ctrl +左键进入类或者方法里，弹出右键功能窗口的解决办法

在线将ppt转换成pdf格式的方法

注册会计可以用计算机,注册会计师考试能带科学计算器吗？

热门文章

手机浏览器调用手机qq客户端的js

如何利用浏览器查看Cookie

XP系统不识别2t以下硬盘的解决方法

Literature Review 2: CUDAMicroBench

【ChatGPT（一）】人工智能时代已经开始——什么是ChatGPT？

「秒懂」纯血鸿蒙app对比安卓app优势尽显！

用PyTorch实现图像聚类

linux引导文件制作U盘,Linux下制作U盘系统启动盘的方法

超详细双系统安装指南

万能五笔

最新文章

如何查计算机配件的配置,如何查看电脑配置信息？教你四种方法

影视处理计算机配置,影视后期制作电脑配置需要什么

在线查看计算机配置,怎样查看电脑配置信息？

ubuntu系统怎么看电脑配置

桌面显示电脑配置的PE_你还用软件看电脑配置？分享三种无需软件查看配置的方法...

查询计算机的配置命令是什么,查看电脑配置指令大全

如何用控制面板打开计算机配置,如何查看电脑的配置？学会下面几种方法，你就可以自己看电脑配置...

Linux下查看电脑配置信息

cmd命令怎么查看电脑配置？

国外BT下载网站

win7查看计算机的配置,win7系统查看电脑配置的方法

ubuntu查看电脑配置信息

查看计算机软件配置,最齐全的查看电脑配置指令集锦 查看电脑配置软件推荐【图文】...

Win10电脑如何查看电脑配置

怎么查看电脑配置|win7查看电脑配置教程

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

在 mac 上使用idea设置eclipse快捷键之后ctrl +左键进入类或者方法里，弹出右键功能窗口的解决办法

查看计算机软件配置,最齐全的查看电脑配置指令集锦查看电脑配置软件推荐【图文】...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载