基于样本冗余度的主动学习优化方法|电子爱好者

admin管理员组
文章数量:1567539

2024年3月26日发(作者：)

第３８卷第３期　　　

２０２１年３月　　

计算机应用与软件

ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅ

Ｖｏｌ３８Ｎｏ．３

Ｍａｒ．２０２１

基于样本冗余度的主动学习优化方法

，２



范纯龙

１

　王翼新

１

　宿　彤

１

　张振鑫

１

２

（沈阳航空航天大学计算机学院　辽宁沈阳１１０１３６）

（辽宁省大规模分布式系统实验室　辽宁沈阳１１０１３６）

摘　要　　主动学习解决了因训练样本过大而导致需要大量人力物力的问题，核心问题是如何选择有价值的样

本减少标注成本。以神经网络为分类器，大多数方法选择信息量大的样本并没有考虑所选择样本间的信息冗余

问题。通过对冗余问题的研究，提出一种降低信息冗余的样本选择优化方法。用不确定性方法选出信息量大的

样本构成候选样本集，同时用网络中计算的潜变量向量表示样本信息，利用该向量计算候选样本间的余弦距离选

择出间隔距离大、信息冗余度低的子集。在Ｍｎｉｓｔ、Ｆａｓｈｉｏｎｍｎｉｓｔ，以及Ｃｉｆａｒ１０数据集中与几种不确定性方法相

比，在相同样本准确率下，该方法最低减少１１％标记样本。

关键词　　主动学习　信息冗余　余弦距离　不确定性方法

中图分类号　ＴＰ１８１　　　　文献标志码　Ａ　　　　ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００３８６ｘ．２０２１．０３．０４４

ＡＣＴＩＶＥＬＥＡＲＮＩＮＧＯＰＴＩＭＩＺＡＴＩＯＮＭＥＴＨＯＤＢＡＳＥＤＯＮＳＡＭＰＬＥＲＥＤＵＮＤＡＮＣＹ

１，２１１１



ＦａｎＣｈｕｎｌｏｎｇ　ＷａｎｇＹｉｘｉｎ　ＳｕＴｏｎｇ　ＺｈａｎｇＺｈｅｎｘｉｎ

１

２

（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒ，ＳｈｅｎｙａｎｇＡｅｒｏｓｐａｃｅＵｎｉｖｅｒｓｉｔｙ，Ｓｈｅｎｙａｎｇ１１０１３６，Ｌｉａｏｎｉｎｇ，Ｃｈｉｎａ）

（ＬａｒｇｅｓｃａｌｅＤｉｓｔｒｉｂｕｔｅｄＳｙｓｔｅｍＬａｂｏｒａｔｏｒｙｏｆＬｉａｏｎｉｎｇＰｒｏｖｉｎｃｅ，Ｓｈｅｎｙａｎｇ１１０１３６，Ｌｉａｏｎｉｎｇ，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ　　Ａｃｔｉｖｅｌｅａｒｎｉｎｇｓｏｌｖｅｓｔｈｅｐｒｏｂｌｅｍｏｆｅｘｃｅｓｓｉｖｅｔｒａｉｎｉｎｇｓａｍｐｌｅｓ，ａｎｄｔｈｅｃｏｒｅｐｒｏｂｌｅｍｉｓｓａｍｐｌｅｓｅｌｅｃｔｉｏｎ．

Ｗｉｔｈｎｅｕｒａｌｎｅｔｗｏｒｋｓａｓｃｌａｓｓｉｆｉｅｒｓ，ｍｏｓｔｍｅｔｈｏｄｓｃｈｏｏｓｅａｌａｒｇｅａｍｏｕｎｔｏｆｉｎｆｏｒｍａｔｉｏｎａｎｄｄｏｎｏｔｃｏｎｓｉｄｅｒｔｈｅ

ｉｎｆｏｒｍａｔｉｏｎｒｅｄｕｎｄａｎｃｙｂｅｔｗｅｅｎｓｅｌｅｃｔｅｄｓａｍｐｌｅｓ．Ｂｙｒｅｓｅａｒｃｈｉｎｇｔｈｅｒｅｄｕｎｄａｎｃｙｐｒｏｂｌｅｍ，ａｓａｍｐｌｅｓｅｌｅｃｔｉｏｎ

ｏｐｔｉｍｉｚａｔｉｏｎｍｅｔｈｏｄｆｏｒｒｅｄｕｃｉｎｇｉｎｆｏｒｍａｔｉｏｎｒｅｄｕｎｄａｎｃｙｉｓｐｒｏｐｏｓｅｄ．Ｔｈｉｓｍｅｔｈｏｄｕｓｅｄｔｈｅｕｎｃｅｒｔａｉｎｔｙｍｅｔｈｏｄｔｏｓｅｌｅｃｔ

ｔｈｅｓａｍｐｌｅｗｉｔｈｌａｒｇｅａｍｏｕｎｔｏｆｉｎｆｏｒｍａｔｉｏｎｔｏｆｏｒｍｔｈｅｃａｎｄｉｄａｔｅｓａｍｐｌｅｓｅｔ，ａｎｄｔｈｅｖｅｃｔｏｒｏｆｌａｔｅｎｔｖａｒｉａｂｌｅｓｃａｌｃｕｌａｔｅｄ

ｉｎｔｈｅｎｅｔｗｏｒｋｗａｓｒｅｐｒｅｓｅｎｔｅｄ．Ｔｈｅｓａｍｐｌｅｉｎｆｏｒｍａｔｉｏｎｕｓｅｄｔｈｅｖｅｃｔｏｒｔｏｃａｌｃｕｌａｔｅｔｈｅｃｏｓｉｎｅｄｉｓｔａｎｃｅｂｅｔｗｅｅｎｔｈｅ

ｃａｎｄｉｄａｔｅｓａｍｐｌｅｓｔｏｓｅｌｅｃｔａｓｕｂｓｅｔｗｉｔｈａｌａｒｇｅｓｅｐａｒａｔｉｏｎｄｉｓｔａｎｃｅａｎｄｌｏｗｉｎｆｏｒｍａｔｉｏｎｒｅｄｕｎｄａｎｃｙ．Ｃｏｍｐａｒｅｄｗｉｔｈ

ｓｅｖｅｒａｌｕｎｃｅｒｔａｉｎｔｙｍｅｔｈｏｄｓｉｎｔｈｅｍｎｉｓｔ，ｆａｓｈｉｏｎｍｎｉｓｔ，ａｎｄｃｉｆａｒ１０ｄａｔａｓｅｔｓ，ｔｈｅｌｏｗｅｓｔｓａｍｐｌｅｓｉｚｅｃａｎｂｅｒｅｄｕｃｅｄｂｙ

１１％ｗｉｔｈｔｈｅｓａｍｅｓａｍｐｌｅａｃｃｕｒａｃｙ．

Ｋｅｙｗｏｒｄｓ　　Ａｃｔｉｖｅｌｅａｒｎｉｎｇ　Ｉｎｆｏｒｍａｔｉｏｎｒｅｄｕｎｄａｎｃｙ　Ｃｏｓｉｎｅｄｉｓｔａｎｃｅ　Ｕｎｃｅｒｔａｉｎｔｙｍｅｔｈｏｄ

技术的普遍应用可以使人们很容易获得海量数据，但

０　引　言

近几年，图像识别及其分类是深度学习领域中的

重要应用，其中有监督学习是重要方法之一。但是利

用该方法解决图像分类问题需要大量的有标签数据，

然后利用分类器的参数学习样本中的特征，从而达到

较好的分类效果。对于大量有标签数据的需求，网络

１－３］

是在一些实际应用中

［

，取得无标签样本很容易而

标注样本是代价昂贵或耗费时间的。基于此类常见的

［１］

问题，Ａｎｇｌｕｉｎ提出了“主动学习”。

主动学习的目的是减少对样本数据的标注成本，

用最少的有标签样本达到接近全样本训练效果。主动

学习按照样本抽样模式可分为流样本模式和池样本模

式，由于流样本模式的选择策略需要根据不同的任务

２０１９－０８－２９。范纯龙，博士，主研领域：时序数据分析，飞机试验数据和环境管理，飞机保障和维修。王翼新，硕士收稿日期：

生。宿彤，硕士生。张振鑫，硕士生。

　２９２　　　计算机应用与软件２０２１年

进行适当的调整，很难作为通用方法使用。所以，近些

４－６］

年来主动学习主要在池样本模式上发展

［

，即在固

定的大量无标签样本集中，根据选择策略反复选择对

池样本模式下，根据不同分类器有不同选择策略。

以ＳＶＭ为分类器条件下，利用样本与支持向量之

ＶＭ的批间的距离明确地度量了样本的信息量，例如Ｓ

２０－２２］

模式主动学习方法等

［

，但是考虑到样本之间分布

当前分类器而言信息量大的样本，其中按照选择策略

３，５，７－８］

、泛化能原理不同，主要有基于不确定度

［

［９－１０］［１１－１２］

、模型空间等方法。这些策略都是根据力

样本与当前分类器或样本分布之间的关系，每次选择

ＭａｘｉｍｕｍＭｅａｎＤｉｓｃｒｅｐａｎｃｙ，问题，使用最大均值差异（

［２３］

ＭＭＤ）度量了样本集之间的分布差异，从而保证了

的样本数量多、信息量大且训练效果明显，但是没有考

虑到样本对分类器而言信息重叠问题，即信息冗余问

无标签集和有标签集的分布一致性，例如边缘分布批

［１３］

模式方法（ＢａｔｃｈＭｏｄｅＡｃｔｉｖｅＬｅａｒｎｉｎｇ，ＢＭＡＬ）、代

表性方法（ＤｉｓｃｒｉｍｉｎａｔｉｖｅａｎｄＲｅｐｒｅｓｅｎｔａｔｉｖｅＭｏｄｅｌＡｃ

题。尽管每次选择样本的信息量足够大，但是信息冗

余问题会导致选择多余的无意义样本，主动学习会因

此失去意义。

主动学习的分类器选择主要有ＳＶＭ

［５，７，１３］

、神经

网络

［３，８－９，１４］

和ＫＮＮ分类器

［１５］

。为了解决选择样本

信息冗余问题，很多学者在以ＳＶＭ为分类器的基础上

做了很多研究

［１３，１６－１７］

，提出了样本相似性、代表性等

概念解决了该问题。但是这些方法在计算这些指标时

的计算量很大，且在多分类时训练分类器个数较多，实

用性不高。进一步地，有学者提出将神经网络作为分

类器，神经网络有能同时进行多分类且分类效果好的

优点。目前方法主要考虑如何更准确度量样本不确定

性，利用不确定性选择分类边界附近样本，并将之作为

信息量大的样本。在解决信息冗余问题上，由于神经

网络没有明确的可解释性，除了可视化方法外，无法明

确地判断样本对神经网络的信息具体是什么，所以目

前方法考虑更好地度量样本对分类器的不确定

性

［３，８－９，１４，１８］

，没有考虑冗余问题。

综上所述，ＳＶＭ在计算量大、样本类别多的情况

下训练麻烦，在以神经网络为分类器条件下没有解决

多个样本之间信息冗余问题。针对此问题，提出

ＤＲＡＬ（ＤｉｓｃｒｉｍｉｎａｔｉｖｅＡｎｄＲｅｄｕｎｄａｎｃｙＡｃｔｉｖｅＬｅａｒｎｉｎｇ）

方法，该方法用带有多层感知机（ｍｕｌｔｉｌａｙｅｒｐｅｒｃｅｐ

ｔｉｏｎ，ＭＬＰ）的卷积神经网络ＣＮＮ计算得到样本潜变量

向量表示样本信息，用不确定性方法选择信息量大的

样本构成候选集，利用余弦距离从候选集选出信息量

大且冗余度小的样本集。不确定性方法经过该方法提

升后，在ＬｅＮｅｔ５和ＮＩＮ（ＮｅｔｗｏｒｋｉｎＮｅｔｗｏｒｋ）

［１９］

神经

网络上，用Ｍｎｉｓｔ、Ｆａｓｈｉｏｎｍｎｉｓｔ和Ｃｉｆａｒ１０数据集测

试，在相同准确率条件下，最低减少１１％标记样本。

本文的主要贡献在于：通过利用神经网络计算的

潜变量，在度量样本信息量基础上提出一种降低样本

冗余度方法。

１　相关工作

样本选择策略是主动学习过程中的核心问题，在

ｔｉｖｅＬｅａｒｎｉｎｇ，ＤＲＭＡＬ）

［１６］

。进一步地，使用相似度稀

疏模型（ＤｉｓｓｉｍｉｌａｒｉｔｙｂａｓｅｄＳｐａｒｓｅＭｏｄｅｌｉｎｇＲｅｐｒｅｓｅｎｔａ

ｔｉｖｅＳｅｌｅｃｔｉｏｎ，ＤＳＭＲＳ）

［２４］

和互信息方法度量了样本集

之间相似性从而降低了样本集之间的冗余性。例如自

适应主动学习方法

［１５］

、凸规划主动学习方法（Ｃｏｎｖｅｘ

ＰｒｏｇｒａｍｍｉｎｇＡｃｔｉｖｅＬｅａｒｎｉｎｇ，ＣＰＡＬ）

［２５］

等。

以神经网络为分类器条件下，与ＳＶＭ类似，越接

近分类边界的样本信息量越大，目前大多数采用不确

定性方法度量。由于神经网络未能明确解释原因，有

些学者认为当前方法选择样本不够接近分类边界，需

要重新选择在分类边界附近的样本，例如：计算多次

ｄｒｏｐｏｕｔ后的结果均值作为最终分类结果的贝叶斯算

法（ＤｅｅｐＢａｙｅｓｉａｎＡｃｔｉｖｅＬｅａｒｎｉｎｇ，ＤＢＡＬ）

［８］

；利用生

成对抗样本的Ｄｅｅｐｆｏｏｌ算法

［２６］

攻击无标记样本（Ｄｅｅｐ

ＦｏｏｌＡｃｔｉｖｅＬｅａｒｎｉｎｇ，ＤＦＡＬ）算法；考虑到样本分布关

系，为了保证有标记样本集和无标记样本集的分布一

致性，利用加入了分类器自定标签的高可信样本方法

（ＣｏｓｔＥｆｆｅｃｔｉｖｅＡｃｔｉｖｅＬｅａｒｎｉｎｇ，ＣＥＡＬ）

［２７］

，用欧氏距离

把样本选择问题变成Ｋ中心问题

［９］

，这些方法都保证

了分布一致性且可以选择信息量大且数量多的样本，

但是没有解决信息冗余问题。本文提出ＤＲＡＬ方法降

低了冗余度，达到更好的效果。

２　问题描述

本节定义了主动学习问题，通过带有ＭＬＰ的ＣＮＮ

中的“潜变量”间接度量了样本信息量和样本信息冗

余度。结合主动学习过程，定义了最小化冗余度问题。

假设有ｍ类ｎ个样本。基于池样本选择样本模式

的主动学习问题如下：

问题１　假设有标记集样本数量为ｎ

Ｌ

，Ｌ＝｛ｘ

ｉ

｜

ｉ＝１，２，…，ｎ

Ｌ

｝；无标记集样本数量为ｎ

Ｕ

，Ｕ＝｛ｘ

ｉ

｜

ｉ＝１，２，…，ｎ

Ｕ

｝，ｘ

ｋ

ｉ

∈

Ｒ且ｎ

Ｌ

＋ｎ

Ｕ

＝ｎ；样本标签集：

Ｙ＝｛ｙ

ｉ

｜ｉ＝１，２，…，ｎ

Ｌ

｝且ｙ

ｍ

ｉ

∈

Ｒ。ＣＮＮ模型的损

失函数为ｌ（Ｌ，Ｙ；ｆ（

）），其映射为Ｒ

ｎ

Ｌ

×ｋ

×Ｒ

ｎ

Ｌ

×ｍ

→

Ｒ

ｎ

Ｌ

。

第３期　　　范纯龙，等：基于样本冗余度的主动学习优化方法　２９３

每次从Ｕ中选择ｋ个样本构成Ｓ集放入到Ｌ中，主动学

ｉ

习问题为：

ｍｉｎ　Ｅ［ｌ（Ｌ，Ｙ；ｆ（））］－Ｅ［ｌ（Ｌ＋Ｕ；ｆ（））］

θθ

Ｌ

ｓ．ｔ．　

Ｓ

＝ｋ且Ｌ＝

∪

Ｓ

ｉ

ｉ＝１：Ｔ

其中损失函数是信息交叉熵函数，即：

１

ｌ（Ｌ，Ｙ，）＝－

∑∑

１｛ｙ｝ｌｏｇｐ（ｙ｜ｘ；）（１）

θθ

ｉ

＝ｊ

ｉ

＝ｊ

ｉ

ｎ

ｊ＝ｉ＝１１

Ｌ

式中：Ｔ是迭代次数；１｛·｝是指示函数，当ＣＮＮ预测

正确时为１，否则为０；ｐ（ｙ｜ｘ；）是经过Ｓｏｆｔｍａｘ

ｉ

＝ｊ

ｉ

ｎ

Ｌ

ｍ

样本集之间信息冗余少，冗余问题主要在Ｓ

ｉ

集中的样

本之间。

集的冗余度问题分析如图１所示，其中：圆关于Ｓ

ｉ

形、三角形代表两类样本ｍ、ｍ；虚线是初始分类边

１２

界；实线是选择样本后的分类边界；网格点是候选样本

（ｉ）

集；实点是选择的样本集。样本分为两类ｍ、ｍ，ｍ

１２ｊ

表示属于第ｊ类样本中的第ｉ个样本子集。假定根据

不确定性方法已经选择了一些样本并做标记。情况如

（１）（２）

图１（ａ）所示，在ＣＮＮ分类边界附近的ｍｍ

１

、

２

样本

过程后在ｊ类的输出结果。

由于ＣＮＮ没有明确的可解释性，所以明确样本对

ＣＮＮ的具体信息是什么很困难。鉴于此问题，假定

ＣＮＮ经过卷积层后接有ＭＬＰ全连接层，并规定ＭＬＰ

中的隐层输出向量为潜变量，通过潜变量抽象表示样

本信息。潜变量向量的模长表示信息量，通过计算样

本间距离大小表示信息冗余。常用距离度量有欧氏距

离和余弦距离，余弦距离计算效果更好且计算得出结

论相同，所以选择余弦距离。进一步地，内积度量样本

间的信息冗余度，即内积越大表示潜变量的相似度越

高，被比较的两个样本间的信息量冗余度越高。

定义１　对于样本ｘ

ｉ

、ｘ

ｊ

，经过ＣＮＮ计算的潜变量

为ｘ′、ｘ′，且ｘ′

ｎ

ｉｊｉ

，ｘ′

ｊ

∈

Ｒ，则ｎ个样本间的信息冗余矩

阵Ｒ和信息量Ｉ为：



ｒ

１１

ｒ

１２

…ｒ

１ｋ





Ｒ＝



ｒ

２１

ｒ

２２

…ｒ



２ｋ













ｒ

ｋ１

ｒ

ｋ２

…ｒ



ｋｋ



Ｉ＝［Ｉ

１

，Ｉ

２

，…，Ｉ

ｎ

］

式中：ｒ〈

１

ｉｊ

＝ｘ′

ｉ

，ｘ′

ｊ

〉；Ｉ

ｉ

＝

‖

ｘ′

ｉ

‖

２

。

为了解决问题１，通过降低冗余度达到该目的，即

选择信息量大且冗余度小的样本集。问题１变为如何

选择样本集Ｓ

ｉ

，使得样本间冗余度最小。

问题２　假设已有冗余度矩阵Ｒ，从Ｕ中选择样本

集Ｓ

ｉ

，使得Ｒ的均值最小，即：

　　　ｍｉｎ

Ｌ

ａｖｅｒａｇｅ（Ｒ）

　　　ｓ．ｔ．　

Ｓ

ｉ

＝ｋ且Ｌ＝

ｉ

∪

＝１：Ｔ

Ｓ

ｉ

３　冗余度方法

冗余问题主要在多次选择的Ｓ

ｉ

样本集之间或者

单次选择的Ｓ

ｉ

集中样本之间。假设每次选择完Ｓ

ｉ

，经过

标记后ＣＮＮ在集合Ｌ上收敛，因此，每次迭代选择的Ｓ

ｉ

集中选择了若干样本，经过迭代训练后，原来的虚线边

界变成了实线边界，结果并不能完全将两类样本分开。

由此可见，根据不确定性方法选择的样本集具有信息

冗余性。针对此问题，本文提出ＤＲＡＬ方法。

图１　

ｓ

ｉ

集的冗余度问题分析情况

３．１　不确定性方法

基于池样本模式的样本选择原理主要是在无标记

池中选择信息量大的样本来使ＣＮＮ快速拟合样本，信

息量大意味着无标记样本经过ＣＮＮ计算后，在各个分

类上的概率接近

１

［２６］

ｍ

，或者在最可能的分类上不确

定，此类样本接近分类器边界即为图１（ａ）中选择的样

本。目前的几种不确定性方法如下：

（１）低可信度

［２６］

：

ｘ



＝ａｒｇｍａｘ

ｘ

［１－ｐ（ｙ

ｍａｘ

｜ｘ

ｉ

；

）］（２）

式中：ｙ

ｍａｘ

＝ｍａｘ（ｙ

ｉ

＝ｊ｜ｘ

ｉ

；

）。样本在各个分类概率

中的最大值由小到大排序，选择前Ｋ个样本。

（２）信息熵

［２６］

：

ｘ



＝ａｒｇｍａｘ

ｘ

－

∑

ｐ（ｙ

ｉ

＝ｊ｜ｘ

ｉ

；

）ｌｏｇｐ（ｙ

ｉ

＝ｊ｜ｘ

ｉ

；

）（３）

ｉ

按照信息熵由大到小排序，选择前Ｋ个样本。

（３）贝叶斯估计

［８］

：

Ｔ

ｐ＝

１

Ｔ

∑

ｐ（ｙ

ｉ

＝ｊ｜ｘ

ｉ

；

，ｄｒｏｐｏｕｔ

ｔ

）（４）

ｔ＝１

在多次ｄｒｏｐｏｕｔ值条件下平均分类结果，然后结合

式（２）和式（３）选择样本。

３．２　冗余度算法

如图１（ａ）所示，上述不确定性方法选择样本过程

仅是按照给定计算指标排序选择一些样本作为Ｓ

ｉ

集，

该过程中并没有考虑样本冗余，从而选择了无意义的

　２９４　　　计算机应用与软件２０２１年

／方法（３），在

Ｕ中选择ＮＫ个样本，构成候选集Ｃ



／

４．　Ｄｉｓ＝Ｄ（Ｃ）；

／构成距离矩阵Ｄ



计算所有样本之间余弦距离，



／

５．　Ｑ＝Ｒ（Ｄｉｓ，Ｋ）；／从候选集

Ｃ中得到样本



由算法１可得，

／数目为Ｋ的待标记样本集Ｑ



／

６．　Ｌ＝Ｌ＋Ｑ；Ｕ＝Ｕ－Ｑ；

／

，从无标签集删除Ｑ



／



在有标签集添加

Ｑ

（ＣＮＮ，Ｌ）；７．　ＣＮＮ＝ｔｒａｉｎ／上训练ＣＮＮ



在

Ｌ



／

样本。基于此问题提出ＤＲＡＬ方法，如图１（ｂ）所示，

将位于ＣＮＮ分类边界附近的样本构成候选样本集，该

集合包括所有类别。最后，从该候选样本集中选择冗

余度小的样本子集。

根据不确定性方法选择位于ＣＮＮ分类边界附近

的样本构成候选样本集。计算所有候选样本间的潜变

量间余弦距离矩阵：



ｄ

１１

ｄ

１２

…ｄ

１ｋ



Ｄ＝



ｄ

２１

ｄ

２２

…ｄ

２ｋ



Ｒ



（５）







＝

２





槡

Ｉ

Ｔ

×Ｉ

ｄ

ｋ１

ｄ

ｋ２

…ｄ

ｋｋ



利用距离矩阵得到冗余度小的样本集，即每次从

候选集选出与待标记集最不相似的样本，特别地，若Ｌ

为空集则选择与候选集最相似样本。冗余度算法如算

法１所示。

算法１　冗余度算法

输入：距离矩阵

Ｄ；样本数目ｋ

。

输出：待标记样本集

Ｌ

。

１．Ｗｈｉｌｅ｜Ｌ｜＜ｋ

２．　ＩｆＬ＝



：

３．　　Ｐ＝ａｖｅｒａｇｅ＿ｃｏｌｕｍｎ（Ｄ）；／



根据式（５）计算距离矩阵Ｄ

行均值向量



／

４．　　Ｉｎｄｅｘ＝ｍｉｎ（Ｐ）；／



得到与整个候选集最相似的样本索

引



／

５．　Ｅｌｓｅ

６．　　Ｄ１＝Ｄ（Ｌ）；Ｐ＝ａｖｅｒａｇｅ＿ｒｏｗ（Ｄ１）；／



按照

Ｌ中样本在

候选集中索引，把Ｄ行向量拼接成Ｄ矩阵，计算Ｄ

列均值



／

７．　　Ｉｎｄｅｘ＝ｍａｘ（Ｐ）；／



取出与

Ｌ

样本集最不相似的样

本



／

８．　Ｌ＝Ｌ＋ｉｎｄｅｘ；／



做标记，放入

Ｌ

中



／

９．　Ｄ＝Ｌ－Ｄ；／



按照

Ｌ中样本在候选集中索引，把Ｄ

列向量

删除



／

１０．Ｅｎｄｗｈｉｌｅ

１１．ｒｅｔｕｒｎＬ

３．３　ＤＲＡＬ方法

从上述算法可看出，利用余弦距离、冗余度算法的

目的是从候选样本集中选择具有类别多样性、冗余度

小的样本集。结合上述不确定性方法，ＤＲＡＬ算法过

程如算法２所示。

算法２　ＤＲＡＬ算法

输入：有标签样本集

Ｌ；无标记样本集Ｕ；每次选择样本数Ｋ；候

选样本数ＮＫ；最大迭代次数Ｔ；当前迭代次数ｔ

。

输出：ＣＮＮ模型。

１．在Ｌ上初始化ＣＮＮ；

２．ｗｈｉｌｅｔ＜ＴａｎｄＮＫ＜｜Ｕ｜

３．　Ｃ＝ｕｎｃｅｒｔａｉｎ（Ｕ）；／



根据不确定方法（１）或方法（２）或

８．ｅｎｄｗｈｉｌｅ

９．ｒｅｔｕｒｎＣＮＮ

假设在无标记样本池中，一轮内选出Ｋ个样本，以

ＬｅＮｅｔ５网络为分类器有Ｓ个卷积核，设单个卷积核计

算时间为ｔ

ｓ

，ＤＲＡＬ方法和不确定性方法的时间复杂

度分析如下：

不确定性方法：

Ｔ

Ｕ

＝Ｔ

ｓ

＋Ｔ

ｋ

（６）

ＤＲＡＬ方法：

Ｔ

Ｄ

＝Ｔ

ｓ

＋Ｔ

ｋ

＋Ｔ

Ｒ

（７）

式中：Ｔ

ｓ

是经过网络训练时间；Ｔ

ｋ

是排序选择样本时

间；Ｔ

Ｒ

是冗余度计算时间。

Ｔ

ｓ

＝ｔ

ｓ

ＫＳ＝Ｏ（ｔ

ｓ

Ｓ）（８）

Ｔ

ｋ

＝Ｋ＝Ｏ（１）　Ｔ

Ｒ

＝ＮＫ＝Ｏ（Ｎ）（９）

显然，ｔ

ｓ

Ｓ



Ｎ＞１，则Ｔ

ｓ



Ｔ

Ｒ

＞Ｔ

ｋ

，时间主要消

耗在训练神经网络上，则式（６）与式（７）有如下关系：

Ｔ

Ｕ

≈

Ｔ

Ｄ

≈

Ｏ（ｔ

ｓ

Ｓ）（１０）

由式（１０）可得出两种方法的运行时间大致相同。

４　实验与结果分析

４．１　数据集和网络结构

在Ｌｅｎｅｔ和ＮＩＮ模型上对Ｍｎｉｓｔ、Ｆａｓｈｉｏｎｍｎｉｓｔ，以

及Ｃｉｆａｒ１０进行多次实验。神经网络结构见表１和表

２，数据集的说明如下：

（１）Ｍｎｉｓｔ：２８×２８灰度图，共１０类。用于识别手

写数字数据集，其中：训练集５００００幅，验证集５０００

幅，测试集１００００幅。实验用１００００幅作为无标记样

本池。

（２）Ｆａｓｈｉｏｎｍｎｉｓｔ：２８×２８灰度图，共１０类。用

于识别时尚服装数据集，其中：训练集５００００幅，测试

集１００００幅。由于复杂度比Ｍｎｉｓｔ更高，实验用

２００００幅作为无标记样本池。

（３）Ｃｉｆａｒ１０：３２×３２×３彩色图，共１０类。用于

识别普适物体的小型数据集，其中：训练集５００００幅，

测试集１００００幅。实验用２００００幅作为无标记样

本池。

第３期　　　范纯龙，等：基于样本冗余度的主动学习优化方法

续表２

类型

Ｆｃ（ｄｒｏｐｏｕｔ２５％）

Ｆｃ

Ｓｏｆｔｍａｘ

核尺寸／步长

—

输出尺寸

１×１×５１２

１×１×１０

　２９５

表１　Ｍｎｉｓｔ和Ｆａｓｈｉｏｎｍｎｉｓｔ实验网络结构

类型

卷积

池化

卷积

池化

Ｆｃ（ｄｒｏｐｏｕｔ５０％）

Ｆｃ

Ｓｏｆｔｍａｘ

核尺寸／步长

３×３／１

２×２／２

３×３／１

２×２／２

—

表２　Ｃｉｆａｒ１０实验网络结构

类型

卷积

批归一化

卷积

池化

卷积

批归一化

卷积

池化

卷积

ＢＮ

卷积

核尺寸／步长

５×５／１

—

１×１／１

３×３／２

５×５／１

—

１×１／１

３×３／２

３×３／１

—

１×１／１

输出尺寸

３２×３２×１９２

３２×３２×１６０

３２×３２×９６

１５×１５×９６

１５×１５×１９２

７×７×１９２

７×７×６４

输出尺寸

２８×２８×３２

１３×１３×６４

６×６×６４

１×１×１２８

１×１×１０

４．２　实验参数

为了降低实验偶然性的影响，每个数据集实验都

是平均了５次的结果。每次实验中，为了避免模型在

训练过程中具有倾向性，每次迭代选择的验证集是从

现有的有标签集中的每类随机均匀抽取２％样本，且

ＮＮ初始化网络参数一样。在各个数据集实验的Ｃ

实验使用Ｐｙｔｈｏｎ平台的Ｋｅｒａｓ工具包，将ＤＲＡＬ

２６］２６］

方法与不确定性方法中的低可信度

［

、信息熵

［

和

８］

贝叶斯方法

［

进行了多次对比。对于Ｍｎｉｓｔ数据集，

ｎ００，Ｔ＝１５，Ｎ＝３，Ｋ＝１００，特征向量长度１２８，

０

＝１

网络结构见表１。对于Ｆａｓｈｉｏｎｍｎｉｓｔ数据集，ｎ

０

＝

２００，Ｔ＝２０，Ｎ＝１０，Ｋ＝１５０，特征向量长度２５６，网络

结构见表１，特别地，Ｆｃ层输出长度变为２５６。Ｃｉｆａｒ１０

数据集，考虑到数据集复杂性和网络训练问题为了能

减少过拟合和结果稳定性，ｄｒｏｐｏｕｔ值降低，ｎ

０

＝

１０００，Ｔ＝２０，Ｎ＝３０，Ｋ＝１５０，ｄｒｏｐｏｕｔ＝０．２５，特征向

１２。本文实验对比的是３．１节的不确定性量长度５

方法。

４．３　实验结果分析

为了验证ＤＲＡＬ算法有效性，由于数据集的复杂

度不同，因此不同的数据集使用不同的网络结构。结

果见图２。

图２　ＤＲＡＬ算法在不同数据集上的实验结果

　２９６　　　计算机应用与软件２０２１年

　　可以明显看出，ＤＲＡＬ算法在原有的不确定性方

法中有明显的提升。以不确定性方法的最高准确率所

ｎｉｓｔ中，不确定性方法达到９８％需样本为对比，在Ｍ

时，ｅｎｔｒｏｐｙ最高减少２８％样本，Ｂａｙｅｓｉａｎ方法最低减

少１６％样本；在Ｆａｓｈｉｏｎｍｎｉｓｔ中，不确定性方法达到

８５％时，ｌｅａｓｔ最高减少３０％样本，ｅｎｔｒｏｐｙ最少减少

１４％样本；在Ｃｉｆａｒ１０中，三种方法在达到５２％准确率

时，ｌｅａｓｔ最高减少２２％，Ｂａｙｅｓｉａｎ最少减少１１％样本。

从上述结果分析可知，ＤＲＡＬ方法在三种方法最高减

网络参数不一致，对于此问题，本实验尽可能让初始化

网络在测试集上效果相同。可以看出，当模型准确率

达到８０％时，前者比后者多了１００个有标记样本。所

以，特征向量越长所带有的信息量更多。

图３（ｂ）实验是在同样的数据集中，在ｎ００、

０

＝２

Ｔ＝２０、Ｋ＝１００、特征向量长度为２５６的条件下，候选

集的样本数量分别是３００和１０００，初始化网络参数均

相同。同样地，当模型准确率达到８０％时，前者比后

者多用了１００个有标记样本。通过该实验可以比较

少３０％样本，最低减少１１％样本。

从这些结果中可以发现，原来的三种不确定性方

法所选择的样本的信息对于分类器而言具有冗余性。

因为ＤＲＡＬ算法主要是经过冗余度算法选出冗余度小

的样本集。图２中准确率升高，相同样本数目下，信息

量变大，冗余度因此降低。以时间为代价，ＤＲＡＬ方法

可以合理有效提升不确定性方法。

为了降低潜变量特征向量长度和候选样本数目对

样本冗余度研究的影响，对潜变量特征向量长度和候

选样本数目进行了实验。在Ｆａｓｈｉｏｎｍｎｉｓｔ中，特征向

量分别是１２８和２５６以及候选样本数目分别是３００和

１０００的条件下，都经过ＤＲＡＬｌｅａｓｔ方法的两组实验。

信息冗余度与特征向量长度和候选样本数目关系实验

结果如图３所示。

图３　ＤＲＡＬ算法中特征向量长度

和候选样本数与冗余度的关系

图３（ａ）实验是在Ｆａｓｈｉｏｎｍｎｉｓｔ数据集中，候选样

本数量１０００的条件下，特征向量长度分别为１２８和

２５６。由于ＣＮＮ在最后一层的宽度不同，所以初始化

出，若候选样本数量较少时，候选样本集所带有的信息

量不足，但冗余度小，此时会受到样本数目的影响。

经过上述实验可以看出，经过ＣＮＮ计算得出的特

征向量维度越高，候选样本越多带有的信息量越多，经

过ＤＲＡＬ算法提升后效果越明显。而所选择的候选样

本数目越多，信息冗余性越强。经过ＤＲＡＬ算法提升

效果越好。

５　结　语

在主动学习池样本选择模式下，本文提出一种减

少样本信息冗余的ＤＲＡＬ方法，使用不确定性方法经

过ＣＮＮ选择大量的候选样本构成候选集，在候选集中

利用样本余弦距离关系进行第二次筛选，从而得到信

息量较大且冗余度小的样本集。该方法可以有效地减

少样本数据冗余，进一步减少模型所需的有标记样本

数量。未来可以进一步优化不确定性方法。

参考文献

［１］ＡｎｇｌｕｉｎＤ．Ｑｕｅｒｉｅｓａｎｄｃｏｎｃｅｐｔｌｅａｒｎｉｎｇ［Ｊ］．ＭａｃｈｉｎｅＬｅａｒｎ

ｉｎｇ，１９８８，２（４）：３１９－３４２．

［２］吴莹，罗明．基于改进的半监督主动学习的雷达信号识别

［Ｊ］．信号处理，２０１８，３４（６）：６６１－６６７．

［３］ＺｈｏｕＺ，ＳｈｉｎＪ，ＺｈａｎｇＬ，ｅｔａｌ．ＦｉｎｅＴｕｎｉｎｇｃｏｎｖｏｌｕｔｉｏｎａｌ

ｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｂｉｏｍｅｄｉｃａｌｉｍａｇｅａｎａｌｙｓｉｓ：Ａｃｔｉｖｅｌｙａｎｄ

ｉｎｃｒｅｍｅｎｔａｌｌｙ［Ｃ］／／２０１７ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉ

ｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１７．

［４］任红格，李冬梅，李福进．动态神经网络分类器主动学习

算法及其智能控制应用［Ｊ］．计算机应用与软件，２０１６，３３

（７）：２４７－２５１．

［５］ＴｏｎｇＳ，ＫｏｌｌｅｒＤ．Ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅａｃｔｉｖｅｌｅａｒｎｉｎｇｗｉｔｈ

ａｐｐｌｉｃａｔｉｏｎｓｔｏｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅ

ＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２００２，２（１）：９９９－１００６．

［６］ＷｕＤ．Ｐｏｏｌｂａｓｅｄｓｅｑｕｅｎｔｉａｌａｃｔｉｖｅｌｅａｒｎｉｎｇｆｏｒｒｅｇｒｅｓｓｉｏｎ

［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓａｎｄＬｅａｒｎｉｎｇ

Ｓｙｓｔｅｍｓ，２０１９，３０（５）：１３４８－１３５９．

［７］ＴｏｎｇＳ，ＫｏｌｌｅｒＤ．ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅＡｃｔｉｖｅＬｅａｒｎｉｎｇ

第３期　　　范纯龙，等：基于样本冗余度的主动学习优化方法　２９７

ｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｓｔｏＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａ

ｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２００２，２（１）：９９９－１００６．

［８］ＧａｌＹ，ＩｓｌａｍＲ，ＧｈａｈｒａｍａｎｉＺ．Ｄｅｅｐｂａｙｅｓｉａｎａｃｔｉｖｅｌｅａｒｎｉｎｇ

［Ｃ］／／３４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｗｉｔｈｉｍａｇｅｄａｔａ

ｃｈｉｎｅＬｅａｒｎｉｎｇ，２０１７．

［９］ＳｅｎｅｒＯ，ＳａｖａｒｅｓｅＳ．Ａｃｔｉｖｅｌｅａｒｎｉｎｇｆｏｒｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌ

ｎｅｔｗｏｒｋｓ：Ａｃｏｒｅｓｅｔａｐｐｒｏａｃｈ［ＥＢ］．ａｒＸｉｖ：１７０８．

００４８９，２０１７．

［１０］ＣｏｈｎＤ，ＡｔｌａｓＬ，ＬａｄｎｅｒＲ．Ｉｍｐｒｏｖｉｎｇｇｅｎｅｒａｌｉｚａｔｉｏｎｗｉｔｈａｃ

［Ｊ］．ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，１９９４，１５（２）：２０１ｔｉｖｅｌｅａｒｎｉｎｇ

［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓｓｕｂｓｅｔｓｅｌｅｃｔｉｏｎ

ａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２０１６，３８（１１）：２１８２－２１９７．

［２５］ＥｌｈａｍｉｆａｒＥ，ＳａｐｉｒｏＧ，ＹａｎｇＡ，ｅｔａｌ．Ａｃｏｎｖｅｘｏｐｔｉｍｉｚａｔｉｏｎ

ｆｒａｍｅｗｏｒｋｆｏｒａｃｔｉｖｅｌｅａｒｎｉｎｇ［Ｃ］／／２０１３ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌ

ＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２０１３．

［２６］ＭｏｏｓａｖｉＤｅｚｆｏｏｌｉＳＭ，ＦａｗｚｉＡ，ＦｒｏｓｓａｒｄＰ．ＤｅｅｐＦｏｏｌ：Ａｓｉｍ

［Ｊ］．

ｐｌｅａｎｄａｃｃｕｒａｔｅｍｅｔｈｏｄｔｏｆｏｏｌｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ

２０１６ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃ

ｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１６．

［２７］ＷａｎｇＫ，ＺｈａｎｇＤ，ＬｉＹ，ｅｔａｌ．ＣｏｓｔＥｆｆｅｃｔｉｖｅａｃｔｉｖｅｌｅａｒｎｉｎｇ

－２２１．

１１］ＦｒｅｕｎｄＹ，ＳｅｕｎｇＨＳ，ＳｈａｍｉｒＥ，ｅｔａｌ．Ｓｅｌｅｃｔｉｖｅｓａｍｐｌｉｎｇｕ

ｓｉｎｇｔｈｅｑｕｅｒｙｂｙｃｏｍｍｉｔｔｅｅａｌｇｏｒｉｔｈｍ［Ｊ］．ＭａｃｈｉｎｅＬｅａｒｎ

ｉｎｇ，１９９７，２８（２－３）：１３３－１６８．

１２］ＤａｇａｎＩ，ＥｎｇｅｌｓｏｎＳＰ．ＣｏｍｍｉｔｔｅｅＢａｓｅｄｓａｍｐｌｉｎｇｆｏｒｔｒａｉｎ

ｉｎｇｐｒｏｂａｂｉｌｉｓｔｉｃｃｌａｓｓｉｆｉｅｒｓ［Ｃ］／／ＴｗｅｌｆｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎ

ｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，１９９５：１５０－１５７．

１３］ＣｈａｔｔｏｐａｄｈｙａｙＲ，ＷａｎｇＺ，ＦａｎＷ，ｅｔａｌ．Ｂａｔｃｈｍｏｄｅａｃｔｉｖｅ

ｓａｍｐｌｉｎｇｂａｓｅｄｏｎｍａｒｇｉｎａｌｐｒｏｂａｂｉｌｉｔｙｄｉｓｔｒｉｂｕｔｉｏｎｍａｔｃｈｉｎｇ

［Ｊ］．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｆｒｏｍＤａｔａ，

２０１３，７（３）：１－２５．

１４］ＤｕｃｏｆｆｅＭ，ＰｒｅｃｉｏｓｏＦ．Ａｄｖｅｒｓａｒｉａｌａｃｔｉｖｅｌｅａｒｎｉｎｇｆｏｒｄｅｅｐ

ｎｅｔｗｏｒｋｓ：Ａｍａｒｇｉｎｂａｓｅｄａｐｐｒｏａｃｈ［ＥＢ］．ａｒＸｉｖ：１８０２．

０９８４１，２０１８．

１５］ＣａｒｄｏｓｏＴＮＣ，ＳｉｌｖａＲＭ，ＣａｎｕｔｏＳ，ｅｔａｌ．Ｒａｎｋｅｄｂａｔｃｈ

ｍｏｄｅａｃｔｉｖｅｌｅａｒｎｉｎｇ［Ｊ］．ＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅｓ，２０１７，３７９：

３１３－３３７．

１６］ＷａｎｇＺ，ＹｅＪ．Ｑｕｅｒｙｉｎｇｄｉｓｃｒｉｍｉｎａｔｉｖｅａｎｄｒｅｐｒｅｓｅｎｔａｔｉｖｅ

ｓａｍｐｌｅｓｆｏｒｂａｔｃｈｍｏｄｅａｃｔｉｖｅｌｅａｒｎｉｎｇ［Ｊ］．ＡＣＭＴｒａｎｓａｃ

ｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｆｒｏｍＤａｔａ，２０１５，９（３）：１

－２３．

１７］ＬｉＸ，ＧｕｏＹ．Ａｄａｐｔｉｖｅａｃｔｉｖｅｌｅａｒｎｉｎｇｆｏｒｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ

［Ｃ］／／２０１３ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔ

ｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０１３：８５９－８６６．

１８］ＨｕａｎｇＳＪ，ＪｉｎＲ，ＺｈｏｕＺＨ，ｅｔａｌ．Ａｃｔｉｖｅｌｅａｒｎｉｎｇｂｙｑｕｅｒ

ｙｉｎｇｉｎｆｏｒｍａｔｉｖｅａｎｄｒｅｐｒｅｓｅｎｔａｔｉｖｅｅｘａｍｐｌｅｓ［Ｃ］／／２３ｒｄＩｎ

ｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓ

ｔｅｍｓ，２０１０．

１９］ＬｉｎＭ，ＣｈｅｎＱ，ＹａｎＳ．Ｎｅｔｗｏｒｋｉｎｎｅｔｗｏｒｋ［Ｊ］．ａｒＸｉｖ：１３１２．

４４００，２０１３．

２０］ＦｕＹ，ＺｈｕＸ，ＬｉＢ．Ａｓｕｒｖｅｙｏｎｉｎｓｔａｎｃｅｓｅｌｅｃｔｉｏｎｆｏｒａｃｔｉｖｅ

ｌｅａｒｎｉｎｇ［Ｊ］．ＫｎｏｗｌｅｄｇｅａｎｄＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ，２０１３，３５

（２）：２４９－２８３．

２１］ＡｃｔｉｖｅＬｅａｒｎｉｎｇ［Ｊ］．Ｓｃｉｅｎｃｅ，２０１１，３３２（６０３１）：７６５－７６５．

２２］ＳｅｔｔｌｅｓＢ．Ａｃｔｉｖｅｌｅａｒｎｉｎｇｌｉｔｅｒａｔｕｒｅｓｕｒｖｅｙ［Ｄ］．ＵＳ：Ｕｎｉｖｅｒｓｉ

ｔｙｏｆＷｉｓｃｏｎｓｉｎＭａｄｉｓｏｎ，２００９．

２３］ＫｉｍＢ，ＰｉｎｅａｕＪ．Ｍａｘｉｍｕｍｍｅａｎｄｉｓｃｒｅｐａｎｃｙｉｍｉｔａｔｉｏｎｌｅａｒｎ

ｉｎｇ［Ｃ］／／ＲｏｂｏｔｉｃｓＳｃｉｅｎｃｅａｎｄＳｙｓｔｅｍｓ，２０１３．

２４］ＥｌｈａｍｉｆａｒＥ，ＳａｐｉｒｏＧ，ＳａｓｔｒｙＳＳ．Ｄｉｓｓｉｍｉｌａｒｉｔｙｂａｓｅｄｓｐａｒｓｅ

ｆｏｒｄｅｅｐｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒ

ｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ，２０１７，２７（１２）：２５９１

－２６００．



（上接第２６８页）

［１２］ＬｉｕＺ，ＭａＪ，ＰｅｉＱ，ｅｔａｌ．Ｋｅｙｉｎｆｅｃｔｉｏｎ，ｓｅｃｒｅｃｙｔｒａｎｓｆｅｒ，

ａｎｄｋｅｙｅｖｏｌｕｔｉｏｎｆｏｒｓｅｎｓｏｒｎｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃ

ｔｉｏｎｓｏｎＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１０，９（８）：２６４３

－２６５３．

［１３］ＪｉａＸ，ＸｉｎＦ，ＣｈｕａｎＷＲ．Ａｄａｐｔｉｖｅｓｔｒａｙｒｏｕｔｉｎｇｆｏｒｏｐｐｏｒ

ｔｕｎｉｓｔｉｃｎｅｔｗｏｒｋｓ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｎＳｍａｒｔＳｅｎｓｉｎｇ

ａｎｄＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１３，６（１）：９５－１１９．

［１４］吕琳媛．复杂网络链路预测［Ｊ］．电子科技大学学报，

２０１０，３９（５）：６５１－６６１．

［１５］ＬｉｂｅｎＮｏｗｅｌｌＤ，ＫｌｅｉｎｂｅｒｇＪ．Ｔｈｅｌｉｎｋｐｒｅｄｉｃｔｉｏｎｐｒｏｂｌｅｍ

ｆｏｒｓｏｃｉａｌｎｅｔｗｏｒｋｓ［Ｊ］．ＪｏｕｒｎａｌｏｆｔｈｅＡｍｅｒｉｃａｎＳｏｃｉｅｔｙｆｏｒ

ＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，２００７，５８（７）：１０１９

－１０３１．

［１６］ＰｕｊａｒｉＭ，ＫａｎａｗａｔｉＲ．Ｓｕｐｅｒｖｉｓｅｄｒａｎｋａｇｇｒｅｇａｔｉｏｎａｐｐｒｏａｃｈ

ｆｏｒｌｉｎｋｐｒｅｄｉｃｔｉｏｎｉｎｃｏｍｐｌｅｘｎｅｔｗｏｒｋｓ［Ｃ］／／２１ｓｔＷｏｒｌｄ

ＷｉｄｅＷｅｂＣｏｎｆｅｒｅｎｃｅ，２０１２：１１８９－１１９６．

［１７］ＬüＬ，ＰａｎＬ，ＺｈｏｕＴ，ｅｔａｌ．Ｔｏｗａｒｄｌｉｎｋｐｒｅｄｉｃｔａｂｉｌｉｔｙｏｆ

ｃｏｍｐｌｅｘｎｅｔｗｏｒｋｓ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙ

ｏｆＳｃｉｅｎｃｅｓ，２０１５，１１２（８）：２３２５－２３３０．

［１８］ＢｅｎｃｈｅｔｔａｒａＮ，ＫａｎａｗａｔｉＲ，ＲｏｕｖｅｉｒｏｌＣ．Ｓｕｐｅｒｖｉｓｅｄｍａ

ｃｈｉｎｅｌｅａｒｎｉｎｇａｐｐｌｉｅｄｔｏｌｉｎｋｐｒｅｄｉｃｔｉｏｎｉｎｂｉｐａｒｔｉｔｅｓｏｃｉａｌ

ｎｅｔｗｏｒｋｓ［Ｃ］／／２０１０ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｄｖａｎｃｅｓ

ｉｎＳｏｃｉａｌＮｅｔｗｏｒｋｓＡｎａｌｙｓｉｓａｎｄＭｉｎｉｎｇ（ＡＳＯＮＡＭ），２０１０：

３２６－３３０．

［１９］姚飞亚，陈肞．基于相似度传播的二分网络链接预测

［Ｊ］．计算机科学，２０１６，４３（４）：８６－９１．

［２０］ＬｉＸ，ＣｈｅｎＨ．Ｒｅｃｏｍｍｅｎｄａｔｉｏｎａｓｌｉｎｋｐｒｅｄｉｃｔｉｏｎｉｎｂｉｐａｒ

ｔｉｔｅｇｒａｐｈｓ：Ａｇｒａｐｈｋｅｒｎｅｌｂａｓｅｄｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｐｐｒｏａｃｈ

［Ｊ］．ＤｅｃｉｓｉｏｎＳｕｐｐｏｒｔＳｙｓｔｅｍｓ，２０１３，５４（２）：８８０－８９０．

［２１］ＤｅｚａＭＭ，ＤｅｚａＥ．Ｅｎｃｙｃｌｏｐｅｄｉａｏｆｄｉｓｔａｎｃｅｓ［Ｍ］．Ｓｐｒｉｎｇ

ｅｒ，２００９．

［２２］彭海．皮尔逊相关系数应用于医学信号相关度测量［Ｊ］．

电子世界，２０１７（７）：１６３．

［

本文标签：样本选择方法问题冗余度

版权声明：本文标题：基于样本冗余度的主动学习优化方法内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1711426564a309167.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

基于样本冗余度的主动学习优化方法

更多相关文章

如何恢复u盘数据？数据恢复，就看这4个方法！

u盘系统文件删除后的五种恢复方法

U盘文件夹为空恢复方法，恢复U盘的空白文件夹

一份完整的app产品运营推广方案，app推广运营的方法（二

一个程序员如何快速下载软件方法总结

手动安装WSL的方法,绕开Microsoft Store安装Ubuntu并安装到其他盘,以及后续一些配置

arduino IDE 安装 esp8266开发板错误的终极解决办法，此方法百分十九十能解决值得一试。

将Windows Server 2012改造成桌面操作系统（Windows 8)的方法

u盘自动运行bat_如何让u盘插入电脑后自动播放 u盘插入电脑后自动播放方法

ubuntu命令行使用u盘方法

Ubuntu使用U盘的方法

iPhone如何连接U盘呢 iphone连接u盘方法教程

如何清除计算机的u盘使用记录,win7如何删除u盘使用记录？win7清除u盘使用痕迹方法...

win10系统没声音 服务器,解决Win10正式版没有声音的五种方法

计算机的默认登录账户,win10如何设置默认登录账户_win10电脑设置默认账户登录的两种方法...

w ndows10重设,win10系统更改windows登陆方式的方法

Win10(19031909版本)关闭Windows defender的方法

microsoftstore连不上网_win10应用商店无法联网怎么办_解决win10商店连不上网的方法...

Ubuntu18.04启动后无法进入桌面修复方法（图文）

电脑更新驱动后黑屏，无限循环输入密码但无法进入桌面（全网最简洁方法，亲测有效）

发表评论

推荐文章

XiaoHu.ai开发日志（自2018年2月6日至2019年4月11日）

.net网站iis应用池完美解决方案

【AI+CAD】（一）ezdxf 解析DXF文件

如何清除chrome浏览器缓存

VMWare 下安装 MSDN版 MS-DOS 6.22

热门文章

Ubuntu 安装 google chrome

计算机无法访问家庭组内打印机,Win7电脑无法连接共享打印机拒绝访问怎么办...

计算机怎么连接佳能打印机驱动,佳能打印机怎么连接电脑

itools电脑显示服务器维护,iTools无法打开且服务无法启动怎么解决？-电脑自学网...

Linux之文件系统与软硬链接

给 Gradle 初学者的 知识普及 http:mp.weixin.qq.coms?__biz=MzA4NTQwNDcyMA==&amp;mid=2650661971&amp;idx=1&amp;sn=3fb69537

如何在Linux系统（以Ubuntu20.04为例）安装QQ、微信等常用APP

超全的英语短句汇集

老毛桃一键还原

win10手机系统 Android,Win10 Mobile内置完整安卓系统

最新文章

[分享]错误“应用程序Xcode的这个版本不能与此版本的OS X配合使用”以及Mac源码和IOS开发资料分享...

iOS8: 企业开发的终结？

作业 20181127-3 互评Beta版本

iOS 开发问与答(160-173)

《iOS移动开发从入门到精通》图书连载2：如何成为一名iOS开发者

Xcode 不同版本的链接地址

iPad iOS8.0升级和Xcode 6.0.1公布了，附Xcode 6.0.1下载地址

iPad iOS8.0升级和Xcode 6.0.1发布了，附Xcode 6.0.1下载地址

Xcode(xip)官方原版下载 Xcode 所有历史版本

苹果已推送macOS Big Sur11.3的第四个Beta版

[iOS笔试600题]二、常识篇（共有72题）

macOS Ventura 13.0.1 （22A400）恢复版镜像

macOS Ventura 13 正式版系统（内部版本号：22A380）官方原版dmg镜像

②(常识篇)、《史上最全iOS八股文面试题》2022年,金三银四我为你准备了,iOS《1000条》笔试题以及面试题(包含答案)。带面试你过关斩将,(赶紧过来背iOS八股文)

ios8.1.3 刷机8.2beta越狱 真机调试 一起喝成

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

win10系统没声音服务器,解决Win10正式版没有声音的五种方法

给 Gradle 初学者的知识普及 http:mp.weixin.qq.coms?__biz=MzA4NTQwNDcyMA==&mid=2650661971&idx=1&sn=3fb69537

ios8.1.3 刷机8.2beta越狱真机调试一起喝成

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载