PAC

编程入门行业动态更新时间:2024-10-05 01:26:41

PAC

PAC（概率近似正确）理论

在给定训练集D的情况下，我们希望基于学习算法algorithm学得的模型所对应的假设h尽可能的接近目标概念c.也就是说，以较大的概率学得的误差满足预设上限的模型，这就是“概率”“近似正确”的含义。

VC维

Poper哲学思想（证伪主义）：有一些说法（例如我家车库有条龙）即使无法推翻，也不应该被确证。现在科学界公认的一条黄金定律——一个学说只有具备可证伪性才应该被肯定。 Poper认为：一切科学定律都是一种理性的冒险，它们随时都有被推翻的危险，但是那是一种人类的进步，因为我们对世界的认识又加深了一层。
VC维：在 Popper 哲学思想的影响下, Vapnik 和 Cher-vonenkis 提出了Vapnik-Chervonenkis (VC) 熵、生长函数和 VC 维等一系列著名的复杂性度量, 并将 VC 维用于刻画和度量假设空间的复杂性, 从而来估计和控制学习模型的泛化能力. 但是, 由于 VC 维是在假设空间上引入额外的度量,并且 VC 维与所给的样本数据集 (分布) 无关或是说数据独立 (Data independent) 等特点, 使其在进行学习模型泛化能力分析方面显得过于保守.

增长函数定义：表示假设空间H对m个示例所能赋予标记的最大可能结果数。例：对于二分类问题，2个示例，赋予标记的可能结果数是4；3个示例，赋予标记的可能结果数是8；即：2的m次方。
VC维定义：假设空间的VC维是能被H打散的最大示例集的大小。
正因为增长函数与VC维有着密切的关系，而根据PAC理论得出的泛化误差界由于增长函数有关系。从而可以得到基于VC维的泛化误差界。
基于VC维的泛化误差界只与样例数目m有关，与样本数据分布无关、数据独立的，也就是说对于任何数据分布都成立，这使得基于VC维的可学习性分析结果具有一定的“普适性”，但从另一方面来说，由于没有考虑数据自身，基于VC维得到的泛化误差边界通常比较“松散”。