概率论与统计学修炼秘籍之知识体系"/>
人工智能中的概率论与统计学修炼秘籍之知识体系
本文首先为读者阐明概率论与统计学的基本概念、研究内容及相互关系,使读者对概率论与统计学有个大致的了解;然后,介绍统计学的两大流派,即频率派和贝叶斯派,让读者对统计学的发展历程和研究方法有深入的认识;随后,从影响随机事件结果的决定因素和随机变量的不同类型两个视角描述了概率论与统计学的大致学习思路,让读者对概率论和统计学的学习有清晰的思路;最后,重点介绍了人工智能中的概率论与统计学的知识体系,让读者明白学习人工智能时必须具备概率论与统计学的哪些知识。
1.概率论与统计学的基本概念、研究内容及相互关系
机器学习是AI的核心理论基础,而概率论与统计学则是机器学习的重要数学基础,由此可见,概率论与统计学是AI的重要理论支柱,学好概率论与统计学至关重要。概率论是研究随机现象数量规律的数学分支,是一门研究事情发生的可能性的学问。通常用随机变量代表一个随机事件,而用随机变量的取值代表随机事件的结果。因此,概率论主要研究随机变量的概率、分布函数、数值特征、特征函数等主要内容。概率论主要解决关于随机事件发生的可能性及其结果的数学特性等方面的问题。统计学是通过搜集数据、整理数据、描述数据、分析数据等手段以达到推断所研究对象的本质,或者预测对象未来趋势的一门综合性学科。统计学要解决的是如何从已有的数据中发掘其统计规律。即,当面对一大堆数据时,如何对数据进行处理,从而挖掘其蕴藏的价值。它主要包括数据预处理、数据建模、模型检验、模型应用等步骤。概率论偏理论,而统计学则偏应用。通俗地说,概率论可视为统计学的重要理论支撑,而统计学则是概率论的具体应用。
2.统计学的两大流派:频率派和贝叶斯派
统计学领域的研究人员大致可以分为频率派和贝叶斯派两个派别。对于概率定义的不同理解是频率派和贝叶斯派的根本区别。频率派认为概率是客观概率,可以用事件结果出现的频率来计算。贝叶斯派所理解的概率则是主观概率,它描述的是人们相信一个事件结果出现的可能性,随着观测到的数据的不断增加,人们不断修正自己心中所认为的这个可能性的大小。频率派认为统计模型的参数是唯一的(即当模型使得评价指标取得最优值时,该参数对应的值)。贝叶斯派则认为,模型中的参数值是不唯一的,参数的值也可以用统计分布来描述。频率派一般先求似然函数,然后求似然函数的最大值来获得模型的参数值,即使用极大似然估计方法求模型参数。贝叶斯派一般先求后验概率,然后求后验概率的最大值来获得模型的参数值,即使用最大后验概率估计方法求模型参数。在计算机和数据抽样方法没有发明之前,后验概率的求解非常困难。这导致贝叶斯派的理论无法拓展到应用层面,而只能够停留在理论层面。从而,在统计学发展的早期,频率派占有较大优势。后来,由于计算机的发明以及蒙特卡洛和吉布斯采样等数据抽样方法的出现,使得贝叶斯派方法的应用成为可能。相比于频率派的统计建模过程,由于贝叶斯派的统计建模方法利用较少的数据就能够获得较为精确的模型参数估计结果,其在现代统计应用中占有更大的优势。将频率派和贝叶斯派的主要区别总结于表 3.1,方便读者理解。
表 3.1 频率派和贝叶斯派的主要区别
不同之处 | 频率派 | 贝叶斯派 |
概率定义 | 客观概率 | 主观概率 |
参数的唯一性 | 唯一,参数取值为最优值 | 不唯一,参数也由分布来描述 |
求解模型参数的常用方法 | 极大似然估计 | 最大后验概率估计 |
3.概率论与统计学的学习思路
如何简明扼要地理解概率论与统计学的大致学习思路。可以从影响随机事件结果的决定因素、随机变量的不同类型两个视角来加以理解。
首先,可以从影响随机事件结果的决定因素来理解概率论与统计学的大致学习思路。早期的研究中,认为随机事件的结果只与随机变量相关,研究随机变量的概率、数字特征等问题;接下来,考虑随机事件的结果不仅仅与随机变量相关,还与时间相关的问题,开始研究随机变量序列的问题,于是产生了随机过程这一新的研究领域;随机事件的结果,除了与随机变量、时间相关外,还可以与空间的位置相关,于是产生了随机场这一新的研究领域。因此,可以按照:概率论与数理统计→随机过程→随机场这样的顺序来理解概率论与统计学的大致学习思路。
此外,可以从随机变量的类型来理解概率论与统计学的大致学习思路。随机变量可以是一元的或多元的,随机变量也可以是连续或离散的,这样两两交叉组合,可以得到四种不同类型的随机变量:一元连续变量、多元连续变量、一元离散变量、多元离散变量。所以可以按照一元连续变量、多元连续变量、一元离散变量、多元离散变量来理解概率论与统计学的大致学习思路。
读者可以从上述两个视角,对照相关参考书籍进行概率论与统计学的系统学习。在《人工智能中的概率论与统计学修炼秘籍之著名教材》中将推荐一些著名的教材,方便读者学习。
4.人工智能中的概率论与统计学的知识体系
概率论与统计学的内容非常庞杂,学习起来需要花费大量的时间和心血。图 3 9所列的知识是学习AI必须掌握的概率论与统计学中的核心内容,具体包括:
图 3 9 学习AI必须知道的概率论和统计学知识
(1) 弄清楚随机事件的基本定义、随机变量的基本概念,了解随机变量的类型
概率论是一门研究随机事件的学科,因此必须首先弄清楚随机事件的基本定义。随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件。在定义了随机事件后,就必须对事件进行描述、一种自然的想法就是用文字进行描述,但这种方式不够简洁,而且描述其特性非常不方便。于是就引入了随机变量的概念。随机变量用数学变量对随机事件进行描述,并用变量的取值来描述随机事件的结果。从取值是否连续,随机变量可以分为连续随机变量与离散随机变量。从变量的维数,可以将随机变量分为一元随机变量和多元随机变量。
(2) 掌握概率、概率密度的概念及其表示
概率,亦称“或然率”,它反映随机事件出现的可能性大小。概率密度即概率密度函数。在数学中,连续型随机变量的概率密度函数是一个描述这个随机变量的输出值在某个确定的取值点附近的可能性的函数。
(3) 会计算随机变量的联合分布、边缘分布、条件分布
首先,要会计算二元随机变量的联合分布、边缘分布、条件分布。其次,当随机变量的维数为任意数时,也要求会计算上述分布。
(4) 掌握先验概率、后验概率的基本概念及其计算方法
首先需要搞清楚先验概率、后验概率的基本概念。其次,要会利用贝叶斯公式计算后验概率。
(5) 掌握随机变量的均值、方差、协方差、协方差矩阵、矩、相关系数的基本概念及其计算方法
均值、方差、协方差、协方差矩阵、矩、相关系数等是描述随机变量数字特征的指标,根据这些指标可以刻画随机变量的特性,必须会计算这些指标。
(6) 掌握常见的随机变量的分布函数及其特征
掌握常见的随机变量的分布函数,例如高斯分布、伯努利分布等;会计算这些常见分布的数字特征;理解不同分布之间的相互关系。例如二项分布和伯努利分布之间的关系等。
(7) 掌握统计模型的参数估计的基本方法,重点掌握极大似然估计、最大后验概率估计等
模型的参数估计是构建统计模型的关键步骤,需要重点掌握极大似然估计、最大后验概率估计等方法。此外,最小二乘估计也是一种常用的统计模型的参数估计方法,也必须掌握。
(8) 理解假设检验的基本概念、作用,掌握进行假设检验的基本方法
假设检验要做的事情是对一个或多个总体的分布函数或参数未知或部分已知的情况下,提出分布函数或其参数的假设,通过抽取样本,构造适当的统计量,根据样本对所提出的假设做出拒绝或接受的决定。假设检验的目的是对分布函数或其参数的假设是否正确做出判断。假设检验用的方法是“反证法”,原理是“小概率事件原理”,即小概率事件在日常观察中一般是不会发生的。如果观测到了假设的反面发生的情形,则表明原来的假设是不正确的。读者需要掌握置信区间法、卡方检验等假设检验的方法。
(9) 理解多元统计分析与常规统计分析的区别、难点
常规统计分析一般针对变量维数为一维的情形,而多元统计分析则是针对变量维数为任意维数的情形。多元统计分析往往需要用矩阵来计算,涉及到矩阵分析和矩阵计算的数学技巧,所以难度较大。
(10) 掌握多元高斯随机变量的均值向量、方差矩阵、协方差矩阵、相关系数矩阵的推导
一元高斯分布是常见的概率论与数理统计教材的重点内容,这是因为通常认为一维变量的分布一般可以用一元高斯分布来描述。现实生活中,随机变量的维数往往是多维的,则必须将一元高斯分布推广到多元高斯分布的情形,因此掌握多元高斯分布的模型,会进行多元高斯随机变量的均值向量、方差矩阵、协方差矩阵、相关系数矩阵的推导是学习多元统计分析的关键。
(11) 掌握随机过程的基本概念、作用及其统计描述
随机过程其本质就是随机变量序列的集合。该集合中的每个元素均为随机变量且往往与时间有关。随机过程的引入是为了更好地描述现实世界中的不确定性,包括数据的不确定性、运动的不确定性等。例如用随机过程来更好地刻画含有噪声的大数据等。对随机过程的特性可以采用统计模型来描述,包括泊松过程、马尔科夫链等,必须认真掌握。
(12) 掌握马尔科夫链基本概念、作用及其统计描述
马尔科夫链是概率论和数理统计中具有马尔科夫性质且存在于离散的指数集和状态空间内的随机过程。马尔科夫链可以很好地用于刻画具有无记忆特性的系统。马尔科夫链应用广泛,必须熟练掌握马尔科夫链的统计模型。
(13) 掌握马尔科夫随机场基本概念、作用及其统计描述
马尔科夫随机场属于概率图模型,是典型的马尔科夫网,也是一种无向图的生成模型。马尔科夫随机场在图像处理、语音识别等领域应用非常广泛,需要对其进行认真掌握。
关于人工智能中的概率论与统计学修炼秘籍的更多介绍,可以购买《人工智能怎么学》进一步阅读。
图书购买方式
京东:.html
当当:.html
天猫:.htm?id=687374654836
为了让图书惠及更多的读者,为更多想学习人工智能的人提供帮助,经过向出版社申请,对图书《人工智能怎么学》的部分内容进行改编和连载。图书《人工智能怎么学》的全部内容包含了初级入门、中阶提高以及高级进阶三个级别的内容。连载的内容主要是初级入门级别,适合想对人工智能进行快速和高效入门的读者,对于已有一定的人工智能学习基础,希望进一步进阶或提高的读者,则需要购买图书《人工智能怎么学》,学习中阶提高以及高级进阶的内容。此外,对于学习人工智能感兴趣的读者,也可以加入知识星球《人工智能怎么学》,知识星球是一个构建学习社群的平台,通过加入《人工智能怎么学》的社群,你将获得更多的学习资料和课程信息。
与作者互动和了解更多信息
想跟作者一起学习人工智能和互动,你可以加入如下社群:
知识星球:
QQ群:600587177
想了解更多关于人工智能学习及实践的内容,请关注如下媒体:
官方网站:
官方微信公众号:人工智能怎么学(可扫描下方二维码或者微信搜索“人工智能怎么学”添加关注)
CSDN:
参考文献
张文俊. 数学欣赏[M]. 北京: 科学出版社, 2011.
李文林. 数学史概论 第4版[M]. 北京: 高等教育出版社, 2021.
方开泰. 漫漫修远攻算路:方开泰自述[M]. 长沙: 湖南教育出版社, 2016.
徐品方. 数学王子——高斯[M]. 哈尔滨: 哈尔滨工业大学出版社, 2018.
同济大学数学系. 高等数学(第7版)[M]. 北京: 高等教育出版社, 2014.
李忠,周建莹. 高等数学(第2版)[M]. 北京: 北京大学出版社, 2009.
Joel Hass et al.Thomas’ Calculus: Early Transcendentals (Fourteenth Edition)[M]. Pearson, 2018.
Ron Larson, and Bruce Edwards. Calculus (Eleventh Edition)[M]. Cengage Learning, 2018.
华东师范大学数学科学学院. 数学分析(第5版)[M]. 北京: 高等教育出版社, 2019.
常庚哲, 史济怀. 数学分析教程(第3版)[M]. 合肥: 中国科学技术大学出版社, 2012.
Walter Rudin. Principles of Mathematical Analysis (ThirdEdition) [M]. McGraw-Hill Education, 1976.
Vladimir A. Zoric. Mathematical Analysis (Second Edition)[M]. Springer, 2016.
Elias M. Stein, and RamiShakarchi. Real Analysis: Measure Theory, Integration, and Hilbert Spaces [M]. Princeton University Press,2004.
Elias M. Stein, and Rami Shakarchi. Complex Analysis [M]. Princeton University Press,2005.
Elias M. Stein, and Rami Shakarchi. Fourier Analysis: AnIntroduction [M]. PrincetonUniversity Press,2003.
Elias M. Stein, and Rami Shakarchi. Functional Analysis:Introduction to Further Topics in Analysis[M]. Princeton University Press, 2011.
丘维声. 简明线性代数[M]. 北京: 北京大学出版社, 2002.
居于马. 线性代数(第2版)[M]. 北京: 清华大学出版社, 2002.
李尚志. 线性代数[M]. 北京: 高等教育出版社, 2002.
李炯生. 线性代数(第2版)[M]. 合肥: 中国科学技术大学出版社, 2010.
龚昇. 线性代数(第2版)[M]. 合肥: 中国科学技术大学出版社, 2005.
任广千, 谢聪, 胡翠芳. 线性代数的几何意义[M]. 西安: 西安电子科技大学出版社, 2015.
Kuldeep Singh. Linear Algebra: Step by Step [M]. OxfordUniversity Press,2014.
Gilbert Strang. Introduction to Linear Algebra (FifthEdition) [M]. Wellesley-Cambridge Press, 2016.
David C. Lay et al. Linear Algebra and Its Application (FifthEdition) [M]. Pearson,, 2016.
Sheldon Axler. Linear Algebra Done Right (Third Edition) [M].Springer, 2015.
Gerald Farin, and Dianne Hansford. Practical Linear Algebra:A Geometry Toobox (Third Edition) [M]. CRC Press, 2013.
Gilbert Strang. Linear Algebra and Learning from Data [M].Wellesley-Cambridge Press, 2019.
徐仲. 矩阵论简明教程(第3版)[M]. 北京: 科学出版社, 2014.
张贤达. 矩阵分析与应用(第2版)[M]. 北京: 清华大学出版社, 2013.
Gene H. Golub, and Charles F. Van Loan. Matrix Computation(Fourth Edition) [M]. The Johns Hopkins University Press, 2013.
Roger A. Horn, and Charles R. Johnson. Matrix Analysis(Second Edition) [M]. Cambridge University Press, 2013.
盛骤, 谢式千, 潘承毅. 概率论与数理统计(第4版)[M]. 北京: 高等教育出版社, 2008.
陈希孺. 概率论与数理统计[M]. 合肥: 中国科学技术大学出版社, 2017.
Jay L. Devore. Probability and Statistics for Engineering andthe Sciences (Ninth Edition) [M]. Cengage Learning, 2016.
Morris H. DeGroot, and Mark J. Schervish . Probabilityand Statistics (Forth Edition) [M]. Pearson, 2012.
高惠璇. 应用多元统计分析[M]. 北京大学出版社, 2004.
王静龙. 多元统计分析[M]. 科学出版社, 2008.
T. W. Anderson. An Introduction to Multivariate StatisticalAnalysis (Third Edition) [M]. John Wiley & Sons, 2003.
Richard A. Johnson, and Dean W. Wichern . Applied Multivariate Statistical Analysis (SixthEdition) [M]. Pearson, 2007.
程士宏. 测度论与概率论基础[M]. 北京: 北京大学出版社, 2004.
严加安. 测度论讲义(第2版)[M]. 北京: 科学出版社, 2004.
Krishna B. Athreya, and Soumendra N. Lahiri. Measure Theoryand Probability Theory (Third Edition) [M]. Springer, 2006.
Paul R. Halmos. Measure Theory [M]. Springer Science+Business Media, 1974.
胡迪鹤. 高等概率论及其应用[M]. 北京: 高等教育出版社, 2008.
郑忠国. 高等统计学[M]. 北京: 北京大学出版社, 2012.
Craig A. Mertler, and Rachel Vannatta Reinhart. Advanced andMultivariate Statistical Methods: Practical Application and Interpretation(Sixth Edition) [M]. Routledge, 2017.
Eugene Demidenko. Advanced Statistics with Applications in R[M]. John Wiley & Sons, 2020.
何书元. 随机过程[M]. 北京: 北京大学出版社, 2008.
张波, 张景肖. 应用随机过程[M]. 北京: 清华大学出版社, 2004.
Sheldon M. Ross. Introduction to Probability Models (TwelfthEdition) [M]. Academic Press, 2019.
Robert G. Gallager. Stochastic Processes: Theory for Applications[M]. John Wiley & Sons, 2013.
David Forsyth. Probability and Statistics for ComputerScience (Twelfth Edition) [M]. Springer, 2018.
Luc Devroye et al. A Probabilistic Theory of PatternRecognition [M]. Springer, 1997.
《运筹学》教材编写组. 运筹学(第4版)[M]. 北京: 清华大学出版社, 2013.
胡运权, 郭耀煌. 运筹学教程(第5版)[M]. 北京: 清华大学出版社, 2018.
Frederick S. Hillier, and Gerald J. Lieberman. Introductionto Operation Research (Tenth Edition) [M]. McGraw-Hill Education, 2015.
Hamdy A. Taha. Operation Research:An Introduction(Tenth Edition) [M]. Pearson, 2017.
陈宝林. 最优化理论与算法(第2版)[M]. 北京: 清华大学出版社, 2018.
高立. 数值最优化方法[M]. 北京: 北京大学出版社, 2014.
Edwin K. P. Chong, and Stanislaw H. Zak. An Introduction toOptimization (Fourth Edition) [M]. John Wiley & Sons, 2013.
Jorge Nocedal, and Stephen J. Wright. Numerical Optimization(Second Edition) [M]. Springer, 2006.
Stephen Boyd, and Lieven Vandenberghe. Convex Optimization[M]. Cambridge University Press, 2004.
Yuni Nesterov. Lectures on Convex Optimization (SecondEdition) [M]. Springer, 2018.
李航. 统计学习方法(第2版)[M]. 北京: 清华大学出版社, 2019.
周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.
Yuni Nesterov. The Elements of Statistical Learning: DataMining, Inference, and Prediction (Second Edition) [M]. Springer, 2009.
Tom M. Mitchell. Machine Learning [M]. McGraw-Hill Education,1997.
Christopher Bishop. Pattern Recognition and Machine Learning[M]. Springer, 2006.
Mehryar Mohri et al. Foundation of Machine Learning (SecondEdition) [M]. The MIT Press, 2018.
Kevin P. Murphy. Probabilistic Machine Learning: AnIntroduction [M]. The MIT Press, 2022.
Shai Shalev-Shwartz, and Shai Ben-David. UnderstandingMachine Learning: From Theory to Algorithms [M]. Cambridge University Press,2014.
Ian Goodfellow etal. Deep Learning [M]. The MIT Press, 2016.
杨强, 张宇, 戴文渊, 潘嘉林 . 迁移学习[M]. 北京: 机械工业出版社, 2020.
杨强, 刘洋,程勇 等. 联邦学习[M]. 北京: 中国工信出版集团, 电子工业出版社, 2020.
周志华. 集成学习:基础与算法(第2版)[M]. 李楠, 译. 北京: 清华大学出版社, 2019.
Richard S. Sutton, and Andrew G. Barto. ReinforcementLearning: An Introduction [M]. The MIT Press, 2018.
Amparo Albalate, and Wolfgang Minker. Semi-Supervised andUnsupervised Machine Learning [M]. ISTE, and John Wiley & Sons, 2011.
Christoph Molnar. Interpretable Machine Learning: A Guide forMaking Black Box Models Expainable [M]. lulu, 2020.
Judea Pearl. Causality: Models, Reasoning, and Inference(Second Edition) [M]. Cambridge University Press, 2009.
注:本文版权归作者个人所有,如需转载请联系作者,未经授权不得转载。
更多推荐
人工智能中的概率论与统计学修炼秘籍之知识体系
发布评论