admin管理员组文章数量:1573064
Machine Learning A Probabilistic Perspective学习笔记or机器学习学习笔记
- 闲扯
- 2 Probability
- 2.2 A brief review of probability theory
- 2.2.4 Independence and conditional independence
- 2.3 Some common discrete distributions一些离散分布
- 2.3.1 The binomial and Bernoulli distributions(二项分布和伯努利分布)
- 2.3.2 The multinomial and multinoulli distributions(多项分布和multinoulli分布)
- 2.4 Some common continuous distributions
- 2.4.1 Gaussian (normal) distribution
- 2.4.2 Degenerate pdf
- 2.5 Joint probability distributions
- 2.5.1 Covariance and correlation
- 2.5.2 The multivariate Gaussian or multivariate normal (MVN)
- 2.6 Transformations of random variables
- 2.6.1 linear transformation
- 2.6.2 general transformation
- 2.6.3 central limit theorem 中心极限定理
- 2.7 Monte Carlo approximation 蒙特卡洛近似
- 2.7.2 Example: estimating π by Monte Carlo integration
- 2.7.3 Accuracy of Monte Carlo approximation
- 2.8 Information theory
- 2.8.1 Entropy
- 2.8.2 KL divergence or relative entropy相对熵
- 2.8.3 mutual information 互信息
闲扯
1.为什么学这本书?
之前学习了很多机器学习的东西,看了很多书(机器学习,周志华;统计学习方法,李航;Introduction to machine learning,阿培丁)。十月份粗略的看完了第三本书,感觉到机器学习和统计有着莫大的关系,因此觉得学习这本书可以更好地巩固自己的基础。
2.为什么写博客?
博客每日一更可以督促自己学习,不然就在看直播睡觉中虚度大好时光了
3.我的计划
写不熟悉的
写重要的
把几本书搞在一起琢磨
2 Probability
2.2 A brief review of probability theory
2.2.4 Independence and conditional independence
无条件独立或边缘独立(unconditionally independent or marginally independent)
p
(
x
,
y
)
=
p
(
x
)
p
(
y
)
p(x,y)=p(x)p(y)
p(x,y)=p(x)p(y),用下面这个图理解很棒
条件独立怎么来的?
“Unfortunately, unconditional independence is rare, because most variables can influence most other variables. However, usually this influence is mediated via other variables rather than being direct.”
给定
z
z
z,
x
x
x和
y
y
y是条件独立(conditionally independent,CI)的,当且仅当
p
(
x
,
y
∣
z
)
=
p
(
x
∣
z
)
p
(
y
∣
z
)
p(x,y|z)=p(x|z)p(y|z)
p(x,y∣z)=p(x∣z)p(y∣z)
"Theorem 2.2.1.
X
⊥
Y
∣
Z
X ⊥ Y|Z
X⊥Y∣Z iff there exist function
g
g
g and
h
h
h such that
p
(
x
,
y
∣
z
)
=
g
(
x
,
z
)
h
(
y
,
z
)
p(x, y|z) = g(x, z)h(y, z)
p(x,y∣z)=g(x,z)h(y,z), for all
x
,
y
,
z
x, y, z
x,y,z such that
p
(
z
)
p(z)
p(z)>0. "
我是这么理解的,
g
(
x
,
z
)
h
(
y
,
z
)
=
g
(
x
∣
z
)
h
(
z
)
h
(
y
∣
z
)
g
(
z
)
g(x, z)h(y, z)=g(x|z)h(z)h(y|z)g(z)
g(x,z)h(y,z)=g(x∣z)h(z)h(y∣z)g(z),这样就和
p
(
x
,
y
∣
z
)
=
p
(
x
∣
z
)
p
(
y
∣
z
)
p(x,y|z)=p(x|z)p(y|z)
p(x,y∣z)=p(x∣z)p(y∣z)一样了。
2.3 Some common discrete distributions一些离散分布
常见的有二项分布,伯努利分布,多项分布,multinoulli分布,泊松分布(The Poisson distribution),经验分布(The empirical distribution),这里只说前两种
2.3.1 The binomial and Bernoulli distributions(二项分布和伯努利分布)
假设进行
n
n
n次投硬币试验,
X
X
X
∈
\in
∈{
0
,
…
,
n
0,\dots,n
0,…,n}是正面的个数,假设正面的概率为
θ
\theta
θ,那么
X
∼
B
i
n
(
n
,
θ
)
X ∼ Bin(n, θ)
X∼Bin(n,θ),
X
X
X 服从二项分布
B
i
n
(
k
∣
n
,
θ
)
=
(
n
k
)
θ
k
(
1
−
θ
)
n
−
k
Bin(k|n, θ)=\binom{n}{k}θ^k(1 − θ)^{n−k}
Bin(k∣n,θ)=(kn)θk(1−θ)n−k
mean =
θ
θ
θ, var =
n
θ
(
1
−
θ
)
nθ(1 − θ)
nθ(1−θ)
特殊情况,
n
=
1
n=1
n=1时为伯努利分布,
B
e
r
(
x
∣
θ
)
=
θ
I
(
x
=
1
)
(
1
−
θ
)
I
(
x
=
0
)
Ber(x|θ) = θ^{I(x=1)}(1 − θ)^{I(x=0)}
Ber(x∣θ)=θI(x=1)(1−θ)I(x=0)
I
(
x
=
i
)
I(x=i)
I(x=i)为示性函数,mean =
θ
θ
θ, var =
θ
(
1
−
θ
)
θ(1 − θ)
θ(1−θ)
2.3.2 The multinomial and multinoulli distributions(多项分布和multinoulli分布)
令
x
=
(
x
1
,
…
,
x
K
)
x=(x_1,\dots,x_K)
x=(x1,…,xK)为随机变量,
K
K
K为总的情况个数,
x
i
x_i
xi为第
i
i
i种情况出现的个数,那么概率质量函数(probability mass function)为:
M
u
(
x
∣
n
,
θ
)
=
(
n
x
1
.
.
.
x
K
)
∏
i
=
1
K
θ
i
x
i
Mu(x|n, θ)=\binom{n}{x_1 . . . x_K}\prod_{i=1}^K\theta_i^{x_i}
Mu(x∣n,θ)=(x1...xKn)∏i=1Kθixi,
θ
i
\theta_i
θi为第
i
i
i种情况出现的概率,
n
=
∑
k
=
1
K
x
k
n=\sum_{k=1}^Kx_k
n=∑k=1Kxk
( n x 1 . . . x K ) = n ! x 1 ! x 2 ! ⋯ x K ! \binom{n}{x_1 . . . x_K}=\frac{n!}{x_1!x_2!\cdots x_K!} (x1...xKn)=x1!x2!⋯xK!n!
特殊情况,
n
=
1
n=1
n=1时为multinoulli分布
x=[I(x = 1), . . . , I(x = K)],
M
u
(
x
∣
1
,
θ
)
=
∏
i
=
1
K
θ
i
I
(
x
i
=
1
)
Mu(x|1, θ)=\prod_{i=1}^K\theta_i^{I(x_i=1)}
Mu(x∣1,θ)=∏i=1KθiI(xi=1)
总结:伯努利分布可以看看成二项分布和multinoulli分布的特例
小知识点:
PDF概率密度函数(probability density function)对连续随机变量
PMF概率质量函数(probability mass function)对离散随机变量
CDF累积分布函数 (cumulative distribution function)对前两者的积分或求和
2.4 Some common continuous distributions
常见的有Gaussian (normal) distribution, Degenerate pdf, The Laplace distribution, The gamma distribution, The beta distribution, Pareto distribution.
2.4.1 Gaussian (normal) distribution
高斯分布的精度常用参数
λ
=
1
σ
2
\lambda=\frac{1}{\sigma^2}
λ=σ21表示,
λ
\lambda
λ越大说明越集中在
μ
\mu
μ附近
通常用误差函数来计算CDF,
Φ
(
x
;
μ
,
σ
)
=
1
2
[
1
+
\Phi(x;\mu,\sigma)=\frac{1}{2}[1+
Φ(x;μ,σ)=21[1+erf
(
z
2
)
]
(\frac{z}{\sqrt2})]
(2
其中,
z
=
(
x
−
μ
)
/
σ
z = (x − μ)/σ
z=(x−μ)/σ,
2.4.2 Degenerate pdf
冲激函数:
我们有
留张图,说明高斯分布对边缘值敏感
2.5 Joint probability distributions
2.5.1 Covariance and correlation
协方差矩阵
相关矩阵
范围在[-1,1]
相关矩阵对角线全为1
独立意味着不相关,不相关并不意味着独立
2.5.2 The multivariate Gaussian or multivariate normal (MVN)
其中,
μ
=
E
[
x
]
∈
R
D
μ=E[x]\in R^D
μ=E[x]∈RD是均值向量, and
Σ
=
c
o
v
[
x
]
Σ = cov[x]
Σ=cov[x]是D × D的协方差矩阵,D维,一共有D(D+1)/2个参数。
这一块《introduce to machine learning》5.4节介绍的较好,可以参考进行学习。
后序还需学习,原理尚未搞懂!!!
2.6 Transformations of random variables
2.6.1 linear transformation
假设
f
f
f是一个线性函数,
y
=
f
(
x
)
=
A
x
+
b
y=f(x)=\textbf{A}x+b
y=f(x)=Ax+b
E
[
y
]
=
A
μ
+
b
E[y]=\textbf{A}\mu+b
E[y]=Aμ+b
c
o
v
[
y
]
=
A
Σ
A
T
cov[y]=\textbf{A}\Sigma \textbf{A}^T
cov[y]=AΣAT
2.6.2 general transformation
三个式子看穿一切
如果是
R
n
→
R
n
R^n\to R^n
Rn→Rn, 可以用jacobian 矩阵
特别的,如果是单个x,y即为:
2.6.3 central limit theorem 中心极限定理
N
N
N个随机变量pdf为
p
(
x
i
)
p(x_i)
p(xi),均值为
μ
\mu
μ,方差为
σ
2
\sigma^2
σ2, 假设每个变量之间是独立同分布的(independent and identically distributed,iid)
令
S
N
=
∑
i
=
1
N
X
i
S_N=\sum_{i=1}^NX_i
SN=∑i=1NXi 是所有自由变量的求和,随着
N
N
N的增加,
S
N
S_N
SN的分布为
收敛到标准正态分布
2.7 Monte Carlo approximation 蒙特卡洛近似
使用变量公式计算PDF是困难的,因此可以采用蒙特卡洛近似,方法如下:
首先产生
S
S
S个样本
x
1
,
x
2
,
…
,
x
S
x_1,x_2,\dots,x_S
x1,x2,…,xS(高维分布可以采用Markov chain Monte Carlo,MCMC方法);然后通过经验分布函数{
f
(
x
s
)
f(x_s)
f(xs)}
s
=
1
S
_{s=1}^S
s=1S来近似
f
(
X
)
f(X)
f(X)。
Monte Carlo integration
通过改变函数
f
f
f, 我们可以近似许多感兴趣的量,例如
2.7.2 Example: estimating π by Monte Carlo integration
可以看出
π
=
I
/
r
2
\pi=I/r^2
π=I/r2, 令
f
(
x
,
y
)
=
I
(
x
2
+
y
2
≤
r
2
)
f(x, y) =I(x^2+y^2≤r^2)
f(x,y)=I(x2+y2≤r2), 令
p
(
x
)
,
p
(
y
)
p(x),p(y)
p(x),p(y)为[-1,1]上的自由分布,
p
(
x
)
=
p
(
y
)
=
1
/
(
2
r
)
p(x) = p(y) = 1/(2r)
p(x)=p(y)=1/(2r),那么我们有
2.7.3 Accuracy of Monte Carlo approximation
精度随样本的增加增加。记
μ
=
E
[
X
]
\mu=E[X]
μ=E[X]为精确的均值,MC近似得到的是
μ
^
\hat{\mu}
μ^, 如果样本是独立的,那么
σ
2
\sigma^2
σ2可以通过MC估计
那么我们有
其中,
σ
^
2
S
\sqrt{\frac{\hat{\sigma}^2}{S}}
Sσ^2
2.8 Information theory
2.8.1 Entropy
自由变量
X
X
X的分布为
p
p
p, 熵记做
H
(
p
)
H(p)
H(p)或者
H
(
X
)
H(X)
H(X), 离散变量熵如下所示,其中
K
K
K为状态数
若为
l
o
g
2
log_2
log2 记为bits,若为
l
o
g
e
log_e
loge 记为nats
2.8.2 KL divergence or relative entropy相对熵
一种判断两种分布相异程度的方法
其中,求和可以换成对pdf积分,展开之后为
交叉熵
容易看出,
pq的相对熵=pq交叉熵-p的熵,因此相对熵可以理解为通过q分布编码p比p编码自身多出来的,因此相对熵
≥
0
\ge0
≥0.
通过如下jensen不等式可以证明定理2.8.1
离散分布中随机分布具有最大熵,
令
u
(
x
)
=
1
/
∣
X
∣
u(x)=1/|\mathcal{X}|
u(x)=1/∣X∣,我们有
如果我们不知道什么分布更合适的时候就使用均匀分布,这是理由不充分原则(principle of insufficient reason)。
2.8.3 mutual information 互信息
判断
p
(
x
,
y
)
p(x,y)
p(x,y)和
p
(
x
)
p
(
y
)
p(x)p(y)
p(x)p(y)关系的量,如果
x
x
x跟
y
y
y不相关,则
p
(
x
,
y
)
=
p
(
x
)
p
(
y
)
p(x,y)=p(x)p(y)
p(x,y)=p(x)p(y)。 二者相关性越大,则p(x, y)就相比于p(x)p(y)越大
H
(
Y
∣
X
)
\mathbb{H}(Y|X)
H(Y∣X)为条件熵,
点互信息(pointwise mutual information)和互信息相似,都是判断
p
(
x
,
y
)
p(x,y)
p(x,y)和
p
(
x
)
p
(
y
)
p(x)p(y)
p(x)p(y)关系的量,可以把互信息理解成点互信息的加权和。
–2018.11.15–
本文标签: 第二章学习笔记Learningmachineperspective
版权声明:本文标题:Machine Learning A Probabilistic Perspective第二章学习笔记 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/xitong/1725895075a1047538.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论