机器学习教程(微课视频版)
上QQ阅读APP看书,第一时间看更新

2.1.2 连续随机变量

对于连续随机变量X,可定义概率分布函数为

Fx)=P{Xx} (2.1.7)

注意,这里用大写字母P表示一个事件的概率,将p留给概率密度函数。如果有多个随机变量X1X2,…,XM,其联合概率分布函数定义为

Fx1x2,…,xM)=P{X1x1X2x2,…,XMxM} (2.1.8)

对于连续随机变量,更常用的是概率密度函数(probability density function,PDF)px)。可以这样理解概率密度函数:设Δ很小,由Fx)的定义,X取值在x-Δ<Xx内的概率为Fx)-Fx-Δ),用PDF表示的近似概率值为pxΔ,则

Δ→0的极限,如果Fx)对x可导,则

对于联合概率分布,如果Fx1x2,…,xM)分别对x1x2,…,xM是可导的,则联合概率密度函数为

PDF满足非负性和在取值区间积分为1,即

可用向量X=[X1X2,…,XM]T表示多个随机变量,其取值向量为x=[x1x2,…,xM]T,用紧凑符号px)表示随机向量的概率密度函数。在概率论中,一般强调用X表示随机变量自身,用x表示其取值变量,但在许多工程文献中,为了符号简单,常用x表示这两个含义,一般不会引起歧义。

已有许多概率密度函数用于表示一些实际问题,这里举两个常用的例子。

例2.1.1 若一个随机变量满足[ab]区间的均匀分布,其概率密度函数写为

例2.1.2 若一个随机变量满足如下概率密度函数

称其满足高斯分布或正态分布,这里μ称为其均值,σ2称为其方差,概率密度函数的图形表示如图2.1.1所示。

图2.1.1 高斯密度函数

对于联合概率密度函数,若满足

px1x2,…,xM)=p1x1p2x2)…pMxM) (2.1.14)

则称各随机变量是互相统计独立的。如果各变量的概率密度函数pixi)=pxi)是相同函数,则称其是独立同分布的(indepenent identically distribution,I.I.D)。经常假设机器学习中的样本集满足I.I.D性,I.I.D性可推广到每个xi是同维度向量的情况。

如果有

px1x2,…,xM)=px1x2,…,xlpxl+1,…,xM) (2.1.15)

则称{x1x2,…,xl}和{xl+1,…,xM}两个子集是统计独立的,但在每个子集内各变量不一定独立。

如果已知一个联合概率密度函数px1x2,…,xM),通过在其取值区间积分消去一些变量,得到剩下的子集变量的联合概率密度函数,这个子集变量的联合概率密度函数称为边际分布,例如

与离散情况类似,条件概率是很常用的概念。对于两个随机变量X1X2,假设其联合概率密度函数为px1x2),在X1=x1确定的条件下,X2=x2的条件概率密度函数记为px2|x1),则有

反之,由条件概率密度函数,也可以得到联合概率密度函数

px1x2)=px2|x1px1) (2.1.19)

显然,改变x1x2的作用,上式可进一步写为

px1x2)=px2|x1px1)=px1|x2px2) (2.1.20)

可将条件概率密度概念推广到更一般情况,对于{X1X2,…,XM}的联合概率密度函数px1x2,…,xM),更一般的条件概率密度函数可写为

对于条件概率密度函数,不难导出其链式法则(证明留作习题)为

px1,…,xM-1xM)=pxM|xM-1,…,x1)…px2|x1px1) (2.1.22)