2.1.2 连续随机变量
对于连续随机变量X,可定义概率分布函数为
F(x)=P{X≤x} (2.1.7)
注意,这里用大写字母P表示一个事件的概率,将p留给概率密度函数。如果有多个随机变量X1,X2,…,XM,其联合概率分布函数定义为
F(x1,x2,…,xM)=P{X1≤x1,X2≤x2,…,XM≤xM} (2.1.8)
对于连续随机变量,更常用的是概率密度函数(probability density function,PDF)p(x)。可以这样理解概率密度函数:设Δ很小,由F(x)的定义,X取值在x-Δ<X≤x内的概率为F(x)-F(x-Δ),用PDF表示的近似概率值为p(x)Δ,则
取Δ→0的极限,如果F(x)对x可导,则
对于联合概率分布,如果F(x1,x2,…,xM)分别对x1,x2,…,xM是可导的,则联合概率密度函数为
PDF满足非负性和在取值区间积分为1,即
可用向量X=[X1,X2,…,XM]T表示多个随机变量,其取值向量为x=[x1,x2,…,xM]T,用紧凑符号p(x)表示随机向量的概率密度函数。在概率论中,一般强调用X表示随机变量自身,用x表示其取值变量,但在许多工程文献中,为了符号简单,常用x表示这两个含义,一般不会引起歧义。
已有许多概率密度函数用于表示一些实际问题,这里举两个常用的例子。
例2.1.1 若一个随机变量满足[a,b]区间的均匀分布,其概率密度函数写为
例2.1.2 若一个随机变量满足如下概率密度函数
称其满足高斯分布或正态分布,这里μ称为其均值,σ2称为其方差,概率密度函数的图形表示如图2.1.1所示。
图2.1.1 高斯密度函数
对于联合概率密度函数,若满足
p(x1,x2,…,xM)=p1(x1)p2(x2)…pM(xM) (2.1.14)
则称各随机变量是互相统计独立的。如果各变量的概率密度函数pi(xi)=p(xi)是相同函数,则称其是独立同分布的(indepenent identically distribution,I.I.D)。经常假设机器学习中的样本集满足I.I.D性,I.I.D性可推广到每个xi是同维度向量的情况。
如果有
p(x1,x2,…,xM)=p(x1,x2,…,xl)p(xl+1,…,xM) (2.1.15)
则称{x1,x2,…,xl}和{xl+1,…,xM}两个子集是统计独立的,但在每个子集内各变量不一定独立。
如果已知一个联合概率密度函数p(x1,x2,…,xM),通过在其取值区间积分消去一些变量,得到剩下的子集变量的联合概率密度函数,这个子集变量的联合概率密度函数称为边际分布,例如
与离散情况类似,条件概率是很常用的概念。对于两个随机变量X1、X2,假设其联合概率密度函数为p(x1,x2),在X1=x1确定的条件下,X2=x2的条件概率密度函数记为p(x2|x1),则有
反之,由条件概率密度函数,也可以得到联合概率密度函数
p(x1,x2)=p(x2|x1)p(x1) (2.1.19)
显然,改变x1、x2的作用,上式可进一步写为
p(x1,x2)=p(x2|x1)p(x1)=p(x1|x2)p(x2) (2.1.20)
可将条件概率密度概念推广到更一般情况,对于{X1,X2,…,XM}的联合概率密度函数p(x1,x2,…,xM),更一般的条件概率密度函数可写为
对于条件概率密度函数,不难导出其链式法则(证明留作习题)为
p(x1,…,xM-1,xM)=p(xM|xM-1,…,x1)…p(x2|x1)p(x1) (2.1.22)