2.1.2 连续随机变量_机器学习教程（微课视频版）-QQ阅读中文科幻网

上QQ阅读APP看书，第一时间看更新

2.1.2　连续随机变量

对于连续随机变量X，可定义概率分布函数为

F（x）=P{X≤x}　（2.1.7）

注意，这里用大写字母P表示一个事件的概率，将p留给概率密度函数。如果有多个随机变量X₁，X₂，…，X_M，其联合概率分布函数定义为

F（x₁，x₂，…，x_M）=P{X₁≤x₁，X₂≤x₂，…，X_M≤x_M}　（2.1.8）

对于连续随机变量，更常用的是概率密度函数（probability density function，PDF）p（x）。可以这样理解概率密度函数：设Δ很小，由F（x）的定义，X取值在x-Δ<X≤x内的概率为F（x）-F（x-Δ），用PDF表示的近似概率值为p（x）Δ，则

取Δ→0的极限，如果F（x）对x可导，则

对于联合概率分布，如果F（x₁，x₂，…，x_M）分别对x₁，x₂，…，x_M是可导的，则联合概率密度函数为

PDF满足非负性和在取值区间积分为1，即

可用向量X=[X₁，X₂，…，X_M]T表示多个随机变量，其取值向量为x=[x₁，x₂，…，x_M]T，用紧凑符号p（x）表示随机向量的概率密度函数。在概率论中，一般强调用X表示随机变量自身，用x表示其取值变量，但在许多工程文献中，为了符号简单，常用x表示这两个含义，一般不会引起歧义。

已有许多概率密度函数用于表示一些实际问题，这里举两个常用的例子。

例2.1.1　若一个随机变量满足[a，b]区间的均匀分布，其概率密度函数写为

例2.1.2　若一个随机变量满足如下概率密度函数

称其满足高斯分布或正态分布，这里μ称为其均值，σ2称为其方差，概率密度函数的图形表示如图2.1.1所示。

图2.1.1　高斯密度函数

对于联合概率密度函数，若满足

p（x₁，x₂，…，x_M）=p₁（x₁）p₂（x₂）…p_M（x_M）　（2.1.14）

则称各随机变量是互相统计独立的。如果各变量的概率密度函数p_i（x_i）=p（x_i）是相同函数，则称其是独立同分布的（indepenent identically distribution，I.I.D）。经常假设机器学习中的样本集满足I.I.D性，I.I.D性可推广到每个x_i是同维度向量的情况。

如果有

p（x₁，x₂，…，x_M）=p（x₁，x₂，…，x_l）p（x_l+₁，…，x_M）　（2.1.15）

则称{x₁，x₂，…，x_l}和{x_l₊₁，…，x_M}两个子集是统计独立的，但在每个子集内各变量不一定独立。

如果已知一个联合概率密度函数p（x₁，x₂，…，x_M），通过在其取值区间积分消去一些变量，得到剩下的子集变量的联合概率密度函数，这个子集变量的联合概率密度函数称为边际分布，例如

与离散情况类似，条件概率是很常用的概念。对于两个随机变量X₁、X₂，假设其联合概率密度函数为p（x₁，x₂），在X₁=x₁确定的条件下，X₂=x₂的条件概率密度函数记为p（x₂|x₁），则有

反之，由条件概率密度函数，也可以得到联合概率密度函数

p（x₁，x₂）=p（x₂|x₁）p（x₁）　（2.1.19）

显然，改变x₁、x₂的作用，上式可进一步写为

p（x₁，x₂）=p（x₂|x₁）p（x₁）=p（x₁|x₂）p（x₂）　（2.1.20）

可将条件概率密度概念推广到更一般情况，对于{X₁，X₂，…，X_M}的联合概率密度函数p（x₁，x₂，…，x_M），更一般的条件概率密度函数可写为

对于条件概率密度函数，不难导出其链式法则（证明留作习题）为

p（x₁，…，x_M-₁，x_M）=p（x_M|x_M-₁，…，x₁）…p（x₂|x₁）p（x₁）　（2.1.22）