2.2 凸函数与詹森不等式_图像处理中的数学修炼（第2版）-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

2.2　凸函数与詹森不等式

函数的凹凸性在求解最优化问题时是一种非常有利的工具。不仅在图像处理，甚至在机器学习中也常被用到。例如，在EM算法和支持向量机的推导中都用到了凸函数的性质。与函数的凹凸性紧密相连的是著名的詹森不等式。本书后续的许多定理都可以利用詹森不等式加以证明。

2.2.1　凸函数的概念

凸函数是一个定义在某个向量空间的凸子集C（区间）上的实值函数f，而且对于凸子集C中任意两个向量p₁和p₂，以及存在任意有理数θ∈（0，1），则有

如果f连续，那么θ可以改为（0，1）中的实数。若这里的凸子集θ即某个区间，那么f就为定义在该区间上的函数，p₁和p₂则为该区间上的任意两点。

图2-1　凸函数示意图

图2-1为一个凸函数示意图，结合图形，不难分析在凸函数的定义式中，θp₂+（1-θ）p₁可以看作是p₁和p₂的加权平均，因此fθp₂+（1-θ）p1[

]是位于函数f曲线上介于p₁和p₂区间内的一点。而θf（p₂）+（1-θ）f（p₁）则是f（p₁）和f（p₂）的加权平均，也就是以f（p₁）和f（p₂）为端点的一条直线段上的一点，或者也可以从直线的两点式方程考查它。已知点（x₁，y₁）和（x₂，y₂），则可以确定一条直线的方程为

现在已知直线上的两个点为[p₁，f（p₁）]和[p₂，f（p₂）]，于是便可根据上式写出直线方程，即

然后又知直线上一点的横坐标为θp₂+（1-θ）p₁，代入上式便可求得其对应的纵坐标为θf（p₂）+（1-θ）f（p₁）。

如果f是定义在一个开区间（a，b）上的可微实值函数，那么f是一个凸函数的充要条件就是f′为定义在（a，b）上的一个单调递增的函数。

现在证明这个结论。首先证明充分性。假设f′在区间（a，b）上是单调递增的，证明f是一个凸函数。再假设p₁＜p₂＜p₃是区间（a，b）上的三个点，根据拉格朗日中值定理，在（p₁，p₂）内至少存在一点ξ₁，使得

同理，在（p₂，p₃）内至少存在一点ξ₂，使得

又因为f′是单调递增的，所以f′（ξ₁）≤f′（ξ₂），即

因为p₂∈（p₁，p₃），所以必然有一个λ∈（0，1）使得p₂=λp₁+（1-λ）p₃。进而有

这其实已经得到了想要的结论。但是最初如果假设p₁＜p₃，这在原命题中是不存在的。为了去除这个条件，还需要再讨论p₁＞p₃的情况。但基于已经得到的结论，这方面的讨论是非常容易的。此时，类似地可以得到

这时可以令α=1-λ，于是便会得到

于是，当f′是一个单调递增函数时，f就是一个凸函数的结论得证。

现在来证明必要性。由f是一个凸函数出发来证明f′是一个单调递增函数。

方法一　假设f是定义在（a，b）上的凸函数。那么根据凸函数的定义，可得

其中，p₁和p₃为区间（a，b）上的任意两点，且p₁＜p₃。对于p₁和p₃之间的任意一点p₂，将之前的求证过程从后向前推导，便会得到结论

根据导数的定义可知

因此可得

即f′（p₁）≤f′（p₃），所以f′是单调递增的，必要性得证。

方法二　假设f是定义在（a，b）上的凸函数。那么根据凸函数的定义，可得

其中，p₁和p₂为区间（a，b）上的任意两点，且0≤λ≤1。

对于给定的a＜p₁＜p₂＜b，定义函数

显然在[0，1]上有g（λ）≤0，而且g（0）=g（1）=0。可见函数g（λ）在两个端点处取得最大值，也就是说g（λ）在大于0的某个子区间内是递减的，而在小于1的某个子区间内则是递增的，即g′（0）≤0≤g′（1）。再根据链式求导法则可得

因为p₁＜p₂，可知f′（p₁）≤f′（p₂），所以f′是单调递增的。

综上所述，结论得证。

更进一步地，如果对于每个x∈（a，b）而言，f″（x）都存在，那么f″（x）≥0也是f为凸函数的充分必要条件。

把本小节开头给出的凸函数定义拓展到3个变量p₁、p₂、p₃和3个权重λ₁，λ₂和λ₃的情况。此时，λ₁+λ₂+λ₃=1，即λ₂+λ₃=1-λ₁。所以有

事实上，上面这个不等式关系很容易推广到n个变量和n个权重的情况，这个结论就是著名的詹森不等式。

2.2.2　詹森不等式及其证明

从凸函数的性质中所引申出来的一个重要结论就是詹森（Jensen）不等式：如果f是定义在实数区间[a，b]上的连续凸函数，x₁，x₂，…，x_n∈[a，b]。并且有一组实数λ₁，λ₂，…，λ_n≥0满足=1，那么则有下列不等式关系成立

如果函数f是凹函数，那么不等号方向逆转。

下面试着用数学归纳法来证明詹森不等式，注意我们仅讨论凸函数的情况，凹函数的证明与此类似。

证明　当n=2时，则根据上一小节给出的凸函数之定义可得命题显然成立。设n=k时命题成立，即对任意x₁，x₂，…，x_k∈[a，b]以及α₁，α₂，…，α_k≥0满足=1都有

现在假设x₁，x₂，…，x_k，x_k₊₁∈[a，b]以及λ₁，λ₂，…，λ_k，λ_k₊₁≥0满足=1，令

如此一来，显然满足=1。由数学归纳法假设可推得（注意，第一个不等号的取得利用了n=2时的詹森不等式）

故命题成立。

不同资料上，所给出的詹森不等式可能具有不同的形式（但本质上它们是统一的）。如果把λ₁，λ₂，…，λ_n看做是一组权重，那就还可以从数学期望的角度去理解詹森不等式。即如果f是凸函数，X是随机变量，那么就有E[f（x）]≥f（E[X]）。特别地，如果f是严格的凸函数，那么当且仅当X是常量时，上式取等号。