![图像处理中的数学修炼(第2版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/451/34061451/b_34061451.jpg)
2.2 凸函数与詹森不等式
函数的凹凸性在求解最优化问题时是一种非常有利的工具。不仅在图像处理,甚至在机器学习中也常被用到。例如,在EM算法和支持向量机的推导中都用到了凸函数的性质。与函数的凹凸性紧密相连的是著名的詹森不等式。本书后续的许多定理都可以利用詹森不等式加以证明。
2.2.1 凸函数的概念
凸函数是一个定义在某个向量空间的凸子集C(区间)上的实值函数f,而且对于凸子集C中任意两个向量p1和p2,以及存在任意有理数θ∈(0,1),则有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P81_28368.jpg?sign=1739273535-gy7jEfP6wx5l3fPFKpQekJ7nyIezIoP4-0-1f7a6da7b1559fd0084f936cdd2cae21)
如果f连续,那么θ可以改为(0,1)中的实数。若这里的凸子集θ即某个区间,那么f就为定义在该区间上的函数,p1和p2则为该区间上的任意两点。
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_10076.jpg?sign=1739273535-S8WcFwrX2iZhjp98qsG23G4xu8pe6v4U-0-b944215edc924af6befeabfd19f755c0)
图2-1 凸函数示意图
图2-1为一个凸函数示意图,结合图形,不难分析在凸函数的定义式中,θp2+(1-θ)p1可以看作是p1和p2的加权平均,因此fθp2+(1-θ)p1[
]是位于函数f曲线上介于p1和p2区间内的一点。而θf(p2)+(1-θ)f(p1)则是f(p1)和f(p2)的加权平均,也就是以f(p1)和f(p2)为端点的一条直线段上的一点,或者也可以从直线的两点式方程考查它。已知点(x1,y1)和(x2,y2),则可以确定一条直线的方程为
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28370.jpg?sign=1739273535-Y290hENmNTZqO7T1SedL0EsT8fHOpKKX-0-7f4cfe371f65e3c3e44231df6311ef2d)
现在已知直线上的两个点为[p1,f(p1)]和[p2,f(p2)],于是便可根据上式写出直线方程,即
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28372.jpg?sign=1739273535-3XoEMmLiUUoMpLDJYxht5BntSccsXwCB-0-3ddc7936634779c4d787571a1c4d98b7)
然后又知直线上一点的横坐标为θp2+(1-θ)p1,代入上式便可求得其对应的纵坐标为θf(p2)+(1-θ)f(p1)。
如果f是定义在一个开区间(a,b)上的可微实值函数,那么f是一个凸函数的充要条件就是f′为定义在(a,b)上的一个单调递增的函数。
现在证明这个结论。首先证明充分性。假设f′在区间(a,b)上是单调递增的,证明f是一个凸函数。再假设p1<p2<p3是区间(a,b)上的三个点,根据拉格朗日中值定理,在(p1,p2)内至少存在一点ξ1,使得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_10103.jpg?sign=1739273535-XAw7WNkjHXSG65xlJh5TSbwhIKWP44cB-0-ee8faf42d1281e0c7167c89bcf2e9509)
同理,在(p2,p3)内至少存在一点ξ2,使得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28379.jpg?sign=1739273535-Ev0dTgJe84QskOqHH5VqGVgRfCfNmIpM-0-15c7e6feff08203ecfade635afaa96b9)
又因为f′是单调递增的,所以f′(ξ1)≤f′(ξ2),即
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28381.jpg?sign=1739273535-89isbn8ffJle9NkdOQAPmgQxmVJ1aoKS-0-dfb15c177eda0d795358540e96deb6e4)
因为p2∈(p1,p3),所以必然有一个λ∈(0,1)使得p2=λp1+(1-λ)p3。进而有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28383.jpg?sign=1739273535-6KbEYbhnSwD1TJkVahqPVyqmYvWMa5Bx-0-509e416e986055962f845ee0617b78a8)
这其实已经得到了想要的结论。但是最初如果假设p1<p3,这在原命题中是不存在的。为了去除这个条件,还需要再讨论p1>p3的情况。但基于已经得到的结论,这方面的讨论是非常容易的。此时,类似地可以得到
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28389.jpg?sign=1739273535-gVD1k6JxQBPPAYCLS2X4ZGTFOGoSLSrQ-0-7199d73c22d26e634a86e0562a45d3d8)
这时可以令α=1-λ,于是便会得到
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28391.jpg?sign=1739273535-xECgmLSrvz8oAvIbbGy4PlEnDzpBSPjs-0-cefb508263c0960b7b0e64c9ca5e9fb4)
于是,当f′是一个单调递增函数时,f就是一个凸函数的结论得证。
现在来证明必要性。由f是一个凸函数出发来证明f′是一个单调递增函数。
方法一 假设f是定义在(a,b)上的凸函数。那么根据凸函数的定义,可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28393.jpg?sign=1739273535-2r9I7N7CidByHI6sJaNIzF39KRCNyPrD-0-d52053e8615f8100b4c834480330f2dc)
其中,p1和p3为区间(a,b)上的任意两点,且p1<p3。对于p1和p3之间的任意一点p2,将之前的求证过程从后向前推导,便会得到结论
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28395.jpg?sign=1739273535-sDpE6b2eYkFRnc6ooXtsh3VTnzeaFUaU-0-4646e2d2597676571f7d0f32287a7049)
根据导数的定义可知
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28397.jpg?sign=1739273535-0y9llmmBYK1JAd6JOWs7lGPcJ2uD7ZaA-0-18ac0cf35f4c0ae05cc917513a0e578b)
因此可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28398.jpg?sign=1739273535-xdeC9IDlLlK74jZluaFwKMHpmkfKLEZ4-0-6fb7047939858a0087ce0a10979d8a78)
即f′(p1)≤f′(p3),所以f′是单调递增的,必要性得证。
方法二 假设f是定义在(a,b)上的凸函数。那么根据凸函数的定义,可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28400.jpg?sign=1739273535-a2OQ8EygIniqDT3HPFhc0MMK5vP3ZKRd-0-fc5f009f65ab0ed1d551326a185c129b)
其中,p1和p2为区间(a,b)上的任意两点,且0≤λ≤1。
对于给定的a<p1<p2<b,定义函数
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28402.jpg?sign=1739273535-wmyq5JrgoD4evsk6vM50KNwc2MwnKA88-0-c5fff04edbb9613f27df86fe04aafafb)
显然在[0,1]上有g(λ)≤0,而且g(0)=g(1)=0。可见函数g(λ)在两个端点处取得最大值,也就是说g(λ)在大于0的某个子区间内是递减的,而在小于1的某个子区间内则是递增的,即g′(0)≤0≤g′(1)。再根据链式求导法则可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28407.jpg?sign=1739273535-bU1LF5MozRjnX4uRi0OEKfVPWLz24dBZ-0-e042b39a782e49240a9ef4d4a8f1e1e0)
因为p1<p2,可知f′(p1)≤f′(p2),所以f′是单调递增的。
综上所述,结论得证。
更进一步地,如果对于每个x∈(a,b)而言,f″(x)都存在,那么f″(x)≥0也是f为凸函数的充分必要条件。
把本小节开头给出的凸函数定义拓展到3个变量p1、p2、p3和3个权重λ1,λ2和λ3的情况。此时,λ1+λ2+λ3=1,即λ2+λ3=1-λ1。所以有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28410.jpg?sign=1739273535-t8UwiJCigcWEzCA3ZZE78xmJwCV4lruR-0-1c689a74f9be202220bdcc9ed967f0d0)
事实上,上面这个不等式关系很容易推广到n个变量和n个权重的情况,这个结论就是著名的詹森不等式。
2.2.2 詹森不等式及其证明
从凸函数的性质中所引申出来的一个重要结论就是詹森(Jensen)不等式:如果f是定义在实数区间[a,b]上的连续凸函数,x1,x2,…,xn∈[a,b]。并且有一组实数λ1,λ2,…,λn≥0满足=1,那么则有下列不等式关系成立
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28411.jpg?sign=1739273535-zY6rXXmfxAj61pfFC7gsQMSWt5j1UCIq-0-6df7a9ac3bdb36b0470245e444c22120)
如果函数f是凹函数,那么不等号方向逆转。
下面试着用数学归纳法来证明詹森不等式,注意我们仅讨论凸函数的情况,凹函数的证明与此类似。
证明 当n=2时,则根据上一小节给出的凸函数之定义可得命题显然成立。设n=k时命题成立,即对任意x1,x2,…,xk∈[a,b]以及α1,α2,…,αk≥0满足=1都有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28416.jpg?sign=1739273535-OOhvw84JfJmhAzebUNLZGNXrhUWLI0lM-0-ab627ce5821d5c99c2840fb1dc226cb0)
现在假设x1,x2,…,xk,xk+1∈[a,b]以及λ1,λ2,…,λk,λk+1≥0满足=1,令
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28420.jpg?sign=1739273535-vAm3if85AAXqV2BVYLBdST9SVgaZ9E2F-0-69edd5bbb80432bbcc3c96d245bd4405)
如此一来,显然满足=1。由数学归纳法假设可推得(注意,第一个不等号的取得利用了n=2时的詹森不等式)
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28426.jpg?sign=1739273535-jbAYhigLrTzy0OjoAwa7iTPfuaEReTaW-0-fb5f921225c4117e8f2e8112ca303af0)
故命题成立。
不同资料上,所给出的詹森不等式可能具有不同的形式(但本质上它们是统一的)。如果把λ1,λ2,…,λn看做是一组权重,那就还可以从数学期望的角度去理解詹森不等式。即如果f是凸函数,X是随机变量,那么就有E[f(x)]≥f(E[X])。特别地,如果f是严格的凸函数,那么当且仅当X是常量时,上式取等号。
用图形来表示詹森不等式的结论是一目了然的。仍然以图2-7为例,假设随机变量X有θ的可能性取得值p2,有(1-θ)的可能性取得值p1,根据数学期望的定义可知E[X]=θp2+(1-θ)p1。同样道理,E[f(x)]=θf(p2)+(1-θ)f(p1)。所以可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28430.jpg?sign=1739273535-uFmcuGS7KRmZvKzJd3Pk7GUebS2X0jvN-0-54ffb0a4a3befa01f655f9c9a79157f7)
下面给出一个更为严谨的证明。假设f是一个可微的凸函数,对于任意的p1<p2,一定存在一个点ξ,p1<ξ<p2,满足
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28432.jpg?sign=1739273535-ZsVPfGXM685H3e2Liu2M2jTRVYH9c0pj-0-c1fb9de102b7aef0e81ee3fe1bcf2849)
注意这里应用了上一小节给出的定理,即f′是单调递增函数这个结论。进而有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28434.jpg?sign=1739273535-WlJsodA6okkCmGfbfHjAHohbaTLVJKHv-0-4753062fc5e7743e6201f1b9120d921b)
令p1=X,p2=E[X],重写上式就为
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28436.jpg?sign=1739273535-pRuyoIaJw4I0H9JqRONOLUFSa1mrA7Z9-0-d29f98202b404a1eb213752b2880c7ec)
然后对两边同时取期望,就得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28438.jpg?sign=1739273535-JSBLbLMjFbeHUGRAOuHIwG8X3tDw1e0S-0-8cdbf735f7b11d8e2845dcd72de998ee)
其中不等式右边可进一步化简得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28440.jpg?sign=1739273535-8r2gTrWOXegaCj9i7t0zthNG0WIs2i6h-0-328f6d852757b3c7e2819eea0ef410d7)
于是结论得证。
2.2.3 詹森不等式的应用
詹森不等式在诸多领域都有重要应用,其中一个重要的用途就是证明不等式。本小节举两个例子演示詹森不等式的应用。首先,来看一下重要的算术-几何平均值不等式:
设x1,x2,…,xn为n个正实数,它们的算术平均数是An=(x1+x2+…+xn)/n,它们的几何平均数是Gn=。算术-几何平均值不等式表明,对于任意正实数,总有An≥Gn,等号成立当且仅当x1=x2=…=xn。
在下一章中,我们还会演示利用拉格朗日乘数法证明算术-几何平均值不等式的方法。现在先来看看如何用詹森不等式证明它。
证明 因为-lnx是一个凸函数,那么lnx显然就是一个凹函数。根据詹森不等式
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28451.jpg?sign=1739273535-G5sEKuGnpT9G25XiD4qJzlEHWBkfbROe-0-345836744552a1a4aa602faa8a7fd020)
因为lnx是单调递增的,所以
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28452.jpg?sign=1739273535-ENY63YoWcUAgSiQFwIRBdKvg9HgT9ZcY-0-2fb8bfb9a1e82b8ae11e33949aa81a51)
所以结论得证。
在第3章中,本书会谈到闵可夫斯基不等式和柯西-施瓦茨不等式。闵可夫斯基不等式的证明用到了赫尔德(Hö lder)不等式,柯西-施瓦茨不等式则可被认为是赫尔德不等式的特殊情况。所以下面我们试着利用詹森不等式来证明赫尔德不等式。
赫尔德不等式:设对i=1,2,…,n,ai>0,bi>0,又p>1,p′>1,1/p+1/p′=1,则
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28454.jpg?sign=1739273535-ooFjESk9XrknagbTutIYuJrhH5ErT1uH-0-181936656ddfb8c374a5bfc820f6ad66)
特别地,当p=p′=2时,得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28455.jpg?sign=1739273535-OYISGywnvDD5FQh6nnVscSmUsBl1tbv6-0-6f6afc45145b7bad4568cb1c43385dfa)
这其实就是本书后面还会介绍的柯西-施瓦茨不等式。
证明赫尔德不等式之前,先证明一个引理:当a>0,b>0,p>1,1/p+1/p′=1,则
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28457.jpg?sign=1739273535-yWRTqC8xeE2y30yBHFp2jAnVHDg6GBfm-0-e32935c50150820a1a883246dc5fb2e3)
证明 令f(x)=-lnx,则f″(x)=x-2>0,x∈(0,+∞)。这样显然f(x)是定义在(0,+∞)上的凸函数。令1/p=λ1,1/p′=λ2,ap>0,bp′>0。由于p>1,显然p′>1。由詹森不等式可知
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28459.jpg?sign=1739273535-7qwjKgyAQlUi6c3XqLuAl3rbdGXpAKSO-0-57b74dbb8ca2554395157bc56c8fbe41)
两边同时取指数,于是可得证原结论成立。
下面证明赫尔德不等式。
证明 设
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28461.jpg?sign=1739273535-J7qscVvckrNehP7hv15sstC1Ja4jxnfT-0-653a9fe33d4cb1117ac70d9d4cc5157a)
则由上述引理可知
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P87_28467.jpg?sign=1739273535-YYzJVlpM4DnGybHREQDbzr8PxuLXxX2D-0-65562c640e6e1a20b9f511b238d5d5b8)
把i=1,2,…,n的n个不等式相加,则有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P87_28468.jpg?sign=1739273535-oLb4eJY5tyjfYCBpJcNQU9PMUk0XI9NX-0-bd74949430068595cd99d3d128ec0c4d)
结论得证。