基本线性代数知识
定义
给定函数 f:Rn↦R, 且 f 在 x 一个邻域内有定义, 若存在 g∈Rn, 使得
p→0lim∥p∥f(x+p)−f(x)−gTp=0其中 ∥⋅∥ 是向量范数, 则称 f 在 x 处 可微. 此时, g 称为 f 在 x 处的 梯度, 记为 ∇f(x).
显然, 如果梯度存在, 令 p=εei, 易得
∇f(x)=(∂x1∂f,∂x2∂f,…,∂xn∂f)
定义
如果函数 f(x):Rn↦R 在点 x 处的二阶偏导数 ∂xi∂xj∂2f 存在, 则称 f 在 x 处 二次可微. 此时, n×n 矩阵
∇2f(x)=∂x12∂2f∂x2∂x1∂2f⋮∂xn∂x1∂2f∂x1∂x2∂2f∂x22∂2f⋮∂xn∂x2∂2f⋯⋯⋱⋯∂x1∂xn∂2f∂x2∂xn∂2f⋮∂xn2∂2f称为 f 在 x 处的 Hessian 矩阵. 若 ∇2f(x) 在 D 上连续, 则称 f 在 D 上 二次连续可微.
可以证明, 若 f 在 D 上二次连续可微, 则 ∇2f(x) 为对称矩阵.
多元函数的梯度可以推广到变量是矩阵的情形.
定义
给定函数 f:Rm×n↦R, 且 f 在 X 一个邻域内有定义, 若存在 G∈Rm×n, 使得
V→0lim∥V∥f(X+V)−f(X)−⟨G,V⟩=0其中 ∥⋅∥ 是矩阵范数, 则称 f 在 X 处 (Fréchet)可微. 此时, G 称为 f 在 X 处的 梯度, 记为 ∇f(X).
矩阵的可微有另一种较为简单常用的定义.
定义
给定函数 f:Rm×n↦R, 若存在矩阵 G∈Rm×n, 使得
t→0limtf(X+tV)−f(X)=⟨G,V⟩则称 f 在 X 处 (Gâteaux)可微.
例如:
-
f(X)=tr(AXTB), 此时 ∇f(X)=BA.
-
f(X,Y)=21∥XY−A∥F2. 此时
f(X,Y+tV)−f(X,Y)=21∥X(Y+tV)−A∥F2−21∥XY−A∥F2=21∥XY−A+tVX∥F2−21∥XY−A∥F2=21∥tVX∥F2+⟨XY−A,tVX⟩=t⟨XT(XY−A),V⟩+o(t)所以 ∂Y∂f=XT(XY−A), 类似地, ∂X∂f=(XY−A)YT.
-
f(X)=lndet(X), X 为正定矩阵. 此时
f(X+tV)−f(X)=lndet(X+tV)−lndet(X)=lndet(I+tX−1/2VX−1/2)考虑 X−1/2VX−1/2 的特征值 λi, 则由特征值之和为迹, 有
=lndeti=1∏n(1+tλi)=i=1∑nln(1+tλi)=i=1∑ntλi+o(t)=ttr(X−1/2VX−1/2)+o(t)=ttr(X−1V)+o(t)=t⟨X−T,V⟩+o(t)所以 ∇f(X)=X−T.
定义
广义实数 是一种扩充实数域的数, 记为 Rˉ=R∪{±∞}. 映射 f:Rn↦Rˉ 称为 广义实值函数.
定义
给定广义实值函数 f 和非空集合 X. 如果存在 x∈X 使得 f(x)<+∞, 并且对任意的 x∈X, 都有 f(x)>−∞, 那么称函数 f 关于集合 X 是 适当的.
定义
对于广义实值函数 f:Rn↦Rˉ,
- Cα={x∣f(x)≤α} 称为 f 的 α-下水平集.
- epif={(x,t)∣f(x)≤t} 称为 f 的 上方图.
- 若 epif 为闭集, 则称 f 为闭函数.
- 若对任意的 x∈Rn, 有 liminfy→xf(y)≥f(x), 则称 f 为 下半连续函数.
定理
对于广义实值函数 f, 以下命题等价:
- f(x) 的任意 α-下水平集都是闭集;
- f(x) 是下半连续的;
- f(x) 是闭函数.
证明
(1) ⇒ (2): 反证, 假设 xk→xˉ 但 liminfk→∞f(xk)<f(xˉ). 取 t 介于二者之间.
考虑到 liminfk→∞f(xk)<t, 则有无穷多 xk 使得 f(xk)≤t, 即这些 xk 在 Ct 中. 由于 Ct 是闭集, 则 xˉ∈Ct, 即 f(xˉ)≤t, 矛盾.
(2) ⇒ (3): 考虑 (xk,yk)∈epif→(xˉ,yˉ), 由于 f 下半连续, 则
f(xˉ)≤k→∞liminff(xk)=k→∞liminfyk=yˉ即 (xˉ,yˉ)∈epif.
(3) ⇒ (1): 考虑 xk∈Cα→xˉ, 则 (xk,α)∈epif→(xˉ,α), 所以 (xˉ,α)∈epif, 即 f(xˉ)≤α, 所以 xˉ∈Cα.
适当闭函数的和, 复合, 逐点上确界仍然是闭函数.
凸函数
定义
适当函数 f:Rn↦R 称为 凸函数, 如果 domf 是凸集, 且对任意的 x,y∈domf 和 θ∈[0,1], 有
f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)
易知仿射函数既是凸函数又是凹函数. 所有的范数都是凸函数.
定义
若存在常数 m>0, 使得 g(x)=f(x)−2m∥x∥2 是凸函数, 则称 f 是 强凸函数, m 称为 强凸参数.
定理凸函数判定定理
适当函数 f:Rn↦R 是凸函数的充要条件是, 对任意的 x∈domf, 函数 g:R↦R 是凸函数, 其中
g(t)=f(x+tv),domg={t∣x+tv∈domf}
定理一阶条件
对于定义在凸集上的可微函数 f, f 是凸函数当且仅当
f(y)≥f(x)+∇f(x)T(y−x),∀x,y∈domf证明
必要性: 设 f 凸, 则 ∀x,y∈domf,t∈[0,1], 有
tf(y)+(1−t)f(x)≥f(x+t(y−x))令 t→0, 即
f(y)−f(x)≥tf(x+t(y−x))−f(x)→∇f(x)T(y−x)充分性: ∀x,y∈domf,t∈(0,1), 取 z=tx+(1−t)y, 则
f(x)f(y)≥f(z)+∇f(z)T(x−z)≥f(z)+∇f(z)T(y−z)一式乘以 t, 二式乘以 1−t, 相加即得.
定理梯度单调性
设 f 为可微函数, 则 f 为凸函数当且仅当 domf 为凸集且 ∇f 为单调映射.
(∇f(x)−∇f(y))T(x−y)≥0证明
必要性: 根据一阶条件, 有
f(y)f(x)≥f(x)+∇f(x)T(y−x)≥f(y)+∇f(y)T(x−y)相加即可.
充分性: 考虑 g(t)=f(x+t(y−x)), 则 g′(t)=∇f(x+t(y−x))T(y−x), 从而 g′(t)≥g′(0).
f(y)=g(1)=g(0)+∫01g′(t)dt≥g(0)+∫01g′(0)dt=g(0)+g′(0)=f(x)+∇f(x)T(y−x)
定理
函数 f(x) 是凸函数当且仅当 epif 是凸集.
定理二阶条件
设 f 为定义在凸集上的二阶连续可微函数, f 是凸函数当且仅当 ∇2f(x)⪰0,∀x∈domf. 若不取等, 则为严格凸函数.
证明
必要性: 反设 f(x) 在 x 处 ∇2f(x)≺0, 则存在 v∈Rn, 使得 vT∇2f(x)v<0, 考虑 Peano 余项
f(x+tv)=f(x)+t∇f(x)Tv+2t2vT∇2f(x+tv)v+o(t2)取 t 充分小,
t2f(x+tv)−f(x)−t∇f(x)Tv=21vT∇2f(x+tv)v+o(1)<0这和一阶条件矛盾.
充分性: 对于任意的 x,y∈domf, 有
f(y)=f(x)+∇f(x)T(y−x)+21(y−x)T∇2f(z)(y−x)≥f(x)+∇f(x)T(y−x)由一阶条件, f 为凸函数.
保凸运算
下面举一些重要的例子.
-
逐点取上界: 若对每个 y∈A, f(x,y) 都是关于 x 的凸函数, 则
g(x)=y∈Asupf(x,y)也是凸函数.
- C 的支撑函数 f(x)=supy∈CyTx 是凸函数.
- C 到 x 的最远距离 f(x)=supy∈C∥x−y∥ 是凸函数.
- 对称阵 X∈Sn 的最大特征值 λmax(X)=sup∥x∥=1xTXx 是凸函数.
-
标量函数的复合: 若 g:Rn↦R 是凸函数, h:R↦R 是单调不减的凸函数, 则
f(x)=h(g(x))也是凸函数. 凹同理.
- 如果 g 凸, 则 f(x)=exp(g(x)) 也是凸函数.
- 如果 g 凹, 则 f(x)=1/g(x) 也是凸函数.
-
取下确界: 若 f(x,y) 关于 (x,y) 整体是凸函数, C 是凸集, 则
g(x)=y∈Cinff(x,y)也是凸函数.
- 凸集 C 到 x 的距离 f(x)=infy∈C∥x−y∥ 是凸函数.
-
透视函数: 若 f:Rn↦R 是凸函数, 则
g(x,t)=tf(x/t),domg={(x,t)∣x/t∈domf,t>0}也是凸函数.
- 相对熵函数 g(x,t)=tlogt−tlogx 是凸函数.
- 若 f 凸, 则 g(x)=(cT+d)f((Ax+b)/(cT+d)) 也是凸函数.
-
共轭函数: 任意适当函数 f 的共轭函数
f∗(y)=x∈domfsup(⟨x,y⟩−f(x))是凸函数.
凸函数的推广
定义
f:Rn↦R 称为 拟凸的, 如果 domf 是凸集, 且对任意 α, 下水平集 Cα 是凸集.
若 f 是拟凸的, 则称 −f 是 拟凹的. 若 f 既是拟凸又是拟凹的, 则称 f 是 拟线性的.
注意: 拟凸函数的和不一定是拟凸函数.
定理
- 拟凸函数满足类 Jenson 不等式: 对拟凸函数 f 和 ∀x,y∈domf,θ∈[0,1], 有
f(θx+(1−θ)y)≤max{f(x),f(y)}
- 拟凸函数满足一阶条件: 定义在凸集上的可微函数 f 拟凸当且仅当
f(y)≤f(x)⇒∇f(x)T(y−x)≤0
定义
如果正值函数 f 满足 logf 是凸函数, 则 f 称为 对数凸函数; 若为凹函数, 则 f 称为 对数凹函数.
例如, 正态分布
f(x)=(2π)ndetΣ1exp(−21(x−μ)TΣ−1(x−μ))是对数凹函数.
对数凹函数的乘积, 积分都是对数凹的, 但加和不一定是对数凹的.
在广义不等式下, 也可以定义凸凹性.
定义
f:Rn↦Rm 称为 K-凸函数, 如果 domf 是凸集, 且
f(θx+(1−θ)y⪯Kθf(x)+(1−θ)f(y))
对任意 x,y∈domf,0≤θ≤1 成立.
例如, f:Sm↦Sm, f(X)=X2 是 S+m-凸函数. 这点利用 zTX2z=∥Xz∥2 是关于 X 的凸函数即可得知.