特征值与特征向量
1. 基本概念
通常情况下,当我们用一个矩阵 A 去乘一个向量 x 时,得到的向量 Ax 会改变方向。但是存在一些特殊的向量x,它们被 A 乘过之后,方向不改变,只是被拉长、缩短或者反向了:
Ax=λx
其中这些还在同一条直线上的向量 x 被称为特征向量,缩放系数 λ 被称为特征值。
特征向量的推导方式如下:
AxAx−λx(A−λI)x=λx=0=0
如果 A−λI 是可逆的,那么这个式子的唯一解就是 x=0,这与特征向量的定义不符。因此 A−λI 必须是奇异的,即:
det(A−λI)=0
以下面这个矩阵为例:
A=[1224]
有:
A−λIdet(A−λI)λ(λ−5)⇒λ1=[1−λ224−λ]=(1−λ)(4−λ)−2⋅2=0=0,λ2=5
2. 行列式与迹
a. 基本性质
- 所有特征值的乘积等于矩阵的行列式:
λ1⋅λ2⋯λn=detA
- 所有特征值的和等于矩阵主对角线元素的和。这个对角线之和被称为迹 (Trace):
λ1+λ2+⋯+λn=a11+a22+⋯+ann
b. 证明
首先来看简单的 2x2 矩阵的例子,直接展开得:
det[a−λcbd−λ]=(a−λ)(d−λ)−(b)(c)=ad−aλ−dλ+λ2−bc=λ2−(a+d)λ+(ad−bc)
它也可以写成如下形式:
(λ−λ1)(λ−λ2)=λ2−λ1λ−λ2λ+λ1λ2=λ2−(λ1+λ2)λ+(λ1λ2)
利用系数比对很容易得出特征值之和为住对角线元素之和 a+d、特征值之积为行列式值 ad−bc。同样地,对于nxn矩阵,我们展开行列式多项式:
P(λ)=(−1)nλn+cn−1λn−1+⋯+c0
同样地,它也可以写成下面的形式:
P(λ)=(λ1−λ)(λ2−λ)…(λn−λ)
令 λ=0 可得 det(A)=λ1…λn。而 λ 的和是由倒数第二高次项 λn−1 的系数决定的:在展开 (a11−λ)(a22−λ)… 时,要得到 λn−1,我们只能从 n−1 个括号里选 −λ,这就迫使剩下那个括号必须选常数项 aii,也即 −(a11+a22+…),而根的形式为 −(λ1+⋯+λn),于是 Trace(A)=∑λi。
3. 对角化
a. 基本概念
我们可以使用前面计算的特征值,将一个复杂的矩阵 A 进行对角化,变成一个简单的对角矩阵 Λ。
对角化的核心公式为:
A=XΛX−1
或者:
Λ=X−1AX
其中:
- X 为特征向量矩阵:把 n 个独立的特征向量作为列向量,拼成这个矩阵。
- Λ 为特征值矩阵:这是一个对角矩阵,对角线上的元素就是对应的特征值 λ1,…,λn,其他位置全是 0。
我们可以把这一过程理解为:将 A 原本所在的坐标系换成以特征向量为轴(即乘以 X−1),矩阵就变成了 Λ。
在 Λ 的世界里,变量之间完全解耦,处理起来极其简单。处理完后再换回原来的坐标系(即乘以 X)。
b. 证明
对角化公式的推导来源为 AX=XΛ。这个式子很好证明。
对左侧,有:
AX=A[x1 x2 … xn]=[Ax1 Ax2 … Axn]=[λ1x1 λ2x2 … λnxn]
对右侧,有:
XΛ=[x1 x2 … xn]λ1⋱λn=[λ1x1 … λnxn].
两侧相等,从而得证。
c. 对角化条件
对角化的前提是 X 必须是可逆的。这意味着矩阵必须有 n 个线性无关的特征向量。从特征值来看:
- 特征值互不相同时,一定是可以对角化的。
- 特征值有重复时,可能无法对角化。因为如果特征值重复,可能找不到足够的特征向量来填满 X 矩阵。例如下面的矩阵:
A=[0010]
其特征值为 λ1=λ2=0,特征方程 (A−0I)x=0 只能解出一个独立向量 x=(1,0),因此 X 只有一列、无法求逆。
注意:可逆性看的是特征值是不是0,而可对角化性看的是特征向量够不够 n 个。
4. 对称矩阵性质
a. 基本性质
对于任意实对称矩阵 S=ST,它一定具有如下性质:
- 特征值全是实数。
- 特征向量互相垂直。
b. 对角化
对称矩阵的对角化形式比普通矩阵的更为优美。在对称矩阵中,由于特征向量相互垂直,我们可以将特征向量归一化构成标准正交基。标准正交基构成的矩阵 Q 为标准正交矩阵,它有如下性质:Q−1=QT。替换原先的对角化公式,得:
S=QΛQT
这即是谱定理公式,写成展开的投影形式得:
S=λ1q1q1T+λ2q2q2T+⋯+λnqnqnT
这个式子意味着任何一个对称矩阵,都可以分解为一系列简单的投影矩阵的组合,其中:
- qiqiT 是投影矩阵。
- λi 是这个投影的强度。
例如,对于下面的对称矩阵:
S=[1224]
其特征向量为 (2,−1) 和 (1,2),于是:
Q=51[2−112],S=Q[0005]QT