Dark Dwarf Blog background

特征值与特征向量

特征值与特征向量

1. 基本概念

通常情况下,当我们用一个矩阵 AA 去乘一个向量 xx 时,得到的向量 AxAx 会改变方向。但是存在一些特殊的向量xx,它们被 AA 乘过之后,方向不改变,只是被拉长、缩短或者反向了:

Ax=λxAx = \lambda x

其中这些还在同一条直线上的向量 xx 被称为特征向量,缩放系数 λ\lambda 被称为特征值。

特征向量的推导方式如下:

Ax=λxAxλx=0(AλI)x=0\begin{aligned} A x &= \lambda x \\ A x - \lambda x &= 0 \\ (A - \lambda I)\,x &= 0 \end{aligned}

如果 AλIA-\lambda I 是可逆的,那么这个式子的唯一解就是 x=0x=0,这与特征向量的定义不符。因此 AλIA-\lambda I 必须是奇异的,即:

det(AλI)=0\det(A-\lambda I)=0

以下面这个矩阵为例:

A=[1224]A = \begin{bmatrix}1 & 2\\[2pt]2 & 4\end{bmatrix}

有:

AλI=[1λ224λ]det(AλI)=(1λ)(4λ)22λ(λ5)=0λ1=0,λ2=5\begin{aligned} A - \lambda I &= \begin{bmatrix}1-\lambda & 2\\[4pt]2 & 4-\lambda\end{bmatrix} \\ \det(A-\lambda I) &= (1-\lambda)(4-\lambda) - 2\cdot 2 \\ \lambda(\lambda-5)&=0 \\ \Rightarrow \lambda_1&=0, \lambda_2=5 \end{aligned}

2. 行列式与迹

a.a. 基本性质

  1. 所有特征值的乘积等于矩阵的行列式:

λ1λ2λn=detA\lambda_1 \cdot \lambda_2 \cdots \lambda_n = \det A

  1. 所有特征值的和等于矩阵主对角线元素的和。这个对角线之和被称为迹 (Trace):

λ1+λ2++λn=a11+a22++ann\lambda_1 + \lambda_2 + \cdots + \lambda_n = a_{11} + a_{22} + \cdots + a_{nn}

b.b. 证明

首先来看简单的 2x2 矩阵的例子,直接展开得:

det[aλbcdλ]=(aλ)(dλ)(b)(c)=adaλdλ+λ2bc=λ2(a+d)λ+(adbc)\begin{aligned} \det \begin{bmatrix} a-\lambda & b \\ c & d-\lambda \end{bmatrix} &= (a-\lambda)(d-\lambda) - (b)(c) \\ &= ad - a\lambda - d\lambda + \lambda^2 - bc \\ &= \lambda^2 - (a+d)\lambda + (ad-bc) \end{aligned}

它也可以写成如下形式:

(λλ1)(λλ2)=λ2λ1λλ2λ+λ1λ2=λ2(λ1+λ2)λ+(λ1λ2)\begin{aligned} (\lambda - \lambda_1)(\lambda - \lambda_2) &= \lambda^2 - \lambda_1\lambda - \lambda_2\lambda + \lambda_1\lambda_2 \\ &= \lambda^2 - (\lambda_1 + \lambda_2)\lambda + (\lambda_1 \lambda_2) \end{aligned}

利用系数比对很容易得出特征值之和为住对角线元素之和 a+da+d、特征值之积为行列式值 adbcad-bc。同样地,对于nxn矩阵,我们展开行列式多项式:

P(λ)=(1)nλn+cn1λn1++c0P(\lambda) = (-1)^n \lambda^n + c_{n-1}\lambda^{n-1} + \dots + c_0

同样地,它也可以写成下面的形式:

P(λ)=(λ1λ)(λ2λ)(λnλ)P(\lambda) = (\lambda_1 - \lambda)(\lambda_2 - \lambda)\dots(\lambda_n - \lambda)

λ=0\lambda =0 可得 det(A)=λ1λn\det(A) = \lambda_1 \dots \lambda_n。而 λ\lambda 的和是由倒数第二高次项 λn1\lambda^{n-1} 的系数决定的:在展开 (a11λ)(a22λ)(a_{11}-\lambda)(a_{22}-\lambda)\dots 时,要得到 λn1\lambda^{n-1},我们只能从 n1n-1 个括号里选 λ-\lambda,这就迫使剩下那个括号必须选常数项 aiia_{ii},也即 (a11+a22+)-(a_{11} + a_{22} + \dots),而根的形式为 (λ1++λn)-(\lambda_1 + \dots + \lambda_n),于是 Trace(A)=λi\text{Trace}(A) = \sum \lambda_i

3. 对角化

a.a. 基本概念

我们可以使用前面计算的特征值,将一个复杂的矩阵 AA 进行对角化,变成一个简单的对角矩阵 Λ\Lambda

对角化的核心公式为:

A=XΛX1A = X \Lambda X^{-1}

或者:

Λ=X1AX\Lambda = X^{-1} A X

其中:

  • XX 为特征向量矩阵:把 nn 个独立的特征向量作为列向量,拼成这个矩阵。
  • Λ\Lambda 为特征值矩阵:这是一个对角矩阵,对角线上的元素就是对应的特征值 λ1,,λn\lambda_1, \dots, \lambda_n,其他位置全是 0。

我们可以把这一过程理解为:将 AA 原本所在的坐标系换成以特征向量为轴(即乘以 X1X^{-1}),矩阵就变成了 Λ\Lambda。 在 Λ\Lambda 的世界里,变量之间完全解耦,处理起来极其简单。处理完后再换回原来的坐标系(即乘以 XX)。

b.b. 证明

对角化公式的推导来源为 AX=XΛAX=X\Lambda。这个式子很好证明。

对左侧,有:

AX=A[x1  x2    xn]=[Ax1  Ax2    Axn]=[λ1x1  λ2x2    λnxn]\begin{aligned} AX &= A\,[x_1\ \ x_2\ \ \dots\ \ x_n] \\ &= [Ax_1\ \ Ax_2\ \ \dots\ \ Ax_n] \\ &= [\lambda_1 x_1\ \ \lambda_2 x_2\ \ \dots\ \ \lambda_n x_n] \end{aligned}

对右侧,有:

XΛ=[x1  x2    xn][λ1λn]=[λ1x1    λnxn].X\Lambda = [x_1\ \ x_2\ \ \dots\ \ x_n] \begin{bmatrix} \lambda_1 & & \\ & \ddots & \\ & & \lambda_n \end{bmatrix} = [\lambda_1 x_1\ \ \dots\ \ \lambda_n x_n].

两侧相等,从而得证。

c.c. 对角化条件

对角化的前提是 XX 必须是可逆的。这意味着矩阵必须有 nn 个线性无关的特征向量。从特征值来看:

  • 特征值互不相同时,一定是可以对角化的。
  • 特征值有重复时,可能无法对角化。因为如果特征值重复,可能找不到足够的特征向量来填满 XX 矩阵。例如下面的矩阵:
A=[0100]A = \begin{bmatrix} 0 & 1 \\ 0 & 0 \end{bmatrix}

其特征值为 λ1=λ2=0\lambda_1=\lambda_2=0,特征方程 (A0I)x=0(A-0I)x=0 只能解出一个独立向量 x=(1,0)x=(1, 0),因此 XX 只有一列、无法求逆。

注意:可逆性看的是特征值是不是0,而可对角化性看的是特征向量够不够 nn 个。

4. 对称矩阵性质

a.a. 基本性质

对于任意实对称矩阵 S=STS=S^T,它一定具有如下性质:

  1. 特征值全是实数。
  2. 特征向量互相垂直。

b.b. 对角化

对称矩阵的对角化形式比普通矩阵的更为优美。在对称矩阵中,由于特征向量相互垂直,我们可以将特征向量归一化构成标准正交基。标准正交基构成的矩阵 QQ 为标准正交矩阵,它有如下性质:Q1=QTQ^{-1}=Q^T。替换原先的对角化公式,得:

S=QΛQTS = Q \Lambda Q^T

这即是谱定理公式,写成展开的投影形式得:

S=λ1q1q1T+λ2q2q2T++λnqnqnTS = \lambda_1 q_1 q_1^T + \lambda_2 q_2 q_2^T + \dots + \lambda_n q_n q_n^T

这个式子意味着任何一个对称矩阵,都可以分解为一系列简单的投影矩阵的组合,其中:

  • qiqiTq_i q_i^T 是投影矩阵。
  • λi\lambda_i 是这个投影的强度。

例如,对于下面的对称矩阵:

S=[1224]S = \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix}

其特征向量为 (2,1)(2, -1)(1,2)(1, 2),于是:

Q=15[2112],S=Q[0005]QTQ = \frac{1}{\sqrt{5}} \begin{bmatrix} 2 & 1 \\ -1 & 2 \end{bmatrix}, S = Q \begin{bmatrix} 0 & 0 \\ 0 & 5 \end{bmatrix} Q^T