理论(12):相似形理论"/>
【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(12):相似形理论
目录
- 前言
- 往期文章
- 3.3 线性变换的最简矩阵表示-相似形理论
- 3.3.1 一般数域上矩阵相似最简形
- 定义3.9
- 定理3.3.1
- 相似矩阵的性质
- 定义3.10
- 定理3.3.2
- 定理3.3.3
- 定义3.12
- 求线性变换 A \mathscr{A} A的特征值和特征值向量
- 定理3.3.4
- 定理3.3.5
- 定理3.3.6
- 定理3.3.7
- 定理3.3.8
- 3.3.2 复数域上矩阵相似最简型-若当形矩阵
- 变量 λ \lambda λ的多项式矩阵
- 定义3.13
- 定义3.14
- 定理3.3.9
- 定义3.15:三种 λ \lambda λ-矩阵的初等变换
- 定理3.3.10
- 定理3.3.11
- 定理3.3.12:smith标准形
- 定义3.16
- 定理3.3.13
- 定义3.17
- 定理3.3.14
- 定义3.18
- 定理3.3.15
- 若当块 J ( λ 0 , t ) J(\lambda_0,t) J(λ0,t)的初等因子
- 若当形矩阵的初等因子
- 定理3.3.16
- 结语
前言
Hello!小伙伴!
非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~
自我介绍 ଘ(੭ˊᵕˋ)੭
昵称:海轰
标签:程序猿|C++选手|学生
简介:因C语言结识编程,随后转入计算机专业,有幸拿过一些国奖、省奖…已保研。目前正在学习C++/Linux/Python
学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!
机器学习小白阶段
文章仅作为自己的学习笔记 用于知识体系建立以及复习
知其然 知其所以然!
往期文章
【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(1):集合与映射
【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(2):线性空间定义及其性质
【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(3):线性空间的基与坐标
【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(4):基变换与坐标变换
【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(5):线性子空间
【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(6):子空间的交与和
【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(7):欧氏空间
【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(8):标准正交基与Gram-Schmidt过程
【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(9):正交补与投影定理
【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(10):线性变换定义
【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(11):线性变换的矩阵表示
3.3 线性变换的最简矩阵表示-相似形理论
3.3.1 一般数域上矩阵相似最简形
定义3.9
设 A , B A,B A,B均为 n n n阶方阵,若存在 n n n阶可逆矩阵 C C C,使 C − 1 A C = B C^{-1}AC=B C−1AC=B
称 A A A与 B B B相似,记为 A ∼ B A\sim B A∼B
定理3.3.1
n n n维线性空间 V V V上的线性变换 A \mathscr{A} A在不同的基下的矩阵表示是相似的
反之,相似矩阵可以看做某一线性变换在不同基下的矩阵表示
证明
设 ε 1 , ε 2 , . . . , ε n \boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n ε1,ε2,...,εn和 ε 1 ′ , ε 2 ′ , . . . , ε n ′ \boldsymbol\varepsilon^{'}_1,\boldsymbol\varepsilon^{'}_2,...,\boldsymbol\varepsilon^{'}_n ε1′,ε2′,...,εn′分别是 V V V的两个基底
它们之间存在关系:
( ε 1 ′ , ε 2 ′ , . . . , ε n ′ ) = ( ε 1 , ε 2 , . . . , ε n ) C (1) (\boldsymbol\varepsilon^{'}_1,\boldsymbol\varepsilon^{'}_2,...,\boldsymbol\varepsilon^{'}_n)=(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)C\tag{1} (ε1′,ε2′,...,εn′)=(ε1,ε2,...,εn)C(1)
设线性变换 A \mathscr{A} A在基 ε 1 , ε 2 , . . . , ε n \boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n ε1,ε2,...,εn和 ε 1 ′ , ε 2 ′ , . . . , ε n ′ \boldsymbol\varepsilon^{'}_1,\boldsymbol\varepsilon^{'}_2,...,\boldsymbol\varepsilon^{'}_n ε1′,ε2′,...,εn′下的矩阵表示分别为 A 、 B A、B A、B,有
A ( ε 1 , ε 2 , . . . , ε n ) = ( ε 1 , ε 2 , . . . , ε n ) A (2) \mathscr{A}(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)=(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)A\tag{2} A(ε1,ε2,...,εn)=(ε1,ε2,...,εn)A(2)
A ( ε 1 ′ , ε 2 ′ , . . . , ε n ′ ) = ( ε 1 ′ , ε 2 ′ , . . . , ε n ′ ) B (3) \mathscr{A}(\boldsymbol\varepsilon^{'}_1,\boldsymbol\varepsilon^{'}_2,...,\boldsymbol\varepsilon^{'}_n)=(\boldsymbol\varepsilon^{'}_1,\boldsymbol\varepsilon^{'}_2,...,\boldsymbol\varepsilon^{'}_n)B\tag{3} A(ε1′,ε2′,...,εn′)=(ε1′,ε2′,...,εn′)B(3)
将(1)式代入(3)式,得到
A ( ε 1 , ε 2 , . . . , ε n ) C = ( ε 1 , ε 2 , . . . , ε n ) C B (4) \mathscr{A}(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)C=(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)CB\tag{4} A(ε1,ε2,...,εn)C=(ε1,ε2,...,εn)CB(4)
等式右乘 C − 1 C^{-1} C−1,得
A ( ε 1 , ε 2 , . . . , ε n ) = A ( ε 1 , ε 2 , . . . , ε n ) C B C − 1 (5) \mathscr{A}(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)=\mathscr{A}(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)CBC^{-1}\tag{5} A(ε1,ε2,...,εn)=A(ε1,ε2,...,εn)CBC−1(5)
联合(2)式和(5)式,有
{ A ( ε 1 , ε 2 , . . . , ε n ) = ( ε 1 , ε 2 , . . . , ε n ) A A ( ε 1 , ε 2 , . . . , ε n ) = ( ε 1 , ε 2 , . . . , ε n ) C B C − 1 \begin{cases} \mathscr{A}(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)=(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)A\\ \mathscr{A}(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)=(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)CBC^{-1} \end{cases} {A(ε1,ε2,...,εn)=(ε1,ε2,...,εn)AA(ε1,ε2,...,εn)=(ε1,ε2,...,εn)CBC−1
得到
A = C B C − 1 或 B = C − 1 A C A=CBC^{-1}\quad或\quad B=C^{-1}AC A=CBC−1或B=C−1AC
即, A A A与 B B B相似
相似矩阵的性质
- 反射性 : A ∼ A A \sim A A∼A
- 对称性 :若 A ∼ B A\sim B A∼B,则 B ∼ A B\sim A B∼A
- 传递性:若 A ∼ B , B ∼ C A\sim B,B\sim C A∼B,B∼C,则 A ∼ C A\sim C A∼C
- 可加性:若 B 1 = C − 1 A 1 C , B 2 = C − 1 A 2 C B_1=C^{-1}A_1C,B_2=C^{-1}A_2C B1=C−1A1C,B2=C−1A2C,则 B 1 + B 2 ∼ A 1 + A 2 B_1+B_2\sim A_1+A_2 B1+B2∼A1+A2
- 可乘性:若 B 1 = C − 1 A 1 C , B 2 = C − 1 A 2 C B_1=C^{-1}A_1C,B_2=C^{-1}A_2C B1=C−1A1C,B2=C−1A2C,则 B 1 B 2 ∼ A 1 A 2 B_1B_2\sim A_1A_2 B1B2∼A1A2
- 数乘性:若 A ∼ B A\sim B A∼B,则 k A ∼ k B kA\sim kB kA∼kB
- 若 A ∼ B , f ( x ) ∈ K [ x ] A\sim B,f(x) \in K[x] A∼B,f(x)∈K[x],则 f ( A ) ∼ f ( B ) f(A)\sim f(B) f(A)∼f(B)
定义3.10
设 A \mathscr{A} A是数域 K K K上 n n n维线性空间 V V V的线性变换,若对于 λ 0 ∈ K \lambda_0\in K λ0∈K,存在非零向量 α ∈ V \alpha\in V α∈V,使得
A α = λ 0 α \mathscr{A}\alpha=\lambda_0\alpha Aα=λ0α
则称 λ 0 \lambda_0 λ0是 A \mathscr{A} A的特征值, α \alpha α是 A \mathscr{A} A关于 λ 0 \lambda_0 λ0的特征向量
定理3.3.2
n n n级方阵 A A A能相似于对角阵 Λ \Lambda Λ的充分必要条件是 A A A有 n n n个线性无关的特征向量 ρ 1 , . . . , ρ n \rho_1,...,\rho_n ρ1,...,ρn
定理3.3.3
线性变换 A \mathscr{A} A能由对角矩阵表示 Λ = [ λ 1 . . λ n ] \Lambda=\begin{bmatrix} \lambda_1 & & & \\ & . & & \\ & &. & \\ & & & \lambda_n\\ \end{bmatrix} Λ=⎣⎢⎢⎡λ1..λn⎦⎥⎥⎤的充分必要条件是 A \mathscr{A} A有 n n n个线性无关的特征向量 ε 1 ′ , . . . , ε n ′ \boldsymbol{\varepsilon_1^{'}},...,\boldsymbol{\varepsilon_n^{'}} ε1′,...,εn′
若 A ( ε 1 ′ , ε 2 ′ , . . . , ε n ′ ) = ( ε 1 ′ , ε 2 ′ , . . . , ε n ′ ) [ λ 1 λ 2 . . . λ n ] \mathscr{A}(\boldsymbol\varepsilon^{'}_1,\boldsymbol\varepsilon^{'}_2,...,\boldsymbol\varepsilon^{'}_n)=(\boldsymbol\varepsilon^{'}_1,\boldsymbol\varepsilon^{'}_2,...,\boldsymbol\varepsilon^{'}_n)\begin{bmatrix} \lambda_1 &&&&&\\ & \lambda_2 &&&&\\ && . &&&\\ &&& . &&\\ &&&& . & \\ &&&&& \lambda_n \end{bmatrix} A(ε1′,ε2′,...,εn′)=(ε1′,ε2′,...,εn′)⎣⎢⎢⎢⎢⎢⎢⎡λ1λ2...λn⎦⎥⎥⎥⎥⎥⎥⎤
因为
A ( ε 1 , ε 2 , . . . , ε n ) = ( ε 1 , ε 2 , . . . , ε n ) A \mathscr{A}(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)=(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)A A(ε1,ε2,...,εn)=(ε1,ε2,...,εn)A
且
P − 1 A P = Λ , P = ( ρ 1 , ρ 2 , . . . , ρ n ) P^{-1}AP=\Lambda,P=(\rho_1,\rho_2,...,\rho_n) P−1AP=Λ,P=(ρ1,ρ2,...,ρn)
得到
ε i ′ = ( ε 1 , ε 2 , . . . , ε n ) ρ i i = 1 , 2 , . . . , n \boldsymbol\varepsilon^{'}_i=(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)\rho_i\quad i=1,2,...,n εi′=(ε1,ε2,...,εn)ρii=1,2,...,n
定义3.12
设 A ∈ K n × n A\in K^{n×n} A∈Kn×n,则
- 矩阵 λ E − A \lambda E - A λE−A称为 A A A的特征矩阵
- 方程 ∣ λ E − A ∣ = 0 |\lambda E - A|=0 ∣λE−A∣=0称为 A A A的特征方程
- 多项式 ∣ λ E − A ∣ |\lambda E - A| ∣λE−A∣叫 A A A的特征多项式,记为 f A ( λ ) f_{A}(\lambda) fA(λ),即 f A ( λ ) = ∣ λ E − A ∣ f_{A}(\lambda)=|\lambda E - A| fA(λ)=∣λE−A∣
- f A ( λ ) f_{A}(\lambda) fA(λ)的根就是 A A A的特征值或特征根
n n n级方阵 A A A在复数域 C C C上一定有 n n n个特征根(重根按重数算)
求线性变换 A \mathscr{A} A的特征值和特征值向量
步骤一
任选线性空间 V V V中的一组基 ε 1 , ε 2 , . . . , ε n \boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n ε1,ε2,...,εn,求出 A \mathscr{A} A在 ε 1 , ε 2 , . . . , ε n \boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n ε1,ε2,...,εn的矩阵表示 A A A
步骤二
求出特征多项式 f A ( λ ) = ∣ λ E − A ∣ f_A(\lambda)=|\lambda E - A| fA(λ)=∣λE−A∣在数域 K K K中的全部特征根 λ 1 , . . . , λ k \lambda_1,...,\lambda_k λ1,...,λk,得到 A \mathscr{A} A的特征值
步骤三
对于每一个特征根 λ i \lambda_i λi,求解线性方程组
( λ i E − A ) χ = 0 (\lambda_i E- A)\boldsymbol\chi=\boldsymbol0 (λiE−A)χ=0
若 ρ i 1 , ρ i 2 , . . . , ρ i l i \rho_{i1},\rho_{i2},...,\rho_{il_i} ρi1,ρi2,...,ρili是上式的基础解系
则其为矩阵 A A A对应于 λ i \lambda_i λi的线性无关的特征向量
步骤四
ε i t ′ = ( ε 1 , ε 2 , . . . , ε n ) ρ i t t = 1 , 2 , . . . , l i \boldsymbol\varepsilon^{'}_{it}=(\boldsymbol\varepsilon_1,\boldsymbol\varepsilon_2,...,\boldsymbol\varepsilon_n)\rho_{it}\quad t=1,2,...,l_i εit′=(ε1,ε2,...,εn)ρitt=1,2,...,li就是线性变换 A \mathscr{A} A的对应于 λ i \lambda_i λi的线性无关的特征向量
步骤五
若 ε 11 ′ , . . . ε 1 l 1 ′ , . . . ε k 1 ′ , . . . , ε k l k ′ \boldsymbol\varepsilon^{'}_{11},...\boldsymbol\varepsilon^{'}_{1l_1},...\boldsymbol\varepsilon^{'}_{k1},...,\boldsymbol\varepsilon^{'}_{kl_k} ε11′,...ε1l1′,...εk1′,...,εklk′是 n n n个线性无关的特征向量,那么它们可作 V V V的基,且 A \mathscr{A} A在此基下的矩阵表示是对角阵 Λ \Lambda Λ
Λ = [ λ 1 . . . λ k ] n × n \Lambda=\begin{bmatrix} \lambda_1 &&&&\\ & . &&&\\ && . &&\\ &&& . &\\ &&&& \lambda_k \end{bmatrix}_{n×n} Λ=⎣⎢⎢⎢⎢⎡λ1...λk⎦⎥⎥⎥⎥⎤n×n
定理3.3.4
相似矩阵有完全相同的特征值
定理3.3.5
如果 ρ 1 , . . . , ρ m \rho_1,...,\rho_m ρ1,...,ρm是 A A A的分别属于互不相同的特征值 λ 1 , . . . , λ m \lambda_1,...,\lambda_m λ1,...,λm的特征向量,则 ρ 1 , . . . , ρ m \rho_1,...,\rho_m ρ1,...,ρm线性无关
推论
若 n n n级矩阵 A A A有 n n n个互不相同的特征值,则 A A A可相似于对角阵
若 A A A有重根,则需要进行更深层次的分析,用于判断是否可相似于对角阵
定理3.3.6
设 λ 1 , . . . , λ k \lambda_1,...,\lambda_k λ1,...,λk是A的互不相同的特征值, ρ 11 , . . . , ρ 1 r 1 \rho_{11},...,\rho_{1r_{1}} ρ11,...,ρ1r1是 λ 1 \lambda_1 λ1对应的 r 1 r_1 r1个线性无关特征向量,… , ρ k 1 , . . . , ρ k r k \rho_{k1},...,\rho_{kr_{k}} ρk1,...,ρkrk是 λ k \lambda_k λk对应的 r k r_k rk个线性无关的特征值向量,则 ρ 11 , . . . , ρ 1 r 1 , . . . , ρ k 1 , . . . , ρ k r k \rho_{11},...,\rho_{1r_1},...,\rho_{k1},...,\rho_{kr_k} ρ11,...,ρ1r1,...,ρk1,...,ρkrk是线性无关的
定理3.3.7
λ 0 \lambda_0 λ0是 A A A的一个 k k k重特征值,则对应于 λ 0 \lambda_0 λ0的 A A A的线性无关向量的最多个数 ≤ k \leq k ≤k
推论
一个矩阵 A A A在复数域 C C C上能化为对角阵的充要条件是对应于 A A A的每一个特征值的特征向量的线性无关最大个数等于该特征值的重根个数
定理3.3.8
任意实对称矩阵一定相似于对角阵,且它的不同特征值对应的特征向量总是正交的
3.3.2 复数域上矩阵相似最简型-若当形矩阵
变量 λ \lambda λ的多项式矩阵
以 λ \lambda λ的多项式为元素的矩阵,如
A ( λ ) = [ a 11 ( λ ) . . a 1 n ( λ ) . . . . . . . . a m 1 ( λ ) . . a m n ( λ ) ] a ( i j ) ( λ ) ∈ K [ λ ] A(\lambda)=\begin{bmatrix} a_{11}(\lambda) & . &. & a_{1n}(\lambda)\\ . & . & . & . \\ . & . & . & . \\ a_{m1}(\lambda) & . &. & a_{mn}(\lambda)\\ \end{bmatrix} \quad a(_{ij})(\lambda) \in K[\lambda] A(λ)=⎣⎢⎢⎡a11(λ)..am1(λ)........a1n(λ)..amn(λ)⎦⎥⎥⎤a(ij)(λ)∈K[λ]
叫做多项式矩阵,又称 λ \lambda λ-矩阵
其中 K [ λ ] K[\lambda] K[λ]表示系数是数域 K K K上的多项式全体
a i j ( λ ) ∈ K [ λ ] a_{ij}(\lambda)\in K[\lambda] aij(λ)∈K[λ]
设 a i j ( λ ) = a n λ n + a n − 1 λ n − 1 + . . . + a 1 λ + a 0 a_{ij}(\lambda)=a_n\lambda^n+a_{n-1}\lambda^{n-1}+...+a_1\lambda+a_0 aij(λ)=anλn+an−1λn−1+...+a1λ+a0
若 a n ≠ 0 a_n \neq 0 an=0,称多项式 a i j ( λ ) a_{ij}(\lambda) aij(λ)的次数为 n n n,记为 ϑ α i j \vartheta\alpha_{ij} ϑαij
若 a n = 1 a_n = 1 an=1,称 a i j ( λ ) a_{ij}(\lambda) aij(λ)是首一多项式
定义3.13
若 λ \lambda λ-矩阵 A ( λ ) A(\lambda) A(λ)中有一个 r ( r ≥ 1 ) r(r\geq1) r(r≥1)级子式不恒为0,而所有的 r + 1 r+1 r+1级子式(存在的情况下)恒为0
则称 A ( λ ) A(\lambda) A(λ)的秩为 r r r,记为 r a n k A ( λ ) = r rankA(\lambda)=r rankA(λ)=r,简记为 r ( A ) = r r(A)=r r(A)=r
定义3.14
设 A ( λ ) A(\lambda) A(λ)是一个 n n n级 λ \lambda λ-方阵
若存在 n n n级 λ \lambda λ-方阵 B ( λ ) B(\lambda) B(λ),使得 A ( λ ) B ( λ ) = B ( λ ) A ( λ ) = E A(\lambda)B(\lambda)=B(\lambda)A(\lambda)=E A(λ)B(λ)=B(λ)A(λ)=E
则称 A ( λ ) A(\lambda) A(λ)是可逆 λ \lambda λ-矩阵,并称 B ( λ ) B(\lambda) B(λ)是 A ( λ ) A(\lambda) A(λ)的逆阵,记为 A − 1 ( λ ) A^{-1}(\lambda) A−1(λ)
若 A ( λ ) A(\lambda) A(λ)可逆,则 A − 1 ( λ ) A^{-1}(\lambda) A−1(λ)是惟一的
特别注意:在数字矩阵中,满秩矩阵就是可逆矩阵,但满秩的 λ \lambda λ-矩阵未必可逆,比如 A ( λ ) = A = [ λ 0 0 1 ] A(\lambda)=A=\begin{bmatrix} \lambda & 0\\ 0 & 1 \end{bmatrix} A(λ)=A=[λ001]
定理3.3.9
一个 n n n级 λ − \lambda- λ−方阵 A ( λ ) A(\lambda) A(λ)可逆的充分必要条件是行列式 ∣ A ( λ ) ∣ |A(\lambda)| ∣A(λ)∣为非零常数
定义3.15:三种 λ \lambda λ-矩阵的初等变换
(1)互换 A ( λ ) A(\lambda) A(λ)的 i , j i,j i,j两行(列),相当于左(右)乘以初等 λ \lambda λ-矩阵
(2) A ( λ ) A(\lambda) A(λ)的第 i i i行(列)扩大 k k k倍( k ≠ 0 k\neq 0 k=0),相当于左(右)乘以初等 λ \lambda λ-矩阵
(3)把 A ( λ ) A(\lambda) A(λ)的第 i i i行的 φ ( λ ) \varphi(\lambda) φ(λ)倍(是一个多项式)加到第 j j j行上,相当于左乘以初等 λ \lambda λ-矩阵
若 A ( λ ) A(\lambda) A(λ)经过有限次初等变换变为 B ( λ ) B(\lambda) B(λ),称为 A ( λ ) A(\lambda) A(λ)与 B ( λ ) B(\lambda) B(λ)等价,记作
A ( λ ) = ∼ B ( λ ) A(\lambda)\stackrel{\sim}{=}B(\lambda) A(λ)=∼B(λ)
等价关系满足
- 自反性: A ( λ ) = ∼ A ( λ ) A(\lambda)\stackrel{\sim}{=}A(\lambda) A(λ)=∼A(λ)
- 对称性:若 A ( λ ) = ∼ B ( λ ) A(\lambda)\stackrel{\sim}{=}B(\lambda) A(λ)=∼B(λ)则 B ( λ ) = ∼ A ( λ ) B(\lambda)\stackrel{\sim}{=}A(\lambda) B(λ)=∼A(λ)
- 传递性:若 A ( λ ) = ∼ B ( λ ) A(\lambda)\stackrel{\sim}{=}B(\lambda) A(λ)=∼B(λ), B ( λ ) = ∼ C ( λ ) B(\lambda)\stackrel{\sim}{=}C(\lambda) B(λ)=∼C(λ),则 A ( λ ) = ∼ C ( λ ) A(\lambda)\stackrel{\sim}{=}C(\lambda) A(λ)=∼C(λ)
定理3.3.10
两个 m × n m×n m×n阶的 λ \lambda λ-矩阵 A ( λ ) , B ( λ ) A(\lambda),B(\lambda) A(λ),B(λ)等价的充分必要条件是存在可逆 m m m阶 P ( λ ) P(\lambda) P(λ)阵及 n n n阶 Q ( λ ) Q(\lambda) Q(λ)阵,使得
P ( λ ) A ( λ ) Q ( λ ) = B ( λ ) P(\lambda)A(\lambda)Q(\lambda)=B(\lambda) P(λ)A(λ)Q(λ)=B(λ)
定理3.3.11
设 A , B A,B A,B是两个数字矩阵,则 A ∼ B A\sim B A∼B的充分必要条件是 λ E − A = ∼ λ E − B \lambda E - A\stackrel{\sim}{=}\lambda E - B λE−A=∼λE−B
定理3.3.12:smith标准形
任意一个秩为 r r r的 m × n m×n m×n阶 λ \lambda λ-矩阵 A ( λ ) A(\lambda) A(λ)都等价于一个对角形 λ \lambda λ-矩阵
其中 d i ( λ ) ( i = 1 , . . . , r ) d_i(\lambda)(i=1,...,r) di(λ)(i=1,...,r)都是首一多项式,且 d i ( λ ) ∣ d i + 1 ( λ ) d_i(\lambda)|d_{i+1}(\lambda) di(λ)∣di+1(λ),此对角形矩阵叫 A ( λ ) A(\lambda) A(λ)的smith标准形
d i ( λ ) ∣ d i + 1 ( λ ) d_i(\lambda)|d_{i+1}(\lambda) di(λ)∣di+1(λ)表示存在多项式 g ( λ ) g(\lambda) g(λ),使得 d i + 1 ( λ ) = d i ( λ ) g ( λ ) d_{i+1}(\lambda)=d_i(\lambda)g(\lambda) di+1(λ)=di(λ)g(λ)
简单的理解,就是 d i + 1 d_{i+1} di+1可以整除 d i d_i di
例题:利用初等变换化 λ − \lambda- λ−矩阵
A ( λ ) = [ 1 − λ λ 2 λ λ λ − λ 1 + λ 2 λ 2 − λ 2 ] A(\lambda)=\begin{bmatrix} 1-\lambda & \lambda^2 & \lambda\\ \lambda & \lambda & -\lambda\\ 1 + \lambda^2 & \lambda^2 & -\lambda^2 \end{bmatrix} A(λ)=⎣⎡1−λλ1+λ2λ2λλ2λ−λ−λ2⎦⎤
为Smith标准形
定义3.16
设 r a n k A ( λ ) = r ( r ≥ 1 ) rankA(\lambda)=r(r\geq1) rankA(λ)=r(r≥1),则对正整数 k ( 1 ≤ k ≤ r ) k(1\leq k \leq r) k(1≤k≤r), A ( λ ) A(\lambda) A(λ)中必有非0点 k k k阶子式
A ( λ ) A(\lambda) A(λ)的全部 k k k阶子式的最高公因式(首1多项式)记为 D k ( λ ) D_k(\lambda) Dk(λ),称之为 A ( λ ) A(\lambda) A(λ)的 k k k阶行列式因子
当 r ≥ 1 r \geq 1 r≥1时, A ( λ ) A(\lambda) A(λ)有 r r r个行列式因子 D 1 ( λ ) , D 2 ( λ ) , . . . , D r ( λ ) D_1(\lambda),D_2(\lambda),...,D_r(\lambda) D1(λ),D2(λ),...,Dr(λ)
定理3.3.13
若 A ( λ ) = ∼ B ( λ ) A(\lambda)\stackrel{\sim}{=}B(\lambda) A(λ)=∼B(λ),则 A ( λ ) A(\lambda) A(λ)与 B ( λ ) B(\lambda) B(λ)有相同的秩及各级行列式因子
A ( λ ) A(\lambda) A(λ)经过有限次初等变换成smith标准形 B ( λ ) B(\lambda) B(λ),即
因为 d 1 ( λ ) , . . . , d r ( λ ) d_1(\lambda),...,d_r(\lambda) d1(λ),...,dr(λ)皆为多项式, d i ( λ ) ∣ d i + 1 ( λ ) i = 1 , 2 , . . . , r − 1 d_i(\lambda) | d_{i+1}(\lambda) \quad i = 1,2,...,r-1 di(λ)∣di+1(λ)i=1,2,...,r−1
那么
D 1 ( λ ) = d 1 ( λ ) D_1(\lambda)=d_1(\lambda) D1(λ)=d1(λ)
D 2 ( λ ) = d 1 ( λ ) d 2 ( λ ) D_2(\lambda)=d_1(\lambda)d_2(\lambda) D2(λ)=d1(λ)d2(λ)
. . . . . . ...... ......
D r ( λ ) = d 1 ( λ ) . . . d r ( λ ) D_r(\lambda)=d_1(\lambda)...d_r(\lambda) Dr(λ)=d1(λ)...dr(λ)
即
d 1 ( λ ) = D 1 ( λ ) d_1(\lambda)=D_1(\lambda) d1(λ)=D1(λ)
d 2 ( λ ) = D 2 ( λ ) D 1 ( λ ) d_2(\lambda)=\frac{D_2(\lambda)}{D_1(\lambda)} d2(λ)=D1(λ)D2(λ)
. . . . . . ...... ......
d r ( λ ) = D r ( λ ) D r − 1 ( λ ) d_r(\lambda)=\frac{D_r(\lambda)}{D_{r-1}(\lambda)} dr(λ)=Dr−1(λ)Dr(λ)
其中 d 1 ( λ ) , d 2 ( λ ) , . . . , d r ( λ ) d_1(\lambda),d_2(\lambda),...,d_r(\lambda) d1(λ),d2(λ),...,dr(λ)称为 A ( λ ) A(\lambda) A(λ)的不变因子
因此 A ( λ ) A(\lambda) A(λ)的smith标准形是惟一的
例题
设 A ( λ ) = [ 1 − λ λ 2 λ λ λ − λ 1 + λ 2 λ 2 − λ 2 ] A(\lambda)=\begin{bmatrix} 1-\lambda & \lambda^2 & \lambda\\ \lambda & \lambda & -\lambda\\ 1+ \lambda^2 & \lambda^2 & -\lambda^2 \end{bmatrix} A(λ)=⎣⎡1−λλ1+λ2λ2λλ2λ−λ−λ2⎦⎤,求 A ( λ ) A(\lambda) A(λ)的Smith标准形
解答
观察 A ( λ ) A(\lambda) A(λ),可以发现
a 11 ( λ ) a_{11}(\lambda) a11(λ)与 a 21 ( λ ) a_{21}(\lambda) a21(λ)互素,故 D 1 ( λ ) = 1 D_1(\lambda)=1 D1(λ)=1
又因为
∣ 1 − λ λ 2 λ λ ∣ = λ ( 1 − λ − λ 2 ) , ∣ λ 2 λ λ − λ ∣ = λ 2 ( 1 − λ ) \begin{vmatrix} 1-\lambda & \lambda^2\\ \lambda & \lambda \end{vmatrix}=\lambda(1-\lambda-\lambda^2),\begin{vmatrix} \lambda^2 & \lambda\\ \lambda & -\lambda \end{vmatrix}=\lambda^2(1-\lambda) ∣∣∣∣1−λλλ2λ∣∣∣∣=λ(1−λ−λ2),∣∣∣∣λ2λλ−λ∣∣∣∣=λ2(1−λ)
所以 D 2 ( λ ) = λ D_2(\lambda)=\lambda D2(λ)=λ
D 3 ( λ ) = ∣ A ( λ ) ∣ = λ 2 ( λ + 1 ) D_3(\lambda)=|A(\lambda)|=\lambda^2(\lambda+1) D3(λ)=∣A(λ)∣=λ2(λ+1)
综上,可以得到
d 1 ( λ ) = D 1 ( λ ) = 1 d_1(\lambda)=D_1(\lambda)=1 d1(λ)=D1(λ)=1
d 2 ( λ ) = D 2 ( λ ) D 1 ( λ ) = λ d_2(\lambda)=\frac{D_2(\lambda)}{D_1(\lambda)}=\lambda d2(λ)=D1(λ)D2(λ)=λ
d 3 ( λ ) = D 3 ( λ ) D 2 ( λ ) = λ ( λ + 1 ) d_3(\lambda)=\frac{D_3(\lambda)}{D_2(\lambda)}=\lambda(\lambda+1) d3(λ)=D2(λ)D3(λ)=λ(λ+1)
故, A ( λ ) A(\lambda) A(λ)的Smith标准形为
[ 1 λ λ ( λ + 1 ) ] \begin{bmatrix} 1 & & \\ & \lambda & \\ & & \lambda(\lambda+1) \end{bmatrix} ⎣⎡1λλ(λ+1)⎦⎤
定义3.17
设 A ( λ ) A(\lambda) A(λ)的不变因子 d 1 ( λ ) , d 2 ( λ ) , . . . , d r ( λ ) d_1(\lambda),d_2(\lambda),...,d_r(\lambda) d1(λ),d2(λ),...,dr(λ)
这些不变因子在复数域分解为一次因式方幂
d 1 ( λ ) = ( λ − λ 1 ) l 11 ( λ − λ 2 ) l 12 . . . ( λ − λ t ) l 1 t d 2 ( λ ) = ( λ − λ 1 ) l 11 ( λ − λ 2 ) l 22 . . . ( λ − λ t ) l 2 t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . d r ( λ ) = ( λ − λ 1 ) l r 1 ( λ − λ 2 ) l r 2 . . . ( λ − λ t ) l r t d_1(\lambda) = (\lambda - \lambda_1)^{l_{11}} (\lambda - \lambda_2)^{l_{12}}... (\lambda - \lambda_t)^{l_{1t}}\\ \quad \\ d_2(\lambda) = (\lambda - \lambda_1)^{l_{11}} (\lambda - \lambda_2)^{l_{22}}... (\lambda - \lambda_t)^{l_{2t}}\\ \quad \\ ............................................................\\ d_r(\lambda) = (\lambda - \lambda_1)^{l_{r1}} (\lambda - \lambda_2)^{l_{r2}}... (\lambda - \lambda_t)^{l_{rt}} d1(λ)=(λ−λ1)l11(λ−λ2)l12...(λ−λt)l1td2(λ)=(λ−λ1)l11(λ−λ2)l22...(λ−λt)l2t............................................................dr(λ)=(λ−λ1)lr1(λ−λ2)lr2...(λ−λt)lrt
其中 l i j ≥ 0 ( i = 1 , . . . , r ; j = 1 , 2 , . . . , t ) l_{ij}\geq0\quad(i = 1,...,r;j = 1,2,...,t) lij≥0(i=1,...,r;j=1,2,...,t)
称 l i j > 0 l_{ij}>0 lij>0的所有 ( λ − λ j ) l i j (\lambda-\lambda_j)^{l_{ij}} (λ−λj)lij为 A ( λ ) A(\lambda) A(λ)的初等因子
对于数字矩阵 A A A, λ E − A \lambda E - A λE−A的初等因子就称为 A A A的初等因子
A ( λ ) A(\lambda) A(λ)的初等因子有可能有相同的
注:称 n n n阶矩阵 A A A的特征矩阵 λ E − A \lambda E - A λE−A的初等因子为矩阵 A A A的初等因子
定理3.3.14
A ( λ ) A(\lambda) A(λ)与 B ( λ ) B(\lambda) B(λ)都是 m × n m×n m×n阶 λ \lambda λ-矩阵,则以下命题等价
- A ( λ ) = ∼ B ( λ ) A(\lambda)\stackrel{\sim}{=}B(\lambda) A(λ)=∼B(λ)
- A ( λ ) , B ( λ ) A(\lambda),B(\lambda) A(λ),B(λ)有相同的smith标准形
- A ( λ ) , B ( λ ) A(\lambda),B(\lambda) A(λ),B(λ)有相同的各级行列式因子
- A ( λ ) , B ( λ ) A(\lambda),B(\lambda) A(λ),B(λ)有相同的不变因子
- A ( λ ) , B ( λ ) A(\lambda),B(\lambda) A(λ),B(λ)有相同的秩及初等因子
- 存在可逆矩阵 P ( λ ) , Q ( λ ) P(\lambda),Q(\lambda) P(λ),Q(λ),使得 P ( λ ) A ( λ ) Q ( λ ) = B ( λ ) P(\lambda)A(\lambda)Q(\lambda)=B(\lambda) P(λ)A(λ)Q(λ)=B(λ)
定义3.18
形式为
的矩阵称为若当块,其中 λ 0 \lambda_0 λ0为复数
由若干个若当块组成的准对角矩阵称为若当形矩阵
一阶若当块就是一阶矩阵,因此若当形矩阵包括对角阵
定理3.3.15
若 A ( λ ) A(\lambda) A(λ)呈分块对角形
A 1 ( λ ) , . . . , A r ( λ ) A_1(\lambda),...,A_r(\lambda) A1(λ),...,Ar(λ)都是 λ \lambda λ-矩阵,则 A 1 ( λ ) , . . . , A r ( λ ) A_1(\lambda),...,A_r(\lambda) A1(λ),...,Ar(λ)的全部初等因子就是 A ( λ ) A(\lambda) A(λ)的全部初等因子
若当块 J ( λ 0 , t ) J(\lambda_0,t) J(λ0,t)的初等因子
若当块 J ( λ 0 , t ) J(\lambda_0,t) J(λ0,t)的初等因子就是 ( λ − λ 0 ) t (\lambda-\lambda_0)^t (λ−λ0)t
给出一个一次因式幂 ( λ − λ 0 ) t (\lambda-\lambda_0)^t (λ−λ0)t,可以惟一写出一个若当块 J ( λ 0 , t ) J(\lambda_0,t) J(λ0,t),使得 J ( λ 0 , t ) J(\lambda_0,t) J(λ0,t)的初等因子就是 ( λ − λ 0 ) t (\lambda-\lambda_0)^{t} (λ−λ0)t
若当形矩阵的初等因子
设若当形矩阵 J J J
其中 J i = J i ( λ i , t i ) ( i = 1 , 2 , . . . , s ) J_i=J_i(\lambda_i,t_i)\quad(i = 1,2,...,s) Ji=Ji(λi,ti)(i=1,2,...,s)
那么其特征矩阵 λ E − J \lambda E - J λE−J
由定理3.3.15可知 J J J的全部初等因子就是 ( λ − λ 1 ) t 1 , . . . , ( λ − λ s ) t s (\lambda-\lambda_1)^{t1},...,(\lambda-\lambda_s)^{ts} (λ−λ1)t1,...,(λ−λs)ts
定理3.3.16
复数域上任意一个 n n n级方阵 A A A,总是可以相似于一个若当形矩阵 J J J,若不计较若当块的顺序, J J J还是唯一的
结语
说明:
- 参考于 课本《矩阵理论》
- 配合书中概念讲解 结合了自己的一些理解及思考
文章仅作为学习笔记,记录从0到1的一个过程
希望对您有一点点帮助,如有错误欢迎小伙伴指正
更多推荐
【机器学习|数学基础】Mathematics for Machine Learning系列之矩阵理论(12):相似形理论
发布评论