矩阵分析笔记
Tsui Dik Sang
2024 2 23 日—2025 6 23
a
11
. . . a
1k
. . . a
1p
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
a
i1
. . . a
ik
. . . a
i p
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
a
n1
. . . a
nk
. . . a
np
A : n rows p columns
b
11
. . . b
1 j
. . . b
1q
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
b
k1
. . . b
k j
. . . b
kq
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
b
p1
. . . b
p j
. . . b
pq
B : p rows q columns
c
11
. . . c
1 j
. . . c
1q
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
c
i1
. . . c
i j
. . . c
i q
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
c
n1
. . . c
nk
. . . c
nq
C = A × B : n rows q columns
a
i1
× b
1 j
a
ik
× b
k j
a
i p
× b
p j
+
. . .
+
+
. . .
+
2
矩阵分析笔记 Tsui Dik Sang
2
第一章 写在笔记之前
时隔一年重新接触矩阵分析,我发现当初学过的线性代数知识已经变得模糊不清——结论尚且记得,证明过程却已忘却。
大概是因为当时未曾系统地整理笔记所致。因此,在本笔记中,我将重新推导线代中的诸多定理(也是为了重新学习)
回顾学习过程,我发现我们的矩阵分析课程虽未深入该学科的高深领域,但对工科专业的学生而言已然足够。课程从特征值
引入相似变换——这些内容在线性代数中曾有涉猎却不作考察——一年多后终于有机会深入学习。对于不能对角化的矩阵,我们
还引入了 Jordan 标准形这一崭新概念。
最初,寻求矩阵对角化或计算 Jordan 标准形,目的都在于更高效地求解矩阵高次幂。而在处理幂运算过程中,我们需要定义
矩阵的 大小这便引出了范数概念。进一步地,基于泰勒展开,矩阵函数在无穷级数中找到了明确定义。而无穷级数本质上仍
是高次幂的组合,因此矩阵对角化与 Jordan 标准形在这里再次显示其重要价值。
此外,运用矩阵和向量表示线性方程组不仅简洁优美,还能揭示其中规律——这些规律前人已然发掘,由此产生了基于矩阵
函数和相似变换的方程求解方法。虽然这些方法并非对所有方程均能提高求解效率,但对特定类型的方程确实能显著加快求解速
度。
所以,这本笔记是复习性质的略过了线性代数,然后在此基础上进军矩阵分析,但是又没有完全学完,或许以后接触到相关领域
需要用到矩阵的时候会记起来还有没有探索的内容,还会来重新学继续续写呢?欢迎各位读者批评指正cuidsh@mail2.sysu.edu.cn
Tsui Dik Sang
2025.6.23
3
矩阵分析笔记 第一章 写在笔记之前 Tsui Dik Sang
4
目录
第一章 写在笔记之前 3
第二章 线代补充 9
2.1 行列式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 基本结论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2 余子式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.3 特殊的行列式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.3.1 反对角线行列式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.3.2 Van der Monde 行列式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 方程的解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 克拉默法则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 秩与线性方程组 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 矩阵的秩 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1 秩的定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 线性变换 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5 二次型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.1 引入 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.2 变量变换 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5.3 正定性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
第三章 矩阵的相似变换 15
3.1 特征值相关 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1 特征值与特征向量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.2 特征矩阵与特征多项式的引入 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.3 特征值的性质与应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.3.1 联系矩阵与数之间 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.3.2 特征值组之间的线性无关性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.3.3 迹以及相关结论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.4 复数特征值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.4.1 引入 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.4.2 几何意义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 相似对角化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.1 相似变换 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.2 对角化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.2.1 对角化的存在性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.3 对角化的应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5
矩阵分析笔记 目录 Tsui Dik Sang
3.2.3.1 算非对角矩阵的高次幂 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.3.2 解连续微分方程组 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Jordan 标准型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.1 引入与定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.1.1 定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.1.2 与相似的关系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.2 求解 Jordan 标准型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.2.1 特征向量法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.2.2 初等变换法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.2.3 行列式因子法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.3 Jordan 标准型对应的相似变换矩阵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.4 Jordan 标准型的应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4 Hamilton-Cayley 定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4.1 定理内容 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4.2 应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4.2.1 简化部分高阶幂矩阵计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4.3 零化多项式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4.3.1 定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4.3.2 最小多项式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4.3.3 Jordan 标准型的关系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.5 向量的内积 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.5.1 定理的扩充 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.5.2 内积的性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.5.3 2 范数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.5.3.1 定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.5.3.2 性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.5.4 内积空间 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.6 酉矩阵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.6.1 基本概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.6.2 酉相似下的标准型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6.3 正定矩阵的扩展 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
第四章 范数 33
4.1 向量的范数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.1 定义引入 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.1.1 向量范数的三个公理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.1.2 三种常见范数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.2 范数的扩充 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1.2.1 扩展到任意范数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1.2.2 扩展到无穷范数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.3 构造新范数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.3.1 左乘矩阵构造 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.3.2 加权/椭圆范数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.4 范数的等价性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 矩阵范数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.1 矩阵范数的定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6
矩阵分析笔记 目录 Tsui Dik Sang
4.2.1.1 方阵的范数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.1.2 相容性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.2 从属范数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.2.1 定义引入 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.2.2 常见从属范数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.3 矩阵范数应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.3.1 谱半径 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.3.2 矩阵的条件数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.3.3 最小二乘问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
第五章 矩阵基本分析 41
5.1
矩阵序列
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1.1 基本定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1.2 收敛性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2 矩阵级数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2.1 基本定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2.2 性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.3 矩阵函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.3.1 幂级数:引入定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.3.1.1 定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.3.1.2 收敛半径 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.3.1.3 矩阵函数的定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.3.2 结论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.3.2.1 常用矩阵函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.3.2.2 常用矩阵函数的性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.3.3 矩阵函数值的计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3.3.1 利用 Hamilton-Cayley 定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3.3.2 利用相似对角化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3.3.3 利用 Jordan 标准形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3.3.4 待定系数法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.4 矩阵的微积分 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.4.1 定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.4.2 性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.4.3 矩阵函数的导数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.4.4 矩阵变量的导数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.4.5 应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.4.5.1 解微分方程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.4.5.2 Lyapunov 方程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
第六章 矩阵分解 51
6.1 三角分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.1.1 分解方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.1.1.1 Doolittle 分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.1.1.2 Crout 分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.1.1.3 LDR 分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.2 QR 分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7
矩阵分析笔记 目录 Tsui Dik Sang
6.2.1 分解方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.2.1.1 利用 Schmidt 正交化方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.3 满秩分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.3.1 定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.3.2 分解方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.3.2.1 特殊情况下的满秩分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.3.2.2 利用 ST 进行分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.3.2.3 利用 Hermitian 标准形分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.4 奇异值分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.4.1 分解方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.4.1.1 利用 A
T
A 的特征值分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
第七章 火速过的两章 57
7.1 特征值的估计:Gershgorin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.1.1 定义与定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.1.2 特征值隔离 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.1.2.1 利用列 Gershgorin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.1.2.2 放缩 Gershgorin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.2 矩阵的特殊乘积 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.2.1 直积 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.2.2 Lyapunov 方程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.2.2.1 拉直 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.2.3 Hadamard (外积) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
8
第二章 线代补充
2.1 行列式
2.1.1 基本结论
一些关于行列式的结论
定理 2.1.1 (行列式的性质).
det(AB) = det(A) det(B) (2.1)
det
(
k
A
) =
k
n
det
(
A
)
(2.2)
2.1.2 余子式
定义 2.1.1 (余子式). A = (a
ij
)
n×n
,则
A
ij
= (1)
i+j
M
ij
(2.3)
称为 a
ij
余子式,其中 M
ij
a
ij
代数余子式
定理 2.1.2 (拉普拉斯定理).
det(A) =
n
X
j=1
a
ij
A
ij
(2.4)
2.1.3 特殊的行列式
2.1.3.1 反对角线行列式
定理 2.1.3 (反对角线行列式).
0 0 ··· 0 a
1n
0 0 ··· a
2n
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 a
n1,n1
··· 0 0
a
n1
0 ··· 0 0
= (1)
n(n1)
2
a
1n
a
2,n1
···a
n1
(2.5)
证明使用行变换或者列变换即可了
9
矩阵分析笔记 第二章 线代补充 Tsui Dik Sang
2.1.3.2 Van der Monde 行列式
定义 2.1.2 (Van der Monde 行列式).
1 1 ··· 1
x
1
x
2
··· x
n
x
2
1
x
2
2
··· x
2
n
.
.
.
.
.
.
.
.
.
.
.
.
x
n1
1
x
n1
2
··· x
n1
n
=
Y
1i<jn
(x
j
x
i
) (2.6)
2.2 方程的解
2.2.1 克拉默法则
定理 2.2.1 (克拉默法则). Ax = b 是一个线性方程组,如果 A 是一个非奇异矩阵,那么
x
i
=
det(A
i
)
det
(
A
)
(2.7)
其中 A
i
是将 A 的第 i 列替换为 b 得到的矩阵
2.2.2 秩与线性方程组
定理 2.2.2 (秩与线性方程组). A R
m×n
,则
rankA = rank(A|b) (2.8)
其中 (A|b) 是增广矩阵
我们可以得到解的存在性与系数矩阵的秩、增广矩阵的秩之间的关系
推论 2.2.3 (唯一解的情况). A R
m×n
,则
rankA = rank(A|b) = n (2.9)
当且仅当方程组有解
推论 2.2.4 (无穷解的情况). rankA = rank(A|b) < n 时,方程组有无穷多解
推论 2.2.5 (无解的情况). rankA < rank(A|b) 时,方程组无解
2.3 矩阵的秩
2.3.1 秩的定义
10
矩阵分析笔记 第二章 线代补充 Tsui Dik Sang
定义 2.3.1 (). 矩阵 A 是指矩阵的行秩和列秩中的较小值
定理 2.3.1 (秩的性质).
rankA = rankA
T
(2.10)
rankA = rankA
T
A = rankAA
T
(2.11)
定理 2.3.2 (矩阵运算对秩的影响).
rank(A + B) rankA + rankB (2.12)
rank(AB) min(rankA, rankB) (2.13)
2.4 线性变换
很重要,也可以说是唯一的性质就是线性性
定理 2.4.1 (线性变换的性质). T 是对 R
n
R
m
的线性变换,则
T (λ
1
x
1
+ λ
2
x
2
) = λ
1
T (x
1
) + λ
2
T (x
2
) (2.14)
对于线性变换,使用反证法可以得到该映射的一些推论
推论 2.4.2 (线性变换的降维性质). 上面线性变换的映射 R
n
R
m
,m n 之间满足
m n (2.15)
定义 2.4.1 (一对一映射). 如果对于映射 T
R
n
R
m
, 有逆映射
T
1
: R
m
R
n
(2.16)
即映射是一一对应的,则称 T 是一对一映射
推论 2.4.3 (线性变换的一对一性). 如果线性映射 T 是一对一映射,则
m = n (2.17)
2.5 二次型
2.5.1 引入
可以直接理解为用矩阵的形式去表示多项式
11
矩阵分析笔记 第二章 线代补充 Tsui Dik Sang
定义 2.5.1 (二次型). 对于含 n 个未知数的二次多项式
f(x
1
, x
2
, ··· , x
n
) =
n
X
i=1
b
ii
x
2
i
+
X
i̸=j
b
ij
x
i
x
j
(2.18)
可以写成未知数向量与一个对称矩阵的形式
f(x
1
, x
2
, ··· , x
n
) = x
T
Ax (2.19)
其中
x = (x
1
, ··· , x
n
)
T
, A =
a
11
a
12
··· a
1n
a
21
a
22
··· a
2n
.
.
.
.
.
.
.
.
.
.
.
.
a
n1
a
n2
··· a
nn
(2.20)
并且 A 是一个对称矩阵。上面 eq. (2.20) 的表示方式就称为二次型,其中 A 称为二次型矩阵
引理 2.5.1 (二次型矩阵的性质).
a
ij
= b
ii
, a
ji
= a
ij
=
1
2
b
ij
, i ̸= j (2.21)
2.5.2 变量变换
做这个变换是为了消去交叉项,这也是二次型的意义
定义 2.5.2 (变量变换). x R
n
, 那么使用一个矩阵 P 进行变量变换
x = P y (2.22)
可以将二次型
f(x) = x
T
Ax (2.23)
转化为
f(y) = y
T
By (2.24)
不难证明
定理 2.5.2 (合同). 在上面的变换中,满足
B = P
T
AP (2.25)
如果 P 是可逆的,那么 B 也是可逆的,称矩阵 B 与矩阵 A 合同的。
这里尤其要注意一个点,eq. (2.25) 不是相似变换要是逆才是,但是由于 A 是对称矩阵,如果他可对角化的化,就能找到正交
矩阵 P
T
= P
1
,使得 B 是对角矩阵,从而 eq. (2.25) 就变成了相似变换式。
对角之后的 B 相当有用!这意味着其构成的二次型不存在交叉项,这对很多运算都是友好的,因此我们想要的就是找到这
种变换。
2.5.3 正定性
12
矩阵分析笔记 第二章 线代补充 Tsui Dik Sang
定义 2.5.3 (正定性). A 是一个对称矩阵,那么一个二次型是:
正定的,当且仅当 A 的所有特征值都是正数。
负定的,当且仅当 A 的所有特征值都是负数。
不定的,当且仅当 A 的特征值中有正数和负数。
由于特征值是反应在相似变换后的对角阵上的,所以上面关于特征值的正负性可以直接体现在变换后的二次型的系数里面。
13
矩阵分析笔记 第二章 线代补充 Tsui Dik Sang
14
第三章 矩阵的相似变换
这一章会涉及大量线性代数的知识
3.1 特征值相关
3.1.1 特征值与特征向量
定义来源不再赘述
定义 3.1.1 (特征值与特征向量). A C
n×n
如果 λ C, 0 ̸= x C
n
, 使得
Ax = λx (3.1)
则称 λ 为矩阵 A 特征值,而 x 称为对应于特征值 λ 特征向量
3.1.2 特征矩阵与特征多项式的引入
上面的式3.1可以写成 (λI A)x = 0, 然后再久远的线代课上有一个引理
1
引理 3.1.1 (非零解的充要条件).
方程Ax有非零解的 det A = 0
因此下面两个量的定义就有必要了
定义 3.1.2 (特征矩阵与特征多项式). λI A A 特征矩阵det(λI A) A 特征多项式
关于求解特征值与特征向量根据上面的定义以及定理3.1.1是完全够了的,但是我们需要建立更深层次的数学视角,因此有了下面
的定理。首先来看两个定义:
1
详细的证明可参考这个链接,简单来说,A 可以化成阶梯矩阵,且秩不会变 (如果要牵扯到秩,那又是一堆的证明,我们就止于此吧,记住这个基本矩阵变
换秩不变的结论) 于是如果行列式不为零,说明这个阶梯型矩阵满秩,原方程有唯一解,而此处等式右边是 0意味着其有唯一的非零解;而如果原方程秩为零,
也就是说其不满秩,假设秩是 r < n, 则画成的阶梯型矩阵形状形如
a
11
a
12
··· a
1p
a
1(n2)
a
1(n1)
a
1n
0 a
22
··· a
2p
a
2(n2)
a
2(n1)
a
2n
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 ··· a
pp
a
p(n2)
a
p(n1)
a
pn
0 0 ··· 0 0 0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
(3.2)
那么其解就不止一组,也就有非零解了。
15
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
定义 3.1.3 (几何重数与代数重数). 对于有 p 个实特征根的矩阵 A,其特征多项式一定可以写成
det(λI A) =
p
Y
i=1
(λ λ
i
)
r
i
(3.3)
其中 λ
i
是第 i 个特征根,r
i
称为 λ
i
代数重数,而 (λ
i
I A) = 0 的基础解系/线性无关的特征向量的个数 s
i
称为 λ
i
几何重数
其中下划线部分的意思是等价的
2
定理 3.1.2 (代数重数与几何重数的关系).
1 s
i
r
i
(3.4)
也就是说几何重数小于或等于其代数重数。
定理 3.1.3 (共轭与转置的特征值). A
T
的特征值不变,而 A
H
= (¯a
ij
)
n×n
的特征值是原特征值共轭
稍稍变换一下行列式可以证明这个结论
3
推论 3.1.4 (多项式的特征值). 如果 A 的特征值是 λ
1
, λ
2
, ··· , λ
n
,则矩阵 f(A) 的特征值为 f (λ
1
), f ( λ
2
), ··· , f(λ
n
)
3.1.3 特征值的性质与应用
3.1.3.1 联系矩阵与数之间
其实也就是矩阵与数值的一个对应,先扩展多项式的定义
定义 3.1.4 (矩阵的多项式). f(λ) λ 的多项式,即
f(λ) = a
s
λ
s
+ a
s1
λ
s1
+ ··· + a
1
λ + a
0
(3.6)
同理,对于 A C
m×n
,可以规定
f(A) = a
s
A
s
+ a
s1
A
s1
+ ··· + a
1
A + a
0
(3.7)
f(A) 矩阵多项式
这里的f(·) 其实更确切的,应该理解为一个多项式算符。
于是就有了下面的定理
4
2
为什么呢,这又要回到基础解系的定义了……
3
代入共轭的结果
det(
¯
λ
i
I A) = det(λ
i
I A)
T
= det(λ
i
I A) = det(λ
i
I A) = 0 (3.5)
结果为零就证明原特征值共轭就是变换后矩阵的特征值
4
我们只需要证一个特征值即可,不妨设 λ
i
以及其任意的一个特征向量 x
i
, 根据特征值定义,有
A
k
x
i
= λ
i
A
k1
x
i
= ··· = λ
k
i
x
i
(3.8)
所以
f(A)x
i
= f (λ
i
)x
i
(3.9)
16
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
定理 3.1.5 (特征值的多项式与特征矩阵的多项式的关系). A C
m×n
n 个特征值 λ
1
, λ
2
, ··· , λ
n
,则如果
f(A) = 0 (3.10)
那么对于所有的其每一个特征值 λ
i
都满足
f(λ
i
) = 0 (3.11)
3.1.3.2 特征值组之间的线性无关性
首先是组内的无关
定理 3.1.6 (组内的无关). A 互不相同的特征值 λ
1
, λ
2
, ··· , λ
s
对应的特征向量 x
1
, x
2
, · · ·, x
n
线性无关
这个结论用数学归纳法可证,目的就是要证
k
1
x
1
+ k
2
x
2
+ ··· + k
s
x
s
= 0 (3.12)
没有非零解。
5
然后是组件无关
定理 3.1.7 (组间无关). A 互不相同的特征值 λ
1
, λ
2
, ··· , λ
s
,对应的每个特征值都有一个或多个线性无关的特征向量,则这
些特征向量组成的向量组
x
11
, · · ·, x
1r
1
, x
21
, · · ·, x
2r
2
, · · ·, x
s1
, · · ·, x
sr
s
(3.13)
3.1.3.3 迹以及相关结论
这部分内容最抽象,现在我仍找不到几何依托,只能当结论记。
定义 3.1.5 (). A = (a
ij
)
n×n
,
trA = a
11
+ a
22
+ ··· + a
nn
(3.14)
A 的迹
下面是一些结论
定理 3.1.8 (迹与特征值). 方阵 A 的特征值为 λ
1
, λ
2
, ··· , λ
n
那么有
trA = λ
1
+ λ
2
+ ··· + λ
n
(3.15)
证明的方法有点类似于待定系数
6
5
证明先放一边
6
我们的关注点是 det(λI A), 显然,全部次数的待定系数是不可能的,也确定不了,因此我们就要找一些容易确定的项。
注意到 n 次项一定是 1,然后 n 1 次项也只能由 (λ a
11
)(λ a
22
) ···(λ a
nn
) 产生,(因为其他方向均不能取两个对角元素,也就不会超过 n 2 )
于是就可以得到
det
(
λ
I
A
) =
λ
n
(a
11
+ a
22
+ ··· + a
nn
)λ
n1
+ ··· (3.16)
det(λI A) = (λ λ
1
)(λ λ
2
) ···(λ λ
n
) = λ
n
(λ
1
+ λ
2
+ ··· + λ
n
)λ
n1
+ ··· (3.17)
对比即可得结论
17
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
推论 3.1.9 (方阵行列式结果).
det A = λ
1
λ
2
···λ
n
(3.18)
这个由3.17可得
3.1.4 复数特征值
3.1.4.1 引入
实际上产生复数特征值的也可能是全实的矩阵,但是该矩阵在实数域内没有特征值
引理 3.1.10 (复数特征值). 实矩阵 C =
a b
b a
!
在复数域内有两个共轭的特征值 λ = a + ±bi
用计算 det |λI A| 的方法可以得到上面的结论。
3.1.4.2 几何意义
复数特征值的几何意义是一个旋转变换,反应的是某一种周期性
定理 3.1.11 (复数特征值的几何意义). 复数特征值 λ = a + bi 对应的特征向量 x 是一个旋转变换,
比如我们看 A =
0 1
1 0
!
,其特征值为 λ = ±i, 其左乘一个向量 (比如 x =
1
0
!
) 反应的是对其逆时针旋转 90 度,在旋转四
次后得到原来的向量。
推论 3.1.12 (共轭特征值). 对于实矩阵 A,如果其有复数特征值 λ = a + bi,那么其共轭特征值
¯
λ = a bi 也一定是 A
特征值
这个定理通过共轭的分解
7
可以得到
3.2 相似对角化
3.2.1 相似变换
这是在线代中已经提到过的定义
定义 3.2.1 (相似变换矩阵). A, B C
n×n
,若存在 P C
n×n
m
, 使得
P
1
AP = B (3.20)
就称 A B 相似,记为 A B
P 为把 A 变成 B 相似变换矩阵
容易推出一些基本的性质
7
Ax = Ax = Ax (3.19)
18
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
推论 3.2.1 (反身性).
A A (3.21)
推论 3.2.2 (对称性).
A B B A (3.22)
推论 3.2.3 (传递性).
A B, B C A C (3.23)
推论 3.2.4 (矩阵多项式的相似传递性). A B
f(A) f (B) (3.24)
推论 3.2.5 (相似矩阵行列式与秩的关系). A B
det A = det B (3.25)
rankA = rankB (3.26)
进一步的是关于相似矩阵特征值的关系
推论 3.2.6 (相似矩阵特征值的关系). A B
det(λI A) = det( λI B) (3.27)
A B 的特征值相同
相似变换也是唯一的不改变矩阵特征值的变换,其他所有的非相似变换都不能担保不会改变矩阵特征值!
3.2.2 对角化
相似变换只是一个引,对角化才是正题,我们关注的是一个方阵能否通过相似变换变成对角矩阵,由前面对角化的一系列性
质,就可以将对 A 的研究转换成其对应相似对角矩阵的研究。
3.2.2.1 对角化的存在性
这里说一个研究一个定义的一般方法
8
存在性。先看根据这个定义对某类东西 (这里是矩阵 A) 能否通过指定操作 (这里是相似操作) 得到所规定的东西是
(这里是对角矩阵)
唯一性。如果存在,那么这个通过这个操作得来的东西是唯一的吗?
构造性。如何通过解析的方法完成操作使得对于满足存在性的东西 (这里是矩阵 A),确定出具体对应的东西 (对角
化矩阵)
8
这个方法出自复变共形变换那一章节的讨论
19
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
因此,我们先看存在性
定义 3.2.2 (可对角化). A C
n×n
, 如果 A 相似于一个对角矩阵,则称 A 可对角化
从特征向量的角度,我们找到了可对角化的一个充要条件
定理 3.2.7. A C
n×n
, A 可对角化的充要条件是 A n 个线性无关的特征向量
这个定理的证明对后面对角化的理解相当有用,因此在正文给出
证明. 必要性
P
1
AP
=
Λ
=
diag
(
λ
1
, λ
2
,
···
, λ
n
)
,
其中
9
P
= (
p
1
, p
2
,
· · ·
, p
n
)
,则由
AP
=
P Λ
,
Ap
i
= λ
i
p
i
, (i = 1, 2, ··· , n) (3.28)
这个式子的意义是:
λ
i
A 的特征值
p
i
是对应于 λ
i
的特征向量
再由 P 的可逆性
10
可得 p
1
, p
2
· · ·, p
n
线性无关。
充分性
如果 A n 个线性无关的特征向量 p
1
, p
2
, · · ·, p
n
,则
Ap
i
= λ
i
p
i
, (i = 1, 2, ··· , n) (3.31)
P = (p
1
, p
2
, · · ·, p
n
),则
AP = (Ap
1
, Ap
2
, · · ·, Ap
n
) = (λ
1
p
1
, λ
2
p
2
, ··· , λ
n
p
n
) = P Λ (3.32)
于是得 P
1
AP = diag(λ
1
, λ
2
, ··· , λ
n
)
从上面的定理可看到
推论 3.2.8 (A Λ 的关系). n 阶方阵 A n 阶对角矩阵 Λ 相似,则
Λ 的主对角线元素恰为 A n 个特征值
相似矩阵 P n 个列向量是 A 的分别对应 λ
1
, λ
2
, ··· , λ
n
n 个线性无关的特征向量
9
注意,这些 p
i
P 的列向量
10
重温一下可逆矩阵的性质,(不给出证明)
det P ̸= 0:一个矩阵是可逆的当且仅当其行列式不等于零。即,若矩阵 A 可逆,则 det(A) ̸= 0
是方阵:只有方阵才可能是可逆矩阵,即行数等于列数。
乘法、转置的封闭性:可逆矩阵的乘积仍然是可逆的。转置矩阵也是且
(AB)
1
= B
1
A
1
(3.29)
(A
T
)
1
= (A
1
)
T
(3.30)
逆矩阵唯一性:对于一个可逆矩阵 A,其逆矩阵 A
1
是唯一的。
:一个矩阵是可逆的当且仅当其秩等于矩阵的行数(或列数),即满秩矩阵。(由行列式不等于 0 推出)
20
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
结合之前的定理,还有另外两个对角化存在的结论
推论 3.2.9 (一个充分不必要条件). 如果 n 阶方阵 A n 个互不相同的特征值,则 A 可对角化
上面的定理结合3.1.7可证明。
下面还有一个充要条件
推论 3.2.10 (一个充要条件:关于几何重数与代数重数). A 的每一个特征值 λ
i
的几何重数 r
i
严格等于代数重数 s
i
,即
r
i
= s
i
,则 A 可对角化
3.2.3 对角化的应用
3.2.3.1 算非对角矩阵的高次幂
不再赘述,即
定理 3.2.11 (非对角化的高次幂). 如果一个矩阵 A 可对角化, 即可表示成 P
1
ΛP ,那么
A
k
= P
1
Λ
k
P (3.33)
3.2.3.2 解连续微分方程组
目前学到了三种方法,下面将要介绍的是一种,在学完矩阵函数之后还会介绍一 (5.4.5.1) 信号与系统中还学到了使
用拉普拉斯变换来求解的方法
解的是这个方程组
dx
1
dt
= a
11
x
1
+ a
12
x
2
+ ··· + a
1n
x
n
dx
2
dt
= a
21
x
1
+ a
22
x
2
+ ··· + a
2n
x
n
.
.
.
dx
n
dt
= a
n1
x
1
+ a
n2
x
2
+ ··· + a
nn
x
n
(3.34)
定义 3.2.3 (连续微分方程组的矩阵表示). eq. (3.34) 可以用矩阵表示为
dx
dt
= Ax (3.35)
其中 x = (x
1
, x
2
, ··· , x
n
)
T
A = (a
ij
)
n×n
为系数矩阵
如果 A 可对角化,即存在一个可逆矩阵 P 使得
A = P
1
ΛP (3.36)
则做变换 x = P y,则
21
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
定理 3.2.12 (连续微分方程组的对角化解法). eq. (3.35) 可以表示成
dy
dt
= P
1
ΛP y = Λy (3.37)
回归原式的方程,就会发现变成了 n 个“独立”的微分方程
dy
1
dt
= λ
1
y
1
dy
2
dt
= λ
2
y
2
.
.
.
dy
n
dt
= λ
n
y
n
(3.38)
这显然就非常好解了,解完再做变换回去即可
3.3 Jordan 标准型
3.3.1 引入与定义
3.3.1.1 定义
定义 3.3.1 (Jordan ). 形如
J
i
=
λ
i
1
λ
i
.
.
.
.
.
.
1
λ
i
(3.39)
的矩阵成为 Jordan ,特别的,一阶 Jordan 块是
J
i
= (λ
i
) (3.40)
定义 3.3.2 (Jordan 矩阵). 由若干个 Jordan 块组成的分块对角矩阵为 Jordan 矩阵
J =
J
1
J
2
.
.
.
J
s
(3.41)
3.3.1.2 与相似的关系
定理 3.3.1 (唯一相似的标准型). A C
m×n
, A 与一个 Jordan 矩阵 J 相似,即
P C
m×n
n
, P
1
AP = J (3.42)
这个 Jordan 矩阵 J 除了 Jordan 块的排列次序外由 A 唯一确定,称为 A Jordan 标准型
为什么要引入这样的一个东西呢?目的与相似矩阵相同:求矩阵的高次方如何求呢?下面会讲到因为相似矩阵有相同的特征值,
所以
22
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
推论 3.3.2 (Jordan 标准型的特征). Jordan 标准型的对角元素 λ
1
, λ
2
, ··· , λ
s
就是其特征值,也是其对应 A 矩阵的特征值,
其中重复的表示的是重数
3.3.2 求解 Jordan 标准型
3.3.2.1 特征向量法
引理 3.3.3 (用特征值求 Jordan 标准型). 如果 λ
i
A C
m×n
r
i
(r
i
> 1) 重特征值,则
对应特征值 λ
i
有几个线性无关的特征向量,就有几个以 Λ
i
为对角元素的 Jordan
这些 Jordan 块的阶数之和等于 r
i
A 的所有特征值对应的 Jordan 块构成的 Jordan 矩阵即为 A Jordan 标准型
这里的描述有点晕,究竟怎么样去填写矩阵呢?在下面零化多项式的时候会给出一个结论
3.3.2.2 初等变换法
定义 3.3.3 (A(λ) 矩阵).
A(λ) = λI A = (a
ji
(λ))
m×n
(3.43)
这个定义起到警醒作用,是为了防止下面将 A(λ) 混淆成一个矩阵
首先是对初等行列变换的定义,默认读者都学过线性代数,不再赘述了。
定理 3.3.4 (Smith 标准型). 秩为 r λ 矩阵 A = (a
ji
(λ))
m×n
可以通过初等变换为如下矩阵
S(λ) =
d
1
d
2
O
.
.
.
d
r
(λ)
O O
(3.44)
其中 d
i
(λ) 是首一多项式,且
d
i
(λ)|d
i+1
(λ), (i = 1, 2, ··· , r 1) (3.45)
这个矩阵 S(λ) 称为 A Smith 标准型d(λ
i
) A 不变因子
A 的不变因子分解为一次因式方幂的乘积,
(λ λ
1
)
r
1
, ( λ λ
2
)
r
2
, ··· , (λ λ
s
)
r
s
(3.46)
其中 λ
1
, λ
2
, ··· , λ
s
可能是相同的
11
,且 r
1
+ r
2
+ ··· + r
s
= n ,不熟悉参见书上的例题
12
11
这里我的理解是对于每一个不变因子都做分解,根据前面前一个因子整除于后面的,可以知道这当然会有一堆相同的 λ
i
12
然而有一个需要吐槽的点,例题 1.6 只适用于求不必拿因子,但是其特征值居然有 0 值和复数,不适合后面求 Jordan
23
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
推论 3.3.5 (初等变换法求 Jordan 标准型). 写出每一个初等因子 (λ λ
i
)
r
i
对应的 Jordan J
i
=
λ
i
1
λ
i
.
.
.
.
.
.
1
λ
i
,这
Jordan 块构成 A 对应的 Jordan 标准型 J
J =
J
1
J
2
.
.
.
J
s
(3.47)
注意,无需理会几何重数代数重数这些问题,因为这里的“初等因子”和特征多项式中的因子本质上是不同的概念所以这里对
角线上边一条对角线可以放心全给 1
3.3.2.3 行列式因子法
定义 3.3.4 (行列式因子). 设矩阵 A(λ) 的秩为 rA(λ) 的全部 k 阶子式的首一最大公因式 D
k
(λ)则称 D
k
(λ) A(λ)
A(λ) k 阶行列式因子,(k = 1, 2, ··· , r)
定理 3.3.6 (行列式因子与不变因子). A(λ) k 阶行列式因子 D
k
(λ)
D
k
(λ) =
k
Y
i=1
d
i
(λ) (3.48)
推论 3.3.7.
d
i
(λ) =
D
i
(λ)
D
i1
(λ)
(3.49)
所以这个方法的本质还是去求不变因子,看起来似乎比前一个方法更麻烦了?恰恰相反,因为 D
i1
(λ)|D
i
(λ),所以阶数只会不
断的往下走,如果求出 D
i
(λ) = 1, 那么往下的就全都是 1
就无需老实行列变换求 Smith 标准型了。
3.3.3 Jordan 标准型对应的相似变换矩阵
根据这个求解的过程还将会引出广义特征向量的概念。还是从书本给的例题入手
24
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
已经求得 A =
3 1 1
2 0 2
1 1 3
Jordan 标准型为 J =
1 1
1
2
,求 A 的相似变换矩阵 P
解:设相思变换矩阵为 P = (p
1
, p
2
, p
3
),根据 P
1
AP = J ,即 AP = P J ,则
Ap
1
= p
1
+ p
2
Ap
2
= p
1
+ 2p
3
Ap
3
= 2p
3
(I A)p
1
= O
(I A)p
2
= p
1
(2I A)p
3
= O
(3.50)
显然,p
1
p
3
是对应特征值 1 2 的特征向量,而 p
2
由第二个式子求得,可求得通解表达式
p
2
=
1
2
1
2
0
+ k
1
2
1
2
1
(3.51)
随意取一个再结合已经求得的 p
1
p
3
即可得到 P
定义 3.3.5 (广义特征向量). 上述求出的 p
2
就是对应特征值 1 广义特征向量
如果本身该特征值的狭义特征向量有多个,就要都代进去试试了,有些时候可能五阶 (书本 p15 例题 1.9(2))
3.3.4 Jordan 标准型的应用
当然就是用来算矩阵的高次幂了,所以首先要知道 Jordan 块的高次幂,这里直接给结论
定理 3.3.8 (Jordan 块的高次幂). 对于 r
i
Jordan J
i
=
λ
i
1
λ
i
1
.
.
.
.
.
.
λ
i
,有
J
k
i
=
λ
k
i
k
1
λ
k1
i
···
k
r
i
1
λ
kr
i
+1
i
λ
k
i
k
1
λ
k1
i
···
.
.
.
.
.
.
.
.
.
λ
k
i
k
1
λ
k1
i
λ
k
i
=
λ
k
i
1
1!
(λ
k
i
)
1
2!
(λ
k
i
)
′′
···
1
(r
i
1)!
(λ
k
i
)
(r
i
1)
λ
k
i
1
1!
(λ
k
i
)
···
1
(r
i
2)!
(λ
k
i
)
(r
i
2)
.
.
.
.
.
.
.
.
.
λ
k
i
1
1!
(λ
k
i
)
λ
k
i
(3.52)
并且,在讲到矩阵函数的时候会得到下面的引理
引理 3.3.9 (Jordan 标准型的矩阵函数). J Jordan 标准型,则
f(J
T
) = [f (J )]
T
(3.53)
意味着对于非 Jordan 矩阵
A
notJordan
=
A
notJordan1
A
notJordan2
.
.
.
A
notJordans
(3.54)
25
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
其中 A
notJordani
可能为 J
i
或者 J
T
i
,则也能用结论去做,详见 p85 T8
3.4 Hamilton-Cayley 定理
3.4.1 定理内容
定理 3.4.1 (Hamilton-Cayley 定理). A C
m×n
, ψ(λ) = det(λI A)
ψ(A) = O (3.55)
这个定理可以用来计算矩阵的高次幂,这个定理的证明也是很有意思的
13
下面通过两道例题来说说这个定理的应用
3.4.2 应用
已知矩阵
A =
1 1 0
4 3 0
1 0 2
(3.58)
3.4.2.1 简化部分高阶幂矩阵计算
计算
g(A) = A
7
A
5
19A
4
+ 28A
3
+ 6A
2
4I (3.59)
如果能从这个表达式 g(λ) 中分离出 ψ(λ) 就可以通过为零的性质消去高阶项,事实上,通过多项式除法不难发现
g(λ) = (λ
4
+ 4λ
3
+ 10λ
2
+ 3λ 2)ψ(λ) 3λ
2
+ 22λ 8 (3.60)
13
首先由 A 的特征值化简这个多项式
ψ(λ) = det(λI A) =
n
i=1
(λ λ
i
) (3.56)
所以矩阵替换后表达式是一样的
ψ(A) =
n
i=1
(A λ
i
I)
=
n
i=1
(P J
i
P
1
λ
i
I)
=P
[
n
i=1
(J
i
λ
i
I)
]
P
1
=P
0 δ
λ
2
λ
1
.
.
.
.
.
.
δ
λ
n
λ
1
λ
1
λ
2
δ
0
.
.
.
.
.
.
δ
λ
n
λ
2
···
λ
1
λ
n
δ
.
.
.
λ
2
λ
n
δ
0
=O
(3.57)
26
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
就是就很好算了
14
于是高次部分直接为零消去,剩下的就好算了
g
(
A
) =
3
A
2
+ 22
A
8
I
=
21 16 0
64 43 0
19 3 24
(3.62)
3.4.3 零化多项式
3.4.3.1 定义
定义 3.4.1 (零化多项式). A C
m×n
,如果存在一个多项式 f(λ) 使得
f(A) = O (3.63)
则称 f(λ) A 零化多项式
显然
推论 3.4.2 (特征多项式的零化). 矩阵 A 的特征多项式就是其零化多项式
3.4.3.2 最小多项式
定义 3.4.2 (最小多项式). A 的所有零化多项式中,次数最小的多项式称为 A 最小多项式,记为 m(λ)
定理 3.4.3 (最小多项式的唯一性). A 的最小多项式 m(λ) 是唯一的,并且 m
A
(λ) 能够整除 A 的任意零化多项式
推论 3.4.4 (m
A
(λ) 的计算).
m
A
(λ) =
ψ(λ)
D
n1
(λ)
(3.64)
其中 ψ(λ) A 的特征多项式,D
n1
(λ) det(λI A) n-1 阶行列式因子
推论 3.4.5. 相似矩阵由相同的最小多项式
3.4.3.3 Jordan 标准型的关系
引理 3.4.6 (最小多项式与特征多项式的关系). 最小多项式不一定是特征多项式,但是所有的特征值都是他们的因子,区别
是次数
14
不难算出
ψ(λ) = λ
3
4λ
2
+ 5λ 2 (3.61)
27
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
定理 3.4.7 (最小多项式与 Jordan 标准型的关系). 由引理,如果 A 的特征值为 λ
1
, λ
2
, ··· , λ
s
m
A
(λ) =
s
Y
i=1
(λ λ
i
)
m
i
(3.65)
所以 s
i
A Jordan 标准型中含有 λ
i
Jordan 块的最高阶数
注意!m
i
s
i
可能有间接关系,但是没有直接关系!一开始笔者以为 m
i
= s
i
后面发现 theorem 3.3.3中的几何重数 s
i
表示的是
有几个 Jordan 块, m
i
theorem 3.4.7可知,表示的是 Jordan 块的最高阶数,所以两者并不相等。若想要利用 theorem 3.4.7
求最小多项式,就必须要将 Jordan 标准型求出来 (参见课后习题 T10)
3.5 向量的内积
3.5.1 定理的扩充
实数的我们就不再赘述了,
定义 3.5.1 (实向量的内积). 对于两个实向量 x = (ξ
1
, ξ
2
, ··· , ξ
n
)
T
以及 y = (η
1
, η
2
, ··· , η
n
)
T
,定义其内积为
(x, y) =
n
X
i=1
ξ
i
η
i
= x
T
y (3.66)
现在我们想要把定义扩展到复数, 这时候用上面的定义就不完全合适了
15
所以要扩充一下定义,加一个共轭
定义 3.5.2 (复向量的内积). 对于两个复向量 x = (ξ
1
, ξ
2
, ··· , ξ
n
)
T
以及 y = (η
1
, η
2
, ··· , η
n
)
T
,定义其内积为
(x, y) =
n
X
i=1
ξ
i
¯η
i
= x
H
y (3.68)
3.5.2 内积的性质
在复数域内的内积有一些与实数不一样的性质,但本质上是因为在复数部分可能不成立了,在实部还是成立的
推论 3.5.1 (不满足交换律).
(x, y) = (y, x) (3.69)
推论 3.5.2 (不严格满足线性性).
(λx, y) = λ(x, y) (3.70)
(x, λy) = λ(x, y) (3.71)
15
来看下面的例子,对于 x = (3, 4, 5i)
T
,
(x, x) =
3
i=1
ξ
i
η
i
= 3
2
+ 4
2
+ (5i)
2
= 0 (3.67)
出现了非零向量内积等于零的情况。所以扩展的也仅针对自己与自己内积的向量结果不为零
28
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
推论 3.5.3 (分配律). 分配律依然是成立的
(x, y + z) = (x, y) + (x, z) (3.72)
推论 3.5.4 (内积为零的条件).
(x, x ) 0 (3.73)
且等号在 x = 0 时成立
推论 3.5.5 (Cauchy-Schwarz 不等式).
(x, y)(y, x) (x, x)(y, y) (3.74)
3.5.3 2 范数
3.5.3.1 定义
定义 3.5.3 (2 范数). x = (ξ
1
, ξ
2
, ··· , ξ
n
)
T
C
n
, 定义
||x||
2
=
p
(x, x ) =
v
u
u
t
n
X
i=1
|ξ
i
|
2
(3.75)
为向量 x 2 范数或者长度
3.5.3.2 性质
x, y C
n
, λ C
n
推论 3.5.6 (非负性).
||x||
2
0 (3.76)
且等号在 x = 0 时成立
推论 3.5.7 (齐次性).
||λx||
2
= |λ|||x||
2
(3.77)
推论 3.5.8 (三角不等式).
||x + y||
2
||x||
2
+ ||y||
2
(3.78)
3.5.4 内积空间
定义 3.5.4 (单位化/规范化). x C
n
, 如果 ||x||
2
= 1, 则称 x 为单位向量,
u =
x
||x||
2
(3.79)
29
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
u x 的单位化向量
定义 3.5.5 (正交矩阵).
(x, y) = 0 (3.80)
x y 正交,
通过一个递推算法可以构造正交向量组:
算法 1 Schmidt 正交化算法
输入: 一组线性无关但不一定正交的向量 x
1
, x
2
, · · ·, x
n
C
n
输出: y
1
, y
2
, · · ·, y
n
C
n
为正交化后的向量组
1: y
1
= x
1
2: for all i = 2 to n do
3: y
i
= x
i
i1
X
j=1
(x
i
, y
j
)
(y
j
, y
j
)
y
j
4: end for
3.6 酉矩阵
3.6.1 基本概念
定义 3.6.1 (Hermitian 矩阵). 对于方阵 A = (a
ij
)
m×n
, 定义
A
H
= (¯a
ji
)
m×n
(3.81)
称为 A 共轭转置矩阵,而 Hermitian 矩阵满足
A = A
H
(3.82)
定义 3.6.2 ( Hermitian 矩阵).
A = A
H
(3.83)
则称 A Hermitian 矩阵
定义 3.6.3 (酉矩阵). A C
n×n
, 如果 A
H
A = I,则称 A 酉矩阵
由此有一系列结论
推论 3.6.1. A 是酉矩阵,则 A
1
也是酉矩阵
推论 3.6.2. A, B 是酉矩阵,则 AB 也是酉矩阵
30
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
推论 3.6.3. A 是酉矩阵,则 |det A| = 1
定理 3.6.4 (酉矩阵的充要条件). A 是酉矩阵的充要条件是 A 的列向量组是正交归一的
3.6.2 酉相似下的标准型
定理 3.6.5 (Schur 定理). A C
n×n
, 则存在一个酉矩阵 U 使得
U
H
AU = T (3.84)
其中 T 是上三角矩阵.
在定理有了之后首先就要思考存在性问题。
定义 3.6.4 (正规矩阵). A C
n×n
, 如果
A
H
A = AA
H
(3.85)
则称 A 正规矩阵
用相应的性质去比较不难看出
推论 3.6.6 (一些正规矩阵). -
Hermitian 矩阵
Hermitian 矩阵
酉矩阵
正交矩阵
实对称矩阵
实反对称矩阵
对角矩阵
归纳一下可以证得下面的定理
定理 3.6.7 (酉相似于对角矩阵的充要条件). A C
n×n
, A 酉相似于对角矩阵的充要条件是 A 是正规矩阵
推论 3.6.8 (Hermitian 以及 Hermitian 矩阵的特征值). A C
n×n
, A Hermitian 矩阵的充要条件是 A 的特征值
都是实数。
A C
n×n
, A 是反 Hermitian 矩阵的充要条件是 A 的特征值都是纯虚数。
根据上面的一系列定理,可以归纳出求酉相似对角矩阵的步骤
31
矩阵分析笔记 第三章 矩阵的相似变换 Tsui Dik Sang
算法 2 求酉相似对角矩阵的步骤
输入: 一般矩阵 A C
n×n
输出: U C
n×n
为酉矩阵,D C
n×n
为对角矩阵
1: 计算 A 的特征值 λ
1
, λ
2
, ··· , λ
n
2: 计算 A 的特征向量 x
1
, x
2
, · · ·, x
n
3: 单位正交化 u
i
4: 构造酉矩阵 U = (u
1
, u
2
, · · ·, u
n
)
5: 构造对角矩阵 D = diag(λ
1
, λ
2
, ··· , λ
n
)
3.6.3 正定矩阵的扩展
定义 3.6.5 (Hermitian 正定矩阵/半正定矩阵). A C
n×n
Hermitian 矩阵,
O ̸= x C
n
, x
H
Ax > 0 (3.86)
则称 A Hermitian 正定矩阵
下面还有一个关于等价的定理
定理 3.6.9 (Hermitian 正定矩阵的等价条件). 如果 A C
n×n
Hermitian 矩阵,则以下条件等价
A Hermitian 正定矩阵
A 的所有特征值都是正实数
存在矩阵 P C
n×n
,使得 A = P
H
P ,且 P 是非奇异矩阵
32
第四章 范数
这部分的应用参见我数值分析笔记关于解矩阵方程的那几章。
4.1 向量的范数
4.1.1 定义引入
我们不应该直接给出计算方法,而先应该明确我们引入这个定义的目的是什么,因此我们先给出我们想要的这个量所应该满
足的一些性质
4.1.1.1 向量范数的三个公理
定义 4.1.1 (向量范数三公理). 若对任意的向量 x, y C
n
都有一个实数 x 与之对应,且这个实数满足
非负性x 0,且等号在 x = 0 时成立
齐次性λx = |λ|x
三角不等式x + y x + y
则称这个实数 x 向量的范数
在上一章的内积中我们已经定义了 2 范数,其有如下性质
1
定理 4.1.1 (酉不变性).
U C
n×n
, x C
n
, U x
2
= x
2
(4.2)
4.1.1.2 三种常见范数
定义 4.1.2 (1 范数). 对于向量 x = (x
1
, x
2
, ··· , x
n
)
T
C
n
x
1
=
n
X
i=1
|x
i
| (4.3)
2 范数已在3.5.3中定义,
1
证明如下:
U x =
(U x)
H
(U x) =
x
H
U
H
Ux =
x
H
x = x (4.1)
33
矩阵分析笔记 第四章 范数 Tsui Dik Sang
定义 4.1.3 (无穷范数). 对于向量 x = (x
1
, x
2
, ··· , x
n
)
T
C
n
x
= max
1in
|x
i
| (4.4)
4.1.2 范数的扩充
4.1.2.1 扩展到任意范数
先直接给出定义
定义 4.1.4 (p 范数). 对于向量 x = (x
1
, x
2
, ··· , x
n
)
T
C
n
x
p
=
n
X
i=1
|x
i
|
p
!
1
p
(4.5)
其中 p 1p R
然后证明这种定义是一种“范数”,即要对任意的范数证明4.1.1均成立,先看一个引理,这个引理用导数法很好证
引理 4.1.2 (杨氏不等式).
α, β 0, αβ
α
p
p
+
β
q
q
(4.6)
其中
p, q > 1,
1
p
+
1
q
= 1 (4.7)
我们之前已经了解了 Cauchy-Schwarz 不等式,下面的是其扩展不等式
引理 4.1.3 (Holder 不等式). ξ
k
, η
k
C(k = 1, 2, ··· , n)
n
X
k=1
|ξ
k
||η
k
|
n
X
k=1
|ξ
k
|
p
!
1
p
n
X
k=1
|η
k
|
q
!
1
q
(4.8)
Cauchy 不等式其实就是 Holder 不等式的一个特例
推论 4.1.4 (Cauchy 不等式).
ξ
k
, η
k
C(k = 1, 2, ··· , n)
n
X
k=1
|ξ
k
||η
k
|
n
X
k=1
|ξ
k
|
2
!
1
2
n
X
k=1
|η
k
|
2
!
1
2
(4.9)
34
矩阵分析笔记 第四章 范数 Tsui Dik Sang
由这两个引理就可以证得 p 范数的三角不等式
2
, 于是任意范数的定义成立。
4.1.2.2 扩展到无穷范数
denition 4.1.3中已经给出了无穷范数的定义,但是这只是定义,他与原有的范数体系兼容吗?即要证明下面的结论
定理 4.1.5 (无穷范数的性质).
lim
p→∞
x
p
= max
1in
|x
i
| = x
(4.11)
其中 x = (x
1
, x
2
, ··· , x
n
)
T
C
n
这个结论容易证得,于是我们可以将无穷范数看作是 p 范数的极限
4.1.3 构造新范数
4.1.3.1 左乘矩阵构造
定理 4.1.6 (左乘矩阵构造新范数). 对于任意 A C
m×n
, ·
a
, x C
n
, 若规定
x
b
= Ax
a
(4.12)
·
b
也是一个向量范数
由于 A 可以随便取,所以也就意味着这种构造方法是多样的、
4.1.3.2 加权/椭圆范数
定理 4.1.7 (加权/椭圆范数). A n Hermitian 正定矩阵,x C
n
,定义
x
a
=
x
H
Ax (4.13)
·
a
也是一个向量范数,称为加权范数椭圆范数
4.1.4 范数的等价性
定义 4.1.5 (范数的等价性). ·
1
, ·
2
是两个向量范数,则存在正实数 C
1
, C
2
> 0,使得
C
1
x
1
x
2
C
2
x
1
(4.14)
2
对于两个向量 x = (ξ
1
, ξ
2
, ··· , ξ
n
)
T
, y = (η
1
, η
2
, ··· , η
n
)
T
x + y
p
p
=
n
k=1
|ξ
k
+ η
k
|
p
n
k=1
|ξ
k
||ξ
k
+ η
k
|
p1
+
n
k=1
|η
k
||ξ
k
+ η
k
|
p1
(
n
k=1
|ξ
k
|
p
)
1
p
(
n
k=1
|ξ
k
+ η
k
|
(p1)q
)
1
q
+
(
n
k=1
|η
k
|
p
)
1
p
(
n
k=1
|ξ
k
+ η
k
|
(p1)q
)
1
q
= (x
p
+ y
p
)x + y
p
q
p
(4.10)
35
矩阵分析笔记 第四章 范数 Tsui Dik Sang
对任意的 x C
n
成立
然后立马就有一个结论
定理 4.1.8 (向量范数的等价). C
m×n
上的所有向量范数等价
有兴趣的自己看书本上的证明,这里想给一种更直观的理解方法,请看 g. 4.1g. 4.2g. 4.3g. 4.4g. 4.5表示的事不
同范数体系下范数为 1 的向量终点围成的曲线,
theorem 4.1.8意味着这些曲线如果放在一个图层里将不相交 (在顶点的相切不算)
-1.0 -0.5 0.5 1.0
-1.0
-0.5
0.5
1.0
4.1: p = 0.5 范数
-1.0 -0.5 0.5 1.0
-1.0
-0.5
0.5
1.0
4.2: p = 1 范数
-1.0 -0.5 0.5 1.0
-1.0
-0.5
0.5
1.0
4.3: p = 2 范数
-1.0 -0.5 0.5 1.0
-1.0
-0.5
0.5
1.0
4.4: p = 4 范数
-1.5 -1.0 -0.5 0.5 1.0 1.5
-1.5
-1.0
-0.5
0.5
1.0
1.5
4.5: p = 范数
4.6: 不同 p 值时向量范数的单位球
4.2 矩阵范数
4.2.1 矩阵范数的定义
仍然是从结论期望给定义,矩阵的公理化定义多了一条
36
矩阵分析笔记 第四章 范数 Tsui Dik Sang
4.2.1.1 方阵的范数
定义 4.2.1 (方阵范数). A C
n×n
,则称满足下面性质的实数 A 方阵的范数
非负性A 0,且等号在 A = 0 时成立
齐次性λA = |λ|A
三角不等式A + B A + B
相容性AB AB
定义 4.2.2 (F 范数). A = (a
ij
)
m×n
C
m×n
,则称满足下面性质的实数 A
F
F 范数
A
F
=
v
u
u
t
m
X
i=1
n
X
j=1
|a
ij
|
2
=
q
tr(A
H
A) (4.15)
推论 4.2.1 (F 范数的酉不变性). F 范数满足酉不变性,即
酉矩阵U , V C
n×n
, U AV
F
= U AV
F
= AV
F
= A
F
(4.16)
这个用 eq. (4.15) 中的第二个等式 ( tr) 可以证明。
4.2.1.2 相容性
定义 4.2.3 (矩阵范数的相容性). ·
m
C
m×n
上的一个矩阵范数, ·
v
C
n
上的一个向量范数,如果
A C
m×n
, x C
n
, Ax
v
A
m
x
v
(4.17)
则称 ·
m
·
v
相容的
定理 4.2.2 (相容范数的存在性). ·
m
C
m×n
上的一个矩阵范数,则在 C
n
上必然存在与它相容的向量范数。
4.2.2 从属范数
4.2.2.1 定义引入
定义 4.2.4 (从属范数). 已知 ·
v
C
n
上的一个向量范数,规定
A C
m×n
, A
v
= max
x̸=0
Ax
v
x
v
(4.18)
则称 · ·
v
从属范数
不难证明其满足矩阵范数的四个条件。
37
矩阵分析笔记 第四章 范数 Tsui Dik Sang
4.2.2.2 常见从属范数
推论 4.2.3 (1 范数 (列和范数)).
A
1
= max
1jn
m
X
i=1
|a
ij
| (4.19)
推论 4.2.4 (2 范数 (谱范数)).
A
2
=
q
λ
max
(A
H
A) (4.20)
其中 σ
max
(A) A 的最大奇异值
推论 4.2.5 (无穷范数 (行和范数)).
A
=
max
1im
n
X
j=1
|
a
ij
|
(4.21)
4.2.3 矩阵范数应用
4.2.3.1 谱半径
定义 4.2.5 (谱半径). A C
n×n
,则称
ρ(A) = max
1in
|λ
i
(A)| (4.22)
A 谱半径
推论 4.2.6 (谱半径的一些结论).
ρ(A
k
) = ρ(A)
k
(4.23)
ρ(A
H
A) = ρ(AA
H
) = A
2
2
(4.24)
推论 4.2.7 (正规矩阵的谱半径). A C
n×n
是正规矩阵,则
ρ(A) = A
2
(4.25)
推论 4.2.8 (谱半径的上界). A C
n×n
,则对 C
m×n
上的任意矩阵范数 · ,都有
ρ(A) A (4.26)
由这个定理可以根据矩阵的各种范数估算谱半径的上界
另一方面,范数和谱半径又有下面的结论
推论 4.2.9 (谱半径的下界). A C
n×n
ε, ∃∥·
m
, A ρ(A) + ε (4.27)
38
矩阵分析笔记 第四章 范数 Tsui Dik Sang
4.2.3.2 矩阵的条件数
引理 4.2.10. P C
n×n
,若对 C
m×n
上的任意矩阵范数 · ,都有
P < 1 (4.28)
I P 是可逆的。
然后又来一个意义不明的定理
定理 4.2.11. A C
n×n
, δA C
n×n
,若对 C
m×n
上的任意矩阵范数 · ,都有
A
1
δA < 1 (4.29)
A + δA 是可逆的
(A + δA)
1
<
A
1
1 A
1
δA
(4.30)
A
1
(A + δA)
1
A
1
A
1
δA
1
A
1
δ
A
(4.31)
一个推论是将右式化开了,终于有点知道他想要干什么了
推论 4.2.12. theorem 4.2.11的条件下,
A
1
(A + δA)
1
A
1
A∥∥A
1
δA
A
1 A∥∥A
1
δA
A
(4.32)
于是就可以得到原式矩阵系数误差对解的影响程度的定理了——这在数值分析中也有提到
定理 4.2.13 (矩阵方程的误差传递). A C
m×n
n
δA C
m×n
n
δA C
n
,b, δb C
n
若对 C
m×n
上的任意矩阵范数 ·
都有
A
1
δA < 1 (4.33)
则非齐次矩阵方程
Ax = b & (A + δA)(x + δx) = b + δb (4.34)
的解满足
δx
v
x
v
A∥∥A
1
1 A∥∥A
1
δ A
A
δA
A
+
δb
v
b
v
(4.35)
其中 ·
v
是与 · 相容的向量范数。
终于我们可以引出条件数的定义
39
矩阵分析笔记 第四章 范数 Tsui Dik Sang
定义 4.2.6 (矩阵的条件数). A C
m×n
n
,则称
cond(A) = A∥∥A
1
(4.36)
A 条件数,简称为矩阵的条件数
推论 4.2.14. 条件数越大越病态
推论 4.2.15 (三个常用的矩阵范数的条件数).
cond
(A) = A
A
1
cond
1
(A) = A
1
A
1
1
cond
2
(A) = A
2
A
1
2
=
s
λ
max
(A
H
A)
λ
min
(A
H
A)
=
s
σ
max
(A)
σ
min
(A)
(4.37)
推论 4.2.16 (正规矩阵的条件数).
cond
2
(A) =
σ
max
(A)
σ
min
(A)
(4.38)
4.2.3.3 最小二乘问题
先来看看这解决的一个怎么样的问题
定义 4.2.7 (最小二乘问题). A C
m×n
b C
m
,当方程组 Ax = b 无解时,想要找到一个 x
0
使得
Ax
0
b
2
= min
xC
n
Ax b
2
(4.39)
则称这个问题为最小二乘问题x
0
称为最小二乘解Ax
0
称为最小二乘解对应的近似值
有了下面的结论后
定理 4.2.17 (法方程组). x
0
是最小二乘解,则其也是下面方程组的解
A
T
Ax
0
= A
T
b (4.40)
称这个方程为 Ax = b 法方程组A
T
A 称为法矩阵
求最小二乘解就变成了求法方程组的解的过程 QR 分解能简化过程,这详见矩阵分解章节
40
第五章 矩阵基本分析
5.1 矩阵序列
5.1.1 基本定义
定义 5.1.1 (矩阵序列). 设有 C
m×n
中的矩阵序 {A
(k)
},若 lim
k→∞
a
(k)
ij
= a
ij
对任意的 i, j 都成立,则称 {A
(k)
} 收敛
到矩阵 A = (a
ij
)
m×n
,记作
lim
k→∞
A
(k)
= A (5.1)
但是如果直接从定义出发来判断矩阵序列的收敛性是非常麻烦的,这意味着要验证 mn 个序列有极限。所以有下面的结论
定理 5.1.1 (范数决定矩阵序列的收敛性). {A
(k)
} C
m×n
中的矩阵序列,
lim
k→∞
A
(k)
A = 0 lim
k→∞
A
(k)
= A (5.2)
矩阵收敛有一些与数列极限相同的结论
推论 5.1.2 (和、积、逆). 如果 lim
k→∞
A
(k)
= A lim
k→∞
B
(k)
= B,则
lim
k→∞
αA
(k)
+ βB
(k)
= αA + βB
lim
k→∞
A
(k)
B
(k)
= AB
lim
k→∞
A
(k)
1
(5.3)
5.1.2 收敛性
定义 5.1.2 (收敛矩阵). A C
m×n
,若
lim
k→∞
A
(k)
= O (5.4)
然后下面这个结论在数值分析里面应该也见过
定理 5.1.3 (收敛矩阵的充要条件).
ρ(A) < 1 (5.5)
41
矩阵分析笔记 第五章 矩阵基本分析 Tsui Dik Sang
推论 5.1.4 (范数与收敛矩阵). A 是收敛矩阵的又一个充要条件是
A < 1 (5.6)
其中 · 是任意矩阵范数。
5.2 矩阵级数
5.2.1 基本定义
定义 5.2.1 (矩阵级数). {A
(k)
} C
m×n
中的矩阵序列,则称
X
k=0
A
(k)
= A
(0)
+ A
(1)
+ ··· (5.7)
为矩阵级数。
同数列级数,有绝对收敛的概念
定义 5.2.2 (绝对收敛矩阵级数). A
(k)
= (a
(k)
ij
)
m
×
n
C
m×n
如果 mn 个数项级数
X
k=0
|a
(k)
ij
| 都收敛 (即绝对收敛)则称
矩阵级数
X
k=0
A
(k)
为绝对收敛矩阵级数。
定理 5.2.1 (矩阵绝对收敛的充要条件). A
(k)
C
m×n
则矩阵级数
X
k=0
A
(k)
绝对收敛的充要条件是
X
k=0
A
(k)
收敛。
· 是任意矩阵范数。
5.2.2 性质
直觉上来看应该也满足“线性”的性质
定理 5.2.2 (矩阵的“线性”性质).
X
k=0
A
(k)
= A
X
k=0
B
(k)
= B 是绝对收敛矩阵级数,则
X
k=0
αA
(k)
+ βB
(k)
= αA + βB (5.8)
定理 5.2.3 (乱序收敛). 绝对收敛的矩阵级数必收敛,并且任意调换其项的顺序所得的矩阵级数仍收敛,且其和不变
推论 5.2.4 (矩阵乘法的“线性”性质). 若矩阵级数
X
k=0
A
(k)
(绝对) 收敛,P Q 是任意常矩阵,
P
k=0
P A
(k)
Q (
42
矩阵分析笔记 第五章 矩阵基本分析 Tsui Dik Sang
) 收敛。
X
k=0
P A
(k)
Q = P
X
k=0
A
(k)
!
Q (5.9)
推论 5.2.5 (矩阵级数的乘法). 如果
X
k=0
A
(k)
X
k=0
B
(k)
是绝对收敛矩阵级数,则
X
k=0
A
(k)
!
X
k=0
B
(k)
!
= AB (5.10)
5.3 矩阵函数
5.3.1 幂级数:引入定义
5.3.1.1 定义
定义 5.3.1 (矩阵幂级数). A C
m×n
, a
k
C(k = 0, 1, 2, . . .),则
X
k=0
a
k
A
k
= A
0
a
0
+ A
1
a
1
+ ··· (5.11)
定义为矩阵幂级数
5.3.1.2 收敛半径
这同样是数列级数的概念的推广
定理 5.3.1. 设幂级数
P
k=0
a
k
z
k
的收敛半径为 r,则
ρ(A) < r 时,矩阵幂级数
X
k=0
a
k
A
k
收敛
ρ(A) > r 时,矩阵幂级数
X
k=0
a
k
A
k
发散
5.3.1.3 矩阵函数的定义
定义 5.3.2 (矩阵函数). 设幂级数
X
k=0
a
k
z
k
收敛半径为 r如果 A C
m×n
满足 ρ(A) < r则称收敛的矩阵幂级数
X
k=0
a
k
A
k
为矩阵函数,记作
f(A) =
X
k=0
a
k
A
k
(5.12)
43
矩阵分析笔记 第五章 矩阵基本分析 Tsui Dik Sang
5.3.2 结论
5.3.2.1 常用矩阵函数
直接根据泰勒展开式去扩展!
推论
5.3.2 (
指数矩阵函数
).
e
A
=
X
k=0
A
k
k!
, ρ(A) < (5.13)
推论 5.3.3 (对数矩阵函数).
ln(I + A) =
X
k=1
(1)
k+1
A
k
k
, ρ(A) < 1 (5.14)
其中 I 是单位矩阵。
推论 5.3.4 (三角矩阵函数).
sin(A) =
X
k=0
(1)
k
A
2k+1
(2k + 1)!
, ρ(A) < (5.15)
cos(A) =
X
k=0
(1)
k
A
2k
(2k)!
, ρ(A) < (5.16)
推论 5.3.5 (逆函数).
(I A)
1
=
X
k=0
A
k
, ρ(A) < 1 (5.17)
5.3.2.2 常用矩阵函数的性质
推论 5.3.6 (三角关系).
sin(A) = sin(A), cos(A) = cos(A) (5.18)
推论 5.3.7 (欧拉公式).
e
iA
= cos(A) + i sin(A), ρ( A) < (5.19)
引理 5.3.8 (可交换的矩阵). 如果矩阵 A B 满足 AB = BA,则称它们为可交换矩阵。常见的可交换矩阵包括:
同一矩阵的幂次:A
m
A
n
= A
n
A
m
单位矩阵:IA = AI 对任何同阶方阵成立
数量矩阵:kI 与任何同阶方阵都可交换
具有相同特征向量的矩阵:若 A B 有相同的特征向量组,则 AB = BA
44
矩阵分析笔记 第五章 矩阵基本分析 Tsui Dik Sang
推论 5.3.9 (满足可交换矩阵的性质). 如果 A B 是任意可交换矩阵,则
e
A+B
= e
A
e
B
sin(A + B) = sin( A) cos(B) + cos(A) sin(B)
cos(A + B) = cos( A) cos(B) sin(A) sin(B)
推论 5.3.10 (特征值行列式有关性质). A C
n×n
,则
det e
A
= e
trA
(e
A
)
1
= e
A
5.3.3 矩阵函数值的计算
5.3.3.1 利用 Hamilton-Cayley 定理
theorem 3.4.1, 或者书本 p19 有详解。这个方法利用 Hamilton-Cayley 定理化高阶矩阵为低阶,或者找到一些规律之后类
推到泰勒展开式中具有高度的技巧性,对于一般的矩阵函数求解不一定适用,所以有兴趣的看书本 p66 例题,这里不展开
5.3.3.2 利用相似对角化
前提是矩阵 A 可以相似对角化,即存在 P C
n×n
使得
P
1
AP = D = diag(λ
1
, λ
2
, . . . , λ
n
) = Λ (5.20)
则有
f(A) =
X
k=0
a
k
A
k
=
X
k=0
a
k
(P ΛP
1
)
k
= P
X
k=0
a
k
Λ
k
!
P
1
= P diag
X
k=0
a
k
λ
k
1
,
X
k=0
a
k
λ
k
2
, . . . ,
X
k=0
a
k
λ
k
n
!
P
1
= P diag(f(λ
1
), f ( λ
2
), . . . , f (λ
n
))P
1
(5.21)
同理
推论 5.3.11 (利用相似对角化计算矩阵函数值).
f(At) = P diag(f(λ
1
t), f ( λ
2
t), . . . , f (λ
n
t))P
1
(5.22)
5.3.3.3 利用 Jordan 标准形
与计算高次幂的原理类似,这个方法是给不能相似对角化的矩阵服务的,假设目标矩阵可以分解为
P
1
AP =
J
1
.
.
.
J
s
(5.23)
45
矩阵分析笔记 第五章 矩阵基本分析 Tsui Dik Sang
先计算一个 Jordan J
i
=
λ
i
1
λ
i
.
.
.
.
.
.
1
λ
i
的函数
f(J
i
t) =
X
k=0
a
k
J
k
i
t
k
=
X
k=0
a
k
λ
k
i
C
1
k
λ
k1
i
··· C
r
i
1
k
λ
k(r
i
1)
i
λ
k
i
.
.
.
.
.
.
.
.
.
C
1
k
λ
k1
i
λ
k
i
t
k
=
X
k=0
a
k
λ
k
t
1!
(λ
k
)
···
t
r
i
1
(r
i
1)!
(λ
k
)
(r
i
1)
λ
k
.
.
.
.
.
.
.
.
.
t
1!
(λ
k
)
λ
k
t=λ
i
t
=
f(λ
i
t)
t
1!
f
(λ
i
t) ···
t
r
i
1
(r
i
1)!
f
(r
i
1)
(λ
i
t)
f(λ
i
t)
.
.
.
.
.
.
.
.
.
t
1!
f
(
λ
i
t
)
f(λ
i
t)
t=λ
i
t
(5.24)
其中第 2 3 行的换元可以清晰的梳理出元素与 f (·) 的关系.
进而就不难推出
定理 5.3.12 (利用 Jordan 标准形计算矩阵函数值).
f(At) = P
f(J
1
t)
.
.
.
f(J
s
t)
(5.25)
其中 f(J
i
t) eq. (5.24) 给出。
5.3.3.4 待定系数法
f(λt) 用特征多项式
1
做短除法
2
写成如下形式
f(λt) = q(λ, t)ψ(λ) + r(λ, t) (5.27)
由于是短除法,所以余项 r(λ, t) 的次数不超过 n-1,写成 r(λ, t) =
n1
X
k
=0
b
k
(λ)t
k
Hamilton-Cayley 定理可知 ψ(A) = 0 ,所以
f(At) = r(A, t) = b
n1
(t)A
n1
+ b
n2
(t)A
n2
+ ··· + b
0
(t)I (5.28)
1
特征多项式为
ψ(λ) = det(λI A) = (λ λ
1
)
r
1
(λ λ
2
)
r
2
···(λ λ
s
)
r
s
(5.26)
r
1
+ r
2
+ ··· + r
s
= n
2
然而实际上在后面的计算中 q(λ, t) 是不重要的,所以只需要知道 r(λ, t) 的各个系数即可,无需真正做短除法,否则如果 f (λt) 是无穷级数形式的话就够呛
46
矩阵分析笔记 第五章 矩阵基本分析 Tsui Dik Sang
现在目标是求出系数 b
k
(λ) 即可,如果 eq. (5.28) 的形式不好,所以还是回归其代数形式,而此时 eq. (5.28) 对于代数形式是
不一定成立的,只在特征值处成立
f(λ
i
t) = r(λ
i
t, t) (5.29)
或者对于 r 重的特征值 λ
i
,有
f
(r
i
)
(λ
i
t) = r
(r
i
)
(λ
i
t, t) (5.30)
注意,这里的求导是对 λ 求导,而不是 t 求导 由此可以列出 n 个方程,解出 b
0
b
n1
n 个参数,之后重新讲矩阵 A
r(λ, t) 也是适用的。
5.4 矩阵的微积分
5.4.1 定义
定义 5.4.1 (矩阵函数的可导可微). 对于矩阵函数 A(t) = (a
ij
(t))
m×n
,其中 a
ij
(t) 都是变量 t 的函数。且在 [a, b] 上连续可
微,则称 A(t) t
0
[a, b] 处可导可微
定理 5.4.1 (矩阵函数的导数). A(t) t
0
处可导可微,则称
A
(t
0
) =
d
dt
a
ij
(t)
m×n
(5.31)
为矩阵函数 A(t) t
0
处的导数。
定理 5.4.2 (矩阵函数的积分). A(t) [a, b] 上连续可微,规定
ˆ
b
a
A(t)dt =
ˆ
b
a
a
ij
(t)dt
!
m×n
(5.32)
为矩阵函数 A(t) 在区间 [a, b] 上的积分。
5.4.2 性质
显然,微积分所满足的线性性质他都满足
推论 5.4.3 (矩阵函数的线性性质). A(t) B(t) 是矩阵函数,且在 t
0
处可导可微,则
αA
(t
0
) + βB
(t
0
) =
α
d
dt
a
ij
(t) + β
d
dt
b
ij
(t)
m×n
(5.33)
ˆ
b
a
(αA(t) + βB(t)) dt = α
ˆ
b
a
A(t)dt + β
ˆ
b
a
B(t)dt (5.34)
其中 α, β 是任意常数。
5.4.3 矩阵函数的导数
3
3
我感觉书上对矩阵函数的定义有歧义,书上认为 A 中没有变量 t 的矩阵级数是矩阵函数
47
矩阵分析笔记 第五章 矩阵基本分析 Tsui Dik Sang
推论 5.4.4 (常用矩阵函数的导数).
d
dt
e
A(t)
= e
A(t)
A
(t)
d
dt
sin At = A cos At
d
dt
cos At = A sin At
(5.35)
然后乘积求导的性质他也满足
推论 5.4.5 (矩阵函数的乘积求导). -
d
dt
(A(t)B(t)) = A
(t)B(t) + A(t)B
(t) (5.36)
其中 A(t) B(t) 是矩阵函数。
d
dt
(λ(t)A(t)) = λ
(t)A(t) + λ(t)A
(t) (5.37)
其中 λ(t) 是数量函数,A(t) 是矩阵函数。
复合函数的求导法则也一样
推论 5.4.6 (矩阵函数的复合函数求导). A(t) 是矩阵函数,u = f (t) 是数量函数,则
d
dt
(A(u)) = A
(u)f
(t) (5.38)
其中 A
(u) 是矩阵函数 A(u) 对变量 u 的导数。
同时有一个矩阵函数独有的性质
定理 5.4.7 (逆矩阵的导数). A
1
(t) 是可微函数时,
d
dt
(A
1
(t)) = A
1
(t)
d
dt
A(t)
A
1
(t) (5.39)
5.4.4 矩阵变量的导数
前面讨论的是对单变量的“矩阵函数”,这里是对单函数的“矩阵变量”函数
定义 5.4.2 (对矩阵变量的导数). f(X) 是以矩阵 X = (x
ij
)
m
×
n
为自变量的 mn 元函数,且
f
x
ij
都存在,则称
df
dX
=
f
x
ij
m×n
=
f
x
11
f
x
12
···
f
x
1n
f
x
21
f
x
22
···
f
x
2n
.
.
.
.
.
.
.
.
.
.
.
.
f
x
m1
f
x
m2
···
f
x
mn
(5.40)
为函数 f(X) 对矩阵变量 X 的导数,记作
48
矩阵分析笔记 第五章 矩阵基本分析 Tsui Dik Sang
定义 5.4.3 (对向量变量的导数). 特别的,以 x = (ξ
1
, ξ
2
, . . . , ξ
n
)
T
为自变量的 n 元函数 f (x) 的导数
df
dx
=
f
ξ
1
,
f
ξ
2
, . . . ,
f
ξ
n
T
(5.41)
称为数量函数 f(x) 对向量变量 x 的导数,即高数中学过的梯度
然后有一个与正常导数不一样的结论
4
推论 5.4.8 (对向量变量的导数). a = (a
1
, a
2
, . . . , a
n
)
T
是常向量,X = (ξ
1
, ξ
2
, . . . , ξ
n
)
T
是向量变量,且
f(x) = a
T
x = x
T
a =
n
X
i=1
a
i
x
i
(5.42)
df
dx
= a
T
=
a
1
a
2
··· a
n
(5.43)
5.4.5 应用
5.4.5.1 解微分方程
3.2.3.2中已经介绍了一种方法,现在介绍使用矩阵函数解微分方程,注意,前面的方法都只适用于齐次,下面的方法将适
用于非齐次微分方程。
对于一节常系数非齐次常微分方程组
dx
1
(t)
dt
= a
11
x
1
(t) + a
12
x
2
(t) + ··· + a
1n
x
n
(t) + f
1
(t)
dx
2
(t)
dt
= a
21
x
1
(t) + a
22
x
2
(t) + ··· + a
2n
x
n
(t) + f
2
(t)
.
.
.
dx
n
(t)
dt
= a
n1
x +
1
(t) + a
n2
x
2
(t) + ··· + a
nn
x
n
(t) + f
n
(t)
(5.44)
以及处置条件
x
i
(t
0
) = c
i
(i = 1, 2, . . . , n) (5.45)
有了前面关于矩阵微分等的只是,就完全可以用矩阵来清晰表示这个方程组
引理 5.4.9 (矩阵微分方程组).
dx(t)
d
t= Ax(t) + f (t)
x(t
0
) = c
(5.46)
其中
A =
a
11
a
12
··· a
1n
a
21
a
22
··· a
2n
.
.
.
.
.
.
.
.
.
.
.
.
a
n
1
a
n
2
··· a
nn
, f ( t) =
f
1
(t)
f
2
(t)
.
.
.
f
n
(t)
, x(t) =
x
1
(t)
x
2
(t)
.
.
.
x
n
(t)
, c =
c
1
c
2
.
.
.
c
n
(5.47)
eq. (5.46) 如果看成正常方程来解在高数里面学过,事实上也确实可以这样子解,得出
4
详见书本 p77 的例 3.12
49
矩阵分析笔记 第五章 矩阵基本分析 Tsui Dik Sang
定理 5.4.10 (矩阵微分方程组的解).
x(t) = e
A(tt
0
)
c +
ˆ
t
t
0
e
A(tτ )
f(τ) (5.48)
推论 5.4.11 (齐次矩阵微分方程组的解).
x(t) = e
A(tt
0
)
c (5.49)
这就更简单了,相当于算出 e
A(tt
0
)
,然后乘上初始条件 c 即可。
5.4.5.2 Lyapunov 方程
定义 5.4.4 (Lyapunov 方程). A C
n×n
,则称
A
T
X + XA = F (5.50)
Lyapunov 方程,其中 F C
n×n
是已知矩阵,X C
n×n
是未知矩阵。
直接给结论
定理 5.4.12 (Lyapunov 方程). eq. (5.50) A, B 的特值都具有实部,则这种矩称为稳定矩阵
Lyapunov 方程有唯一解
X =
ˆ
0
e
At
F e
Bt
dt (5.51)
没太看懂,讲直积的时候还会讲到,似乎那里讲得清楚一点
50
第六章 矩阵分解
6.1 三角分解
都是可以套公式解决问题的,如果麻烦就待定系数,并没有涉及太多特征值相关,而都是变换.
定义 6.1.1 (三角分解). A 是一个 n × n 的矩阵,如果存在一个下三角矩阵 L 和一个上三角矩阵 U,使得
A
=
LR
(6.1)
则称 A 三角分解 LU 分解。
关于存在性之类的定理较为繁琐,先从略
1
6.1.1 分解方法
根据分解出的对角元素情况又可以卸车个两种形式
6.1.1.1 Doolittle 分解
定义 6.1.2 (Doolittle 分解). A 是一个 n × n 的矩阵,如果存在一个下三角矩阵 L 和一个上三角矩阵 U,使得
A = LU (6.2)
L 的对角元素均为 1,则称 A Doolittle 分解 LU 分解。
6.1.1.2 Crout 分解
定义 6.1.3 (Crout 分解). A 是一个 n × n 的矩阵,如果存在一个下三角矩阵 L 和一个上三角矩阵 U,使得
A = LU (6.3)
U 的对角元素均为 1,则称 A Crout 分解 LU 分解。
6.1.1.3 LDR 分解
1
在数值分析中是 LU 分解,所以这部分内容详见数值分析
51
矩阵分析笔记 第六章 矩阵分解 Tsui Dik Sang
定义 6.1.4 (LDR 分解). A 是一个 n × n 的矩阵,如果存在一个下三角矩阵 L、一个对角矩阵 D 和一个上三角矩阵 R
使得
A = LDR (6.4)
则称 A LDR 分解 LDR 分解。
6.2 QR 分解
2
定义 6.2.1 (QR 分解). A 是一个 m × n 的矩阵,如果存在一个酉矩阵 Q 和一个上三角矩阵 R,使得
A = QR (6.5)
则称 A QR 分解 QR 分解。
酉矩阵可以理解成一种扩展到复数域的正交矩阵,所以上面的结论对应在实数域的话就是正交矩阵 Q
定理 6.2.1 (QR 分解的存在性). 任意 A C
m×n
都可以进行 QR 分解,即存在正交矩阵 Q 和上三角矩阵 R,使得
定理 6.2.2 (QR 分解的唯一性). 如果 A 是可逆矩阵时,则 QR 分解是唯一的。
6.2.1 分解方法
书中介绍了三种方法,认为第三种方法是最快上手和理解的,所以来!
6.2.1.1 利用 Schmidt 正交化方法
A 写成
A = (a
1
, a
2
, ··· , a
n
) (6.6)
{a
1
, a
2
, ··· , a
n
} 进行 Schmidt 正交化,得到 {q
1
, q
2
, ··· , q
n
}
3
然后由这个正交机去描述 a
1
, a
2
, ··· , a
n
a
i
=
n
X
j=1
r
ji
q
j
(6.7)
对正交化过程的式子反过来,就可以得出 QR 分解式
A =
q
1
q
2
···
q
n
r
11
r
12
··· r
1n
0 r
22
··· r
2n
.
.
.
.
.
.
.
.
.
.
.
.
0 0 ··· r
nn
(6.8)
2
前面给了一堆引入的定理,也先从略了,直接看到定义
3
注意,可能 Span{a
1
, a
2
, ··· , a
n
} n, rank(A) = r < n,则 q
r+1
, q
r+2
, ··· , q
n
都是零向量,这是没有问题的, 只是会导致 QR 分解的结果不唯一,
这与 theorem 6.2.2是相印证的
52
矩阵分析笔记 第六章 矩阵分解 Tsui Dik Sang
6.3 满秩分解
没想到这部分不能瞄定分解本身一步到位,还是不得不先将前面的引理和引定义给看完
定义 6.3.1 (Hermitian 标准形). 简单的讲,就是 A 通过初等变换后变成的类阶梯型 (如果可能存在一个“阶梯”有多列的情
)
,形状如下
引理 6.3.1 (转换成 r 阶类单位矩阵). A C
m×n
r
(r > 0),则存在 S C
m×m
T C
n×n
,使得
S
H
AT =
I
r
O
O O
!
(6.9)
其中 I
r
r × r 的单位矩阵,O 是零矩阵。
6.3.1 定义
定义 6.3.2 (满秩分解). A C
m×n
r
(r > 0),如果存在 F C
m×r
G C
n×r
,使得
A = F G (6.10)
则称 A 满秩分解 F G 分解。
定理 6.3.2 (满秩分解的存在性). 任意 A C
m×n
r
(r > 0) 都可以进行满秩分解,
6.3.2 分解方法
theorem 6.3.2的证明即提供了一种方法。
6.3.2.1 特殊情况下的满秩分解
推论 6.3.3 (r=m 时候的满秩分解).
A = I
m
A (6.11)
推论 6.3.4 (r=n 时候的满秩分解).
A = AI
n
(6.12)
6.3.2.2 利用 ST 进行分解
利用 theorem 6.3.1,当
F = S
1
I
r
O
C
m×r
G =
I
r
O
T
1
C
n×r
(6.13)
时候可以得到分解
53
矩阵分析笔记 第六章 矩阵分解 Tsui Dik Sang
6.3.2.3 利用 Hermitian 标准形分解
使用下面的定理
定理 6.3.5 (利用 Hermitian 标准形进行满秩分解). A C
m×n
r
(r > 0),且求得其 Hermitian 标准形.
A
的第
j
1
, j
2
,
···
, j
r
列作为
G
列构成矩阵
F
H 的前 r 行构成矩阵 G
A = F G A 的满秩分解。
6.4 奇异值分解
定义 6.4.1 (酉等价). A B 是两个矩阵,如果存在酉矩阵 U V ,使得
A = U
H
BV (6.14)
则称 A B 酉等价的。
定义 6.4.2 (奇异值). A C
m×n
r
(r > 0),A
H
A 的特征值为
λ
1
λ
2
··· λ
r
> λ
r+1
= ··· = λ
n
= 0 (6.15)
则称 σ
i
=
λ
i
A 奇异值,其中 i = 1, 2, ··· , r
引理 6.4.1 (酉等价的性质). 酉等价的矩阵有相同的奇异值。
定理 6.4.2 (奇异值分解). A C
m×n
r
(r > 0),则存在酉矩阵 U C
m×m
V C
n×n
,使得
U
H
AV =
Σ O
O O
!
(6.16)
其中 Σ = diag(σ
1
, σ
2
, ··· , σ
r
) 是一个对角矩阵,将上式写为
A = U
Σ O
O O
!
V
H
(6.17)
则称 A 奇异值分解 U ΣV
H
分解。
6.4.1 分解方法
不是太懂原理,下面先依照 p115 的例 4.12 给一个方法。
54
矩阵分析笔记 第六章 矩阵分解 Tsui Dik Sang
6.4.1.1 利用 A
T
A 的特征值分解
先求出 A
H
A 的相似变换矩阵 V ,
4
使得
V
H
A
H
AV = diag(λ
1
, ··· , λ
n
) = Σ
2
(6.18)
然后利用下式求出 U 的一部分
U
1
= AV
1
Σ
1
(6.19)
根据酉矩阵的性质
5
,取 U
2
, 使得 U = (U
1
, U
2
) 是一个酉矩阵,满足 U
H
U = I,则可得 A 的奇异值分解
A = U
Σ O
O O
!
V
H
(6.20)
4
由于是对称的, 所以 V 是酉矩阵
5
可以理解为复数域内的单位正交性,所以这里就是要找到另外一个或多个与 U
1
均单位正交的向量组成的矩阵 U
2
,使得 U = (U
1
, U
2
) 是一个酉矩阵
55
矩阵分析笔记 第六章 矩阵分解 Tsui Dik Sang
56
第七章 火速过的两章
虽然不一定是以考试为导向的学习,但是每周一节的课确实也只学到了这里,最后这几章只是对一些概念的浅浅略过,那么
这里直接放重点。
7.1 特征值的估计:Gershgorin
7.1.1 定义与定理
定义 7.1.1 (Gershgorin ( Gershgorin )). A = (a
ij
)
n×n
,记
R
i
=
n
X
j=1
j̸=i
|a
ij
|, i = 1, 2, . . . , n. (7.1)
称复平面上的圆域
G
i
= {z||z a
ii
| < R
i
, z C} i = 1, 2, . . . , n (7.2)
Gershgorin 圆,G
i
的圆心为 a
ii
,半径为 R
i
时间有限,直接看看这个 Gershgorin 圆和特征值的关系。
引理 7.1.1 (Gershgorin1). 矩阵 A C
n×n
的所有特征值都在他的 n Gershgorin 圆构成的并集中的
这个定理有点废话,因为下面有一个更有效判断各个特征值位置的定理
1
定理 7.1.2 (Gershgorin2). 若矩阵 A 的某一联通部分由 A k Gershgorin 圆构成,则其中有且仅有 dk 个特征值 (Gershgorin
圆相重时重复技术,特征值相同时也重复计数)
也就意味着相重的特征值比较难以区分出来
2
7.1.2 特征值隔离
目的就是将每一个 Gershgorin 圆都分离开来,从而利用 theorem 7.1.2知道每一个特征值都被锁定在对应的区域从而实现了
隔离
7.1.2.1 利用列 Gershgorin
由于转置不影响特征值,所以我们同样可以定义列 Gershgorin
1
虽然但是,那我不明白这个引理的作用是什么
2
不过貌似下面的例题也没有涉及多重的特征值
57
矩阵分析笔记 第七章 火速过的两章 Tsui Dik Sang
定义 7.1.2 ( Gershgorin ). A = (a
ij
)
n×n
,记
R
i
=
n
X
j=1
j̸=i
|a
ji
|, i = 1, 2, . . . , n. (7.3)
称复平面上的圆域
G
i
= {z||z a
ii
| < R
i
, z C} i = 1, 2, . . . , n (7.4)
为列 Gershgorin 圆,G
i
的圆心为 a
ii
,半径为 R
i
所以如果一个矩阵的行 Gershgorin 圆如果不好判断,可以结合列 Gershgorin 圆来进行判断,这就见仁见智了。
7.1.2.2 放缩 Gershgorin
选取正整数 d
1
, d
2
, ··· , d
n
,设对角矩阵 D = diag(d
1
, d
2
, ··· , d
n
),则可以构造 A 的相似矩阵
引理 7.1.3.
B = D
1
AD =
a
ij
d
i
d
j
n×n
(7.5)
放缩方法为
推论 7.1.4 (放缩 Gershgorin ). 如果想要让 A 的第 i Gershgorin 圆缩小,取 d
i
< 1, 其余都取 1
这也是个相当有技巧的活,请看书上的例题
7.2 矩阵的特殊乘积
7.2.1 直积
定义 7.2.1 (直积). A = (a
ij
)
m×n
, B = (b
ij
)
p×q
,则
A B = (a
ij
B)
m×n
= (a
ij
b
kl
)
mp×nq
(7.6)
其中 1 i m, 1 j n, 1 k p, 1 l q
7.2.2 Lyapunov 方程
7.2.2.1 拉直
定义 7.2.2 (拉直). A = (a
ij
)
m×n
,则称 mn 维列向量
A = (a
11
, a
12
, . . . , a
1
n
, a
21
, . . . , a
mn
)
T
(7.7)
A (按行) 拉直,记作
A
58
矩阵分析笔记 第七章 火速过的两章 Tsui Dik Sang
引理 7.2.1 (拉直与直积的定理). A C
m×n
, X C
m×m
, B C
n×n
,则
AXB = (B
T
X)
A (7.8)
于是我们就可以将 Lyapunov 方程进行转化
定理 7.2.2 (利用拉直的性质转化 Lyapunov 方程). A C
m×m
, B C
n×n
, F C
m×n
,则 Lyapunov 方程
AX + XB = F (7.9)
等价于
(A
T
I
n
+ I
m
B)
X =
F (7.10)
显然,eq. (7.10) 只有一个 X,在化简方面比 eq. (7.9) 要好算。这也正是解法所在
7.2.3 Hadamard (外积)
定义 7.2.3 (Hadamard ). A = (a
ij
)
m×n
, B = (b
ij
)
m×n
,则
A B = (a
ij
b
ij
)
m×n
(7.11)
其中 1 i m, 1 j n
59
矩阵分析笔记 第七章 火速过的两章 Tsui Dik Sang
60
参考文献
[1] 徐仲, 张凯院, 陆全. 科学版研究生教学丛书:矩阵论简明教程(第三版). 科学出版社, 2014. ISBN 9787030394798.
61