——————————————————————————————————————————————
概率论与数理统计笔记
——————————————————————————————————————————————
Tsui Dik Sang
2024 年 2 月 23 日——2025 年 6 月 27 日
概率论与数理统计笔记 Tsui Dik Sang
2
写在笔记之前
高中知识占了一部分,但是真正难的是之后的内容,并且,考试可以出得很简单,也可以出得很难!
Tsui Dik Sang
2025.6.27
3
概率论与数理统计笔记 Tsui Dik Sang
4
目录
第一章 概率论的基本概念 9
1.1 随机试验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 样本空间、随机事件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1 样本空间 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 事件的运算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2.1 基本运算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2.2 由此引出的性质定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 频率 & 概率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.1 频率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.2 概率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2.1 定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2.2 性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 等可能概率 (古典概率) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 条件概率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.1 定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.2 全概率公式和 Bayes 公式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.2.1 全概率公式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.2.2 Bayes 公式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6 独立性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
第二章 随机变量及其分布 15
2.1 一些经典离散分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.0.1 伯努利分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1 离散型随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1.1 0-1 分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1.2 泊松分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 连续型随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 随机变量的分布函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1.1 定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1.2 性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.2 概率密度函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2.1 性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.3 一些经典连续分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.3.1 均匀分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.3.2 指数分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.3.3 正态分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5
概率论与数理统计笔记 目录 Tsui Dik Sang
第三章 多维随机变量分布 19
3.1 定义与性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.1 定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.2 性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.3 分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.3.1 离散型二维随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.3.2 连续型二维随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 概念拓展 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.1 边缘分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.2 定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.3 条件分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.3.1 离散 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.3.2 连续型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.4 独立性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.4.1 二维 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.4.2 多维
∗
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.5 两个随机变量函数的分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.5.1 Z=X+Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.5.2 Z =
Y
X
与 Z = XY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.5.3 M=max{X,Y} 和 N=min{X,Y} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
第四章 随机变量的数字特征 25
4.1 基础的特征 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.1 数学期望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.2 方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.2.1 定义以及一些基本性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.3 几种常用分布的数学期望和方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.3.1 均匀分布 X ∼ U (a, b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.3.2 正态分布 X ∼ N(µ, σ
2
) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.3.3 泊松分布 X ∼ π(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.3.4 二项分布 X ∼ b(n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.3.5 指数分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.4 Chebyshev 不等式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 协方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2.1 定义与基本性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2.2 相关系数 ρ
XY
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2.3 协方差矩阵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2.3.1 矩的定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2.3.2 多维随机变量的数字特征 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
第五章 大数定律、中心极限定律 31
5.1 大数定律 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.2 中心极限定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
6
概率论与数理统计笔记 目录 Tsui Dik Sang
第六章 样本及其抽样性质 35
6.1 随机样本 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.1.1 基本定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.2 可视化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.2.1 直方图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.2.2 箱线图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.2.2.1 引入定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.2.2.2 基础箱线图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.2.2.3 修正箱线图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.3 抽样分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.3.1 统计量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.3.1.1 定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.3.1.2 常用统计量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.3.1.3 一些定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.3.2 几个经典的统计量分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.3.2.1 χ
2
分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.3.2.2 t 分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.3.2.3 F 分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.4 正态总体的样本均值与样本方差的分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.4.1 一些额外的定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
第七章 参数估计 43
7.1 点估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.1.1 矩估计量法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.1.2 最大似然估计量法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.1.2.1 单参数情况 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
7.1.2.2 多参数情况 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
7.2 估计量的评选标准 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7.2.1 无偏性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7.2.2 有效性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7.2.3 相合性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7.3 置信区间 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7
概率论与数理统计笔记 目录 Tsui Dik Sang
8
第一章 概率论的基本概念
在概率论之前学科研究的都是:
定义 1.0.1 (确定性现象). 必然发生的现象,比如各种的物理规律真理
但是在这之后,人们发现大多数事情都是不可预测的,但是却有一定的规律
定义 1.0.2 (随机现象). 在个别试验中其结果呈现出不确定性,但是在大量重复试验中奇结果又具有统计规律性的线性,称
之为 随机现象
这就是我们之后要研究的现象
1.1 随机试验
定义 1.1.1 (随机试验). 满足下面特点的试验成为随机试验
• 可以在相同的条件下重复地进行
• 每次试验的可能结果不止一个,并且事先能知道所有可能结果
• 进行一次试验之前不能确定哪一个结果会出现
1.2 样本空间、随机事件
1.2.1 样本空间
定义 1.2.1 (样本空间). 随机试验 E 的所有可能结果组成的集合成为 E 的样本空间,记为 S,
定义 1.2.2 (样本点). 样本空间的每个结果,称为样本点
值得注意的是,样本空间可能是无限的。比如某个灯泡的寿命 (规定是整数!) 理论上就可以是任意的正整数。
定义 1.2.3 (必然事件).
9
概率论与数理统计笔记 第一章 概率论的基本概念 Tsui Dik Sang
定义 1.2.4 (不可能事件).
1.2.2 事件的运算
1.2.2.1 基本运算
定义 1.2.5 (和事件). 设 A, B 是样本空间 S 的两个事件,则称 A ∪B 为和事件,记为 A + B 或 A ∪B,表示事件 A 或事件
B 发生。
定义 1.2.6 (积事件). 设 A, B 是样本空间 S 的两个事件,则称 A ∩B 为积事件,记为 AB 或 A ∩B,表示事件 A 和事件 B
同时发生。
1.2.2.2 由此引出的性质定义
定义 1.2.7 (互斥/互不相容事件). 设 A, B 是样本空间 S 的两个事件,如果 A ∩ B = ∅,则称事件 A 和事件 B 为互斥事件
或互不相容事件。
定义 1.2.8 (对立/逆事件). 设 A 是样本空间 S 的一个事件,则称 A
c
= S − A 为对立事件或逆事件,记为 A。
1.3 频率 & 概率
1.3.1 频率
定义 1.3.1 (频率). 在相同条件下进行 n 次实验,在这 n 次实验中,事件 A 发生的次数 n
A
,则称比值
f
n
(A) =
n
A
n
(1.1)
为频率,称为事件 A 的相对频率。
推论 1.3.1.
f
n
(S) = 1 (1.2)
推论 1.3.2. 若 A
1
, A
2
, ··· , A
k
是样本空间 S 的 k 个互斥事件,则
f
n
(A
1
+ A
2
+ ··· + A
k
) = f
n
(A
1
) + f
n
(A
2
) + ···+ f
n
(A
k
) (1.3)
定理 1.3.3 (频率的收敛性). 当 n 逐渐增大时,频率 f
n
(A) 趋近于一个确定的数
10
概率论与数理统计笔记 第一章 概率论的基本概念 Tsui Dik Sang
1.3.2 概率
1.3.2.1 定义
直接从目的定义的概率与频率是没有关系的
1
定义 1.3.2 (概率). 设 E 是随机试验,S 是它的样本空间,对于 E 的每一个事件 A 赋予一个实数 P (A),称为事件 A 的概
率,满足下面性质:
• 非负性:P (A) ≥ 0,对于任意事件 A
• 规范性:P (S) = 1,即样本空间的概率为 1
• 可列可加性:若 A
1
, A
2
, ··· , A
k
是样本空间 S 的 k 个互斥事件,则
1.3.2.2 性质
推论 1.3.4 (频率与概率的关系).
lim
n→∞
f
n
(A) = P (A) (1.4)
上面的结论之后会证明。
推论 1.3.5.
P (∅) = 0 (1.5)
推论
1.3.6 (
有限可加性
).
设
A
1
, A
2
,
···
, A
k
是样本空间
S
的
k
个互斥事件,则
P (A
1
+ A
2
+ ··· + A
k
) = P (A
1
) + P (A
2
) + ···+ P(A
k
) (1.6)
推论 1.3.7 (包含关系). A ⊆ B
P (B − A) = P (B) −P (A) (1.7)
P (A) ⩽ P (B) (1.8)
推论 1.3.8.
P (A) ⩽ 1 (1.9)
推论 1.3.9 (对立事件).
P (A) + P (A) = 1 (1.10)
1
其关系式后面被证明的
11
概率论与数理统计笔记 第一章 概率论的基本概念 Tsui Dik Sang
推论 1.3.10 (加法公式).
P (A + B) = P (A) + P (B) − P (A ∩ B) (1.11)
1.4 等可能概率 (古典概率)
定义 1.4.1 (等可能概率). 若 denition 1.1.1的试验满足
• 样本空间 S 是有限的
• 每个样本点发生的可能性相同
则称这种概率为等可能概率或古典概率,记为 P (A) =
n
A
n
,其中 n
A
是事件 A 发生的样本点个数,n 是样本空间 S 的样本
点个数。
然后就全部都是高中知识,从略
1.5 条件概率
1.5.1 定义
其实也是高中知识,所以只给一些基本公式,剩下都靠做题
定理 1.5.1 (条件概率). 以 P (A|B) 表示在事件 B 发生的条件下,事件 A 发生的概率,则
P (A|B) =
P (AB)
P (B)
(1.12)
推论 1.5.2 (可列可加性). 设 B
1
, B
2
, ··· , B
k
是样本空间 S 的 k 个互斥事件,则
P
k
[
i=1
B
i
|A
!
=
k
X
i=1
P (B
i
|A) (1.13)
1.5.2 全概率公式和 Bayes 公式
1.5.2.1 全概率公式
引理 1.5.3 (乘法定理).
P (AB) = P (A|B)P (B) (1.14)
定理 1.5.4 (全概率公式). 设 B
1
, B
2
, ··· , B
k
是样本空间 S 的 k 个互斥事件,且 P (B
i
) > 0,则对于任意事件 A,有
P (A) =
k
X
i=1
P (A|B
i
)P (B
i
) (1.15)
12
概率论与数理统计笔记 第一章 概率论的基本概念 Tsui Dik Sang
1.5.2.2 Bayes 公式
定理 1.5.5 (Bayes 公式). 设 B
1
, B
2
, ··· , B
k
是样本空间 S 的 k 个互斥事件,且 P (B
i
) > 0,则对于任意事件 A,有
P (B
i
|A) =
P (A|B
i
)P (B
i
)
k
X
j=1
P (A|B
j
)P (B
j
)
(1.16)
1.6 独立性
一个景点的判定标准足矣
定义 1.6.1 (独立性). 设 A, B 是样本空间 S 的两个事件,如果满足下面条件,则称事件 A 和事件 B 是独立事件:
P (AB) = P (A)P(B) (1.17)
显然有推论
推论 1.6.1 (独立性的等价条件).
P (A) > 0, P (B|A) = P (B) (1.18)
定义 1.6.2 (多变量独立性 (例如三个变量)). 设 A、B、C 是样本空间 S 的三个事件,如果满足下面条件,则称事件 A、B、
C 是独立事件:
P (AB) = P (A)P(B)
P (AC) = P (A)P (C)
P (BC) = P (B)P (C)
P (ABC) = P (A)P (B)P (C)
(1.19)
13
概率论与数理统计笔记 第一章 概率论的基本概念 Tsui Dik Sang
14
第二章 随机变量及其分布
2.1 一些经典离散分布
定义 2.1.1 (随机变量). 设随机试验的样本空间为 S,如果对于每一个样本点 ω,都有唯一的实数值 X(ω) 与之对应,称
X = X(e) 为随机变量
2.1.0.1 伯努利分布
定义 2.1.2 (伯努利试验). 如果随机试验只有两个可能的结果,称为伯努利试验,
2.1.1 离散型随机变量
定义 2.1.3 (离散型随机变量). 如果随机变量 X 的所有可能取值是有限个或者可列无限多个,称 X 为离散型随机变量
给一个更加数学的定义
定义 2.1.4 (离散型随机变量另一种定义). 存在一个可列的集合 E = {x
1
, x
2
, ··· , n},使得
n
X
i=1
P {X = x
i
} = 1,则称 X 为
离散型随机变量
2.1.1.1 0-1 分布
定义 2.1.5 (0-1 分布). 若随机变量只能取 0 和 1 两个值,且 P {X = 1} = p,P {X = 0} = 1 −p,则称 X 服从 0-1 分布,
定义 2.1.6 (二项分布). 若随机变量 X 表示 n 重伯努利试验中事件 A 发生的次数,且事件 A 在每次试验中发生的概率为 p,
则称 X 服从二项分布,记为 X ∼ b(n, p)
推论 2.1.1 (二项分布的概率).
P {X = k} =
n
k
!
p
k
(1 − p)
n−k
, k = 0, 1, 2, ··· , n (2.1)
15
概率论与数理统计笔记 第二章 随机变量及其分布 Tsui Dik Sang
推论 2.1.2 (0-1 分布与二项分布的关系). 0-1 分布是二项分布 n=1 的特例,即 X ∼ b(1, p)
全都是高中知识!
2.1.1.2 泊松分布
定义 2.1.7 (泊松分布). 若随机变量 X 表示单位时间 (或单位面积) 内随机事件发生的次数,且事件发生的平均次数为 λ,则
称 X 服从泊松分布,记为 X ∼ P (λ)
上面的定义是决定式,由此可以推出泊松分布的概率
1
定理 2.1.3 (泊松分布的概率).
P {X = k} =
λ
k
k!
e
−λ
, k = 0, 1, 2, ··· (2.2)
泊松定定理可以看做是二项分布的极限形式,即当 n 很大,p 很小时,二项分布可以近似为泊松分布,只需要证明到下面的
等式即可
引理 2.1.4 (泊松定理).
lim
n→∞
b(n, p) = lim
n→∞
n
k
!
p
k
n
(1 − p
n
)
n−k
= P (λ) =
λ
k
e
−λ
k!
(2.3)
有定义,np
n
= λ 应该是一个常数,这意味着 n 很大的时候,p 很小时,
2.2 连续型随机变量
2.2.1 随机变量的分布函数
2.2.1.1 定义
定义 2.2.1 (连续型随机变量). 如果随机变量 X 的所有可能取值是一个区间,且在区间上 F (x) 是连续的,称 X 为连续型随
机变量,
定义 2.2.2 (分布函数). 设随机变量 X 是一个随机变量,x 是任意实数,则称
F (x) = P {X ⩽ x}, x ∈ R (2.4)
为随机变量 X 的分布函数,简称为分布。
2.2.1.2 性质
推论 2.2.1. F (x) 是单调不减函数,即
1
然而书 [?] 中是将下面的式子作为定义的
16
概率论与数理统计笔记 第二章 随机变量及其分布 Tsui Dik Sang
推论 2.2.2.
F (x) ∈ [0, 1] (2.5)
且
lim
x→−∞
F (x) = 0
lim
x→+∞
F (x) = 1
(2.6)
推论 2.2.3. F (x) 是右连续的,即
lim
h→0
+
F (x + h) = F (x) (2.7)
2.2.2 概率密度函数
定义 2.2.3 (概率密度函数). 设随机变量 X 的分布函数为 F(x),则称
f(x) =
dF (x)
dx
(2.8)
为随机变量 X 的概率密度函数,
2.2.2.1 性质
推论 2.2.4.
P {a < X ≤ b} =
ˆ
b
a
f(x)dx = F ( b) − F (a) (2.9)
2.2.3 一些经典连续分布
2.2.3.1 均匀分布
定义 2.2.4 (均匀分布). 设随机变量 X 的分布函数为
f(x) =
1
b−a
, a ⩽ x ⩽ b
0, elsewhere
(2.10)
则称 X 服从均匀分布,记为 X ∼ U (a, b)
2.2.3.2 指数分布
定义 2.2.5 (指数分布). 设随机变量 X 的分布函数为
f(x) =
1
θ
e
−
x
θ
, x ⩾ 0
0, elsewhere
(2.11)
则称 X 服从指数分布,
17
概率论与数理统计笔记 第二章 随机变量及其分布 Tsui Dik Sang
2.2.3.3 正态分布
定义 2.2.6 (正态分布). 设随机变量 X 的分布函数为
f(x) =
1
√
2πσ
2
e
−
(x−µ)
2
2σ
2
, x ∈ R (2.12)
则称 X 服从正态分布,记为 X ∼ N (µ, σ
2
)
正态分布是重点,需要巧妙变换,从而利用标准表来计算相应的区间概率等。
18
第三章 多维随机变量分布
虽然是多维,但是由于三维以上图像不好理解,所以本章节都还是二维为主
3.1 定义与性质
3.1.1 定义
定义 3.1.1 (二维随机变量). 设随机试验的样本空间为 S,设 X = X(e) , Y = Y (e) 是定义在 S 上的两个随机变量,由他们构
成的一个向量 (X, Y ) 称为二维随机变量,记为 Z = (X, Y )。
定义 3.1.2 (二维随机变量的分布). 定义一个二元函数
F (x, y) = P {(X ⩽ x) ∩(Y ⩽ y)} (3.1)
称为二维随机向量 (X, Y ) 的分布函数,
3.1.2 性质
推论 3.1.1 (不减性). F (x, y) 是变量 x 和 y 的非减函数,即
推论 3.1.2 (边界).
F (x, y) ∈ [0, 1] (3.2)
∀y, F (−∞, y) = 0
∀x, F (x, −∞) = 0
(3.3)
F (−∞, −∞ ) = 0
F (∞, ∞) = 1
(3.4)
3.1.3 分类
3.1.3.1 离散型二维随机变量
19
概率论与数理统计笔记 第三章 多维随机变量分布 Tsui Dik Sang
定义 3.1.3 (离散型二维随机变量).
F (x, y) =
X
x
i
⩽x
X
y
j
⩽y
P (X = x
i
, Y = y
j
) (3.5)
3.1.3.2 连续型二维随机变量
定义 3.1.4 (连续型二维随机变量).
F (x, y) =
ˆ
y
−∞
ˆ
x
−∞
f(t, s)dsdt (3.6)
其中 f(t, s) 是二维随机变量 (X, Y ) 的联合概率密度函数,
其他推论都容易推,这里给一条难想的
推论 3.1.3 (联合概率密度函数与分布函数的关系).
f(x, y) =
∂
2
F (x, y)
∂x∂y
(3.7)
3.2 概念拓展
3.2.1 边缘分布
这是一维分布没有的概念
3.2.2 定义
定义 3.2.1 (边缘分布). 设二维随机变量 (X, Y ) 的分布函数为 F (x, y),则
F
X
(x) = P {X ⩽ x} = lim
y →∞
F (x, y) (3.8)
F
Y
(y) = P {Y ⩽ y} = lim
x→∞
F (x, y) (3.9)
分别称为 X 和 Y 的边缘分布函数。
推论 3.2.1 (离散型边缘分布). 如果 (X, Y ) 是离散型二维随机变量,则
F
X
(x) =
X
y
j
⩽y
P (X = x
i
, Y = y
j
) (3.10)
F
Y
(y) =
X
x
i
⩽x
P (X = x
i
, Y = y
j
) (3.11)
推论 3.2.2 (连续型边缘分布). 如果 (X, Y ) 是连续型二维随机变量,则
F
X
(x) =
ˆ
x
−∞
f(t, s)ds (3.12)
20
概率论与数理统计笔记 第三章 多维随机变量分布 Tsui Dik Sang
F
Y
(y) =
ˆ
y
−∞
f(t, s)dt (3.13)
其中 f(t, s) 是二维随机变量 (X, Y ) 的联合概率密度函数。
3.2.3 条件分布
这是一维分布有的概念,这里要对多维随机变量进行拓展。
3.2.3.1 离散
定理 3.2.3 (离散型二维随机变量的条件分布).
P {X = x
i
|Y = y
j
} =
P (X = x
i
, Y = y
j
)
P (Y = y
j
)
(3.14)
被称为 Y = y
j
条件下的随机变量 X 的条件分布律
3.2.3.2 连续型
定理 3.2.4 (连续型二维随机变量的条件分布).
f
X|Y
(x|y) =
f(x, y)
f
Y
(y)
(3.15)
称为在 Y = y 条件下的随机变量 X 的条件概率密度函数,
推论 3.2.5 (二维连续条件分布函数).
F
X|Y
(x|y) =
ˆ
x
−∞
f
X|Y
(t|y)dt (3.16)
3.2.4 独立性
3.2.4.1 二维
从两个事件的独立性可以推广到两个随机变量的独立性,
定义 3.2.2 (连续型二维随机变量的独立性). 设 F (X, Y ) 是二维随机变量 (X, Y ) 的分布函数,F
X
(x) 和 F
Y
(y) 分别是 X 和
Y 的边缘分布函数,如果对于任意的 x, y 都有
F (x, y) = F
X
(x)F
Y
(y) (3.17)
则称 X 和 Y 是独立的,
推论 3.2.6 (从概率密度函数看独立性).
f(x, y) = f
X
(x)f
Y
(y) (3.18)
3.2.4.2 多维
∗
21
概率论与数理统计笔记 第三章 多维随机变量分布 Tsui Dik Sang
定义 3.2.3 (多维随机变量的独立性). 设 Z = (X
1
, X
2
, ··· , X
n
) 是一个 n 维随机变量,F (Z) 是它的分布函数,如果对于任
意的 x
1
, x
2
, ··· , x
n
都有
F (x
1
, x
2
, ··· , x
n
) = F
X
1
(x
1
)F
X
2
(x
2
) ···F
X
n
(x
n
) (3.19)
则称 Z 的各分量是独立的,
这里响应的边缘函数的定义是由二维拓展出去的。
3.2.5 两个随机变量函数的分布
也就是对两个随机变量进行函数变换,得到新的随机变量的分布。这里只给出几个常见的
3.2.5.1 Z=X+Y
定理 3.2.7 (Z=X+Y 的分布). 设 (X, Y ) 是二维随机变量,Z = X + Y ,则 Z = X + Y 仍为连续型随机变量,概率密度为
f
Z
(z) =
ˆ
+∞
−∞
f(z − y, y)dy =
ˆ
+∞
−∞
f(x, z − x ) dx (3.20)
这是很好证明的,实际上其分布函数要积的是一个某一个部分的无穷大三角形 (自己看书 p78)
推论 3.2.8 (独立变量的和分布). 在 theorem 3.2.7的条件下,如果 X 和 Y 是独立的,则
f
Z
(z) =
ˆ
+∞
−∞
f
X
(x)f
Y
(z − x)dx =
ˆ
+∞
−∞
f
Y
(y)f
X
(z − y)dy = f
X
∗ f
Y
(z) (3.21)
推论 3.2.9 (正态分布的和分布). 有限个相互独立的正态随机变量的线性组合仍然是正态分布。
利用 theorem 3.2.8可以证明这个结论
1
3.2.5.2 Z =
Y
X
与 Z = XY
从斜率来理解被积部分,即绘直线 y = zx, 然后很容易的就能确定出被积区域 (书 p82)
定理 3.2.10 (Z =
Y
X
的分布).
f
Y
X
=
ˆ
+∞
−∞
|x|f(x, xz)dx (3.22)
定理 3.2.11 (Z = XY 的分布).
f
XY
(z) =
ˆ
+∞
−∞
1
|x|
f
x,
z
x
dx (3.23)
同样的,在 X 和 Y 独立的时候有推论
1
提示,需要查表
ˆ
+∞
−∞
e
−t
2
dt =
√
π
22
概率论与数理统计笔记 第三章 多维随机变量分布 Tsui Dik Sang
推论 3.2.12 (X 与 Y 独立时候的乘除复合概率密度).
f
Y
X
=
ˆ
+∞
−∞
|x|f
X
(x)f
Y
(zx)dx (3.24)
f
XY
(z) =
ˆ
+∞
−∞
1
|x|
f
X
(x)f
Y
z
x
dx (3.25)
3.2.5.3 M=max{X,Y} 和 N=min{X,Y}
注意,下面求的都是在 X、Y 独立的情况下,非独立的没找到。这个从图像上很不直观,可是如果从事件及独立性来看的话
就很好理解了, 直接当成抽球抽出 n 个球号码最大的或者号码最小的情况来搞
定理 3.2.13 (M=max{X,Y} 的分布). 若 X 和 Y 是独立的随机变量,则
F
M
(m) = P {M ⩽ m} = P {X ⩽ m}P {Y ⩽ m} = F
X
(m)F
Y
(m) (3.26)
定理 3.2.14 (N=min{X,Y} 的分布). 若 X 和 Y 是独立的随机变量,则
F
N
(n) = P {N ⩽ n} = 1 −P {X > n}P {Y > n} = 1 −[1 −F
X
(n)][1 − F
Y
(n)] (3.27)
对于多维的也是易如反掌,
推论 3.2.15 (多维随机变量的最大值和最小值). 设 Z = (X
1
, X
2
, ··· , X
n
) 是一个 n 维随机变量,M = max{X
1
, X
2
, ··· , X
n
},
N = min{X
1
, X
2
, ··· , X
n
},则
F
M
(m) = F
X
1
(m)F
X
2
(m) ···F
X
n
(m) (3.28)
F
N
(n) = 1 −[1 − F
X
1
(n)][1 − F
X
2
(n)] ···[1 − F
X
n
(n)] (3.29)
这……,是系统可靠性
23
概率论与数理统计笔记 第三章 多维随机变量分布 Tsui Dik Sang
24
第四章 随机变量的数字特征
4.1 基础的特征
说人话就是高中学过的,可以乱杀的。
4.1.1 数学期望
定义 4.1.1 (数学期望). 对于离散型随机变量 X,其数学期望定义为
E(X) =
X
x
i
x
i
P (X = x
i
) (4.1)
对于连续型随机变量 X,其数学期望定义为
E(X) =
ˆ
+∞
−∞
xf(x)dx (4.2)
推论 4.1.1 (线性性). 对于任意两个随机变量 X,Y
E(αX + βY ) = αE(X) + βE(Y ) (4.3)
推论 4.1.2 (乘积方差 (仅针对独立)). 若 X 和 Y 两个变量相互独立,则
E(XY ) = E(X)E(Y ) (4.4)
然后插播一道关于对称性的题目
设 X,Y 都是标准的正态分布,即 X, Y ∼ N(0, 1), 且相互独立,求 E
X
2
X
2
+Y
2
解:直接算显然会爆炸,注意到
1 =
X
2
X
2
+ Y
2
+
Y
2
X
2
+ Y
2
(4.5)
且对称性知道
E
X
2
X
2
+ Y
2
= E
Y
2
X
2
+ Y
2
(4.6)
∴ E(1) = E
X
2
X
2
+ Y
2
+ E
Y
2
X
2
+ Y
2
= 1 (4.7)
⇒ E
X
2
X
2
+ Y
2
= E
Y
2
X
2
+ Y
2
=
1
2
(4.8)
25
概率论与数理统计笔记 第四章 随机变量的数字特征 Tsui Dik Sang
4.1.2 方差
4.1.2.1 定义以及一些基本性质
定义 4.1.2 (方差). 随机变量 X 的方差是指随机变量 X 与其数学期望之差的平方的数学期望,记为 D(X),即
D(X) = E[(X − E(X))
2
] (4.9)
推论 4.1.3 (方差另外的表示). 方差也可以写成下面的形式
D(X) = E(X
2
) − [E(X)]
2
(4.10)
解方程的一般性题目记住下面的结论足矣
推论 4.1.4 (线性操作的性质).
D(C) = 0, C ∈ R
D(CX) = C
2
D(X), C ∈ R
D(X + C) = D(X), C ∈ R
(4.11)
推论 4.1.5 (和的性质).
D(X + Y ) = D(X) + D(Y ) + 2E[X − E(X)][Y − E(Y )] (4.12)
特别的,当 X 和 Y 相互独立时,4.1.5可以简化为
D(X + Y ) = D(X) + D(Y ) (4.13)
注意,相加是把系数相加,但是点乘需要平方,这是有不同的
上面的结论在协方差部分还会提到
推论 4.1.6 (方差为 0 的条件).
D(X) = 0 ⇔ P {X = E(X)} = 1 (4.14)
4.1.3 几种常用分布的数学期望和方差
4.1.3.1 均匀分布 X ∼ U (a, b)
E(X) =
a + b
2
D(X) =
(b − a)
2
12
(4.15)
4.1.3.2 正态分布 X ∼ N (µ, σ
2
)
E(X) = µ
D(X) = σ
2
(4.16)
26
概率论与数理统计笔记 第四章 随机变量的数字特征 Tsui Dik Sang
4.1.3.3 泊松分布 X ∼ π(λ)
P (X = k) =
λ
k
e
−λ
k!
,
E(X) = λ
D(X) = λ
(4.17)
4.1.3.4 二项分布 X ∼ b(n, p)
E(X) = np
D(X) = np(1 − p)
(4.18)
4.1.3.5 指数分布
f(x) =
1
θ
e
−
x
θ
, x > 0
0, x < 0
(4.19)
E(X) = θ
D(X) = θ
2
(4.20)
4.1.4 Chebyshev 不等式
定理 4.1.7 (Chebyshev 不等式). 设随机变量 X 具有 E(X = µ), D(X) = σ
2
,则
∀ε > 0, P {|X − µ| ⩾ ε} ⩽
σ
2
ε
2
(4.21)
4.2 协方差
4.2.1 定义与基本性质
由前面方差性质4.1.5可以知道如果 X 和 Y 是两个随机变量,则后面的一项为零,研究这一项有重要意义,因此拎出来定
义
定义 4.2.1 (协方差). 随机变量 X 和 Y 的协方差,记为 Cov(X, Y ),定义为
Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] (4.22)
协方差也可以写成下面的形式
1
推论 4.2.1 (协方差另外的表示).
Cov(X, Y ) = E(XY ) −E(X)E(Y ) (4.23)
由此可以推出相同变量的协方差以及交换律
1
实际上这个直接由4.9推导4.1.5的时候可以推导出下面的性质,但是如果用书本提供的证明4.1.5的方法,推出的就是上面的结论
27
概率论与数理统计笔记 第四章 随机变量的数字特征 Tsui Dik Sang
推论 4.2.2 (相同变量的协方差).
Cov(X, X) = D(X) (4.24)
推论 4.2.3 (协方差的交换律).
Cov(X, Y ) = Cov(Y, X) (4.25)
同样的也不难推出其一些线性的性质
推论 4.2.4 (协方差的数乘性质).
Cov(aX, bY ) = abCov(X, Y ), a, b ∈ R (4.26)
推论 4.2.5 (协方差的和性质).
Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z) (4.27)
4.2.2 相关系数 ρ
XY
首先,明确这个参数的用途:用来描述两个变量直接的线性关系是否强烈。我们需要使得用 Y ≈ a + bX 拟合的均方差要最
小
e = E{[Y − (a + bX)]
2
} = E(Y
2
) − 2aE(Y ) −2bE(XY ) + a
2
+ 2abE(X) + b
2
E(X
2
) (4.28)
直接通过偏导为零找到极小值点
∂e
∂a
= 2
a
+ 2
bE
(
X
)
−
2
E
(
Y
) = 0
∂e
∂b
= 2bE(X
2
) + 2aE(X) − 2E(XY ) = 0
⇒
b
0
=
Cov(X, Y )
D(X)
a
0
= E(Y ) −b
0
E(X) = E(Y ) −
Cov(X, Y )
D(X)
E(X)
(4.29)
代入4.28中,得到最优线性拟合的均方差为
e
min
= (1 − ρ
2
XY
)D(Y ) (4.30)
定义 4.2.2 (相关系数).
ρ
XY
=
Cov(X, Y )
p
D(X)D(Y )
(4.31)
有关于先关系数的一些结论
推论 4.2.6 (范围).
|ρ
XY
| ⩽ 1 (4.32)
上面的结论由 e 的非负性可以很容易得,从定义入手反而麻烦
推论 4.2.7 (相关性).
|ρ
XY
| = 1 ⇔ Y = a + bX, a, b ∈ R, b ̸= 0 (4.33)
28
概率论与数理统计笔记 第四章 随机变量的数字特征 Tsui Dik Sang
推论 4.2.8 (不相关).
ρ
XY
= 0 ⇔ Cov(X, Y ) = 0 (4.34)
此时称 X 和 Y 不相关,
独立的由于协方差为零,因此一定不相关,但是不相关的两个随机变量不一定独立。
相关性反应的是线性关系,而独立性是更一般的关系,不相关但不独立的例子:
ρ
XY
= 0 但是 P (XY ) ̸= P (X)P (Y )
进一步的我们发现推论4.1.5是一个充分不必要条件,
事实上,e 是关于 ρ
XY
的单调函数
2
。
但是独立性不一定要算 P 的相乘是否相等才能得出,下面有一个结论,可以一眼出,证明从略,但是结果是直观的
推论 4.2.9 (独立性的充分条件). 如果两个随机变量 X 和 Y 可以表示成下面的形式
Y = f(X) (4.37)
或者是一个隐式的函数形式,那么 Y 与 X 一定是不独立的
4.2.3 协方差矩阵
4.2.3.1 矩的定义
虽然要算的是矩阵,但是 X、Y 这些的分布没有变成矩阵!这是一开始就要明确的
定义 4.2.3 (k 阶矩). 若 X 是随机变量,若 E(X
k
) 存在,称其为 X 的 k 阶原点矩,简称 k 阶矩。
定义 4.2.4 (k 阶中心矩). 若 X 是随机变量,若 E{[X − E(X)]
k
} 存在,称其为 X 的 k 阶中心矩,简称 k 阶中心矩。
定义 4.2.5 (k+l 混合矩). 若 X 和 Y 是随机变量,若 E(X
k
Y
l
) 存在,称其为 X 和 Y 的 k+l 阶混合矩,简称 k+l 阶混合矩。
定义 4.2.6 (k+l 阶混合中心矩). 若 X 和 Y 是随机变量,若 E{[X − E(X)]
k
[Y − E(Y )]
l
} 存在,称其为 X 和 Y 的 k+l 阶
混合中心矩,简称 k+l 阶混合中心矩。
定义完这些量之后我们不难发现
2
当不相关的时候,
e
=
E
{
[
Y
−
(
a
+
bX
)]
2
} = D(Y ) (4.35)
然后我发现方差的定义
e = E{Y − E(Y )} = D(Y ) (4.36)
书上没有解释这两个式子的关系,但是我觉得一定有关系
29
概率论与数理统计笔记 第四章 随机变量的数字特征 Tsui Dik Sang
推论 4.2.10 (数字特征与矩的关系). 显然
• 数学期望 E(X) 是 X 的 1 阶矩
• 方差 D(X) 是 X 的 2 阶中心矩
• 协方差 Cov(X, Y ) 是 X 和 Y 的 2 阶混合中心矩
于是通过这些定义,我们就类似于于将前面所讲的数值特征都定义规范成了一种有规律的算符,由此我们就可以很轻松的扩展到
多维。
4.2.3.2 多维随机变量的数字特征
先看看二维, 对于二维随机变量 (X
1
, X
2
) 其有四个二阶中心矩
3
c
11
= E{[X
1
− E(X
1
)]
2
}
c
12
= E{[X
1
− E(X
1
)][X
2
− E(X
2
)]}
c
21
= E{[X
2
− E(X
2
)][X
1
− E(X
1
)]}
c
22
= E{[X
2
− E(X
2
)]
2
}
(4.38)
将他们排成矩阵
定义 4.2.7 (二维协方差矩阵). 将二维变量 (X
1
, X
2
) 的四个二阶中心矩排成矩阵,称为 (X
1
, X
2
) 的协方差矩阵,记为 C
(X
1
,X
2
)
,
即
c
11
c
12
c
21
c
22
!
(4.39)
接着扩展到多维
定义 4.2.8 (k 维协方差矩阵). 设 X = (X
1
, X
2
, ··· , X
k
) 是 k 维随机变量,C
(X
1
,X
2
,··· ,X
k
)
的协方差矩阵为
C
(X
1
,X
2
,··· ,X
k
)
=
c
11
c
12
···
c
1k
c
21
c
22
··· c
2k
.
.
.
.
.
.
.
.
.
.
.
.
c
k1
c
k2
··· c
kk
(4.40)
其中 c
ij
= Cov(X
i
, X
j
) = E{[X
i
− E(X
i
)][X
j
− E(X
j
)]},i, j = 1, 2, ··· , k 假设都存在,称为 X
1
, X
2
, ··· , X
k
的 k 维协方
差矩阵
更后面的内容先从略了。
3
假设都存在的情况下
30
第五章 大数定律、中心极限定律
5.1 大数定律
我觉得纯纯是高中的人话严谨说一遍而已
引理 5.1.1 (弱大数定律/辛钦大数定律). 设 X
1
, X
2
, ··· , X
n
是
• 服从相同的分布
• 相互独立的
• 具有相同的数学期望
E(X
i
) = µ, i = 1, 2, ··· , n (5.1)
则
∀ε > 0, lim
n→∞
P
(
1
n
n
X
i=1
X
i
− µ
> ε
)
= 0 (5.2)
说人话就是
引理 5.1.2 (弱大数定律的另外一种刚表示). 即对于多个变量的平均序列
¯
X =
1
n
n
X
k=1
X
k
依概率分布收敛于 µ
也就是试验数够多,频率就会接近概率 (theorem 1.3.3),
由此有一个关于事件的推论
推论 5.1.3 (伯努利大数定律). 设
• f
A
是 n 次独立重复试验中事件 A 发生的次数
• p 是事件 A 在每一次试验中发生的概率
则有
lim
n→∞
P
f
A
n
− p
> ε
= 0, ∀ε > 0 (5.3)
5.2 中心极限定理
31
概率论与数理统计笔记 第五章 大数定律、中心极限定律 Tsui Dik Sang
定理 5.2.1 (独立分同分布的中心极限定理). 设 X
1
, X
2
, ··· , X
n
是
• 服从相同的分布
• 相互独立的
• 具有相同的数学期望和方差
E(X
i
) = µ, D(X
i
) = σ
2
, i = 1, 2, ··· , n (5.4)
则随机变量之和
n
X
k=1
X
k
的标准化变量
Y
n
=
n
X
k=1
X
k
− E
n
X
k=1
X
k
!
v
u
u
t
D
n
X
k=1
X
k
!
=
n
X
k=1
X
k
−
nµ
√
nσ
(5.5)
的分布函数 F
n
(x) 在 n 趋近于无穷大的时候,收敛于标准正态分布函数 F ( x ) ,即
lim
n→∞
F
n
(x) = lim
n→∞
P {Y
n
⩽ x } =
1
√
2π
ˆ
x
−∞
e
−
t
2
2
dt = Φ(x), −∞ < x < +∞ (5.6)
借助 theorem 5.1.1,可以知道
lim
n→∞
E
n
X
k=1
X
k
!
= nµ
lim
n→∞
D
n
X
k=1
X
k
!
= nσ
2
(5.7)
所以可以理解 Y
n
中的归一化部分,至于为何与正态分布扯上关系,,证明就从略了
推论 5.2.2 (平均值的分布).
¯
X ∼ N(µ,
σ
2
n
) (5.8)
如果每一个变量独立,但数学期望和方差不相同,则有一个弱化了的中心极限定理
推论 5.2.3 (李雅普诺夫定理/弱化了的中心极限定理). 如果随机变量 X
1
, X
2
, ··· , X
n
独立,但是
E(X
i
) = µ
i
, D(X
i
) = σ
2
i
, i = 1, 2, ··· , n (5.9)
若
∃δ > 0, lim
n→∞
1
B
2+δ
n
X
k=1
E{[X
k
− E(X
k
)]
2+δ
} = 0 (5.10)
则对于随机变量之和的分布函数仍然有
lim
n→∞
F
n
(x) = lim
n→∞
P
n
X
k=1
X
k
−
n
X
k=1
µ
k
B
n
⩽ x
=
1
√
2π
ˆ
x
−∞
e
−
t
2
2
dt = Φ(x), −∞ < x < +∞ (5.11)
如果随机变量服从的是二项分布,则有另外的推论
32
概率论与数理统计笔记 第五章 大数定律、中心极限定律 Tsui Dik Sang
推论 5.2.4 (De Moivre-Laplace 定理). 设随机变量 η
n
(n = 1, 2, ···) ∼ b(n, p), 则
lim
n→∞
P {
η
n
−
np
p
np(1 − p)
⩽ x } =
1
√
2π
ˆ
x
−∞
e
−
t
2
2
dt = Φ(x), −∞ < x < +∞ (5.12)
33
概率论与数理统计笔记 第五章 大数定律、中心极限定律 Tsui Dik Sang
34
第六章 样本及其抽样性质
6.1 随机样本
6.1.1 基本定义
定义 6.1.1 (总体). 试验的全部可能的观察值称为总体
定义 6.1.2 (个体). 每一个可能的观察值称为个体
定义 6.1.3 (容量). 总体中个体的个数称为容量
定义 6.1.4 (有限 & 无限总体). —
• 如果总体的容量是有限的,则称为有限总体
• 如果总体的容量是无限的,则称为无限总体
废话讲了对于,直接给一个更清晰的数学定义
定义 6.1.5 (样本). 设 X 是具有分布函数 F 的随机变量,X
1
, X
2
, ··· , X
n
是具有相同分布的随机变量,且相互独立,
• 则称 X
1
, X
2
, ··· , X
n
为从分布函数 F 中得到的容量为 n 的简单随机样本,也称为样本
• x
1
, x
2
, ··· , x
n
是从分布函数 F 中得到的容量为 n 的简单随机样本的观测值,也称为样本值
6.2 可视化
6.2.1 直方图
可以理解为就是小学学过的柱状图的加强版!每一个小区间是
(
f
i
n
)
∆
的高度
6.2.2 箱线图
6.2.2.1 引入定义
35
概率论与数理统计笔记 第六章 样本及其抽样性质 Tsui Dik Sang
区间
高度
区间 1区间 2区间 3区间 4区间 5
图 6.1: 直方图示例
定义 6.2.1 (样本 p 分位数). 设 X
1
, X
2
, ··· , X
n
是容量为 n 的样本,p ∈ (0, 1),则样本 p 分位数 x
p
应满足
• 至少有 np 个样本值小于或等于 x
p
• 至少有 n(1-p) 个样本值大于或等于 x
p
于是我们可以根据 np 是否为整数导出求 p 分位数的公式
推论 6.2.1 (样本 p 分位数的求法).
x
p
=
x
[np]+1
np不是是整数
x
np
+x
np+1
2
np是整数
(6.1)
特别的
推论 6.2.2 (样本中位数).
x
0.5
=
1
2
(x
n
2
+ x
n
2
+1
) n是偶数
x
n+1
2
n是奇数
(6.2)
定义 6.2.2 (第一四分位数 & 第三四分位数). -
• 第一四分位数 Q
1
= x
0.25
• 第三四分位数 Q
3
= x
0.75
6.2.2.2 基础箱线图
说了这么多,可以讲一下箱线图了,简单来说,由 5 个数决定
• Min: 最小值
• Q
1
: 第一四分位数
• M: 中位数
• Q
3
: 第三四分位数
• Max:
最大值
36
概率论与数理统计笔记 第六章 样本及其抽样性质 Tsui Dik Sang
数值
Min
Q1
M
Q3
Max
图 6.2: 基础箱线图
6.2.2.3 修正箱线图
一句话,标出异常值
定义 6.2.3 (四分位数间距). 四分位数间距
IQR = Q
3
− Q
1
(6.3)
于是修正箱线图就是判断数据点是否在 (Q
1
− 1.5IQR, Q
3
+ 1.5IQR) 之间,如果不在,就用 * 标出最大值 (或者最小值)
数值
Q
1
− 1.5IQR
Q1
M
Q3
Q
1
+ 1.5IQR
* *
Min Max
图 6.3: 修正箱线图示例(带异常值)
6.3 抽样分布
6.3.1 统计量
6.3.1.1 定义
定义 6.3.1 (统计量). 设 X
1
, X
2
, ··· , X
n
是来自总体 X 的一个样本,g(X
1
, X
2
, ··· , X
n
) 是样本的一个函数,若 g 中不含其
他未知参数,则称 g 为统计量,
6.3.1.2 常用统计量
定义 6.3.2 (样本均值).
¯
X =
1
n
n
X
i=1
X
i
(6.4)
定义 6.3.3 (样本方差).
S
2
=
1
n − 1
n
X
i=1
(X
i
−
¯
X)
2
=
1
n − 1
n
X
i=1
X
2
i
− n
¯
X
2
!
(6.5)
定义 6.3.4 (样本标准差).
S =
√
S
2
=
v
u
u
t
1
n − 1
n
X
i=1
(X
i
−
¯
X)
2
=
v
u
u
t
1
n − 1
n
X
i=1
X
2
i
− n
¯
X
2
!
(6.6)
37
概率论与数理统计笔记 第六章 样本及其抽样性质 Tsui Dik Sang
这里要注意样本方差和均值前面的系数都是
1
n−1
,而不是
1
n
1
定义 6.3.5 (样本 k 阶 (原点) 矩).
A
k
=
1
n
n
X
i=1
X
k
i
(6.7)
定义 6.3.6 (样本 k 阶中心矩).
B
k
=
1
n
n
X
i=1
(X
i
−
¯
X)
k
(6.8)
如果用观察值去表示的话,直接表示就行,也就是表达式不变。
6.3.1.3 一些定理
由大数定律,当 n 很大的时候,一定是有一些简洁的推论的
推论 6.3.1 (k 阶矩的收敛性). 若总体 X 的 k 阶矩存在,设为
E(X
k
) = µ
k
(6.9)
则
lim
n→∞
E(X
k
i
) = µ
k
, k = 1 , 2, ··· , n (6.10)
进一步的其他的统计量也有这样的收敛性结论
推论 6.3.2 (统计量的收敛性). 在上面的条件下
lim
n→∞
A
k
= lim
n→∞
1
n
n
X
i=1
X
k
i
= µ
k
, k = 1 , 2, ··· , n (6.11)
对于一般的统计量
lim
n→∞
g(X
1
, X
2
, ··· , X
n
) = g(µ
1
, µ
2
, ··· , µ
n
) (6.12)
定义 6.3.7 (经验分布函数). 设 x
1
, x
2
, ··· , x
n
是样本的观测值,F
n
(x) 称为经验分布函数,定义为
F
n
(x) =
♯(x
i
≤ x )
n
(6.13)
其中 ♯(x
i
≤ x ) 表示 x
1
, x
2
, ··· , x
n
中小于或等于 x 的个数
如果样本都满足某种分布的话,经验分布函数与总体分布函数是有关系的,或者说,关系是相等,所以有下面的定理
定理 6.3.3 (Glivenko 定理).
P { lim
n→∞
sup
x∈R
|F
n
(x) − F (x)| = 0} = 1 (6.14)
1
之后会讲,一句话就是这是因为样本方差和均值是无偏估计量,n − 1 是自由度的概念。
38
概率论与数理统计笔记 第六章 样本及其抽样性质 Tsui Dik Sang
sup 是上确界。
6.3.2 几个经典的统计量分布
6.3.2.1 χ
2
分布
定义 6.3.8 (χ
2
分布). 设 X
1
, X
2
, ··· , X
n
是 n 个独立的标准正态分布随机变量,则
Y =
n
X
i=1
X
2
i
(6.15)
则称 Y 服从自由度为 n 的 χ
2
分布,记为 Y ∼ χ
2
(n)
定理 6.3.4 (χ
2
分布的概率密度函数).
f
Y
(y) =
1
2
n
2
Γ
n
2
y
n
2
−1
e
−
y
2
, y > 0
0, y ⩽ 0
(6.16)
即
χ
2
(n) ∼ Γ
n
2
,
1
2
(6.17)
这个式子的证明需要看 p52 和 p80 的两道例题,
推论 6.3.5 (χ
2
的可加性). 如果 Y
1
∼ χ
2
(n
1
), Y
2
∼ χ
2
(n
2
),且 Y
1
, Y
2
相互独立,则
Y
1
+ Y
2
∼ χ
2
(n
1
+ n
2
) (6.18)
推论 6.3.6 (χ
2
分布的期望和方差).
E(Y ) = n, D(Y ) = 2n (6.19)
推论 6.3.7 (χ
2
的上分位数). 只是想要告诉读者,这是可查的,且
lim
n→∞
χ
2
(n) =
1
2
(z
α
+
√
2n − 1)
2
(6.20)
其中 z
α
是标准正态分布的上 α 分位数
6.3.2.2 t 分布
定义 6.3.9 (t 分布). 设 X ∼ N (0, 1),Y ∼ χ
2
(n),且 X, Y 相互独立,则
t =
X
q
Y
n
(6.21)
则称 t 服从自由度为 n 的 t 分布,记为 t ∼ t(n),又称学生氏分布
39
概率论与数理统计笔记 第六章 样本及其抽样性质 Tsui Dik Sang
定理 6.3.8 (t 分布的概率密度函数).
h(t) =
Γ
n+1
2
√
nπΓ
n
2
1 +
t
2
n
−
n+1
2
, −∞ < t < +∞ (6.22)
推论 6.3.9 (n 充分大时的近似).
lim
n→∞
h(t) =
1
√
2π
e
−
t
2
2
, −∞ < t < +∞ (6.23)
即此时 t ∼ N (0, 1)
6.3.2.3 F 分布
定义 6.3.10 (F 分布). 设 Y
1
∼ χ
2
(n
1
), Y
2
∼ χ
2
(n
2
),且 Y
1
, Y
2
相互独立,则
F =
Y
1
/n
1
Y
2
/n
2
(6.24)
则称 F 服从自由度为 (n
1
, n
2
) 的 F 分布,记为 F ∼ F (n
1
, n
2
)
定理 6.3.10 (F 分布的概率密度函数).
f
F
(f) =
Γ
n
1
+n
2
2
Γ
n
1
2
Γ
n
2
2
n
1
n
2
n
1
2
f
n
1
2
−1
1 +
n
1
n
2
f
n
1
+n
2
2
, f > 0 (6.25)
推论 6.3.11 (交换律). 若 F ∼ F (n
1
, n
2
),则
1
F
∼ F (n
2
, n
1
) (6.26)
同样的,其上分位数也可以查表
6.4 正态总体的样本均值与样本方差的分布
定理 6.4.1 (正态总体的样本均值分布). 设总体 X 的均值位 µ,方差为 σ
2
,且 X
1
, X
2
, ··· , X
n
是从 X 中抽取的容量为 n 的
样本,则样本均值
¯
X 满足
E(
¯
X) = µ, D(
¯
X) =
σ
2
n
(6.27)
定理 6.4.2 (正态总体的样本方差分布). 在上面情况下,S
2
是样本方差,则
E(S
2
) = σ
2
(6.28)
下面来证明上面的式子,先根据方差以及期望的一些性质提及一些引理
40
概率论与数理统计笔记 第六章 样本及其抽样性质 Tsui Dik Sang
引理 6.4.3 (样本均值的期望和方差).
E(
¯
X) = µ, D(
¯
X) =
σ
2
n
(6.29)
E(S
2
) = E
"
1
n − 1
n
X
i=1
(X
i
−
¯
X)
2
#
=
1
n − 1
"
n
X
i=1
E(X
2
i
) − nE(
¯
X)
2
#
=
1
n − 1
"
n
X
i=1
(σ
2
+ µ
2
) − n
σ
2
n
+ µ
2
#
=
1
n − 1
n(σ
2
+ µ
2
) − n
σ
2
+ µ
2
=
(n − 1)σ
2
n − 1
= σ
2
(6.30)
根据最终的结果是 σ
2
,在之后章节中会说 S
2
是对 σ
2
的无偏估计量,所以
1
n−1
是样本方差的系数,而不是
1
n
是根据这个式子
得出的,并不稀奇。
6.4.1 一些额外的定理
定理 6.4.4. 设 X
1
, X
2
, ··· , X
n
是从正态总体 N(µ, σ
2
) 中抽取的容量为 n 的样本,
¯
X 是样本均值,S
2
是样本方差,则
¯
X ∼ N
µ,
σ
2
n
, S
2
∼
σ
2
n
−
1
χ
2
(n − 1) (6.31)
并且
¯
X 和 S
2
相互独立
证明从略,但是定理一定要记住,对于计算正态分布方差或者构造 χ
2
分布有大用
推论 6.4.5.
¯
X − µ
S/
√
n
∼ t( n −1) (6.32)
定理 6.4.6 (两个独立正态总体的样本均值的分布).
S
2
1
/S
2
2
σ
2
1
/σ
2
2
∼
F
(
n
1
−
1
, n
2
−
1)
(6.33)
41
概率论与数理统计笔记 第六章 样本及其抽样性质 Tsui Dik Sang
42
第七章 参数估计
这一章节有点像是拟合,也就是分布中存在一些未知参数,我们需要根据抽样的结果给出这些未知参数最可能的值。可以理
解为从概率统计的角度进行插值拟合
1
7.1 点估计
在之前一定要搞清楚大写的“量”X 和小写的“值”x 的区别。这里一句话总结一下
• 样本
X
1
, X
2
,
···
, X
n
是一系列从
X
抽出的一系列随机变量,其不是某堆特定的值,而是满足一定分布的随机变量!
• 样本值 x
1
, x
2
, ··· , x
n
是从样本中抽出的特定的数值,其是某堆特定的值,每一次测的值都可能是不同的。
7.1.1 矩估计量法
首先,对于 X,其 k 阶矩如下
µ
l
=
ˆ
+∞
−∞
x
l
f
X
(x; θ
1
, θ
2
, ··· , θ
k
)dx, l = 0, 1, 2, ··· (7.1)
然后由于样本矩
A
l
=
1
n
n
X
i=1
x
l
i
, l = 0, 1, 2, ··· (7.2)
依 theorem 6.3.1收敛于总体矩 µ
l
,因此我们可以通过样本矩来估计总体矩也就列出了 k 个方程
ˆ
+∞
−∞
x
l
f
X
(x; θ
1
, θ
2
, ··· , θ
k
)dx =
n
X
i=1
x
l
i
, l = 0, 1, 2, ··· , k − 1 (7.3)
于是就可以用 X
1
, X
2
, ··· , X
n
表示出 θ
1
, θ
2
, ··· , θ
k
的值.
定理 7.1.1 (矩估计量). 这种估计方法称为矩估计量法,
如果用样本值 x
1
, x
2
, ··· , x
n
替换 X
1
, X
2
, ··· , X
n
,则
推论 7.1.2 (矩估计值). 矩估计量的观察值称为矩估计值
7.1.2 最大似然估计量法
这个方法也是建立在开头说的“最有可能”的基础上,并且如果说矩估计法是从样本出发,那么最大似然估计法是从样本值
出发的。
1
不严谨的说法,但是能明白之后要干的事情的目的
43
概率论与数理统计笔记 第七章 参数估计 Tsui Dik Sang
7.1.2.1 单参数情况
很简单,我们认为我们现在看到的 x
1
, x
2
, ··· , x
n
是概率最大的事件,先将其概率表示出来
定义 7.1.1 (似然函数).
L(θ) =
n
Y
i=1
p(x
i
; θ), θ ∈ Θ (7.4)
参数估计值
ˆ
θ 就是使得 L(θ) 最大的 θ,即
L(
ˆ
θ) = max
θ∈Θ
L(θ) (7.5)
所以,求导!为零,即可知道这个值,当然,由于
Q
,所以如果能给对数,会更好算,所以一般用如下方法来求
ˆ
θ
定义 7.1.2 (对数似然方程).
d
dθ
ln L(θ) =
1
L(θ)
dL(θ)
dθ
=
n
X
i=1
d
dθ
ln p(x
i
; θ) = 0 (7.6)
7.1.2.2 多参数情况
这就见仁见智了,提供两种方法
• 试试偏导
∂
∂θ
i
ln L(θ) =
n
X
i=1
∂
∂θ
i
ln p(x
i
; θ) = 0, i = 1, 2, ··· , k (7.7)
• 使用拉格朗日乘数法,可见 p178 的 T15,下面来展示一下
设 k 台仪器测量一个物理量,每台仪器的标准差是不同的 σ
i
,误差期望是相同但未知的参数 E(X
i
) = θ,问
a
1
, a
2
, ··· , a
n
满足什么条件时,估计量
ˆ
θ =
k
X
i=0
a
i
X
i
是无偏的?进一步,取何值时才能使得 D(θ) 最小
解:
1. 首先是无偏的,很容易知道
θ = E(
ˆ
θ) = ··· = (a
1
+ ··· + a
n
)θ (7.8)
可得无偏的条件就是
a
1
+ a
2
+ ··· + a
n
= 1 (7.9)
2. 进一步的,开始求方差,即要使得下面的式子最小
D(
ˆ
θ) = D
k
X
i=0
a
i
X
i
!
= ··· =
k
X
i=1
a
i
σ
2
i
(7.10)
正常的方法不太好做了,那么就用这道题重温一下拉格朗日法
g(a
1
, ··· , a
n
, λ) =
k
X
i=1
a
i
σ
2
i
− λ
k
X
i=1
a
i
− 1
!
(7.11)
令
∂g
∂a
i
= 0, i = 1, ··· , k
∂g
∂λ
= 0
(7.12)
44
概率论与数理统计笔记 第七章 参数估计 Tsui Dik Sang
得到 eq. (7.9) 和
a
i
= −
λ
2σ
2
i
(7.13)
又将 eq. (7.13) 代入 eq. (7.9) 解出
λ = −
2
k
X
i=1
1
σ
2
i
(7.14)
然后再代入 eq. (7.13) 解出 a
i
即可
7.2 估计量的评选标准
7.2.1 无偏性
定义 7.2.1 (无偏估计量). 如果估计量
ˆ
θ 的数学期望等于参数 θ,即
E(
ˆ
θ) = θ (7.15)
则称
ˆ
θ 为无偏估计量,简称无偏量。
这是硬性要求,也就是估计量最好都是无偏的,才可进行下一个指标的比较,可以证明前面两种方法求出来的估计量都是无偏的。
eq. (6.30) 中证明的式子也是无偏的
7.2.2 有效性
有点类似于比较两个样本,期望相同比方差
定义 7.2.2 (有效估计量). 如果估计量
ˆ
θ 是无偏的,并且在所有样本容量相同的无偏估计量中方差最小,则称
ˆ
θ 为有效估计
量,简称有效量。
7.2.3 相合性
在样本容量不同的时候,估计量的方差可能会不同,因此需要引入一个不一样的标准。他是充要条件
定义 7.2.3 (相合估计量). 如果估计量
ˆ
θ 的分布随着样本容量 n 的增大而收敛于参数 θ,即
lim
n→∞
P
n
ˆ
θ − θ
> ε
o
= 0, ∀ε > 0 (7.16)
则称
ˆ
θ 为相合估计量,简称相合量。
也就是说一个估计量如果是不相合的,那么 n 取得多大都不可能收敛到 θ,显然这不是我们想要的估计量。
7.3 置信区间
定义 7.3.1 (置信区间). 设
ˆ
θ 是参数 θ 的估计量,I(
ˆ
θ) 是一个关于
ˆ
θ 的区间,则称 I(
ˆ
θ) 为置信区间,如果
P
n
θ ∈ I(
ˆ
θ)
o
= 1 −α, 0 < α < 1 (7.17)
45
概率论与数理统计笔记 第七章 参数估计 Tsui Dik Sang
则称 I(
ˆ
θ) 为置信度为 1 −α 的置信区间。
实际为了得到置信区间需要反复抽值。
46