极限定理:大数定律与中心极限定理 — 概率论基础

某私募的策略经理把过去 12 个月的日 P&L 平均值定为 0.06%,准备据此外推年度回报。这种"样本均值即真均值"的隐含假设到底有多牢靠?——回答它需要两条极限定理:大数定律(law of large numbers, LLN)说" $n$ 足够大时样本均值确实贴近真均值";中心极限定理(central limit theorem, CLT)说"贴近的速度按 $1/\sqrt{n}$ ",并把贴近的形状刻画为正态分布(normal distribution / 高斯分布 / Gaussian distribution)。这一节把前四节的所有工具——公理、独立性、期望、方差、Chebyshev——拉到一起,把这两条贯穿所有统计推断的定理证给你看。

一、两种收敛:依概率与依分布

设 $X_1, X_2, \ldots$ 是一列随机变量, $X$ 是另一个随机变量(可能退化为常数)。两种关键收敛模式:

依概率收敛(convergence in probability): $X_n \xrightarrow{P} X$ 当且仅当对每一 $\varepsilon > 0$ , $\lim_{n \to \infty} P(|X_n - X| > \varepsilon) = 0$ 。直觉:对足够大的 $n$ , $X_n$ 与 $X$ 的距离在概率上"消失"。
依分布收敛(convergence in distribution): $X_n \xrightarrow{d} X$ 当且仅当对 $F_X$ 的每个连续点 $x$ , $F_{X_n}(x) \to F_X(x)$ 。直觉:分布的形状逼近,而非随机变量本身的值逼近。

可证依概率收敛蕴含依分布收敛,反之一般不成立——但当极限是常数时两者等价。LLN 谈的是依概率(强大数定律谈的是更强的几乎必然收敛);CLT 谈的是依分布。

为什么 CLT 偏偏用"依分布"这种"较弱"的收敛?因为 CLT 的对象 $\sqrt{n}(\bar X_n - \mu)/\sigma$ 并不收敛到任何单一随机变量——它本身是一列方差为 1 的随机变量,在样本路径意义上始终在波动;能收敛的只是它的分布。这条区分初学时很容易模糊,记住:LLN 把样本均值钉到一个常数,CLT 把标准化偏差钉到一个分布。

二、弱大数定律(WLLN)及其 Chebyshev 证明

弱大数定律:设 $X_1, X_2, \ldots$ 独立同分布, $E[X_1] = \mu < \infty$ 。则样本均值依概率收敛到真均值:

\bar{X}_n = (1/n)\sum_{i=1}^{n} X_i \xrightarrow{P} \mu

初等证明(假设 $\sigma^2 = \mathrm{Var}(X_1) < \infty$ ),按 Chebyshev 三步法:

由线性性: $E[\bar X_n] = (1/n) \sum_{i=1}^n E[X_i] = \mu$ 。
由独立性下方差求和: $\mathrm{Var}(\bar X_n) = (1/n^2) \sum_{i=1}^n \mathrm{Var}(X_i) = \sigma^2 / n$ 。
由 Chebyshev 不等式:对任意 $\varepsilon > 0$ ,

$P(|\bar X_n - \mu| > \varepsilon) \leq \dfrac{\mathrm{Var}(\bar X_n)}{\varepsilon^2} = \dfrac{\sigma^2}{n \varepsilon^2} \xrightarrow{n \to \infty} 0.$

证毕。三步:线性性给均值、独立性给方差、Chebyshev 给尾界。

强大数定律(strong LLN)还能把"依概率收敛"升级为几乎必然收敛:存在一个测度为 1 的样本路径集合,在该集合上 $\bar X_n(\omega) \to \mu$ 。证明需要更深的工具(测度论中的 Borel-Cantelli 引理或鞅论),本节按 Casella & Berger 与 Billingsley 的常规处理略去——只记住:WLLN 不能排除"在有限多个 $n$ 上 $\bar X_n$ 偶尔远离 $\mu$ ",SLLN 可以。

三、中心极限定理(CLT)

中心极限定理:设 $X_1, X_2, \ldots$ 独立同分布, $E[X_1] = \mu$ , $\mathrm{Var}(X_1) = \sigma^2 \in (0, \infty)$ 。则

\dfrac{\sqrt{n}\,(\bar{X}_n - \mu)}{\sigma} \xrightarrow{d} \mathcal{N}(0, 1)

MGF 证明思路(假设 MGF 在 $0$ 邻域存在):令 $Y_i = (X_i - \mu) / \sigma$ , $E[Y_i] = 0$ , $\mathrm{Var}(Y_i) = 1$ 。标准化和 $Z_n = (1/\sqrt{n}) \sum_i Y_i$ 的 MGF 为

$M_{Z_n}(t) = \left[M_Y\!\left(t/\sqrt{n}\right)\right]^n.$

把 $M_Y$ 在 0 处 Taylor 展开: $M_Y(s) = 1 + 0 \cdot s + (1/2) s^2 + o(s^2)$ 。代 $s = t/\sqrt{n}$ 后取对数, $\log M_{Z_n}(t) = n \log\left(1 + t^2 / (2n) + o(1/n)\right) = t^2/2 + o(1)$ ,故 $M_{Z_n}(t) \to e^{t^2/2}$ ,这正是 $\mathcal{N}(0, 1)$ 的 MGF——由 MGF 唯一确定分布, $Z_n \xrightarrow{d} \mathcal{N}(0, 1)$ ,即 CLT 结论。

CLT 比 LLN 严格强:LLN 仅说 $\bar X_n \to \mu$ ;CLT 还告诉你"逼近的速率是 $1/\sqrt{n}$ "且"逼近的涨落服从正态"——后者是构造置信区间与假设检验的所有依据。CLT 的另一处令人惊讶之处在于它的普适性:不论起点分布是不是对称、是不是连续、是 Bernoulli 还是 Exponential 还是某个奇形怪状的密度,只要均值与方差有限,标准化样本均值的极限就同一形:标准正态。一切原始分布的细节在足够大的 $n$ 之后都被抹平。

四、数值实例:二项分布的正态近似

求 $P(\mathrm{Binomial}(100, 0.5) \geq 60)$ 的 CLT 近似。Binomial $(n, p)$ 的均值 $\mu = np = 50$ 、方差 $\sigma^2 = np(1-p) = 25$ 、 $\sigma = 5$ 。标准化:

$Z = \dfrac{60 - 50}{\sqrt{25}} = 2.$

不带连续性修正: $P(X \geq 60) \approx 1 - \Phi(2) \approx 0.0228$ 。

带连续性修正(把"离散 $X \geq 60$ "换为"连续 $X \geq 59.5$ "): $Z = (59.5 - 50)/5 = 1.9$ , $P(X \geq 60) \approx 1 - \Phi(1.9) \approx 0.0287$ 。

二项分布精确数值(用 scipy.stats.binom.sf(59, 100, 0.5) 或手算):约 $0.02844$ 。两个近似都接近真值,带连续性修正的近似更准——这正是 棣莫弗-拉普拉斯定理(de Moivre-Laplace,CLT 应用于二项分布的特例)在实践中给出的标准操作。

五、收敛速率:Berry-Esseen

CLT 只说"收敛",贝里-埃森不等式(Berry-Esseen)进一步给出速率:在第三阶矩 $\rho = E[|X_1 - \mu|^3] < \infty$ 下,标准化和的 CDF 与 $\Phi$ 在 $\sup$ 范数下的距离为

$\sup_x \left|F_{Z_n}(x) - \Phi(x)\right| \leq \dfrac{C \rho}{\sigma^3 \sqrt{n}}$

$C$ 是一个绝对常数(若干文献给出不同上界)。本节按同济"提及但不证明"的惯例,只记:误差按 $1/\sqrt{n}$ 衰减——要让 CLT-based 区间真正可靠, $n$ 通常需要几十到上百;只有 $n = 10$ 就用 CLT 算尾概率是不诚实的。

六、滑块:CLT 极限——标准正态密度

下面的滑块显示标准正态密度 $\phi(x) = e^{-x^2/2} / \sqrt{2\pi}$ ,即 CLT 给出的极限形状:

Formula Explorer

exp(-x^2 / 2) / sqrt(2*pi)

七、练习

Exercise

设 $X_1, \ldots, X_n$ 独立同分布 Uniform $(0, 1)$ , $n = 48$ 。用 CLT 近似 $P(\bar X_n \geq 0.55)$ 。请写出 $\mu$ 、 $\sigma^2$ 、标准化统计量、最终数值。

提示

\mu = E[X_1] = 1/2 = 0.5

\sigma^2 = \mathrm{Var}(X_1) = 1/12

\sigma = 1/\sqrt{12} \approx 0.2887

。

\bar X_n

的标准差

\sigma/\sqrt{n} = 1/\sqrt{12 \cdot 48} = 1/24

。

提示

Z = (0.55 - 0.5)/(1/24) = 0.05 \cdot 24 = 1.2

;

P(\bar X_n \geq 0.55) \approx 1 - \Phi(1.2) \approx 0.1151

,即约 11.5%。

八、回头与前望

到这里你已经走完了概率论基础模块:从样本空间与公理出发,经过条件概率、随机变量、期望与方差,到 LLN 与 CLT 把样本均值与真均值之间的桥彻底搭起。下游模块 2.2.1(估计与检验)整套建立在 CLT 上——最大似然估计的渐近正态、置信区间的 $1.96 \sigma$ 、 $t$ 检验的零分布,都是 CLT 的直接产物。下一模块 2.1.2 把视角从单变量推到多变量,引入联合分布、条件期望与协方差。等你后续在沪深300 日收益的滚动均值分析或信用违约率的年度估计里看到" $\pm 1.96 \sigma / \sqrt{n}$ "这种表达时,就该记住:那条简单的公式背后,是这一节亲自推出来的两条极限定理。