← 返回模块
2.1.1.5beta 可读 · 未来付费校验通过内容版本 2026-05-26

极限定理:大数定律与中心极限定理

2.1.1 · 概率论基础 · 数学与统计能力

某私募的策略经理把过去 12 个月的日 P&L 平均值定为 0.06%,准备据此外推年度回报。这种"样本均值即真均值"的隐含假设到底有多牢靠?——回答它需要两条极限定理:​​大数定律​​(law of large numbers, LLN)说"nn 足够大时样本均值确实贴近真均值";​​中心极限定理​​(central limit theorem, CLT)说"贴近的速度按 1/n1/\sqrt{n}",并把贴近的形状刻画为正态分布(normal distribution / 高斯分布 / Gaussian distribution)。这一节把前四节的所有工具——公理、独立性、期望、方差、Chebyshev——拉到一起,把这两条​​贯穿所有统计推断​​的定理证给你看。

一、两种收敛:依概率与依分布

X1,X2,X_1, X_2, \ldots 是一列随机变量,XX 是另一个随机变量(可能退化为常数)。两种关键收敛模式:

  • ​依概率收敛​​(convergence in probability): XnPXX_n \xrightarrow{P} X 当且仅当对每一 ε>0\varepsilon > 0,limnP(XnX>ε)=0\lim_{n \to \infty} P(|X_n - X| > \varepsilon) = 0。直觉:对足够大的 nn,XnX_nXX 的距离在概率上"消失"。
  • ​依分布收敛​​(convergence in distribution): XndXX_n \xrightarrow{d} X 当且仅当对 FXF_X 的每个连续点 xx,FXn(x)FX(x)F_{X_n}(x) \to F_X(x)。直觉:​​分布​​的形状逼近,而非随机变量本身的值逼近。

可证依概率收敛蕴含依分布收敛,反之一般不成立——但当极限是常数时两者等价。LLN 谈的是依概率(强大数定律谈的是更强的几乎必然收敛);CLT 谈的是依分布。

为什么 CLT 偏偏用"依分布"这种"较弱"的收敛?因为 CLT 的对象 n(Xˉnμ)/σ\sqrt{n}(\bar X_n - \mu)/\sigma 并不收敛到任何单一随机变量——它本身是一列方差为 1 的随机变量,在样本路径意义上始终在波动;能收敛的只是它的分布。这条区分初学时很容易模糊,记住:LLN 把样本均值钉到一个​​常数​​,CLT 把标准化偏差钉到一个​​分布​​。

二、弱大数定律(WLLN)及其 Chebyshev 证明

​弱大数定律​​:设 X1,X2,X_1, X_2, \ldots 独立同分布,E[X1]=μ<E[X_1] = \mu < \infty。则样本均值依概率收敛到真均值:

Xˉn=(1/n)i=1nXiPμ\bar{X}_n = (1/n)\sum_{i=1}^{n} X_i \xrightarrow{P} \mu

​初等证明​​(假设 σ2=Var(X1)<\sigma^2 = \mathrm{Var}(X_1) < \infty),按 Chebyshev 三步法:

  1. 由线性性:E[Xˉn]=(1/n)i=1nE[Xi]=μE[\bar X_n] = (1/n) \sum_{i=1}^n E[X_i] = \mu
  2. 由独立性下方差求和:Var(Xˉn)=(1/n2)i=1nVar(Xi)=σ2/n\mathrm{Var}(\bar X_n) = (1/n^2) \sum_{i=1}^n \mathrm{Var}(X_i) = \sigma^2 / n
  3. 由 Chebyshev 不等式:对任意 ε>0\varepsilon > 0,

P(Xˉnμ>ε)Var(Xˉn)ε2=σ2nε2n0.P(|\bar X_n - \mu| > \varepsilon) \leq \dfrac{\mathrm{Var}(\bar X_n)}{\varepsilon^2} = \dfrac{\sigma^2}{n \varepsilon^2} \xrightarrow{n \to \infty} 0.

证毕。三步:线性性给均值、独立性给方差、Chebyshev 给尾界。

​强大数定律​​(strong LLN)还能把"依概率收敛"升级为​​几乎必然收敛​​:存在一个测度为 1 的样本路径集合,在该集合上 Xˉn(ω)μ\bar X_n(\omega) \to \mu。证明需要更深的工具(测度论中的 Borel-Cantelli 引理或鞅论),本节按 Casella & Berger 与 Billingsley 的常规处理略去——只记住:WLLN 不能排除"在有限多个 nnXˉn\bar X_n 偶尔远离 μ\mu",SLLN 可以。

三、中心极限定理(CLT)

​中心极限定理​​:设 X1,X2,X_1, X_2, \ldots 独立同分布,E[X1]=μE[X_1] = \mu,Var(X1)=σ2(0,)\mathrm{Var}(X_1) = \sigma^2 \in (0, \infty)。则

n(Xˉnμ)σdN(0,1)\dfrac{\sqrt{n}\,(\bar{X}_n - \mu)}{\sigma} \xrightarrow{d} \mathcal{N}(0, 1)

​MGF 证明思路​​(假设 MGF 在 00 邻域存在):令 Yi=(Xiμ)/σY_i = (X_i - \mu) / \sigma,E[Yi]=0E[Y_i] = 0,Var(Yi)=1\mathrm{Var}(Y_i) = 1。标准化和 Zn=(1/n)iYiZ_n = (1/\sqrt{n}) \sum_i Y_i 的 MGF 为

MZn(t)=[MY ⁣(t/n)]n.M_{Z_n}(t) = \left[M_Y\!\left(t/\sqrt{n}\right)\right]^n.

MYM_Y 在 0 处 Taylor 展开:MY(s)=1+0s+(1/2)s2+o(s2)M_Y(s) = 1 + 0 \cdot s + (1/2) s^2 + o(s^2)。代 s=t/ns = t/\sqrt{n} 后取对数,logMZn(t)=nlog(1+t2/(2n)+o(1/n))=t2/2+o(1)\log M_{Z_n}(t) = n \log\left(1 + t^2 / (2n) + o(1/n)\right) = t^2/2 + o(1),故 MZn(t)et2/2M_{Z_n}(t) \to e^{t^2/2},这正是 N(0,1)\mathcal{N}(0, 1) 的 MGF——由 MGF 唯一确定分布,ZndN(0,1)Z_n \xrightarrow{d} \mathcal{N}(0, 1),即 CLT 结论。

CLT 比 LLN 严格强:LLN 仅说 Xˉnμ\bar X_n \to \mu;CLT 还告诉你"逼近的速率是 1/n1/\sqrt{n}"且"逼近的涨落服从正态"——后者是构造置信区间与假设检验的所有依据。CLT 的另一处令人惊讶之处在于它的​​普适性​​:不论起点分布是不是对称、是不是连续、是 Bernoulli 还是 Exponential 还是某个奇形怪状的密度,只要均值与方差有限,标准化样本均值的极限就同一形:标准正态。一切原始分布的细节在足够大的 nn 之后都被抹平。

四、数值实例:二项分布的正态近似

P(Binomial(100,0.5)60)P(\mathrm{Binomial}(100, 0.5) \geq 60) 的 CLT 近似。​​Binomial(n,p)(n, p) 的均值 μ=np=50\mu = np = 50、方差 σ2=np(1p)=25\sigma^2 = np(1-p) = 25σ=5\sigma = 5​​​。标准化:

Z=605025=2.Z = \dfrac{60 - 50}{\sqrt{25}} = 2.

不带连续性修正:P(X60)1Φ(2)0.0228P(X \geq 60) \approx 1 - \Phi(2) \approx 0.0228

带连续性修正(把"离散 X60X \geq 60"换为"连续 X59.5X \geq 59.5"):Z=(59.550)/5=1.9Z = (59.5 - 50)/5 = 1.9,P(X60)1Φ(1.9)0.0287P(X \geq 60) \approx 1 - \Phi(1.9) \approx 0.0287

二项分布精确数值(用 scipy.stats.binom.sf(59, 100, 0.5) 或手算):约 0.028440.02844。两个近似都接近真值,带连续性修正的近似更准——这正是 棣莫弗-拉普拉斯定理(de Moivre-Laplace,CLT 应用于二项分布的特例)在实践中给出的标准操作。

五、收敛速率:Berry-Esseen

CLT 只说"收敛",贝里-埃森不等式(Berry-Esseen)进一步给出​​速率​​:在第三阶矩 ρ=E[X1μ3]<\rho = E[|X_1 - \mu|^3] < \infty 下,标准化和的 CDF 与 Φ\Phisup\sup 范数下的距离为

supxFZn(x)Φ(x)Cρσ3n\sup_x \left|F_{Z_n}(x) - \Phi(x)\right| \leq \dfrac{C \rho}{\sigma^3 \sqrt{n}}

CC 是一个绝对常数(若干文献给出不同上界)。本节按同济"提及但不证明"的惯例,只记:​​误差按 1/n1/\sqrt{n} 衰减​​——要让 CLT-based 区间真正可靠,nn 通常需要几十到上百;只有 n=10n = 10 就用 CLT 算尾概率是不诚实的。

六、滑块:CLT 极限——标准正态密度

下面的滑块显示标准正态密度 ϕ(x)=ex2/2/2π\phi(x) = e^{-x^2/2} / \sqrt{2\pi},即 CLT 给出的极限形状:

Formula Explorer

exp(-x^2 / 2) / sqrt(2*pi)

七、练习

Exercise

X1,,XnX_1, \ldots, X_n 独立同分布 Uniform(0,1)(0, 1),n=48n = 48。用 CLT 近似 P(Xˉn0.55)P(\bar X_n \geq 0.55)。请写出 μ\muσ2\sigma^2、标准化统计量、最终数值。

提示
μ=E[X1]=1/2=0.5\mu = E[X_1] = 1/2 = 0.5,σ2=Var(X1)=1/12\sigma^2 = \mathrm{Var}(X_1) = 1/12,σ=1/120.2887\sigma = 1/\sqrt{12} \approx 0.2887Xˉn\bar X_n 的标准差 σ/n=1/1248=1/24\sigma/\sqrt{n} = 1/\sqrt{12 \cdot 48} = 1/24
提示
Z=(0.550.5)/(1/24)=0.0524=1.2Z = (0.55 - 0.5)/(1/24) = 0.05 \cdot 24 = 1.2;P(Xˉn0.55)1Φ(1.2)0.1151P(\bar X_n \geq 0.55) \approx 1 - \Phi(1.2) \approx 0.1151,即约 11.5%。

八、回头与前望

到这里你已经走完了概率论基础模块:从样本空间与公理出发,经过条件概率、随机变量、期望与方差,到 LLN 与 CLT 把样本均值与真均值之间的桥彻底搭起。下游模块 2.2.1(估计与检验)整套建立在 CLT 上——最大似然估计的渐近正态、置信区间的 1.96σ1.96 \sigmatt 检验的零分布,都是 CLT 的直接产物。下一模块 2.1.2 把视角从单变量推到多变量,引入联合分布、条件期望与协方差。等你后续在沪深300 日收益的滚动均值分析或信用违约率的年度估计里看到"±1.96σ/n\pm 1.96 \sigma / \sqrt{n}"这种表达时,就该记住:那条简单的公式背后,是这一节亲自推出来的两条极限定理。