某私募的策略经理把过去 12 个月的日 P&L 平均值定为 0.06%,准备据此外推年度回报。这种"样本均值即真均值"的隐含假设到底有多牢靠?——回答它需要两条极限定理:大数定律(law of large numbers, LLN)说"n 足够大时样本均值确实贴近真均值";中心极限定理(central limit theorem, CLT)说"贴近的速度按 1/n",并把贴近的形状刻画为正态分布(normal distribution / 高斯分布 / Gaussian distribution)。这一节把前四节的所有工具——公理、独立性、期望、方差、Chebyshev——拉到一起,把这两条贯穿所有统计推断的定理证给你看。
一、两种收敛:依概率与依分布
设 X1,X2,… 是一列随机变量,X 是另一个随机变量(可能退化为常数)。两种关键收敛模式:
- 依概率收敛(convergence in probability): XnPX 当且仅当对每一 ε>0,limn→∞P(∣Xn−X∣>ε)=0。直觉:对足够大的 n,Xn 与 X 的距离在概率上"消失"。
- 依分布收敛(convergence in distribution): XndX 当且仅当对 FX 的每个连续点 x,FXn(x)→FX(x)。直觉:分布的形状逼近,而非随机变量本身的值逼近。
可证依概率收敛蕴含依分布收敛,反之一般不成立——但当极限是常数时两者等价。LLN 谈的是依概率(强大数定律谈的是更强的几乎必然收敛);CLT 谈的是依分布。
为什么 CLT 偏偏用"依分布"这种"较弱"的收敛?因为 CLT 的对象 n(Xˉn−μ)/σ 并不收敛到任何单一随机变量——它本身是一列方差为 1 的随机变量,在样本路径意义上始终在波动;能收敛的只是它的分布。这条区分初学时很容易模糊,记住:LLN 把样本均值钉到一个常数,CLT 把标准化偏差钉到一个分布。
二、弱大数定律(WLLN)及其 Chebyshev 证明
弱大数定律:设 X1,X2,… 独立同分布,E[X1]=μ<∞。则样本均值依概率收敛到真均值:
Xˉn=(1/n)i=1∑nXiPμ
初等证明(假设 σ2=Var(X1)<∞),按 Chebyshev 三步法:
- 由线性性:E[Xˉn]=(1/n)∑i=1nE[Xi]=μ。
- 由独立性下方差求和:Var(Xˉn)=(1/n2)∑i=1nVar(Xi)=σ2/n。
- 由 Chebyshev 不等式:对任意 ε>0,
P(∣Xˉn−μ∣>ε)≤ε2Var(Xˉn)=nε2σ2n→∞0.
证毕。三步:线性性给均值、独立性给方差、Chebyshev 给尾界。
强大数定律(strong LLN)还能把"依概率收敛"升级为几乎必然收敛:存在一个测度为 1 的样本路径集合,在该集合上 Xˉn(ω)→μ。证明需要更深的工具(测度论中的 Borel-Cantelli 引理或鞅论),本节按 Casella & Berger 与 Billingsley 的常规处理略去——只记住:WLLN 不能排除"在有限多个 n 上 Xˉn 偶尔远离 μ",SLLN 可以。
三、中心极限定理(CLT)
中心极限定理:设 X1,X2,… 独立同分布,E[X1]=μ,Var(X1)=σ2∈(0,∞)。则
σn(Xˉn−μ)dN(0,1)
MGF 证明思路(假设 MGF 在 0 邻域存在):令 Yi=(Xi−μ)/σ,E[Yi]=0,Var(Yi)=1。标准化和 Zn=(1/n)∑iYi 的 MGF 为
MZn(t)=[MY(t/n)]n.
把 MY 在 0 处 Taylor 展开:MY(s)=1+0⋅s+(1/2)s2+o(s2)。代 s=t/n 后取对数,logMZn(t)=nlog(1+t2/(2n)+o(1/n))=t2/2+o(1),故 MZn(t)→et2/2,这正是 N(0,1) 的 MGF——由 MGF 唯一确定分布,ZndN(0,1),即 CLT 结论。
CLT 比 LLN 严格强:LLN 仅说 Xˉn→μ;CLT 还告诉你"逼近的速率是 1/n"且"逼近的涨落服从正态"——后者是构造置信区间与假设检验的所有依据。CLT 的另一处令人惊讶之处在于它的普适性:不论起点分布是不是对称、是不是连续、是 Bernoulli 还是 Exponential 还是某个奇形怪状的密度,只要均值与方差有限,标准化样本均值的极限就同一形:标准正态。一切原始分布的细节在足够大的 n 之后都被抹平。
四、数值实例:二项分布的正态近似
求 P(Binomial(100,0.5)≥60) 的 CLT 近似。Binomial(n,p) 的均值 μ=np=50、方差 σ2=np(1−p)=25、σ=5。标准化:
Z=2560−50=2.
不带连续性修正:P(X≥60)≈1−Φ(2)≈0.0228。
带连续性修正(把"离散 X≥60"换为"连续 X≥59.5"):Z=(59.5−50)/5=1.9,P(X≥60)≈1−Φ(1.9)≈0.0287。
二项分布精确数值(用 scipy.stats.binom.sf(59, 100, 0.5) 或手算):约 0.02844。两个近似都接近真值,带连续性修正的近似更准——这正是 棣莫弗-拉普拉斯定理(de Moivre-Laplace,CLT 应用于二项分布的特例)在实践中给出的标准操作。
五、收敛速率:Berry-Esseen
CLT 只说"收敛",贝里-埃森不等式(Berry-Esseen)进一步给出速率:在第三阶矩 ρ=E[∣X1−μ∣3]<∞ 下,标准化和的 CDF 与 Φ 在 sup 范数下的距离为
supx∣FZn(x)−Φ(x)∣≤σ3nCρ
C 是一个绝对常数(若干文献给出不同上界)。本节按同济"提及但不证明"的惯例,只记:误差按 1/n 衰减——要让 CLT-based 区间真正可靠,n 通常需要几十到上百;只有 n=10 就用 CLT 算尾概率是不诚实的。
六、滑块:CLT 极限——标准正态密度
下面的滑块显示标准正态密度 ϕ(x)=e−x2/2/2π,即 CLT 给出的极限形状:
Formula Explorer
exp(-x^2 / 2) / sqrt(2*pi)
七、练习
Exercise
设 X1,…,Xn 独立同分布 Uniform(0,1),n=48。用 CLT 近似 P(Xˉn≥0.55)。请写出 μ、σ2、标准化统计量、最终数值。
提示
μ=E[X1]=1/2=0.5,
σ2=Var(X1)=1/12,
σ=1/12≈0.2887。
Xˉn 的标准差
σ/n=1/12⋅48=1/24。
提示
Z=(0.55−0.5)/(1/24)=0.05⋅24=1.2;
P(Xˉn≥0.55)≈1−Φ(1.2)≈0.1151,即约 11.5%。
八、回头与前望
到这里你已经走完了概率论基础模块:从样本空间与公理出发,经过条件概率、随机变量、期望与方差,到 LLN 与 CLT 把样本均值与真均值之间的桥彻底搭起。下游模块 2.2.1(估计与检验)整套建立在 CLT 上——最大似然估计的渐近正态、置信区间的 1.96σ、t 检验的零分布,都是 CLT 的直接产物。下一模块 2.1.2 把视角从单变量推到多变量,引入联合分布、条件期望与协方差。等你后续在沪深300 日收益的滚动均值分析或信用违约率的年度估计里看到"±1.96σ/n"这种表达时,就该记住:那条简单的公式背后,是这一节亲自推出来的两条极限定理。