上海某私募的量化研究员周一上午把过去 200 个交易日的沪深300 日内对数收益堆在屏幕上,准备给一个新的日频股指期货策略估出「年化波动率」。他知道收益的真实分布参数永远看不见,手里有的只是一串样本。问题就此变形:从这 200 个数里挤出哪个数字配叫做「波动率的估计」?另一位同事在 50ETF 期权交易台做做市,他需要从最近一周的成交频次里估出每秒到单率 λ。两人面对的是同一个抽象任务——给定一族被参数 θ 索引的分布 {f(x;θ):θ∈Θ} 以及一组独立同分布(i.i.d.)样本 X1,…,Xn,产出一个点估计(point estimate)θ^ 去逼近未知的 θ。本课把这条「数据 → 估计」的管线先搭起来,后续三节再回头评估、量化它的不确定性、并基于它做检验。
一、模型、样本与统计量
把统计模型(statistical model)写成 P={f(x;θ):θ∈Θ}:一族分布的密度(或概率质量)函数被参数空间 Θ⊂Rd 索引。从中抽出 i.i.d. 样本 X1,…,Xn;任何不依赖 θ 的样本函数 T(X1,…,Xn) 都叫统计量(statistic),例如样本均值 Xˉ=n1∑Xi 与样本方差 S2=n−11∑(Xi−Xˉ)2。
一个点估计量(point estimator)θ^=T(X1,…,Xn) 就是一个被特意选来对准 θ 的统计量。注意 θ^ 本身是随机变量——它随样本不同而抖动,因此有自己的分布,即抽样分布(sampling distribution)。这点必须立刻消化:你写出来的 p^=0.62 不是「真值」,它是某条特定样本路径上的实现值;换一组样本就会落在另一个数上。
对取自正态分布(normal / Gaussian distribution)的 i.i.d. 样本 X1,…,Xn∼N(μ,σ2),我们有一组贯穿整个模块的正态模型抽样分布结果:
Xˉ∼N(μ,σ2/n),σ2(n−1)S2∼χn−12,Xˉ⊥S2.
第三条独立性是正态模型特有的(请勿外推到非正态情形),证明不在本课范围。这三件事是第 3 课 t 区间、χ2 区间与第 4 课对应检验的引擎,先把它钉在墙上。
二、矩估计:把样本矩与总体矩对齐
最朴素的构造思路是 Karl Pearson 的矩估计(method of moments, MoM)。第 k 阶总体矩与样本矩分别为
mk(θ)=Eθ[Xk],m^k=n1i=1∑nXik.
若 dimΘ=d,联立前 d 个方程 mk(θ)=m^k (k=1,…,d) 解出 θ 就是 MoM 估计量 θ^MoM。三个范例:
- 正态 N(μ,σ2):m1=μ, m2=σ2+μ2。解得 μ^=Xˉ, σ^2=n1∑(Xi−Xˉ)2。
- 伯努利 Bernoulli(p):m1=p,故 p^=Xˉ。
- 指数 Exponential(λ):m1=1/λ,令 1/λ=Xˉ,解得 λ^MoM=1/Xˉ。
MoM 的优势是几乎不用脑——会算积分就行——但它不利用分布形状里除矩之外的信息,常常被极大似然击败。
三、极大似然估计:把样本视为关于 θ 的「证据强度」
把样本 x1,…,xn 固定下来,似然函数(likelihood function)是参数的函数:
L(θ;x)=i=1∏nf(xi;θ),ℓ(θ;x)=i=1∑nlogf(xi;θ).
极大似然估计(maximum likelihood estimation, MLE)定义为 θ^MLE=argmaxθ∈Θℓ(θ;x)。一般通过解似然方程 dℓ/dθ=0 并验二阶条件(或边界)找到。
例 1(伯努利)。 设 Xi∼i.i.d.Bernoulli(p),令 s=∑xi:
- 写出对数似然:ℓ(p)=(∑xi)logp+(n−∑xi)log(1−p)=slogp+(n−s)log(1−p)。
- 求导并令其为零:dℓ/dp=s/p−(n−s)/(1−p)=0。
- 整理 s(1−p)=(n−s)p,解得 p^MLE=s/n=Xˉ。二阶导 −s/p2−(n−s)/(1−p)2<0,确为极大点。
例 2(正态)。 设 Xi∼i.i.d.N(μ,σ2)。对数似然为 ℓ(μ,σ2)=−2nlog(2πσ2)−2σ21∑(xi−μ)2。
- 对 μ 求偏导:∂ℓ/∂μ=σ−2∑(xi−μ)=0,解得 μ^MLE=Xˉ。
- 对 σ2 求偏导并代入 μ^:∂ℓ/∂σ2=−n/(2σ2)+∑(xi−Xˉ)2/(2σ4)=0,解得 σ^MLE2=n1∑(Xi−Xˉ)2。
- 注意分母为 n,与无偏样本方差 S2(分母 n−1)相差一个 (n−1)/n 因子;这正是下一课讨论偏差(bias)的入口。
例 3(指数)。 设 Xi∼i.i.d.Exponential(λ),密度 f(x;λ)=λe−λx。对数似然 ℓ(λ)=nlogλ−λ∑xi=nlogλ−λnxˉ。求导 dℓ/dλ=n/λ−nxˉ=0,得 λ^MLE=1/Xˉ——恰与 MoM 结果一致。
下面的滑块可视化指数对数似然 ℓ(λ)=nlogλ−λnxˉ 随 λ 的变化形状,xˉ 视作充分汇总量:
Formula Explorer
n * log(lambda) - lambda * n * x_bar
把 xˉ 拨到不同水平,你会看到峰值横移到 λ=1/xˉ 处;这就是 MLE 的几何含义:似然峰所对应的参数值,就是该参数让观测样本「最有可能出现」的那个值。在到单率估计的实际场景里,做市员只需把一天的到单序列丢进这个图,峰位读数即是当日的 λ^,无需任何额外的优化器。
四、不变性原理与 MoM 与 MLE 何时分道扬镳
极大似然估计的不变性原理(MLE invariance): 若 θ^MLE 是 θ 的 MLE,则对任意函数 g,g(θ^MLE) 是 g(θ) 的 MLE。举例:正态情形 σ^MLE=σ^MLE2,你无需重新最大化关于 σ 的似然。
MoM 与 MLE 在多数标准模型里殊途同归——伯努利、指数、正态(均值)皆然——但并非永远如此。均匀分布 U(0,θ) 是教科书反例:E[X]=θ/2 给出 θ^MoM=2Xˉ;而似然 L(θ)=θ−n1{θ≥maxxi} 在端点 θ=maxxi 取得最大,故 θ^MLE=max{Xi}。两者构造逻辑根本不同:MoM 押注矩,MLE 押注端点。当样本量 n 增大时,maxXi 的方差以更快的速率收敛,在这个模型里 MLE 是赢家。
(顺便说一下两条与本课无关但常被混淆的方向:贝叶斯估计需要先验,本模块不涉及,日后开一门专题;当 MLE 没有闭式解时通常需要 EM 或数值优化,这是第 2.5 模块「最优化」的内容,这里不再展开。)
Exercise
设 X1,…,Xn i.i.d. ∼Poisson(λ)。(a) 写出对数似然 ℓ(λ)。(b) 推导极大似然估计量 λ^MLE。(c) 由 E[X]=λ 计算矩估计量。说明两者是否一致。
提示
从泊松分布的概率质量函数
f(x;λ)=e−λλx/x! 出发,对 i.i.d. 样本取乘积再取对数,先把与
λ 无关的
log(xi!) 项移出去。
提示
对
ℓ(λ) 关于
λ 求一阶导,令其等于零;你应得到
−n+∑xi/λ=0,直接解出
λ^。MoM 直接由一阶矩对齐即可。
五、下一步
到这里你手上已有两类候选估计量(MoM 与 MLE),并且能在伯努利、正态、指数等模型里写出闭式解。但你还没有任何工具去比较它们:正态方差的 MLE 把分母写成 n,无偏样本方差把分母写成 n−1——哪个更好?在什么意义下更好?MLE 的渐近行为多快?是否存在「方差下界」让我们知道任何无偏估计量好不到哪里去?下一课引入偏差、方差、均方误差、一致性、渐近正态性、费希尔信息量与克拉默-拉奥下界(Cramér-Rao lower bound)这一整套评判标准,把今天的「能写出来」升级为「能挑得出来」。