← 返回模块
2.2.1.1beta 可读 · 未来免费校验通过内容版本 2026-05-26

点估计:矩估计与极大似然估计

2.2.1 · 参数估计与假设检验 · 数学与统计能力

上海某私募的量化研究员周一上午把过去 200 个交易日的沪深300 日内对数收益堆在屏幕上,准备给一个新的日频股指期货策略估出「年化波动率」。他知道收益的真实分布参数永远看不见,手里有的只是一串样本。问题就此变形:从这 200 个数里挤出哪个数字配叫做「波动率的估计」?另一位同事在 50ETF 期权交易台做做市,他需要从最近一周的成交频次里估出每秒到单率 λ\lambda。两人面对的是同一个抽象任务——给定一族被参数 θ\theta 索引的分布 {f(x;θ):θΘ}\{f(x;\theta):\theta\in\Theta\} 以及一组独立同分布(i.i.d.)样本 X1,,XnX_1,\dots,X_n,产出一个​​点估计​​(point estimate)θ^\hat\theta 去逼近未知的 θ\theta。本课把这条「数据 → 估计」的管线先搭起来,后续三节再回头评估、量化它的不确定性、并基于它做检验。

一、模型、样本与统计量

把​​统计模型​​(statistical model)写成 P={f(x;θ):θΘ}\mathcal{P}=\{f(x;\theta):\theta\in\Theta\}:一族分布的密度(或概率质量)函数被参数空间 ΘRd\Theta\subset\mathbb{R}^d 索引。从中抽出 i.i.d. 样本 X1,,XnX_1,\dots,X_n;任何不依赖 θ\theta 的样本函数 T(X1,,Xn)T(X_1,\dots,X_n) 都叫​​统计量​​(statistic),例如样本均值 Xˉ=1nXi\bar X=\frac1n\sum X_i 与样本方差 S2=1n1(XiXˉ)2S^2=\frac1{n-1}\sum(X_i-\bar X)^2

一个​​点估计量​​(point estimator)θ^=T(X1,,Xn)\hat\theta=T(X_1,\dots,X_n) 就是一个被特意选来对准 θ\theta 的统计量。注意 θ^\hat\theta 本身是随机变量——它随样本不同而抖动,因此有自己的分布,即​​抽样分布​​(sampling distribution)。这点必须立刻消化:你写出来的 p^=0.62\hat p=0.62 不是「真值」,它是某条特定样本路径上的实现值;换一组样本就会落在另一个数上。

对取自​​正态分布​​(normal / Gaussian distribution)的 i.i.d. 样本 X1,,XnN(μ,σ2)X_1,\dots,X_n\sim\mathcal{N}(\mu,\sigma^2),我们有一组贯穿整个模块的​​正态模型抽样分布​​结果:

XˉN(μ,σ2/n),(n1)S2σ2χn12,XˉS2.\bar X \sim \mathcal{N}(\mu,\sigma^2/n), \qquad \frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}, \qquad \bar X \perp S^2.

第三条独立性是正态模型特有的(请勿外推到非正态情形),证明不在本课范围。这三件事是第 3 课 t 区间、χ2\chi^2 区间与第 4 课对应检验的引擎,先把它钉在墙上。

二、矩估计:把样本矩与总体矩对齐

最朴素的构造思路是 Karl Pearson 的​​矩估计​​(method of moments, MoM)。第 kk 阶总体矩与样本矩分别为

mk(θ)=Eθ[Xk],m^k=1ni=1nXik.m_k(\theta) = E_\theta[X^k], \qquad \hat m_k = \frac{1}{n}\sum_{i=1}^{n} X_i^k.

dimΘ=d\dim\Theta=d,联立前 dd 个方程 mk(θ)=m^k (k=1,,d)m_k(\theta)=\hat m_k\ (k=1,\dots,d) 解出 θ\theta 就是 MoM 估计量 θ^MoM\hat\theta_{\mathrm{MoM}}。三个范例:

  • ​正态​ N(μ,σ2)\mathcal{N}(\mu,\sigma^2):m1=μ, m2=σ2+μ2m_1=\mu,\ m_2=\sigma^2+\mu^2。解得 μ^=Xˉ, σ^2=1n(XiXˉ)2\hat\mu=\bar X,\ \hat\sigma^2=\frac1n\sum(X_i-\bar X)^2
  • ​伯努利​ Bernoulli(p)\mathrm{Bernoulli}(p):m1=pm_1=p,故 p^=Xˉ\hat p=\bar X
  • ​指数​ Exponential(λ)\mathrm{Exponential}(\lambda):m1=1/λm_1=1/\lambda,令 1/λ=Xˉ1/\lambda=\bar X,解得 λ^MoM=1/Xˉ\hat\lambda_{\mathrm{MoM}}=1/\bar X

MoM 的优势是几乎不用脑——会算积分就行——但它不利用分布形状里除矩之外的信息,常常被极大似然击败。

三、极大似然估计:把样本视为关于 θ\theta 的「证据强度」

把样本 x1,,xnx_1,\dots,x_n 固定下来,​​似然函数​​(likelihood function)是参数的函数:

L(θ;x)=i=1nf(xi;θ),(θ;x)=i=1nlogf(xi;θ).L(\theta;x) = \prod_{i=1}^{n} f(x_i;\theta), \qquad \ell(\theta;x) = \sum_{i=1}^{n} \log f(x_i;\theta).

​极大似然估计​​(maximum likelihood estimation, MLE)定义为 θ^MLE=argmaxθΘ(θ;x)\hat\theta_{\mathrm{MLE}} = \arg\max_{\theta\in\Theta}\ell(\theta;x)。一般通过解​​似然方程​ d/dθ=0d\ell/d\theta=0 并验二阶条件(或边界)找到。

​例 1(伯努利)。​Xii.i.d.Bernoulli(p)X_i\overset{\text{i.i.d.}}{\sim}\mathrm{Bernoulli}(p),令 s=xis=\sum x_i:

  1. 写出对数似然:(p)=(xi)logp+(nxi)log(1p)=slogp+(ns)log(1p)\ell(p) = (\sum x_i)\log p + (n - \sum x_i)\log(1-p) = s\log p + (n-s)\log(1-p)
  2. 求导并令其为零:d/dp=s/p(ns)/(1p)=0d\ell/dp = s/p - (n-s)/(1-p) = 0
  3. 整理 s(1p)=(ns)ps(1-p)=(n-s)p,解得 p^MLE=s/n=Xˉ\hat p_{\mathrm{MLE}}=s/n=\bar X。二阶导 s/p2(ns)/(1p)2<0-s/p^2-(n-s)/(1-p)^2<0,确为极大点。

​例 2(正态)。​Xii.i.d.N(μ,σ2)X_i\overset{\text{i.i.d.}}{\sim}\mathcal{N}(\mu,\sigma^2)。对数似然为 (μ,σ2)=n2log(2πσ2)12σ2(xiμ)2\ell(\mu,\sigma^2)=-\frac{n}{2}\log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum(x_i-\mu)^2

  1. μ\mu 求偏导:/μ=σ2(xiμ)=0\partial\ell/\partial\mu = \sigma^{-2}\sum(x_i-\mu) = 0,解得 μ^MLE=Xˉ\hat\mu_{\mathrm{MLE}}=\bar X
  2. σ2\sigma^2 求偏导并代入 μ^\hat\mu:/σ2=n/(2σ2)+(xiXˉ)2/(2σ4)=0\partial\ell/\partial\sigma^2 = -n/(2\sigma^2) + \sum(x_i-\bar X)^2/(2\sigma^4) = 0,解得 σ^MLE2=1n(XiXˉ)2\hat\sigma^{2}_{\mathrm{MLE}} = \frac{1}{n}\sum(X_i-\bar X)^2
  3. 注意分母为 nn,与无偏样本方差 S2S^2(分母 n1n-1)相差一个 (n1)/n(n-1)/n 因子;这正是下一课讨论​​偏差​​(bias)的入口。

​例 3(指数)。​Xii.i.d.Exponential(λ)X_i\overset{\text{i.i.d.}}{\sim}\mathrm{Exponential}(\lambda),密度 f(x;λ)=λeλxf(x;\lambda)=\lambda e^{-\lambda x}。对数似然 (λ)=nlogλλxi=nlogλλnxˉ\ell(\lambda)=n\log\lambda - \lambda\sum x_i = n\log\lambda - \lambda n\bar x。求导 d/dλ=n/λnxˉ=0d\ell/d\lambda=n/\lambda - n\bar x=0,得 λ^MLE=1/Xˉ\hat\lambda_{\mathrm{MLE}}=1/\bar X——恰与 MoM 结果一致。

下面的滑块可视化指数对数似然 (λ)=nlogλλnxˉ\ell(\lambda)=n\log\lambda-\lambda n\bar xλ\lambda 的变化形状,xˉ\bar x 视作充分汇总量:

Formula Explorer

n * log(lambda) - lambda * n * x_bar

xˉ\bar x 拨到不同水平,你会看到峰值横移到 λ=1/xˉ\lambda=1/\bar x 处;这就是 MLE 的几何含义:似然峰所对应的参数值,就是该参数让观测样本「最有可能出现」的那个值。在到单率估计的实际场景里,做市员只需把一天的到单序列丢进这个图,峰位读数即是当日的 λ^\hat\lambda,无需任何额外的优化器。

四、不变性原理与 MoM 与 MLE 何时分道扬镳

​极大似然估计的不变性原理(MLE invariance):​θ^MLE\hat\theta_{\mathrm{MLE}}θ\theta 的 MLE,则对任意函数 gg,g(θ^MLE)g(\hat\theta_{\mathrm{MLE}})g(θ)g(\theta) 的 MLE。举例:正态情形 σ^MLE=σ^MLE2\hat\sigma_{\mathrm{MLE}}=\sqrt{\hat\sigma^2_{\mathrm{MLE}}},你无需重新最大化关于 σ\sigma 的似然。

MoM 与 MLE 在多数标准模型里殊途同归——伯努利、指数、正态(均值)皆然——但并非永远如此。​​均匀分布​ U(0,θ)U(0,\theta) 是教科书反例:E[X]=θ/2E[X]=\theta/2 给出 θ^MoM=2Xˉ\hat\theta_{\mathrm{MoM}}=2\bar X;而似然 L(θ)=θn1{θmaxxi}L(\theta)=\theta^{-n}\mathbb{1}\{\theta\ge\max x_i\} 在端点 θ=maxxi\theta=\max x_i 取得最大,故 θ^MLE=max{Xi}\hat\theta_{\mathrm{MLE}}=\max\{X_i\}。两者构造逻辑根本不同:MoM 押注矩,MLE 押注端点。当样本量 nn 增大时,maxXi\max X_i 的方差以更快的速率收敛,在这个模型里 MLE 是赢家。

(顺便说一下两条与本课无关但常被混淆的方向:贝叶斯估计需要先验,本模块不涉及,日后开一门专题;当 MLE 没有闭式解时通常需要 EM 或数值优化,这是第 2.5 模块「最优化」的内容,这里不再展开。)

Exercise

X1,,XnX_1,\dots,X_n i.i.d. Poisson(λ)\sim\mathrm{Poisson}(\lambda)。(a) 写出对数似然 (λ)\ell(\lambda)。(b) 推导极大似然估计量 λ^MLE\hat\lambda_{\mathrm{MLE}}。(c) 由 E[X]=λE[X]=\lambda 计算矩估计量。说明两者是否一致。

提示
从泊松分布的概率质量函数 f(x;λ)=eλλx/x!f(x;\lambda) = e^{-\lambda}\lambda^x/x! 出发,对 i.i.d. 样本取乘积再取对数,先把与 λ\lambda 无关的 log(xi!)\log(x_i!) 项移出去。
提示
(λ)\ell(\lambda) 关于 λ\lambda 求一阶导,令其等于零;你应得到 n+xi/λ=0-n + \sum x_i/\lambda = 0,直接解出 λ^\hat\lambda。MoM 直接由一阶矩对齐即可。

五、下一步

到这里你手上已有两类候选估计量(MoM 与 MLE),并且能在伯努利、正态、指数等模型里写出闭式解。但你还没有任何工具去​​比较​​它们:正态方差的 MLE 把分母写成 nn,无偏样本方差把分母写成 n1n-1——哪个更好?在什么意义下更好?MLE 的渐近行为多快?是否存在「方差下界」让我们知道任何无偏估计量好不到哪里去?下一课引入​​偏差​​、​​方差​​、​​均方误差​​、​​一致性​​、​​渐近正态性​​、​​费希尔信息量​​与​​克拉默-拉奥下界​​(Cramér-Rao lower bound)这一整套评判标准,把今天的「能写出来」升级为「能挑得出来」。