点估计:矩估计与极大似然估计 — 参数估计与假设检验

上海某私募的量化研究员周一上午把过去 200 个交易日的沪深300 日内对数收益堆在屏幕上,准备给一个新的日频股指期货策略估出「年化波动率」。他知道收益的真实分布参数永远看不见,手里有的只是一串样本。问题就此变形:从这 200 个数里挤出哪个数字配叫做「波动率的估计」?另一位同事在 50ETF 期权交易台做做市,他需要从最近一周的成交频次里估出每秒到单率 $\lambda$ 。两人面对的是同一个抽象任务——给定一族被参数 $\theta$ 索引的分布 $\{f(x;\theta):\theta\in\Theta\}$ 以及一组独立同分布(i.i.d.)样本 $X_1,\dots,X_n$ ,产出一个点估计(point estimate) $\hat\theta$ 去逼近未知的 $\theta$ 。本课把这条「数据 → 估计」的管线先搭起来,后续三节再回头评估、量化它的不确定性、并基于它做检验。

一、模型、样本与统计量

把统计模型(statistical model)写成 $\mathcal{P}=\{f(x;\theta):\theta\in\Theta\}$ :一族分布的密度(或概率质量)函数被参数空间 $\Theta\subset\mathbb{R}^d$ 索引。从中抽出 i.i.d. 样本 $X_1,\dots,X_n$ ;任何不依赖 $\theta$ 的样本函数 $T(X_1,\dots,X_n)$ 都叫统计量(statistic),例如样本均值 $\bar X=\frac1n\sum X_i$ 与样本方差 $S^2=\frac1{n-1}\sum(X_i-\bar X)^2$ 。

一个点估计量(point estimator) $\hat\theta=T(X_1,\dots,X_n)$ 就是一个被特意选来对准 $\theta$ 的统计量。注意 $\hat\theta$ 本身是随机变量——它随样本不同而抖动,因此有自己的分布,即抽样分布(sampling distribution)。这点必须立刻消化:你写出来的 $\hat p=0.62$ 不是「真值」,它是某条特定样本路径上的实现值;换一组样本就会落在另一个数上。

对取自正态分布(normal / Gaussian distribution)的 i.i.d. 样本 $X_1,\dots,X_n\sim\mathcal{N}(\mu,\sigma^2)$ ,我们有一组贯穿整个模块的正态模型抽样分布结果:

\bar X \sim \mathcal{N}(\mu,\sigma^2/n), \qquad \frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}, \qquad \bar X \perp S^2.

第三条独立性是正态模型特有的(请勿外推到非正态情形),证明不在本课范围。这三件事是第 3 课 t 区间、 $\chi^2$ 区间与第 4 课对应检验的引擎,先把它钉在墙上。

二、矩估计:把样本矩与总体矩对齐

最朴素的构造思路是 Karl Pearson 的矩估计(method of moments, MoM)。第 $k$ 阶总体矩与样本矩分别为

m_k(\theta) = E_\theta[X^k], \qquad \hat m_k = \frac{1}{n}\sum_{i=1}^{n} X_i^k.

若 $\dim\Theta=d$ ,联立前 $d$ 个方程 $m_k(\theta)=\hat m_k\ (k=1,\dots,d)$ 解出 $\theta$ 就是 MoM 估计量 $\hat\theta_{\mathrm{MoM}}$ 。三个范例:

正态 $\mathcal{N}(\mu,\sigma^2)$ : $m_1=\mu,\ m_2=\sigma^2+\mu^2$ 。解得 $\hat\mu=\bar X,\ \hat\sigma^2=\frac1n\sum(X_i-\bar X)^2$ 。
伯努利 $\mathrm{Bernoulli}(p)$ : $m_1=p$ ,故 $\hat p=\bar X$ 。
指数 $\mathrm{Exponential}(\lambda)$ : $m_1=1/\lambda$ ,令 $1/\lambda=\bar X$ ,解得 $\hat\lambda_{\mathrm{MoM}}=1/\bar X$ 。

MoM 的优势是几乎不用脑——会算积分就行——但它不利用分布形状里除矩之外的信息,常常被极大似然击败。

三、极大似然估计:把样本视为关于 $\theta$ 的「证据强度」

把样本 $x_1,\dots,x_n$ 固定下来,似然函数(likelihood function)是参数的函数:

L(\theta;x) = \prod_{i=1}^{n} f(x_i;\theta), \qquad \ell(\theta;x) = \sum_{i=1}^{n} \log f(x_i;\theta).

极大似然估计(maximum likelihood estimation, MLE)定义为 $\hat\theta_{\mathrm{MLE}} = \arg\max_{\theta\in\Theta}\ell(\theta;x)$ 。一般通过解似然方程 $d\ell/d\theta=0$ 并验二阶条件(或边界)找到。

例 1(伯努利)。 设 $X_i\overset{\text{i.i.d.}}{\sim}\mathrm{Bernoulli}(p)$ ,令 $s=\sum x_i$ :

写出对数似然: $\ell(p) = (\sum x_i)\log p + (n - \sum x_i)\log(1-p) = s\log p + (n-s)\log(1-p)$ 。
求导并令其为零: $d\ell/dp = s/p - (n-s)/(1-p) = 0$ 。
整理 $s(1-p)=(n-s)p$ ,解得 $\hat p_{\mathrm{MLE}}=s/n=\bar X$ 。二阶导 $-s/p^2-(n-s)/(1-p)^2<0$ ,确为极大点。

例 2(正态)。 设 $X_i\overset{\text{i.i.d.}}{\sim}\mathcal{N}(\mu,\sigma^2)$ 。对数似然为 $\ell(\mu,\sigma^2)=-\frac{n}{2}\log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum(x_i-\mu)^2$ 。

对 $\mu$ 求偏导: $\partial\ell/\partial\mu = \sigma^{-2}\sum(x_i-\mu) = 0$ ,解得 $\hat\mu_{\mathrm{MLE}}=\bar X$ 。
对 $\sigma^2$ 求偏导并代入 $\hat\mu$ : $\partial\ell/\partial\sigma^2 = -n/(2\sigma^2) + \sum(x_i-\bar X)^2/(2\sigma^4) = 0$ ,解得 $\hat\sigma^{2}_{\mathrm{MLE}} = \frac{1}{n}\sum(X_i-\bar X)^2$ 。
注意分母为 $n$ ,与无偏样本方差 $S^2$ (分母 $n-1$ )相差一个 $(n-1)/n$ 因子;这正是下一课讨论偏差(bias)的入口。

例 3(指数)。 设 $X_i\overset{\text{i.i.d.}}{\sim}\mathrm{Exponential}(\lambda)$ ,密度 $f(x;\lambda)=\lambda e^{-\lambda x}$ 。对数似然 $\ell(\lambda)=n\log\lambda - \lambda\sum x_i = n\log\lambda - \lambda n\bar x$ 。求导 $d\ell/d\lambda=n/\lambda - n\bar x=0$ ,得 $\hat\lambda_{\mathrm{MLE}}=1/\bar X$ ——恰与 MoM 结果一致。

下面的滑块可视化指数对数似然 $\ell(\lambda)=n\log\lambda-\lambda n\bar x$ 随 $\lambda$ 的变化形状, $\bar x$ 视作充分汇总量:

Formula Explorer

n * log(lambda) - lambda * n * x_bar

把 $\bar x$ 拨到不同水平,你会看到峰值横移到 $\lambda=1/\bar x$ 处;这就是 MLE 的几何含义:似然峰所对应的参数值,就是该参数让观测样本「最有可能出现」的那个值。在到单率估计的实际场景里,做市员只需把一天的到单序列丢进这个图,峰位读数即是当日的 $\hat\lambda$ ,无需任何额外的优化器。

四、不变性原理与 MoM 与 MLE 何时分道扬镳

极大似然估计的不变性原理(MLE invariance): 若 $\hat\theta_{\mathrm{MLE}}$ 是 $\theta$ 的 MLE,则对任意函数 $g$ , $g(\hat\theta_{\mathrm{MLE}})$ 是 $g(\theta)$ 的 MLE。举例:正态情形 $\hat\sigma_{\mathrm{MLE}}=\sqrt{\hat\sigma^2_{\mathrm{MLE}}}$ ,你无需重新最大化关于 $\sigma$ 的似然。

MoM 与 MLE 在多数标准模型里殊途同归——伯努利、指数、正态(均值)皆然——但并非永远如此。均匀分布 $U(0,\theta)$ 是教科书反例: $E[X]=\theta/2$ 给出 $\hat\theta_{\mathrm{MoM}}=2\bar X$ ;而似然 $L(\theta)=\theta^{-n}\mathbb{1}\{\theta\ge\max x_i\}$ 在端点 $\theta=\max x_i$ 取得最大,故 $\hat\theta_{\mathrm{MLE}}=\max\{X_i\}$ 。两者构造逻辑根本不同:MoM 押注矩,MLE 押注端点。当样本量 $n$ 增大时, $\max X_i$ 的方差以更快的速率收敛,在这个模型里 MLE 是赢家。

(顺便说一下两条与本课无关但常被混淆的方向:贝叶斯估计需要先验,本模块不涉及,日后开一门专题;当 MLE 没有闭式解时通常需要 EM 或数值优化,这是第 2.5 模块「最优化」的内容,这里不再展开。)

Exercise

设 $X_1,\dots,X_n$ i.i.d. $\sim\mathrm{Poisson}(\lambda)$ 。(a) 写出对数似然 $\ell(\lambda)$ 。(b) 推导极大似然估计量 $\hat\lambda_{\mathrm{MLE}}$ 。(c) 由 $E[X]=\lambda$ 计算矩估计量。说明两者是否一致。

提示

从泊松分布的概率质量函数

f(x;\lambda) = e^{-\lambda}\lambda^x/x!

出发,对 i.i.d. 样本取乘积再取对数,先把与

\lambda

无关的

\log(x_i!)

项移出去。

提示

对

\ell(\lambda)

关于

\lambda

求一阶导,令其等于零;你应得到

-n + \sum x_i/\lambda = 0

,直接解出

\hat\lambda

。MoM 直接由一阶矩对齐即可。

五、下一步

到这里你手上已有两类候选估计量(MoM 与 MLE),并且能在伯努利、正态、指数等模型里写出闭式解。但你还没有任何工具去比较它们:正态方差的 MLE 把分母写成 $n$ ,无偏样本方差把分母写成 $n-1$ ——哪个更好?在什么意义下更好?MLE 的渐近行为多快?是否存在「方差下界」让我们知道任何无偏估计量好不到哪里去?下一课引入偏差、方差、均方误差、一致性、渐近正态性、费希尔信息量与克拉默-拉奥下界(Cramér-Rao lower bound)这一整套评判标准,把今天的「能写出来」升级为「能挑得出来」。

一、模型、样本与统计量

二、矩估计:把样本矩与总体矩对齐

三、极大似然估计:把样本视为关于 θ\thetaθ 的「证据强度」

四、不变性原理与 MoM 与 MLE 何时分道扬镳

五、下一步

三、极大似然估计:把样本视为关于 $\theta$ 的「证据强度」