估计量的性质:偏差、方差与信息量 — 参数估计与假设检验

上海某私募的量化研究员把上一课跑出来的两个候选估计量并排放着:一个是无偏的样本方差 $S^2$ (分母 $n-1$ ),另一个是极大似然估计(maximum likelihood estimation, MLE)的方差版 $\hat\sigma^2_{\mathrm{MLE}}$ (分母 $n$ )。直觉告诉他「无偏」听起来更值得信赖,但当真到了要在波动率模型里塞一个数,他需要的是一把明确可比较的「好坏」尺子——能告诉他在 $n=200$ 的样本下选哪个的平均误差更小。本课就是这把尺子:把估计量当作随机变量来评分,工具是偏差、方差、均方误差、一致性,以及更深一层的费希尔信息量与克拉默-拉奥下界。

一、偏差、方差与均方误差

设 $\hat\theta=\hat\theta(X_1,\dots,X_n)$ 是参数 $\theta\in\Theta$ 的一个估计量。在参数取真值 $\theta$ 的概率测度下,它的偏差(bias)、方差(variance)与均方误差(mean squared error, MSE)定义为:

\mathrm{bias}_\theta(\hat{\theta}) = E_\theta[\hat{\theta}] - \theta, \qquad \mathrm{MSE}_\theta(\hat{\theta}) = E_\theta[(\hat{\theta} - \theta)^2] = \mathrm{bias}_\theta(\hat{\theta})^2 + \mathrm{Var}_\theta(\hat{\theta}).

第二行的等号来自一行展开:令 $\mu=E_\theta[\hat\theta]$ ,则 $E_\theta[(\hat\theta-\theta)^2] = E_\theta[(\hat\theta-\mu)^2] + (\mu-\theta)^2 = \mathrm{Var}_\theta(\hat\theta) + \mathrm{bias}_\theta(\hat\theta)^2$ ,交叉项 $2(\mu-\theta)\,E_\theta[\hat\theta-\mu]$ 因 $E_\theta[\hat\theta-\mu]=0$ 而消失。这条偏差-方差分解(bias-variance decomposition)是本课最先要钉牢的常识:均方误差 = 偏差的平方 + 方差。

无偏(unbiased)并不等同于「最优」:若另一个估计量带一点偏差却把方差压得足够低,它的 MSE 反而更小。茆诗松《概率论与数理统计教程》第六章在引入 MSE 时反复强调这一点,下一节的正态方差例子即此原理的看家戏。

二、正态方差的两个估计量:无偏并非最优

接续上一课,设 $X_1,\dots,X_n\overset{\text{i.i.d.}}{\sim}\mathcal{N}(\mu,\sigma^2)$ ,两个候选估计量是

S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X)^2, \qquad \hat\sigma^2_{\mathrm{MLE}} = \frac{1}{n}\sum_{i=1}^n (X_i-\bar X)^2 = \frac{n-1}{n}S^2.

正态分布(Gaussian distribution)下 $(n-1)S^2/\sigma^2\sim\chi^2_{n-1}$ ,故 $E[S^2]=\sigma^2$ 、 $\mathrm{Var}(S^2)=2\sigma^4/(n-1)$ 。 $\hat\sigma^2_{\mathrm{MLE}}$ 是 $S^2$ 的 $(n-1)/n$ 倍,因此 $E[\hat\sigma^2_{\mathrm{MLE}}]=(n-1)\sigma^2/n$ ,偏差 $=-\sigma^2/n$ ,方差 $=((n-1)/n)^2\cdot 2\sigma^4/(n-1) = 2\sigma^4(n-1)/n^2$ 。代入偏差-方差分解:

\mathrm{MSE}(S^2)=\frac{2\sigma^4}{n-1},\qquad \mathrm{MSE}(\hat\sigma^2_{\mathrm{MLE}}) = \frac{2\sigma^4(n-1)}{n^2} + \frac{\sigma^4}{n^2} = \frac{(2n-1)\sigma^4}{n^2}.

对所有 $n\ge 2$ 有 $(2n-1)/n^2 < 2/(n-1)$ (交叉相乘后等价于 $-3n+1<0$ ),所以 $\mathrm{MSE}(\hat\sigma^2_{\mathrm{MLE}}) < \mathrm{MSE}(S^2)$ 对每一个 $n$ 都成立——这就是 Casella & Berger 例 7.3.4 的结论:无偏的 $S^2$ 在 MSE 意义下被有偏的 MLE 严格主宰。茆诗松同章的对应例题用同样的代数给出。

数值感:取 $n=10$ 、 $\sigma^2=1$ , $\mathrm{MSE}(S^2)=2/9\approx 0.222$ , $\mathrm{MSE}(\hat\sigma^2_{\mathrm{MLE}})=0.190$ ,差距明显;随 $n$ 增大两者都按 $1/n$ 量级缩小,主宰关系保持。「样本方差为什么除以 $n-1$ 」常被当作金科玉律,但只在「我要无偏」这把尺子下成立;换一把尺子就翻案。

三、一致性

前面三个标准都只看「单一样本量 $n$ 下的得分」。把视角拉到 $n\to\infty$ 的极限,我们要的是估计量序列 $\{\hat\theta_n\}$ 对 $\theta$ 一致(consistent),即 $\hat\theta_n\xrightarrow{P}\theta$ (依概率收敛)。形式化地:对任意 $\varepsilon>0$ , $P_\theta(|\hat\theta_n-\theta|>\varepsilon)\to 0$ 。这是大样本最低要求:样本量增大时,估计应能逼近真值,否则连「值得用」都谈不上。一致性不保证有限样本的精度,但缺了它,任何关于样本量加大的承诺都失去根基。

样本均值 $\bar X_n$ 由弱大数定律(WLLN)立刻一致;在标准正则条件下(参数可识别、对数似然在 $\theta_0$ 邻域一致收敛),极大似然估计也是一致的——茆诗松与同济《概率论与数理统计》都直接陈述这一结果,完整证明可见 Van der Vaart《Asymptotic Statistics》。再由连续映射定理:若 $g$ 在 $\theta$ 处连续,则 $g(\hat\theta_n)\xrightarrow{P} g(\theta)$ ,一致性顺着任何连续变换传下去——例如由 $\hat p\xrightarrow{P} p$ 立刻得到 $\hat p(1-\hat p)\xrightarrow{P} p(1-p)$ ,这点在下一课构造方差的「插入式」估计量时会反复用到。

四、费希尔信息量与克拉默-拉奥下界

只看「无偏」与「方差」还不够;我们想知道无偏估计量的方差能小到什么程度。答案藏在似然函数对参数的曲率里。考虑单参数正则模型 $\{f(x;\theta):\theta\in\Theta\}$ (支撑集不依赖 $\theta$ 、积分与求导可交换),定义得分函数 $U(\theta;X)=\partial\log f(X;\theta)/\partial\theta$ ,费希尔信息量(Fisher information)为

I_1(\theta) = E_\theta\!\left[\left(\dfrac{\partial}{\partial \theta} \log f(X; \theta)\right)^2\right] = -\,E_\theta\!\left[\dfrac{\partial^2}{\partial \theta^2} \log f(X; \theta)\right].

两种表达由 $E_\theta[U]=0$ 与对积分求导的分部恒等式相互连通。几何上, $I_1(\theta)$ 是对数似然在 $\theta$ 处的负曲率期望——曲率越大,似然峰越尖,样本就越能区分附近的 $\theta$ 值;反之,曲率小、峰扁平,意味着不同 $\theta$ 解释数据的能力差不多,数据中关于 $\theta$ 的信息就少。

对 i.i.d. 样本,总信息量为 $n\,I_1(\theta)$ ,信息可加。陈希孺《数理统计学教程》第二章用这条加性给出克拉默-拉奥不等式(Cramér-Rao Lower Bound, CRLB):对任何 $\theta$ 的无偏估计量 $\hat\theta$ ,

\mathrm{Var}_\theta(\hat{\theta}) \geq \dfrac{1}{n\,I_1(\theta)}.

证明用 Cauchy-Schwarz:对无偏性 $E_\theta[\hat\theta]=\theta$ 两端关于 $\theta$ 求导(在积分号下成立),得 $E_\theta[\hat\theta\cdot U(\theta;\mathbf{X})]=1$ ,即 $\mathrm{Cov}_\theta(\hat\theta, U)=1$ ,再用 $\mathrm{Cov}^2\le\mathrm{Var}\cdot\mathrm{Var}$ 与 $\mathrm{Var}(U)=n\,I_1(\theta)$ 即得下界。

伯努利的费希尔信息量(完整推导)。 设 $X\sim\mathrm{Bernoulli}(p)$ ,则 $\log f(x;p)=x\log p + (1-x)\log(1-p)$ 。一阶导 $\partial\log f/\partial p = x/p - (1-x)/(1-p)$ ,二阶导 $\partial^2\log f/\partial p^2 = -x/p^2 - (1-x)/(1-p)^2$ 。取期望并代入 $E[X]=p$ :

I_1(p) = -E\!\left[-\frac{X}{p^2}-\frac{1-X}{(1-p)^2}\right] = \frac{1}{p}+\frac{1}{1-p} = \frac{1}{p(1-p)}.

故无偏 $\hat p$ 的 CRLB 为 $p(1-p)/n$ ,而 $\hat p=\bar X$ 恰有 $\mathrm{Var}(\bar X)=p(1-p)/n$ ——下界被精确达到, $\bar X$ 是 $p$ 的有效无偏估计量。同理可验证: $X_i\sim\mathcal{N}(\mu,\sigma^2)$ 且 $\sigma^2$ 已知时 $I_1(\mu)=1/\sigma^2$ , $\bar X$ 也达到 CRLB $\sigma^2/n$ 。把 $I_1(p)$ 视作 $p\in(0,1)$ 的函数:

Formula Explorer

1 / (p * (1 - p))

把 $p$ 从 $0.5$ 拖向 $0$ 或 $1$ ,你会看到 $I_1(p)$ 急剧抬升:越靠近边界,单观测携带的信息量越大、CRLB 越紧——也就是说,在极低或极高的成功率区域,要把 $p$ 估准所需的样本数反而更少。

五、MLE 的渐近正态性与有效性

费希尔信息量真正发力是在极大似然估计的渐近行为上。在上一节的正则条件下,若 $I_1(\theta_0)$ 在真值处有限正,则

\sqrt{n}\,(\hat{\theta}_{\mathrm{MLE}} - \theta_0) \xrightarrow{d} \mathcal{N}\!\left(0,\ I_1(\theta_0)^{-1}\right).

即在大样本下 $\hat\theta_{\mathrm{MLE}}$ 近似服从 $\mathcal{N}(\theta_0,\,(nI_1(\theta_0))^{-1})$ ,渐近方差恰等于 CRLB——MLE 是渐近有效(asymptotically efficient)的:在所有一致且渐近正态的估计量中,没有谁的渐近方差能比 MLE 更小。茆诗松与陈希孺都引用这一结果而通常不展开「在正则条件下」的证明细节,完整推导可见 Casella & Berger 第 10.1 节。

实战意义:一旦你有一个 $\hat\theta_{\mathrm{MLE}}$ 以及对 $I_1(\hat\theta_{\mathrm{MLE}})$ 的估计,就可以立即写出大样本下的近似 $1-\alpha$ 置信区间 $\hat\theta_{\mathrm{MLE}} \pm z_{\alpha/2}\big/\sqrt{n\,I_1(\hat\theta_{\mathrm{MLE}})}$ 。这条「Wald 区间」是下一课最直接的应用,本节铺好了它的渐近正态根基。

六、充分统计量与 Rao-Blackwell

最后一段把前面所有的估计量串起来。统计量 $T(X)$ 称为对 $\theta$ 充分(sufficient),若给定 $T(X)$ 之后 $X$ 的条件分布不再依赖 $\theta$ ——意思是 $T$ 已把数据中与 $\theta$ 有关的信息全部榨干,余下的细节都是与 $\theta$ 无关的「装饰」。判别工具是 Fisher-Neyman 因子分解定理: $T$ 对 $\theta$ 充分当且仅当似然可写成 $L(\theta;x)=g(T(x);\theta)\,h(x)$ ,即似然中所有依赖 $\theta$ 的部分都只通过 $T(x)$ 来体现。例 1:伯努利 i.i.d. 下 $\sum X_i$ 对 $p$ 充分;例 2:正态 i.i.d. 下 $(\bar X, S^2)$ 对 $(\mu,\sigma^2)$ 充分。

Rao-Blackwell 定理说:任取无偏估计量 $W$ ,以充分统计量 $T$ 取条件期望得 $\tilde W=E[W\mid T]$ ,则 $\tilde W$ 仍无偏且 $\mathrm{Var}_\theta(\tilde W) \le \mathrm{Var}_\theta(W)$ ——条件于充分统计量永不变坏。直观: $W$ 中与 $\theta$ 无关的噪声被抹平。上一课所有 MLE 都是 $(\bar X, S^2)$ 或 $\sum X_i$ 的函数,并非巧合。

进一步发展为 UMVUE 理论(Lehmann-Scheffé)、多参数 Fisher 信息矩阵与矩阵 CRLB,本课只作指针。

Exercise

设 $X_1,\dots,X_n$ i.i.d. $\sim\mathrm{Exponential}(\lambda)$ ,密度 $f(x;\lambda)=\lambda e^{-\lambda x}$ ( $x>0$ )。(a) 推导每观测的费希尔信息量 $I_1(\lambda)$ 。(b) 写出任何 $\lambda$ 无偏估计量的克拉默-拉奥下界。(c) 给出 $\sqrt{n}(\hat\lambda_{\mathrm{MLE}}-\lambda)$ 的渐近分布,并识别其渐近方差。

提示

从

\log f(x;\lambda)=\log\lambda-\lambda x

出发,关于

\lambda

求二阶导得到一个不含

X

的常数,直接取负即可得到

I_1(\lambda)

。

提示

把

I_1(\lambda)

代入

1/(nI_1(\lambda))

即得 (b);(c) 直接套用第五节的渐近正态性公式,把渐近方差写为

I_1(\lambda)^{-1}

。

七、下一步

到这里你已能对任意候选估计量打分:看它的偏差与方差、代入 MSE、对照 CRLB 判断是否「接近最优」,并用渐近正态性给出粗略的误差量级。但 $\hat\theta=0.62$ 仍然只是一个数字——它没告诉你真值是否大概率落在 $[0.55, 0.69]$ 这样的范围里。估计量的抽样分布是构造置信区间的基础;下一课用本节的 $\sqrt{n}(\hat\theta-\theta)$ 渐近正态、 $\chi^2_{n-1}$ 与 $t_{n-1}$ 这几条结果,把点估计正式升级为区间估计,并引入当解析分布不可得时的自助法(bootstrap)。