ARCH 与 GARCH 模型 — 波动率与机制转换模型

某私募(private fund)的风控会上，研究员甩出沪深300 日收益的实证表：日内收益序列本身的自相关系数 $\hat\rho(k)$ 在滞后 $k \geq 1$ 时几乎全部落在 $\pm 2/\sqrt{T}$ 的 Bartlett 带内；可一旦把同一条序列平方再画一次 ACF，从滞后 1 到滞后 60 全是正值、缓慢衰减。再算样本峰度：5.8——远大于正态分布(Gaussian distribution)的 3。这两条程式化事实(stylized facts)对几乎任何日频股票或股指收益序列都成立：

波动率聚集(volatility clustering)：大涨大跌成串出现、平静期也成串出现，所以 $\rho_k(r^2)$ 在多达几十个滞后上系统性偏正，而 $\rho_k(r)$ 自滞后 1 起统计零。
重尾(heavy tails)：日频股票收益的样本峰度通常在 5–15，远在 3 之上——同方差正态被尾部行为先验拒绝，根本轮不到形式检验。

本课要解决的就是这道矛盾——如何在「条件均值不可预测」的同时把「条件方差随时间变化」建模进去。Engle(1982)与 Bollerslev(1986)给的答案叫 ARCH / GARCH。

先把 2.3.1 的地基以五句话钉牢。第一，宽平稳(weakly stationary)指均值为常数、方差有限且自协方差 $\gamma(k)$ 只依赖于滞后 $k$ 。第二，自回归(autoregressive, AR)模型把当前值写成过去值的线性组合加白噪声，与 MA 拼成 ARMA(p, q)。第三，滞后算子 $L$ 满足 $L^k X_t = X_{t-k}$ ，AR 多项式 $\phi(L)$ 的根落在单位圆外即平稳。第四，条件矩(given $\mathcal{F}_{t-1}$ )与无条件矩通过迭代期望 $E[X_t] = E[E[X_t \mid \mathcal{F}_{t-1}]]$ 桥接——本课反复使用。第五，纯白噪声 $\{\varepsilon_t\}$ 在 ARMA 框架里默认同方差；ARCH / GARCH 要做的恰恰是把这条「同方差」假设拆掉。

1. ARCH(p)：把方差挂到过去冲击上

把观察到的收益写成

r_t = \mu_t + \varepsilon_t, \qquad \mu_t = E[r_t \mid \mathcal{F}_{t-1}],

其中 $\mu_t$ 是条件均值——实践里通常取常数或 2.3.1 拟合的 ARMA。均值方程负责自相关，方差方程负责波动率聚集，两条线分工清晰。冲击 $\varepsilon_t = \sigma_t z_t$ ，其中 $\{z_t\}$ 独立同分布(i.i.d.)且 $E[z_t] = 0$ 、 $\mathrm{Var}(z_t) = 1$ ；工程默认 $z_t \sim N(0, 1)$ （标准化 Student-t、GED 是常见替代，仅作一句话提及）。Engle(1982)的 ARCH(p) 把条件方差递推为：

\sigma_t^2 = \omega + \sum_{i=1}^{p} \alpha_i\,\varepsilon_{t-i}^2, \qquad \varepsilon_t = \sigma_t z_t,\quad z_t \overset{\mathrm{iid}}{\sim} (0, 1),\qquad \mathrm{Var}(\varepsilon_t) = \frac{\omega}{1 - \sum_{i=1}^{p}\alpha_i}.

约束 $\omega > 0$ 、 $\alpha_i \geq 0$ 保证 $\sigma_t^2 > 0$ 几乎必然成立。注意 $\sigma_t^2$ 由 $\varepsilon_{t-1}^2, \dots, \varepsilon_{t-p}^2$ 决定，是 $\mathcal{F}_{t-1}$ 可测的，所以 $\mathrm{Var}(\varepsilon_t \mid \mathcal{F}_{t-1}) = \sigma_t^2$ 由构造自动成立——这正是「条件异方差」(conditional heteroskedasticity)四字的字面来源。对递推两端取无条件期望、用宽平稳 $E[\varepsilon_t^2]$ 为常数即得上式右侧的无条件方差公式，前提是 $\sum_i \alpha_i < 1$ 。

2. 即便 $z_t$ 正态，无条件分布也厚尾

ARCH 家族的形式化卖点：不动创新分布也能买到肥尾。取 ARCH(1)、 $z_t \sim N(0, 1)$ ，求 $\varepsilon_t$ 的无条件峰度。

由 $\varepsilon_t = \sigma_t z_t$ 与 $z_t \perp \mathcal{F}_{t-1}$ ： $E[\varepsilon_t^4] = E[\sigma_t^4]\,E[z_t^4] = 3\,E[\sigma_t^4]$ 。
对递推 $\sigma_t^2 = \omega + \alpha_1 \varepsilon_{t-1}^2$ 平方并取期望： $E[\sigma_t^4] = \omega^2 + 2\omega\alpha_1 E[\varepsilon_{t-1}^2] + \alpha_1^2 E[\varepsilon_{t-1}^4]$ 。
代入 $E[\varepsilon_{t-1}^2] = \omega/(1 - \alpha_1)$ 与 $E[\varepsilon_{t-1}^4] = 3 E[\sigma_{t-1}^4]$ ，并要求四阶矩平稳 $E[\sigma_t^4] = E[\sigma_{t-1}^4] = m_4$ ；解出 $m_4 = \omega^2(1 + \alpha_1)/[(1 - \alpha_1)(1 - 3\alpha_1^2)]$ ，前提 $3\alpha_1^2 < 1$ 。
代回 $\mathrm{kurt}(\varepsilon_t) = E[\varepsilon_t^4]/(E[\varepsilon_t^2])^2 = 3 m_4 \cdot (1 - \alpha_1)^2/\omega^2$ ，化简得

\mathrm{kurt}(\varepsilon_t) = \frac{3\,(1 - \alpha_1^2)}{1 - 3\alpha_1^2} > 3 \quad \text{当 } 0 < \alpha_1 < 1/\sqrt{3}.

这条公式就是 ARCH 的正式 punchline：条件高斯 + 条件异方差 $\Rightarrow$ 无条件厚尾。

3. GARCH(p, q)：以 $\sigma_{t-j}^2$ 换 parsimony

实证里要靠 ARCH 抓住缓慢衰减的平方收益 ACF，往往需要 $p \approx 10\text{--}20$ 阶。Bollerslev(1986)的招数是允许 $\sigma_t^2$ 依赖自身的过去：

\sigma_t^2 = \omega + \sum_{i=1}^{q} \alpha_i\,\varepsilon_{t-i}^2 + \sum_{j=1}^{p} \beta_j\,\sigma_{t-j}^2.

主战场是 GARCH(1, 1)：

\sigma_t^2 = \omega + \alpha\,\varepsilon_{t-1}^2 + \beta\,\sigma_{t-1}^2, \qquad \omega > 0,\ \alpha, \beta \geq 0,\ \alpha + \beta < 1.

Hansen-Lunde(2005)的对照实证表明：在大量数据集上击败 GARCH(1, 1) 都不容易。无条件方差推导：对递推取无条件期望；由全期望公式 $E[\varepsilon_{t-1}^2] = E[E[\varepsilon_{t-1}^2 \mid \mathcal{F}_{t-2}]] = E[\sigma_{t-1}^2]$ ，再用宽平稳 $E[\sigma_{t-1}^2] = \mathrm{Var}(\varepsilon_{t-1}) = \mathrm{Var}(\varepsilon_t)$ ，记为 $V$ ，得 $V = \omega + \alpha V + \beta V$ ，解出

\mathrm{Var}(\varepsilon_t) = \frac{\omega}{1 - \alpha - \beta}, \qquad \text{持续性参数 } \alpha + \beta;\ \alpha + \beta = 1 \text{ 即 IGARCH 边界}.

$\alpha + \beta$ 越接近 1，方差冲击的半衰期 $-\log 2/\log(\alpha+\beta)$ 越长；典型日频股票拟合给出 $\alpha \approx 0.05\text{--}0.10$ 、 $\beta \approx 0.85\text{--}0.93$ 、 $\alpha + \beta \approx 0.97$ ，相当于半衰期 20+ 天——这就是「波动率有记忆」在数字上的样子。到 $\alpha + \beta = 1$ 的边界，无条件方差不再存在，但过程仍可严平稳，称作 IGARCH。

Formula Explorer

omega + alpha * x + beta * y

把 $x = \varepsilon_{t-1}^2$ 、 $y = \sigma_{t-1}^2$ 拉一拉，能直观感受 $\omega$ 决定地板、 $\alpha$ 决定新冲击的杠杆、 $\beta$ 决定旧波动率的惯性。

4. 平方冲击的 ARMA(1, 1) 表示

定义 $\nu_t = \varepsilon_t^2 - \sigma_t^2 = \sigma_t^2(z_t^2 - 1)$ 。由 $z_t \perp \mathcal{F}_{t-1}$ 与 $E[z_t^2] = 1$ 立得 $E[\nu_t \mid \mathcal{F}_{t-1}] = 0$ —— $\{\nu_t\}$ 是鞅差(martingale-difference)序列；但它不是 i.i.d.，方差随 $\sigma_t^4$ 走。把 $\sigma_t^2 = \varepsilon_t^2 - \nu_t$ 代回 GARCH(1, 1) 递推，重新整理：

\varepsilon_t^2 = \omega + (\alpha + \beta)\,\varepsilon_{t-1}^2 + \nu_t - \beta\,\nu_{t-1},\qquad \nu_t = \varepsilon_t^2 - \sigma_t^2 = \sigma_t^2(z_t^2 - 1).

这正是平方冲击的 ARMA(1, 1) 表示，AR 系数为 $\alpha + \beta$ 、MA 系数为 $-\beta$ 。读出 ACF： $\rho_k(\varepsilon^2) = (\alpha + \beta)^{k-1}\,\rho_1(\varepsilon^2)$ （ $k \geq 1$ ），其中 $\rho_1$ 是 $(\alpha, \beta)$ 的闭式函数（王燕《应用时间序列分析》第六章给出明确表达，本课直接引用）。几何衰减、速率 $\alpha + \beta$ ——这正是 GARCH 相对「无 ARCH」原假设的可检验签名。

5. 拟极大似然(QML)估计

记 $\theta = (\mu, \omega, \alpha, \beta)$ 。条件正态(Gaussian distribution)假设下，样本 $\{r_1, \dots, r_T\}$ 的条件对数似然为

\ell(\theta) = -\frac{1}{2}\sum_{t=1}^{T}\left[\log(2\pi) + \log\sigma_t^2(\theta) + \frac{(r_t - \mu)^2}{\sigma_t^2(\theta)}\right],

其中 $\sigma_t^2(\theta)$ 由递推算出，初值 $\sigma_0^2$ 通常取样本方差（备选：backcast、预样本平稳方差；小样本敏感性需留意）。这是把高斯似然当成估计方程而不是真分布——所以叫 极大似然估计(maximum likelihood estimation)的拟版，QML。数值上用 BFGS / 牛顿法在 $\omega > 0$ 、 $\alpha, \beta \geq 0$ 、 $\alpha + \beta < 1$ 约束下极大化；优化器一旦把 $\hat\beta$ 撞到边界 0，往往不是「真不要 $\beta$ 」，而是初值差或样本太短，需重启或换初值。Bollerslev-Wooldridge(1992)的核心结论是：即使 $z_t$ 不是正态，把它当成正态拟出的 QML 估计 $\hat\theta$ 仍一致、渐近正态，但标准误必须重新算——协方差为夹心型 $\mathrm{Var}(\hat\theta) = I^{-1} J I^{-1}$ （ $I$ 为信息矩阵的负期望 Hessian、 $J$ 为得分外积），所谓 BW 夹心标准误(sandwich SE)。GARCH 参数表里挂的标准误，工业默认就是它；不报 BW SE 而直接报朴素信息矩阵 SE，在残差明显非正态时会系统性低估不确定性。残差 $\hat z_t = \hat\varepsilon_t/\hat\sigma_t$ 仍重尾时，把分布换成标准化 Student-t 是最常见的二次精化（仅作一句话提及，不展开）。

6. ARCH-LM 检验：先体检再建模

什么时候才该上 GARCH？答：先做 Engle(1982)的拉格朗日乘子检验。给定均值拟合后的残差 $e_t = r_t - \hat\mu_t$ ，跑辅助回归

e_t^2 = c_0 + \sum_{i=1}^{p} c_i\,e_{t-i}^2 + u_t,\qquad \mathrm{LM} = T R^2 \overset{a}{\sim} \chi^2_p \text{ 在 } H_0\!:\,\text{无 ARCH}.

$R^2$ 是辅助回归的判定系数。 $\mathrm{LM} > \chi^2_{p,\,1 - \alpha}$ 时拒绝「无 ARCH」原假设。若不拒绝，GARCH 相对同方差模型没有增量解释力——这一句把「先做 ARCH-LM、再决定要不要 GARCH」固化为流水线纪律。滞后阶数 $p$ 通常按数据频率选：日频取 $p = 5$ 或 $10$ 、周频取 $p = 4$ 、月频取 $p = 12$ ；多选几个 $p$ 一起报，结论稳健性自然显现。

练习

Exercise

设 GARCH(1, 1)： $\varepsilon_t = \sigma_t z_t$ 、 $z_t \sim \mathrm{iid}\,N(0, 1)$ 、 $\sigma_t^2 = \omega + \alpha\varepsilon_{t-1}^2 + \beta\sigma_{t-1}^2$ 、 $\omega > 0$ 、 $\alpha, \beta \geq 0$ 、 $\alpha + \beta < 1$ 。(a) 证明 $\{\varepsilon_t\}$ 是其自然滤子下的鞅差序列。(b) 推出无条件方差 $\mathrm{Var}(\varepsilon_t) = \omega/(1 - \alpha - \beta)$ 。(c) 令 $\nu_t = \varepsilon_t^2 - \sigma_t^2$ ，证 $E[\nu_t \mid \mathcal{F}_{t-1}] = 0$ 并导出 ARMA(1, 1) 表示 $\varepsilon_t^2 = \omega + (\alpha + \beta)\varepsilon_{t-1}^2 + \nu_t - \beta\nu_{t-1}$ 。(d) 读出滞后 $k \geq 1$ 处 $\rho_k(\varepsilon^2) = (\alpha + \beta)^{k-1}\rho_1(\varepsilon^2)$ ，并解释为什么这是 GARCH 相对「无 ARCH」的可检验签名。

提示

(a) 用

E[\varepsilon_t \mid \mathcal{F}_{t-1}] = \sigma_t E[z_t] = 0

。(b) 对方差递推两边取无条件期望、套宽平稳。(c) 把

\sigma_t^2 = \varepsilon_t^2 - \nu_t

代回递推整理 MA 项。

提示

(d) ARMA(1, 1) 的 ACF 在

k \geq 1

处按 AR 根

\alpha + \beta

几何衰减；i.i.d. 无 ARCH 原假设下平方收益 ACF 应在 Bartlett 带内,而 GARCH 给出系统性正且缓慢衰减,正是 ARCH-LM 检测的同一信号。

通向下一课

到这里你已经能在 GARCH(1, 1) 框架下写出条件方差递推、用 QML 拟参数并用 ARCH-LM 体检序列。但这套对称的 $\varepsilon_{t-1}^2$ 递推丢掉了冲击的符号——同等幅度的利空与利好被等同对待。股票收益里的杠杆效应(leverage effect)恰恰相反：利空抬升未来波动率的程度系统性地高于同等幅度的利好。第二课会放松这一对称假设、引入 EGARCH 与 GJR-GARCH 等非对称族，并把单变量框架推广到多变量条件协方差矩阵 $H_t$ 的常相关(CCC)与动态相关(DCC)参数化，覆盖跨资产风险传染的工程默认工具。