← 返回模块
2.3.2.1beta 可读 · 未来免费校验通过内容版本 2026-05-26

ARCH 与 GARCH 模型

2.3.2 · 波动率与机制转换模型 · 数学与统计能力

某私募(private fund)的风控会上,研究员甩出沪深300 日收益的实证表:日内收益序列本身的自相关系数 ρ^(k)\hat\rho(k) 在滞后 k1k \geq 1 时几乎全部落在 ±2/T\pm 2/\sqrt{T} 的 Bartlett 带内;可一旦把同一条序列​​平方​​再画一次 ACF,从滞后 1 到滞后 60 全是正值、缓慢衰减。再算样本峰度:5.8——远大于正态分布(Gaussian distribution)的 3。这两条​​程式化事实​​(stylized facts)对几乎任何日频股票或股指收益序列都成立:

  • ​波动率聚集​​(volatility clustering):大涨大跌成串出现、平静期也成串出现,所以 ρk(r2)\rho_k(r^2) 在多达几十个滞后上系统性偏正,而 ρk(r)\rho_k(r) 自滞后 1 起统计零。
  • ​重尾​​(heavy tails):日频股票收益的样本峰度通常在 5–15,远在 3 之上——同方差正态被尾部行为先验拒绝,根本轮不到形式检验。

本课要解决的就是这道矛盾——如何在「条件均值不可预测」的同时把「条件方差随时间变化」建模进去。Engle(1982)与 Bollerslev(1986)给的答案叫 ARCH / GARCH。

​先把 2.3.1 的地基以五句话钉牢​​。第一,宽​​平稳​​(weakly stationary)指均值为常数、方差有限且自协方差 γ(k)\gamma(k) 只依赖于滞后 kk。第二,​​自回归​​(autoregressive, AR)模型把当前值写成过去值的线性组合加白噪声,与 MA 拼成 ARMA(p, q)。第三,滞后算子 LL 满足 LkXt=XtkL^k X_t = X_{t-k},AR 多项式 ϕ(L)\phi(L) 的根落在单位圆外即平稳。第四,​​条件矩​​(given Ft1\mathcal{F}_{t-1})与​​无条件矩​​通过迭代期望 E[Xt]=E[E[XtFt1]]E[X_t] = E[E[X_t \mid \mathcal{F}_{t-1}]] 桥接——本课反复使用。第五,纯白噪声 {εt}\{\varepsilon_t\} 在 ARMA 框架里默认同方差;ARCH / GARCH 要做的恰恰是把这条「同方差」假设拆掉。

1. ARCH(p):把方差挂到过去冲击上

把观察到的收益写成

rt=μt+εt,μt=E[rtFt1],r_t = \mu_t + \varepsilon_t, \qquad \mu_t = E[r_t \mid \mathcal{F}_{t-1}],

其中 μt\mu_t 是条件均值——实践里通常取常数或 2.3.1 拟合的 ARMA。​​均值方程负责自相关,方差方程负责波动率聚集​​,两条线分工清晰。冲击 εt=σtzt\varepsilon_t = \sigma_t z_t,其中 {zt}\{z_t\} 独立同分布(i.i.d.)且 E[zt]=0E[z_t] = 0Var(zt)=1\mathrm{Var}(z_t) = 1;工程默认 ztN(0,1)z_t \sim N(0, 1)(标准化 Student-t、GED 是常见替代,仅作一句话提及)。Engle(1982)的 ARCH(p) 把条件方差递推为:

σt2=ω+i=1pαiεti2,εt=σtzt,ztiid(0,1),Var(εt)=ω1i=1pαi.\sigma_t^2 = \omega + \sum_{i=1}^{p} \alpha_i\,\varepsilon_{t-i}^2, \qquad \varepsilon_t = \sigma_t z_t,\quad z_t \overset{\mathrm{iid}}{\sim} (0, 1),\qquad \mathrm{Var}(\varepsilon_t) = \frac{\omega}{1 - \sum_{i=1}^{p}\alpha_i}.

约束 ω>0\omega > 0αi0\alpha_i \geq 0 保证 σt2>0\sigma_t^2 > 0 几乎必然成立。注意 σt2\sigma_t^2εt12,,εtp2\varepsilon_{t-1}^2, \dots, \varepsilon_{t-p}^2 决定,是 Ft1\mathcal{F}_{t-1} 可测的,所以 Var(εtFt1)=σt2\mathrm{Var}(\varepsilon_t \mid \mathcal{F}_{t-1}) = \sigma_t^2 由构造自动成立——这正是「条件异方差」(conditional heteroskedasticity)四字的字面来源。对递推两端取无条件期望、用宽平稳 E[εt2]E[\varepsilon_t^2] 为常数即得上式右侧的无条件方差公式,前提是 iαi<1\sum_i \alpha_i < 1

2. 即便 ztz_t 正态,无条件分布也厚尾

ARCH 家族的形式化卖点:​​不动创新分布也能买到肥尾​​。取 ARCH(1)、ztN(0,1)z_t \sim N(0, 1),求 εt\varepsilon_t 的无条件峰度。

  1. εt=σtzt\varepsilon_t = \sigma_t z_tztFt1z_t \perp \mathcal{F}_{t-1}E[εt4]=E[σt4]E[zt4]=3E[σt4]E[\varepsilon_t^4] = E[\sigma_t^4]\,E[z_t^4] = 3\,E[\sigma_t^4]
  2. 对递推 σt2=ω+α1εt12\sigma_t^2 = \omega + \alpha_1 \varepsilon_{t-1}^2 平方并取期望:E[σt4]=ω2+2ωα1E[εt12]+α12E[εt14]E[\sigma_t^4] = \omega^2 + 2\omega\alpha_1 E[\varepsilon_{t-1}^2] + \alpha_1^2 E[\varepsilon_{t-1}^4]
  3. 代入 E[εt12]=ω/(1α1)E[\varepsilon_{t-1}^2] = \omega/(1 - \alpha_1)E[εt14]=3E[σt14]E[\varepsilon_{t-1}^4] = 3 E[\sigma_{t-1}^4],并要求四阶矩平稳 E[σt4]=E[σt14]=m4E[\sigma_t^4] = E[\sigma_{t-1}^4] = m_4;解出 m4=ω2(1+α1)/[(1α1)(13α12)]m_4 = \omega^2(1 + \alpha_1)/[(1 - \alpha_1)(1 - 3\alpha_1^2)],前提 3α12<13\alpha_1^2 < 1
  4. 代回 kurt(εt)=E[εt4]/(E[εt2])2=3m4(1α1)2/ω2\mathrm{kurt}(\varepsilon_t) = E[\varepsilon_t^4]/(E[\varepsilon_t^2])^2 = 3 m_4 \cdot (1 - \alpha_1)^2/\omega^2,化简得
kurt(εt)=3(1α12)13α12>3当 0<α1<1/3.\mathrm{kurt}(\varepsilon_t) = \frac{3\,(1 - \alpha_1^2)}{1 - 3\alpha_1^2} > 3 \quad \text{当 } 0 < \alpha_1 < 1/\sqrt{3}.

这条公式就是 ARCH 的正式 punchline:条件高斯 + 条件异方差 \Rightarrow 无条件厚尾。

3. GARCH(p, q):以 σtj2\sigma_{t-j}^2 换 parsimony

实证里要靠 ARCH 抓住缓慢衰减的平方收益 ACF,往往需要 p1020p \approx 10\text{--}20 阶。Bollerslev(1986)的招数是允许 σt2\sigma_t^2 依赖​​自身的过去​​:

σt2=ω+i=1qαiεti2+j=1pβjσtj2.\sigma_t^2 = \omega + \sum_{i=1}^{q} \alpha_i\,\varepsilon_{t-i}^2 + \sum_{j=1}^{p} \beta_j\,\sigma_{t-j}^2.

主战场是 GARCH(1, 1):

σt2=ω+αεt12+βσt12,ω>0, α,β0, α+β<1.\sigma_t^2 = \omega + \alpha\,\varepsilon_{t-1}^2 + \beta\,\sigma_{t-1}^2, \qquad \omega > 0,\ \alpha, \beta \geq 0,\ \alpha + \beta < 1.

Hansen-Lunde(2005)的对照实证表明:在大量数据集上击败 GARCH(1, 1) 都不容易。​​无条件方差推导​​:对递推取无条件期望;由全期望公式 E[εt12]=E[E[εt12Ft2]]=E[σt12]E[\varepsilon_{t-1}^2] = E[E[\varepsilon_{t-1}^2 \mid \mathcal{F}_{t-2}]] = E[\sigma_{t-1}^2],再用宽平稳 E[σt12]=Var(εt1)=Var(εt)E[\sigma_{t-1}^2] = \mathrm{Var}(\varepsilon_{t-1}) = \mathrm{Var}(\varepsilon_t),记为 VV,得 V=ω+αV+βVV = \omega + \alpha V + \beta V,解出

Var(εt)=ω1αβ,持续性参数 α+β; α+β=1 即 IGARCH 边界.\mathrm{Var}(\varepsilon_t) = \frac{\omega}{1 - \alpha - \beta}, \qquad \text{持续性参数 } \alpha + \beta;\ \alpha + \beta = 1 \text{ 即 IGARCH 边界}.

α+β\alpha + \beta 越接近 1,方差冲击的半衰期 log2/log(α+β)-\log 2/\log(\alpha+\beta) 越长;典型日频股票拟合给出 α0.050.10\alpha \approx 0.05\text{--}0.10β0.850.93\beta \approx 0.85\text{--}0.93α+β0.97\alpha + \beta \approx 0.97,相当于半衰期 20+ 天——这就是「波动率有记忆」在数字上的样子。到 α+β=1\alpha + \beta = 1 的边界,无条件方差不再存在,但过程仍可严平稳,称作 IGARCH。

Formula Explorer

omega + alpha * x + beta * y

x=εt12x = \varepsilon_{t-1}^2y=σt12y = \sigma_{t-1}^2 拉一拉,能直观感受 ω\omega 决定地板、α\alpha 决定新冲击的杠杆、β\beta 决定旧波动率的惯性。

4. 平方冲击的 ARMA(1, 1) 表示

定义 νt=εt2σt2=σt2(zt21)\nu_t = \varepsilon_t^2 - \sigma_t^2 = \sigma_t^2(z_t^2 - 1)。由 ztFt1z_t \perp \mathcal{F}_{t-1}E[zt2]=1E[z_t^2] = 1 立得 E[νtFt1]=0E[\nu_t \mid \mathcal{F}_{t-1}] = 0——{νt}\{\nu_t\} 是鞅差(martingale-difference)序列;但它​​不是​ i.i.d.,方差随 σt4\sigma_t^4 走。把 σt2=εt2νt\sigma_t^2 = \varepsilon_t^2 - \nu_t 代回 GARCH(1, 1) 递推,重新整理:

εt2=ω+(α+β)εt12+νtβνt1,νt=εt2σt2=σt2(zt21).\varepsilon_t^2 = \omega + (\alpha + \beta)\,\varepsilon_{t-1}^2 + \nu_t - \beta\,\nu_{t-1},\qquad \nu_t = \varepsilon_t^2 - \sigma_t^2 = \sigma_t^2(z_t^2 - 1).

这正是平方冲击的 ARMA(1, 1) 表示,AR 系数为 α+β\alpha + \beta、MA 系数为 β-\beta。读出 ACF:ρk(ε2)=(α+β)k1ρ1(ε2)\rho_k(\varepsilon^2) = (\alpha + \beta)^{k-1}\,\rho_1(\varepsilon^2)k1k \geq 1),其中 ρ1\rho_1(α,β)(\alpha, \beta) 的闭式函数(王燕《应用时间序列分析》第六章给出明确表达,本课直接引用)。​​几何衰减、速率 α+β\alpha + \beta​​​——这正是 GARCH 相对「无 ARCH」原假设的可检验签名。

5. 拟极大似然(QML)估计

θ=(μ,ω,α,β)\theta = (\mu, \omega, \alpha, \beta)。条件正态(Gaussian distribution)假设下,样本 {r1,,rT}\{r_1, \dots, r_T\} 的条件对数似然为

(θ)=12t=1T[log(2π)+logσt2(θ)+(rtμ)2σt2(θ)],\ell(\theta) = -\frac{1}{2}\sum_{t=1}^{T}\left[\log(2\pi) + \log\sigma_t^2(\theta) + \frac{(r_t - \mu)^2}{\sigma_t^2(\theta)}\right],

其中 σt2(θ)\sigma_t^2(\theta) 由递推算出,初值 σ02\sigma_0^2 通常取样本方差(备选:backcast、预样本平稳方差;小样本敏感性需留意)。这是把高斯似然当成​​估计方程​​而不是真分布——所以叫 ​极大似然估计​​(maximum likelihood estimation)的拟版,QML。数值上用 BFGS / 牛顿法在 ω>0\omega > 0α,β0\alpha, \beta \geq 0α+β<1\alpha + \beta < 1 约束下极大化;优化器一旦把 β^\hat\beta 撞到边界 0,往往不是「真不要 β\beta」,而是初值差或样本太短,需重启或换初值。Bollerslev-Wooldridge(1992)的核心结论是:​​即使​ ztz_t 不是正态,把它当成正态拟出的 QML 估计 θ^\hat\theta 仍一致、渐近正态,但​​标准误必须重新算​​——协方差为夹心型 Var(θ^)=I1JI1\mathrm{Var}(\hat\theta) = I^{-1} J I^{-1}II 为信息矩阵的负期望 Hessian、JJ 为得分外积),所谓 BW 夹心标准误(sandwich SE)。GARCH 参数表里挂的标准误,工业默认就是它;不报 BW SE 而直接报朴素信息矩阵 SE,在残差明显非正态时会系统性低估不确定性。残差 z^t=ε^t/σ^t\hat z_t = \hat\varepsilon_t/\hat\sigma_t 仍重尾时,把分布换成标准化 Student-t 是最常见的二次精化(仅作一句话提及,不展开)。

6. ARCH-LM 检验:先体检再建模

什么时候才该上 GARCH?答:先做 Engle(1982)的拉格朗日乘子检验。给定均值拟合后的残差 et=rtμ^te_t = r_t - \hat\mu_t,跑辅助回归

et2=c0+i=1pcieti2+ut,LM=TR2aχp2 在 H0 ⁣:无 ARCH.e_t^2 = c_0 + \sum_{i=1}^{p} c_i\,e_{t-i}^2 + u_t,\qquad \mathrm{LM} = T R^2 \overset{a}{\sim} \chi^2_p \text{ 在 } H_0\!:\,\text{无 ARCH}.

R2R^2 是辅助回归的判定系数。LM>χp,1α2\mathrm{LM} > \chi^2_{p,\,1 - \alpha} 时拒绝「无 ARCH」原假设。若不拒绝,GARCH 相对同方差模型没有增量解释力——这一句把「先做 ARCH-LM、再决定要不要 GARCH」固化为流水线纪律。滞后阶数 pp 通常按数据频率选:日频取 p=5p = 51010、周频取 p=4p = 4、月频取 p=12p = 12;多选几个 pp 一起报,结论稳健性自然显现。

练习

Exercise

设 GARCH(1, 1):εt=σtzt\varepsilon_t = \sigma_t z_tztiidN(0,1)z_t \sim \mathrm{iid}\,N(0, 1)σt2=ω+αεt12+βσt12\sigma_t^2 = \omega + \alpha\varepsilon_{t-1}^2 + \beta\sigma_{t-1}^2ω>0\omega > 0α,β0\alpha, \beta \geq 0α+β<1\alpha + \beta < 1。(a) 证明 {εt}\{\varepsilon_t\} 是其自然滤子下的鞅差序列。(b) 推出无条件方差 Var(εt)=ω/(1αβ)\mathrm{Var}(\varepsilon_t) = \omega/(1 - \alpha - \beta)。(c) 令 νt=εt2σt2\nu_t = \varepsilon_t^2 - \sigma_t^2,证 E[νtFt1]=0E[\nu_t \mid \mathcal{F}_{t-1}] = 0 并导出 ARMA(1, 1) 表示 εt2=ω+(α+β)εt12+νtβνt1\varepsilon_t^2 = \omega + (\alpha + \beta)\varepsilon_{t-1}^2 + \nu_t - \beta\nu_{t-1}。(d) 读出滞后 k1k \geq 1ρk(ε2)=(α+β)k1ρ1(ε2)\rho_k(\varepsilon^2) = (\alpha + \beta)^{k-1}\rho_1(\varepsilon^2),并解释为什么这是 GARCH 相对「无 ARCH」的可检验签名。

提示
(a) 用 E[εtFt1]=σtE[zt]=0E[\varepsilon_t \mid \mathcal{F}_{t-1}] = \sigma_t E[z_t] = 0。(b) 对方差递推两边取无条件期望、套宽平稳。(c) 把 σt2=εt2νt\sigma_t^2 = \varepsilon_t^2 - \nu_t 代回递推整理 MA 项。
提示
(d) ARMA(1, 1) 的 ACF 在 k1k \geq 1 处按 AR 根 α+β\alpha + \beta 几何衰减;i.i.d. 无 ARCH 原假设下平方收益 ACF 应在 Bartlett 带内,而 GARCH 给出系统性正且缓慢衰减,正是 ARCH-LM 检测的同一信号。

通向下一课

到这里你已经能在 GARCH(1, 1) 框架下写出条件方差递推、用 QML 拟参数并用 ARCH-LM 体检序列。但这套对称的 εt12\varepsilon_{t-1}^2 递推丢掉了​​冲击的符号​​——同等幅度的利空与利好被等同对待。股票收益里的杠杆效应(leverage effect)恰恰相反:利空抬升未来波动率的程度系统性地高于同等幅度的利好。第二课会放松这一对称假设、引入 EGARCH 与 GJR-GARCH 等非对称族,并把单变量框架推广到多变量条件协方差矩阵 HtH_t 的常相关(CCC)与动态相关(DCC)参数化,覆盖跨资产风险传染的工程默认工具。