非对称与多元 GARCH — 波动率与机制转换模型

周五下午两点,沪深300 当日累计跌幅已经放大到 2.8%、还在加速。你在一家中型私募(private fund)做日内风险报表,上周用对称 GARCH(1, 1) 给组合估的次日条件方差,在过去三次类似的放量下跌之后,滚动校准里都低估了实际 realised vol 将近 30%——而向上的同尺度日子,模型反而略偏高。问题不在样本,也不在 $z_t$ 是否服从正态分布(Gaussian distribution),而出在模型递推本身:它先把 $\varepsilon_{t-1}$ 平方,符号信息整条丢掉了。本课的任务有两件——先把符号信息塞回单变量(EGARCH 与 GJR-GARCH),再把单资产的方差升级为 $k$ 资产组合的协方差矩阵(covariance matrix)版本(BEKK、CCC、DCC)。

1. 杠杆效应:对称 GARCH 漏掉了什么

Black (1976) 与 Christie (1982) 给出的机制解释是:股价下跌使公司净资产相对负债比被动收缩,杠杆(leverage)被放大,股权波动也随之放大——所谓杠杆效应(leverage effect)。这一机制是否唯一正确尚有争议,但实证规律本身极稳健:在绝大多数股指日收益上, $-1\sigma$ 量级的负向冲击对次日条件方差的推升,显著高于 $+1\sigma$ 的正向同尺度冲击。对称 GARCH(1, 1) 的递推 $\sigma_t^2 = \omega + \alpha\,\varepsilon_{t-1}^2 + \beta\,\sigma_{t-1}^2$ 只通过 $\varepsilon_{t-1}^2$ 接收过去信息, $\varepsilon_{t-1}$ 的符号在平方那一步被完全抹掉。要把符号塞回去,文献给了两条主流参数化。

2. EGARCH(1, 1):对数方差递推

Nelson (1991) 把递推搬到对数条件方差上。记标准化创新 $z_t = \varepsilon_t / \sigma_t$ ,EGARCH(1, 1) 写作

\log\sigma_t^2 = \omega + \beta\,\log\sigma_{t-1}^2 + \alpha\,z_{t-1} + \gamma\,(|z_{t-1}| - E|z_{t-1}|).

在 Gaussian 创新下 $E|z_t| = \sqrt{2/\pi}$ ——这个常数把冲击函数 $g(z) = \alpha z + \gamma\,(|z| - E|z|)$ 中的幅度项中心化到零均值。 $g$ 拆成两半: $\alpha z$ 是符号项,把过去冲击的方向塞进 $\log\sigma_t^2$ ; $\gamma\,(|z| - E|z|)$ 是幅度偏离项,只看 $|z|$ 相对其期望的偏离。这一参数化有两件结构性好事:

$\sigma_t^2 = \exp(\log\sigma_t^2) > 0$ 自动成立,无须对 $(\omega, \alpha, \gamma, \beta)$ 强加正性约束,数值优化更省心;
权益市场上 $\alpha$ 通常显著为负,意味着 $z_{t-1} < 0$ 比同尺度的 $z_{t-1} > 0$ 把 $\log\sigma_t^2$ 推得更高——这正是杠杆效应的代数体现。

弱平稳条件简单:AR(1) 块满足 $|\beta| < 1$ , $p$ 阶推广为 $\sum_{j=1}^{p}\beta_j < 1$ 。这一条件等价于把 $\log\sigma_t^2$ 看作 AR(p) 时其特征多项式的根位于单位圆外——它不约束 $\alpha, \gamma$ 的取值,因为这两项在对数尺度上只贡献有界的冲击项 $g(z_{t-1})$ ,不影响特征根。

3. GJR-GARCH(1, 1):层级模型与信息冲击曲线

Glosten-Jagannathan-Runkle (1993) 给出更接近经典 GARCH 形态的层级(level-form)写法:

\sigma_t^2 = \omega + \alpha\,\varepsilon_{t-1}^2 + \gamma\,\varepsilon_{t-1}^2\,\mathbf{1}\{\varepsilon_{t-1} < 0\} + \beta\,\sigma_{t-1}^2,

正性约束为 $\omega > 0$ 、 $\alpha \geq 0$ 、 $\alpha + \gamma \geq 0$ 、 $\beta \geq 0$ ,弱平稳条件(下一节推导)为 $\alpha + \gamma/2 + \beta < 1$ 。 $\gamma > 0$ 即杠杆参数:一次 $-\xi$ 量级冲击的贡献是 $(\alpha + \gamma)\xi^2$ ,一次 $+\xi$ 的贡献只有 $\alpha\xi^2$ ,差额 $\gamma\xi^2$ 就是非对称性的代数指纹。

把 $\sigma_t^2$ 作为 $\varepsilon_{t-1}$ 的函数、固定 $\sigma_{t-1}^2$ 在无条件方差,就得到 Pagan-Schwert (1990) 的信息冲击曲线(news-impact curve, NIC):对称 GARCH 的 NIC 是一条以原点为顶点的对称抛物线;GJR-GARCH 的 NIC 是两段半抛物线,在 $\varepsilon_{t-1} = 0$ 处出现折点、左半边斜率 $\alpha + \gamma$ 严格大于右半边斜率 $\alpha$ ;EGARCH 的 NIC 是 $\exp(\cdot)$ 形态,严格凸且左右斜率非对称。NIC 是对比三类模型最直接的视觉工具。下面这个 FormulaExplorer 让你拉动 $(\omega, \alpha, \gamma, \beta, \text{sigma2\_prev})$ 的滑块,直接观察 GJR 的 NIC 在折点两侧的斜率差异:

Formula Explorer

omega + (alpha + gamma * (x < 0)) * x^2 + beta * sigma2_prev

4. 无条件方差的推导

对 GJR-GARCH(1, 1) 的递推两边取无条件期望——假设过程已经弱平稳,记 $V = E[\sigma_t^2] = E[\varepsilon_t^2]$ 与 $t$ 无关。三步:

由全期望公式 $E[\varepsilon_{t-1}^2] = E[\sigma_{t-1}^2\,z_{t-1}^2] = V \cdot E[z_{t-1}^2] = V$ ,因为 $E[z_t^2] = 1$ ;
创新 $z_{t-1}$ 关于零对称、且与 $\mathcal{F}_{t-2}$ -可测的 $\sigma_{t-1}^2$ 独立,故 $E[\varepsilon_{t-1}^2\,\mathbf{1}\{\varepsilon_{t-1} < 0\}] = E[\sigma_{t-1}^2]\,E[z_{t-1}^2\,\mathbf{1}\{z_{t-1} < 0\}] = V \cdot \tfrac{1}{2}E[z_{t-1}^2] = \tfrac{V}{2};$
代回递推得 $V = \omega + \alpha V + \gamma \cdot \tfrac{V}{2} + \beta V$ ,解出 $\mathrm{Var}(\varepsilon_t) = V = \frac{\omega}{1 - \alpha - \gamma/2 - \beta}.$

弱平稳与正无条件方差同时要求 $\alpha + \gamma/2 + \beta < 1$ ,这就是 GJR-GARCH(1, 1) 的稳定区。 $\alpha + \gamma/2 + \beta = 1$ 是非对称版的 IGARCH 边界;长记忆推广(FIGARCH、HYGARCH)只在此点名,完整推导见 Tsay 第 3.13 节。

5. 估计:QML 与三明治标准误

EGARCH 与 GJR-GARCH 完全继承上一课的极大似然估计(maximum likelihood estimation, MLE)框架:在条件正态假设下写出对数似然,即便真实 $z_t$ 是 Student-t 或有偏 t,这一估计仍按 Bollerslev-Wooldridge 的拟极大似然(quasi-MLE, QML)解读,标准误用三明治形式。一元的对数似然形式与上一课同型,只把 $\sigma_t^2(\theta)$ 替换为当前模型递推;参数维度也只多一个杠杆项,样本量没增加多少边际负担。数值上 EGARCH 因无须正性约束更省心,梯度近乎处处可微;GJR 优化器需要在约束面 $\alpha + \gamma \geq 0$ 上维护可行性,通常以参数重参数化或带屏障的内点法处理。若多元创新出现联合厚尾,常见修正是把多元正态似然换成多元 Student-t,本课不展开。

6. 多元 GARCH:从 $H_t$ 到 DCC

把视角换到 $k$ 资产组合。条件均值残差 $\varepsilon_t = r_t - \mu_t$ ,条件协方差矩阵

H_t = E[\varepsilon_t\varepsilon_t^\top \mid \mathcal{F}_{t-1}].

仅给每只资产单独跑一元 GARCH 不够——组合 VaR、跟踪误差、最优对冲比都需要完整的 $H_t$ 。维度诅咒来得很快: $\mathrm{vech}(H_t)$ 长 $k(k + 1)/2$ ,朴素 VEC(1, 1) 参数量 $O(k^4)$ , $k > 3$ 即不可行。三种工程化方案如下。

(a) BEKK(Engle-Kroner 1995):

H_t = CC^\top + A\,\varepsilon_{t-1}\varepsilon_{t-1}^\top A^\top + B\,H_{t-1}\,B^\top,

其中 $C, A, B$ 均为 $k \times k$ 矩阵。二次型构造直接保证 $H_t$ 半正定,无须额外正性约束;参数量降到 $O(k^2)$ ,实务中常用 $A, B$ 对角的简化形式以进一步压缩。

(b) CCC(Bollerslev 1990)与 (c) DCC(Engle 2002):共享同一分解,但相关性矩阵的处理不同:

H_t = D_t R_t D_t, \quad Q_t = (1 - a - b)\,\bar{Q} + a\,u_{t-1} u_{t-1}^\top + b\,Q_{t-1}, \quad R_t = (Q_t^*)^{-1/2}\,Q_t\,(Q_t^*)^{-1/2},

其中 $D_t = \mathrm{diag}(\sigma_{1, t}, \dots, \sigma_{k, t})$ 来自 $k$ 个独立的一元 GARCH(1, 1) 拟合, $u_t = D_t^{-1}\varepsilon_t$ 是标准化残差, $\bar{Q} = T^{-1}\sum_t u_t u_t^\top$ 是 $\{u_t\}$ 的样本协方差, $Q_t^* = \mathrm{diag}(Q_t)$ 用作归一化对角;CCC 直接令 $R_t \equiv R$ (常相关),DCC 则按上式让 $R_t$ 动态演化,且仅多两个标量参数 $a, b \geq 0$ 、 $a + b < 1$ 。

多元正态条件密度对应的对数似然把一元的二次项升级为二次型:

\ell(\theta) = -\dfrac{1}{2}\sum_{t=1}^{T}\bigl[k\log(2\pi) + \log\det H_t(\theta) + \varepsilon_t^\top H_t(\theta)^{-1}\,\varepsilon_t\bigr].

DCC 的两阶段估计是工程化关键,严格按 Engle (2002) 原文顺序:阶段一对每只资产独立拟合一元 GARCH(1, 1) 得到对角的 $D_t$ ;阶段二固定 $D_t$ ,用 $u_t = D_t^{-1}\varepsilon_t$ 仅就 $(a, b)$ 最大化相关性对数似然。CCC 是否站得住脚由 Engle-Sheppard (2001) 的常条件相关性检验给出——拒绝即转用 DCC。非对称版本(Cappiello-Engle-Sheppard 2006 的 ADCC)把杠杆效应推进到相关性矩阵层面,本课不展开。

7. 通向下一课

回看本模块的两课:从对称 GARCH 到 GJR、EGARCH、再到 BEKK / DCC,估计骨架完全相同——在条件正态假设下写出对数似然、数值优化、汇报 Bollerslev-Wooldridge 三明治标准误;模型与模型之间的差别只在 $\sigma_t^2$ 或 $H_t$ 的递推形式。但 GARCH 族共享一个核心假设: $\sigma_t^2$ (以及 $H_t$ )都是过去冲击的确定性函数,即 $\mathcal{F}_{t-1}$ -可测。下一课要放弃这条假设——令 $\log\sigma_t^2$ 自身服从一条由独立创新驱动的隐含 AR(1) 过程,这就是随机波动率(stochastic volatility, SV)模型族。它在选择权定价上更贴近 Heston / SABR 的直觉,但代价是估计要从滤波或 MCMC 入手,远比 GARCH 族的 QML 麻烦。

练习

Exercise

考虑 GJR-GARCH(1, 1) 模型 $\varepsilon_t = \sigma_t z_t$ ,其中 $z_t \overset{\mathrm{i.i.d.}}{\sim} (0, 1)$ 关于零对称,且 $\sigma_t^2 = \omega + \alpha\,\varepsilon_{t-1}^2 + \gamma\,\varepsilon_{t-1}^2\,\mathbf{1}\{\varepsilon_{t-1} < 0\} + \beta\,\sigma_{t-1}^2$ ,参数满足 $\omega > 0$ 、 $\alpha, \beta \geq 0$ 、 $\alpha + \gamma \geq 0$ 。(a) 证明在 $z_t$ 对称的条件下 $E[\varepsilon_{t-1}^2\,\mathbf{1}\{\varepsilon_{t-1} < 0\}] = \tfrac{1}{2}\,\mathrm{Var}(\varepsilon_{t-1})$ 。(b) 推导无条件方差 $\mathrm{Var}(\varepsilon_t) = \omega / (1 - \alpha - \gamma/2 - \beta)$ ,并写出对应的弱平稳条件。(c) 画出信息冲击曲线 $\sigma_t^2$ 关于 $\varepsilon_{t-1}$ 的图(把 $\sigma_{t-1}^2$ 固定在无条件方差),并解释为什么 $\gamma > 0$ 对应杠杆效应。(d) 假设对 $k$ 资产组合逐资产拟合一元 GARCH(1, 1) 得 $D_t = \mathrm{diag}(\sigma_{1, t}, \dots, \sigma_{k, t})$ ,定义标准化残差 $u_t = D_t^{-1}\varepsilon_t$ ,写出 DCC(1, 1) 的 $Q_t$ 递推与由此得到的 $R_t$ 。

提示

(a) 把

\varepsilon_{t-1}^2\,\mathbf{1}\{\varepsilon_{t-1}<0\}

拆成

\sigma_{t-1}^2\,z_{t-1}^2\,\mathbf{1}\{z_{t-1}<0\}

;由独立性与

z_{t-1}

对称即得

E[z^2\,\mathbf{1}\{z<0\}] = \tfrac{1}{2}

。

提示

(b) 对递推两端取期望并代入 (a),得

V = \omega + (\alpha + \gamma/2 + \beta)V

,解出

V

与稳定区;(c) 左右半边斜率分别为

\alpha + \gamma

与

\alpha

;(d) 用上节给出的

Q_t

与

R_t = (Q_t^*)^{-1/2}Q_t(Q_t^*)^{-1/2}

即可。