随机波动率模型 — 波动率与机制转换模型

周一下午两点半，深圳某量化私募的风险主管盯着她的隔夜波动率监控板：上周她团队用 GARCH(1, 1) 给沪深300股指期货账户出具的次日条件方差 $\sigma_t^2$ 只有一个数字 0.0142；今天 CIO 却问「明天有多大概率把 $\sigma_t^2$ 看成 0.02 以上」。这两个问题不能由同一个模型回答。GARCH 把波动率锁成过往收益的确定性函数，「方差自身的不确定性」根本不存在于这一族模型里。本课把波动率从「过往的函数」松开为「带自身随机源的隐变量」——随机波动率（stochastic volatility, SV）模型。

一、从条件方差到隐含状态

前两课的 GARCH(1, 1) 写出 $\sigma_t^2 = \omega + \alpha\,\varepsilon_{t-1}^2 + \beta\,\sigma_{t-1}^2$ ，波动率是 $\mathcal{F}_{t-1}$ 可测的——给定截至 $t-1$ 的收益历史， $\sigma_t^2$ 是一个确切的数。这是一项强假设：它要求波动率不存在与收益历史相独立的随机源。SV 家族放松这一点：让波动率被自己的新息驱动，与收益新息独立。即便给定全段收益路径，台上交易员也只能写出 $\sigma_t^2$ 的后验分布，而不能写出一个数。这一句话听起来抽象，但落到对冲账户上就极具体：明天的隔夜方差不再是一根直线，而是一段带宽，风险预算与对冲规模必须随之配比。

二、Taylor (1986) 的对数 SV 模型

记收益为 $r_t$ 。Taylor 在 1986 年提出的离散时间 SV 模型用对数方差 $h_t = \log\sigma_t^2$ 作为隐含状态：

r_t = \mu + \varepsilon_t, \quad \varepsilon_t = \exp(h_t / 2)\,z_t, \quad z_t \overset{\mathrm{iid}}{\sim} N(0, 1)

h_t = \mu_h + \phi\,(h_{t-1} - \mu_h) + \sigma_\eta\,\eta_t, \quad \eta_t \overset{\mathrm{iid}}{\sim} N(0, 1) \perp \{z_s\}, \quad |\phi| < 1

参数向量 $\theta = (\mu,\ \mu_h,\ \phi,\ \sigma_\eta)$ 。 $\mu$ 是条件均值（通常很小，常被固定为样本均值）； $\mu_h$ 是长期对数方差； $\phi \in (-1, 1)$ 是自回归（autoregressive）AR(1) 持续性，股票日数据典型估值落在 0.95–0.99； $\sigma_\eta > 0$ 是波动率之波动率（vol-of-vol）。在 $|\phi| < 1$ 下，对数波动率 $h_t$ 是弱平稳（stationary）的高斯 AR(1)；它从未被直接观测，是隐变量。

三、稳态矩与厚尾的封闭形式

$h_t$ 是平稳正态分布（Gaussian distribution）AR(1)，故

h_t \sim N\!\left(\mu_h,\ \sigma_h^2\right), \quad \sigma_h^2 = \frac{\sigma_\eta^2}{1 - \phi^2}, \quad \mathrm{Var}(\varepsilon_t) = \exp\!\left(\mu_h + \frac{\sigma_h^2}{2}\right), \quad \frac{E[\varepsilon_t^4]}{(E[\varepsilon_t^2])^2} = 3\,\exp(\sigma_h^2) > 3

完整推导只需正态变量矩母函数与 $z_t$ 的低阶矩。由 $h_t \sim N(\mu_h,\ \sigma_h^2)$ 以及 $E[\exp(\lambda X)] = \exp(\lambda \mu + \lambda^2 \sigma^2 / 2)$ ，得 $E[\exp(h_t)] = \exp(\mu_h + \sigma_h^2 / 2)$ 、 $E[\exp(2 h_t)] = \exp(2 \mu_h + 2 \sigma_h^2)$ 。再由 $z_t$ 与 $h_t$ 独立、 $E[z_t] = 0$ 、 $E[z_t^2] = 1$ 、 $E[z_t^4] = 3$ ，逐项算出：

$E[\varepsilon_t] = E[\exp(h_t / 2)]\,E[z_t] = 0$ 。
$\mathrm{Var}(\varepsilon_t) = E[\exp(h_t)]\,E[z_t^2] = \exp(\mu_h + \sigma_h^2 / 2)$ 。
$E[\varepsilon_t^4] = E[\exp(2 h_t)]\,E[z_t^4] = 3\,\exp(2 \mu_h + 2 \sigma_h^2)$ 。
代入峰度定义：

\frac{E[\varepsilon_t^4]}{(E[\varepsilon_t^2])^2} = \frac{3\,\exp(2 \mu_h + 2 \sigma_h^2)}{\exp(2 \mu_h + \sigma_h^2)} = 3\,\exp(\sigma_h^2) > 3

只要 $\sigma_h^2 > 0$ ，SV 就自动产生厚尾——与 GARCH 一致的可检验事实。 $\varepsilon_t$ 跨期不相关（ $z_t$ 独立），而 $\varepsilon_t^2$ 的自相关以 $\phi$ 为公比按几何速率衰减——与 GARCH(1, 1) 中 $(\alpha + \beta)^{|k|}$ 的衰减形状相同，是同一种残差平方 ACF 指纹。

四、SV 与 GARCH 的六行结构对照

把两族模型并列成六行：

维度	GARCH(1, 1)	SV
(i) 方差递推	过往新息的确定函数	隐含 AR(1)，独立新息 $\eta_t$ 驱动
(ii) $\sigma_t^2$ 可测性	$\mathcal{F}_{t-1}$ 可测	隐含；只有后验分布
(iii) 一步前方差预测	点估计	有非退化方差的后验分布
(iv) 似然	闭式高斯条件似然	$T$ 维隐路径上的不可解析积分
(v) 标准估计量	高斯 QML	Kalman-QML 或 Kim-Shephard-Chib（KSC）Gibbs
(vi) 连续时间对应	无（本质离散）	Hull-White OU / Heston CIR

第（iii）行就是文首 CIO 那一问的答案：GARCH 把方差预报锁成一个数，SV 把它放回一段分布；第（vi）行则是 SV 在衍生品场景下被偏爱的根本理由——它与 Hull-White (1987)、Heston (1993) 等连续时间随机波动率族共享「两个独立 Brownian 驱动」的结构。

五、似然的不可解析积分

把上述对照中「似然」一行写明白。SV 似然要把 $T$ 维隐含路径 $\{h_t\}$ 全部积出来：

L(\theta) = \int_{\mathbb{R}^T} \prod_{t=1}^T \phi(\varepsilon_t;\,0,\,\exp(h_t))\,\prod_{t=1}^T \phi_{\mathrm{AR}(1)}(h_t \mid h_{t-1};\,\theta)\,dh_1\cdots dh_T

其中 $\phi(\cdot;\,0, v)$ 是均值 0、方差 $v$ 的正态密度。这是 SV 在工程上的核心障碍——直接的极大似然估计（maximum likelihood estimation, MLE）算不出来。下面四条实务路径都是为这一积分服务的近似。

六、状态空间化与四条估计路径

把观测方程「线性化」是绕开积分的第一步。对 $\varepsilon_t^2 = \exp(h_t)\,z_t^2$ 两端取对数，记 $y_t := \log\varepsilon_t^2 = h_t + \log z_t^2$ 。当 $z_t \sim N(0, 1)$ 时 $\log z_t^2$ 服从 $\log\chi^2_1$ ，由 digamma $\psi$ 与 trigamma $\psi'$ 函数给出均值 $\psi(1/2) + \log 2 \approx -1.2704$ 、方差 $\psi'(1/2) = \pi^2 / 2 \approx 4.9348$ （此处只取数值，不推导）。把均值挪到右侧：

y_t = \log\varepsilon_t^2 = -1.2704 + h_t + \xi_t, \quad h_t = \mu_h + \phi\,(h_{t-1} - \mu_h) + \sigma_\eta\,\eta_t

其中 $\xi_t := \log z_t^2 + 1.2704$ ， $E[\xi_t] = 0$ 、 $\mathrm{Var}(\xi_t) = \pi^2 / 2$ 。状态方程关于 $h_t$ 线性，唯一的「不干净」处在 $\xi_t$ 非高斯。四条估计路径：

Harvey-Ruiz-Shephard (1994) Kalman-QML：把 $\xi_t$ 当作高斯走一遍 Kalman 滤波，最大化所得拟似然。一致但损失约 25% 的渐近效率（Sandmann-Koopman 1998），仍是最快的工业方案。
Kim-Shephard-Chib (1998) 辅助混合 Gibbs：用 7 分量高斯混合逼近 $\log\chi^2_1$ （KL 散度量级 $10^{-4}$ ；混合参数见 KSC 1998 Table 4），再 Gibbs 采样 $\{h_t\}$ 、参数与混合指示。当下严肃 SV 应用的金标准。
单点 / 块更新 MCMC：直接对 $\{h_t\}$ 采样，相邻 $h_t$ 高度相关导致混合慢，已基本被 KSC 取代。
有效矩估计 / 间接推断（Gallant-Tauchen 1996；Gourieroux-Monfort-Renault 1993）：在 $\theta$ 参数空间内匹配观测序列与模拟序列的辅助模型估计量；当似然彻底不可写但模拟便宜时使用，相对 KSC 信息损失明显。

粒子滤波 / 序贯蒙特卡洛是非线性、非高斯状态空间的现代替代方案，本课只点到。非对称 SV（ASV，Yu 2005）引入 $\mathrm{Corr}(z_t, \eta_{t+1}) = \rho < 0$ 以刻画杠杆效应；KSC 路径可平滑扩展，Kalman-QML 路径不可。多元 SV 与高频实现 SV（Takahashi-Omori-Watanabe 2009）是独立方向，本课不展开。一句话挑工具：要严肃推断、可负担 MCMC，选 KSC；要快速估计、能容忍 25% 效率损失，选 Kalman-QML；模型怪异以致似然完全不可写时，才退到 EMM 或间接推断。

七、连续时间桥与状态可视化

把对数波动率 AR(1) 写到无穷小时间步上，便落回 module 2.7 的随机微积分。该递推是 Ornstein-Uhlenbeck SDE 的精确 Euler 离散：

dh_t = \kappa\,(\mu_h - h_t)\,dt + \tilde{\sigma}_\eta\,dW_t, \quad \kappa = -\log\phi, \quad \tilde{\sigma}_\eta = \sigma_\eta\,\sqrt{2\kappa / (1 - \phi^2)}

其中 $W_t$ 是标准布朗运动（Brownian motion）， $\tilde{\sigma}_\eta$ 取上式以匹配单位时间步方差， $\kappa$ 在 $\phi$ 接近 1 时近似等于 $1 - \phi$ 。这条 OU 过程正是 Hull-White (1987) 连续时间 SV 模型的对数方差驱动；Heston (1993) 把它替换为 CIR（平方根）过程以保证方差路径非负，对应 module 1.4.4 lesson 4，本课不展开完整 Itô 推导。

拖动滑块观察对数波动率状态的一步条件期望 $E[h_t \mid h_{t-1}] = \mu_h + \phi\,(h_{t-1} - \mu_h)$ 如何随 $(\mu_h, \phi)$ 变化—— $\phi = 0$ 时立刻回到长期均值， $\phi \to 1$ 时趋近随机游走：

Formula Explorer

mu_h + phi * (h_prev - mu_h)

八、练习

Exercise

考虑离散时间对数 SV 模型 $r_t = \mu + \varepsilon_t$ ， $\varepsilon_t = \exp(h_t / 2)\,z_t$ ， $z_t \overset{\mathrm{iid}}{\sim} N(0, 1)$ ，且 $h_t = \mu_h + \phi\,(h_{t-1} - \mu_h) + \sigma_\eta\,\eta_t$ ， $\eta_t \overset{\mathrm{iid}}{\sim} N(0, 1)$ 与 $\{z_s\}$ 独立， $|\phi| < 1$ 。

(a) 证明 $h_t$ 的稳态分布为 $N(\mu_h,\ \sigma_h^2)$ ，其中 $\sigma_h^2 = \sigma_\eta^2 / (1 - \phi^2)$ 。

(b) 用 $(\mu_h,\ \sigma_h^2)$ 表示 $\mathrm{Var}(\varepsilon_t)$ 与无条件峰度 $E[\varepsilon_t^4] / (E[\varepsilon_t^2])^2$ 。

(c) 定义 $y_t = \log\varepsilon_t^2$ ；证明 $y_t = h_t + \log z_t^2$ ，并指出在 $z_t \sim N(0, 1)$ 下 $\log z_t^2$ 的均值为 $-1.2704$ 、方差为 $\pi^2 / 2$ 。写出线性状态空间形式：观测方程 $y_t = -1.2704 + h_t + \xi_t$ ，状态方程对 $h_t$ 不变。

(d) 说明在这一系统上跑一次 Kalman 滤波如何给出 Harvey-Ruiz-Shephard QML 估计；用一句话解释为何它一致但低效。

提示

(a) 把 AR(1) 反复展开为

\mu_h

加无穷多独立正态项的叠加；由正态可加性即得稳态形状，方差归结为几何级数

\sum_{k\geq 0} \phi^{2k} = 1/(1 - \phi^2)

。(b) 用

E[\exp(\lambda h_t)] = \exp(\lambda \mu_h + \lambda^2 \sigma_h^2 / 2)

与

z_t

的独立性。

提示

(c)

\log z_t^2 \sim \log\chi^2_1

，仅需引用数值，不推导。(d) Kalman 把非高斯

\xi_t

当作高斯，得到的是拟似然——一阶矩条件正确所以一致；但

\xi_t

真实分布偏斜厚尾，所以效率有损（约 25%）。

九、通往第四课

到此你能把任意一个 GARCH 拟合的「下一刻方差是一个数」翻译成 SV 的「下一刻方差是一个分布」，并在 Kalman-QML 与 KSC Gibbs 之间按计算预算挑出合适估计器。沪深300日收益序列拟合给出的 $\hat\phi$ 落在 0.95–0.99、 $\hat\sigma_\eta$ 落在 0.10–0.30，与海外成熟市场上的标准估计几乎一致——这一巧合正是 GARCH 与 SV 在收益单序列上难以分辨的根本原因。下一课把状态空间机制从「连续高斯隐变量」切换为「离散制度变量」： $h_t \in \mathbb{R}$ 变成 $S_t \in \{1, \ldots, K\}$ ，演化由 Markov 转移概率矩阵 $P$ 给出。Hamilton (1989) 滤波是 Kalman 滤波的离散态对应，Kim (1994) 平滑则是 Kalman 平滑的离散态对应——这是把整个模块四课串起来的统一状态空间骨架。