← 返回模块
2.3.2.3beta 可读 · 未来付费校验通过内容版本 2026-05-26

随机波动率模型

2.3.2 · 波动率与机制转换模型 · 数学与统计能力

周一下午两点半,深圳某量化私募的风险主管盯着她的隔夜波动率监控板:上周她团队用 GARCH(1, 1) 给沪深300股指期货账户出具的次日条件方差 σt2\sigma_t^2 只有一个数字 0.0142;今天 CIO 却问「明天有多大概率把 σt2\sigma_t^2 看成 0.02 以上」。这两个问题不能由同一个模型回答。GARCH 把波动率锁成过往收益的确定性函数,「方差自身的不确定性」根本不存在于这一族模型里。本课把波动率从「过往的函数」松开为「带自身随机源的隐变量」——随机波动率(stochastic volatility, SV)模型。

一、从条件方差到隐含状态

前两课的 GARCH(1, 1) 写出 σt2=ω+αεt12+βσt12\sigma_t^2 = \omega + \alpha\,\varepsilon_{t-1}^2 + \beta\,\sigma_{t-1}^2,波动率是 Ft1\mathcal{F}_{t-1} 可测的——给定截至 t1t-1 的收益历史,σt2\sigma_t^2 是一个确切的数。这是一项强假设:它要求波动率不存在与收益历史相独立的随机源。SV 家族放松这一点:让波动率被自己的新息驱动,与收益新息独立。即便给定全段收益路径,台上交易员也只能写出 σt2\sigma_t^2 的后验分布,而不能写出一个数。这一句话听起来抽象,但落到对冲账户上就极具体:明天的隔夜方差不再是一根直线,而是一段带宽,风险预算与对冲规模必须随之配比。

二、Taylor (1986) 的对数 SV 模型

记收益为 rtr_t。Taylor 在 1986 年提出的离散时间 SV 模型用对数方差 ht=logσt2h_t = \log\sigma_t^2 作为隐含状态:

rt=μ+εt,εt=exp(ht/2)zt,ztiidN(0,1)r_t = \mu + \varepsilon_t, \quad \varepsilon_t = \exp(h_t / 2)\,z_t, \quad z_t \overset{\mathrm{iid}}{\sim} N(0, 1) ht=μh+ϕ(ht1μh)+σηηt,ηtiidN(0,1){zs},ϕ<1h_t = \mu_h + \phi\,(h_{t-1} - \mu_h) + \sigma_\eta\,\eta_t, \quad \eta_t \overset{\mathrm{iid}}{\sim} N(0, 1) \perp \{z_s\}, \quad |\phi| < 1

参数向量 θ=(μ, μh, ϕ, ση)\theta = (\mu,\ \mu_h,\ \phi,\ \sigma_\eta)μ\mu 是条件均值(通常很小,常被固定为样本均值);μh\mu_h 是长期对数方差;ϕ(1,1)\phi \in (-1, 1) 是自回归(autoregressive)AR(1) 持续性,股票日数据典型估值落在 0.95–0.99;ση>0\sigma_\eta > 0 是波动率之波动率(vol-of-vol)。在 ϕ<1|\phi| < 1 下,对数波动率 hth_t 是弱平稳(stationary)的高斯 AR(1);它从未被直接观测,是隐变量。

三、稳态矩与厚尾的封闭形式

hth_t 是平稳正态分布(Gaussian distribution)AR(1),故

htN ⁣(μh, σh2),σh2=ση21ϕ2,Var(εt)=exp ⁣(μh+σh22),E[εt4](E[εt2])2=3exp(σh2)>3h_t \sim N\!\left(\mu_h,\ \sigma_h^2\right), \quad \sigma_h^2 = \frac{\sigma_\eta^2}{1 - \phi^2}, \quad \mathrm{Var}(\varepsilon_t) = \exp\!\left(\mu_h + \frac{\sigma_h^2}{2}\right), \quad \frac{E[\varepsilon_t^4]}{(E[\varepsilon_t^2])^2} = 3\,\exp(\sigma_h^2) > 3

完整推导只需正态变量矩母函数与 ztz_t 的低阶矩。由 htN(μh, σh2)h_t \sim N(\mu_h,\ \sigma_h^2) 以及 E[exp(λX)]=exp(λμ+λ2σ2/2)E[\exp(\lambda X)] = \exp(\lambda \mu + \lambda^2 \sigma^2 / 2),得 E[exp(ht)]=exp(μh+σh2/2)E[\exp(h_t)] = \exp(\mu_h + \sigma_h^2 / 2)E[exp(2ht)]=exp(2μh+2σh2)E[\exp(2 h_t)] = \exp(2 \mu_h + 2 \sigma_h^2)。再由 ztz_thth_t 独立、E[zt]=0E[z_t] = 0E[zt2]=1E[z_t^2] = 1E[zt4]=3E[z_t^4] = 3,逐项算出:

  1. E[εt]=E[exp(ht/2)]E[zt]=0E[\varepsilon_t] = E[\exp(h_t / 2)]\,E[z_t] = 0
  2. Var(εt)=E[exp(ht)]E[zt2]=exp(μh+σh2/2)\mathrm{Var}(\varepsilon_t) = E[\exp(h_t)]\,E[z_t^2] = \exp(\mu_h + \sigma_h^2 / 2)
  3. E[εt4]=E[exp(2ht)]E[zt4]=3exp(2μh+2σh2)E[\varepsilon_t^4] = E[\exp(2 h_t)]\,E[z_t^4] = 3\,\exp(2 \mu_h + 2 \sigma_h^2)
  4. 代入峰度定义:
E[εt4](E[εt2])2=3exp(2μh+2σh2)exp(2μh+σh2)=3exp(σh2)>3\frac{E[\varepsilon_t^4]}{(E[\varepsilon_t^2])^2} = \frac{3\,\exp(2 \mu_h + 2 \sigma_h^2)}{\exp(2 \mu_h + \sigma_h^2)} = 3\,\exp(\sigma_h^2) > 3

只要 σh2>0\sigma_h^2 > 0,SV 就自动产生厚尾——与 GARCH 一致的可检验事实。εt\varepsilon_t 跨期不相关(ztz_t 独立),而 εt2\varepsilon_t^2 的自相关以 ϕ\phi 为公比按几何速率衰减——与 GARCH(1, 1) 中 (α+β)k(\alpha + \beta)^{|k|} 的衰减形状相同,是同一种残差平方 ACF 指纹。

四、SV 与 GARCH 的六行结构对照

把两族模型并列成六行:

维度GARCH(1, 1)SV
(i) 方差递推过往新息的确定函数隐含 AR(1),独立新息 ηt\eta_t 驱动
(ii) σt2\sigma_t^2 可测性Ft1\mathcal{F}_{t-1} 可测隐含;只有后验分布
(iii) 一步前方差预测点估计有非退化方差的后验分布
(iv) 似然闭式高斯条件似然TT 维隐路径上的不可解析积分
(v) 标准估计量高斯 QMLKalman-QML 或 Kim-Shephard-Chib(KSC)Gibbs
(vi) 连续时间对应无(本质离散)Hull-White OU / Heston CIR

第(iii)行就是文首 CIO 那一问的答案:GARCH 把方差预报锁成一个数,SV 把它放回一段分布;第(vi)行则是 SV 在衍生品场景下被偏爱的根本理由——它与 Hull-White (1987)、Heston (1993) 等连续时间随机波动率族共享「两个独立 Brownian 驱动」的结构。

五、似然的不可解析积分

把上述对照中「似然」一行写明白。SV 似然要把 TT 维隐含路径 {ht}\{h_t\} 全部积出来:

L(θ)=RTt=1Tϕ(εt;0,exp(ht))t=1TϕAR(1)(htht1;θ)dh1dhTL(\theta) = \int_{\mathbb{R}^T} \prod_{t=1}^T \phi(\varepsilon_t;\,0,\,\exp(h_t))\,\prod_{t=1}^T \phi_{\mathrm{AR}(1)}(h_t \mid h_{t-1};\,\theta)\,dh_1\cdots dh_T

其中 ϕ(;0,v)\phi(\cdot;\,0, v) 是均值 0、方差 vv 的正态密度。这是 SV 在工程上的核心障碍——直接的极大似然估计(maximum likelihood estimation, MLE)算不出来。下面四条实务路径都是为这一积分服务的近似。

六、状态空间化与四条估计路径

把观测方程「线性化」是绕开积分的第一步。对 εt2=exp(ht)zt2\varepsilon_t^2 = \exp(h_t)\,z_t^2 两端取对数,记 yt:=logεt2=ht+logzt2y_t := \log\varepsilon_t^2 = h_t + \log z_t^2。当 ztN(0,1)z_t \sim N(0, 1)logzt2\log z_t^2 服从 logχ12\log\chi^2_1,由 digamma ψ\psi 与 trigamma ψ\psi' 函数给出均值 ψ(1/2)+log21.2704\psi(1/2) + \log 2 \approx -1.2704、方差 ψ(1/2)=π2/24.9348\psi'(1/2) = \pi^2 / 2 \approx 4.9348(此处只取数值,不推导)。把均值挪到右侧:

yt=logεt2=1.2704+ht+ξt,ht=μh+ϕ(ht1μh)+σηηty_t = \log\varepsilon_t^2 = -1.2704 + h_t + \xi_t, \quad h_t = \mu_h + \phi\,(h_{t-1} - \mu_h) + \sigma_\eta\,\eta_t

其中 ξt:=logzt2+1.2704\xi_t := \log z_t^2 + 1.2704E[ξt]=0E[\xi_t] = 0Var(ξt)=π2/2\mathrm{Var}(\xi_t) = \pi^2 / 2。状态方程关于 hth_t 线性,唯一的「不干净」处在 ξt\xi_t 非高斯。四条估计路径:

  • ​Harvey-Ruiz-Shephard (1994) Kalman-QML​​:把 ξt\xi_t 当作高斯走一遍 Kalman 滤波,最大化所得拟似然。一致但损失约 25% 的渐近效率(Sandmann-Koopman 1998),仍是最快的工业方案。
  • ​Kim-Shephard-Chib (1998) 辅助混合 Gibbs​​:用 7 分量高斯混合逼近 logχ12\log\chi^2_1(KL 散度量级 10410^{-4};混合参数见 KSC 1998 Table 4),再 Gibbs 采样 {ht}\{h_t\}、参数与混合指示。当下严肃 SV 应用的金标准。
  • ​单点 / 块更新 MCMC​​:直接对 {ht}\{h_t\} 采样,相邻 hth_t 高度相关导致混合慢,已基本被 KSC 取代。
  • ​有效矩估计 / 间接推断​​(Gallant-Tauchen 1996;Gourieroux-Monfort-Renault 1993):在 θ\theta 参数空间内匹配观测序列与模拟序列的辅助模型估计量;当似然彻底不可写但模拟便宜时使用,相对 KSC 信息损失明显。

粒子滤波 / 序贯蒙特卡洛是非线性、非高斯状态空间的现代替代方案,本课只点到。非对称 SV(ASV,Yu 2005)引入 Corr(zt,ηt+1)=ρ<0\mathrm{Corr}(z_t, \eta_{t+1}) = \rho < 0 以刻画杠杆效应;KSC 路径可平滑扩展,Kalman-QML 路径不可。多元 SV 与高频实现 SV(Takahashi-Omori-Watanabe 2009)是独立方向,本课不展开。一句话挑工具:要严肃推断、可负担 MCMC,选 KSC;要快速估计、能容忍 25% 效率损失,选 Kalman-QML;模型怪异以致似然完全不可写时,才退到 EMM 或间接推断。

七、连续时间桥与状态可视化

把对数波动率 AR(1) 写到无穷小时间步上,便落回 module 2.7 的随机微积分。该递推是 Ornstein-Uhlenbeck SDE 的精确 Euler 离散:

dht=κ(μhht)dt+σ~ηdWt,κ=logϕ,σ~η=ση2κ/(1ϕ2)dh_t = \kappa\,(\mu_h - h_t)\,dt + \tilde{\sigma}_\eta\,dW_t, \quad \kappa = -\log\phi, \quad \tilde{\sigma}_\eta = \sigma_\eta\,\sqrt{2\kappa / (1 - \phi^2)}

其中 WtW_t 是标准布朗运动(Brownian motion),σ~η\tilde{\sigma}_\eta 取上式以匹配单位时间步方差,κ\kappaϕ\phi 接近 1 时近似等于 1ϕ1 - \phi。这条 OU 过程正是 Hull-White (1987) 连续时间 SV 模型的对数方差驱动;Heston (1993) 把它替换为 CIR(平方根)过程以保证方差路径非负,对应 module 1.4.4 lesson 4,本课不展开完整 Itô 推导。

拖动滑块观察对数波动率状态的一步条件期望 E[htht1]=μh+ϕ(ht1μh)E[h_t \mid h_{t-1}] = \mu_h + \phi\,(h_{t-1} - \mu_h) 如何随 (μh,ϕ)(\mu_h, \phi) 变化——ϕ=0\phi = 0 时立刻回到长期均值,ϕ1\phi \to 1 时趋近随机游走:

Formula Explorer

mu_h + phi * (h_prev - mu_h)

八、练习

Exercise

考虑离散时间对数 SV 模型 rt=μ+εtr_t = \mu + \varepsilon_tεt=exp(ht/2)zt\varepsilon_t = \exp(h_t / 2)\,z_tztiidN(0,1)z_t \overset{\mathrm{iid}}{\sim} N(0, 1),且 ht=μh+ϕ(ht1μh)+σηηth_t = \mu_h + \phi\,(h_{t-1} - \mu_h) + \sigma_\eta\,\eta_tηtiidN(0,1)\eta_t \overset{\mathrm{iid}}{\sim} N(0, 1){zs}\{z_s\} 独立,ϕ<1|\phi| < 1

(a) 证明 hth_t 的稳态分布为 N(μh, σh2)N(\mu_h,\ \sigma_h^2),其中 σh2=ση2/(1ϕ2)\sigma_h^2 = \sigma_\eta^2 / (1 - \phi^2)

(b) 用 (μh, σh2)(\mu_h,\ \sigma_h^2) 表示 Var(εt)\mathrm{Var}(\varepsilon_t) 与无条件峰度 E[εt4]/(E[εt2])2E[\varepsilon_t^4] / (E[\varepsilon_t^2])^2

(c) 定义 yt=logεt2y_t = \log\varepsilon_t^2;证明 yt=ht+logzt2y_t = h_t + \log z_t^2,并指出在 ztN(0,1)z_t \sim N(0, 1)logzt2\log z_t^2 的均值为 1.2704-1.2704、方差为 π2/2\pi^2 / 2。写出线性状态空间形式:观测方程 yt=1.2704+ht+ξty_t = -1.2704 + h_t + \xi_t,状态方程对 hth_t 不变。

(d) 说明在这一系统上跑一次 Kalman 滤波如何给出 Harvey-Ruiz-Shephard QML 估计;用一句话解释为何它一致但低效。

提示
(a) 把 AR(1) 反复展开为 μh\mu_h 加无穷多独立正态项的叠加;由正态可加性即得稳态形状,方差归结为几何级数 k0ϕ2k=1/(1ϕ2)\sum_{k\geq 0} \phi^{2k} = 1/(1 - \phi^2)。(b) 用 E[exp(λht)]=exp(λμh+λ2σh2/2)E[\exp(\lambda h_t)] = \exp(\lambda \mu_h + \lambda^2 \sigma_h^2 / 2)ztz_t 的独立性。
提示
(c) logzt2logχ12\log z_t^2 \sim \log\chi^2_1,仅需引用数值,不推导。(d) Kalman 把非高斯 ξt\xi_t 当作高斯,得到的是拟似然——一阶矩条件正确所以一致;但 ξt\xi_t 真实分布偏斜厚尾,所以效率有损(约 25%)。

九、通往第四课

到此你能把任意一个 GARCH 拟合的「下一刻方差是一个数」翻译成 SV 的「下一刻方差是一个分布」,并在 Kalman-QML 与 KSC Gibbs 之间按计算预算挑出合适估计器。沪深300日收益序列拟合给出的 ϕ^\hat\phi 落在 0.95–0.99、σ^η\hat\sigma_\eta 落在 0.10–0.30,与海外成熟市场上的标准估计几乎一致——这一巧合正是 GARCH 与 SV 在收益单序列上难以分辨的根本原因。下一课把状态空间机制从「连续高斯隐变量」切换为「离散制度变量」:htRh_t \in \mathbb{R} 变成 St{1,,K}S_t \in \{1, \ldots, K\},演化由 Markov 转移概率矩阵 PP 给出。Hamilton (1989) 滤波是 Kalman 滤波的离散态对应,Kim (1994) 平滑则是 Kalman 平滑的离散态对应——这是把整个模块四课串起来的统一状态空间骨架。