周一下午两点半,深圳某量化私募的风险主管盯着她的隔夜波动率监控板:上周她团队用 GARCH(1, 1) 给沪深300股指期货账户出具的次日条件方差 σt2 只有一个数字 0.0142;今天 CIO 却问「明天有多大概率把 σt2 看成 0.02 以上」。这两个问题不能由同一个模型回答。GARCH 把波动率锁成过往收益的确定性函数,「方差自身的不确定性」根本不存在于这一族模型里。本课把波动率从「过往的函数」松开为「带自身随机源的隐变量」——随机波动率(stochastic volatility, SV)模型。
一、从条件方差到隐含状态
前两课的 GARCH(1, 1) 写出 σt2=ω+αεt−12+βσt−12,波动率是 Ft−1 可测的——给定截至 t−1 的收益历史,σt2 是一个确切的数。这是一项强假设:它要求波动率不存在与收益历史相独立的随机源。SV 家族放松这一点:让波动率被自己的新息驱动,与收益新息独立。即便给定全段收益路径,台上交易员也只能写出 σt2 的后验分布,而不能写出一个数。这一句话听起来抽象,但落到对冲账户上就极具体:明天的隔夜方差不再是一根直线,而是一段带宽,风险预算与对冲规模必须随之配比。
二、Taylor (1986) 的对数 SV 模型
记收益为 rt。Taylor 在 1986 年提出的离散时间 SV 模型用对数方差 ht=logσt2 作为隐含状态:
rt=μ+εt,εt=exp(ht/2)zt,zt∼iidN(0,1)
ht=μh+ϕ(ht−1−μh)+σηηt,ηt∼iidN(0,1)⊥{zs},∣ϕ∣<1
参数向量 θ=(μ, μh, ϕ, ση)。μ 是条件均值(通常很小,常被固定为样本均值);μh 是长期对数方差;ϕ∈(−1,1) 是自回归(autoregressive)AR(1) 持续性,股票日数据典型估值落在 0.95–0.99;ση>0 是波动率之波动率(vol-of-vol)。在 ∣ϕ∣<1 下,对数波动率 ht 是弱平稳(stationary)的高斯 AR(1);它从未被直接观测,是隐变量。
三、稳态矩与厚尾的封闭形式
ht 是平稳正态分布(Gaussian distribution)AR(1),故
ht∼N(μh, σh2),σh2=1−ϕ2ση2,Var(εt)=exp(μh+2σh2),(E[εt2])2E[εt4]=3exp(σh2)>3
完整推导只需正态变量矩母函数与 zt 的低阶矩。由 ht∼N(μh, σh2) 以及 E[exp(λX)]=exp(λμ+λ2σ2/2),得 E[exp(ht)]=exp(μh+σh2/2)、E[exp(2ht)]=exp(2μh+2σh2)。再由 zt 与 ht 独立、E[zt]=0、E[zt2]=1、E[zt4]=3,逐项算出:
- E[εt]=E[exp(ht/2)]E[zt]=0。
- Var(εt)=E[exp(ht)]E[zt2]=exp(μh+σh2/2)。
- E[εt4]=E[exp(2ht)]E[zt4]=3exp(2μh+2σh2)。
- 代入峰度定义:
(E[εt2])2E[εt4]=exp(2μh+σh2)3exp(2μh+2σh2)=3exp(σh2)>3
只要 σh2>0,SV 就自动产生厚尾——与 GARCH 一致的可检验事实。εt 跨期不相关(zt 独立),而 εt2 的自相关以 ϕ 为公比按几何速率衰减——与 GARCH(1, 1) 中 (α+β)∣k∣ 的衰减形状相同,是同一种残差平方 ACF 指纹。
四、SV 与 GARCH 的六行结构对照
把两族模型并列成六行:
| 维度 | GARCH(1, 1) | SV |
|---|
| (i) 方差递推 | 过往新息的确定函数 | 隐含 AR(1),独立新息 ηt 驱动 |
| (ii) σt2 可测性 | Ft−1 可测 | 隐含;只有后验分布 |
| (iii) 一步前方差预测 | 点估计 | 有非退化方差的后验分布 |
| (iv) 似然 | 闭式高斯条件似然 | T 维隐路径上的不可解析积分 |
| (v) 标准估计量 | 高斯 QML | Kalman-QML 或 Kim-Shephard-Chib(KSC)Gibbs |
| (vi) 连续时间对应 | 无(本质离散) | Hull-White OU / Heston CIR |
第(iii)行就是文首 CIO 那一问的答案:GARCH 把方差预报锁成一个数,SV 把它放回一段分布;第(vi)行则是 SV 在衍生品场景下被偏爱的根本理由——它与 Hull-White (1987)、Heston (1993) 等连续时间随机波动率族共享「两个独立 Brownian 驱动」的结构。
五、似然的不可解析积分
把上述对照中「似然」一行写明白。SV 似然要把 T 维隐含路径 {ht} 全部积出来:
L(θ)=∫RTt=1∏Tϕ(εt;0,exp(ht))t=1∏TϕAR(1)(ht∣ht−1;θ)dh1⋯dhT
其中 ϕ(⋅;0,v) 是均值 0、方差 v 的正态密度。这是 SV 在工程上的核心障碍——直接的极大似然估计(maximum likelihood estimation, MLE)算不出来。下面四条实务路径都是为这一积分服务的近似。
六、状态空间化与四条估计路径
把观测方程「线性化」是绕开积分的第一步。对 εt2=exp(ht)zt2 两端取对数,记 yt:=logεt2=ht+logzt2。当 zt∼N(0,1) 时 logzt2 服从 logχ12,由 digamma ψ 与 trigamma ψ′ 函数给出均值 ψ(1/2)+log2≈−1.2704、方差 ψ′(1/2)=π2/2≈4.9348(此处只取数值,不推导)。把均值挪到右侧:
yt=logεt2=−1.2704+ht+ξt,ht=μh+ϕ(ht−1−μh)+σηηt
其中 ξt:=logzt2+1.2704,E[ξt]=0、Var(ξt)=π2/2。状态方程关于 ht 线性,唯一的「不干净」处在 ξt 非高斯。四条估计路径:
- Harvey-Ruiz-Shephard (1994) Kalman-QML:把 ξt 当作高斯走一遍 Kalman 滤波,最大化所得拟似然。一致但损失约 25% 的渐近效率(Sandmann-Koopman 1998),仍是最快的工业方案。
- Kim-Shephard-Chib (1998) 辅助混合 Gibbs:用 7 分量高斯混合逼近 logχ12(KL 散度量级 10−4;混合参数见 KSC 1998 Table 4),再 Gibbs 采样 {ht}、参数与混合指示。当下严肃 SV 应用的金标准。
- 单点 / 块更新 MCMC:直接对 {ht} 采样,相邻 ht 高度相关导致混合慢,已基本被 KSC 取代。
- 有效矩估计 / 间接推断(Gallant-Tauchen 1996;Gourieroux-Monfort-Renault 1993):在 θ 参数空间内匹配观测序列与模拟序列的辅助模型估计量;当似然彻底不可写但模拟便宜时使用,相对 KSC 信息损失明显。
粒子滤波 / 序贯蒙特卡洛是非线性、非高斯状态空间的现代替代方案,本课只点到。非对称 SV(ASV,Yu 2005)引入 Corr(zt,ηt+1)=ρ<0 以刻画杠杆效应;KSC 路径可平滑扩展,Kalman-QML 路径不可。多元 SV 与高频实现 SV(Takahashi-Omori-Watanabe 2009)是独立方向,本课不展开。一句话挑工具:要严肃推断、可负担 MCMC,选 KSC;要快速估计、能容忍 25% 效率损失,选 Kalman-QML;模型怪异以致似然完全不可写时,才退到 EMM 或间接推断。
七、连续时间桥与状态可视化
把对数波动率 AR(1) 写到无穷小时间步上,便落回 module 2.7 的随机微积分。该递推是 Ornstein-Uhlenbeck SDE 的精确 Euler 离散:
dht=κ(μh−ht)dt+σ~ηdWt,κ=−logϕ,σ~η=ση2κ/(1−ϕ2)
其中 Wt 是标准布朗运动(Brownian motion),σ~η 取上式以匹配单位时间步方差,κ 在 ϕ 接近 1 时近似等于 1−ϕ。这条 OU 过程正是 Hull-White (1987) 连续时间 SV 模型的对数方差驱动;Heston (1993) 把它替换为 CIR(平方根)过程以保证方差路径非负,对应 module 1.4.4 lesson 4,本课不展开完整 Itô 推导。
拖动滑块观察对数波动率状态的一步条件期望 E[ht∣ht−1]=μh+ϕ(ht−1−μh) 如何随 (μh,ϕ) 变化——ϕ=0 时立刻回到长期均值,ϕ→1 时趋近随机游走:
Formula Explorer
mu_h + phi * (h_prev - mu_h)
八、练习
Exercise
考虑离散时间对数 SV 模型 rt=μ+εt,εt=exp(ht/2)zt,zt∼iidN(0,1),且 ht=μh+ϕ(ht−1−μh)+σηηt,ηt∼iidN(0,1) 与 {zs} 独立,∣ϕ∣<1。
(a) 证明 ht 的稳态分布为 N(μh, σh2),其中 σh2=ση2/(1−ϕ2)。
(b) 用 (μh, σh2) 表示 Var(εt) 与无条件峰度 E[εt4]/(E[εt2])2。
(c) 定义 yt=logεt2;证明 yt=ht+logzt2,并指出在 zt∼N(0,1) 下 logzt2 的均值为 −1.2704、方差为 π2/2。写出线性状态空间形式:观测方程 yt=−1.2704+ht+ξt,状态方程对 ht 不变。
(d) 说明在这一系统上跑一次 Kalman 滤波如何给出 Harvey-Ruiz-Shephard QML 估计;用一句话解释为何它一致但低效。
提示
(a) 把 AR(1) 反复展开为
μh 加无穷多独立正态项的叠加;由正态可加性即得稳态形状,方差归结为几何级数
∑k≥0ϕ2k=1/(1−ϕ2)。(b) 用
E[exp(λht)]=exp(λμh+λ2σh2/2) 与
zt 的独立性。
提示
(c)
logzt2∼logχ12,仅需引用数值,不推导。(d) Kalman 把非高斯
ξt 当作高斯,得到的是拟似然——一阶矩条件正确所以一致;但
ξt 真实分布偏斜厚尾,所以效率有损(约 25%)。
九、通往第四课
到此你能把任意一个 GARCH 拟合的「下一刻方差是一个数」翻译成 SV 的「下一刻方差是一个分布」,并在 Kalman-QML 与 KSC Gibbs 之间按计算预算挑出合适估计器。沪深300日收益序列拟合给出的 ϕ^ 落在 0.95–0.99、σ^η 落在 0.10–0.30,与海外成熟市场上的标准估计几乎一致——这一巧合正是 GARCH 与 SV 在收益单序列上难以分辨的根本原因。下一课把状态空间机制从「连续高斯隐变量」切换为「离散制度变量」:ht∈R 变成 St∈{1,…,K},演化由 Markov 转移概率矩阵 P 给出。Hamilton (1989) 滤波是 Kalman 滤波的离散态对应,Kim (1994) 平滑则是 Kalman 平滑的离散态对应——这是把整个模块四课串起来的统一状态空间骨架。