← 返回模块
2.3.1.1beta 可读 · 未来免费校验通过内容版本 2026-05-26

平稳性与自相关函数

2.3.1 · 平稳性与 ARMA 模型 · 数学与统计能力

某私募(private fund)交易日下午四点,你的 PM 把过去 500 个交易日的策略净值推过来,问:这条曲线的均值真的稳定吗?波动率有没有结构性变化?只看一条路径,凭什么相信估出来的均值与自相关有意义?这是时间序列分析(time series analysis)的元问题。横截面统计里你有 nn 个独立同分布(i.i.d.)样本,推断建立在「重复抽样」上;时间序列里你只有长度为 TT 的一条样本路径,既无法重置时钟也无法平行宇宙复采。要把样本均值当成总体均值的估计、样本自相关当成总体自相关的估计,前提是过程在时间方向上「足够稳定」——稳到什么程度?这是平稳性(stationarity)要回答的问题。本课先把基本对象与定义说清,再给出度量工具:自相关函数(autocorrelation function, ACF)与偏自相关函数(PACF),最后用两个原型与巴特利特(Bartlett)置信带闭环。

1. 随机过程与样本路径

形式化一下。一个(实值、离散时间的)随机过程(stochastic process)是定义在同一概率空间 (Ω,F,P)(\Omega, \mathcal{F}, P) 上、由 tZt \in \mathbb{Z} 指标化的一族随机变量 {Xt}tZ\{X_t\}_{t \in \mathbb{Z}}。固定一个样本点 ωΩ\omega \in \Omega,得到一条数序列 tXt(ω)t \mapsto X_t(\omega)——这就是一条样本路径(sample path),也是屏幕上你看到的那条净值曲线。但过程本身不止这一条曲线;它由所有有限维联合分布 (Xt1,,Xtk)(X_{t_1}, \dots, X_{t_k}) 的分布族完全刻画。换言之,你看到的「数据」是过程的一次实现,而推断的对象是产出这条实现的概率法则。

握住这个区分:​​样本路径是一次实现,过程是所有实现的概率法则​​。估均值时你在用一条路径上的时间平均替代横截面的总体平均;只有过程在时间方向上有足够对称性,这步替换才合法。这套对称性就是平稳性——它把「时间平均 \to 总体平均」从信仰变成可证命题(背后是各态历经定理,本课不展开)。

2. 严平稳与宽平稳

按王燕《应用时间序列分析》与何书元《随机过程》的惯例,先严后宽,因为前者是直接对分布层面的对称要求,后者是它的二阶矩弱化。

​严平稳(strictly stationary)​​:{Xt}\{X_t\} 严平稳,当且仅当对一切 k1k \geq 1、一切 (t1,,tk)(t_1, \dots, t_k) 与一切位移 hZh \in \mathbb{Z}

(Xt1+h,,Xtk+h)=d(Xt1,,Xtk).(X_{t_1 + h}, \dots, X_{t_k + h}) \stackrel{d}{=} (X_{t_1}, \dots, X_{t_k}).

口语化:把时间轴整体平移,统计性质纹丝不动。代价是这条要求覆盖了全分布,只用二阶矩信息无法直接验证;实操中很难直接检验。

​宽平稳(weakly stationary)/ 二阶平稳(second-order stationary)​​:存在有限二阶矩 E[Xt2]<E[X_t^2] < \infty,且

E[Xt]=μ (与 t 无关),Var(Xt)=γ(0)<,Cov(Xt,Xtk)=γ(k) (仅依赖滞后 k).E[X_t] = \mu \text{ (与 } t \text{ 无关)}, \quad \mathrm{Var}(X_t) = \gamma(0) < \infty, \quad \mathrm{Cov}(X_t, X_{t-k}) = \gamma(k) \text{ (仅依赖滞后 } k\text{)}.

只对一阶矩、二阶矩提要求——这正是它在实践中好用的原因:样本均值、样本自协方差直接对应它的三条条件。两者关系:严平稳 + 有限二阶矩 \Rightarrow 宽平稳;反之一般不成立,因为高阶矩仍可能随时间漂移。一个例外要记住:​​高斯过程(Gaussian process)的严平稳与宽平稳等价​​——多元正态分布完全由均值向量与协方差矩阵决定,二阶矩的不变性自动升级为整个分布的不变性。本模块从此处起,「平稳」默认指「宽平稳」,只在需要时显式区分。

3. 自协方差与自相关函数

自协方差函数(autocovariance function)记作 γ(k)=Cov(Xt,Xtk)\gamma(k) = \mathrm{Cov}(X_t, X_{t-k});宽平稳下它不依赖于 tt,只是滞后(lag)kk 的函数。自相关函数(ACF)是归一化版本:

ρ(k)=γ(k)γ(0),ρ(0)=1,ρ(k)1,ρ(k)=ρ(k).\rho(k) = \frac{\gamma(k)}{\gamma(0)}, \qquad \rho(0) = 1, \quad |\rho(k)| \leq 1, \quad \rho(-k) = \rho(k).

三条结构性质各有出处:ρ(0)=1\rho(0) = 1 来自定义;ρ(k)1|\rho(k)| \leq 1 是 Cauchy-Schwarz 作用在 XtX_tXtkX_{t-k} 上的直接结果;ρ(k)=ρ(k)\rho(-k) = \rho(k) 来自协方差对称性与宽平稳时移不变性的组合。惯例只画 k0k \geq 0 一侧。再加一条定性要求:​​自协方差必须是正定核​​——对任意 (a1,,an)(a_1, \dots, a_n)(t1,,tn)(t_1, \dots, t_n),i,jaiajγ(titj)0\sum_{i,j} a_i a_j \gamma(t_i - t_j) \geq 0(Bochner 型条件)。它把「随便画的曲线」与「真能当 ACF 用」区分开,本课不证。

4. 偏自相关函数 PACF

偏自相关函数(PACF)记作 ϕkk\phi_{kk}。考虑 XtX_tspan(Xt1,,Xtk)\mathrm{span}(X_{t-1}, \dots, X_{t-k}) 上的 L2L^2 投影

X^t(k)=β1Xt1+β2Xt2++βkXtk,\hat{X}_t^{(k)} = \beta_1 X_{t-1} + \beta_2 X_{t-2} + \dots + \beta_k X_{t-k},

ϕkk\phi_{kk} 即最后一个系数 βk\beta_k。等价地,ϕkk=Corr(Xt,XtkXt1,,Xtk+1)\phi_{kk} = \mathrm{Corr}(X_t, X_{t-k} \mid X_{t-1}, \dots, X_{t-k+1})——把中间各滞后的线性影响剥掉之后,XtX_tXtkX_{t-k} 还剩多少直接关联。

一句话对照:​​ACF 量度总线性依赖​​(含经由中间滞后的间接通道),​​PACF 量度直接线性依赖​​(中间滞后被线性偏出后)。设想 XtXt1Xt2X_t \to X_{t-1} \to X_{t-2} 的链:ACF 在滞后 2 上看到「XtX_tXt1X_{t-1} 间接关联 Xt2X_{t-2}」的回响,PACF 在滞后 2 上只看「剔除 Xt1X_{t-1} 后还剩多少」。这是第 3 课识别(identification)工具的核心区分——也是 ACF 与 PACF 图永远成对出现的原因。

5. 两个原型:白噪声与随机游走

​白噪声(white noise)​ {ϵt}WN(0,σ2)\{\epsilon_t\} \sim \mathrm{WN}(0, \sigma^2):E[ϵt]=0E[\epsilon_t] = 0Var(ϵt)=σ2\mathrm{Var}(\epsilon_t) = \sigma^2Cov(ϵt,ϵs)=0\mathrm{Cov}(\epsilon_t, \epsilon_s) = 0(tst \neq s)。直接验证宽平稳:μ=0\mu = 0,γ(0)=σ2\gamma(0) = \sigma^2,γ(k)=0\gamma(k) = 0(k0k \neq 0),故 ρ(0)=1\rho(0) = 1ρ(k)=0\rho(k) = 0(k0k \neq 0)。一个常见误区:​​不相关不等于独立​​——例如 GARCH 模型的残差是不相关白噪声,但条件方差有结构,不是独立序列(细节见模块 2.3.2 波动率与机制模型)。后续 AR / MA / ARMA 都以 {ϵt}WN(0,σ2)\{\epsilon_t\} \sim \mathrm{WN}(0, \sigma^2) 为驱动新息,这是后面一切构造的基石。

​随机游走(random walk)​ St=i=1tϵiS_t = \sum_{i=1}^{t} \epsilon_i(S0=0S_0 = 0,ϵtWN(0,σ2)\epsilon_t \sim \mathrm{WN}(0, \sigma^2)):

Var(St)=tσ2,Cov(St,Ss)=min(t,s)σ2.\mathrm{Var}(S_t) = t\sigma^2, \qquad \mathrm{Cov}(S_t, S_s) = \min(t, s)\,\sigma^2.

方差随 tt 线性增长,协方差也不只是滞后的函数,故随机游走​​不是​​宽平稳的。它是非平稳过程的原型,模块第 4 课用单位根框架系统处理。

6. 样本估计与巴特利特置信带

实践中你拿到的是一条长度为 TT 的样本 x1,,xTx_1, \dots, x_T。自然估计量是

xˉ=1Tt=1Txt,γ^(k)=1Tt=k+1T(xtxˉ)(xtkxˉ),ρ^(k)=γ^(k)γ^(0).\bar{x} = \frac{1}{T}\sum_{t=1}^{T} x_t, \qquad \hat{\gamma}(k) = \frac{1}{T}\sum_{t = k + 1}^{T} (x_t - \bar{x})(x_{t - k} - \bar{x}), \qquad \hat{\rho}(k) = \frac{\hat{\gamma}(k)}{\hat{\gamma}(0)}.

分母用 TT 而非 TkT-k:估计向 0 略偏,但换来 γ^\hat{\gamma} 始终正定,实战中收益大于代价。

​巴特利特(Bartlett)结论​​:宽平稳加温和混合条件下,对 k1k \geq 1,ρ^(k)\hat{\rho}(k) 在白噪声原假设下渐近正态,标准误约为 1/T1/\sqrt{T}。因此每张样本 ACF 图上画的 ±1.96/T\pm 1.96/\sqrt{T} 横线,就是「该滞后总体自相关为零」原假设的 0.05 水平接受带——这正是巴特利特 1/T1/\sqrt{T} 置信带。

​实战读图​​:设 T=200T = 200,样本 ACF 给出 ρ^(1)=0.42\hat{\rho}(1) = 0.42ρ^(2)=0.18\hat{\rho}(2) = 0.18ρ^(3)=0.05\hat{\rho}(3) = 0.05。先算 ±1.96/200±0.139\pm 1.96/\sqrt{200} \approx \pm 0.139。逐项判:0.42>0.1390.42 > 0.139(滞后 1 显著)、0.18>0.1390.18 > 0.139(滞后 2 显著)、0.05<0.1390.05 < 0.139(滞后 3 不显著)。结论:5% 显著性水平下,前两阶自相关确凿,第三阶证据不足——这是后续识别要直接读的视觉判据。

7. 预告:一阶自回归的 ACF 形状

若某过程的 ACF 是几何衰减 ρ(k)=ϕk\rho(k) = \phi^{|k|},那就是一阶自回归(autoregressive, AR(1))过程的特征指纹。拖动下面的 ϕ\phi:正值给单调指数衰减,负值给交替振荡衰减,ϕ|\phi| 越接近 1 衰减越慢、过程「记忆」越长。下一课把这块拼图补上。

Formula Explorer

phi^k

练习

Exercise

Xt=0.6Xt1+ϵtX_t = 0.6\, X_{t-1} + \epsilon_t,其中 ϵtWN(0,1)\epsilon_t \sim \mathrm{WN}(0, 1),过程从其平稳分布起始。(a) 计算 μ=E[Xt]\mu = E[X_t]γ(0)=Var(Xt)\gamma(0) = \mathrm{Var}(X_t)。(b) 推导 k=0,1,2,3k = 0, 1, 2, 3 时的 ACF ρ(k)\rho(k)(以 ϕ=0.6\phi = 0.6 写成闭式)。(c) 该过程是否宽平稳?用一句话说明。

提示
两端取期望并用平稳性 E[Xt]=E[Xt1]E[X_t] = E[X_{t-1}] 立得 μ=0\mu = 0;两端取方差,由 Var(Xt)=ϕ2Var(Xt1)+σ2\mathrm{Var}(X_t) = \phi^2 \mathrm{Var}(X_{t-1}) + \sigma^2Var(Xt)=Var(Xt1)\mathrm{Var}(X_t) = \mathrm{Var}(X_{t-1}) 解出 γ(0)=σ2/(1ϕ2)\gamma(0) = \sigma^2/(1-\phi^2)
提示
γ(k)=ϕγ(k1)\gamma(k) = \phi\,\gamma(k-1) 递推得 ρ(k)=ϕk\rho(k) = \phi^k;代 ϕ=0.6\phi = 0.6ρ(0)=1,ρ(1)=0.6,ρ(2)=0.36,ρ(3)=0.216\rho(0)=1, \rho(1)=0.6, \rho(2)=0.36, \rho(3)=0.216。(c) ϕ<1|\phi|<1,故宽平稳。

通向下一课

到这里你已经能区分严平稳与宽平稳、会算 ACF 与 PACF、会读样本 ACF 图,也见到了「白噪声 vs. 随机游走」这条平稳与非平稳的分水岭。下一课回答互补问题:​​哪一类参数化过程,其 ACF 与 PACF 长什么形状?​​——我们将引入滞后算子 LL,展开 AR、MA 与 ARMA 三个家族,把它们各自的 ACF / PACF 模式整理成一张识别表;那张表正是第 3 课 Box-Jenkins 工作流的入场券。频域方法、连续时间过程、多元 VAR 与分数差分 ARFIMA 是同一座大厦的别处入口,本模块只走时域 ARMA 主路。