平稳性与自相关函数 — 平稳性与 ARMA 模型

某私募(private fund)交易日下午四点,你的 PM 把过去 500 个交易日的策略净值推过来,问:这条曲线的均值真的稳定吗?波动率有没有结构性变化?只看一条路径,凭什么相信估出来的均值与自相关有意义?这是时间序列分析(time series analysis)的元问题。横截面统计里你有 $n$ 个独立同分布(i.i.d.)样本,推断建立在「重复抽样」上;时间序列里你只有长度为 $T$ 的一条样本路径,既无法重置时钟也无法平行宇宙复采。要把样本均值当成总体均值的估计、样本自相关当成总体自相关的估计,前提是过程在时间方向上「足够稳定」——稳到什么程度?这是平稳性(stationarity)要回答的问题。本课先把基本对象与定义说清,再给出度量工具:自相关函数(autocorrelation function, ACF)与偏自相关函数(PACF),最后用两个原型与巴特利特(Bartlett)置信带闭环。

1. 随机过程与样本路径

形式化一下。一个(实值、离散时间的)随机过程(stochastic process)是定义在同一概率空间 $(\Omega, \mathcal{F}, P)$ 上、由 $t \in \mathbb{Z}$ 指标化的一族随机变量 $\{X_t\}_{t \in \mathbb{Z}}$ 。固定一个样本点 $\omega \in \Omega$ ,得到一条数序列 $t \mapsto X_t(\omega)$ ——这就是一条样本路径(sample path),也是屏幕上你看到的那条净值曲线。但过程本身不止这一条曲线;它由所有有限维联合分布 $(X_{t_1}, \dots, X_{t_k})$ 的分布族完全刻画。换言之,你看到的「数据」是过程的一次实现,而推断的对象是产出这条实现的概率法则。

握住这个区分:样本路径是一次实现,过程是所有实现的概率法则。估均值时你在用一条路径上的时间平均替代横截面的总体平均;只有过程在时间方向上有足够对称性,这步替换才合法。这套对称性就是平稳性——它把「时间平均 $\to$ 总体平均」从信仰变成可证命题(背后是各态历经定理,本课不展开)。

2. 严平稳与宽平稳

按王燕《应用时间序列分析》与何书元《随机过程》的惯例,先严后宽,因为前者是直接对分布层面的对称要求,后者是它的二阶矩弱化。

严平稳(strictly stationary): $\{X_t\}$ 严平稳,当且仅当对一切 $k \geq 1$ 、一切 $(t_1, \dots, t_k)$ 与一切位移 $h \in \mathbb{Z}$ 有

(X_{t_1 + h}, \dots, X_{t_k + h}) \stackrel{d}{=} (X_{t_1}, \dots, X_{t_k}).

口语化:把时间轴整体平移,统计性质纹丝不动。代价是这条要求覆盖了全分布,只用二阶矩信息无法直接验证;实操中很难直接检验。

宽平稳(weakly stationary)/ 二阶平稳(second-order stationary):存在有限二阶矩 $E[X_t^2] < \infty$ ,且

E[X_t] = \mu \text{ (与 } t \text{ 无关)}, \quad \mathrm{Var}(X_t) = \gamma(0) < \infty, \quad \mathrm{Cov}(X_t, X_{t-k}) = \gamma(k) \text{ (仅依赖滞后 } k\text{)}.

只对一阶矩、二阶矩提要求——这正是它在实践中好用的原因:样本均值、样本自协方差直接对应它的三条条件。两者关系:严平稳 + 有限二阶矩 $\Rightarrow$ 宽平稳;反之一般不成立,因为高阶矩仍可能随时间漂移。一个例外要记住:高斯过程(Gaussian process)的严平稳与宽平稳等价——多元正态分布完全由均值向量与协方差矩阵决定,二阶矩的不变性自动升级为整个分布的不变性。本模块从此处起,「平稳」默认指「宽平稳」,只在需要时显式区分。

3. 自协方差与自相关函数

自协方差函数(autocovariance function)记作 $\gamma(k) = \mathrm{Cov}(X_t, X_{t-k})$ ;宽平稳下它不依赖于 $t$ ,只是滞后(lag) $k$ 的函数。自相关函数(ACF)是归一化版本:

\rho(k) = \frac{\gamma(k)}{\gamma(0)}, \qquad \rho(0) = 1, \quad |\rho(k)| \leq 1, \quad \rho(-k) = \rho(k).

三条结构性质各有出处: $\rho(0) = 1$ 来自定义; $|\rho(k)| \leq 1$ 是 Cauchy-Schwarz 作用在 $X_t$ 与 $X_{t-k}$ 上的直接结果; $\rho(-k) = \rho(k)$ 来自协方差对称性与宽平稳时移不变性的组合。惯例只画 $k \geq 0$ 一侧。再加一条定性要求:自协方差必须是正定核——对任意 $(a_1, \dots, a_n)$ 与 $(t_1, \dots, t_n)$ , $\sum_{i,j} a_i a_j \gamma(t_i - t_j) \geq 0$ (Bochner 型条件)。它把「随便画的曲线」与「真能当 ACF 用」区分开,本课不证。

4. 偏自相关函数 PACF

偏自相关函数(PACF)记作 $\phi_{kk}$ 。考虑 $X_t$ 在 $\mathrm{span}(X_{t-1}, \dots, X_{t-k})$ 上的 $L^2$ 投影

\hat{X}_t^{(k)} = \beta_1 X_{t-1} + \beta_2 X_{t-2} + \dots + \beta_k X_{t-k},

$\phi_{kk}$ 即最后一个系数 $\beta_k$ 。等价地, $\phi_{kk} = \mathrm{Corr}(X_t, X_{t-k} \mid X_{t-1}, \dots, X_{t-k+1})$ ——把中间各滞后的线性影响剥掉之后, $X_t$ 与 $X_{t-k}$ 还剩多少直接关联。

一句话对照:ACF 量度总线性依赖(含经由中间滞后的间接通道),PACF 量度直接线性依赖(中间滞后被线性偏出后)。设想 $X_t \to X_{t-1} \to X_{t-2}$ 的链:ACF 在滞后 2 上看到「 $X_t$ 经 $X_{t-1}$ 间接关联 $X_{t-2}$ 」的回响,PACF 在滞后 2 上只看「剔除 $X_{t-1}$ 后还剩多少」。这是第 3 课识别(identification)工具的核心区分——也是 ACF 与 PACF 图永远成对出现的原因。

5. 两个原型:白噪声与随机游走

白噪声(white noise) $\{\epsilon_t\} \sim \mathrm{WN}(0, \sigma^2)$ : $E[\epsilon_t] = 0$ 、 $\mathrm{Var}(\epsilon_t) = \sigma^2$ 、 $\mathrm{Cov}(\epsilon_t, \epsilon_s) = 0$ ( $t \neq s$ )。直接验证宽平稳: $\mu = 0$ , $\gamma(0) = \sigma^2$ , $\gamma(k) = 0$ ( $k \neq 0$ ),故 $\rho(0) = 1$ 、 $\rho(k) = 0$ ( $k \neq 0$ )。一个常见误区:不相关不等于独立——例如 GARCH 模型的残差是不相关白噪声,但条件方差有结构,不是独立序列(细节见模块 2.3.2 波动率与机制模型)。后续 AR / MA / ARMA 都以 $\{\epsilon_t\} \sim \mathrm{WN}(0, \sigma^2)$ 为驱动新息,这是后面一切构造的基石。

随机游走(random walk) $S_t = \sum_{i=1}^{t} \epsilon_i$ ( $S_0 = 0$ , $\epsilon_t \sim \mathrm{WN}(0, \sigma^2)$ ):

\mathrm{Var}(S_t) = t\sigma^2, \qquad \mathrm{Cov}(S_t, S_s) = \min(t, s)\,\sigma^2.

方差随 $t$ 线性增长,协方差也不只是滞后的函数,故随机游走不是宽平稳的。它是非平稳过程的原型,模块第 4 课用单位根框架系统处理。

6. 样本估计与巴特利特置信带

实践中你拿到的是一条长度为 $T$ 的样本 $x_1, \dots, x_T$ 。自然估计量是

\bar{x} = \frac{1}{T}\sum_{t=1}^{T} x_t, \qquad \hat{\gamma}(k) = \frac{1}{T}\sum_{t = k + 1}^{T} (x_t - \bar{x})(x_{t - k} - \bar{x}), \qquad \hat{\rho}(k) = \frac{\hat{\gamma}(k)}{\hat{\gamma}(0)}.

分母用 $T$ 而非 $T-k$ :估计向 0 略偏,但换来 $\hat{\gamma}$ 始终正定,实战中收益大于代价。

巴特利特(Bartlett)结论:宽平稳加温和混合条件下,对 $k \geq 1$ , $\hat{\rho}(k)$ 在白噪声原假设下渐近正态,标准误约为 $1/\sqrt{T}$ 。因此每张样本 ACF 图上画的 $\pm 1.96/\sqrt{T}$ 横线,就是「该滞后总体自相关为零」原假设的 0.05 水平接受带——这正是巴特利特 $1/\sqrt{T}$ 置信带。

实战读图:设 $T = 200$ ,样本 ACF 给出 $\hat{\rho}(1) = 0.42$ 、 $\hat{\rho}(2) = 0.18$ 、 $\hat{\rho}(3) = 0.05$ 。先算 $\pm 1.96/\sqrt{200} \approx \pm 0.139$ 。逐项判: $0.42 > 0.139$ (滞后 1 显著)、 $0.18 > 0.139$ (滞后 2 显著)、 $0.05 < 0.139$ (滞后 3 不显著)。结论:5% 显著性水平下,前两阶自相关确凿,第三阶证据不足——这是后续识别要直接读的视觉判据。

7. 预告:一阶自回归的 ACF 形状

若某过程的 ACF 是几何衰减 $\rho(k) = \phi^{|k|}$ ,那就是一阶自回归(autoregressive, AR(1))过程的特征指纹。拖动下面的 $\phi$ :正值给单调指数衰减,负值给交替振荡衰减, $|\phi|$ 越接近 1 衰减越慢、过程「记忆」越长。下一课把这块拼图补上。

Formula Explorer

phi^k

练习

Exercise

设 $X_t = 0.6\, X_{t-1} + \epsilon_t$ ,其中 $\epsilon_t \sim \mathrm{WN}(0, 1)$ ,过程从其平稳分布起始。(a) 计算 $\mu = E[X_t]$ 与 $\gamma(0) = \mathrm{Var}(X_t)$ 。(b) 推导 $k = 0, 1, 2, 3$ 时的 ACF $\rho(k)$ (以 $\phi = 0.6$ 写成闭式)。(c) 该过程是否宽平稳?用一句话说明。

提示

两端取期望并用平稳性

E[X_t] = E[X_{t-1}]

立得

\mu = 0

;两端取方差,由

\mathrm{Var}(X_t) = \phi^2 \mathrm{Var}(X_{t-1}) + \sigma^2

与

\mathrm{Var}(X_t) = \mathrm{Var}(X_{t-1})

解出

\gamma(0) = \sigma^2/(1-\phi^2)

。

提示

由

\gamma(k) = \phi\,\gamma(k-1)

递推得

\rho(k) = \phi^k

;代

\phi = 0.6

即

\rho(0)=1, \rho(1)=0.6, \rho(2)=0.36, \rho(3)=0.216

。(c)

|\phi|<1

,故宽平稳。

通向下一课

到这里你已经能区分严平稳与宽平稳、会算 ACF 与 PACF、会读样本 ACF 图,也见到了「白噪声 vs. 随机游走」这条平稳与非平稳的分水岭。下一课回答互补问题:哪一类参数化过程,其 ACF 与 PACF 长什么形状?——我们将引入滞后算子 $L$ ,展开 AR、MA 与 ARMA 三个家族,把它们各自的 ACF / PACF 模式整理成一张识别表;那张表正是第 3 课 Box-Jenkins 工作流的入场券。频域方法、连续时间过程、多元 VAR 与分数差分 ARFIMA 是同一座大厦的别处入口,本模块只走时域 ARMA 主路。