AR、MA 与 ARMA 过程 — 平稳性与 ARMA 模型

周一开盘前，某沪深300 量化私募的研究员把昨天打捞回来的 1500 个日内对数收益样本（log-returns）丢进 R，画了一张样本 ACF：lag 1 大约 0.18，lag 2 大约 0.05，再往后几乎全部落进 Bartlett 带里。她想问的是：这条「拖尾」曲线像不像一阶自回归（autoregressive, AR）模型该有的样子？如果是 AR，参数 $\phi_1$ 需要在哪个区间内，整条序列才能保持平稳（stationary）？上一课你已经能把图画对，这一课要把图对号入座到一族能写下闭式解的参数模型——AR、MA 与 ARMA——并把「拖尾 / 截尾」这两个口诀升级为可以验证的代数条件。

一、滞后算子与三大模型

定义滞后算子（lag operator） $L$ 作用在时间序列上： $L X_t = X_{t-1}$ ，从而 $L^k X_t = X_{t-k}$ 。 $L$ 是线性的，对任何标量 $a, b$ 满足 $(a L + b L^k) X_t = a X_{t-1} + b X_{t-k}$ 。引入它之后，AR(p)、MA(q)、ARMA(p, q) 三族模型都可以被压成一行：

\phi(L)(X_t - \mu) = \theta(L)\,\epsilon_t,\quad \phi(L) = 1 - \phi_1 L - \cdots - \phi_p L^p,\quad \theta(L) = 1 + \theta_1 L + \cdots + \theta_q L^q,\quad \epsilon_t \sim \mathrm{WN}(0, \sigma^2)

取 $\theta \equiv 1$ 即纯 AR(p)，取 $\phi \equiv 1$ 即纯 MA(q)；二者同时存在即 ARMA(p, q)。 $\{\epsilon_t\}$ 是上一课定义过的白噪声。除非另作说明，本课假定 $\mu = 0$ 以减少记号——常数项放回去后所有结果只是平移。

二、AR(p) 的平稳性条件

直接问：什么样的 $\phi_i$ 让 $\{X_t\}$ 弱平稳？答案借助特征多项式 $\phi(z) = 1 - \phi_1 z - \cdots - \phi_p z^p$ 。

\{X_t\}\ \text{弱平稳} \iff \phi(z_i) = 0 \Rightarrow |z_i| > 1\ (i = 1, \dots, p) \iff |\lambda_i(F)| < 1\ (i = 1, \dots, p)

即 $\phi(z) = 0$ 的所有根都在单位圆外，等价地伴随矩阵 $F$ 的所有特征值都在单位圆内。

线性代数小复盘：把 $Y_t = (X_t, X_{t-1}, \dots, X_{t-p+1})^T$ 写成一阶向量自回归 $Y_t = F Y_{t-1} + e_t$ ；伴随矩阵 $F$ 第一行为 $(\phi_1, \dots, \phi_p)$ ，其下方是 $p-1$ 阶单位下移阵。 $F$ 的特征值恰是 $\phi(z) = 0$ 的根的倒数，因此「根在圆外」与「特征值在圆内」其实是同一条件的两种讲法——一种从多项式角度看，一种从迭代矩阵角度看。后者把平稳性与离散动力系统的稳定性直接接上：迭代矩阵 $F^n$ 在 $n \to \infty$ 时不爆炸， $\{X_t\}$ 才能维持有限二阶矩，否则方差沿时间方向单调放大、平稳性谈不上。模块 2.4.1 尚未铺到这一步，这里仅做四句话的提示，正式证明留给那一节。

AR(1) 是最干净的特例。 $\phi(z) = 1 - \phi_1 z$ ，根为 $z_1 = 1/\phi_1$ ，故 $|z_1| > 1 \iff |\phi_1| < 1$ 。在 $|\phi_1| < 1$ 下对两端取期望并利用平稳性，可解出全部一二阶矩：

\mu = \frac{c}{1 - \phi_1},\quad \gamma(0) = \frac{\sigma^2}{1 - \phi_1^2},\quad \rho(k) = \phi_1^{|k|}

方差方程 $\gamma(0) = \phi_1^2\,\gamma(0) + \sigma^2$ 一步解出 $\gamma(0)$ ；对 $k \geq 1$ 由 $\gamma(k) = \phi_1\,\gamma(k-1)$ 递推得几何衰减的 ACF。 $\phi_1 \in (0, 1)$ 时 ACF 单调衰减， $\phi_1 \in (-1, 0)$ 时交替号衰减。对 $p \geq 2$ ，把这条递推推广即得 Yule-Walker 递推 $\gamma(k) = \phi_1\,\gamma(k-1) + \cdots + \phi_p\,\gamma(k-p)$ （ $k \geq 1$ ）——本课只到这里，闭式估计留给下一课。

三、MA(q) 与可逆性

把 MA(q) 写成 $X_t = \theta(L)\,\epsilon_t$ 。它是有限个有限方差白噪声的线性组合，故 MA(q) 永远弱平稳—— $\theta$ 系数无任何约束。直接对 MA(1)： $X_t = \epsilon_t + \theta_1\,\epsilon_{t-1}$ ，

\gamma(0) = (1 + \theta_1^2)\sigma^2,\quad \gamma(1) = \theta_1\,\sigma^2,\quad \gamma(k) = 0\ (|k| \geq 2);\quad \rho(1) = \frac{\theta_1}{1 + \theta_1^2},\quad \rho(k) = 0\ (|k| \geq 2)

ACF 在 $q$ 阶后截尾——这就是下面识别表的第二行。

可逆性（invertibility）：MA(q) 称为可逆，若 $\theta(z) = 0$ 的所有根都在单位圆外。可逆时存在形式逆 $\theta(L)^{-1}$ ，从而 $\epsilon_t = \theta(L)^{-1} X_t$ 给出一个 AR( $\infty$ ) 表示——白噪声扰动可由历史观测线性回推，似然函数与 $h$ 步预测公式因此都良定义；不可逆时同一份样本对应多组合规系数，估计程序无所适从。MA(1) 内置一组「同 ACF 但不同可逆性」的配对 $(\theta_1, 1/\theta_1)$ ：两者给出同一条 $\rho(1) = \theta_1 / (1 + \theta_1^2)$ ，但只有 $|\theta_1| < 1$ 的那一个可逆，估计时按惯例选取可逆根。

四、ARMA 与沃尔德分解

ARMA(p, q) 即 $\phi(L) X_t = \theta(L)\,\epsilon_t$ （已去均值）。平稳性由 $\phi$ 端管，可逆性由 $\theta$ 端管，两侧条件互不耦合。约定 $\phi$ 与 $\theta$ 的公共因子已经约掉——这就是不可约 / 最小阶（irreducibility / minimality）假设。

为什么用两个多项式拼出来的 ARMA 就够用？答案是沃尔德分解定理（Wold 1938；Hamilton 定理 4.1.1）：每个零均值弱平稳过程都唯一拥有 MA( $\infty$ ) 表示

X_t = \sum_{j = 0}^{\infty} \psi_j\,\epsilon_{t - j} + V_t

其中 $\psi_0 = 1$ ， $\sum_{j = 0}^{\infty} \psi_j^2 < \infty$ ， $\{\epsilon_t\}$ 为创新白噪声（在 $L^2$ 意义下正交于过去）， $V_t$ 是线性可预测的确定性分量（应用中通常为零）。MA( $\infty$ ) 本身有可数无穷个参数，无法直接拟合；而 ARMA(p, q) 的有理形式 $\theta(L)/\phi(L)$ 用 $p + q$ 个参数即可逼近 Wold 系数 $\psi_j$ 的主部。这就是 ARMA 的整个建模哲学：在数据未明显抗议时优先选小的 $p, q$ 。其形式化版本（AIC / BIC 准则）下一课给出。

五、ACF / PACF 识别表

下一课的「先看图后选模型」流程，落到一张教材里读一眼就能记住的表上——AR(p) 拖尾、PACF p 步截尾；MA(q) ACF q 步截尾、PACF 拖尾；ARMA 双拖尾：

模型	ACF 行为	PACF 行为
AR(p)	拖尾（几何或正弦阻尼）	在第 $p$ 阶后截尾
MA(q)	在第 $q$ 阶后截尾	拖尾
ARMA(p, q)	拖尾	拖尾

一句话说明：AR(p) 按构造是过去 $p$ 阶的线性组合，把这 $p$ 阶 partial out 后剩下的就是白噪声，故 PACF 截在 $p$ ；MA(q) 经其 AR( $\infty$ ) 表示对称地解释——可观测序列要无穷阶 AR 才能消干净，所以 PACF 拖尾，而 ACF 由 MA(q) 直接给出，正好在 $q$ 阶后截尾。ARMA 两端都「拖」，因为它把 AR 的拖尾 ACF 与 MA 的拖尾 PACF 各取一份合在一起。频域 / 谱密度的对偶视角是另一条进路，本模块不深入。

为了把 AR(1) ACF $\rho(k) = \phi^{|k|}$ 的几何衰减形状内化，下面把 $\phi$ 当作参数：

Formula Explorer

phi^k

把 $\phi$ 拉到 $0.8$ 看慢衰减，拉到 $0.2$ 看快衰减，拉到 $-0.5$ 看交替号——这三种形状正是下一课你要在样本 ACF 上一眼认出来的。

六、练习

Exercise

考虑 AR(2) 过程 $X_t = 0.5 X_{t-1} + 0.2 X_{t-2} + \epsilon_t$ ， $\epsilon_t \sim \mathrm{WN}(0, 1)$ 。(a) 写出特征多项式 $\phi(z)$ 并数值求出其两个根。(b) 据此判断该过程是否弱平稳。(c) 不必完整求解，写出 $\gamma(k)$ 对 $k \geq 1$ 满足的 Yule-Walker 递推式。

提示

把 AR(2) 改写为

(1 - 0.5 L - 0.2 L^2) X_t = \epsilon_t

，特征多项式即

\phi(z) = 1 - 0.5 z - 0.2 z^2

；用求根公式或一行 numpy.roots 即可。

提示

判断弱平稳只需看两根的模是否都严格大于 1；Yule-Walker 递推按

\gamma(k) = \phi_1\,\gamma(k-1) + \phi_2\,\gamma(k-2)

直接代入

\phi_1 = 0.5,\ \phi_2 = 0.2

即可。

七、通往下一课

到这里你已经能把任何一条平稳序列对号入座到 AR(p) / MA(q) / ARMA(p, q) 之中某一族，写下其闭式 ACF，并用特征多项式根 / 伴随矩阵特征值判定平稳性与可逆性。日频或高频 log-returns 在很多场合可用低阶 ARMA 充分近似——剩下的方差结构留给模块 2.3.2 波动率与状态模型，因子层的 ARMA 残差应用见 4.2.2 信号构建。下一课「ARMA 模型的识别、估计与预测」把今天这张识别表配上 AIC / BIC 准则，再把 Yule-Walker、极大似然估计与 $h$ 步预测一并跑通，最终交付一个能在 CFFEX IF 主力合约日数据上端到端跑通的 Box-Jenkins 工作流。