某私募(private fund)交易日下午四点,你的 PM 把过去 500 个交易日的策略净值推过来,问:这条曲线的均值真的稳定吗?波动率有没有结构性变化?只看一条路径,凭什么相信估出来的均值与自相关有意义?这是时间序列分析(time series analysis)的元问题。横截面统计里你有 n n n 个独立同分布(i.i.d.)样本,推断建立在「重复抽样」上;时间序列里你只有长度为 T T T 的一条样本路径,既无法重置时钟也无法平行宇宙复采。要把样本均值当成总体均值的估计、样本自相关当成总体自相关的估计,前提是过程在时间方向上「足够稳定」——稳到什么程度?这是平稳性(stationarity)要回答的问题。本课先把基本对象与定义说清,再给出度量工具:自相关函数(autocorrelation function, ACF)与偏自相关函数(PACF),最后用两个原型与巴特利特(Bartlett)置信带闭环。
1. 随机过程与样本路径
形式化一下。一个(实值、离散时间的)随机过程(stochastic process)是定义在同一概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, P) ( Ω , F , P ) 上、由 t ∈ Z t \in \mathbb{Z} t ∈ Z 指标化的一族随机变量 { X t } t ∈ Z \{X_t\}_{t \in \mathbb{Z}} { X t } t ∈ Z 。固定一个样本点 ω ∈ Ω \omega \in \Omega ω ∈ Ω ,得到一条数序列 t ↦ X t ( ω ) t \mapsto X_t(\omega) t ↦ X t ( ω ) ——这就是一条样本路径(sample path),也是屏幕上你看到的那条净值曲线。但过程本身不止这一条曲线;它由所有有限维联合分布 ( X t 1 , … , X t k ) (X_{t_1}, \dots, X_{t_k}) ( X t 1 , … , X t k ) 的分布族完全刻画。换言之,你看到的「数据」是过程的一次实现,而推断的对象是产出这条实现的概率法则。
握住这个区分:样本路径是一次实现,过程是所有实现的概率法则 。估均值时你在用一条路径上的时间平均替代横截面的总体平均;只有过程在时间方向上有足够对称性,这步替换才合法。这套对称性就是平稳性——它把「时间平均 → \to → 总体平均」从信仰变成可证命题(背后是各态历经定理,本课不展开)。
2. 严平稳与宽平稳
按王燕《应用时间序列分析》与何书元《随机过程》的惯例,先严后宽,因为前者是直接对分布层面的对称要求,后者是它的二阶矩弱化。
严平稳(strictly stationary) :{ X t } \{X_t\} { X t } 严平稳,当且仅当对一切 k ≥ 1 k \geq 1 k ≥ 1 、一切 ( t 1 , … , t k ) (t_1, \dots, t_k) ( t 1 , … , t k ) 与一切位移 h ∈ Z h \in \mathbb{Z} h ∈ Z 有
( X t 1 + h , … , X t k + h ) = d ( X t 1 , … , X t k ) . (X_{t_1 + h}, \dots, X_{t_k + h}) \stackrel{d}{=} (X_{t_1}, \dots, X_{t_k}). ( X t 1 + h , … , X t k + h ) = d ( X t 1 , … , X t k ) .
口语化:把时间轴整体平移,统计性质纹丝不动。代价是这条要求覆盖了全分布,只用二阶矩信息无法直接验证;实操中很难直接检验。
宽平稳(weakly stationary)/ 二阶平稳(second-order stationary) :存在有限二阶矩 E [ X t 2 ] < ∞ E[X_t^2] < \infty E [ X t 2 ] < ∞ ,且
E [ X t ] = μ (与 t 无关) , V a r ( X t ) = γ ( 0 ) < ∞ , C o v ( X t , X t − k ) = γ ( k ) (仅依赖滞后 k ) . E[X_t] = \mu \text{ (与 } t \text{ 无关)}, \quad \mathrm{Var}(X_t) = \gamma(0) < \infty, \quad \mathrm{Cov}(X_t, X_{t-k}) = \gamma(k) \text{ (仅依赖滞后 } k\text{)}. E [ X t ] = μ ( 与 t 无关 ) , Var ( X t ) = γ ( 0 ) < ∞ , Cov ( X t , X t − k ) = γ ( k ) ( 仅依赖滞后 k ) .
只对一阶矩、二阶矩提要求——这正是它在实践中好用的原因:样本均值、样本自协方差直接对应它的三条条件。两者关系:严平稳 + 有限二阶矩 ⇒ \Rightarrow ⇒ 宽平稳;反之一般不成立,因为高阶矩仍可能随时间漂移。一个例外要记住:高斯过程(Gaussian process)的严平稳与宽平稳等价 ——多元正态分布完全由均值向量与协方差矩阵决定,二阶矩的不变性自动升级为整个分布的不变性。本模块从此处起,「平稳」默认指「宽平稳」,只在需要时显式区分。
3. 自协方差与自相关函数
自协方差函数(autocovariance function)记作 γ ( k ) = C o v ( X t , X t − k ) \gamma(k) = \mathrm{Cov}(X_t, X_{t-k}) γ ( k ) = Cov ( X t , X t − k ) ;宽平稳下它不依赖于 t t t ,只是滞后(lag)k k k 的函数。自相关函数(ACF)是归一化版本:
ρ ( k ) = γ ( k ) γ ( 0 ) , ρ ( 0 ) = 1 , ∣ ρ ( k ) ∣ ≤ 1 , ρ ( − k ) = ρ ( k ) . \rho(k) = \frac{\gamma(k)}{\gamma(0)}, \qquad \rho(0) = 1, \quad |\rho(k)| \leq 1, \quad \rho(-k) = \rho(k). ρ ( k ) = γ ( 0 ) γ ( k ) , ρ ( 0 ) = 1 , ∣ ρ ( k ) ∣ ≤ 1 , ρ ( − k ) = ρ ( k ) .
三条结构性质各有出处:ρ ( 0 ) = 1 \rho(0) = 1 ρ ( 0 ) = 1 来自定义;∣ ρ ( k ) ∣ ≤ 1 |\rho(k)| \leq 1 ∣ ρ ( k ) ∣ ≤ 1 是 Cauchy-Schwarz 作用在 X t X_t X t 与 X t − k X_{t-k} X t − k 上的直接结果;ρ ( − k ) = ρ ( k ) \rho(-k) = \rho(k) ρ ( − k ) = ρ ( k ) 来自协方差对称性与宽平稳时移不变性的组合。惯例只画 k ≥ 0 k \geq 0 k ≥ 0 一侧。再加一条定性要求:自协方差必须是正定核 ——对任意 ( a 1 , … , a n ) (a_1, \dots, a_n) ( a 1 , … , a n ) 与 ( t 1 , … , t n ) (t_1, \dots, t_n) ( t 1 , … , t n ) ,∑ i , j a i a j γ ( t i − t j ) ≥ 0 \sum_{i,j} a_i a_j \gamma(t_i - t_j) \geq 0 ∑ i , j a i a j γ ( t i − t j ) ≥ 0 (Bochner 型条件)。它把「随便画的曲线」与「真能当 ACF 用」区分开,本课不证。
4. 偏自相关函数 PACF
偏自相关函数(PACF)记作 ϕ k k \phi_{kk} ϕ k k 。考虑 X t X_t X t 在 s p a n ( X t − 1 , … , X t − k ) \mathrm{span}(X_{t-1}, \dots, X_{t-k}) span ( X t − 1 , … , X t − k ) 上的 L 2 L^2 L 2 投影
X ^ t ( k ) = β 1 X t − 1 + β 2 X t − 2 + ⋯ + β k X t − k , \hat{X}_t^{(k)} = \beta_1 X_{t-1} + \beta_2 X_{t-2} + \dots + \beta_k X_{t-k}, X ^ t ( k ) = β 1 X t − 1 + β 2 X t − 2 + ⋯ + β k X t − k ,
ϕ k k \phi_{kk} ϕ k k 即最后一个系数 β k \beta_k β k 。等价地,ϕ k k = C o r r ( X t , X t − k ∣ X t − 1 , … , X t − k + 1 ) \phi_{kk} = \mathrm{Corr}(X_t, X_{t-k} \mid X_{t-1}, \dots, X_{t-k+1}) ϕ k k = Corr ( X t , X t − k ∣ X t − 1 , … , X t − k + 1 ) ——把中间各滞后的线性影响剥掉之后,X t X_t X t 与 X t − k X_{t-k} X t − k 还剩多少直接关联。
一句话对照:ACF 量度总线性依赖 (含经由中间滞后的间接通道),PACF 量度直接线性依赖 (中间滞后被线性偏出后)。设想 X t → X t − 1 → X t − 2 X_t \to X_{t-1} \to X_{t-2} X t → X t − 1 → X t − 2 的链:ACF 在滞后 2 上看到「X t X_t X t 经 X t − 1 X_{t-1} X t − 1 间接关联 X t − 2 X_{t-2} X t − 2 」的回响,PACF 在滞后 2 上只看「剔除 X t − 1 X_{t-1} X t − 1 后还剩多少」。这是第 3 课识别(identification)工具的核心区分——也是 ACF 与 PACF 图永远成对出现的原因。
5. 两个原型:白噪声与随机游走
白噪声(white noise) { ϵ t } ∼ W N ( 0 , σ 2 ) \{\epsilon_t\} \sim \mathrm{WN}(0, \sigma^2) { ϵ t } ∼ WN ( 0 , σ 2 ) :E [ ϵ t ] = 0 E[\epsilon_t] = 0 E [ ϵ t ] = 0 、V a r ( ϵ t ) = σ 2 \mathrm{Var}(\epsilon_t) = \sigma^2 Var ( ϵ t ) = σ 2 、C o v ( ϵ t , ϵ s ) = 0 \mathrm{Cov}(\epsilon_t, \epsilon_s) = 0 Cov ( ϵ t , ϵ s ) = 0 (t ≠ s t \neq s t = s )。直接验证宽平稳:μ = 0 \mu = 0 μ = 0 ,γ ( 0 ) = σ 2 \gamma(0) = \sigma^2 γ ( 0 ) = σ 2 ,γ ( k ) = 0 \gamma(k) = 0 γ ( k ) = 0 (k ≠ 0 k \neq 0 k = 0 ),故 ρ ( 0 ) = 1 \rho(0) = 1 ρ ( 0 ) = 1 、ρ ( k ) = 0 \rho(k) = 0 ρ ( k ) = 0 (k ≠ 0 k \neq 0 k = 0 )。一个常见误区:不相关不等于独立 ——例如 GARCH 模型的残差是不相关白噪声,但条件方差有结构,不是独立序列(细节见模块 2.3.2 波动率与机制模型)。后续 AR / MA / ARMA 都以 { ϵ t } ∼ W N ( 0 , σ 2 ) \{\epsilon_t\} \sim \mathrm{WN}(0, \sigma^2) { ϵ t } ∼ WN ( 0 , σ 2 ) 为驱动新息,这是后面一切构造的基石。
随机游走(random walk) S t = ∑ i = 1 t ϵ i S_t = \sum_{i=1}^{t} \epsilon_i S t = ∑ i = 1 t ϵ i (S 0 = 0 S_0 = 0 S 0 = 0 ,ϵ t ∼ W N ( 0 , σ 2 ) \epsilon_t \sim \mathrm{WN}(0, \sigma^2) ϵ t ∼ WN ( 0 , σ 2 ) ):
V a r ( S t ) = t σ 2 , C o v ( S t , S s ) = min ( t , s ) σ 2 . \mathrm{Var}(S_t) = t\sigma^2, \qquad \mathrm{Cov}(S_t, S_s) = \min(t, s)\,\sigma^2. Var ( S t ) = t σ 2 , Cov ( S t , S s ) = min ( t , s ) σ 2 .
方差随 t t t 线性增长,协方差也不只是滞后的函数,故随机游走不是 宽平稳的。它是非平稳过程的原型,模块第 4 课用单位根框架系统处理。
6. 样本估计与巴特利特置信带
实践中你拿到的是一条长度为 T T T 的样本 x 1 , … , x T x_1, \dots, x_T x 1 , … , x T 。自然估计量是
x ˉ = 1 T ∑ t = 1 T x t , γ ^ ( k ) = 1 T ∑ t = k + 1 T ( x t − x ˉ ) ( x t − k − x ˉ ) , ρ ^ ( k ) = γ ^ ( k ) γ ^ ( 0 ) . \bar{x} = \frac{1}{T}\sum_{t=1}^{T} x_t, \qquad \hat{\gamma}(k) = \frac{1}{T}\sum_{t = k + 1}^{T} (x_t - \bar{x})(x_{t - k} - \bar{x}), \qquad \hat{\rho}(k) = \frac{\hat{\gamma}(k)}{\hat{\gamma}(0)}. x ˉ = T 1 t = 1 ∑ T x t , γ ^ ( k ) = T 1 t = k + 1 ∑ T ( x t − x ˉ ) ( x t − k − x ˉ ) , ρ ^ ( k ) = γ ^ ( 0 ) γ ^ ( k ) .
分母用 T T T 而非 T − k T-k T − k :估计向 0 略偏,但换来 γ ^ \hat{\gamma} γ ^ 始终正定,实战中收益大于代价。
巴特利特(Bartlett)结论 :宽平稳加温和混合条件下,对 k ≥ 1 k \geq 1 k ≥ 1 ,ρ ^ ( k ) \hat{\rho}(k) ρ ^ ( k ) 在白噪声原假设下渐近正态,标准误约为 1 / T 1/\sqrt{T} 1/ T 。因此每张样本 ACF 图上画的 ± 1.96 / T \pm 1.96/\sqrt{T} ± 1.96/ T 横线,就是「该滞后总体自相关为零」原假设的 0.05 水平接受带——这正是巴特利特 1 / T 1/\sqrt{T} 1/ T 置信带。
实战读图 :设 T = 200 T = 200 T = 200 ,样本 ACF 给出 ρ ^ ( 1 ) = 0.42 \hat{\rho}(1) = 0.42 ρ ^ ( 1 ) = 0.42 、ρ ^ ( 2 ) = 0.18 \hat{\rho}(2) = 0.18 ρ ^ ( 2 ) = 0.18 、ρ ^ ( 3 ) = 0.05 \hat{\rho}(3) = 0.05 ρ ^ ( 3 ) = 0.05 。先算 ± 1.96 / 200 ≈ ± 0.139 \pm 1.96/\sqrt{200} \approx \pm 0.139 ± 1.96/ 200 ≈ ± 0.139 。逐项判:0.42 > 0.139 0.42 > 0.139 0.42 > 0.139 (滞后 1 显著)、0.18 > 0.139 0.18 > 0.139 0.18 > 0.139 (滞后 2 显著)、0.05 < 0.139 0.05 < 0.139 0.05 < 0.139 (滞后 3 不显著)。结论:5% 显著性水平下,前两阶自相关确凿,第三阶证据不足——这是后续识别要直接读的视觉判据。
7. 预告:一阶自回归的 ACF 形状
若某过程的 ACF 是几何衰减 ρ ( k ) = ϕ ∣ k ∣ \rho(k) = \phi^{|k|} ρ ( k ) = ϕ ∣ k ∣ ,那就是一阶自回归(autoregressive, AR(1))过程的特征指纹。拖动下面的 ϕ \phi ϕ :正值给单调指数衰减,负值给交替振荡衰减,∣ ϕ ∣ |\phi| ∣ ϕ ∣ 越接近 1 衰减越慢、过程「记忆」越长。下一课把这块拼图补上。
练习
Exercise
设 X t = 0.6 X t − 1 + ϵ t X_t = 0.6\, X_{t-1} + \epsilon_t X t = 0.6 X t − 1 + ϵ t ,其中 ϵ t ∼ W N ( 0 , 1 ) \epsilon_t \sim \mathrm{WN}(0, 1) ϵ t ∼ WN ( 0 , 1 ) ,过程从其平稳分布起始。(a) 计算 μ = E [ X t ] \mu = E[X_t] μ = E [ X t ] 与 γ ( 0 ) = V a r ( X t ) \gamma(0) = \mathrm{Var}(X_t) γ ( 0 ) = Var ( X t ) 。(b) 推导 k = 0 , 1 , 2 , 3 k = 0, 1, 2, 3 k = 0 , 1 , 2 , 3 时的 ACF ρ ( k ) \rho(k) ρ ( k ) (以 ϕ = 0.6 \phi = 0.6 ϕ = 0.6 写成闭式)。(c) 该过程是否宽平稳?用一句话说明。
提示 两端取期望并用平稳性
E [ X t ] = E [ X t − 1 ] E[X_t] = E[X_{t-1}] E [ X t ] = E [ X t − 1 ] 立得
μ = 0 \mu = 0 μ = 0 ;两端取方差,由
V a r ( X t ) = ϕ 2 V a r ( X t − 1 ) + σ 2 \mathrm{Var}(X_t) = \phi^2 \mathrm{Var}(X_{t-1}) + \sigma^2 Var ( X t ) = ϕ 2 Var ( X t − 1 ) + σ 2 与
V a r ( X t ) = V a r ( X t − 1 ) \mathrm{Var}(X_t) = \mathrm{Var}(X_{t-1}) Var ( X t ) = Var ( X t − 1 ) 解出
γ ( 0 ) = σ 2 / ( 1 − ϕ 2 ) \gamma(0) = \sigma^2/(1-\phi^2) γ ( 0 ) = σ 2 / ( 1 − ϕ 2 ) 。
提示 由
γ ( k ) = ϕ γ ( k − 1 ) \gamma(k) = \phi\,\gamma(k-1) γ ( k ) = ϕ γ ( k − 1 ) 递推得
ρ ( k ) = ϕ k \rho(k) = \phi^k ρ ( k ) = ϕ k ;代
ϕ = 0.6 \phi = 0.6 ϕ = 0.6 即
ρ ( 0 ) = 1 , ρ ( 1 ) = 0.6 , ρ ( 2 ) = 0.36 , ρ ( 3 ) = 0.216 \rho(0)=1, \rho(1)=0.6, \rho(2)=0.36, \rho(3)=0.216 ρ ( 0 ) = 1 , ρ ( 1 ) = 0.6 , ρ ( 2 ) = 0.36 , ρ ( 3 ) = 0.216 。(c)
∣ ϕ ∣ < 1 |\phi|<1 ∣ ϕ ∣ < 1 ,故宽平稳。
通向下一课
到这里你已经能区分严平稳与宽平稳、会算 ACF 与 PACF、会读样本 ACF 图,也见到了「白噪声 vs. 随机游走」这条平稳与非平稳的分水岭。下一课回答互补问题:哪一类参数化过程,其 ACF 与 PACF 长什么形状? ——我们将引入滞后算子 L L L ,展开 AR、MA 与 ARMA 三个家族,把它们各自的 ACF / PACF 模式整理成一张识别表;那张表正是第 3 课 Box-Jenkins 工作流的入场券。频域方法、连续时间过程、多元 VAR 与分数差分 ARFIMA 是同一座大厦的别处入口,本模块只走时域 ARMA 主路。