期望、方差与矩 — 概率论基础

某私募的组合经理向风控要一份"未来 5 个交易日组合预期 P&L"和"组合 5 日波动率"。这两个数对应概率论里最基础的两个量:期望(expectation, mean)与方差(variance, second central moment)。再深入一层,你会想问"组合 P&L 超过 -5% 的概率上界是多少"——而当你对分布只有有限的信息(比如只知道前两阶矩)时,Markov 与 Chebyshev 两条不等式给出无需任何分布假设的答案。这一节系统铺开:期望与方差的定义、线性性、LOTUS、矩生成函数(MGF)、以及"用前两阶矩控制尾概率"的两条万能不等式。

一、期望:离散与连续两式同根

设 $X$ 为离散随机变量,期望定义为加权求和

E[X] = \sum_{x} x\,p_X(x)

设 $X$ 为连续随机变量,期望定义为积分

E[X] = \int_{-\infty}^{\infty} x\,f_X(x)\,dx

(两者均要求绝对收敛。)六组命名分布的期望可一次性算清:Bernoulli $(p)$ 的 $E[X] = p$ ;Binomial $(n, p)$ 的 $E[X] = np$ ;Poisson $(\lambda)$ 的 $E[X] = \lambda$ ;Exponential $(\lambda)$ 的 $E[X] = 1/\lambda$ ;Uniform $(a, b)$ 的 $E[X] = (a + b)/2$ ;正态分布(normal distribution)的 $E[X] = \mu$ 。

请把"期望"与"算术平均"两个词区分开:期望是分布的内在数字特征,与样本无关;算术平均是观测数据的统计量,只有当 $n$ 足够大时(下一节大数定律)才会逼近期望。这条区分在实际工作里时常被混淆,但写论文与做风控时务必分清。

二、线性性:无需独立的代数恒等式

线性性对任意两个随机变量 $X, Y$ 与常数 $a, b, c$ 成立:

$E[aX + bY + c] = a\,E[X] + b\,E[Y] + c.$

注意:无须 $X, Y$ 独立。这是期望最强大、也是最被低估的性质——它把许多看似复杂的求和(如组合 P&L 的均值、二项分布期望)瞬间化为标量加法。例:用线性性算 Binomial $(n, p)$ 的期望——把 $X = \sum_{i=1}^n X_i$ 拆成 $n$ 个 Bernoulli $(p)$ , $E[X] = \sum E[X_i] = np$ ,无需任何二项展开。

三、LOTUS:不必先求 $Y$ 的分布就能算 $E[g(X)]$

LOTUS(law of the unconscious statistician)说,要算 $E[g(X)]$ ,不必先求 $Y = g(X)$ 的分布:

$E[g(X)] = \sum_x g(x) p_X(x) \;\;\text{或}\;\; \int_{-\infty}^{\infty} g(x) f_X(x)\,dx.$

最常见的用途是求 $E[X^2]$ ,这是计算方差的关键中间量。LOTUS 的妙处在于把"求新变量分布"这一可能很费力的步骤跳过——只要原分布在手,任何 $g$ 的期望都是一次求和或一次积分的距离。

例:设 $X \sim U(0, 1)$ ,求 $E[X^2]$ 。直接积分: $E[X^2] = \int_0^1 x^2 \cdot 1\, dx = 1/3$ 。无需先推导 $Y = X^2$ 的密度,后者反而要做一次换元。

四、方差:位置 vs 散布

方差定义为 $\mathrm{Var}(X) = E[(X - E[X])^2]$ ,标准差 $\sigma_X = \sqrt{\mathrm{Var}(X)}$ 。展开括号后得到计算公式

\mathrm{Var}(X) = E[X^2] - (E[X])^2

它通常比按定义直接积分更快:先用 LOTUS 求 $E[X^2]$ ,再减 $(E[X])^2$ 。六组命名分布的方差:Bernoulli $(p)$ 为 $p(1-p)$ ;Binomial $(n, p)$ 为 $np(1-p)$ ;Poisson $(\lambda)$ 为 $\lambda$ (均值与方差恰好相等是 Poisson 的特征性质);Exponential $(\lambda)$ 为 $1/\lambda^2$ ;Uniform $(a, b)$ 为 $(b - a)^2 / 12$ ;正态分布为 $\sigma^2$ 。

缩放规则: $\mathrm{Var}(aX + b) = a^2 \mathrm{Var}(X)$ ——常数 $b$ 不影响散布,常数 $a$ 以平方倍数放大方差(故以倍数放大标准差)。这一条之所以重要,是因为它给出了"风险随仓位线性放大"的代数依据:把仓位放大 $a$ 倍,P&L 的标准差也按 $a$ 倍放大。而方差对求和并不线性: $\mathrm{Var}(X + Y) = \mathrm{Var}(X) + \mathrm{Var}(Y) + 2\mathrm{Cov}(X, Y)$ ,只有当 $X, Y$ 不相关时才简化为方差求和;这一识别将在下游模块 2.1.2 中正式展开,本节先把"方差不可加"这件事记牢。

五、矩与矩生成函数

$k$ 阶矩定义为 $E[X^k]$ 。矩生成函数(moment generating function, MGF)定义为

M_X(t) = E\!\left[e^{tX}\right]

当此期望在 $t = 0$ 的某个邻域内有限时存在。MGF 的核心性质有两条:(i) MGF 唯一确定分布(在存在的前提下);(ii) 通过在 $t = 0$ 处求导得到各阶矩:

$M_X^{(k)}(0) = E[X^k].$

例:用 MGF 验证正态分布的均值与方差。设 $X \sim N(\mu, \sigma^2)$ 。可证(详见任何标准教材)其 MGF 为 $M(t) = \exp(\mu t + \sigma^2 t^2 / 2)$ 。按步骤求两阶矩:

一阶导: $M'(t) = (\mu + \sigma^2 t) \exp(\mu t + \sigma^2 t^2 / 2)$ ,在 $t = 0$ 处得 $E[X] = M'(0) = \mu$ 。
二阶导: $M''(t) = \left[\sigma^2 + (\mu + \sigma^2 t)^2\right] \exp(\mu t + \sigma^2 t^2/2)$ ,在 $t = 0$ 处得 $E[X^2] = M''(0) = \sigma^2 + \mu^2$ 。
代入方差公式: $\mathrm{Var}(X) = E[X^2] - (E[X])^2 = \sigma^2 + \mu^2 - \mu^2 = \sigma^2$ 。

两条结果同时验证,且未做任何积分。

六、两条万能尾不等式

马尔可夫不等式(Markov):若 $X \geq 0$ 且 $a > 0$ ,则

$P(X \geq a) \leq \dfrac{E[X]}{a}.$

切比雪夫不等式(Chebyshev):设 $X$ 期望 $\mu$ 、方差 $\sigma^2$ ,对 $k > 0$ ,

$P(|X - \mu| \geq k\sigma) \leq \dfrac{1}{k^2}.$

Chebyshev 是 Markov 应用到 $(X - \mu)^2$ 的直接推论。两条不等式都不需要关于分布的额外假设——只需前一阶或前两阶矩有限。它们给出的界往往很松,但"无需假设"这一性质让它们在估计与不等式证明里几乎不可替代。下一节,Chebyshev 将直接给出弱大数定律的证明。

七、练习

Exercise

设 $X \sim P(\lambda)$ (泊松分布)。用 LOTUS 闭式计算 $E[X(X-1)]$ ,再用线性性得到 $\mathrm{Var}(X)$ 。请写出每一步。

提示

E[X(X-1)] = \sum_k k(k-1) e^{-\lambda} \lambda^k / k!

的

k = 0, 1

项为零;

k \geq 2

时

k(k-1)/k! = 1/(k-2)!

。提出

\lambda^2

,剩余求和正是

e^{\lambda}

。

提示

故

E[X(X-1)] = \lambda^2

。展开

E[X(X-1)] = E[X^2] - E[X] = E[X^2] - \lambda

,故

E[X^2] = \lambda^2 + \lambda

;最后

\mathrm{Var}(X) = E[X^2] - (E[X])^2 = \lambda^2 + \lambda - \lambda^2 = \lambda

。

八、通往下一节

至此你已经会算任一命名分布的期望与方差,并能在只知道前一两阶矩的极端情形下,用 Markov / Chebyshev 控制尾概率。最后一节把这条线索拉到尽头:当独立同分布的样本数 $n \to \infty$ 时,样本均值 $\bar X_n$ 会做什么?Chebyshev 不等式将直接给出大数定律的初等证明;再深一层的中心极限定理则告诉你, $\bar X_n$ 减去均值再按 $\sqrt{n}$ 标度后的极限分布,正是上一节遇到的正态分布——后续在沪深300 日收益、信贷违约率年度估计等场景里,这两条定理是你能"用样本估总体"的唯一理论依据。