← 返回模块
2.1.1.4beta 可读 · 未来付费校验通过内容版本 2026-05-26

期望、方差与矩

2.1.1 · 概率论基础 · 数学与统计能力

某私募的组合经理向风控要一份"未来 5 个交易日组合预期 P&L"和"组合 5 日波动率"。这两个数对应概率论里最基础的两个量:​​期望​​(expectation, mean)与​​方差​​(variance, second central moment)。再深入一层,你会想问"组合 P&L 超过 -5% 的概率上界是多少"——而当你对分布只有有限的信息(比如只知道前两阶矩)时,Markov 与 Chebyshev 两条不等式给出无需任何分布假设的答案。这一节系统铺开:期望与方差的定义、线性性、LOTUS、矩生成函数(MGF)、以及"用前两阶矩控制尾概率"的两条万能不等式。

一、期望:离散与连续两式同根

XX 为离散随机变量,​​期望​​定义为加权求和

E[X]=xxpX(x)E[X] = \sum_{x} x\,p_X(x)

XX 为连续随机变量,​​期望​​定义为积分

E[X]=xfX(x)dxE[X] = \int_{-\infty}^{\infty} x\,f_X(x)\,dx

(两者均要求绝对收敛。)六组命名分布的期望可一次性算清:Bernoulli(p)(p)E[X]=pE[X] = p;Binomial(n,p)(n, p)E[X]=npE[X] = np;Poisson(λ)(\lambda)E[X]=λE[X] = \lambda;Exponential(λ)(\lambda)E[X]=1/λE[X] = 1/\lambda;Uniform(a,b)(a, b)E[X]=(a+b)/2E[X] = (a + b)/2;正态分布(normal distribution)的 E[X]=μE[X] = \mu

请把"期望"与"算术平均"两个词区分开:期望是分布的内在数字特征,与样本无关;算术平均是观测数据的统计量,只有当 nn 足够大时(下一节大数定律)才会逼近期望。这条区分在实际工作里时常被混淆,但写论文与做风控时务必分清。

二、线性性:无需独立的代数恒等式

​线性性​​对任意两个随机变量 X,YX, Y 与常数 a,b,ca, b, c 成立:

E[aX+bY+c]=aE[X]+bE[Y]+c.E[aX + bY + c] = a\,E[X] + b\,E[Y] + c.

注意:​​无须​ X,YX, Y 独立。这是期望最强大、也是最被低估的性质——它把许多看似复杂的求和(如组合 P&L 的均值、二项分布期望)瞬间化为标量加法。​​例​​:用线性性算 Binomial(n,p)(n, p) 的期望——把 X=i=1nXiX = \sum_{i=1}^n X_i 拆成 nn 个 Bernoulli(p)(p),E[X]=E[Xi]=npE[X] = \sum E[X_i] = np,无需任何二项展开。

三、LOTUS:不必先求 YY 的分布就能算 E[g(X)]E[g(X)]

​LOTUS​​(law of the unconscious statistician)说,要算 E[g(X)]E[g(X)],不必先求 Y=g(X)Y = g(X) 的分布:

E[g(X)]=xg(x)pX(x)        g(x)fX(x)dx.E[g(X)] = \sum_x g(x) p_X(x) \;\;\text{或}\;\; \int_{-\infty}^{\infty} g(x) f_X(x)\,dx.

最常见的用途是求 E[X2]E[X^2],这是计算方差的关键中间量。LOTUS 的妙处在于把"求新变量分布"这一可能很费力的步骤跳过——只要原分布在手,任何 gg 的期望都是一次求和或一次积分的距离。

​例​​:设 XU(0,1)X \sim U(0, 1),求 E[X2]E[X^2]。直接积分:E[X2]=01x21dx=1/3E[X^2] = \int_0^1 x^2 \cdot 1\, dx = 1/3。无需先推导 Y=X2Y = X^2 的密度,后者反而要做一次换元。

四、方差:位置 vs 散布

​方差​​定义为 Var(X)=E[(XE[X])2]\mathrm{Var}(X) = E[(X - E[X])^2],​​标准差​ σX=Var(X)\sigma_X = \sqrt{\mathrm{Var}(X)}。展开括号后得到计算公式

Var(X)=E[X2](E[X])2\mathrm{Var}(X) = E[X^2] - (E[X])^2

它通常比按定义直接积分更快:先用 LOTUS 求 E[X2]E[X^2],再减 (E[X])2(E[X])^2。六组命名分布的方差:Bernoulli(p)(p)p(1p)p(1-p);Binomial(n,p)(n, p)np(1p)np(1-p);Poisson(λ)(\lambda)λ\lambda(均值与方差恰好相等是 Poisson 的特征性质);Exponential(λ)(\lambda)1/λ21/\lambda^2;Uniform(a,b)(a, b)(ba)2/12(b - a)^2 / 12;正态分布为 σ2\sigma^2

​缩放规则​​:Var(aX+b)=a2Var(X)\mathrm{Var}(aX + b) = a^2 \mathrm{Var}(X)——常数 bb 不影响散布,常数 aa 以平方倍数放大方差(故以倍数放大标准差)。这一条之所以重要,是因为它给出了"风险随仓位线性放大"的代数依据:把仓位放大 aa 倍,P&L 的标准差也按 aa 倍放大。而​​方差对求和并不线性​​:Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)\mathrm{Var}(X + Y) = \mathrm{Var}(X) + \mathrm{Var}(Y) + 2\mathrm{Cov}(X, Y),只有当 X,YX, Y 不相关时才简化为方差求和;这一识别将在下游模块 2.1.2 中正式展开,本节先把"方差不可加"这件事记牢。

五、矩与矩生成函数

kk 阶矩定义为 E[Xk]E[X^k]。​​矩生成函数​​(moment generating function, MGF)定义为

MX(t)=E ⁣[etX]M_X(t) = E\!\left[e^{tX}\right]

当此期望在 t=0t = 0 的某个邻域内有限时存在。MGF 的核心性质有两条:(i) MGF 唯一确定分布(在存在的前提下);(ii) 通过在 t=0t = 0 处求导得到各阶矩:

MX(k)(0)=E[Xk].M_X^{(k)}(0) = E[X^k].

​例:用 MGF 验证正态分布的均值与方差​​。设 XN(μ,σ2)X \sim N(\mu, \sigma^2)。可证(详见任何标准教材)其 MGF 为 M(t)=exp(μt+σ2t2/2)M(t) = \exp(\mu t + \sigma^2 t^2 / 2)。按步骤求两阶矩:

  1. 一阶导:M(t)=(μ+σ2t)exp(μt+σ2t2/2)M'(t) = (\mu + \sigma^2 t) \exp(\mu t + \sigma^2 t^2 / 2),在 t=0t = 0 处得 E[X]=M(0)=μE[X] = M'(0) = \mu
  2. 二阶导:M(t)=[σ2+(μ+σ2t)2]exp(μt+σ2t2/2)M''(t) = \left[\sigma^2 + (\mu + \sigma^2 t)^2\right] \exp(\mu t + \sigma^2 t^2/2),在 t=0t = 0 处得 E[X2]=M(0)=σ2+μ2E[X^2] = M''(0) = \sigma^2 + \mu^2
  3. 代入方差公式:Var(X)=E[X2](E[X])2=σ2+μ2μ2=σ2\mathrm{Var}(X) = E[X^2] - (E[X])^2 = \sigma^2 + \mu^2 - \mu^2 = \sigma^2

两条结果同时验证,且未做任何积分。

六、两条万能尾不等式

​马尔可夫不等式​​(Markov):若 X0X \geq 0a>0a > 0,则

P(Xa)E[X]a.P(X \geq a) \leq \dfrac{E[X]}{a}.

​切比雪夫不等式​​(Chebyshev):设 XX 期望 μ\mu、方差 σ2\sigma^2,对 k>0k > 0,

P(Xμkσ)1k2.P(|X - \mu| \geq k\sigma) \leq \dfrac{1}{k^2}.

Chebyshev 是 Markov 应用到 (Xμ)2(X - \mu)^2 的直接推论。两条不等式都​​不需要​​关于分布的额外假设——只需前一阶或前两阶矩有限。它们给出的界往往很松,但"无需假设"这一性质让它们在估计与不等式证明里几乎不可替代。下一节,Chebyshev 将直接给出​​弱大数定律​​的证明。

七、练习

Exercise

XP(λ)X \sim P(\lambda)(泊松分布)。用 LOTUS 闭式计算 E[X(X1)]E[X(X-1)],再用线性性得到 Var(X)\mathrm{Var}(X)。请写出每一步。

提示
E[X(X1)]=kk(k1)eλλk/k!E[X(X-1)] = \sum_k k(k-1) e^{-\lambda} \lambda^k / k!k=0,1k = 0, 1 项为零;k2k \geq 2k(k1)/k!=1/(k2)!k(k-1)/k! = 1/(k-2)!。提出 λ2\lambda^2,剩余求和正是 eλe^{\lambda}
提示
E[X(X1)]=λ2E[X(X-1)] = \lambda^2。展开 E[X(X1)]=E[X2]E[X]=E[X2]λE[X(X-1)] = E[X^2] - E[X] = E[X^2] - \lambda,故 E[X2]=λ2+λE[X^2] = \lambda^2 + \lambda;最后 Var(X)=E[X2](E[X])2=λ2+λλ2=λ\mathrm{Var}(X) = E[X^2] - (E[X])^2 = \lambda^2 + \lambda - \lambda^2 = \lambda

八、通往下一节

至此你已经会算任一命名分布的期望与方差,并能在只知道前一两阶矩的极端情形下,用 Markov / Chebyshev 控制尾概率。最后一节把这条线索拉到尽头:当独立同分布的样本数 nn \to \infty 时,样本均值 Xˉn\bar X_n 会做什么?Chebyshev 不等式将直接给出​​大数定律​​的初等证明;再深一层的​​中心极限定理​​则告诉你,Xˉn\bar X_n 减去均值再按 n\sqrt{n} 标度后的极限分布,正是上一节遇到的正态分布——后续在沪深300 日收益、信贷违约率年度估计等场景里,这两条定理是你能"用样本估总体"的唯一理论依据。