某私募的组合经理向风控要一份"未来 5 个交易日组合预期 P&L"和"组合 5 日波动率"。这两个数对应概率论里最基础的两个量:期望 (expectation, mean)与方差 (variance, second central moment)。再深入一层,你会想问"组合 P&L 超过 -5% 的概率上界是多少"——而当你对分布只有有限的信息(比如只知道前两阶矩)时,Markov 与 Chebyshev 两条不等式给出无需任何分布假设的答案。这一节系统铺开:期望与方差的定义、线性性、LOTUS、矩生成函数(MGF)、以及"用前两阶矩控制尾概率"的两条万能不等式。
一、期望:离散与连续两式同根
设 X X X 为离散随机变量,期望 定义为加权求和
E [ X ] = ∑ x x p X ( x ) E[X] = \sum_{x} x\,p_X(x) E [ X ] = x ∑ x p X ( x )
设 X X X 为连续随机变量,期望 定义为积分
E [ X ] = ∫ − ∞ ∞ x f X ( x ) d x E[X] = \int_{-\infty}^{\infty} x\,f_X(x)\,dx E [ X ] = ∫ − ∞ ∞ x f X ( x ) d x
(两者均要求绝对收敛。)六组命名分布的期望可一次性算清:Bernoulli( p ) (p) ( p ) 的 E [ X ] = p E[X] = p E [ X ] = p ;Binomial( n , p ) (n, p) ( n , p ) 的 E [ X ] = n p E[X] = np E [ X ] = n p ;Poisson( λ ) (\lambda) ( λ ) 的 E [ X ] = λ E[X] = \lambda E [ X ] = λ ;Exponential( λ ) (\lambda) ( λ ) 的 E [ X ] = 1 / λ E[X] = 1/\lambda E [ X ] = 1/ λ ;Uniform( a , b ) (a, b) ( a , b ) 的 E [ X ] = ( a + b ) / 2 E[X] = (a + b)/2 E [ X ] = ( a + b ) /2 ;正态分布(normal distribution)的 E [ X ] = μ E[X] = \mu E [ X ] = μ 。
请把"期望"与"算术平均"两个词区分开:期望是分布的内在数字特征,与样本无关;算术平均是观测数据的统计量,只有当 n n n 足够大时(下一节大数定律)才会逼近期望。这条区分在实际工作里时常被混淆,但写论文与做风控时务必分清。
二、线性性:无需独立的代数恒等式
线性性 对任意两个随机变量 X , Y X, Y X , Y 与常数 a , b , c a, b, c a , b , c 成立:
E [ a X + b Y + c ] = a E [ X ] + b E [ Y ] + c . E[aX + bY + c] = a\,E[X] + b\,E[Y] + c. E [ a X + bY + c ] = a E [ X ] + b E [ Y ] + c .
注意:无须 X , Y X, Y X , Y 独立。这是期望最强大、也是最被低估的性质——它把许多看似复杂的求和(如组合 P&L 的均值、二项分布期望)瞬间化为标量加法。例 :用线性性算 Binomial( n , p ) (n, p) ( n , p ) 的期望——把 X = ∑ i = 1 n X i X = \sum_{i=1}^n X_i X = ∑ i = 1 n X i 拆成 n n n 个 Bernoulli( p ) (p) ( p ) ,E [ X ] = ∑ E [ X i ] = n p E[X] = \sum E[X_i] = np E [ X ] = ∑ E [ X i ] = n p ,无需任何二项展开。
三、LOTUS:不必先求 Y Y Y 的分布就能算 E [ g ( X ) ] E[g(X)] E [ g ( X )]
LOTUS (law of the unconscious statistician)说,要算 E [ g ( X ) ] E[g(X)] E [ g ( X )] ,不必先求 Y = g ( X ) Y = g(X) Y = g ( X ) 的分布:
E [ g ( X ) ] = ∑ x g ( x ) p X ( x ) 或 ∫ − ∞ ∞ g ( x ) f X ( x ) d x . E[g(X)] = \sum_x g(x) p_X(x) \;\;\text{或}\;\; \int_{-\infty}^{\infty} g(x) f_X(x)\,dx. E [ g ( X )] = ∑ x g ( x ) p X ( x ) 或 ∫ − ∞ ∞ g ( x ) f X ( x ) d x .
最常见的用途是求 E [ X 2 ] E[X^2] E [ X 2 ] ,这是计算方差的关键中间量。LOTUS 的妙处在于把"求新变量分布"这一可能很费力的步骤跳过——只要原分布在手,任何 g g g 的期望都是一次求和或一次积分的距离。
例 :设 X ∼ U ( 0 , 1 ) X \sim U(0, 1) X ∼ U ( 0 , 1 ) ,求 E [ X 2 ] E[X^2] E [ X 2 ] 。直接积分:E [ X 2 ] = ∫ 0 1 x 2 ⋅ 1 d x = 1 / 3 E[X^2] = \int_0^1 x^2 \cdot 1\, dx = 1/3 E [ X 2 ] = ∫ 0 1 x 2 ⋅ 1 d x = 1/3 。无需先推导 Y = X 2 Y = X^2 Y = X 2 的密度,后者反而要做一次换元。
四、方差:位置 vs 散布
方差 定义为 V a r ( X ) = E [ ( X − E [ X ] ) 2 ] \mathrm{Var}(X) = E[(X - E[X])^2] Var ( X ) = E [( X − E [ X ] ) 2 ] ,标准差 σ X = V a r ( X ) \sigma_X = \sqrt{\mathrm{Var}(X)} σ X = Var ( X ) 。展开括号后得到计算公式
V a r ( X ) = E [ X 2 ] − ( E [ X ] ) 2 \mathrm{Var}(X) = E[X^2] - (E[X])^2 Var ( X ) = E [ X 2 ] − ( E [ X ] ) 2
它通常比按定义直接积分更快:先用 LOTUS 求 E [ X 2 ] E[X^2] E [ X 2 ] ,再减 ( E [ X ] ) 2 (E[X])^2 ( E [ X ] ) 2 。六组命名分布的方差:Bernoulli( p ) (p) ( p ) 为 p ( 1 − p ) p(1-p) p ( 1 − p ) ;Binomial( n , p ) (n, p) ( n , p ) 为 n p ( 1 − p ) np(1-p) n p ( 1 − p ) ;Poisson( λ ) (\lambda) ( λ ) 为 λ \lambda λ (均值与方差恰好相等是 Poisson 的特征性质);Exponential( λ ) (\lambda) ( λ ) 为 1 / λ 2 1/\lambda^2 1/ λ 2 ;Uniform( a , b ) (a, b) ( a , b ) 为 ( b − a ) 2 / 12 (b - a)^2 / 12 ( b − a ) 2 /12 ;正态分布为 σ 2 \sigma^2 σ 2 。
缩放规则 :V a r ( a X + b ) = a 2 V a r ( X ) \mathrm{Var}(aX + b) = a^2 \mathrm{Var}(X) Var ( a X + b ) = a 2 Var ( X ) ——常数 b b b 不影响散布,常数 a a a 以平方倍数放大方差(故以倍数放大标准差)。这一条之所以重要,是因为它给出了"风险随仓位线性放大"的代数依据:把仓位放大 a a a 倍,P&L 的标准差也按 a a a 倍放大。而方差对求和并不线性 :V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) + 2 C o v ( X , Y ) \mathrm{Var}(X + Y) = \mathrm{Var}(X) + \mathrm{Var}(Y) + 2\mathrm{Cov}(X, Y) Var ( X + Y ) = Var ( X ) + Var ( Y ) + 2 Cov ( X , Y ) ,只有当 X , Y X, Y X , Y 不相关时才简化为方差求和;这一识别将在下游模块 2.1.2 中正式展开,本节先把"方差不可加"这件事记牢。
五、矩与矩生成函数
k k k 阶矩定义为 E [ X k ] E[X^k] E [ X k ] 。矩生成函数 (moment generating function, MGF)定义为
M X ( t ) = E [ e t X ] M_X(t) = E\!\left[e^{tX}\right] M X ( t ) = E [ e tX ]
当此期望在 t = 0 t = 0 t = 0 的某个邻域内有限时存在。MGF 的核心性质有两条:(i) MGF 唯一确定分布(在存在的前提下);(ii) 通过在 t = 0 t = 0 t = 0 处求导得到各阶矩:
M X ( k ) ( 0 ) = E [ X k ] . M_X^{(k)}(0) = E[X^k]. M X ( k ) ( 0 ) = E [ X k ] .
例:用 MGF 验证正态分布的均值与方差 。设 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X ∼ N ( μ , σ 2 ) 。可证(详见任何标准教材)其 MGF 为 M ( t ) = exp ( μ t + σ 2 t 2 / 2 ) M(t) = \exp(\mu t + \sigma^2 t^2 / 2) M ( t ) = exp ( μ t + σ 2 t 2 /2 ) 。按步骤求两阶矩:
一阶导:M ′ ( t ) = ( μ + σ 2 t ) exp ( μ t + σ 2 t 2 / 2 ) M'(t) = (\mu + \sigma^2 t) \exp(\mu t + \sigma^2 t^2 / 2) M ′ ( t ) = ( μ + σ 2 t ) exp ( μ t + σ 2 t 2 /2 ) ,在 t = 0 t = 0 t = 0 处得 E [ X ] = M ′ ( 0 ) = μ E[X] = M'(0) = \mu E [ X ] = M ′ ( 0 ) = μ 。
二阶导:M ′ ′ ( t ) = [ σ 2 + ( μ + σ 2 t ) 2 ] exp ( μ t + σ 2 t 2 / 2 ) M''(t) = \left[\sigma^2 + (\mu + \sigma^2 t)^2\right] \exp(\mu t + \sigma^2 t^2/2) M ′′ ( t ) = [ σ 2 + ( μ + σ 2 t ) 2 ] exp ( μ t + σ 2 t 2 /2 ) ,在 t = 0 t = 0 t = 0 处得 E [ X 2 ] = M ′ ′ ( 0 ) = σ 2 + μ 2 E[X^2] = M''(0) = \sigma^2 + \mu^2 E [ X 2 ] = M ′′ ( 0 ) = σ 2 + μ 2 。
代入方差公式:V a r ( X ) = E [ X 2 ] − ( E [ X ] ) 2 = σ 2 + μ 2 − μ 2 = σ 2 \mathrm{Var}(X) = E[X^2] - (E[X])^2 = \sigma^2 + \mu^2 - \mu^2 = \sigma^2 Var ( X ) = E [ X 2 ] − ( E [ X ] ) 2 = σ 2 + μ 2 − μ 2 = σ 2 。
两条结果同时验证,且未做任何积分。
六、两条万能尾不等式
马尔可夫不等式 (Markov):若 X ≥ 0 X \geq 0 X ≥ 0 且 a > 0 a > 0 a > 0 ,则
P ( X ≥ a ) ≤ E [ X ] a . P(X \geq a) \leq \dfrac{E[X]}{a}. P ( X ≥ a ) ≤ a E [ X ] .
切比雪夫不等式 (Chebyshev):设 X X X 期望 μ \mu μ 、方差 σ 2 \sigma^2 σ 2 ,对 k > 0 k > 0 k > 0 ,
P ( ∣ X − μ ∣ ≥ k σ ) ≤ 1 k 2 . P(|X - \mu| \geq k\sigma) \leq \dfrac{1}{k^2}. P ( ∣ X − μ ∣ ≥ k σ ) ≤ k 2 1 .
Chebyshev 是 Markov 应用到 ( X − μ ) 2 (X - \mu)^2 ( X − μ ) 2 的直接推论。两条不等式都不需要 关于分布的额外假设——只需前一阶或前两阶矩有限。它们给出的界往往很松,但"无需假设"这一性质让它们在估计与不等式证明里几乎不可替代。下一节,Chebyshev 将直接给出弱大数定律 的证明。
七、练习
Exercise
设 X ∼ P ( λ ) X \sim P(\lambda) X ∼ P ( λ ) (泊松分布)。用 LOTUS 闭式计算 E [ X ( X − 1 ) ] E[X(X-1)] E [ X ( X − 1 )] ,再用线性性得到 V a r ( X ) \mathrm{Var}(X) Var ( X ) 。请写出每一步。
提示 E [ X ( X − 1 ) ] = ∑ k k ( k − 1 ) e − λ λ k / k ! E[X(X-1)] = \sum_k k(k-1) e^{-\lambda} \lambda^k / k! E [ X ( X − 1 )] = ∑ k k ( k − 1 ) e − λ λ k / k ! 的
k = 0 , 1 k = 0, 1 k = 0 , 1 项为零;
k ≥ 2 k \geq 2 k ≥ 2 时
k ( k − 1 ) / k ! = 1 / ( k − 2 ) ! k(k-1)/k! = 1/(k-2)! k ( k − 1 ) / k ! = 1/ ( k − 2 )! 。提出
λ 2 \lambda^2 λ 2 ,剩余求和正是
e λ e^{\lambda} e λ 。
提示 故
E [ X ( X − 1 ) ] = λ 2 E[X(X-1)] = \lambda^2 E [ X ( X − 1 )] = λ 2 。展开
E [ X ( X − 1 ) ] = E [ X 2 ] − E [ X ] = E [ X 2 ] − λ E[X(X-1)] = E[X^2] - E[X] = E[X^2] - \lambda E [ X ( X − 1 )] = E [ X 2 ] − E [ X ] = E [ X 2 ] − λ ,故
E [ X 2 ] = λ 2 + λ E[X^2] = \lambda^2 + \lambda E [ X 2 ] = λ 2 + λ ;最后
V a r ( X ) = E [ X 2 ] − ( E [ X ] ) 2 = λ 2 + λ − λ 2 = λ \mathrm{Var}(X) = E[X^2] - (E[X])^2 = \lambda^2 + \lambda - \lambda^2 = \lambda Var ( X ) = E [ X 2 ] − ( E [ X ] ) 2 = λ 2 + λ − λ 2 = λ 。
八、通往下一节
至此你已经会算任一命名分布的期望与方差,并能在只知道前一两阶矩的极端情形下,用 Markov / Chebyshev 控制尾概率。最后一节把这条线索拉到尽头:当独立同分布的样本数 n → ∞ n \to \infty n → ∞ 时,样本均值 X ˉ n \bar X_n X ˉ n 会做什么?Chebyshev 不等式将直接给出大数定律 的初等证明;再深一层的中心极限定理 则告诉你,X ˉ n \bar X_n X ˉ n 减去均值再按 n \sqrt{n} n 标度后的极限分布,正是上一节遇到的正态分布——后续在沪深300 日收益、信贷违约率年度估计等场景里,这两条定理是你能"用样本估总体"的唯一理论依据。