← 返回模块
2.1.1.3beta 可读 · 未来付费校验通过内容版本 2026-05-26

随机变量与分布

2.1.1 · 概率论基础 · 数学与统计能力

某私募的因子研究员在统计沪深300 成分股的日内​​事件触发数​​:某一天有 16 只股票触发"开盘 30 分钟内涨幅超 2%"。下一步要做的不是逐股分析,而是建模:​​这个数本身​​服从什么分布?如果它接近泊松分布(Poisson distribution),你可以一眼断定"日间触发数的波动属于自然涨落";若实际数据明显胖尾,则要换模型。把研究问题从"事件 AA 发生没"换成"数值 XX 取多少",就是随机变量(random variable)的视角。这一节把这套语言完整搭起来:离散与连续两种情形、分布律(pmf)与密度函数(pdf)、分布函数 FF、以及把 XX 变成 Y=g(X)Y = g(X) 时的换元公式。

一、随机变量与诱导分布

​随机变量​​是一个函数 X:ΩRX: \Omega \to \mathbb{R}(技术上需可测,本节暂不深究)。XX 自动在 R\mathbb{R} 上诱导一个概率测度

PX(B)=P(X1(B))=P({ω:X(ω)B}).P_X(B) = P\bigl(X^{-1}(B)\bigr) = P\bigl(\{\omega : X(\omega) \in B\}\bigr).

也就是说,可以"忘掉" Ω\Omega,把 XXR\mathbb{R} 上的分布当作研究对象。这一步抽象正是随机变量的全部威力——它把概率论从"事件层"提升到"数值层"。

按取值集合分两种情形:​​离散​ XX(取值集合可数,如 {0,1,2,}\{0, 1, 2, \ldots\})与​​连续​ XX(取值集合不可数,通常是 R\mathbb{R} 或其区间)。

二、离散随机变量与分布律

XX 离散。其​​分布律​​(probability mass function, pmf)为 pX(x)=P(X=x)p_X(x) = P(X = x),满足 pX(x)0p_X(x) \geq 0xpX(x)=1\sum_x p_X(x) = 1。四组命名分布:

  • ​0-1 分布(Bernoulli)​ XBernoulli(p)X \sim \mathrm{Bernoulli}(p):pX(1)=pp_X(1) = p,pX(0)=1pp_X(0) = 1 - p。模型单次成败试验。
  • ​二项分布(Binomial)​ XB(n,p)X \sim B(n, p):nn 次独立同分布 Bernoulli 试验的成功数,分布律为
P(X=k)=(nk)pk(1p)nkP(X = k) = \binom{n}{k} p^{k} (1-p)^{n-k}

k=0,1,,nk = 0, 1, \ldots, n

  • ​泊松分布(Poisson)​ XP(λ)X \sim P(\lambda):pX(k)=eλλk/k!p_X(k) = e^{-\lambda} \lambda^k / k!,k=0,1,2,k = 0, 1, 2, \ldots。模型固定速率下的稀有事件计数。
  • ​几何分布(Geometric)​ XG(p)X \sim G(p):pX(k)=(1p)k1pp_X(k) = (1-p)^{k-1} p,k=1,2,k = 1, 2, \ldots。模型"首次成功"所需的试验数。

三、连续随机变量与概率密度函数

XX 连续。​​概率密度函数​​(pdf)fX:R[0,)f_X: \mathbb{R} \to [0, \infty) 满足 fX(x)dx=1\int_{-\infty}^{\infty} f_X(x)\,dx = 1,且

P(XB)=BfX(x)dx.P(X \in B) = \int_B f_X(x)\,dx.

特别强调:fX(x)f_X(x) ​不是​ P(X=x)P(X = x)——后者对连续变量恒等于 0;fX(x)f_X(x) 是"密度",其在区域上的积分才是概率。

三组命名密度:

  • ​均匀分布(Uniform)​ XU(a,b)X \sim U(a, b):fX(x)=1/(ba)f_X(x) = 1/(b - a)x[a,b]x \in [a, b],否则 0。
  • ​指数分布(Exponential)​ XE(λ)X \sim E(\lambda):fX(x)=λeλxf_X(x) = \lambda e^{-\lambda x},x0x \geq 0。模型无记忆等待时间。
  • ​正态分布(normal distribution / 高斯分布 / Gaussian distribution)​ XN(μ,σ2)X \sim N(\mu, \sigma^2):
fX(x)=1σ2πexp ⁣((xμ)22σ2)f_X(x) = \dfrac{1}{\sigma\sqrt{2\pi}} \exp\!\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)

正态分布是后续中心极限定理(下一节)的限分布,也是绝大多数下游模型的默认假设。

​典型场景速记​​:Bernoulli 单次成败试验;Binomial 是 nn 次成败之和;Poisson 是稀有事件计数;Geometric 是首次成功之前的失败次数(或含成功的总次数,看约定);Uniform 是无信息先验或随机算法的种子;Exponential 是无记忆等待时间(等价于离散情形的几何分布的连续极限);Normal 几乎万能,因后续大数定律保证大量独立扰动的求和近似正态——这条路径就是为什么"误差项假定正态"在统计建模里几乎成了默认动作。

四、分布函数 FXF_X

​分布函数​​(cumulative distribution function, CDF)定义为 FX(x)=P(Xx)F_X(x) = P(X \leq x),对离散与连续两种情形均适用。它有三条刻画性质:(i) 单调非降;(ii) 右连续;(iii) limxFX(x)=0\lim_{x \to -\infty} F_X(x) = 0limx+FX(x)=1\lim_{x \to +\infty} F_X(x) = 1。反过来,任何满足这三条的函数都是某个随机变量的 CDF。

连续情形下 FX=fXF_X' = f_X 几乎处处成立,故有"对 CDF 求导得到密度"的口诀;离散情形下 FXF_X 是阶梯函数,跳跃高度即 pXp_X,即 FXF_Xx0x_0 处的跳跃高度等于 P(X=x0)P(X = x_0)

CDF 的一个实战用途是"用一种通用工具"算区间概率:P(a<Xb)=FX(b)FX(a)P(a < X \leq b) = F_X(b) - F_X(a) 对两种情形都对。这意味着只要你能记住 CDF,就不必为离散与连续分头记积分或求和——这是把 CDF 设为标准接口的初衷。

对每组命名分布,你都应当能在脑子里画出 CDF:Bernoulli 是两级阶梯;均匀分布是从 0 线性增到 1 的斜坡;指数分布是 1eλx1 - e^{-\lambda x} 的凹型曲线;正态分布的 CDF 没有初等闭式,但 Python 的 scipy.stats.norm.cdf 一行就能算出来——这条无闭式的事实在后续讲中心极限定理时还会回来。

五、换元公式 Y=g(X)Y = g(X)

XX 连续、gg 严格单调可导,Y=g(X)Y = g(X)。则 YY 也是连续随机变量,其密度由换元给出:

fY(y)=fX ⁣(g1(y))ddyg1(y)f_Y(y) = f_X\!\left(g^{-1}(y)\right) \left|\dfrac{d}{dy} g^{-1}(y)\right|

绝对值的存在是因为 gg 单调递减时 g1g^{-1} 的导数为负,但密度必须非负。

​例:从正态推对数正态​​。设 XN(μ,σ2)X \sim N(\mu, \sigma^2)Y=eXY = e^X。按步骤代换:

  1. g(x)=exg(x) = e^x,则 ggR\mathbb{R} 上严格递增可导。
  2. 求反函数 g1(y)=lnyg^{-1}(y) = \ln y(定义域 y>0y > 0),并求 ddylny=1/y\frac{d}{dy} \ln y = 1/y
  3. 代入换元公式 fY(y)=fX(lny)1/yf_Y(y) = f_X(\ln y) \cdot |1/y|,把正态密度 fXf_X 展开,得到
fY(y)=1yσ2πexp ⁣((lnyμ)22σ2)f_Y(y) = \dfrac{1}{y\sigma\sqrt{2\pi}} \exp\!\left(-\dfrac{(\ln y - \mu)^2}{2\sigma^2}\right)

y>0y > 0,这就是​​对数正态分布​​(lognormal distribution)的密度——同济习题集里恰好有这道题。

六、滑块:看正态密度随参数变化

下面的滑块让你看到正态分布密度随均值 μ\mu 与标准差 σ\sigma 的变化:

Formula Explorer

exp(-(x-mu)^2 / (2*sigma^2)) / (sigma * sqrt(2*pi))

七、练习

Exercise

XE(λ)X \sim E(\lambda),密度 fX(x)=λeλxf_X(x) = \lambda e^{-\lambda x},x0x \geq 0。令 Y=XY = \sqrt{X}。用换元公式求 YY 的密度,并写出 YY 的支撑集。

提示
g(x)=xg(x) = \sqrt{x}x0x \geq 0 严格递增可导,反函数 h(y)=y2h(y) = y^2,h(y)=2yh'(y) = 2yYY 的支撑集是 y0y \geq 0。直接代入换元公式即可。
提示
fY(y)=fX(y2)2y=λeλy22y=2λyeλy2f_Y(y) = f_X(y^2) \cdot |2y| = \lambda e^{-\lambda y^2} \cdot 2y = 2\lambda y\, e^{-\lambda y^2},y0y \geq 0;这正是 Rayleigh 分布的参数化形式。

八、通往下一节

至此你已能用 pmf / pdf / CDF 这套标准语言刻画任何单变量随机变量,并能在 Y=g(X)Y = g(X) 的变换下追踪密度的形变。下一节把焦点从"分布的形状"转到"分布的数字特征":期望 E[X]E[X]、方差 Var(X)\mathrm{Var}(X)、矩 E[Xk]E[X^k],以及统一这一切的矩生成函数(MGF)。你将一次性算清楚本节六组命名分布的期望与方差,并由此推出概率论里两条最常用的尾不等式——下一节也是后续大数定律的直接铺垫。