随机变量与分布 — 概率论基础

某私募的因子研究员在统计沪深300 成分股的日内事件触发数:某一天有 16 只股票触发"开盘 30 分钟内涨幅超 2%"。下一步要做的不是逐股分析,而是建模:这个数本身服从什么分布?如果它接近泊松分布(Poisson distribution),你可以一眼断定"日间触发数的波动属于自然涨落";若实际数据明显胖尾,则要换模型。把研究问题从"事件 $A$ 发生没"换成"数值 $X$ 取多少",就是随机变量(random variable)的视角。这一节把这套语言完整搭起来:离散与连续两种情形、分布律(pmf)与密度函数(pdf)、分布函数 $F$ 、以及把 $X$ 变成 $Y = g(X)$ 时的换元公式。

一、随机变量与诱导分布

随机变量是一个函数 $X: \Omega \to \mathbb{R}$ (技术上需可测,本节暂不深究)。 $X$ 自动在 $\mathbb{R}$ 上诱导一个概率测度

$P_X(B) = P\bigl(X^{-1}(B)\bigr) = P\bigl(\{\omega : X(\omega) \in B\}\bigr).$

也就是说,可以"忘掉" $\Omega$ ,把 $X$ 在 $\mathbb{R}$ 上的分布当作研究对象。这一步抽象正是随机变量的全部威力——它把概率论从"事件层"提升到"数值层"。

按取值集合分两种情形:离散 $X$ (取值集合可数,如 $\{0, 1, 2, \ldots\}$ )与连续 $X$ (取值集合不可数,通常是 $\mathbb{R}$ 或其区间)。

二、离散随机变量与分布律

设 $X$ 离散。其分布律(probability mass function, pmf)为 $p_X(x) = P(X = x)$ ,满足 $p_X(x) \geq 0$ 与 $\sum_x p_X(x) = 1$ 。四组命名分布:

0-1 分布(Bernoulli) $X \sim \mathrm{Bernoulli}(p)$ : $p_X(1) = p$ , $p_X(0) = 1 - p$ 。模型单次成败试验。
二项分布(Binomial) $X \sim B(n, p)$ : $n$ 次独立同分布 Bernoulli 试验的成功数,分布律为

P(X = k) = \binom{n}{k} p^{k} (1-p)^{n-k}

对 $k = 0, 1, \ldots, n$ 。

泊松分布(Poisson) $X \sim P(\lambda)$ : $p_X(k) = e^{-\lambda} \lambda^k / k!$ , $k = 0, 1, 2, \ldots$ 。模型固定速率下的稀有事件计数。
几何分布(Geometric) $X \sim G(p)$ : $p_X(k) = (1-p)^{k-1} p$ , $k = 1, 2, \ldots$ 。模型"首次成功"所需的试验数。

三、连续随机变量与概率密度函数

设 $X$ 连续。概率密度函数(pdf) $f_X: \mathbb{R} \to [0, \infty)$ 满足 $\int_{-\infty}^{\infty} f_X(x)\,dx = 1$ ,且

$P(X \in B) = \int_B f_X(x)\,dx.$

特别强调: $f_X(x)$ 不是 $P(X = x)$ ——后者对连续变量恒等于 0; $f_X(x)$ 是"密度",其在区域上的积分才是概率。

三组命名密度:

均匀分布(Uniform) $X \sim U(a, b)$ : $f_X(x) = 1/(b - a)$ 当 $x \in [a, b]$ ,否则 0。
指数分布(Exponential) $X \sim E(\lambda)$ : $f_X(x) = \lambda e^{-\lambda x}$ , $x \geq 0$ 。模型无记忆等待时间。
正态分布(normal distribution / 高斯分布 / Gaussian distribution) $X \sim N(\mu, \sigma^2)$ :

f_X(x) = \dfrac{1}{\sigma\sqrt{2\pi}} \exp\!\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)

正态分布是后续中心极限定理(下一节)的限分布,也是绝大多数下游模型的默认假设。

典型场景速记:Bernoulli 单次成败试验;Binomial 是 $n$ 次成败之和;Poisson 是稀有事件计数;Geometric 是首次成功之前的失败次数(或含成功的总次数,看约定);Uniform 是无信息先验或随机算法的种子;Exponential 是无记忆等待时间(等价于离散情形的几何分布的连续极限);Normal 几乎万能,因后续大数定律保证大量独立扰动的求和近似正态——这条路径就是为什么"误差项假定正态"在统计建模里几乎成了默认动作。

四、分布函数 $F_X$

分布函数(cumulative distribution function, CDF)定义为 $F_X(x) = P(X \leq x)$ ,对离散与连续两种情形均适用。它有三条刻画性质:(i) 单调非降;(ii) 右连续;(iii) $\lim_{x \to -\infty} F_X(x) = 0$ 与 $\lim_{x \to +\infty} F_X(x) = 1$ 。反过来,任何满足这三条的函数都是某个随机变量的 CDF。

连续情形下 $F_X' = f_X$ 几乎处处成立,故有"对 CDF 求导得到密度"的口诀;离散情形下 $F_X$ 是阶梯函数,跳跃高度即 $p_X$ ,即 $F_X$ 在 $x_0$ 处的跳跃高度等于 $P(X = x_0)$ 。

CDF 的一个实战用途是"用一种通用工具"算区间概率: $P(a < X \leq b) = F_X(b) - F_X(a)$ 对两种情形都对。这意味着只要你能记住 CDF,就不必为离散与连续分头记积分或求和——这是把 CDF 设为标准接口的初衷。

对每组命名分布,你都应当能在脑子里画出 CDF:Bernoulli 是两级阶梯;均匀分布是从 0 线性增到 1 的斜坡;指数分布是 $1 - e^{-\lambda x}$ 的凹型曲线;正态分布的 CDF 没有初等闭式,但 Python 的 scipy.stats.norm.cdf 一行就能算出来——这条无闭式的事实在后续讲中心极限定理时还会回来。

五、换元公式 $Y = g(X)$

设 $X$ 连续、 $g$ 严格单调可导, $Y = g(X)$ 。则 $Y$ 也是连续随机变量,其密度由换元给出:

f_Y(y) = f_X\!\left(g^{-1}(y)\right) \left|\dfrac{d}{dy} g^{-1}(y)\right|

绝对值的存在是因为 $g$ 单调递减时 $g^{-1}$ 的导数为负,但密度必须非负。

例:从正态推对数正态。设 $X \sim N(\mu, \sigma^2)$ 、 $Y = e^X$ 。按步骤代换:

取 $g(x) = e^x$ ,则 $g$ 在 $\mathbb{R}$ 上严格递增可导。
求反函数 $g^{-1}(y) = \ln y$ (定义域 $y > 0$ ),并求 $\frac{d}{dy} \ln y = 1/y$ 。
代入换元公式 $f_Y(y) = f_X(\ln y) \cdot |1/y|$ ,把正态密度 $f_X$ 展开,得到

f_Y(y) = \dfrac{1}{y\sigma\sqrt{2\pi}} \exp\!\left(-\dfrac{(\ln y - \mu)^2}{2\sigma^2}\right)

对 $y > 0$ ,这就是对数正态分布(lognormal distribution)的密度——同济习题集里恰好有这道题。

六、滑块:看正态密度随参数变化

下面的滑块让你看到正态分布密度随均值 $\mu$ 与标准差 $\sigma$ 的变化:

Formula Explorer

exp(-(x-mu)^2 / (2*sigma^2)) / (sigma * sqrt(2*pi))

七、练习

Exercise

设 $X \sim E(\lambda)$ ,密度 $f_X(x) = \lambda e^{-\lambda x}$ , $x \geq 0$ 。令 $Y = \sqrt{X}$ 。用换元公式求 $Y$ 的密度,并写出 $Y$ 的支撑集。

提示

g(x) = \sqrt{x}

在

x \geq 0

严格递增可导,反函数

h(y) = y^2

h'(y) = 2y

。

Y

的支撑集是

y \geq 0

。直接代入换元公式即可。

提示

f_Y(y) = f_X(y^2) \cdot |2y| = \lambda e^{-\lambda y^2} \cdot 2y = 2\lambda y\, e^{-\lambda y^2}

y \geq 0

;这正是 Rayleigh 分布的参数化形式。

八、通往下一节

至此你已能用 pmf / pdf / CDF 这套标准语言刻画任何单变量随机变量,并能在 $Y = g(X)$ 的变换下追踪密度的形变。下一节把焦点从"分布的形状"转到"分布的数字特征":期望 $E[X]$ 、方差 $\mathrm{Var}(X)$ 、矩 $E[X^k]$ ,以及统一这一切的矩生成函数(MGF)。你将一次性算清楚本节六组命名分布的期望与方差,并由此推出概率论里两条最常用的尾不等式——下一节也是后续大数定律的直接铺垫。