某私募的因子研究员在统计沪深300 成分股的日内事件触发数:某一天有 16 只股票触发"开盘 30 分钟内涨幅超 2%"。下一步要做的不是逐股分析,而是建模:这个数本身服从什么分布?如果它接近泊松分布(Poisson distribution),你可以一眼断定"日间触发数的波动属于自然涨落";若实际数据明显胖尾,则要换模型。把研究问题从"事件 A 发生没"换成"数值 X 取多少",就是随机变量(random variable)的视角。这一节把这套语言完整搭起来:离散与连续两种情形、分布律(pmf)与密度函数(pdf)、分布函数 F、以及把 X 变成 Y=g(X) 时的换元公式。
一、随机变量与诱导分布
随机变量是一个函数 X:Ω→R(技术上需可测,本节暂不深究)。X 自动在 R 上诱导一个概率测度
PX(B)=P(X−1(B))=P({ω:X(ω)∈B}).
也就是说,可以"忘掉" Ω,把 X 在 R 上的分布当作研究对象。这一步抽象正是随机变量的全部威力——它把概率论从"事件层"提升到"数值层"。
按取值集合分两种情形:离散 X(取值集合可数,如 {0,1,2,…})与连续 X(取值集合不可数,通常是 R 或其区间)。
二、离散随机变量与分布律
设 X 离散。其分布律(probability mass function, pmf)为 pX(x)=P(X=x),满足 pX(x)≥0 与 ∑xpX(x)=1。四组命名分布:
- 0-1 分布(Bernoulli) X∼Bernoulli(p):pX(1)=p,pX(0)=1−p。模型单次成败试验。
- 二项分布(Binomial) X∼B(n,p):n 次独立同分布 Bernoulli 试验的成功数,分布律为
P(X=k)=(kn)pk(1−p)n−k
对 k=0,1,…,n。
- 泊松分布(Poisson) X∼P(λ):pX(k)=e−λλk/k!,k=0,1,2,…。模型固定速率下的稀有事件计数。
- 几何分布(Geometric) X∼G(p):pX(k)=(1−p)k−1p,k=1,2,…。模型"首次成功"所需的试验数。
三、连续随机变量与概率密度函数
设 X 连续。概率密度函数(pdf)fX:R→[0,∞) 满足 ∫−∞∞fX(x)dx=1,且
P(X∈B)=∫BfX(x)dx.
特别强调:fX(x) 不是 P(X=x)——后者对连续变量恒等于 0;fX(x) 是"密度",其在区域上的积分才是概率。
三组命名密度:
- 均匀分布(Uniform) X∼U(a,b):fX(x)=1/(b−a) 当 x∈[a,b],否则 0。
- 指数分布(Exponential) X∼E(λ):fX(x)=λe−λx,x≥0。模型无记忆等待时间。
- 正态分布(normal distribution / 高斯分布 / Gaussian distribution) X∼N(μ,σ2):
fX(x)=σ2π1exp(−2σ2(x−μ)2)
正态分布是后续中心极限定理(下一节)的限分布,也是绝大多数下游模型的默认假设。
典型场景速记:Bernoulli 单次成败试验;Binomial 是 n 次成败之和;Poisson 是稀有事件计数;Geometric 是首次成功之前的失败次数(或含成功的总次数,看约定);Uniform 是无信息先验或随机算法的种子;Exponential 是无记忆等待时间(等价于离散情形的几何分布的连续极限);Normal 几乎万能,因后续大数定律保证大量独立扰动的求和近似正态——这条路径就是为什么"误差项假定正态"在统计建模里几乎成了默认动作。
四、分布函数 FX
分布函数(cumulative distribution function, CDF)定义为 FX(x)=P(X≤x),对离散与连续两种情形均适用。它有三条刻画性质:(i) 单调非降;(ii) 右连续;(iii) limx→−∞FX(x)=0 与 limx→+∞FX(x)=1。反过来,任何满足这三条的函数都是某个随机变量的 CDF。
连续情形下 FX′=fX 几乎处处成立,故有"对 CDF 求导得到密度"的口诀;离散情形下 FX 是阶梯函数,跳跃高度即 pX,即 FX 在 x0 处的跳跃高度等于 P(X=x0)。
CDF 的一个实战用途是"用一种通用工具"算区间概率:P(a<X≤b)=FX(b)−FX(a) 对两种情形都对。这意味着只要你能记住 CDF,就不必为离散与连续分头记积分或求和——这是把 CDF 设为标准接口的初衷。
对每组命名分布,你都应当能在脑子里画出 CDF:Bernoulli 是两级阶梯;均匀分布是从 0 线性增到 1 的斜坡;指数分布是 1−e−λx 的凹型曲线;正态分布的 CDF 没有初等闭式,但 Python 的 scipy.stats.norm.cdf 一行就能算出来——这条无闭式的事实在后续讲中心极限定理时还会回来。
五、换元公式 Y=g(X)
设 X 连续、g 严格单调可导,Y=g(X)。则 Y 也是连续随机变量,其密度由换元给出:
fY(y)=fX(g−1(y))dydg−1(y)
绝对值的存在是因为 g 单调递减时 g−1 的导数为负,但密度必须非负。
例:从正态推对数正态。设 X∼N(μ,σ2)、Y=eX。按步骤代换:
- 取 g(x)=ex,则 g 在 R 上严格递增可导。
- 求反函数 g−1(y)=lny(定义域 y>0),并求 dydlny=1/y。
- 代入换元公式 fY(y)=fX(lny)⋅∣1/y∣,把正态密度 fX 展开,得到
fY(y)=yσ2π1exp(−2σ2(lny−μ)2)
对 y>0,这就是对数正态分布(lognormal distribution)的密度——同济习题集里恰好有这道题。
六、滑块:看正态密度随参数变化
下面的滑块让你看到正态分布密度随均值 μ 与标准差 σ 的变化:
Formula Explorer
exp(-(x-mu)^2 / (2*sigma^2)) / (sigma * sqrt(2*pi))
七、练习
Exercise
设 X∼E(λ),密度 fX(x)=λe−λx,x≥0。令 Y=X。用换元公式求 Y 的密度,并写出 Y 的支撑集。
提示
g(x)=x 在
x≥0 严格递增可导,反函数
h(y)=y2,
h′(y)=2y。
Y 的支撑集是
y≥0。直接代入换元公式即可。
提示
fY(y)=fX(y2)⋅∣2y∣=λe−λy2⋅2y=2λye−λy2,
y≥0;这正是 Rayleigh 分布的参数化形式。
八、通往下一节
至此你已能用 pmf / pdf / CDF 这套标准语言刻画任何单变量随机变量,并能在 Y=g(X) 的变换下追踪密度的形变。下一节把焦点从"分布的形状"转到"分布的数字特征":期望 E[X]、方差 Var(X)、矩 E[Xk],以及统一这一切的矩生成函数(MGF)。你将一次性算清楚本节六组命名分布的期望与方差,并由此推出概率论里两条最常用的尾不等式——下一节也是后续大数定律的直接铺垫。