联合分布与边缘分布 — 条件分布与联合分布

某私募的风险分析师每天早盘从终端上抓两个数:沪深300 ETF 的日收益与 10 年国债收益率的日变动。她真正关心的不是任何一个单变量,而是两者的联合画像:沪深300 跌超 1% 同时 10 年期收益率跳升 5bp 的概率。这类问题任何单变量密度都回答不了——它本质上是一个联合分布(joint distribution)问题。这一节把你在 2.1.1 模块里建立的整套单变量随机变量工具,从标量提升到对偶 (X, Y),并且不需要任何新观念,直接推广到任意维随机向量 (X_1, ..., X_n)。这一节结束后,你能写出联合分布律(joint pmf)或联合密度函数(joint pdf),由联合分布提取两个边缘(marginal),计算任一事件 $\{(X, Y) \in A\}$ 的概率,以及通过雅可比公式做二维变量代换。

一、离散情形:联合分布律即一张概率表

设 $X$ 与 $Y$ 都是离散随机变量,联合分布律为每一对可能取值赋一个概率:

p_{X,Y}(x, y) = P(X = x,\ Y = y)

两条规范化要求: $p_{X,Y}(x, y) \geq 0$ ,以及联合支集上概率求和为一, $\sum_{x, y} p_{X,Y}(x, y) = 1$ 。可视为一张二维表,横向索引 $X$ 的取值,纵向索引 $Y$ 的取值。边缘分布律对 $X$ 的形式即把另一个变量加和掉:

p_X(x) = \sum_{y} p_{X,Y}(x, y)

对 $Y$ 同理: $p_Y(y) = \sum_x p_{X,Y}(x, y)$ 。边缘化的过程丢掉了所有关于 $Y$ 的信息,但保留了所有只涉及 $X$ 的概率陈述。手上有联合就必有两个边缘;反之不成立——两个完全不同的联合可以共享同样的两个边缘,这一差距恰恰是接下来整章的中心议题:依赖结构(dependence structure)。

两骰子例。掷两颗公平骰子,设 $X$ 表示第一颗骰子的点数, $Y$ 表示两颗骰子点数之和。联合支集形式上是 $\{1, \dots, 6\} \times \{2, \dots, 12\}$ ,但绝大多数格子为零——对固定 $x$ ,只有 $y = x + 1, x + 2, \dots, x + 6$ 这六种和值可能出现,每一对的概率为 $1/36$ 。因此联合分布律可写为一张 $6 \times 11$ 的表:在每一行 $x$ 上,六个位置 $(x, x+1), (x, x+2), \dots, (x, x+6)$ 各取 $1/36$ ,其余皆为 $0$ 。对 $y$ 求和得 $p_X(x) = 6 \cdot 1/36 = 1/6$ , $x = 1, \dots, 6$ ——单颗骰子的均匀分布,正如所料。对 $x$ 求和则恢复两骰子之和的经典金字塔分布: $p_Y(2) = 1/36$ , $p_Y(3) = 2/36$ , $p_Y(4) = 3/36$ , $p_Y(5) = 4/36$ , $p_Y(6) = 5/36$ , $p_Y(7) = 6/36$ , $p_Y(8) = 5/36$ , $p_Y(9) = 4/36$ , $p_Y(10) = 3/36$ , $p_Y(11) = 2/36$ , $p_Y(12) = 1/36$ 。两边缘均正确地满足概率求和为一。

二、连续情形:联合密度、联合分布函数与混合偏导

转到连续 $(X, Y)$ :联合密度 $f_{X,Y}(x, y) \geq 0$ 满足二重积分规范化 $\iint f_{X,Y}(x, y)\, dx\, dy = 1$ ,任一可测区域 $A \subset \mathbb{R}^2$ 上的概率即一个二重积分:

P((X, Y) \in A) = \iint_A f_{X,Y}(x, y)\, dx\, dy.

与单变量版本一致,联合密度本身不是概率。 $f_{X,Y}(0.3, 0.7) = 1.4$ 并不意味着"出现 1.4 的概率",它意味着"在点 $(0.3, 0.7)$ 附近,单位面积上的概率约为 1.4"。概率只活在积分里,不在逐点取值里。

联合分布函数把一切系到事件上:

F_{X,Y}(x, y) = P(X \leq x,\ Y \leq y)

当 $F_{X,Y}$ 充分光滑时,联合密度由混合偏导恢复:

f_{X,Y}(x, y) = \dfrac{\partial^2 F_{X,Y}(x, y)}{\partial x\,\partial y}

边缘密度对另一变量积出:

f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x, y)\,dy

对 $Y$ 亦同。两个例子把机制锁住。

例一:单位正方形上的均匀分布。若 $(X, Y) \sim U([0,1]^2)$ ,联合密度 $f_{X,Y}(x, y) = 1$ 在 $[0,1]^2$ 上,否则为 $0$ 。对 $y$ 从 $0$ 到 $1$ 积出得 $f_X(x) = 1$ , $x \in [0, 1]$ ——两边缘均为 $U(0, 1)$ ,任一矩形事件的概率就是它的面积。

例二:非轴对齐区域。设 $(X, Y)$ 在三角形 $D = \{(x, y): x, y \geq 0,\ x + y \leq 1\}$ 上服从均匀分布。区域 $D$ 的面积为 $1/2$ ,故密度 $f_{X,Y}(x, y) = 2$ 在 $D$ 上,否则为 $0$ 。求 $P(Y \geq X)$ 。事件 $\{Y \geq X\} \cap D$ 即 $D$ 中位于 $y = x$ 直线之上的那一半区域。由 $D$ 关于 $y = x$ 直线的对称性(交换坐标后区域不变),上下两半面积相等,故

$P(Y \geq X) = \int_0^{1/2} \int_x^{1-x} 2\, dy\, dx = \int_0^{1/2} 2(1 - 2x)\, dx = \left[2x - 2x^2\right]_0^{1/2} = 1 - \tfrac{1}{2} = \tfrac{1}{2}.$

对称性论证与显式积分结果一致: $P(Y \geq X) = 1/2$ 。

三、二维变量代换公式

很多时候分析的自然变量并非原始 $(X, Y)$ ,而是某个变换 $(U, V) = T(X, Y)$ ——收益的和与差、二维正态在极坐标下的形式、独立因子的比值等。设 $T$ 是光滑双射,其逆变换 $T^{-1}(u, v) = (x(u, v), y(u, v))$ ,雅可比行列式

J = \det\!\left(\dfrac{\partial(x, y)}{\partial(u, v)}\right).

则 $(U, V)$ 的联合密度为

f_{U,V}(u, v) = f_{X,Y}\!\left(x(u, v), y(u, v)\right) \left|J\right|

绝对值 $|J|$ 是正确的缩放因子,因为密度是"单位面积上的概率",而 $|J|$ 恰好是 $T^{-1}$ 局部的面积放大率。应用一例。设 $X, Y$ 独立均匀于 $(0, 1)$ ,故 $f_{X,Y}(x, y) = 1$ 在 $[0,1]^2$ 上。令 $U = X + Y$ , $V = X - Y$ 。反解 $X = (U + V)/2$ , $Y = (U - V)/2$ ,雅可比为

$J = \det\!\begin{pmatrix} 1/2 & 1/2 \\ 1/2 & -1/2 \end{pmatrix} = -\tfrac{1}{2},\quad |J| = \tfrac{1}{2}.$

所以 $f_{U,V}(u, v) = 1 \cdot 1/2 = 1/2$ 在像集上——以 $(0, 0), (1, 1), (2, 0), (1, -1)$ 为顶点的平行四边形。总质量:面积 × 密度 = $2 \times 1/2 = 1$ 。密度值与支集都对得上。

四、练习

Exercise

设 X, Y 独立同分布于 Uniform(0, 1),令 U = X + Y,V = X - Y。用雅可比公式求 $(U, V)$ 的联合密度 $f_{U,V}(u, v)$ ,并写出 $(U, V)$ 的支集。

提示

先反解原变量:

x = (u + v)/2

y = (u - v)/2

。计算

(x, y)

关于

(u, v)

的

2 \times 2

雅可比矩阵,取其行列式的绝对值。

提示

可得

|J| = 1/2

,故

f_{U,V}(u, v) = 1/2

在像集上。支集是以

(0, 0), (1, 1), (2, 0), (1, -1)

为顶点的平行四边形,因为

0 \leq x, y \leq 1

映射为

|v| \leq u

且

|v| \leq 2 - u

。

五、通往下一节

到这里你已经能算任何关于 $(X, Y)$ 的事件概率,也能通过变量代换得到任意变换后随机对的联合密度。但仍然有一类问题你尚未能干净回答:"在 $Y = y$ 的条件下, $X$ 的分布是什么?"这就是条件分布问题。一旦能干净回答它,你也就自动得到独立性的精确定义——独立性正是条件分布与边缘分布重合的那种特殊情形。下一节会同时把两个对象建好:条件分布律、条件密度、密度版乘法公式,从而把全部联合推断收敛回那条熟悉的贝叶斯公式,只是这次写在密度而非事件上。这正是上证 50ETF 期权链上每天估出的条件收益率密度,以及一切下游经验密度估计静静依赖的同一根基。