# 随机变量及其数字特征 Mathematical Properties of Random Variable

由随机变量的分布所确定的,能刻画随机变量某一方面的特征的常数统称为数字特征,它在理论和实际应用中都很重要。本章将介绍几个重要的数字特征:数学期望、方差、相关系数和矩。

本节包括以下内容:
1. 数学期望 Mathematical Expectation
2. 方差 Variance
3. 协方差及相关系数 Covariance and Correlation
4. 矩、协方差矩阵 Moment, Covariance Matrix

### 1. 数学期望 Mathematical Expectation

**定义**:设离散型随机变量 $X$ 的分布律(概率质量函数)为
$$ P\{X=x_k\} = p_k, k=1,2,..., $$
若级数
$$ \sum_{k=1}^\infty x_kp_k $$
绝对收敛,则称级数 $\sum_{k=1}^\infty x_kp_k$ 的和为随机变量 $X$ 的**数学期望 Mathematical Expectation**,记为 $E(X)$,即
$$ E(X) = \sum_{k=1}^\infty x_kp_k $$

设连续型随机变量 $X$ 的概率密度为 $f(x)$,若积分
$$ \int_{-\infty}^{\infty}xf(x)dx $$
绝对收敛,则称积分 $\int_{-\infty}^{\infty}xf(x)dx$ 的值为随机变量 $X$ 的数学期望,记为 $E(X)$,即
$$ E(X) = \int_{-\infty}^{\infty}xf(x)dx $$

数学期望简称**期望 Expectation**,简称**均值 Mean Value**。

数学期望 $E(X)$ 完全由随机变量 $X$ 的概率分布所确定。若 $X$ 服从某以分布,也称 $E(X)$ 是这一分布的数学期望。

**定理**:设 $Y$ 是随机变量 $X$ 的函数:$Y=g(X)$($g$ 是连续函数)。

(i) 如果 $X$ 是离散型随机变量,它的分布律为 $P\{X=x_k\}=p_k, k=1,2,...$,若 $\sum_{k=1}^\infty g(x_k)p_k$ 绝对收敛,则有
$$ E(Y) = E[g(X)] = \sum_{k=1}^\infty g(x_k)p_k $$

(ii) 如果 $X$ 是连续型随机变量,它的概率密度为 $f(x)$,若 $\int_{-\infty}^{\infty} g(x)f(x)dx$ 绝对收敛,则有
$$ E(Y) = E[g(X)] = \int_{-\infty}^{\infty} g(x)f(x)dx $$

定理的重要意义在于当我们求 $E(Y)$ 时,不必算出 $Y$ 的分布律或概率密度,而只需要利用 $X$ 的分布律或概率密度就可以了。

**数学期望的几个重要性质**:以下设所遇到的随机变量的数学期望存在。

1) 设 $C$ 是常数,则有 $E(C)=C$。

2) 设 $X$ 是一个随机变量,$C$ 是常数,则有 $E(CX) = CE(X)$。

3) 设 $X, Y$ 是两个随机变量,则有 $E(X+Y) = E(X) + E(Y)$。这一性质可以推广到任意有限个随机变量之和的情况。

4) 设 $X, Y$ 是相互独立的随机变量,则有 $E(XY) = E(X)E(Y)$。这一性质可以推广到任意有限个相互独立的随机变量之积的情况。

### 2. 方差 Variance

**定义** 设 $X$ 是一个随机变量,若 $E\{[X-E(X)]^2\}$ 存在,则称 $E\{[X-E(X)]^2\}$ 为 $X$ 的方差,记为 $D(X)$ 或 $Var(X)$,即
$$ D(X) = Var(X) = E\{[X-E(X)]^2\} $$
在应用上还引入量 $\sqrt{D(X)}$,记为 $\sigma(X)$,称为**标准差 Standard Deviation**或**均方差**

按定义,随机变量 $X$ 的方差表达了 $X$ 的取值与其数学期望的偏离程度。若 $D(X)$ 较小意味着 $X$ 的取值比较集中在 $E(X)$ 附近,反之,若 $D(X)$ 较大则表示 $X$ 的取值较分散。因此,$D(X)$ 是刻画 $X$ 取值分散程度的一个量,它是衡量 $X$ 取值分散程度的一个度量。

由定义知,方差实际上就是随机变量 $X$ 的函数 $g(X) = (X-E(X))^2$ 的数学期望。于是对离散型随机变量,有 $D(X) = \sum_{k=1}^\infty[x_k-E(X)]^2p_k$;对连续型随机变量,有 $D(X) = \int_{-\infty}^{\infty}[x-E(X)]^2f(x)dx$。

随机变量 $X$ 的方差可按下列公式计算 $D(X) = E(X^2) - [E(X)]^2$,证明如下:
$$
\begin{split}
D(X) &= E{[X-E(X)]^2} = E{X^2 - 2XE(X) + [E(X)]^2} \\
&= E(X^2) - 2E(X)E(X) + [E(X)]^2 \\
&= E(X^2) - [E(X)]^2
\end{split}
$$

**方差的几个重要性质**:以下设所遇到的随机变量其方差存在。

1) 设 $C$ 是常数,则 $D(C)=0$。

2) 设 $X$ 是随机变量,$C$ 是常数,则有 $D(CX)=C^2D(X),D(X+C)=D(X)$。

3) 设 $X, Y$ 是两个随机变量,则有 $D(X+Y) = D(X) + D(Y) + 2E\{(X-E(X))(Y-E(Y))\}$。特别,若 $X, Y$ 相互独立,则有 $D(X+Y) = D(X) + D(Y)$,这一性质可以推广到任意有限多个相互独立的随机变量之和的情况。

4) $D(X)=0$ 的充要条件是 $X$ 以概率 $1$ 取常数 $E(X)$,即 $P\{X=E(X)\}=1$

**定理** 设随机变量 $X$ 具有数学期望 $E(X)=\mu$,方差 $D(X)=\sigma^2$,则对于任意正数 $\epsilon$,不等式
$$ P\{|X-\mu| \geq \epsilon \} \leq \frac{\sigma^2}{\epsilon^2} $$
成立,这一不等式称为**切比雪夫(Chebyshev)不等式**。

### 3. 协方差及相关系数 Covariance and Correlation

**定义** 量 $E\{[X-E(X)][Y-E(Y)]\}$ 称为随机变量 $X$ 与 $Y$ 的**协方差 Covariance**。记为 $Cov(X, Y)$,即
$$ Cov(X, Y) = E\{[X-E(X)][Y-E(Y)]\} $$
而
$$ \rho = \frac{Cov(X, Y)}{\sqrt{D(X)}\sqrt{D(Y)}} $$
称为随机变量 $X$ 与 $Y$ 的**相关系数 Correlation**。

由定义,即知
$$ Cov(X, Y) = Cov(Y, X), Cov(X, X) = D(X) $$

对于任意两个随机变量 $X$ 和 $Y$,下列等式成立:
$$ D(X+Y) = D(X) + D(Y) + 2Cov(X,Y) $$

由 $Cov(X,Y)$ 的定义式展开,易得
$$ Cov(X,Y) = E(XY) - E(X)E(Y) $$

**协方差具有下述性质**:

1) $Cov(aX, bY) = abCov(X, Y)$, a, b是常数。

2) $Cov(X_1 + X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y)$

**相关系数具有下述性质**:

1) $|\rho_{XY}| \leq 1$

2) $|\rho_{XY}| = 1$ 的充要条件是,存在常数 $a, b$ 使 $P\{Y=a+bX\}=1$

当 $|\rho_{XY}|$ 较大时,$X, Y$ 线性相关的程度较好。当 $|\rho_{XY}|$ 较小时,$X, Y$ 线性相关的程度较差。特别当 $|\rho_{XY}|=1$ 时,$X, Y$ 之间以概率 $1$ 存在着线性关系。当 $|\rho_{XY}|=0$ 时,称 $X, Y$ 不相关。

当 $X, Y$ 相互独立时,$|\rho_{XY}|=0$,即 $X, Y$ 不相关。反之,若 $X, Y$ 不相关,$X, Y$ 却不一定相互独立。(实际上,他们可能存在确定性的非线性关系)。不相关只是就线性关系来说的,而相互独立是就一般关系而言的。

### 4. 矩、协方差矩阵 Moment, Covariance Matrix

**定义** 设 $X$ 和 $Y$ 是随机变量,若
$$ E(X^k), k=1,2,... $$
存在,称它为 $X$ 的**k阶原点矩**,简称**k阶矩**。若
$$ E\{[X-E(X)]^k\}, k=2,3,... $$
存在,称它为 $X$ 的**k阶中心矩**。若
$$ E(X^kY^l), k,l=1,2,... $$
存在,称它为 $X$ 和 $Y$ 的**k+l阶混合矩**。若
$$ E\{[X-E(X)]^k[Y-E(Y)]^k\} $$
存在,称它为 $X$ 和 $Y$ 的**k+l阶混合中心矩**。

显然,$X$ 的数学期望 $E(X)$ 是 $X$ 的一阶原点矩,方差 $D(X)$ 是 $X$ 的二阶中心矩,协方差 $Cov(X, Y)$ 是 $X$ 和 $Y$ 的二阶混合中心矩。

为了介绍 $n$ 维随机变量的协方差矩阵,先从二维随机变量讲起。二维随机变量 $(X_1, X_2)$ 有四个二阶混合中心矩(设它们都存在),分别记为
$$
\begin{split}
c_{11} &= E\{[X_1 - E(X_1)]^2\} \\
c_{12} &= E\{[X_1-E(X_1)][X_2-E(X_2)]\} \\
c_{21} &= E\{[X_2-E(X_2)][X_1-E(X_1)]\} \\
c_{22} &= E\{[X_2 - E(X_2)]^2\}
\end{split}
$$

将它们排成矩阵的形式
$$
\begin{bmatrix}
c_{11}\, c_{12} \\
c_{21}\, c_{22}
\end{bmatrix}
$$

这个矩阵称为随机变量 $(X_1, X_2)$ 的**协方差矩阵 Covariance Matrix**。

设 $n$ 维随机变量 $(X_1, X_2, ..., X_n)$ 的二阶混合中心矩 $c_{ij}=Cov(X_i, X_j)=E\{[X_i-E(X_i)][X_j-E(X_j)]\}, i,j=1,2,...,n$ 都存在,则称矩阵
$$
\begin{bmatrix}
c_{11} & c_{12} & \cdot\cdot\cdot & c_{1n} \\
c_{21} & c_{22} & \cdot\cdot\cdot & c_{2n} \\
\vdots & \vdots & & \vdots \\
c_{n1} & c_{n2} & \cdot\cdot\cdot & c_{nn} \\
\end{bmatrix}
$$
为 $n$ 维随机变量 $(X_1, X_2, ..., X_n)$ 的协方差矩阵。由于 $c_{ij}=c_{ji}(i \neq j; i,j=1,2,...,n)$,因而上述矩阵是一个对称矩阵。

一般,$n$ 维随机变量的分布是不知道的,或者是太复杂,以致在数学上不易处理,因此在实际应用中协方差矩阵就显得重要了。

引入向量
$$
X=\begin{bmatrix}x_1\\ x_2\\ \vdots\\ x_n \end{bmatrix}, \mu=\begin{bmatrix}\mu_1\\ \mu_2\\ \vdots\\ \mu_n \end{bmatrix} = \begin{bmatrix}E(X_1)\\ E(X_2)\\ \vdots\\ E(X_n) \end{bmatrix}
$$

$n$ 维正态随机变量 $(X_1, X_2, ..., X_n)$ 的概率密度定义为
$$ f(x_1, x_2, ..., x_n) = \frac{1}{(2\pi)^{\frac{n}{2}}(det C)^{\frac{1}{2}}}exp\{-\frac{1}{2}(X-\mu)^{T}C^{-1}(X-\mu)\} $$
其中 $C$ 是 $(X_1, X_2, ..., X_n)$ 的协方差矩阵。

$n$ 维正态随机变量具有以下四条重要性质:

1) $n$ 维正态随机变量 $(X_1, X_2, ..., X_n)$ 的每一个分量 $X_i, i=1,2,...,n$ 都是正态随机变量;反之,若 $(X_1, X_2, ..., X_n)$ 都是正态随机变量,且相互独立,则 $(X_1, X_2, ..., X_n)$ 是 $n$ 维正态随机变量;

2) $n$ 维随机变量 $(X_1, X_2, ..., X_n)$ 服从 $n$ 维正态分布的充要条件是 $(X_1, X_2, ..., X_n)$ 的任意线性组合 $l_1X_1 + l_2X_2 + \cdot\cdot\cdot + l_nX_n$ 服从一维正态分布(其中 $l_1, l_2,..., l_n$)不全为零。

3) 若 $(X_1, X_2, ..., X_n)$ 服从 $n$ 维正态分布,设 $(Y_1, Y_2, ..., Y_n)$ 是 $X_j(j=1,2,...,n)$ 的线性函数,则 $(Y_1, Y_2, ..., Y_n)$ 也服从多维正态分布。这一性质称为正态变量的线性变化不变性。

4) 设 $(X_1, X_2, ..., X_n)$ 服从 $n$ 维正态分布,则" $(X_1, X_2, ..., X_n)$ 相互独立"与" $(X_1, X_2, ..., X_n)$ 两两不相关"是等价的。