本科阶段,对离散型随机变量和连续型随机变量单独定义了数学期望和条件数学期望。注意到有很多随机变量的分布函数既不是离散的也不是连续的,下面考虑如何对这类一般的分布函数定义数学期望需要用到 Riemann-Stieltjes 积分,参考:随机过程(1.1)—— 概率空间、分布函数、Riemann-Stieltjes 积分
文章目录
1. 数学期望1.1 本质定义1.2 随机变量的函数的期望1.3 期望的性质
2. 关于事件的条件数学期望(条件为一个事件)2.1 条件期望2.2 一些重要公式2.2.1 全概率公式2.2.2 全分布函数公式2.2.3 全期望公式2.2.4 条件全期望公式
2.3 Example2.4 示性随机变量
3. 关于 r.v. 的条件数学期望(条件为一个 r.v.)3.1 定义3.2 计算3.3 条件期望的性质3.3.1 五条性质3.3.2 一条推论
3.4 条件期望的本质 —— 投影3.4.1 投影3.4.2 直观推论3.4.3 Example
3.5 深入理解条件数学期望3.5.1 关于 r.v. 的条件数学期望的正统定义3.5.2 再看离散和连续随机变量的条件期望
1. 数学期望
1.1 本质定义
设
X
X
X 的分布函数为
F
X
(
x
)
F_X(x)
FX(x),且
∫
−
∞
∞
∣
x
∣
d
F
(
x
)
<
∞
\int_{-\infin}^\infin|x|dF(x) < \infin
∫−∞∞∣x∣dF(x)<∞,则称
E
X
=
∫
−
∞
∞
x
d
F
X
(
x
)
EX = \int_{-\infin}^\infin x dF_X(x)
EX=∫−∞∞xdFX(x) 为
X
X
X 的 数学期望,其本质是
f
(
x
)
=
x
f(x) = x
f(x)=x 关于其分布函数
F
X
(
x
)
F_X(x)
FX(x) 的 R-S 积分两类特殊的随机变量的数学期望
若
X
X
X 为离散型随机变量,有
P
(
X
=
x
i
)
=
p
i
,
i
=
1
,
2
,
.
.
.
P(X=x_i) = p_i, \space\space i=1,2,...
P(X=xi)=pi, i=1,2,...,分布函数
F
(
x
)
F(x)
F(x) 是阶梯函数,数学期望本质上是关于阶梯函数的 R-S 积分,即
E
X
=
∑
i
=
1
∞
x
i
p
i
EX = \sum_{i=1}^\infin x_ip_i
EX=i=1∑∞xipi若
X
X
X 为连续型随机变量,概率密度函数为
p
(
x
)
p(x)
p(x),分布函数
F
(
x
)
F(x)
F(x) 是连续函数,有
d
F
(
x
)
=
p
(
x
)
d
x
dF(x)=p(x)dx
dF(x)=p(x)dx,数学期望本质上是关于连续函数的 R-S 积分,即
E
X
=
∫
−
∞
∞
x
p
(
x
)
d
x
EX = \int_{-\infin}^\infin xp(x)dx
EX=∫−∞∞xp(x)dx
1.2 随机变量的函数的期望
设
X
X
X 的分布函数为
F
X
(
x
)
F_X(x)
FX(x),
g
(
x
)
g(x)
g(x) 为一元
R
→
R
R\to R
R→R 函数,且
Y
=
g
(
X
)
Y = g(X)
Y=g(X),则
E
Y
=
∫
R
g
(
x
)
d
F
X
(
x
)
EY = \int_\mathbb{R}g(x)dF_X(x)
EY=∫Rg(x)dFX(x)若
(
X
1
,
X
2
,
.
.
.
,
X
n
)
(X_1,X_2,...,X_n)
(X1,X2,...,Xn) 的分布函数为
F
(
x
1
,
x
2
,
.
.
.
,
x
n
)
F(x_1,x_2,...,x_n)
F(x1,x2,...,xn),
g
(
x
1
,
x
2
,
.
.
.
,
x
n
)
g(x_1,x_2,...,x_n)
g(x1,x2,...,xn) 为 n 元
R
n
→
R
R^n\to R
Rn→R 函数,则
E
Y
=
∫
R
n
g
(
x
1
,
x
2
,
.
.
.
,
x
n
)
d
F
X
1
,
X
2
,
.
.
.
,
X
n
(
x
1
,
x
2
,
.
.
.
,
x
n
)
EY = \int_{\mathbb{R}^n}g(x_1,x_2,...,x_n)dF_{X_1,X_2,...,X_n}(x_1,x_2,...,x_n)
EY=∫Rng(x1,x2,...,xn)dFX1,X2,...,Xn(x1,x2,...,xn)
1.3 期望的性质
若
E
X
EX
EX 存在,则
∣
E
X
∣
≤
E
∣
X
∣
|EX| \leq E|X|
∣EX∣≤E∣X∣ 这是因为随机变量的分布函数
F
(
X
)
F(X)
F(X) 一定是单调不减函数,根据 R-S 积分性质可以证明(更本质地可以通过分割求和取极限证明,每个小区间都有
△
F
≥
0
\triangle F\geq 0
△F≥0)Holder 不等式:对于任意的对偶数
p
,
q
p,q
p,q (即
p
,
q
>
0
,
1
p
+
1
q
=
1
p,q>0,\frac{1}{p}+\frac{1}{q} =1
p,q>0,p1+q1=1),有
∣
E
X
Y
∣
≤
E
∣
X
Y
∣
≤
(
E
∣
X
∣
p
)
1
p
(
E
∣
Y
∣
q
)
1
q
|EXY| \leq E|XY| \leq (E|X|^p)^\frac{1}{p}(E|Y|^q)^\frac{1}{q}
∣EXY∣≤E∣XY∣≤(E∣X∣p)p1(E∣Y∣q)q1 特别地,p = q = 2 时
E
∣
X
Y
∣
≤
E
X
2
E
Y
2
E|XY|\leq \sqrt{EX^2EY^2}
E∣XY∣≤EX2EY2
这个不等式的意义在于,可以用
X
X
X 和
Y
Y
Y 的期望对
X
Y
XY
XY 的期望做一个控制对于
k
>
0
k>0
k>0,若
E
∣
X
∣
k
≤
∞
E|X|^k\leq \infin
E∣X∣k≤∞,则
E
∣
X
∣
r
≤
∞
E|X|^r \leq \infin
E∣X∣r≤∞,其中
0
≤
r
≤
k
0\leq r\leq k
0≤r≤k
2. 关于事件的条件数学期望(条件为一个事件)
2.1 条件期望
定义:给定概率空间
(
Ω
,
F
,
P
)
(\Omega,\mathscr{F},P)
(Ω,F,P),令
B
∈
F
B\in\mathscr{F}
B∈F 且
P
(
B
)
>
0
P(B)>0
P(B)>0。
F
(
x
∣
B
)
=
P
(
X
≤
x
∣
B
)
F(x|B)=P(X\leq x|B)
F(x∣B)=P(X≤x∣B) 为
X
X
X 关于事件
B
B
B 的条件分布函数,则
X
X
X 关于
B
B
B 的 条件期望 为
E
(
X
∣
B
)
=
∫
R
x
d
F
X
∣
B
(
x
∣
B
)
E(X|B) = \int_{\mathbb{R}} xdF_{X|B}(x|B)
E(X∣B)=∫RxdFX∣B(x∣B) 随机变量的条件概率密度函数(条件分布律)其实就是一种特殊的概率密度函数(分布律)。可以换一套符号:令
Q
(
⋅
)
=
P
(
⋅
∣
B
)
Q(·)=P(·|B)
Q(⋅)=P(⋅∣B) 则
Q
Q
Q 为
(
Ω
,
F
)
(\Omega,\mathscr{F})
(Ω,F) 上的概率分布,且
X
X
X 在
Q
Q
Q 下的分布函数为
F
Q
(
x
)
=
Q
(
X
≤
x
)
=
F
(
x
∣
B
)
E
(
X
∣
B
)
=
∫
R
x
d
F
(
x
∣
B
)
=
∫
R
x
d
F
Q
(
x
)
=
E
Q
(
X
)
\begin{aligned} &F_Q(x) = Q(X\leq x) = F(x|B) \\ &E(X|B) = \int_\mathbb{R}xdF(x|B) = \int_\mathbb{R}xdF_Q(x) = E_Q(X) \end{aligned}
FQ(x)=Q(X≤x)=F(x∣B)E(X∣B)=∫RxdF(x∣B)=∫RxdFQ(x)=EQ(X)两类特殊的随机变量
若
X
X
X 为取值
x
i
,
i
=
1
,
2
,
.
.
.
x_i,i=1,2,...
xi,i=1,2,... 的离散型随机变量,则
E
(
X
∣
B
)
=
∑
i
=
1
∞
x
i
P
(
X
=
x
i
∣
B
)
E(X|B) = \sum_{i=1}^\infin x_iP(X=x_i|B)
E(X∣B)=i=1∑∞xiP(X=xi∣B)若
X
X
X 为连续型随机变量,则
E
(
X
∣
B
)
=
∫
−
∞
∞
x
p
(
x
∣
B
)
d
x
E(X|B) = \int_{-\infin}^\infin xp(x|B)dx
E(X∣B)=∫−∞∞xp(x∣B)dx 若
X
,
B
X,B
X,B 相互独立,即
∀
x
,
{
X
≤
x
}
\forall x,\{X\leq x\}
∀x,{X≤x} 与
B
B
B 独立,则
E
(
X
∣
B
)
=
E
X
E(X|B)=EX
E(X∣B)=EX例:设
X
∼
ε
(
γ
)
X\sim \varepsilon(\gamma)
X∼ε(γ),
B
=
{
X
>
1
}
B=\{X>1\}
B={X>1},求
E
(
X
∣
B
)
E(X|B)
E(X∣B)
∵
F
(
X
∣
B
)
=
P
(
X
≤
x
∣
X
>
1
)
=
P
(
1
<
X
≤
z
)
P
(
X
>
1
)
=
{
e
−
λ
−
e
−
λ
x
e
−
λ
x
>
1
0
x
≤
1
∴
f
(
x
∣
B
)
=
{
λ
e
−
λ
(
x
−
1
)
x
>
1
0
x
≤
1
∴
E
(
X
∣
B
)
=
∫
1
∞
x
λ
e
−
λ
(
x
−
1
)
d
x
=
λ
e
λ
∫
1
∞
x
e
−
λ
x
d
x
=
λ
\begin{aligned} &\begin{aligned} \because F(X|B) &= P(X\leq x|X>1) \\ & = \frac{P(1
∵F(X∣B)=P(X≤x∣X>1)=P(X>1)P(1
2.2 一些重要公式
有时候事件概率;随机变量的分布函数、数学期望等不好求,可以把样本空间进行划分并作为条件,在这些条件的基础上,条件概率、条件分布函数、条件数学期望可能比较好求,进而间接地算出结果令样本空间为若干个不交空间的并,即
Ω
=
∑
i
=
1
∞
B
i
\Omega = \sum_{i=1}^\infin B_i
Ω=∑i=1∞Bi
2.2.1 全概率公式
∀
A
∈
F
P
(
A
)
=
∑
i
=
1
∞
P
(
B
i
)
P
(
A
∣
B
i
)
\begin{aligned} &\forall A\in \mathscr{F} \\ &P(A) = \sum_{i=1}^\infin P(B_i)P(A|B_i) \end{aligned}
∀A∈FP(A)=i=1∑∞P(Bi)P(A∣Bi)
2.2.2 全分布函数公式
∀
x
∈
R
F
(
x
)
=
p
(
X
≤
x
)
=
∑
i
=
1
∞
P
(
B
i
)
P
(
X
≤
x
∣
B
i
)
=
∑
i
=
1
∞
P
(
B
i
)
F
(
x
∣
B
i
)
\begin{aligned} &\forall x\in \mathbb{R} \\ & \begin{aligned} F(x) &= p(X\leq x) \\ &=\sum_{i=1}^\infin P(B_i)P(X\leq x|B_i) \\ &=\sum_{i=1}^\infin P(B_i)F(x|B_i) \end{aligned} \end{aligned}
∀x∈RF(x)=p(X≤x)=i=1∑∞P(Bi)P(X≤x∣Bi)=i=1∑∞P(Bi)F(x∣Bi)
2.2.3 全期望公式
E
X
=
∫
R
x
d
F
(
x
)
=
∫
R
x
d
∑
i
=
1
∞
P
(
B
i
)
F
(
x
∣
B
i
)
=
∑
i
=
1
∞
P
(
B
i
)
∫
R
x
d
F
(
x
∣
B
i
)
=
∑
i
=
1
∞
P
(
B
i
)
E
(
X
∣
B
i
)
\begin{aligned} EX &= \int_\mathbb{R} xdF(x) \\ & = \int_\mathbb{R} xd\sum_{i=1}^\infin P(B_i)F(x|B_i) \\ & = \sum_{i=1}^\infin P(B_i) \int_\mathbb{R} xd F(x|B_i) \\ & = \sum_{i=1}^\infin P(B_i) E(X|B_i) \end{aligned}
EX=∫RxdF(x)=∫Rxdi=1∑∞P(Bi)F(x∣Bi)=i=1∑∞P(Bi)∫RxdF(x∣Bi)=i=1∑∞P(Bi)E(X∣Bi)
2.2.4 条件全期望公式
先算条件全分布函数公式
F
(
x
∣
A
)
=
P
(
X
≤
x
∣
A
)
:
=
Q
(
X
≤
x
)
=
∑
i
=
1
∞
Q
(
B
i
)
Q
(
X
≤
x
∣
B
i
)
=
∑
i
=
1
∞
Q
(
B
i
)
Q
(
X
≤
x
,
B
i
)
Q
(
B
i
)
=
∑
i
=
1
∞
P
(
B
i
∣
A
)
P
(
X
≤
x
,
B
i
∣
A
)
P
(
B
i
∣
A
)
=
∑
i
=
1
∞
P
(
B
i
∣
A
)
P
(
X
≤
x
,
A
B
i
)
/
P
(
A
)
P
(
A
B
i
)
/
P
(
A
)
=
∑
i
=
1
∞
P
(
B
i
∣
A
)
P
(
X
≤
x
∣
A
B
i
)
=
∑
i
=
1
∞
P
(
B
i
∣
A
)
F
(
x
∣
A
B
i
)
\begin{aligned} F(x|A) &= P(X\leq x|A) \\ &:= Q(X\leq x)\\ & = \sum_{i=1}^\infin Q(B_i) Q(X\leq x|B_i) \\ & = \sum_{i=1}^\infin Q(B_i) \frac{Q(X\leq x,B_i)}{Q(B_i)} \\ & = \sum_{i=1}^\infin P(B_i|A) \frac{P(X\leq x,B_i|A)}{P(B_i|A)} \\ & = \sum_{i=1}^\infin P(B_i|A) \frac{P(X\leq x,AB_i)/P(A)}{P(AB_i)/P(A)} \\ & = \sum_{i=1}^\infin P(B_i|A) P(X\leq x|AB_i) \\ & = \sum_{i=1}^\infin P(B_i|A) F(x|AB_i) \end{aligned} \\
F(x∣A)=P(X≤x∣A):=Q(X≤x)=i=1∑∞Q(Bi)Q(X≤x∣Bi)=i=1∑∞Q(Bi)Q(Bi)Q(X≤x,Bi)=i=1∑∞P(Bi∣A)P(Bi∣A)P(X≤x,Bi∣A)=i=1∑∞P(Bi∣A)P(ABi)/P(A)P(X≤x,ABi)/P(A)=i=1∑∞P(Bi∣A)P(X≤x∣ABi)=i=1∑∞P(Bi∣A)F(x∣ABi)再根据期望的定义(
x
x
x 关于分布函数的R-S积分)计算条件全期望公式
E
(
X
∣
A
)
=
∫
R
x
d
F
(
x
∣
A
)
=
∫
R
x
d
∑
i
=
1
∞
P
(
B
i
∣
A
)
F
(
x
∣
A
B
i
)
=
∑
i
=
1
n
P
(
B
i
∣
A
)
∫
R
x
d
F
(
x
∣
A
B
i
)
=
∑
i
=
1
n
P
(
B
i
∣
A
)
E
(
X
∣
A
B
i
)
\begin{aligned} E(X|A) &= \int_{\mathbb{R}}xdF(x|A) \\ & = \int_{\mathbb{R}}xd\sum_{i=1}^\infin P(B_i|A) F(x|AB_i) \\ &=\sum_{i=1}^nP(B_i|A) \int_{\mathbb{R}}xdF(x|AB_i) \\ &=\sum_{i=1}^nP(B_i|A)E(X|AB_i) \end{aligned}
E(X∣A)=∫RxdF(x∣A)=∫Rxdi=1∑∞P(Bi∣A)F(x∣ABi)=i=1∑nP(Bi∣A)∫RxdF(x∣ABi)=i=1∑nP(Bi∣A)E(X∣ABi)
2.3 Example
设 r.v.s
{
X
n
,
n
≥
1
}
\{X_n,n\geq 1\}
{Xn,n≥1} i.i.d,r.v.
ξ
\xi
ξ 取正整数值且与
{
X
n
,
n
≥
1
}
\{X_n,n\geq 1\}
{Xn,n≥1} 相互独立,求
E
(
X
1
+
.
.
.
+
X
ξ
)
,
D
(
X
1
+
.
.
.
+
X
ξ
)
E(X_1+...+X_\xi),D(X_1+...+X_\xi)
E(X1+...+Xξ),D(X1+...+Xξ)分析:我们知道多个 i.i.d 随机变量的期望和方差如何求,这里要求和变量的个数是另一个相互独立的随机变量
ξ
\xi
ξ,所以可以通过
ξ
\xi
ξ 的取值对样本空间进行划分,转换为求全期望和全方差
2.4 示性随机变量
令
X
X
X 为 r.v.,
A
,
B
∈
F
,
P
(
B
)
>
0
A,B\in \mathscr{F},P(B)>0
A,B∈F,P(B)>0,则
E
(
I
A
)
=
P
(
A
)
E
(
I
A
∣
B
)
=
P
(
A
∣
B
)
E
(
X
I
B
)
=
P
(
B
)
E
(
X
∣
B
)
\begin{aligned} &E(I_A) = P(A)\\ &E(I_A|B) = P(A|B)\\ &E(XI_B)=P(B)E(X|B) \end{aligned}
E(IA)=P(A)E(IA∣B)=P(A∣B)E(XIB)=P(B)E(X∣B) 其中
I
A
(
w
)
=
{
1
w
∈
A
0
w
∉
A
I_A(w) = \left\{ \begin{aligned} &1&& w \in A \\ &0 & &w \notin A \end{aligned} \right.
IA(w)={10w∈Aw∈/A从示性随机变量这个例子可以看出来,概率
P
P
P 和期望
E
E
E 是一回事,而期望可以写成积分,所以概率是一种特殊的积分,那么这个积分能不能算?不能算的话能不能估计?由此引发一系列问题
3. 关于 r.v. 的条件数学期望(条件为一个 r.v.)
3.1 定义
令
g
(
⋅
)
g(·)
g(⋅) 为
R
→
R
R\to R
R→R 的实值函数(这种函数和随机变量的复合仍然是随机变量),在
Y
=
y
Y=y
Y=y 的条件下,
g
(
X
)
g(X)
g(X) 的条件数学期望为:
E
(
g
(
X
)
∣
y
)
=
E
(
g
(
X
)
∣
Y
=
y
)
=
∫
R
g
(
x
)
d
F
X
∣
Y
(
x
∣
y
)
\begin{aligned} E(g(X)|y) &= E(g(X)|Y=y) \\ &=\int_{\mathbb{R}}g(x)dF_{X|Y}(x|y) \end{aligned}
E(g(X)∣y)=E(g(X)∣Y=y)=∫Rg(x)dFX∣Y(x∣y) 需要注意的是,对于连续型随机变量,
Y
=
y
Y=y
Y=y 不能看作一个事件,因为连续随机变量的点概率
P
(
Y
=
y
)
=
0
P(Y=y)=0
P(Y=y)=0,如果把它当作事件,按上面 2.2.4 节计算条件全分布函数时,会有
P
(
Y
=
y
)
P(Y=y)
P(Y=y) 出现在分母位置,而 0 是不能做分母的。事实上
对于离散型随机变量,
Y
=
y
Y=y
Y=y 可以看作一个事件对于连续型随机变量,
Y
=
y
Y=y
Y=y 只是一种符号表示,指求出
E
(
g
(
X
)
∣
Y
)
E(g(X)|Y)
E(g(X)∣Y) 后,把
Y
Y
Y 替换为
y
y
y。后面 3.4 节会进一步说明
3.2 计算
3.1 节的定义式给出了计算方法。对于
X
,
Y
X,Y
X,Y 都是离散或连续的情况,可以利用以下公式计算
若
(
X
,
Y
)
(X,Y)
(X,Y) 为二维离散型 r.v. 且
P
(
Y
=
y
)
>
0
P(Y=y)>0
P(Y=y)>0,则
E
(
g
(
X
)
∣
y
)
=
∑
i
g
(
x
i
)
P
(
X
=
x
i
∣
Y
=
y
)
E(g(X)|y) = \sum_i g(x_i) P(X=x_i|Y=y)
E(g(X)∣y)=i∑g(xi)P(X=xi∣Y=y)若
(
X
,
Y
)
(X,Y)
(X,Y) 为二维连续型 r.v.,则
E
(
g
(
X
)
∣
y
)
=
∫
R
g
(
x
)
f
X
∣
Y
(
x
∣
y
)
d
x
E(g(X)|y) = \int_{\mathbb{R}}g(x)f_{X|Y}(x|y)dx
E(g(X)∣y)=∫Rg(x)fX∣Y(x∣y)dx 注意:令
g
(
⋅
)
g(·)
g(⋅) 是
R
→
R
R\to R
R→R 的实值函数,则
E
(
g
(
X
)
∣
y
)
E(g(X)|y)
E(g(X)∣y) 是关于
y
y
y 的函数
E
(
g
(
X
)
∣
Y
)
:
=
E
(
g
(
X
)
∣
y
)
y
=
Y
E(g(X)|Y):= E(g(X)|y)_{y=Y}
E(g(X)∣Y):=E(g(X)∣y)y=Y 称为
g
(
X
)
g(X)
g(X) 关于
Y
Y
Y 的条件数学期望
E
(
g
(
X
)
∣
Y
)
E(g(X)|Y)
E(g(X)∣Y) 是关于
Y
Y
Y 的函数 也就是说,一个随机变量
X
X
X 或
g
(
X
)
g(X)
g(X) 关于另一个随机变量
Y
Y
Y 的条件期望
E
(
X
∣
Y
)
E(X|Y)
E(X∣Y) 或
E
(
g
(
X
)
∣
Y
)
E(g(X)|Y)
E(g(X)∣Y)
是关于条件
Y
Y
Y 的一个函数本身也是一个随机变量,计算时可以先求出
E
(
g
(
X
)
∣
y
)
E(g(X)|y)
E(g(X)∣y),再直接把
y
y
y 替换为
Y
Y
Y 以得到
E
(
g
(
X
)
∣
Y
)
E(g(X)|Y)
E(g(X)∣Y)
3.3 条件期望的性质
3.3.1 五条性质
假设
X
,
Y
,
Z
X,Y,Z
X,Y,Z 为连续型 r.v. ,概率密度分别为
f
X
,
f
Y
,
f
Z
f_X,f_Y,f_Z
fX,fY,fZ
若
X
≥
0
X\geq 0
X≥0,则
E
(
X
∣
Y
)
≥
0
E(X|Y)\geq 0
E(X∣Y)≥0
∀
a
,
b
∈
R
\forall a,b \in R
∀a,b∈R,
E
(
a
X
+
b
Y
∣
Z
)
=
a
E
(
X
∣
Z
)
+
b
E
(
Y
∣
Z
)
E(aX+bY|Z) = aE(X|Z)+bE(Y|Z)
E(aX+bY∣Z)=aE(X∣Z)+bE(Y∣Z) 若
X
X
X 与
Y
Y
Y 独立(
X
⊥
⊥
Y
X \perp \!\!\! \perp Y
X⊥⊥Y),则
E
(
X
∣
Y
)
=
E
X
E(X|Y) = EX
E(X∣Y)=EX
E
(
X
g
(
Y
)
∣
Y
)
=
g
(
Y
)
E
(
X
∣
Y
)
E(Xg(Y)|Y) = g(Y)E(X|Y)
E(Xg(Y)∣Y)=g(Y)E(X∣Y)
E
(
E
(
X
∣
Y
)
)
=
E
X
E\big(E(X|Y)\big) = EX
E(E(X∣Y))=EX
3.3.2 一条推论
E
[
E
(
X
∣
Y
)
g
(
Y
)
]
=
E
[
X
g
(
Y
)
]
E\big[E(X|Y)g(Y)\big] = E\big[Xg(Y)\big]
E[E(X∣Y)g(Y)]=E[Xg(Y)]
∵
g
(
Y
)
E
(
X
∣
Y
)
=
E
(
X
g
(
Y
)
∣
Y
)
(
性
质
4
)
∴
E
(
E
(
X
∣
Y
)
g
(
Y
)
)
=
E
(
E
(
X
g
(
Y
)
∣
Y
)
)
∵
E
(
E
(
X
∣
Y
)
)
=
E
X
(
性
质
5
)
∴
E
(
E
(
X
∣
Y
)
g
(
Y
)
)
=
E
(
E
(
X
g
(
Y
)
∣
Y
)
)
=
E
(
X
g
(
Y
)
∣
Y
)
\begin{aligned} &\because g(Y)E(X|Y) =E(Xg(Y)|Y) \space\space\space\space(性质4) \\ &\therefore E(E(X|Y)g(Y)) = E(E(Xg(Y)|Y)) \\ &\because E\big(E(X|Y)\big) = EX\space\space\space\space(性质5) \\ & \begin{aligned} \therefore E(E(X|Y)g(Y)) &= E(E(Xg(Y)|Y)) \\ &= E(Xg(Y)|Y) \end{aligned} \end{aligned}
∵g(Y)E(X∣Y)=E(Xg(Y)∣Y) (性质4)∴E(E(X∣Y)g(Y))=E(E(Xg(Y)∣Y))∵E(E(X∣Y))=EX (性质5)∴E(E(X∣Y)g(Y))=E(E(Xg(Y)∣Y))=E(Xg(Y)∣Y)
3.4 条件期望的本质 —— 投影
3.4.1 投影
随机变量生成的空间:考虑
R
→
R
R \to R
R→R 的实值函数
g
(
⋅
)
g(·)
g(⋅),对于随机变量
Y
Y
Y,选择不同的
g
(
⋅
)
g(·)
g(⋅) 与其复合,就能得到不同的新的随机变量
g
(
Y
)
g(Y)
g(Y),所有满足
E
g
2
(
Y
)
<
∞
Eg^2(Y)<\infin
Eg2(Y)<∞ 的
g
(
Y
)
g(Y)
g(Y) 的集合,称为随机变量
Y
Y
Y 生成的空间,即
{
g
(
Y
)
∣
g
:
R
→
R
且
E
g
2
(
Y
)
<
∞
}
\{g(Y)\big| g:R\to R 且 Eg^2(Y)<\infin\}
{g(Y)∣∣g:R→R且Eg2(Y)<∞}考虑随机变量
X
X
X 到
Y
Y
Y 生成的空间的距离,用
E
[
X
−
g
(
Y
)
]
2
E[X-g(Y)]^2
E[X−g(Y)]2 表示(省略开方以简化运算),有
E
[
X
−
g
(
Y
)
]
2
=
E
[
X
−
E
(
X
∣
Y
)
+
E
(
X
∣
Y
)
−
g
(
Y
)
]
2
=
E
[
X
−
E
(
X
∣
Y
)
]
2
+
E
[
E
(
X
∣
Y
)
−
g
(
Y
)
]
2
+
2
E
[
X
−
E
(
X
∣
Y
)
]
[
E
(
X
∣
Y
)
−
g
(
Y
)
]
\begin{aligned} E[X-g(Y)]^2 &= E\big[X-E(X|Y)+E(X|Y)-g(Y)\big]^2 \\ & =E\big[X-E(X|Y)\big]^2+E\big[E(X|Y)-g(Y)\big]^2 + 2E\big[X-E(X|Y)\big]\big[E(X|Y)-g(Y)\big] \end{aligned}
E[X−g(Y)]2=E[X−E(X∣Y)+E(X∣Y)−g(Y)]2=E[X−E(X∣Y)]2+E[E(X∣Y)−g(Y)]2+2E[X−E(X∣Y)][E(X∣Y)−g(Y)] 关注其中的交叉项
E
[
X
−
E
(
X
∣
Y
)
]
[
E
(
X
∣
Y
)
−
g
(
Y
)
]
=
E
[
X
E
(
X
∣
Y
)
−
X
g
(
Y
)
−
(
E
(
X
∣
Y
)
)
2
+
E
(
X
∣
Y
)
g
(
Y
)
]
=
E
[
X
E
(
X
∣
Y
)
]
−
E
[
X
g
(
Y
)
]
−
E
[
(
E
(
X
∣
Y
)
)
2
]
+
E
[
E
(
X
∣
Y
)
g
(
Y
)
]
=
E
[
X
E
(
X
∣
Y
)
]
−
E
[
(
E
(
X
∣
Y
)
)
2
]
\begin{aligned} E\big[X-E(X|Y)\big]\big[E(X|Y)-g(Y)\big] &= E\big[XE(X|Y)-Xg(Y)-(E(X|Y))^2+E(X|Y)g(Y)\big] \\ &= E\big[XE(X|Y)\big]-E\big[Xg(Y)\big]-E\big[(E(X|Y))^2\big]+E\big[E(X|Y)g(Y)\big] \\ &= E\big[XE(X|Y)\big]-E\big[(E(X|Y))^2\big] \end{aligned}
E[X−E(X∣Y)][E(X∣Y)−g(Y)]=E[XE(X∣Y)−Xg(Y)−(E(X∣Y))2+E(X∣Y)g(Y)]=E[XE(X∣Y)]−E[Xg(Y)]−E[(E(X∣Y))2]+E[E(X∣Y)g(Y)]=E[XE(X∣Y)]−E[(E(X∣Y))2] 展开剩下的两项,发现他们相等
E
[
X
E
(
X
∣
Y
)
]
=
∫
∫
R
2
x
g
(
y
)
f
X
,
Y
(
x
,
y
)
d
x
d
y
=
∫
∫
R
2
x
∫
R
x
f
X
∣
Y
(
x
∣
y
)
d
x
f
X
,
Y
(
x
,
y
)
d
x
d
y
=
∫
∫
R
2
x
∫
R
x
f
X
∣
Y
(
x
∣
y
)
d
x
f
X
,
Y
(
x
,
y
)
d
x
d
y
=
∫
∫
∫
R
3
x
2
f
X
∣
Y
(
x
∣
y
)
f
X
,
Y
(
x
,
y
)
d
x
d
x
d
y
E
[
(
E
(
X
∣
Y
)
)
2
]
=
∫
R
g
(
y
)
2
f
Y
(
y
)
d
y
=
∫
R
(
E
[
X
∣
Y
=
y
]
)
2
f
Y
(
y
)
d
y
=
∫
R
(
∫
R
x
f
X
∣
Y
(
x
∣
y
)
)
2
f
Y
(
y
)
d
y
=
∫
∫
∫
R
3
x
2
(
f
X
∣
Y
(
x
∣
y
)
)
2
f
Y
(
y
)
d
x
d
x
d
y
=
∫
∫
∫
R
3
x
2
f
X
∣
Y
(
x
∣
y
)
f
X
,
Y
(
x
,
y
)
d
x
d
x
d
y
∴
E
[
X
E
(
X
∣
Y
)
]
=
E
[
(
E
(
X
∣
Y
)
)
2
]
\begin{aligned} &\begin{aligned} E\big[XE(X|Y)\big] &= \int \!\!\!\!\! \int_{R^2} xg(y)f_{X,Y}(x,y)dxdy\\ &= \int \!\!\!\!\! \int_{R^2} x\int_{R} xf_{X|Y}(x|y)dxf_{X,Y}(x,y)dxdy\\ &= \int \!\!\!\!\! \int_{R^2} x\int_{R} xf_{X|Y}(x|y)dxf_{X,Y}(x,y)dxdy\\ &= \int \!\!\!\!\! \int\!\!\!\!\! \int_{R^3} x^2 f_{X|Y}(x|y)f_{X,Y}(x,y)dxdxdy\\ \end{aligned} \\ &\begin{aligned} E\big[(E(X|Y))^2\big] &= \int_R g(y)^2f_Y(y)dy \\ &= \int_R (E[X|Y=y])^2f_Y(y)dy \\ &= \int_R (\int_R xf_{X|Y}(x|y))^2f_Y(y)dy \\ &= \int \!\!\!\!\! \int\!\!\!\!\! \int_{R^3} x^2 (f_{X|Y}(x|y))^2f_Y(y)dxdxdy \\ &= \int \!\!\!\!\! \int\!\!\!\!\! \int_{R^3} x^2 f_{X|Y}(x|y)f_{X,Y}(x,y)dxdxdy\\ \end{aligned} \\ &\space\\ &\therefore E\big[XE(X|Y)\big] = E\big[(E(X|Y))^2\big] \end{aligned}
E[XE(X∣Y)]=∫∫R2xg(y)fX,Y(x,y)dxdy=∫∫R2x∫RxfX∣Y(x∣y)dxfX,Y(x,y)dxdy=∫∫R2x∫RxfX∣Y(x∣y)dxfX,Y(x,y)dxdy=∫∫∫R3x2fX∣Y(x∣y)fX,Y(x,y)dxdxdyE[(E(X∣Y))2]=∫Rg(y)2fY(y)dy=∫R(E[X∣Y=y])2fY(y)dy=∫R(∫RxfX∣Y(x∣y))2fY(y)dy=∫∫∫R3x2(fX∣Y(x∣y))2fY(y)dxdxdy=∫∫∫R3x2fX∣Y(x∣y)fX,Y(x,y)dxdxdy ∴E[XE(X∣Y)]=E[(E(X∣Y))2] 因此交叉项为0,随机变量
X
X
X 到
Y
Y
Y 生成的空间的距离可以表示为
E
[
X
−
g
(
Y
)
]
2
=
E
[
X
−
E
(
X
∣
Y
)
]
2
+
E
[
E
(
X
∣
Y
)
−
g
(
Y
)
]
2
E[X-g(Y)]^2 = E\big[X-E(X|Y)\big]^2+E\big[E(X|Y)-g(Y)\big]^2
E[X−g(Y)]2=E[X−E(X∣Y)]2+E[E(X∣Y)−g(Y)]2考虑这个距离何时最小。我们知道
E
(
X
∣
Y
)
E(X|Y)
E(X∣Y) 是关于
Y
Y
Y 的函数,而
g
(
⋅
)
g(·)
g(⋅) 是取遍的,因此不妨取
g
(
Y
)
=
E
(
X
∣
Y
)
g(Y)=E(X|Y)
g(Y)=E(X∣Y),此时得到随机变量
X
X
X 到
Y
Y
Y 生成的空间的最短距离为
inf
g
E
[
X
−
g
(
Y
)
]
2
=
E
[
X
−
E
(
X
∣
Y
)
]
2
\inf_g E[X-g(Y)]^2 = E\big[X-E(X|Y)\big]^2
ginfE[X−g(Y)]2=E[X−E(X∣Y)]2 假设随机变量
X
X
X 是空间中的一个向量(向量上每个点代表一个取值),
Y
Y
Y 生成的空间是由一组随机变量
g
(
Y
)
g(Y)
g(Y) 组成的二维平面,如下图所示 显然,最短距离是
X
X
X 到 “
X
X
X 在
Y
Y
Y 生成的空间上的投影” 的距离,也就是说这时平面上满足要求的
g
(
Y
)
g(Y)
g(Y) 就是投影,而我们前面选出了
g
(
Y
)
=
E
(
X
∣
Y
)
g(Y)=E(X|Y)
g(Y)=E(X∣Y),所以条件期望
E
(
X
∣
Y
)
E(X|Y)
E(X∣Y) 的本质就是:
X
X
X 到
Y
Y
Y 生成空间的投影利用这个本质,再来看上面的性质:
X
⊥
⊥
Y
⇒
E
(
X
∣
Y
)
=
E
X
X \perp \!\!\! \perp Y \Rightarrow E(X|Y) = EX
X⊥⊥Y⇒E(X∣Y)=EX。
X
X
X 与
Y
Y
Y 独立意味着
X
X
X 在空间中的向量和
Y
Y
Y 生成的平面垂直,所以投影是一个点,它是一个数,记作 a,有
E
(
X
∣
Y
)
=
a
∴
E
[
E
(
X
∣
Y
)
]
=
E
a
∴
E
X
=
a
∴
E
(
X
∣
Y
)
=
E
X
\begin{aligned} & E(X|Y) = a \\ &\therefore E[E(X|Y)] = Ea \\ &\therefore EX = a\\ &\therefore E(X|Y) = EX \end{aligned}
E(X∣Y)=a∴E[E(X∣Y)]=Ea∴EX=a∴E(X∣Y)=EX
3.4.2 直观推论
利用条件期望的投影本质,可以直观地给出一些等式关系,具体证明省略
空间上元素往自己空间上投影,还是自己
E
(
g
(
Y
)
∣
Y
)
=
g
(
Y
)
E(g(Y)|Y)=g(Y)
E(g(Y)∣Y)=g(Y)连续向多个空间投影,等价于直接向最小的空间投影
E
[
E
(
X
∣
Z
)
∣
Y
,
Z
]
=
E
(
X
∣
Z
)
E
[
E
(
X
∣
Y
,
Z
)
∣
Z
]
=
E
(
X
∣
Z
)
\begin{aligned} &E \big[E(X|Z)|Y,Z \big] = E(X|Z) \\ &E \big[E(X|Y,Z)|Z \big] = E(X|Z) \\ \end{aligned}
E[E(X∣Z)∣Y,Z]=E(X∣Z)E[E(X∣Y,Z)∣Z]=E(X∣Z)
3.4.3 Example
3.5 深入理解条件数学期望
3.5.1 关于 r.v. 的条件数学期望的正统定义
3.1 节中,我们给出的 “关于 r.v. 的条件数学期望的定义” 是:令
g
(
⋅
)
g(·)
g(⋅) 为
R
→
R
R\to R
R→R 的实值函数,在
Y
=
y
Y=y
Y=y 的条件下,
g
(
X
)
g(X)
g(X) 的条件数学期望为:
E
(
g
(
X
)
∣
y
)
=
E
(
g
(
X
)
∣
Y
=
y
)
=
∫
R
g
(
x
)
d
F
X
∣
Y
(
x
∣
y
)
\begin{aligned} E(g(X)|y) &= E(g(X)|Y=y) \\ &=\int_{\mathbb{R}}g(x)dF_{X|Y}(x|y) \end{aligned}
E(g(X)∣y)=E(g(X)∣Y=y)=∫Rg(x)dFX∣Y(x∣y) 这种定义通常是工科教材里的定义,它能告诉我们数学期望如何计算,但是并没有触及本质。这种定义方法把
Y
=
y
Y=y
Y=y 看做一个事件,但事实上,对于连续型随机变量,不能把
Y
=
y
Y=y
Y=y 当作事件处理。3.1 节中已经说明过这个问题
为了深入理解其中原由,下面给出数学专业中对于 “关于 r.v. 的条件数学期望的定义”:给定概率空间
(
Ω
,
F
,
P
)
(\Omega,\mathscr{F},P)
(Ω,F,P),对于 r.v.s X,Y,Z,若
Z
Z
Z 为
Y
Y
Y 的函数
∀
A
∈
B
(
R
)
\forall A\in \mathscr{B}(\mathbb{R})
∀A∈B(R)(就是实数集上任意集合
A
A
A),有
E
X
I
A
(
Y
)
=
E
Z
I
A
(
Y
)
EXI_A(Y) = EZI_A(Y)
EXIA(Y)=EZIA(Y) 则称
Z
Z
Z 为
X
X
X 关于
Y
Y
Y 的条件数学期望,即
Z
=
E
(
X
∣
Y
)
Z = E(X|Y)
Z=E(X∣Y),
注:
I
A
(
Y
)
(
w
)
=
I
Y
−
1
(
A
)
(
w
)
I_A(Y)(w) = I_{Y^{-1}(A)}(w)
IA(Y)(w)=IY−1(A)(w) 是一个示性随机变量,即
I
A
(
Y
)
(
w
)
=
I
Y
−
1
(
A
)
(
w
)
=
{
1
w
∈
A
0
w
∉
A
I_A(Y)(w) = I_{Y^{-1}(A)}(w) = \left\{ \begin{aligned} &1 && w \in A \\ &0 & &w \notin A \end{aligned} \right.
IA(Y)(w)=IY−1(A)(w)={10w∈Aw∈/A 其中
Y
−
1
(
A
)
=
{
w
:
Y
(
w
)
∈
A
}
Y^{-1}(A) = \{w:Y(w)\in A\}
Y−1(A)={w:Y(w)∈A} 称为 A在Y下的原像,指被随机变量
Y
Y
Y 映射到实数集
A
A
A 中的事件组成的集合
3.5.2 再看离散和连续随机变量的条件期望
若
Y
Y
Y 为离散型 r.v.,取值为
{
y
n
:
n
=
1
,
2
,
3...
}
\{y_n: n=1,2,3...\}
{yn:n=1,2,3...},则
X
X
X 关于 r.v.
Y
Y
Y 的条件期望为
E
(
X
∣
Y
)
=
∑
n
=
1
∞
E
[
X
∣
Y
−
1
(
{
y
n
}
)
]
I
{
y
n
}
(
Y
)
E(X|Y) = \sum_{n=1}^\infin E\big[X|Y^{-1}(\{y_n\})\big]I_{\{y_n\}}(Y)
E(X∣Y)=n=1∑∞E[X∣Y−1({yn})]I{yn}(Y) 这里
Y
−
1
(
{
y
n
}
)
Y^{-1}(\{y_n\})
Y−1({yn}) 指使得
Y
(
w
)
=
y
n
Y(w) = y_n
Y(w)=yn 的全体事件
w
w
w 的集合;
I
{
y
n
}
(
Y
)
I_{\{y_n\}}(Y)
I{yn}(Y) 指
Y
=
y
n
Y=y_n
Y=yn 时其值为
1
1
1。证明:显然这个是关于
Y
Y
Y 的函数,只需证
E
X
I
A
(
Y
)
=
E
E
(
X
∣
Y
)
I
A
(
Y
)
EXI_A(Y) = EE(X|Y)I_A(Y)
EXIA(Y)=EE(X∣Y)IA(Y) 不妨取一个单点集作为
A
A
A,即
A
=
y
m
A={y_m}
A=ym,有 那么,对于任意
Y
=
y
n
Y=y_n
Y=yn,有
I
{
y
n
}
(
Y
)
=
1
I_{\{y_n\}}(Y) = 1
I{yn}(Y)=1,
I
{
y
i
≠
n
}
(
Y
)
=
0
I_{\{y_{i\neq n}\}}(Y) = 0
I{yi=n}(Y)=0,此时
E
(
X
∣
y
n
)
=
E
(
X
∣
Y
)
Y
=
y
n
=
E
[
X
∣
Y
−
1
(
{
y
n
}
)
]
:
=
E
[
X
∣
Y
=
y
n
]
E(X|y_n) = E(X|Y)_{Y=y_n} = E\big[X|Y^{-1}(\{y_n\})\big] := E\big[X|Y=y_n\big]
E(X∣yn)=E(X∣Y)Y=yn=E[X∣Y−1({yn})]:=E[X∣Y=yn] 可见,离散情况下
Y
=
y
n
Y=y_n
Y=yn 代表的是事件集合
Y
−
1
(
{
y
n
}
)
Y^{-1}(\{y_n\})
Y−1({yn}),它确实是一个事件 若
(
X
,
Y
)
(X,Y)
(X,Y) 为二维连续型 r.v.,联合概率密度为
f
(
x
,
y
)
f(x,y)
f(x,y),则
X
X
X 关于 r.v.
Y
Y
Y 的条件期望为
E
(
X
∣
Y
)
Y
=
y
=
g
(
y
)
=
∫
R
x
f
X
∣
Y
(
x
∣
y
)
d
x
E(X|Y)_{Y=y} = g(y) = \int_{\mathbb{R}}xf_{X|Y}(x|y)dx
E(X∣Y)Y=y=g(y)=∫RxfX∣Y(x∣y)dx证明 可见,有
E
(
X
∣
y
)
=
E
(
X
∣
Y
)
Y
=
y
=
g
(
y
)
:
=
E
(
X
∣
Y
=
y
)
E(X|y) = E(X|Y)_{Y=y}= g(y) := E(X|Y=y)
E(X∣y)=E(X∣Y)Y=y=g(y):=E(X∣Y=y) 这里是利用期望的本质定义,直接积分算出了
g
(
Y
)
=
E
(
X
∣
Y
)
g(Y)=E(X|Y)
g(Y)=E(X∣Y),然后再把
Y
Y
Y 替换为
y
y
y,因此
Y
=
y
Y=y
Y=y 只是一个记号,并非事件