1. 引言
在现实生活中,人们常常会遇到一些涉及随机性的事件,例如掷骰子的点数、购物车中的商品数量等等,这些事件的结果是不可预测的,这种随机现象各种结果的变量就是随机变量。数学上,随机变量表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达,它是概率论与数理统计学中的重要概念之一。要全面了解一个随机变量,不但要知道它取哪些值,而且要知道它取这些值的规律,即要掌握它的概率分布。概率分布可以由分布函数
刻画,表示落在区间
上的概率,能全面地描述了随机变量的统计规律性,但在实际问题中,有时很难求出随机变量的分布函数或者不需要知道随机变量的一切统计特性,而只需要知道随机变量的某些特征。例如在分析某校学生英语四级水平时,只要计算该校的平均成绩和计算该校每位学生的考试成绩与平时成绩的偏离大小,便可以对该校的学生英语四级水平做出比较客观的判断,这种能表示随机变量某些方面特征的数就是随机变量的数字特征。另外,注意到许多重要分布会含1到3个参数,而这些参数与数字特征重合或关系密切,因此只要知道分布的类型,通过数字特征就能完全确定分布函数。由此可见,随机变量的数字特征的研究具有理论上和实际上的重要意义。
2. 数学期望
“期望”在我们日常生活中常指有根据的希望,而在概率论中,数学期望源于历史上一个著名的分赌本问题。
问题:赌技相当的甲、乙两人进行一场赌局,各出赌注50法郎,每局无平局。谁先赢三局,则得全部的100法郎。当甲赢了两局,乙赢了一局时,赌博因故终止。问如何分这100法郎才算公平?
首先大家都明白:每人50法郎对甲不公平;全部给甲对乙不公平。那么比较合理的分法是,按一定的比例甲多分些,乙少分些。所以问题的交点在于按怎样的比例来分。我们考虑两种分法:
1) 甲得100法郎的2/3,乙得100法郎的1/3。这是基于已赌的局数:甲赢了两局,乙只赢了一局。
2) 假设再赌下去,则甲最终所得x为一随机变量,其可能取值可能取值为0或100。再赌两局,此赌局结束,结果一定是下面的情况之一:甲甲、甲乙、乙甲、乙乙(记录名字表示获胜一局)。在这四种情况中,有三种使甲获胜,只有一种情况(乙乙)下乙获胜。因为赌技相当,所以甲获得100法郎的可能性为3/4,获得0法郎的可能性为1/4,则x的分布列为:
所以,甲的“期望”所得应为
,乙得25法郎。这种分法不仅考虑了已赌的局数,还包含了对再赌下去的一种“期望”,它比第一种的分法更合理。
在上面的例子中,我们解决问题的方法就是找到如果继续赌下去,甲可以获得的“平均”钱数。这个“平均”是考虑到了每种回报所出现频率的加权平均。根据概率的定义,当实验次数不断增加时,频率会稳定在概率周围波动。因此我们直接用随机变量x的概率来进行加权平均的计算。
2.1. 离散型随机变量的数学期望
定义1 [1] [2]设离散型随机变量x的分布律为
,
若级数
绝对收敛,则称级数
为x的数学期望,记作
,或ex。
注 定义中数列
中
是随机变量x的取值,不可能要求x按
的顺序逐个去取,当数列
中项的顺序发生变化时,级数
可能收敛到不同的数值,而级数
绝对收敛就能保证无论数列各项的顺序如何变化,级数和是同一个确定的数。随机变量x的数学期望
就是x的加权平均值,代表了x的取值的平均水平。
2.2. 连续型随机变量的数学期望
连续型随机变量取任意一个数的概率都为0,那么对于加权平均值的计算,就不能简单地用取值乘以概率相加了。
设连续型随机变量x的概率密度为
。
1) 将
任意分为n个小区间
,区间长度为
,其中
;
2) 任取
作为x在
上取值的代表,又x在
取值的概率为图4.1中阴影所示小曲边梯形的面积,现用矩形面积
近似代替,则x在
取值与相应概率的积近似等于
;
3) 作和
,则为随机变量x期望值的近似值;
4) 无限细分小区间,令
趋于0,取极限
,若极限存在,则该极限即为连续型随机变量x的加权平均值,也就是数学期望。
看上面四步,恰为定积分定义,当x取遍实数,那么有
。
定义2 [1] [2]设连续型随机变量x的概率密度为
。若广义积分
绝对收敛,则称
为随机变量x的数学期望,记作
,或ex。即
。
2.3. 实际例子
中国体彩推出一种福利彩票,一个号码对应一张彩票,每50万张设一个开奖组,中奖概率及奖金如下:
金额(元) |
0 |
10 |
50 |
500 |
5000 |
50000 |
500000 |
概率p |
0.9 |
0.09 |
0.009 |
0.0009 |
0.00009 |
0.000009 |
0.0000009 |
问:每张彩票售价多少时可以确保体彩中心不会亏损?
分析:要保证不亏损的话,价格不能低于每张彩票平均获得的金额,也就是概率中的数学期望。
。
3. 方差
先看这样一个例子:
对袋装糖的包装机,希望每袋糖的重量都是500 g,实际上不可能,每袋糖的重量是随机变量x。当然要求
,不然或买方吃亏,或卖方吃亏。现在有两台包装机,包装的每袋糖的重量都保证了期望值为500 g,但是一台包装机包装的每袋糖的重量或者重了10 g左右,或者轻了10 g左右;另一台包装机包装的每袋糖或者重了2 g左右,或者轻了2 g左右。比较两台包装机,显而易见,后一台包装机的性能较好,因为尽管二者包装的每袋糖的重量都有波动,然而后者与期望值的偏差程度要小。
我们将如何来构建刻画随机变量取值偏离程度的指标?
再以射击为例进行讨论。有甲、乙两名射手,每次射击命中的环数分别为随机变量
,它们的分布律如下表1、表2所示。
table 1. the probability distribution of the random variable x
表1. 随机变量x的概率分布
x |
8 |
9 |
10 |
p{x = k} |
0.2 |
0.6 |
0.2 |
table 2. the probability distribution of the random variable y
表2. 随机变量y的概率分布
y |
8 |
9 |
10 |
p{y = k} |
0.1 |
0.8 |
0.1 |
求得
。可见从均值的角度分不出谁的射击技术更高,于是通常的想法就是看谁命中的环数比较集中于平均值附近,即命中的环数偏离均值的大小程度。
1) 将随机变量的取值与期望值直接作差的加权平均。如对x计算得到:
。
对y计算也如此。因为出现正负项刚好抵消,这样做不能说明问题。
2) 为克服正负抵消的缺点,采用将随机变量的取值与期望值直接作差的绝对值的加权平均,但这样往往会增加计算的不便。
3) 综合以上两种想法,由于要衡量的是偏离程度,而不是偏离多少,所以想到用随机变量的取值与期望值作“差”的平方的加权平均,则对x,y计算得到
;
。
如此可知,乙的射击技术更高。
定义3 [3] [4]设x是一随机变量,若
存在,则称其为x的方差,记为
,即
。
称
为随机变量x的标准差或均方差,记为
。
注 1) 按此定义,方差是随机变量x的函数
的数学期望,所以得到:若x是一离散型随机变量,其分布律为
,则
;
若x是一连续型随机变量,其概率密度为
,则
。
2) 方差反映了随机变量离数学期望的平均偏离程度。如果随机变量x的期望与方差分别为
,那么对任意的
,事件
发生的概率
应该与有一定的关系。大致来说,如果
越大,那么
也会大一些,把这个直觉严格化,就是著名的切比雪夫不等式。
4. 协方差
对于二维随机变量
,
本身就是一维随机变量,可以定义其数学期望和方差,这在前面已经进行了讨论。同时,由于
也是同一随机实验的结果,一般具有依存关系,而其数学期望和方差都没有反映它们之间的联系。
在变量之间,线性关系是一种既简单又重要的关系,对随机变量来说也是一样。协方差,就是对随机变量之间线性关系强弱给以量的刻画的数字特征。
定义4 [5] [6]设
是二维随机变量。若
存在,则称它为x和y的协方差,记作
,即
。
注 1) “协方差”名称的由来:“协”即“协同”的意思。x的方差是
与
的乘积的期望,现在把一个
换成
,其形式接近方差,又有
两随机变量的参与,由此得出协方差的名称;而且方差是协方差的特例,事实上有,
。
2) 若
是二维离散型随机变量,其联合分布律为
,
,则有
。
若
是二维连续型随机变量,其概率密度为
,则有
。
3) 协方差
是描述x与y线性关系强弱的指标。
事实上,对上面的(3)解释如下:
a) 假若随机变量
所有可能的取值都在一条直线上,那么
也在此直线上。我们以
为原点,再作直角坐标系,则
和
的取值要么同号,要么异号,这样使得
的值的绝对值很大(相对于本身的可能取值,因为没有项被抵消)。此时x与y之间线性关系最强。
b) 假若随机变量
所有可能的取值有的在直线上,有的在此直线附近,那么点
也在此直线上或此直线附近。我们以
为原点,再作直角坐标系,则
和
的取值要么大多数都同号,要么大多数都异号,这样使得
的值的绝对值比较大(相对于本身的可能取值,因为有正负项被抵消,但不多)。此时x与y之间线性关系较强。
c) 假若随机变量
所有可能的取值在xoy平面上分的较散,使得在以
为原点的新直角坐标系中,四个象限中均有存在,则
和
的取值乘积有正、有负,这样使得
的值的绝对值小,而且或有可能接近于0 (相对于本身的可能取值,因为有正负项被抵消的多)。此时x与y之间线性关系弱。
5. 相关系数
在前面讨论的协方差可以刻画随机变量x与y之间线性关系的强弱,同时从中可知也有其不足之处:
1) 协方差
的绝对值越大,x与y之间线性关系就越强,但多大才算大?给不出明确的量的指标;
2) 协方差是有单位的,同一个随机试验用kg作单位与用g作单位计算协方差,其结果在数值上相差106倍,但这时不能说改变了线性关系。
假设我们对随机变量x与y进行标准化,即
,
,
得到随机变量
与
,使得
,
,且
与
没有单位。这样计算出
与
的协方差就不会因单位的改变而改变,而且x与y之间的线性关系也不会因标准化而改变。因此有
定义5 [7] [8]设
为二维随机变量,协方差
存在,且
,
,则称数值
为随机变量x与y的相关系数,记作
,即
。
定理1 [1]-[8]设
,
,
为x与y的相关系数,则
1) 若x与y相互独立,则
;
2)
,即
;
3)
的充分必要条件是x与y以概率1线性相关。即存在常数
使得
。
证略。
注 由此定理及前面对协方差刻画线性关系的讨论可知:相关系数
同样地是反映随机变量x与y之间线性关系强弱的指标,比协方差更方便,所以确切地说,相关系数应该称为线性相关系数。
a)
愈接近1,使得
愈接近取得最大,则x与y之间愈接近线性关系;
b)
时,
取得最大,则x与y之间依概率1线性相关;
c)
愈接近0,
也愈接近0,则x与y之间的线性关系就愈弱;
d)
时,即
,x与y不存在线性关系,则称x与y不相关。由此可知,当x与y相互独立,即什么关系都没有,那当然线性关系也没有,所以x与y不相关;反之,若x与y不相关,仅仅是不存在线性关系,但可能存在其他的非线性关系,得不出x与y相互独立。更确切地说,x与y不相关应该称作线性不相关。
6. 应用
例1. 据统计,一位40岁的健康者,在5年内活着或自杀的概率为p,保险公司开办5年人寿保险,每人保费为a元,若5年内非自杀死亡,公司赔偿b元,b应如何定才能使公司期望获益;若有m人参保,公司可期望获益多少?
解:设
表示公司从第i个参保者身上获得的收益,则
公司期望获益
,即
。
m个人参保,获益
。
例2. 某公司生产的机器无故障工作时间x有密度函数(单位:万小时)
公司每售出一台机器可获利1600元,若机器在售出1.2万小时之内出现故障,则予以更换,这时每台亏损1200元;若在1.2到2万小时之内出现故障,则予以维修,由公司负担维修费400元;若在使用2万小时以上出现故障,则用户自己负责。求该公司售出每台机器的平均获利。
分析:这里涉及到两个随机变量:无故障工作时间x,售出每台机器获得的利润y。所求为ey,x的分布已知,y与x存在一定的函数关系已知。
解决方法:求随机变量函数的数学期望,关键是建立y与x的函数关系。
解:由题意可知
则
例3. 某人有一笔资金,可投入两个项目:房产和商业,其收益都与市场有关。若把未来市场划分为好、中、差三个等级,其发生的概率分别是0.2,0.7和0.1通过调查,该投资者认为投资房产的收益x (万元)和投资商业的收益y(万元)的分布分别为:
x |
11 |
3 |
−3 |
y |
6 |
4 |
−1 |
p |
0.2 |
0.7 |
0.1 |
p |
0.2 |
0.7 |
0.1 |
请问:该投资者如何投资为好?
解:计算可得
,
,
,
,可知投资房产与商业的收益接近,但投资房产的稳定性,也就是风险是投资商业的将近5倍,相比较而言,投资商业为好。
注:如果ex,ey差异较大,可以选择组合投资。
7. 总结
本文从随机变量数字特征的具体意义出发,说明其与生活相通,避免遇到实际问题无从下手。明白了知道数学期望概念,为何还得学习方差;了解协方差,又必须有相关系数。例如,做投资组合优化,就是确定一组投资项目的最优投资比例(或者各项目的最优投资额),在该投资组合的总回报率的方差不超过某个可接受的值的约束下(即在可接受的风险水平下),使得总回报率的期望值最大(即投资回报最大);或者在投资组合的总回报率的期望值不低于某个所要求的值的约束下(即在所要求的投资回报水平下),使得总回报率的方差最小(即投资风险最小)。这里所说的“最优”,可以是指在一定期望投资回报水平下使得风险最小,或者是指在一定风险水平下使得投资回报最大。在20世纪50年代,harry markowitz研究了一定期望投资回报水平下使得方差最小的最优投资比例问题,harrymarkowitz在该问题上取得的研究成果以及关于投资的其他研究成果,使他荣获1991年诺贝尔经济奖。当然,我们本还可以举出一些实例来凸显理解概念的重要性,不过这些在教材中已经得到了体现,也就不再重复。
基金项目
铜仁学院博士科研启动基金项目(trxydh2220);铜市科研[2023]42号。