登录 | 注册 | 忘记密码 | 设为首页 | 加入收藏凤凰教育网
关闭用户登录
  •  
  • 概率论与数理统计辅导资料
  • 作者:王晓谦 来源:南京师范大学 时间:2009-9-2 9:56:16 阅读次 【
  •  

     

    引言

    大家都是数学老师,都愿意认为数学很重要。现代社会对数学的需要也在不断增加。数学自身不仅是一门科学,是研究空间形式和数量关系的科学,是刻画自然规律和社会规律的科学语言和有效工具。而且在自然科学,技术科学,经济科学,社会科学的应用不断深入。当前与计算机的结合,更使数学有了广阔的应用领域。

     

    概率和统计是不同于其他数学分支的思维方式,而二者之间又有密切的关系。我们在教学实践中要体会概率和统计思想与其他数学思想的不同,但也必须注意到它们与其他数学分支之间的密切关系。要培养学生利用概率、统计的思想思考、处理问题的能力

     

    要想讲好统计,一定要对概率有正确的认识。同时概率也是要中学教材中的必修内容。所以,我们就从概率开始说起。

    第一部分 概率

    概率这一部分的内容有一条主线贯穿始终:

    随机现象——随机试验——随机事件——概率——概率的计算与基本性质——应用

    其中每一个环节都很重要,要理解基本概念。

    第一节 随机事件及其概率

    A、 随机现象与随机事件

    在一定条件下,一定会出现或不出现的现象,叫确定性现象。

    在一定条件下,可能会出现,也可能不会出现的现象,叫随机现象。

    我们不可能遇到除此之外的其他现象了!概率论就是研究随机现象的数学分支。

     

    研究随机现象第一步:定义事件

    考虑一种随机现象,那是在一定条件下的现象,条件要搞清楚。例如,考虑明天是否下雨,那要讲清楚,考虑的是哪个地方,什么时段是否下雨。否则无法研究。我们必须把要研究的随机现象确定下来,才能对它进行研究。所以,我们要首先指出:在给定条件下,可能发生这样的结果,也可能发生那样的结果,这就是随机现象。

    给定条件实现以后,就会出现一个结果,我们把这叫做一次试验或一次观测

    随机现象的特点是,我们知道所有可能的结果有哪些,但是在条件没有实现之前,无法判断会出现哪个结果。

    我们把在给定条件实现之后,可以判断是否发生的结果叫做随机事件,用大些英文字母表示。例如,研究某个射击运动员的射击水平。在正常条件下,他射出一发子弹,落点会是随机的,都有哪些随机事件呢?无穷多个随机事件:

    A:十环   B:九环,……,E:没有脱靶,F:脱靶,……,等等等等,这些都是可能发生的结果,都是随机事件,只要实现一次条件,即在正常条件下,他射出一发子弹,哪个事件发生,哪个没有发生,一目了然。

    在给定条件下永远不会发生的事件叫做不可能事件,用字母Φ表示。例如上面例子里,“既没有脱靶,也没有上靶”这个事件就是不可能事件。

    我们把在给定条件下必然会发生的事件叫做必然事件,用字母Ω表示。例如上面例子里,“脱靶或没有脱靶”就是一个必然事件。

     

    把不可能事件和必然事件都看作事件,就好像把空集和全集都作为集合一样。事实上我们把它们作为特殊的随机事件看待。所以今后说到事件,就是指随机事件或其特例。

     

    B、 事件的概率

    事件的概率就是刻画该事件在一次试验中发生的可能性大小的数量指标。设A是一个事件,用P(A)表示这个事件的概率。(客观?主观?频率?Bayes?)

    不管什么观点下的概率,都要满足下面的基本性质:对于任意事件A,

    虽然这是很简单的,但是如果不强调,就可能在关键时候忘记它的应用。

     

    怎样确定一个随机事件的概率?奥地利遗传学家蒙德尔豌豆试验用频率估计概率,用理论计算概率,两相比较,验证了著名的生物遗传基本规律。我们简单地说明一下他的方法。

        蒙德尔1856年开始了他对可食用豌豆的研究,一直持续到1863年,发现了生物遗传基本规律。他选择了七个有变异的豌豆特征:

    子的形状,子的颜色,豆荚的形状,豆荚外衣的颜色,

    未成熟豆荚的颜色,花的位置,豆梗的长度

    孟德尔把绿色豌豆与黄色豌豆杂交,结果下一代都是黄色豌豆。其他六种的每一种都有相似的结果。

    我们特别讨论这杂交黄色豌豆。孟德尔把杂交黄色豌豆作为第一子代F1,培育出第二子代F2。在第二子代中豌豆会是什么颜色的呢?用G代表绿色,Y代表黄色。第一子代F1可表示为YG。这样的豌豆自由杂交,在第二子代F2种会出现四种情况:YY,YG,GY,GG。而且每种情况出现的机会均等。YY,YG,GY这三种情况都会对应黄色豌豆,只有GG会对应绿色豌豆,绿色是隐性基因。他预言在F2代中会有75%的黄色豌豆,25%绿色豌豆,两者比例为3:1。试验种植结果大致如此。这就是课本上89页表7-1-1数据的意思。这里用的是频率估计概率的思想。

    为了估计事件A发生的概率,我们在相同条件下进行重复试验,记录试验次数n和事件A发生的次数m,然后用事件A在这n次试验中发生的频率作为事件A发生的概率的估计值

    在实践中这是最常用的估计概率的方法。当然有其自身的缺点。一方面这其中有不确定性,依赖于试验。另一方面,有时候不可行,甚至不可能。比如,要估计明天下雨的概率,你不能重复100个明天,看看有几个明天下雨,这成笑话了。但是很多情况的确是可以这样处理的。

    我们要注意到,有一类事件发生的概率是不需要估计就可以明确求出来的:

    虽然这是显而易见,但是非常重要,就像0与1非常简单,但是在数学里非常重要一样。所以要记住,这是概率的第二个基本性质。

    第二节 古典概型

        有的随机现象,其随机事件发生的概率可以利用一定的数学方法计算出来。古典概型和几何概型就是其中最重要的两类。

        古典概型:试验或观测只有有限多种可能的基本结果,这些结果具有以下特点:

        (1)、这些可能结果有限多个;

        (2)、每次试验,这些结果中必有一个会发生,而且只有一个会发生;

        (3)、每个结果的发生是等可能的。

        我们把满足前两条的结果叫做基本事件。假设共有n个这样的基本事件。如果还满足第三条的话,那么这里每个基本事件的概率就都是。这样的随机现象的概率计算模型就叫做古典概型。如果事件A的发生等价于m个基本事件之一发生,那么事件A发生的概率就是

      .

    第三节 几何概型

    试验或观测有无限多种可能的基本结果,这些结果具有以下特点:

        (1)、这些可能结果有无限多个;

        (2)、每次试验,这些结果中必有一个会发生,而且只有一个会发生;

        (3)、每个结果的发生是等可能的。

    对于这样的问题,我们如果考虑每个基本事件发生的概率,那就没有意思了。例如我们考虑明天早晨的气温,求“气温是5度”的概率,它一定是0。我们更关心的是如“气温在某某范围之内”这样的随机事件发生的概率。

    有时,我们可以把这样的问题抽象成一个几何问题。用一个几何对象中的点来表示每一个可能的结果,点的全体构成一个几何体。每做一次观测,就相当于从该几何体中随机地取一个点。我们关心的随机事件发生与否就转化为取的点是否来之于某特定的子区域。这样的话,概率就可以用子区域的几何度量与总度量的比值来表示。

    例一、方程

    中的系数分别在区间随机取值,那么这个方程有实根的概率是多少?

    解:方程有实根等价于

    我们把放到一起,考虑,那么任取中的两个值作为,可以看作是在平面直角坐标系中矩形区域S中任取一个点,把横坐标作为, 纵坐标作为b。

    要求 ,这等价于要求点必须取在区域A中。所以

    例二、怎样求一个不规则图形的面积?

    做正方形S,随机向图中投点,计算落在A中的点的频率,A的面积的近似值就是该频率与S的面积的乘积。

     

        学生在学习概率论的时候,会有各种自己的想法,我们不能一概否定学生的非标准答案甚至错误的做法。下面就是一个著名的例子。

    例三、 贝特朗奇论

    1887年,法国数学家贝特朗出版了他的《概率论教程》,其中讨论了一系列几何概率的例子。其中一例广为流传,叫做贝特朗奇论:

        在圆内任取一弦,问其长度超过内接等边三角形边长的概率是多少?贝特朗给出了三中求解方法。

        设该圆半径为,则内接等边三角形边长为。记弦的长度为

    (1)、由于弦长只跟它与圆心的距离有关,而与方向无关,因而可假定弦垂直于某直径EF。如图所示,

     

    当且仅当弦AB与圆形的距离小于时,有

    所以所求概率为   

     

    (2)、弦长由其中点唯一确定。当且仅当弦的中点落到半径为的同心圆内时,弦长。所以,如图所示,

    所求概率为

     

    (3)、因为任何弦都交圆与两点,并且具有对称性,所以不妨固定弦的一端A于圆周上,另一端在圆周上任意取。如图,考虑等边三角形ADE,如B落在角A所对应的弧上,则弦长。所以所求概率为

    产生三种不同答案的原因是,问题的条件没有给“任意做弦”这个概念下定义,从而使三个不同问题混为一谈。也就是说,三种解法用了三个不同的随机试验:

    (1)       中将“点M等可能在落区间EF内”作为所有可能结果考虑;

    (2)       中将“弦中点等可能地落在圆内”作为所有可能的结果考虑;

    (3)       中将“随机点B等可能地落在弧上” 作为所有可能的结果考虑。

    只要没有明确提清楚怎样“任意做弦”,就无法说清楚到底哪个答案是对的。

    第四节 互斥事件及其发生的概率

    在一个随机试验中,不能同时发生的两个事件称为互斥事件。称一组事件是互斥的,如果其中任意两个是互斥的。

    设是A,B是两个互斥事件,我们用 A B表示一个新的事件,即“A,B中至少有一件发生”这个事件。设是一组互斥事件,那么

    表示“中至少有一个发生”这个事件。概率的第三个基本性质要求

     

    我想这个性质大家应该可以接受。实际上这是一个公理,在古典概型和几何概型里可以证明。通过这个性质和前面介绍的其他两个性质,我们还可以看到,对任意事件A,

    有一种特殊的互斥事件,叫对立事件。如果两个事件互斥,而且每次试验或观测两个事件中必有一个发生,那么这两个事件就叫做一对对立事件。如果用A表示其中的一个事件,另一个就用来表示。显然,,所以

    只要求出其中的一个,另一个就求出来了。

    例、求500人中至少有一人生日在今天的概率。

    解法一、用A表示“500人中至少有一人生日在今天”,用表示“500人中恰有k人生日在今天”,k=0,1,2,…,n。则不难发现这501个事件互斥,而且

    ,所以

    由于所以

    当然,这个数有多大我们无从知道。

    解法二、显然表示“500人中没有一人在今天过生日”,我们可以求出

    所以

    这个表示比上一个好一点。但是要知道他们是相等的。比较这两个结果你可以发现一个公式

    事实上,

    事实上的确经常会用概率论的方法证明数学公式。

    第五节 独立性概念

     

    设A,B是两个随机事件,如果事件A是否发生不会影响事件B是否发生,反之亦然,那么就说事件A,B相互独立。我们定义一个新的事件:称“事件A与B同时发生”这个事件为事件A与事件B的积事件,记作AB。类似地,用表示一个新事件,该事件的发生等价与这n个事件同时发生。例如:表示第k次投掷硬币出现正面,k=1,2,……,那么就表示连续投掷硬币n次都出现正面这个随机事件。

    称事件A,B相互独立,如果

    一般地,称一组事件相互独立,如果其中任意有限个同时发生的概率等于它们每一个发生的概率的乘积。

    所以,如果知道事件相互独立,那么事件同时发生的概率就等于每一个发生的概率的积。

    例、求500人中至少有一人生日在今天的概率。

        方法三、用表示第k个人在今天过生日,k=1,2,……,500。则我们一般认为这500个事件相互独立。显然

    。不难理解也是相互独立的一组事件,而且

    所以,

    独立事件的研究中有一个重要的例子,应该掌握。那就是二项概率公式。

        连续投掷一枚硬币n次,计算其中恰好出现k次正面的概率,。这个问题有如下两点要注意

       (1).每次试验(或观测)只有两种可能的结果,其一记为A,另一个就是。且每次A发生的概率都相同,记为

       (2).每次试验(或观测)结果不受其它试验(或观测)结果的影响。即各次试验或观测相互独立。

    这种随机试验或观测我们叫做独立试验序列。在研究独立试验序列时,一个基本问题就是,n次试验中事件A恰好发生k次的概率是多少?这个问题的答案就是二项概率公式:

    这是一个非常有用的公式。

    例、求500人中至少有一人生日在今天的概率。

        方法四、每个人在今天过生日的概率都是,各人是否在今天过生日相互独立。所以500人中恰有k人在今天过生日的概率为

    特别地,所以

    再看一个有趣的例子。某车间有十台机床,彼此独立工作。据统计每台机床每小时有12分钟在工作,工作时需8千瓦的电力。供电部门供多少电给该车间合适呢?

      用A表示机床在工作,则.

    该车间恰好有k台机床在同时工作的概率为

    我们把恰好有0,1,2,……,10台机床在同时工作的概率都计算出来,列在下表里:

    k

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    0.1074

    0.2684

    0.3020

    0.2013

    0.0881

    0.0264

    0.0055

    0.0008

    0.0001

    0

    0

    从表中数据可以看出,

    所以,供给千瓦电力就可以保证有0.9936的概率不会误事。完全没有必要供给80千瓦的电力。

    第五节 随机变量简介

    严格说来,随机变量是这样的一种“函数”,它把随机试验的每一个基本结果对应成一个实数。例如,掷一枚硬币,有两个基本结果,正面和反面。我们取X是这样的一种对应法则:

    如果掷出正面,则X=1,如果掷出反面,则X=-1.

    我们说这里的X就是一个随机变量,它取-1和1两个值,到底取哪个,在实验没有结束之前不能确定。所以我们说它的取值是随机的。我们关心的是随机变量的取值落在某个范围里的概率。

        假设两个人掷硬币赌博,掷出正面,甲赢得一元钱,否则乙赢得一元。我们常说,用X表示甲赢得的钱数,那么X是一个随机变量。实际上这里的X就是上面定义的X。从本质上说,上面的定义是最准确的。

        今后我们说X是一个随机变量,往往忽略其真正的定义过程。例如,投掷一个硬币100次,用X表示其中出现的正面次数,那么X是一个随机变量。X所有可能的取值是0,1,2,……,100,且

    所有可能取值的概率总和必为1。对于随机变量,我们常常会求它的取值的平均值,还要考虑它的取值的分散程度。

    例如,X表示一个射击运动员命中的环数,则它是一个随机变量。假设我们已经知道X取每一个值的概率,如下表所示:

      

    X

    5

    6

    7

    8

    9

    10

    概率

    0.05

    0.05

    0.2

    0.3

    0.2

    0.2

     

    那么这个运动员的水平该怎样评价呢?我们计算一下他打一枪平均来说可能的环数:

    E(X)=

    这个数叫随机变量X的数学期望。

        如果有两个运动员,那么数学期望大的那个运动员平均来说水品比较高。但是如果两个运动员对应的数学期望相同该怎么比较呢?

       我们还要考虑随机变量取值的离散程度。相对于数学期望,随机变量的取值有时偏大,有时偏小,那么平均偏差该怎样计算呢?我们不能直接把这些偏差做平均,因为有正有负,会相互抵消。我们用最小二乘思想,先把这些偏差做平方,然后再平均。考虑到每一个偏差出现的可能性实际上就是原先的取值对应的概率,所以也要用象求数学期望那样的方法来求偏差平方的平均值。例如,上面的X,

    X

    5

    6

    7

    8

    9

    10

    X-E(X)

    -3.15

    -2.15

    -1.15

    -0.15

    0.85

    1.85

    (X-E(X))2

    9.9225

    4.6225

    1.3225

    0.0225

    0.7225

    3.4225

    概率

    0.05

    0.05

    0.2

    0.3

    0.2

    0.2

    由上表可见,偏差平方的平均值为

    这就是方差。一个随机变量,它的方差越小,取值的分散程度越小。

     

    例 据气象预报,某地区下月有小洪水的概率为0.25,有大洪水的概率为0.01。设工地上有一台大型设备,为保护设备,有以下三种方案:

    1、运走设备,需花费3800元;

    2、建一保护墙,需花费2000元。但无法抵御大洪水,大洪水来临的话,设备受损,损失60000元;

    3、  不采取任何措施,祈祷不发生洪水。大洪水来临损失60000元,小洪水来临损失

    10000元。

    试比较哪种方案好。

    解:分别用X,Y,Z表示三种方案下可能带来的费用,则都是随机变量。我们把各个随机变量的分布列在下表里:

    概率

    0.74(无洪水)

    0.25(小洪水)

    0.01(大洪水)

    X

    3800

    3800

    3800

    Y

    2000

    2000

    62000

    Z

    0

    10000

    60000

    则E(X)=3800   E(Y)=2600   E(Z)=3100  平均来说,方案二比较好。

    第二部分 统计

    实际上统计在我们国家有两种意义:社会统计, 数理统计。我们要研究的是数理统计。

     

    引言

     

    研究对象——总体  由全体成员构成。

    你要研究什么?

    例如:1、某地区高中学生的身高发育情况  具体总体

              2、袁隆平新水稻品种的亩产量      抽象总体

    3、某班学生的数学学习成绩        抽象总体

    4、某个学生的数学学习成绩

    5、姚明的技术水平(投篮,三分球,命中率,篮板等)

    6、学习成绩与性别的关系

    7、红楼梦前80回与后40回的用字、用词、用句差异

     

    总体总是由一个个的个体组成的,可能包括有限个个体,也可能包括无限个个体。可以是动物,植物,岩石,股票,商品,试验数据,书本,人口等等。但是,我们可以注意到,总体的每个个体都会相联系着一个或几个数字或具体特征。我们感兴趣的也正是这些数字和特征。有时候我们把不同特征用不同的数字表示。

     

    1、当我们要对总体进行研究时,由于种种原因,不可能把每个个体的特征都记录研究

    2、不可能收集到所有数据

    3、可能收集到所有数据,但是要花费大量的财力物力

    4、即使收集到了所有的数据资料,面对大量的杂乱无章的数据,不用科学的方法处理,我们也无法得到想要得到的信息。

    所以,我们必须学会统计,统计正是处理上面遇到的窘境的理想手段:

    1、怎样收集数据资料

    2、怎样对收集到的数据资料进行科学的分析处理

    3、合理解释处理结果

     

    首先我们面对的是一个收集数据的问题。我们要从总体中抽取一部分个体出来,测量其相应的数量指标和特征并记录。这一部分个体放到一起就叫做一个样本。有时我们也把测得的数据全体叫做样本。当然样本中所含个体的数目就叫样本容量。

     

    例如:1、随机抽查某地区100名高中二年级学生测量身高得到的200个数据

              2、将水稻新品种种植在其他条件相同的10块试验田里,收割后测得的10个亩产量数据

     

    样本要有代表性,它应该是总体的一个“雏型”。所以对不同的总体往往要采取不同的抽样方法。注意,我们不能用有“代表性”的部分个体做样本。那叫报喜不报忧,或者是弄虚作假。统计最忌讳弄虚作假。

     

    第一节 抽样方法

    不仅在统计中,只要不是总体中的每个个体都有份,我们都会遇到公平问题。要想使样本具有代表性,那么抽样时,必须要求总体中的每个个体都有同等的机会入选样本。也就是说,样本中的各个数据地位平等。怎样做到这一点呢?

     

    A、简单随机抽样法 从有N个个体的总体中不重复地取出n个个体,n<N,每个个体都有相同的机会被抽到。

     

    抽签法 编号、制签、搅匀、随机抽签k次

     

    省掉制签、搅匀、随机抽签过程,用随机数表

     

    随机数表是一个重要工具。制作随机数表的方法多种多样。现在实际上有各种随机数表可供使用。它是一张由数字0到9构成的数表,可能三个三个地由三位数构成,也可能由四位数构成,这不是本质的。我们可以用某种编程语言产生随机数表。用Excel就可以方便地产生随机数表:

    1、  在单元格C1里输入 =RAND()  产生一个0到1之间的随机数,拖拽C1的填充柄

    就可以产生不同的随机数。65536行,可产生大量随机数。

            输入 =INT(100*RAND())产生0到99之间的整随机数。

        2、随机数发生器

           选择  工具——数据分析——随机数发生器

    也可以用计算器产生随机数,不同的计算器可能会有不同的方法,要参考有关说明书。

    B、系统抽样  分成相同的n组,每组随机抽取一个。

    C、分层抽样  总体由差异明显的几个部分组成,各部分称为层。根据比例在各层进行抽样

    第二节 总体分布的估计

    大家知道概率的意义。那么统计和概率是什么样的一种关系呢?统计的任务就是要搞清楚某些我们感兴趣的事件的概率。例如某地某段时间里高温出现概率;某校高一年级男生的身高在某个范围里的概率。

     

    本质上说,在统计里我们感兴趣的是总体中各个个体的某个或几个数量指标。从总体中任取一个个体,我们不知道其指标会是多少。统计的任务就是希望搞清楚,任取一个个体,其指标会遵循的规律,当然不会是一个确定性的规律,而是一个“统计规律”,就是一个具有概率意义的规律。比如,我们希望搞清楚这个指标落在某个范围里的概率。

     

    大家学过概率论,用概率论的语言说,从总体中任取一个个体,其指标不知道会是多少,就把它作为一个随机变量对待。对总体的研究,就是要达到搞清楚这个随机变量的分布的目的。这就是统计的基本思想。在概率论里,我们研究各种分布。在统计里,我们要利用样本数据确定总体指标随机变量到底应该是什么分布。如果分布完全是已知的,那统计就没有任何意义了。

     

    在概率论里,大家也知道,了解一个随机变量,不一定要完全知道它的分布,有时候只要了解其数字特征就可以了。比如数学期望,方差,中位数等。在统计里也是这样,我们在大多数情况下是要利用样本数据寻求对总体指标的数字特征——比如数学期望,方差,中位数等的估算、刻画,这就是所谓参数问题。如果你非要对总体的分布作全面的研究,那就是非参数问题了。

     

    我们也会遇到多个随机变量的问题。这时候还会讨论它们之间的关系。由于不知道它们的联合分布,所以也是通过样本数据来分析估算的。

     

    所以,要知道我们会遇到的问题:

     

    估计总体分布

    估计总体数字特征

    估计各种关系

     

    怎样估计?给出一个图,一张表,一个值,一个区间,一个结论,来解决关心的问题。

     

    在所有的问题中,归根结底是估计概率的问题,而估计概率最基本的方法就是利用频率。要计算频率就要做实验获取数据。呵呵,抽样就是获取数据的过程,频率就是利用样本来计算的。可以体会到一点概率统计的巧妙了吧。

     

    举一个利用频率的例子。有人认为《静静的顿河》作者不是肖洛霍夫,而是另一位俄国作家Kryukov。我们看下面一张统计数据表:

    著作

    抽样字数

    不同的字

    Marking Time

    (Kryukov)

    1000

    589

    The Way and the Road

    (肖洛霍夫)

    1000

    656

    静静的顿河

    1000

    646

    你觉得《静静的顿河》作者是不是肖洛霍夫?

    由于我们是从样本出发做出的结论,结论势必会有出错的可能。数理统计的结论不同于其他的结论,其精华就在于,数理统计方法在给出结论的同时还会告诉你,这个结论出错的概率有多大。

    先介绍一点总体分布的估计方法。

    频率分布表:这里不存在除以组距的问题,只是告诉人频率的值。也可以画图。

    频率分布直方图与折线图:有除以组距的问题,是密度的近似。

    频数条形图,累计频数条形图。

    频率(分布)直方图与密度曲线,累计频率直方图与分布函数。

    茎叶图

    平均数,众数,中位数

    众数 在一组数据中,出现次数最多的数据,叫做这组数据的众数.

    中位数 将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.

    第三节 总体特征数的估计

    总体分布的特征数有各种各样,我们在概率论里叫它们作数字特征。例如数学期望,方差,中位数,次序统计量,等等。在统计里这些往往都是不知道的。统计的任务之一就是利用样本数据来估计这些数字特征。在这里就是要向学生介绍其中最基本的几种估计量。

    A、平均数及其估计

    平均数在这里指的是总体X平均数,即总体X的均值、数学期望E(X),一般用希腊字母μ表示。怎样用样本值来估计这个数呢?设我们得到的样本为 ,那么我们就用

    来做为μ的估计值,有时记为。这个数叫做样本均值(的计算值),也叫样本平均数(的计算值)。这个公式本身叫做样本均值或样本平均数。所以对上面公式中的记号的理解有双重意义:数值和代号。作为代号,它们都表示随机变量,与抽样的结果有关,不同的情况下会有不同的值。作为具体问题的计算公式,它们又都是具体的抽样结果值。有时候为了区别计算值与公式本身的意义,在作为公式考虑时,我们用大写字母,表示是随机变量,公式叫统计量。具体计算是用小写字母,表示是具体数字。在统计研究中我们正是要讨论这种公式的意义和价值,而不会对具体的计算结果说它的优劣。为什么?再好的公式也会有计算出糟糕结果的时候。例如抽样的时候碰巧样本取得不好,这是有可能的。大家可以想各种方法揭示这里用平均数的道理。书上用最小二乘思想给出了一种解释。还可以向学生提问,你有没有别的公式可以用来估计总体的这个平均数?学生会想出各种办法来的。你甚至可以引导学生比较不同公式的优劣。

    但是在这里大家要记住,样本均值的最大优点有两个:无偏性和最小方差性:

    可以看出样本容量越大,方差与小,估计量越向真实值集中。

    但是平均数不是万能的。有时候平均数并不能真正反映的数据的真实平均程度。例如公司工资平均数问题,要么剔除数据里的异常值,要么分类计算。同时还要考虑数据的分散程度。这就涉及到另一个概念——样本方差。

    关于均值的计算:实算;利用频数表实算;利用频数表中频数和组中值估算;利用频率表实算,利用频率表中频率和组中值估算。用计算器计算。

    B、方差与标准差

    刻划样本取值离散程度的量有很多,其中最简单的要数极差。它可以用来反映总体取值的离散程度。但是方差是刻划总体离散程度最常用的量。总体X的方差是

    我们不知道。那么怎样利用样本来估计它呢?方差描述了总体取值相对于其平均值μ的离散程度。我们要估计方差,就要先算出μ的估计来,然后看看样本值相对于这个估计值的离散程度有多大。所以就用

    作为总体方差的估计值。这就是样本方差。对其开方,就得到样本标准差。

    怎样用这两个统计量解决实际问题呢?比较两个同类总体时,我们要看它们的数学期望是否一致,方差有多大区别。例如,要对一种新的水稻品种和一种老的品种做比较,看看新品种到底好不好,怎样比?

    (1)       我们需要进行抽样,得到样本:

    对每个品种种植试验,例如,新品种种m块试验田,得到m个亩产数据,老品种种n块试验田,得到n个亩产数据。我们就有了两个样本。

    (2)分别计算相应的样本均值和样本方差。样本均值越大越好,样本方差则越小越好。为什么?

    第四节  线性回归方程

    有两个量x, y,x的变化会导致y发生变化。但是,并不是每一个x值唯一地对应一个y值,即使已知x的取值,也无法完全确定y的取值,它有随机性。所以y与x之间不是我们以前学过的函数关系,这种关系我们叫相关关系。

    对于具有相关关系的y和x,我们怎样利用数学知识比较准确地刻画它们之间的关系呢?我们希望能够搞清楚,如果不考虑随机因素,y与x之间的确定性关系是什么?设这个确定性关系可以用函数f(x)表示。那么y与x之间的相关关系应该用下式来刻画:

    .

    这就是回归模型。相应的函数叫回归函数,而把叫回归方程。

    回归分析的基本任务有三个:

    (1)       确定到底有没有这种回归关系?

    (2)       如果有,这个函数是什么样子的?

    (3)       误差项作为随机变量服从什么分布?至少应该估计出它的数学期望和方差。

    目的明确了,该怎么做就有思路了。

    回归方程有什么用?大家考虑考虑,费这么大劲搞它,一定有重要意义!东南大学韦博成教授是我国这方面的权威。

    为了解决以上问题,必须有样本!作n次观测,每次观测一个x值和它相应的y值,依次记为 ,这就是样本。当然怎样取样本,要用一定的抽样方法。在这一章我们假设已经得到了样本,下面解决相应的问题。样本一般用一张表列出。

     

    我们要先考虑选择一个适当的函数,然后看看这个函数是不是合适。在中学课本里,我们选择线性函数,就是取

    的形式。这样的回归分析叫线性回归分析,相应的关系叫线性回归关系。如果y与x之间完全没有任何线性依赖关系,那么给定x对计算y没有任何意义。这时b自然应该是0。所以在线性回归里如果b几乎是0,那么线性回归就没有什么意义了。我们也正是通过数据计算这两个系数的,而且也是通过判断b与0的接近程度来判断y与x之间有没有线性回归关系的。不过要通过严格的数学计算来分析。这是线性回归分析要研究的问题。

    直观上看,有没有线性回归关系可以通过散点图来判断。但这不是严格的数学处理。

    回归系数的计算

    选用怎样的直线最好呢?假如我们选定了一条直线是

    那么如果不考虑随机因素,把x带入这个方程计算出来的应该与观测到的y值越接近越好。如果把样本里的所有x的取值依次带入,就可以计算得到相应的

    好的直线应该使得这里计算出来的值与相应的观测值相差不大。把所有的误差的平方累积起来就是

     

    我们要取这样的,使得达到最小。这就是最小二乘思想。为什么要平方累积?还可以怎样做?别的做法有何优缺点?

    在这里注意哪些数是已知的,哪些数是未知的,用什么方法求出使得达到最小的值。有两个未知数,而且是二次函数。把其中一个看作确定的,可以利用一元二次函数的最小值点找到另一个未知数的取法。这样就找到两个关系。再解二元一次方程组,就可求出a,b的值:

    其中

    不难看出,为使达到最小,只要取

    就可以了。而且这时达到最小值

    这样我们就依赖于数据求出了回归直线中的系数。真正的系数是多少我们并不知道,我们只是利用观测到的数据对系数做出了合理的估计,所以我们把得到的系数记为,而不直接记为

    这个数有什么意义呢?

     

    我们得到的回归直线为

    把样本中的带入到此方程,即可得到一个相应的,此值可以看作是的计算值。

    恰好是

     

    我们把这个数叫做残差平方和。回归直线就是使残差平方和达到最小的那条直线。我们还可以看出,越小,说明直线回归越好。这就部分地解决了我们判断线性回归好不好的问题。利用

    这里还得到一个副产品:

    从而

     

    相关系数

    可见,|r|越接近于1,直线回归越好。事实上,如果没有线性相关关系,那么

    所以如果|r|接近于1,F值就会比较大。但是如果没有线性相关关系,F值较大的可能性很小。所以据此判断有线性相关关系。

    第五节 独立性检验

    在美国有一段时期大家认为在死刑判决中存在种族差异,一位叫Radelet的研究人员对此进行了研究。你知道怎样研究的吗?

    研究总体:美国杀人犯

    问题:用A表示杀人犯是白人,用B表示被判处死刑。那么我们要研究的问题是A,B这两个随机事件是否独立。

    A,B如果独立,那么根据概率论知识知道,

    这些式子用一句话说,那就是,杀人犯是白人黑和判不判死刑没有关系,一视同仁。我们怎样来判断这个言论的对错呢?用统计的方法,我们估计上面涉及到的每一个概率,然后看看估计的结果和上面的等式之间会不会发生冲突。所以,首先要抽样。

        在杀人犯中任取326人,其中白人160名,黑人166名。结果发现:160名白人中有19人被判死刑,141人未判死刑;166名黑人中有17人被判死刑,149人未判死刑。为了便于说明,我们把这些数据总结在如下的表格中:

     

         判决

    种族

    (判死刑)          (未判死刑)

    合计

     (白人)

    (黑人)

    19                  141

     

    17                  149

    160

     

    166

    合     计

         36                  290

        326

                                                                                 

    我们现在把这张表抽象地写成

     

         II

    I

                    

    合计

     

                     

                     

    合     计

                            

    N

     

    怎样利用这张表里的数据来判断A,B的独立性呢?

    我们先列出上面提到的所有概率的估计值:

    中的概率估计:

    中的概率估计:

    中的概率估计:

    中的概率估计:

    如果A,B相互独立,那么下面各数都不应该太大:

     

    我们要把这些数综合起来考虑,看看总和大不大。当然不能直接相加。要“标准化”,求它们的平方和:

    英国统计学家Pearson证明,如果如果A,B相互独立,那么当n趋向于无穷大时,作为统计量的将是一个服从自由度为1的分布随机变量。所以:

    如果A,B相互独立,则当n比较大时,有

    都是小概率事件。在一个样本情况下计算出的值不应该大于这些数。

        所以,如果我们把表里的数据代到公式里求出的大于其中的某个数,我们就有理由做出A,B不相互独立的结论。

        在上面的例子里,可以求出=0.222,小概率事件没有发生。所以我们没有理由做出A,B不相互独立的结论,认为数据不能充分说明在死刑判决中存在种族差异。

        可以把计算公式化简为

    结束

  • 返回顶部】 【关闭】 【打印
关于我们 | 帮助中心 | 友情链接 | 人才招聘 | 联系我们
Copyright © 2009 fhedu.cn Corporation,All Rights Reserved
江苏凤凰数字传媒有限公司 版权所有
网站地址:南京市湖南路1号B座808室 经营许可证编号:苏B2-20100219
Mail:admin@fhedu.cn 最佳分辨率1024X768 苏ICP备10051783号-1
电话:025-83657840