数理统计复习

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第五章统计量及其分布一、教材说明本章内容包括:总体与样本,样本数据的整理与显示,统计量及其分布,三大抽样分布。本章的基本概念和重要结论是学习数理统计的基础。1、教学目的与教学要求1)掌握数理统计的总体、样本、样本经验分布函数、统计量及常用统计量等基本概念。2)掌握三大分布的定义,并能熟练应用来求随机变量的分布。3)牢记Fisher定理的内容及其三大推论。4)使学生了解数理统计研究问题的方法与概率论研究问题方法的不同。5)了解如何对样本数据进行整理与现实。2、本章重点与难点本章重点是数理统计的基本概念、三大分布的定义、Fisher定理及其推论。难点是Fisher定理结合三大分布来求随机变量的分布。二、教学内容本章共分总体与样本、样本数据的整理与显示、统计量及其分布、三大抽样分布等4节来讲述本章的基本内容。§5.1总体与样本一、总体与样本在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体。对于实际问题,总体中的个体是一些实在的人或物。比如,我们要研究某大学的学生身高情况,则该大学的全体学生构成问题的总体,而每一个学生即是一个个体。事实上,每一个学生有许多特征:性别、年龄、身高、体重等等,而在该问题中,我们关心的只是该校学生的身高如何,对其他的特征暂不考虑。这样,每个学生(个体)所具有的数量指标——身高就是个体,而所有身高全体看成总体。这样,抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现机会多,有的出现机会小,因此用一个概率分布去描述和归纳总体是合适的,从这个意义上说:总体就是一个分布,而其数量指标就是服从这个分布的随机变量。例5.1.1考察某厂的产品质量,将其产品分为合格品和不合格品,并以0记合格品,以1记不格品,若以p表示不合格品率,则各总体可用一个二点分布表示:X01p1-pp不同的p反映了总体间的差异。在有些问题中,我们对每一研究对象可能要观测两个或更多个指标,此时可用多维随机向量及其联合分布来描述总体。这种总体称为多维总体。若总体中的个体数是有限的,此总体称为有限总体;否则称为无限总体。实际中总体中的个体数大多是有限的,当个体数充分大时,将有限总体看作无限总体是一种合理抽象。2二、样本与简单随机样本1、样本为了了解总体的分布,从总体中随机地抽取n个个体,记其指标值为nxxx,,,21,则nxxx,,,21称为总体的一个样本,n称为样本容量或简称为样本量,样本中的个体称为样品。当30n时,称nxxx,,,21为大样本,否则为小样本。首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此样本是随机变量,用大写字母nXXX,,,21表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此样本又是一组数值,此时用小写字母nxxx,,,21表示。简单起见,无论是样本还是其观测值,本书中均用nxxx,,,21表示,从上下文我们能加以区别。每个样本观测值都能测到一个具体的数值,则称该样本为完全样本,若样本观测值没有具体的数值,只有一个范围,则称这样的样本为分组样本。从而知道分组样本与完全样本相比在信息上总有损失,但在实际中,若样本量特别大,用分组样本既简明扼要,又能帮助人们更好地认识总体。2、简单随机样本从总体中抽取样本可有不同的抽法,为了能由样本对总体作出较可靠的推断就希望样本能很好地代表总体。这就需要对抽样方法提出一些要求,最常用的有如下两个要求:1)样本具有随机性:要求每一个个体都有同等机会被选入样本,这便意味着每一样品ix与总体X有相同的分布。2)样本要求有独立性:要求每一样品的取值不影响其它样品的取值,这便意味着nxxx,,,21相互独立。若样本nxxx,,,21是n个相互独立的具有同一分布的随机变量,则称该样本为简单随机样本,简称为样本。注(1)若总体X的分布函数为F(x),则其样本的联合分布函数为)(1inixF(2)若总体X的密度函数为p(x),则其样本的联合密度为)(1inixp(3)若总体X的分布列为)(ixp,则其样本的联合分布列为)(1inixp(4)对有限总体不放回抽样,若总体中有几个个体,抽取样本容量为n,当nN(1.0Nn)时,不放回抽样得到的样本可认为是简单随机样本。例5.1.5设有一批产品共N个,需进行抽样检验以了解其不合格品率p,现从中抽出n个逐一检查它们是否是不合格品,记合格品为0,不合格品为1。则总体为一个二点分布:P(X=1)=p,P(X=0)=1-p。设1,...,nxx为该总体的一个样本,采用不放回抽样得到。这时,3第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品:11)11(12NNpxxP1)01(12NNpxxP但当N很大时,上述两个概率近似都等于p,所以当N很大,而n不大时,不放回抽样得到的样本可近似看成简单随机样本。§5.2样本数据的整理与显示一、经验分布函数1、定义设nxxx,,,21是取自总体分布函数为F(x)的样本,若将样本观测值从小到大进行排列为)()2()1(,,,nxxx,则)()2()1(nxxx为有序样本,如下函数(1)()(1)()0,(),,1,2,,11,nkknxxkFxxxxknnxx当当当称为经验分布函数。例5.2.1某食品厂生产听装饮料,现从生产线上随机抽取5听饮料,称得其净重为:351347355344351,求此样本的经验分布函数。2、经验分布函数的性质01对每一个固定的x,)(xFn是事件“Xx”发生的频率,当n固定时,)(xFn是样本的函数,是一个随机变量,且)()(xFxFPn。02(格里纹科定理)定理5.2.1:设nxxx,,,21是取自总体分布函数为F(x)的样本,)(xFn是经验分布函数,有1)0)()(suplim(xFxFPnxn。注此定理表明,当n相当大时,经验分布函数是总体分布函数的一个良好的近似。二、频数频率分布表样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表,其基本步骤是:1、对样本进行分组:首先确定组数k,作为一般性原则,组数通常在5-20个。对容量较小的样本,通常将其分为5组或6组,容量为100左右的样本可分7到10组,容量在200左右的样本可分9~13组,容量为300左右级以上的样本可分12到20组。2、确定每组组距:每组组距可以相同也可以不同。但实际中常选用长度相同的区间,以d表示组距。3、确定每组组限。44、统计样本数据落入每个区间的个数——频数,并列出其频数频率分布表。具体例子略。三、样本数据的图形显示:常用的样本数据的图形显示主要有直方图和茎叶图,具体例子略。§5.3统计量及其分布一、统计量与抽样分布样本来自总体,含有总体各方面的信息,但这些信息较为分散,有时不能直接利用。为将这些分散的信息集中起来以反映总体的各种特征,需要对样本进行加工,最常用的加工方法是构造样本的函数,为此:定义5.3.1设nxxx,,,21为取自某总体的样本,若样本函数),,(1nxxTT中不含有任何未知参数,则称T为统计量。统计量的分布为抽样分布。按上述定义:设nxxx,,,21为样本,则211,iniinixx都是统计量,当2,未知时,11,xx等都不是统计量。注统计量不依赖于未知参数,但其分布一般是依赖于未知参数的。二、常用的统计量1、样本均值、样本方差、样本k阶矩及k阶中心矩定义设nxxx,,,21是来自某总体的样本。称niixnx11为样本均值niixxnS12*)(12为样本方差2**SS为样本标准差niixxnS122)(11为样本(无偏)方差2SS为样本(无偏)标准差nikikxna11为样本k阶(原点)矩nikikxxnb1)(1为样本k阶中心矩5注(1)niixxnS122)(11=][11122niixnxn(2)在分组样本场合下:若ix为第i组的组中值,if为该i组的个数,k为组数,则kiikkfnnfxfxx111,其中kiiixxfnS122)(11=][11122kiiixnxfn2、次序统计量定义5.3.7设nxxx,,,21是取自总体X的样本,将其从小到大排序得到(1)(2)()nxxx.定义)(iX:不论nxxx,,,21取怎样的一组观测值,)(iX总取()ix为其观测值,称)(iX为第i个次序统计量,从而有)()2()1(nXXX.iniXX11min,ininXX1)(max分别称为样本的最小、最大次序统计量。注样本nxxx,,,21独立同总体分布,但)()2()1(,,,nXXX既不独立又不同分布。三、统计量X与2S的性质定理5.3.10)(1niixx。定理5.3.2数据观察值与均值的偏差平方和最小,即在形如niicx12)(的函数中,niixx12)(最小,其中c为任意给定常数。定理5.3.3设nxxx,,,21是来自某个总体的样本,x为样本均值。1)若总体分布为),(2N,则x的精确分布为)1,(2nN。2)若总体分布未知或不是正态分布,但2,VarXEX,则n较大时的渐近分布为)1,(2nN,记为x.~)1,(2nN。定理5.3.4设总体X具有二阶矩,即2,VarXEX,nxxx,,,21为从该总体中得到的样本,x和2S分别是样本均值与样本方差,则6222,11,VarXESnVarXnXVarEXXE。§5.4三大抽样分布一、2分布(卡方分布)1、定义5.4.1设nXXX,,,21独立同标准正态分布N(0,1),则niiX122的分布称为自由度为n的2分布,记为)(~22n.)(2n的密度函数为:112221()2()2nxnpxxen,x0。1、性质1可加性若)(~),(~22mYnX且X与Y独立,则。)(~2nmYX证明略。2若)(~2nX,则EX=n,VarX=2n。32分布的分位数定义若)(~22n,对给定的,10,称满足1))((212nP的)(21n是自由度为n的2分布的1分位数。注1要会查2分位数。2t—分布、F—分布仍有相应的分位数定义。二、F—分布1、定义设)(~),(~22nYmX,且X与Y独立,则称//XmFYn的分布为自由度为(m,n)的F分布,记为F~F(m,n),m、n分别为分子、分母的自由度。F(m,n)的密度函数可由商的分布来推导,此处略。2、性质(1)若),(~1),,(~mnFFnmFF则。(2)),(1),(1mnFnmF。7三、t—分布1、定义定义5.4.3设随机变量X服从2(0,1),~(),,NYnXY且与独立则称/XtYn的分布为自由度为n的t分布,记为t~t(n)。t(n)分布的密度可由商的分布公式来推导,此处略,但必须注意:注(1)t(n)分布的密度函数为偶函数,从而n1时,Et=0。(2)t(n)分布当n充分大时(n≥30),可用N(0,1)分布近似。2、性质(1)若),1(~),(~2nFtntt则;(2)1()().tntn四、Fisher定理及其推论1、Fisher定理定理5.4.1设nxxx,,,21是来自正态总体),(2N的样本,2sx和分别是样本均值与样本方差,则(1))1,(~2nNx;(2)niinxxxsn12222)1(~)()1(;(3)2sx与独立。注(1)在证明Th5.4.1的过程中有一重要结论即:独立同N(0,1)分布的随机变量经过正交变换后得到的仍是独立同N(0,1)分布的随机变量。(2)证明思路:,,,,,,,,,,212121nnnzzzyyyxxx

1 / 26
下载文档,编辑使用

©2015-2020 m.111doc.com 三一刀客.

备案号:赣ICP备18015867号-1 客服联系 QQ:2149211541

×
保存成功