应用数理统计学习辅导

第一章  绪论

    数理统计:数理统计是一门对客观不确定现象进行数据搜集、整理、表列和分析的科学.其目的是了解客观情况,探索数据内在结沟及现象之间的规律性。

    描述统计:对搜集的全部数据加以整理来研究这些数据的特征;

推断统汁:建立在样本数据的基础上对总体的特征做出估计和推断。

    数理统计学的发展大致经历了古典统计学,近代统计学和现代统计学三个阶段。

第二章  数据的搜集、整理与描述

    统计表最主要的内容:指标名称与指标数值。

    数据集中趋势的计量

1)均值:算术平均数、加权算术平均数

2)几何平均数

3)中位数

4)众数

5)切尾均值

    数据离散趋势的计量

1)极差:又称全距。极差是数据中最大值与最小值之差

2)四分位差

3)平均差:数据值与其均值之差的绝对值的平均数

4)方差和标准差。方差是数据值与其均值离差平方和的平均数。方差不仅可以向来反映均值代表性的高低,而且也是数据离散趋势的最主要的统计量特征。

5)离散系数。

第三章  概率基础

随机试验:凡是一个行动或过程会导致一系列可能的结果之一,但具体发生哪一个结果是不确定的,这种行动或过程统称为随机试验。

样本空间:随机试验所有可能结果的集合称作样本空间。

随机事件:随机试验的每一个可能的结果称为随机事件。

    必然事件:必然发生的事件称为必然事件

不可能事件:必然不发生的事件称为不可能事件

包含:如果事件A的发生必然导致事件B的发生.则称事件A包含事件B,记作AB

事件的并:两个事件AB中至少有一个发生称为两个事件的并.记作A∪B

事件的交:两个事件AB同时发生称为两个事件的交,记作A∩B

事件的差:事件A发生而事件B不发生称为两个事件的差,记作A-B

对立事件:样本空间与事件A的差称为事件A的逆事件或对立事件、互补事件。记作

互斥事件:事件A与事件B不可能同时发生称为两个事件互不相容或互斥.记AB=Ф。摩根律   

   古典概型:如果某一随机试验的结果(基本事件)有限,而且各个结果出现的可能性相等.则某一事件A的概率为该事件所包含的基本事件数m与样本空间中所包含的基本事件个数n的比值.记作:

   概率的公理化定义

   1)对于任何一个事件A,有0PA)≤1

   2)对于必然事件;对于不可能事件,有

   3)对于两两互斥事件:,有

    概率的加法

    概率的乘法

    独立与互斥:

   1)互斥事件一定是相互依赖(不独立)的,但相互依赖的事件则不一定是互斥的。

   2)不互斥事件可能是独立的。也可能是不独立的.然而独立的事件不可能是互斥的。

    全概率公式:

设为一样本空间,事件为互斥事件,且有PB>0,若样本空间的另一个事件A与上述B个事件同时出现,则有:

    贝叶斯公式

第四章  随机变量及其分布

随机变量可以分为离散型随机变量和连续型随机变量两种。离散型随机变量的可能取值为有限可数个或无限可数个。连续型随机变量的可能取值是某一区间的全部数值。

    离散型随机变量的概率分布特点:

    (1)随机变量的值是可以一一列举的。

    (2),即随机变量取某一特定xi值的概率为非负。

(3),即随叽变量X取各个可能数值xi的概率之和为1。

    离散型随机变量的期望与方差

数学期望:

随机变量的每一个可能值,以其概率作为权数的加权算术平均数,它位于随机变量的重心位置。

方差:

每一个随机变量与数学期望的离差平方之数学期望,以反映随机变量的离散程度。

    离散型随机变量的分布

    1.二项分布

1)贝努里试验的特点:

每一次试验都有两种可能的结果:“成功”或“失败”。

    每次试验其“成功”的概率(设为P)是一样的,相应地“失败”的概率(设为q)也是不变的。因此:p+q=1

    每一次试验相互独立。

    (2)二项分布

若随机变量X服从二项分布b(n,p),则二项分布的均值为np.方差为npq。

2.超几何分布

    没总体的单位数为N.其中具有某种特征的单位数为K,不具有某种特征的单位数为N-k.用不重复抽样的方式从中抽取n个单位,其中具有某种特征的单位数为x.则x服从超几何分布。即

3.泊松分布

泊松分布的密度函数为

    泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。

    泊松分布适合于单位时间内随机事件发生的次数。如某一服务设施在一定时间内到达人数;电话交换台接到呼唤的次数;公共汽车站的候客人数;机器出现的故障数;自然灾害发生的次数等。

泊松分布具有的性质:E(X)=V(X)=λ

    连续型随机变量的概率分布特点:

    (1)随机变量的概率分布无法一一列举,用一数学函数f(x)来表示概率密度函数。

    (2)

(3),即概率密度函数f(x)曲线与X轴之间的面积为1。

    连续型随机变量的期望与方差

数学期望:

方差:

    连续型随机变量的分布

 

    正态分布

X为连续型的随机变量,则其密度函数为:

其中μ和σ为常数,σ>0。则称X服从参数为μ和σ的正态分布。记为X~N(μ,σ2);若x服从标准正态分布.则其密度函数为:

记为X~N(0,1)

 

第五章  统计推断导论

随机抽样的组织方式有:简单随机抽样;系统抽样、分类抽样和整群抽样。

简单随机抽样:在抽取样本时.必须保证每一个可能样本被抽到的概率是相等的,在实际抽选过程中是使总体中每个单位被包括在样本中的可能性相等。简单随机抽样有两种抽取单位的方法:重复抽样和不重复抽样。

    系统抽样:也称为等距抽样或机械抽样.它是从总体中抽取样本时。按照时间或空间的等距间隔抽取。

    分类抽样:先把总体按一定标志划分成许多性质相近的类型或组别.然后在每种类型中抽取单位。

整群抽样:把总体分为许多群.然后在这些群中随机地抽选若干个群作为样本,把它作为总体的一个代表。

当被抽样总体服从正态分布时,样本均值的抽样分布具有下列性质:

    (1)样本均值的分布也是正态分布。

    (2)样本均值的平均数等于总体平均数。

    (3)样本均值的方差等于被抽样总体的方差除以样本容量。

中心极限定理:给出一个具有任意分布形式的总体.其平均值为,方差有限。如从这一总体中抽出容量为n的样本.则当样本容量很大时.由这些样本计算出的抽样分布近似服从平均值为、方差为的正态分布。

在研究样本均值的抽样分布中,一般认为样本容量不小于30,就可以把正态分布作为抽样分布的近似值。

 

无限总体

有限总体

N>>n时

有限总体

抽样平均数的

平均误差=

 

对两个平均值分别为、方差分别为的正态分布总体,从这些总体抽取的容量分别为的两个独立的样本的平均值之差也服从正态分布.且其平均值为,方差为。在两个总体方差已知时,统计量

第六章  参数统计

对总体估计可以有两种类型:点估计和区间估

评价估计量的标准:

(1)无偏性;(2)有效性;(3)一致性;(4)充分性。

    总体均值区间估计的步骤如下:

(1)计算出样本值和确定该统计量的抽样分布

(2)根据研究的目的确定置信水平.即可靠性或把握程度。

(3)按照要求的置信水平查出概率度。

(4)计算抽样标准误。

重复抽样时样本平均数的标准误:

不重夏抽样时样本平均数的标准误:

(5)作出总体平均数的区间估计。

当用区间估计的方法估计未知参数时.区间越大,估计的误差越大,置信水平越高;区间越小.估计的误差越小。置信水平越低。

当从方差已知的正态分布总体中抽样时,其均值在1-α的置信区间为

当从方差未知的正态分布总体中抽样时,其均值在1-α置信水平下的置信区间为

当两个总体的方差已知时,两个总体均值之差在1-α置信水平下的置信区间为

从总体随机抽取一个容量为n的样本,然后计算样本比例p。当np和n(1-p) 皆大于0.5时,p的抽样分布服从:,此时在1-α的置信水平下的置信区间为

为了估计两个总体比例之差,从两个总体中各抽取容量为的样本。当两者都很大,且总体比例不太接近01。两个独立样本的的抽样分布近似服从。此时在1-α的置信水平下两个总体比例之差的区间估计为:

    必要样本容量n与总体方差α2、允许误差Δ、可靠性系数有以下关系:

   (1)总体方差越大.必要的样本容量越大。即必要样本容量n与总体方差成正比。

   (2)必要样本容量n反比例于允许误差Δ2,即在给定的置信水平下.允许误差越大.样本容量就可以越小。

   (3)必要样本容量n与可靠性系数成正比.即要求的可靠程度越高.样本容量就应越大。

第七章  参数假设检验

参数假设检验的步骤:

(1)提出零假设和备择假设。零假设是我们要检验的假设,是在统计分析过程中始终被假定为真实的假设。备择假设是当零假设被否定时就生效的假设。

(2)确定适当的检验统计量

(3)规定显著性水平α。称:

H0为真时拒绝H0为“弃真”错误。习惯上称为α错误;

H0为非真时接受H0为“取伪”错误。习惯上称为β错误。

(4)计算检验统计量的值。

(5)作出统计决策井加以解释。

正态总体、总体方差已知或未知时,总体均值的假设检验。

两个正态分布总体.在已知或未知时均值之差的假设检验。

对正态总体方差的假设检验,适当的检验统计量为:

第八章        方差分析

方差分析是用以检验两个以上总体平均数之间的差异是否显著的一种方法。

方差分析的模型为:

其中表示第i种处理条件下第j个样本的观察值;为总平均数;为第i种处理的效应;为第i种处理第j个单位试验结果的随机误差方差分析。

模型的基本假定:

(1)

(2)

(3) 且相互独立。

    方差分析的实质是提出一项假设。假设所有的来自同一总体,即所有的,然后计算类内方差和类间方差,通过这两个方差的比较,来推断这个假设是否可信。

根据数理统计证明,在来自同一正态总体的情况下,类间均方与类内方之比服从F分布。

方差分析的步骤为:

(1)检验总体是否符合方差分析模型的基本假设;

(2)规定

(3)根据收集数据计算:

总离差平方和:

类间离差平方和:

类内离差平方和:

(4)构造统计量进行检验:

在置信水平1-α下查表求出;若接收H0,否则拒绝H0

样本大小相等的单因素方差分析。

双因素方差分析的模型:

其中,表示研究的总体中第一个因素第i种处理,第二个因素第j种处理的一个具体观察值;为一未知常数,代表该总体的均值;表示A因子中第i种处理的效应;B因子中第j种处理的效应;是除了两种处理的效应以外的剩余因素,代表随机差异。

有交互作用的双因素方差分析模型为:

其中:表示A因子第i种处理,。B因子第j种处理第k个样本的观察值;为一常数;表示A因素的效应;表示B因素的效应;为交互作用:为随机误差。

第九章  回归相关分析

简单线性回归模型为:

其中α和β是未知的回归参数,α是截距.β斜率,