统计学---知识要点
知识结构
1. 掌握统计学的几个基本概念
(1)总体:所谓总体,是指研究所关注的全部单元组成的集合。 (2)总体单位:即构成总体的每一个单元。
(3)标志:总体单位的特征,分为品质标志和数量标志。品质标志只能用文字表示,数量标志只能用数字表示。
(4)指标:数量标志汇总之后就成为指标。指标只能用数字表示,可相加。(如,我国2009年国民生产总值为3335353亿元)指标分为数量指标和质量指标,数量指标一般用绝对数表示;质量指标一般用相对数或者平均数表示。质量指标一般以倍数、系数、% 结尾且不带单位。
(5)变量:一般可以分为连续变量和离散变量两种。连续变量可分割,可用小数表示,如身高、体重、降雨量、土地面积、金额等;离散变量不可分割,不能用小数表示,如职工人数、设备台数等。 2. 数据类型 P7
(1)数据可以分为定性数据和定量数据。定性数据用文字表示,定量数据用数字表示。
(2)定性数据又可分为定类数据(不能排序)和定序数据(可排序,如满意度数据)
(3)实验数据、观察数据;截面数据、历时数据(略) 3. 抽样方法 P9 (1)简单随机抽样
(2)分层抽样:分层抽样后的数据可以排列大小,如:优秀、一般、差;老年、中年、青年;100-200元、200-300元、300-400元等。
(3)整群抽样:整群抽样一般以当下划分的标准进行,如地域:广东、广西、河南、山东等;如企业性质:国有企业、中外合资、私人企业等 (4)等距抽样(也叫系统抽样) 4. 统计学的研究对象为数据。
知识要点
一、 构建频数分布表
(1) 定性频数分布表 P15-16
(2) 定量频数分布表,理解等距分组与不等距分组 P18-20
(3) 若某组上限与邻组的下限重合,采用“上限不在本组”原则。 二、 组中值
(1) 组中值=(上限+下限)/ 2
(2) 缺上限开口组的组中值=下限+ (相邻组的组距/2)
缺下限开口组的组中值=上限—(相邻组的组距/2) 例题1. 在进行组距式分组时,凡遇到某单位的标志值正好等于相邻两组上下限的数值时,一般是( )
A.将此值归入上限所在组 B.将此值归入下限所在组 C.将此值归入上限或下限所在组均可 D.另行分组 选【B】
例题2. 某连续变量,其末组为“500”以上,又知其邻组的下限为400,则末组的组中值为( )
A.600 B.450 C.500 D.550 选【D】
三、 集中趋势和离散程度 P27
1. 平均数可以用来表示一组数列的集中趋势,包括众数、中位数和均值(算数平均数、调和平均数、几何平均数),其中,众数和中位数是位置平均数。 (1) 所谓众数,是一批数据中出现频数(次数)最多的数,用M O 来表示。 (2) 所谓中位数,是对一批数据进行排序之后,处于中间位置的数值,用Me
来表示。
(3) 数值平均数有算数平均数、调和平均数、几何平均数等,每个数据都参与
计算。
2. 离散程度可以用来表示一组数列偏离平均值的程度。 异众比率、四分位差 四分位差
全距=最大值—最小值
注意:当样本数
平均差:AD=【Σ|x- ---- |】/ n
X
大于36时,
总体标准差σ
可以替代 样本标准差S
注意:全距、平均差、标准差、方差和离散系数统称为标志变异指标。标志变异指标小则数列当中的平均数代表性大;标志变异指标大则数列当中的平均数代表性小。
- -
3. 当某一分布左偏的时候,Mo
课后习题
1. 掌握叶贝斯公式及全概率公式的相关计算 2. 掌握二项式分布及泊松分布的概率计算
1. 假设某种疾病的发病率为0.01。从某市居民中随机抽取样本,直到患某种疾病的患者出现10例为止,计算需要抽取人数为n 人时的概率。 解:C n x P x (1-p )n-x = Cn 10 0.0110 0.99n-10
2. 对某高校毕业生的就业意向进行调查,结果如下表所示。
某高校毕业生就业意向调查表
单位:人
根据上述数据计算以下概率。 (1) P( B I F ) (2) P( E I C ) (3) P(A) (4) P(D) 解:
4. 一个诊所有三名医生,张医生接诊40%的病人,李医生和王医生各接诊
30%的病人。张医生要求他接诊的病人中的15%进行抽血化验,李医生要求他接诊的25%的病人进行抽血化验,王医生则要求她接诊的5%的病人进行抽血化验。从该诊所过去一周的病人中随机抽取一个,该病人做了抽血化验的概率有多大?如果发现他在看病时做了抽血化验,这个病人是由李医生接诊的概率有多大? 解:A={张医生的病人};B={李医生的病人};C={王医生的病人};D={抽血的病人}
(1)P(D)= P(DIA)XP(A) + P(DIB)XP(B) + P(DIC)XP(C)= 40% X15% + 30% X 25% + 30% X 5% = 0.15 (全概率公式)
(2)P ( B I D ) = P (BD) / P(D) = 0.075 / 0.15 = 0.5 (用叶贝斯公式原理)
5. 世界上三大操作系统windows, mac, linux 都有长期以来形成的用户群,但在全球的市场占有率却相差悬殊。权威调查机构net applications 最新监测结果显示,计算机用户中,2%使用mac , 92%使用windows ,6%使用linux 。假定60%的mac 用户感染了某种计算机病毒,80%的windows 用户以及40%的Linux 用户感染了该病毒。现随机抽取一名计算机用户,计算其计算机系统感染该病毒的概率。假定发现该用户的系统感染了该病毒,求其为linux 用户的概率。
解:A={使用windows 的用户};B={使用mac 的用户};C={使用linux 的用户};D={感染病毒的用户}。
(1) P(D)=P(DIA)XP(A) + P(DIB)XP(B) + P(DIC)XP(C)=92% X 80% +2% X 60% + 6% X 40% = 0.772 (全概率公式)
(2)P( CID ) = P(CD)/P(D) = 6% X 40% /0.772=0.031 (叶贝斯公式)
6. 抛一枚硬币10次,计算如下概率 (1)正面一次都没有出现 (2)正面恰好出现了5次 (3)正面至少出现了5次 (1)正面一次都没有出现的可能性为(2)正面恰好出现了5次的可能性为(3)正面至少出现了5次的可能性为
8. 某条高速公路上极少发生汽车碰撞的事故。假定碰撞次数为1.5次每6个
月,服从泊松分布。计算如下概率:
(1)6个月内没有发生碰撞的概率; (2)6个月内恰好发生2次碰撞的概率 (3)6个月最多发生一次碰撞的概率。
9. 假定某银行每月处理存款业务平均出错2笔,假定出错数服从播送分布。如果审查过去一个月内的存款业务,发现出现5笔以上错误的概率是多少? 解:
11. 675.67 , 299.85 12. 0.379 , 4.781 , 0.431 13. 0.004902 , 0.990196 , 0
第四章 参数估计
知识要点
一、点估计(不考计算)
四、掌握以下要点
1. 点估计的优良性判断准则有无偏性、有效性、一致性;
无偏性指所有样本的参数估计值的平均刚好等于相应总体参数的值。P79 有效性指估计出的总体参数不随样本量的变化而变化,或者说变化较小。 一致性指当样本量越大,样本参数越接近总体参数,尽管变化的幅度较小。 2. 区间估计必须具备三个要素:估计值、概率度和抽样误差。
3. 在样本容量的确定中,抽样误差与样本单位数的关系如何?如果抽样误差比例缩小,样本单位数如何变化?(根据公式进行分析)
4. 区间估计的计算,关于两个总体两个方差之比的区间估计。
第四章 练习题
1. 从一个企业随机抽取了36名工人,记录其某天加工的产品数如下(单位:个)
45 47 39 51 57 48 43 42 41 48 49 55 50 42 39 40 46 54 39 36 47 41 39 41 48 55 38 51 47 38 42 55 45 49 54 52 假设工人每日加工的产品数服从正态分布。试求以下问题。
(2)分别以90%、95%和99%的置信度构造全体工人平均日加工产品数的置信区间。 【该题求单个总体方差σ2未知,求均值μ的区间估计,可以用公式(4-13),但样本量已达到36,属于大样本,可以用样本方差代替总体方差,属于总体方差σ2已知的情况,利用公式(4-12)】
(4)分别以90%、95%和99%的置信度构造全体工人中,日加工产品数超过45件的工人所占比例额的置信区间。
【该题求单个总体关于比例P 的区间估计,用公式(4-15)】
(6)分别以90%、95%和99%的置信度构造全体工人日加工产品数的方差的置信区间。 【该题求单个总体关于方差σ2的区间估计,用公式(4-17)】
2. 假设一个矿泉水生产企业想知道一个成年人每天喝几瓶容积为500ml 的矿泉水。其分析人员随机抽取了20个成年人,询问他们一天所喝的矿泉水瓶数(每瓶为500ml )。调查结果如下(单位:瓶):
1 2 2 0 3 3 2 4 2 2 0 1 2 3 5 1 3 1 2 2 假定每个成年人每天喝的矿泉水瓶数服从正态分布。试求以下问题。
(2)分别以90%、95%和99%的置信度构造成年人平均每天所喝矿泉水瓶数的置信区间。
【该题求单个总体关于均值μ的区间估计,由于样本量为20,不属于大样本,所以不能用
22
样本方差代替总体方差σ,属于总体方差σ未知的情况,因此利用公式(4-13)】
(4)分别以90%、95%和99%的置信度构造成年人中,每天喝2瓶及2瓶以上矿泉水的人所占比例的置信区间。
【该题求单个总体关于比例P 的区间估计,用公式(4-15)】
(6)分别以90%、95%和99%的置信度构造成年人每天所喝矿泉水瓶数的方差的置信区间。 【该题求单个总体关于方差σ2的区间估计,利用公式(4-17)】
3. 某超市管理者想了解消费者在该超市的平均购物消费金额。为此,他随机抽取了32笔销售记录,得到如下数据(单元:元):
400 311 288 249 103 116 210 248 325 457 298 107 158 259 225 314 148 257 96 57 242 113 86 62 234 146 308 258 344 57 122 237
根据数据,求消费者在该超市平均购物消费金额的置信度为95%的置信区间。假定购买金额服从正态分布。
【该题求单个总体关于均值μ的区间估计,由于样本量为小样本,因此求出的样本方差不能代替总体方差,属于总体方差σ2未知情况,因此用公式(4-13)】
4. 假设某研究人员想估计北京人在上班途中平均花费的时间。他随机抽取了40人,并调查了每人在上班途中花费的时间,得到如下数据(单位:min ):
37 42 49 21 42 57 69 84 38 36 44 32 27 33 28 35 24 15 29 48 28 29 28 28 25 33 37 20 27 25 18 25 25 27 27 40 25 28 30 52 根据数据,求北京人在上班途中平均花费的时间在95%的置信度下的置信区间。假定上班途中花费的时间服从正态分布。
【 该题求单个总体关于均值μ的区间估计,n=40,属于大样本,求出的样本S 可以代替总体σ,因此属于总体方差σ2已知,利用公式(4-12)】
5. 为了了解人们是否知道低碳经济,某研究人员在某市随机调查了125个14岁以上的人,其中84人回答知道低碳经济这个概念。则该市知道低碳经济概念的人占其14岁以上总人口的比例有多大?试构造该比例置信度为95%的置信区间。
【该题求单个总体关于比例P 的区间估计,利用公式(4-15)】
6. 为了了解家长引导孩子上网的情况,某研究人员对100名家长进行了调查。当问到“正确引导孩子上网方面存在的最大问题”时,回答“不是很懂上网方面的知识”的家长所占比例最高,为32.8%。以95%的置信度对总体中不是很懂上网方面知识的家长所占比例进行区间估计。
【该题求单个总体关于比例P 的置信区间,利用公式(4-15)】
因此不是很懂上网方面知识的家长所占比例在23.6% - 42%之间。
7. 为了了解大学毕业生就业之后的生活状态,某研究者随机调查了25名刚刚工作的大学生,询问他们每月的税后收入,得到如下数据(单位:元):
3000 3200 2500 4500 2500 3200 3500 2400 1800 2650 3500 1500 4050 2500 3800 5000 3000 1900 2000 3300 1800 3600 2500 3200 2900
分别以90%和95%的置信度对所有刚刚工作的大学生的月收入的方差进行区间估计。假定总体收入服从正态分布。
【该题求单个总体关于方差σ2的区间估计,利用公式(4-17)】
8. 一家工厂生产钢筋,规格要求为直径3.5CM 。从一批钢筋中随机抽取15根,测其直径,结果如下(单位:CM ):
3.47 3.49 3.50 3.46 3.51 3.50 3.49 3.54 3.47 3.46 3.51 3.50 3.52 3.45 3.48
根据这些数据,以99%的置信度对这批钢筋直径的总体方差进行区间估计。假设直径服从正态分布。
【该题求单个总体关于方差σ2的区间估计,利用公式(4-17)】
9. 一家饭店为吸引顾客提供一种返券优惠。假设这家饭店想估计一下该优惠活动的效果。一名分析员随机抽取了推出优惠活动前15天来店里就餐的顾客人数以及推出优惠活动后18天的顾客人数,得到如下数据(单位:个):
活动前:221 340 350 439 260 365 402 420 225 364 228 260 303 315 268
活动后:328 257 318 380 256 187 246 286 373 408 447 459 519 482 416 438 540 345
根据上述数据,以90%的置信度估计活动前后该店平均每日顾客人数以及顾客人数方差的差异。假设顾客人数服从正态分布。 【该题有两个问:(1)求活动前后平均每日顾客的差异,属于求两个总体关于均值μ之差,利用公式(4-19);(2)求活动前后顾客人数方差的差异,属于求两个总体关于方差之比 22
σ1/σ2利用公式(4-21)】 (略)
10. 为了比较两个地区居民消费支出的差异,一名研究者在两个地区分别随机抽取了20个三口之家,询问其年消费支出,得到如下数据(单位:万元):
地区1: 1.8 2.3 2.8 3.4 1.6 5.6 2.4 3.5 2.2 1.5 3.3 2.5 3.0 3.1 2.8 1.9 2.1 1.3 3.4 2.9
地区2: 3.2 2.7 2.8 3.8 4.5 5.8 6.4 2.8 3.7 3.8 2.7 4.5 4.9 2.8 3.6 3.8 7.4 5.5 6.2 2.3
根据这些数据,以99%的置信度估计两个地区三口之家平均年消费支出以及消费支出方差的差异。假设消费支出服从正态分布。 【该题同上,(1)求两个总体关于均值μ之差,由于总体σ2未知,利用公式(4-19);(2)求两个总体关于方差之比,利用公式(4-21);】
11. 为了了解大学生的毕业意向,某研究者在某大学的两个学院分别随机抽取了100名本科生进行调查,第一个学院的100名学生中有25名表示将继续在国内攻读硕士学位,第二个学院的100名学生中有38名想继续在国内攻读硕士学位。以95%置信度估计这两个学院的本科生中想继续在国内攻读硕士学位的学生所占比例的差异。 【该题求两个总体关于比例之差,利用公式(4-20)】
12. 为了了解用户购买手机时所关注的因素,某手机厂商的分析人员调查了320名男性和350名女性,其中240名男性非常重视手机的待机时间,而女性中重视该因素的人数则为190人。以95%置信度估计男性用户和女性用户中重视待机时间的人数所占比例的差异。 【该题求两个总体关于比例之差,利用公式(4-20)】 (略)
13. 为了了解金融危机是否给出口企业带来显著的影响,某研究人员在某地区随机抽取了12家企业,询问其在2006年的出口额和在2009年的出口额,数据如表所示(单位:百万美元):
2006年: 3.2 3.8 2.4 5.8 4.7 10.2 4.9 6.8 5.2 12.8 7.2 5.3 2009年: 2.5 1.9 3.2 4.7 5.3 9.8 4.9 7.1 5.5 8.4 5.7 5.8
以95%置信度估计金融危机前后该地区出口企业平均出口额的差异。假定出口额服从正态分布。
【该题求两个总体关于均值差异,而且总体方差σ2未知,利用公式(4-19)】
14. 为了了解人们在端午节时购买粽子的支出,某市场研究人员准备进行一项调查。他希望在对总体中购买粽子的平均支出进行估计时,估计的误差不要超过10元,并且要保证99%
的置信度。假定根据经验,人们购买粽子支出的标准差约为40元。他至少需要抽取多少人进行调查?
【该题为估计总体均值的最小样本容量,利用公式(4-22)】
15. 为了了解人们对网络实名制的支持程度,某网络公司的研究人员准备进行一项调查。他希望在对总体中支持网络实名制的人所占比重进行估计时,估计的误差不要超过3%,并且要保证95%的置信度,他至少需要抽取多少人进行调查?
【在抽样比例未知的情况下,通常设定抽样比例P=0.5,再代入公式(4-23)】
第五章 假设检验
知识要点
掌握以下几点:
1. 熟悉假设检验的第I 类错误和第II 类错误 P104-p105
2. 假设检验包含单侧检验和双侧检验,熟悉如何设置假设,包括原假设H0, 和备择假设H1;“=”要放置在原假设H0.
3. 理解什么叫显著水平,什么叫拒绝域,他们之间的关系。 P102 4. 计算能力:掌握均值的假设检验
第六章 随机变量间统计关联性分析
知识要点
1. 如果一个变量随另一个变量变化,我们就说,这两个变量是有关联的,具有关联关系。 2. 函数y=2x+3, 随着X 的改变Y 也发生改变,那么引起变化的X 称为自变量,导致变化的Y 称为因变量。
3. 关联关系中的自变量和因变量是可以互换位置的,而因果关系不可以互换位置。
4.
5. 定序和定量变量两两组合得以下四种情况:
6. 关于第六章的考试题型,参考课后练习第一题。主要解决两个问题:(1)对列联表格进行白分化;(2)看两个定性变量是否存在关联。 7. 如何构造列联表格:
(表6-4)
(1)先确定自变量与因变量的地位。
(2)将自变量放在横行,将因变量放在列行。
(3)表肚子的每一个数值为具体的自变量与因变量对应的值,记为f ij ,所有f ij 的得值为总数n ,放在右下角。
(4)计算两个合计栏(横行和列行),对后续计算有用。
(表6-5)
从上图可以看到,第一步确定自变量和因变量的地位,自变量为“志愿者参与行为”,放在横行,因变量为“学历”,放在列行。将调查得到的统计量依次填入表肚子,得到下表:
表格(6-5-1)
最后一步,算出两个“合计栏”的得值,与自变量对应的合计栏记为ni, 与因变量对应的合计栏记为nj 。
8. 对列联表格进行百分比化,即将各个单元格的数字全部转化为百分数。得到下图:
(表6-5-2)
9. 看两个定性变量是否有关联(课本126-129页)
(公式(6-2)中的ni 与nj 分别为表格6-5-1中的ni 与nj 。)
(1)做题步骤:
a. 确定自变量和因变量
b. 构建假设H0、H1,通常假设H0为两个变量没有关联;H1为两个变量有关联。 c. 求出各个单元的e ij ,(不算合计栏),(每个f ij 对应一个e ij ) d. 代入公式(6-1)求出e. 求
的值
该部分需要用到公式:
的值,其中α已知,p 、q 分别为列数与行数(不含合计栏)
,则落入拒绝域,拒绝原假设。
f. 比较第4步与第5步,若统计量
(2)我们来尝试计算表(6-5)中两个变量是否具有关联性。
按照步骤,第一步确定自变量和因变量,自变量为志愿者参与行为,因变量为学历。第二步,构建假设。设H0:志愿者行为与学历没有关联;H1:志愿者行为与学历有关联。第三步根据公式6-2求出各个单元格eij,
然后把4个期望频数代入公式(6-1)得
=14.65
再求的值,取α=0.05,p=q=2,则求得=3.841
14.65>3.841,落入拒绝域,拒绝原假设,因此参加志愿者活动与学历有关联。 (注意:设立假设时,原假设为否定式,备择假设为肯定式)
第六章 课后练习
一、
2、
解:设立统计假设如下:
H0: 软件的难易程度与软件的类别无关 Ha: 软件的难易程度与软件的类别有关
检验统计量为 χ2=∑
i =1
3
∑
j =1
4
(e ij -f ij ) 2
e ij
~χ2(6)
卡方值的求解过程如下表所示:
由上表可以看出,所以单元格的期望频数均不低于5,因此可以进行卡方检验。
由上表可知,卡方的值为37.97,在0.05的显著性水平下,临界值为χ(6)=12.59 。由于37.97>12.59 ,因此在0.05的显著性水平下拒绝原假设,即认为软件的难易程度与软件的类别有关。
2
0.05
第七章 回归分析
知识要点
【例】假设有8个企业的产量和生产费用的关系见下图
问:(1)用最小二乘法构建一个回归方程;(2)计算估计标准误差;
解:
第七章 课后练习
1. 下面是两个变量X 和Y 的数据:
X 160 99 132 91 125 108 142 133 138 128 Y 55 36 39 25 47 33 56 46 42 50 根据上述数据解决以下问题。
(1)用最小二乘估计法估计Y 关于X 的回归方程。 (2)计算估计标准误差。
(注意,求出的a 、b 的值不要代错位置)
模拟自测题
一、单项选择题(本大题共10小题,每小题2分,共20分)
1. 某连续变量,其末组为“500以上”,又知其邻组的下限为400,则末组的组中值为( D )。 A. 600 B. 450 C. 500 D. 550
2. 甲、乙两数列的平均数分别为80和70, 它们的标准差为8.8和8.4,则 ( A )。 A. 甲数列平均数的代表性高于乙数列 B. 乙数列平均数的代表性高于甲数列 C. 两数列平均数的代表性相同 D. 两数列平均数的代表性无法比较
3. 在简单随机重复抽样条件下,当抽样平均误差缩小为原来的1/3时,则样本单位数为原来的( C )
A. 2倍 B. 3倍 C. 9倍 D. 无法判断
4. 对学生学习情况进行抽查,将学号按顺序排列,每隔五个学号抽取一个学生访问,这种抽查方式是( C )。
A. 简单随机抽样 B. 类型抽样 C. 等距抽样 D. 整群抽样 5. 在假设检验中, 原假设和备择假设( C ) A . 都有可能成立 B. 都有可能不成立 C . 只有一个成立而且必有一个成立 D. 原假设一定成立,备择假设一定不成立
6. 在其他条件不变的情况下,提高估计的概率保证程度,其估计的精确程度( B )
A 、随之扩大 B、随之缩小 C、保持不变 D、无法确定 7. 根据间隔相等的间断时点数列计算平均发展水平的方法是( D )。 A 、简单算数平均法 B、加权算术平均法 C 、简单几何平均法 D、首尾斩半法
8. 变异指标反映了总体各单位变量值分布的( B )。
A .集中趋势 B. 离散趋势 C. 变动区属 D. 长期趋势 9. 在假设检验中,通常犯一类错误的概率称为( B )。 A. 置信水平 B. 显著性水平 C. 取伪概率 D. 取真概率 10. 以下哪种情况适用t 检验统计量( C )
A. 样本为大样本,且总体方差已知 B. 样本为小样本,且总体方差已知 C. 样本为小样本,且总体方差未知 D. 样本为大样本,且总体方差未知 二、多项选择题(本大题共10小题,每小题2分,共20分) 1. 构成分配数列的两个基本要素是( AB )
A. 组数的多少 B. 各组组距大小 C. 统计分组 D. 各组标志值的大小 E. 各组次数大小 F.分配在各组的单位数 2. 平均数的计算方法有( ABC )。
A. 算术平均数 B. 调和平均数 C. 几何平均数 D. 众数 E. 中位数 3. 影响抽样平均误差的因素有( CDE )
A. 是有限总体还是无限总体 B. 是变量总体还是属性总体 C. 是重复抽样还是不重复抽样 D. 抽样单位数的多少 E. 全及总体标志的变动程度 4. 标准差( CE )
A. 表明总体单位标志值的一般水平 B. 反映总体单位的一般水平 C. 反映总体单位标志值的离散程度 D. 反映总体分布的集中趋势 E. 反映总体分布的离中趋势
5.在各种平均指标中,不受极端值影响的平均指标是( DE ) A. 算数平均数 B.调和平均数 C.几何平均数 D. 中位数 E.众数 6. 下列属于品质标志的是( BCD ) A .职工人数
B .性别 C.企业经济类型
D .文化程度 E. 先进工作者人数
7. 用样本指标估计总体指标时,判断估计的优良标准是( ABC ) A 、无偏性 B、一致性 C、有效性 D、灵活性 E、随机性
8. 当我们根据样本资料对原假设做出接受或拒绝的决定时,可能出现的情况有
( ACDE ) A 、当原假设为真时接受它
B 、当原假设为假时接受它,我们犯了第一类错误 C 、当原假设为真时拒绝它,我们犯了第一类错误 D 、当原假设为假时拒绝它
E 、当原假设为假时接受它,我们犯了第二类错误 9. 编制时期数列,各个指标所属的时间要求( A D ) A 、相等 B、不相等
C 、一般应不相等,但有时也可以相等 D 、一般应相等,但有时也可以不想等
10. 测定长期趋势的方法有( ABC )
A. 时距扩大法 B. 最小二乘法 C. 移动平均法 D. 几何平均法 三、判断题(本大题共10小题,每小题1分,共10分)
1. 数据预处理是在统计数据分组或分类之后所做的必要处理。 ( 错 ) 2. 如果α=0.05,当我们拒绝H0时,我们就有5%的可能犯错误。( 对 )
3. 标志变异指标数值越大,说明总体中各单位标值的变异程度越大,则平均指标的代表性越小。( 对 )
4. 将某班学生按考试成绩分组形成的数列是时点数列。( 错 )
5. 样本单位数的多少与总体单位标志值的变异程度成反比,与抽样极限误差范围的大小成正比。( 错 )
6. 品质标志说明总体单位的属性特征,其标志表现只能用文字表现,所以品质标志不能直接转化为统计指标。( 对 )
7. 很多统计方法的假设前提是随机变量服从正态分布。( 对 )
8. 在抽样推断中,总体指标值是确定的、唯一的,而样本指标值是一个随机变量。( 对 ) 9. 某企业的公司人数、广告费用投入这两个变量,前者是连续变量,后者是离散变量( 错 ) 10. 定基发展速度等于相应各个环比发展速度的连乘积,所以定基增长速度也等于相应各个环比增长速度积。( 错 )
四、计算题(本大题共5题,共50分)
1. 某条高速公路上极少发生汽车碰撞的事故。假定碰撞次数为1.5次每6个月,服从泊松分布。计算6个月内恰好发生2次碰撞的概率。(5分) 【参见相应课后习题】
2. 保险公司从投保人中随机抽取36人,计算得36人的平均年龄为39.5岁,已知投保人平均年龄近似正态分布,标准差为7.2岁,试求全体投保人的平均年龄的置信水平为95%的置信区间。如果其他条件不变,将允许误差缩小一半,应抽取多少名投保人?(10分) (参数估计)
(1) 求单个总体关于均值μ的区间估计,且方差σ2已知,利用公式(4-12)
3. 某教师希望了解两个专业的学生在学习运筹学这门课程方面的差异,他对两个专业的学生在运筹学考试成绩中的方差是否相等感兴趣。该教师从两个专业学生历年运筹学期末考试成绩中分别随机抽取了30个,计算出两个专业的样本标准差分别为15分和22分。根据这些数据,该教师能够得到什么结论?(α=0.05)(10分)(假设检验)
4. 某学校进行一次英语测验,为了了解学生的考试情况,随机抽选部分学生进行调查,结果如下:(10分)
要求:
(1)试以95%的可靠性估计该校学生英语考试的平均成绩的范围。
(2)以同样的可靠性估计该校学生成绩在80分以上的学生所占的比重范围。
要求:
(1) 用最小二乘法求出回归方程; (2) 求估计标准误差
【参照第五章“知识要点”案例】