统计学简答题(final)
1.什么是统计学?为什么统计学可以通过对数据分析达到对事物性质的认识? 答:(1)统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据内在的数量规律性。(2)这是由客观事物本身的特点和统计方法的特性共同决定的。a.从客观事物方面来说,根据辩证法的基本原理,任何客观事物都是必然性与偶然性的对立统一。同样,任何一个数据,也都是必然性与偶然性共同作用的结果,是二者作用的对立统一。b.从统计方法来看,统计学提供了一系列的方法,专门用来收集数据、整理数据、显示数据的特征,进而分析和探索(或推断)出事物总体的数量规律性。
2.解释总体与样本、参数和统计量的含义。 答:总体:所研究的全部个体(元素)的集合。样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量。参数:研究者想要了解的总体的某种特征值,参数通常是一个未知的常数。统计量:根据样本数据计算出来的一个量。由于样本是我们所已经抽出来的,所以统计量总是知道的。
3.解释总体分布、样本分布和抽样分布的含义。 答:(1)总体分布:整体取值的概率分布规律,通常称为总体分布。(2)样本分布:从总体中抽取容量为n的样本,得到n个样本观测值的概率分布,则为样本分布。(3)抽样分布:就是由样本n个观察值计算的统计量的概率分布。
4.简述描述统计学和推断统计学的概念及其联系。 答:(1)描述统计是用图形、表格和概括性的数字对数据进行描述的统计方法;推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。(2)两者间联系:一方面反映了统计发展的前后两个阶段,另一方面也反映了统计方法研究和探索客观事物内在数量规律性的先后两个过程。
5.简述中心极限定理。
答:中心极限定理就是对于一个抽自任意总体(均值为µ,标准差为б),样本容量为n的随机样本。当n充分大时,样本均值 的抽样分布将近似于一个具有均值和标准差的正太分布。
6.解释置信水平、置信区间、显著性水平的含义,它们有什么联系。
答:(1)置信水平:置信区间中包含总体参数真值的次数所占的比率,也称置信系数。(2)置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间。(3)显著性水平:是指当原假设实际上正确时,检验统计量落在拒绝域的概率。联系:置信区间越宽,置信水平越高,显著性水平越低。
7.样本统计量的分布和总体分布的关系是什么? 答:样本统计量包括样本均值、样本比率、样本方差。(1)样本均值总体分布的关系:a无论是重复还是不重复抽样,样本均值的数学期望始终等于总体均值;b在重复抽样条件下,样本均值的方差为总体方差的1/n;在不重复抽样条件下,样本均值的方差为
(2)样本比率与总体分布的关系:a样本比率p的数学期望等于总体比率π;b
在重复条件下,;在不重复条件下,用修正系数加以修正,
(3)样本方差与总体分布的关系:对于来自正态总体的简单随机样本,则比值
的抽样分布服从自由度为(n-1)的x²分布。
8.抽样推断时为什么必须遵循随机原则抽取样本? 答:一般的抽样推断都是建立在概率抽样的基础上,即根据已知的概率来抽取样本单位,也就是说,哪个单位被抽中与否完全是随机的,所以必须遵循随机原则。
9.简述假设检验的一般步骤。
答:1陈述原假设H0和备择假设H1;2从所研究的总体中抽了不起一个随机样本;3确定一个适当的检验统计量,并利用样本数据算出来具体数值;4确定一个适当的显著性水平a,并计算出其临界值,指定拒绝域;5将统计量的值与临界值进行比较,并做出决策:若统计量的值落在拒绝域内,拒绝原假设H0,否则不拒绝原假设H0。
10.简述第Ⅰ类错误和第Ⅱ类错误的概念,它们发生的概率之间存在怎样关系? 答:当原假设为真时拒绝原假设,所犯的错误称为第Ⅰ类错误,又称为弃真错误,犯第Ⅰ类错误的概率通常记为a。当原假设为假时没有拒绝原假设,所犯的错误称为第Ⅱ类错误,又称为取伪错误,犯第Ⅱ类错误的概率通常记为b。 两者的关系:当a增大时,b减小;当b增大时,a减小。
11.简述众数、中位数和均值的特点和应用场合。
答:众数是一种位置代表值,它的应用场合比较有限;中位数具有稳健性,数据值与中位数之差的绝对值之和最小;均值就是算术平均数,是数据集中趋势的最主要测度值。众数最容易计算,但不是永远存在,同时作为集中趋势代表值应用的场合很少;中位数很容易理解、很直观,它不受极端值的影响,这既是它有价值的方面,也是它数据信息利用不够充分的地方;均值是对所有数据平均后计算的一般水平代表值,数据信息提取得最充分。
12. 为什么要计算离散系数?
答:在比较二组数据的差异程度时,由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。
13.方差分析的基本假设有那些?
答:每个总体都应服从正态分布;个各种体方差σ^2必须相同;观测值是独立的
14. 一组数据的分布特征可以从那几个方面进行测定?
答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。
15.简述样本容量与置信水平、总体方差、允许误差的关系。
答:样本容量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需的样本容量也就越大;样本容量与总体方差成正比,总体的差异越大,所要求的样本容量也越大;样本容量与允许误差成反比,可以接受的允许误差越大,所需的样本容量就越小。
16.比较单侧检验和双侧检验的区别。
(1)问题的提法不同,双侧检验研究的是新方法与旧方法是否有差异;单侧检验研究的是新方法明显好于旧方法还是新方法明显不如旧方法。(2) 建立假设的形式不同,双侧检验的假设是H0: u=u0, H1: u ≠u0;单侧检验的假设是H0: u≤u0, H1: u>u0或H0: u>u0, H1: u≤u0 。(3)否定的区域不同,双侧检验的否定区域是IZ I> Z a/2;单侧检验的否定区域是ZZa
17. 如何理解权数的意义?在什么情况下,应用简单算术平均数和加权算术平均数计算的结果是一致的?
答:加权算术平均数中的权数,指的就是标志值出现的次数或各组次数占总次数的比重。在计算平 均数时,由于出现次数多的标志值对平均数的形成影响大些,出现次数少的标志值对平均数的形成影响小 些,因此就把次数称为权数。在分组数列的条件下,当各组标志值出现的次数或各组次数所占比重均相等 时,权数就失去了权衡轻重的作用,这时用加权算术平均数计算的结果与用简单算术平均数的结果相同。
18. 解释置信水平为95%的置信区间的含义。
答:含义:如果用某种方法构造的所有区间中,有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间,称为置信水平为95%的置信区间。
19. 什么是显著性水平?它对于假设检验决策的意义是什么?
答:假设检验中犯第一类错误的概率被称为显著性水平。显著性水平通常是人们事先给出的一个值,用于检验结果的可靠性度量,但确定了显著性水平等于控制了犯第一错误的概率,但犯第二类错误的概率却是不确定的,因此作出“拒绝原假设”的结论,其可靠性是确定的,但作出“不拒绝原假设”的结论,其可靠性是难以控制的
20. 在总量指标的两因素分析中,指数体系如下:
pqpqpq
pqpqpq
pqpq(pq[1**********]0
110011 p0q1)(p0q1p0q0)
以下计算出来的是一组与上述指数体系相对应的销售额、销售价格和销售量的数据。请根据以下数据解释该指数体系的含义。
答: 这表明,报告期与基期相比,销售额增长了30%,即2 160万元,这是由于销售价格提高了8.33%,使销售额增加了600万元和销售量增长了20%,使销售额增加了1 560万元这两个因素共同作用的结果。