常用统计分析方法
常用统计分析方法
第一章 绪论
目标:
本章的主要内容在于介绍统计学的定义、学科构成及历史沿革。对于掌握一门全新的课程来说,了解学科构成和历史沿革是最基础的工作。
本章重点:
本章的重点在于了解统计学的学科构成,要求学生形成对于统计学科完整框架的认识,在未来的学习中,能够有效地将相关知识置于整个学科框架中进行理解。
讲义内容:
一.统计学的定义
统计是一种具有悠久历史的社会实践活动。可以说,自从有了国家,就有了统计工作。最初的统计活动是为统治者管理国家的需要而进行的搜集资料的工作,涉及到计算国家的人力、物力和财力等活动。今天,统计已经发展成为各行各业开展活动时必不可少的一项基础工作,所有搜集信息和处理信息的活动,都可以归结为统计工作。
古往今来的统计学者对统计学给予了不同的定义。根据美国统计学家David Freedman 等著的《统计学》(魏宗舒等译,中国统计出版社,1997年版)中的定义:统计学是对令人困惑的问题作出数字设想的艺术。
把统计学称为艺术显然有些夸张,但这一定义的目的正在于提示统计工作者,应当创造性地提出和解决统计问题,不应囿于某些条条框框去理解统计这门科学。
案例:
在一个水库中养着许多鱼,管理人员希望了解鱼的大致数量,这就是一个实践中的统计学问题。
由于鱼是不听从指挥,会在各处自由游动的,因此,在进行统计时,必须创造性地提出解决方案。
一种解决方法是先从水库的不同位置一共捕上来1000条鱼,在每条鱼的尾部作上一个标记,应当保证标记不会影响鱼的自由游动。然后,将鱼全部放回水库。几天后,从水库中再捕上来2000条鱼,检查其中尾巴上有标记的鱼的数量。假定在第二次捕上来的2000条鱼中,有20条尾巴上做了标记,则可以推断,水库中鱼的总数大致为
1000/(20/2000)=10万条
上述这个案例在实践中是经常见到的,对于一个统计工作者来说,作出一个10万条鱼的估计是不够的,他还应当对这一估计的精度作出判断。但这种搜集统计数据的方法,更多地是一种艺术,是很难从书本上学到的。在实践工作中,统计的应用方面是十分复杂的,只有将统计理解为一种艺术,创造性地提出新的方法去解决新的问题,才是真正地掌握了统计的精髓。
统计学的研究方法从根本上说,是从数据出发去研究自然和社会经济规律,这一点与其他科学存在着显著的区别。例如经济学,是通过对各种经济主体行为的理论分析,探讨经济规律,而统计学在研究经济现象时,是从结果出发,去探寻其中的规律。
统计学从学科分类上看,可以分为理论统计学和应用统计学两大部分。理论统计学(Theoretical Statistics )是指统计学的基本原理,主要研究统计学的一般理论问题,尤其是各种统计方法的数学理论问题。应用统计学(Applied Statictics )是研究如何应用统计方法去解决实际问题的,应用统计学一般都与特定的领域相联系。例如,统计学在教育领域的应用,称为教育统计学;在经济领域的应用,称为经济统计学;等等。
本门课程主要讲授理论统计学的一些基本概念和方法,又称为统计学原理课程。
二.统计学原理的学科构成
统计学原理是一个复杂的体系,不同的学术机构对于这门学科的构成进行了不同的阐述。
美国数学学会出版的《数学评论》中对统计学的分类:
A .基础;B .充分性和信息;C .决策理论;D .抽样理论和抽样调查;E .分布理论;F .参数推断;G .非参数推断;H .多元分析;I .线性推断;J .试验设计;K .序贯分析;L .随机过程推断;M .工程统计学;N .应用;O .统计表
从非统计专业的学生学习的角度来看,统计学原理可以分为四个大的组成部分:
1.调查与实验设计
调查与实验设计涉及到统计中获得原始数据的各种方法。调查是在社会经济统计中获得原始数据的主要手段。随着市场经济的发展,调查在经济活动中所起的作用越来越大,企业的经营,政府的决策,都离不开来自调查的第一手数据。
在科学研究过程中,获得统计数据的手段还包括实验方法。实验是在研究对象进行一定控制的情况下获得数据的方法。
2.描述统计
描述统计包括整理、显示和分析数据的一系列方法。调查或者实验中所获得的有关事物整体的原始资料,往往是零乱和不系统的,需要经过一系列的统计处理,才能转化为人们可以直接阅读和理解的信息。这种针对事物整体数据的统计处理工作,被称为描述统计。
3.推断统计
在有些情况下,人们获得的统计资料并非事物整体的状况,而是来自事物的一个局部。如果利用局部的数据去推断整体的情况,以及这种推断的有效性和可靠性如何,即是推断统计所要研究的内容。
4.多元统计分析
在统计课程设计中,多元统计分析是一个独立的部分,主要涉及到对多变量情况的研究。例如,描述一个人的能力,需要从科研能力、动手能力、组织能力等多个方面进行综合判断,如果对涉及多个变量的统计问题进行研究,即为多元统计的内容。多元统计根据掌握信息的不同,也可分为多元描述统计和多元推断统计,但基本方法大多需要涉及到矩阵等工具,属于统计学原理中要求较高的部分。
三.统计学科简史
最古老的统计可以上溯到远古时代人们对于土地和产量的测量,但这一时期的统计方法往往是粗陋的,没有形成完整的科学体系。
统计学者比较认同的现代统计学的源头大致包括三个方面。
1.1676年英国经济学家威廉·配弟发表的《政治算术》。在这本书中,配弟用大量的数字分析了英、法、荷等三国的经济实力,开创了利用统计数字进行经济学分析的先河。这一统计学分枝后来发展成了国势学派,今天的国民经济核算体系,就是源于这一学派的理论。
2.1662年英国学者约翰·格朗特发表的《关于死亡表的自然观察与政治观察》。在本书中,格朗特分析了英国伦敦的人口死亡情况,成为最早的人口统计学研究。目前,人口统计学是统计学中最有活力的分枝之一。
3.17世纪法国数学家帕斯卡尔和费尔马创立的古典概率论。在这一时期,两位数学家以通信的方式,讨论了赌博中各种具体情况的概率计算问题,发展了概率论理论。
到19世纪末,古典统计学的框架基本形成,其主要的内容主要是今天描述统计学涉及的内容。
进入20世纪以来,随着大工业生产的发展,质量检验的统计理论迅速形成。1908年,英国酒作坊学徒工戈赛特(Gosset )以“Student”的笔名在《生物统计学》杂志上发表了一篇
论文《平均数的概差》,提出了基于小样本的t 统计量理论,极大地推动了推断统计理论的发展。
20世纪中叶,英国统计学家Ronald Aylmer Fisher(1890-1962)等人分别对F 统计量、极大似然估计、方差分析等理论进行了大量的探讨,从而建立起了推断统计学的庞大的学科体系。
在1920年之前,由样本对总体进行估计的概念,一直是直观和模糊的,1925年,Fisher 在其著名论文《研究人员用的统计方法》中,阐明和扩展了估计的概念,提出了最优估计概念,以及估计的效率和充分性等问题。在长期从事实验设计的过程中,Fisher 还提出了重要的随机化原则,认为这是保证取得无偏估计的有效措施,也是进行可靠的显著性检验的必要基础。 理论界认为,在1920年之前,统计研究属于“资料整理”时期,即描述统计学时期,从Fisher 开始,进行了“分析统计”时期,即推断统计学时期。
四.本门课程的学习要求
学习统计学原理课程,主要应达到三个方面的目的:
1.运用统计思想进行分析的能力。在实践工作中,要善于利用统计的思维方式进行思考,在纷繁复杂的社会实践中,要学会发现数字、分析数字,并使用数字说话。
2.掌握基本的统计方法。要掌握统计工作中涉及到基本统计概念和基本统计计算方法,能够阅读常规的统计报告,了解统计指标的含义。同时,能够自己处理常见的统计问题。
3.锻炼统计计算的能力。在掌握统计方法的基础上,要培养动手计算的能力。其中涉及到运用数学公式和使用计算机进行计算的有关技能。
其中,第一个方面是学习本课程最为重要的目的,为达此目的,在学习过程中,要积极地结合社会实践,分析统计问题。第二个方面是对课程知识的掌握问题,课程中涉及到的统计方法都是最常用的,要牢固掌握。第三个方面则涉及到日常的自我训练,要学会自己运用计算机等工具,处理统计计算问题。
小结:
统计学是对令人困惑的问题作出数字设想的艺术。
对于非专业人员而言,统计学的学科体系分为四个组成部分:
1.调查与实验设计;
2.描述统计;
3.推断统计;
4.多元统计分析。
思考题:
1.如何理解统计学是一种艺术。
2.统计学的学科体系是如何构成的。
排列图
因果图
散布图
直方图
控制图
控制图的重要性
控制图原理
控制图种类及选用
统计质量控制是质量控制的基本方法,执行全面质量管理的基本手段,也是CAQ 系统的基础,这里简要介绍制造企业应用最广的统计质量控制方法。
常用统计分析方法与控制图
获得有效的质量数据之后, 就可以利用各种统计分析方法和控制图对质量数据进行加工处理, 从中提取出有价值的信息成分。
常用统计分析方法
此处介绍的方法是生产现场经常使用, 易于掌握的统计方法, 包括排列图、因果图、散布图、直方图等。
排列图
排列图是找出影响产品质量主要因素的图表工具. 它是由意大利经济学家巴洛特(Pareto) 提出的. 巴洛特发现人类经济领域中" 少数人占有社会上的大部分财富, 而绝大多数人处于贫困状况" 的现象是一种相当普遍的社会现象, 即所谓" 关键的少数与次要的多数" 原理. 朱兰(美国质量管理学家) 把这个原理应用到质量管理中来, 成为在质量管理中发现主要质量问题和确定质量改进方向的有力工具.
1. 排列图的画法
排列图制作可分为5步:
(1)确定分析的对象
排列图一般用来分析产品或零件的废品件数、吨数、损失金额、消耗工时及不合格项数等.
(2)确定问题分类的项目
可按废品项目、缺陷项目、零件项目、不同操作者等进行分类。
(3)收集与整理数据
列表汇总每个项目发生的数量,即频数fi 、项目按发生的数量大小,由大到小排列。最后一项是无法进一步细分或明确划分的项目统一称为“其它”。
(4)计算频数fi 、频率Pi 和累计频率Fi
首先统计频数fi ,然后按(1)、(2)式分别计算频率Pi 和累计频率Fi
(1)
式中,f 为各项目发生频数之和。
(2)
(5)画排列图
排列图由两个纵坐标,一个横坐标,几个顺序排列的矩形和一条累计频率折线组成。如图1所示为一排列图实例。
2. 排列图用途
(1)确定主要因素、有影响因素和次要因素
根据排列图可以确定质量问题的主要因素:累计频率Fi 在0-80%左右的若干因素。是影响产品质量的主要因素,如图中焊缝气孔和夹渣。主要因素个数一般为1-2个,最多不超过3个。
根据排列图可以确定质量问题的有影响因素:累计频率Fi 在80-95%左右的若干因素。它们对产品质量有一定影响,称为有影响因素。
根据排列图可以确定质量问题的次要因素:累计频率Fi 在95-100%左右的若干因素,其对产品质量仅有轻徽影响,称为次要因素。
(2)抓主要因素解决质量问题
将质量影响因素分类之后,重点针对1-2项主要因素进行改进提高,以解决质量问题。实践证明,集中精力将主要因素的影响减少比消灭次要因素更加有效。
(3)检查质量改进措施的效果
采取改进措施后,为了检验其效果,可用排列图来检查。若改进后的排列图中横坐标上因素频数矩形高度有明显降低,则说明确有效果。
因果图
在找出质量问题以后,为分析产生质量问题的原因,以确定因果关系的图表称为因果图。它由质量问题和影响因素两部分组成。图中主干箭头所指的为质量问题,主干上的大枝表示主要原因。中枝、小枝、细枝表示原因的依次展开。
1. 因果图的画法
(1)确定待分析的质量问题,将其写在图右侧的方框内,画出主干,箭头指向右端,见图2(a)
(2)确定该问题中影响质量原因的分类方法。一般对于工序质量问题,常按其影响因素:人(Man)、设备(Machine)、原材料(Material)、方法(Method)、环境(Environment)等进行分类,简称为4M1E 。对应每一类原因画出大枝、箭头方向从左到右斜指向主干,并在箭头尾端写上原因分类项目,见图2(b)。
(3)将各分类项目分别展开,每个大枝上分出若干中枝表示各项目中造成质量问题的一个原因。中枝平行于主干箭头指向大枝。见图2(c)
(4)将中枝进一步展开成小枝。小枝是造成中枝的原因,依次展开,直至细到能采取措施为止。
(5)找出主要原因,画上方框作为质量改进的重点。
2. 因果图的用途
(1)根据质量问题逆向追溯产生原因,由粗到细找出产生质量问题的各个层次、各种各样的原因。以及各原因的传递关系。
(2)因果图可明确原因的影响大小和主次。从而可以作为制定质量改进措施的指导依据。 散布图
在质量问题的原因分析中,常会接触到各个质量因素之间的关系。这些变量之间的关系往往不能进行解析描述,不能由一个(成几个)变量的数值精确地求出另一个变量的值,我们称之为非确定性关系。散布图就是将两个非确定性关系变量的数据对应列出,标记在坐标图上,来观察它们之间的关系的图表。
1. 散布图的画法
(1)收集数据
所要研究的两个变量如果一个为原因,另一个为结果时,则一般取原因变量为自变量,取结果变量为因变量。通过抽样检测得到两个变量的一组数据序列。
(2)在坐标上画点
在直角坐标系中,把上述对应的数据组序列以点的形式一一描出。注意,横轴与纵轴的长度单位选取原则是使两个变量的散布范围大致相等,以便分析两变量之间的相关关系。
2. 散布图的用途
(1)确定两变量(因素)之间的相关性
两变量之间的散布图大致可分下列六种情形,如图3所示。
1) 强正相关。x 增大,y 也随之线性增大。x 与y 之间可用直线y=a+bx(b为正数) 表示。此时,只要控制住x ,y 也随之被控制住了,图3(a)就属这种情况。
2) 弱正相关。图3(b)所示,点分布在一条直线附近,且x 增大,y 基本上随之线性增大,此时除了因素x 外可能还有其它因素影响y 。
3) 无关。图3(c)所示,x 和y 两变量之间没有任何一种明确的趋势关系。说明两因素互不相关。
4) 弱负相关。图3(d)所示,x 增大,y 基本上随之线性减小。此时除x 之外,可能还有其它因素影响y 。
5) 强负相关。图3(e)所示,x 与y 之间可用直线y=a+bx(b为负数) 表示。y 随x 的增大而减小。此时,可以通过控制x 而控制y 的变化。
6) 非线性相关。图3(f)所示,x 、y 之间可用曲线方程进行拟合,根据两变量之间的曲线关系,可以利用x 的控制调整实现对y 的控制。
(2)变量控制。通过分析各变量之间的相互关系。确定出各变量之间的关联性类型及其强弱。当两变量之间的关联性很强时,可以通过对容易控制(操作简单、成本低)的变量的控制达到对难控制(操作复杂、成本高)的变量的间接控制。
(3)可以把质量问题作为因变量,确定各种因素对产品质量的影响程度。当同时分析各种因素对某一质量指标的作用关系时,或某一质量现状的引发因素包含多种因素时,应尽可能将质量数据按照各种可能因素类型进行分层,如:按操作人员分层、按使用设备分层、按工作时间分层、按使用原材料分层、按工艺方法分层或按工作环境分层等等。图4所示为将因素分层之后使原来无关的数据得以进一步细分。从而提示出更准确的内在联系。
直方图
直方图是适用于对大量计量值数据进行整理加工、找出其统计规律。即分析数据分布的形态,以便对其总体分布特征进行推断的方法。主要图形为直角坐标系中若干顺序排列的矩形。各矩形底边相等,为数据区间。矩形的高为数据落入各相应区间的频数。
1. 直方图画法
(1)收集数据。数据个数一般在100个左右,至少不少于50个。理论上讲数据越多越好,但因收集数据需要耗费时间和人力、费用,所以收集的数据有限。
(2)找出最大值L ,最小值S 和极差R 。找出全体数据的最大值L 和最小值S ,计算出极差R=L-S。
(3)确定数据分组数k 及组矩h 。通常分组数k 取4-20。设数据个数为n ,可近似取 。通常取等组距,h=R/k。
(4)确定各组上、下界. 只需确定第一组下界值即可根据组距h 确定出各组的上、下界取值。注意一个原则:应使数据的全体落在第一组的下界值与最后一组(第k 组)的上界值所组成的开区间之内。
(5)累计频率画直方图。累计各组中数据频数fi ,并以组距为底边,fi 为高,画出一系列矩形,得到直方图。见图5所示。
图5 直方图
2. 直方图用途
(1)计算均值和标准差S
均值表示样本数据的“质量中心”,可以按下式计算,
(3)
式中,n 为数据个数。
样本数据的分散或变异程度可用下列样本标准差进行度量:
(4)
(2)从直方图可以直观地看出产品质量特性的分布形态,便于判断工序是否处于统计控制状态,以决定是否采取相应处理措施。
至此为止,我们介绍了质量控制中常用的统计分析方法。这些方法都是现场中经常用到的,实现方便、简单有效的统计质量控制方法。各种方法可以单独使用,也可以综合使用,
如何结合生产实际情况,选择一种合适的方法,达到预期的控制效果,仍需要广大工程技术人员在实践中不断摸索并总结经验。
控制图
现在将介绍过程控制中常用的控制图方法。包括控制图的重要性,控制图原理,控制图种类及选用。
控制图的重要性
控制图是对生产过程或服务过程质量加以测定、记录从而进行控制管理的一种图形方法。图9-6所示为一控制图图例。图上有中心线CL 、上控制界限UCL 和下控制界限LCL ,并有按时间顺序抽取的样本统计量数值的描点序列。
统计过程控制(SPC)作为统计质量控制(SQC)的核心技术受到普遍的重视。目前,工业发达国家都将统计过程控制列为高技术项目,认为SPC 是实现以预测为主的质量控制的有效手段。
控制图所以能获得广泛应用,主要是由于它能起到下列作用:
1. 贯彻预防为主的原则。应用控制图有助于保持过程处于控制状态,从而起到保证质量防患于未然的作用。
2. 改进生产率。应用控制图可以减少废品和返工,从而提高生产率、降低成本和增加生产能力。
3. 防止不必要的过程调整。控制图可用以区分质量的偶然波动与异常波动,从而使操作者减少不必要的过程调整。
4. 提供有关工序能力的信息。控制图可以提供重要的过程参数数据以及它们的时间稳定性,这些对于产品设计和过程设计都是十分重要的。
控制图原理
1. 统计控制状态
任何一个生产过程,不论它是如何精确设计和精心维护,总存在着一定量的固有的或自然的变化。它是由许多偶然因素形成的偶然波动的累积效果。由于这种波动比较小,所以我们认为这时生产过程处于受控状态或称为稳态。
此外,在生产过程中有时也发生由异常因素造成的异常波动。如:由于设备调整不当、人为差错或原材料的缺陷而导致的质量波动。与偶然波动相比这种异常变化要大得多,而且往往表现一定的趋势和规律,此时,我们认为生产过程处于失控状态。
受控状态是生产过程追求的目标,此时,对产品的质量是有把握的。控制图即是用来监测生产过程状态的一种有效工具。
2. 控制图的统计学原理
令W为度量某个质量特性的统计样本。假定W的均值为, 而W的标准差为。于是,中心线、上控制限和下控制限分别为
(5)
(6)
(7)
式中,K为中心线与控制界限之间的用标准差为单位所表示的间隔宽度。
图7说明了控制图的控制原理。对于每一个控制点来讲,只要点子是在控制界限之间,我们就认为过程处于控制状态,不需要任何措施;但如果点子落在控制界限之外,就认为过程失控,必须找出异常因素。采取措施加以消除。
正常情况下点子分布是正态的,落在控制界限之内的概率远大于落在控制界限之外的概率。反之,若点子落在控制界限之外,可能是属于正常情况下的小概率事件发生,也可能是过程异常发生,相对来讲,后者发生的概率要大得多。因此,我们宁可以为后者情况发生,
这正是控制图的统计学原理。
点子落在控制界限之内是否一定处于稳态?点子落在控制界线之外是否一定出现异常?这两个问题的因答都是否定的。
更为科学的判断应根据概率统计方法对过程进行定量分析,精确计算出状态的概率值之后再进行过程状态判断。
以K 取3为例(上、下界限距中心线距离为3倍的标准差) 可计算出各种模式控制图的概率值,如表1所示。
模 式
实 例 情 况
概率水平
有点出界
连续35点中出界点数小于等于1
0.0041
连续100点中出界点数小于等于2
0.0026
集中分层
连续3点中在区间()中的点数大于等于2
0.0053
连续7点中在区间()中的点数大于等于3
0.0024
连续10点中在区间()中的点数大于等于4
0.0006
连续10点集中在区间()中
0.022
连续11点集中在区间()中
0.015
连续12点集中在区间()中
0.0102
链模式
连续出现在中心线一侧的点数大于等于7
0.0153
连续11点中出现在中心线一侧的点数大于等于10
0.0114
连续14点中出现在中心线一侧的点数大于等于12
0.0125
趋势分布
连续上升或下降的点数大于等于7
0.00039
连续上升或下降的点数大于等于5
0.0164
连续上升或下降的点数大于等于4
0.0824
表1各种模式控制图的概率值
可见,根据不同的控制严格性要求应选用概率水平相应的控制图判断模式,如:当控制
严格性要求为1%时,可选用概率水平接近或略低于1%的模式实例作为判断过程异常的准则。各种模式都应选择确定出一个恰当的实例情况作为判稳准则,所谓“恰当的”是指其概率水平在同类模式中最接近控制严格性要求。否则,概率水平过大不能满足质量控制要求;概率水平过小会造成误判次数增多从而降低生产效率、提高生产成本。
控制图种类及选用
控制图根据质量数据的类型可分为:计量值控制图、计件值控制图和计点值控制图。这些控制图各有各的用途,应根据所控制质量指标的情况和数据性质分别加以选择。 数据类型
分布形态
控制图名称
简记
计量值
正态分布
均值-极差控制图
R 控制图
均值-标准差控制图
S 控制图
中位数-极差控制图
-R 控制图
单值-移动极差控制图
RS 控制图
计件值
二项分布
不合格品率控制图
P 控制图
不合格品数控制图
Pn 控制图
计点值
泊松分布
缺陷数控制图
C 控制图
单位缺陷数控制图
u 控制图
表2常用控制图
各控制图用途:
1.-R 控制图。是最常用、最基本的控制图,它用于控制对象为长度、重量、强度、纯度、时间和生产量等计量值的场合。
2.-S 控制图。此图与-R 图相似,只是用标准差图(S图) 代替极差图(R图) 而已。极差计算简便,故R 图得到广泛应用,但当样本大小n>10或12时,应用极差估计总体标准差的效率减低,最好应用S 图代替R 图。
3.-R 控制图. 此图与-R 图也很相似, 只是用中位数图(图)代替均值图(图)。由于中位数的计算比均值简单,所以多用于现场需要把测定数据直接记入控制图进行管理的场合。
4. RS 控制图。多用于下列场合:(1)采用自动化检查和测量对每一个产品都进行检验的场合;(2)取样费时、昂贵的场合;(3)如化工等过程,样品均匀,多抽样也无太大意义的场
合。由于它不像前三种控制图那样能取得较多的信息,所以它判断过程变化的灵敏度也要差一些。
5.P 控制图。用于控制对象为不合格品率或合格品率等计数值质量指标的场合。这里需要注意的是,在根据多种检查项目总起来确定不合格品率的场合,当控制图显示异常后难于找出异常的原因。因此,使用P 图时应选择重要的检查项目作为判断不合格品的依据。
6.Pn 控制图。用于控制对象为不合格品数的场合。设n 为样本大小,P 为不合格品率,则Pn 为不合格品个数,所以取Pn 为不合格品数控制图的简记记号。由于计算不合格品率需要进行除法,比较麻烦。所以在样本大小相同的情况下,用此图比较方便。
7.c 控制图。用于控制一部机器、一个部件、一定的长度、一定的面积或任何一定的单位中所出现的缺陷数目。例如,铸件上的砂眼数,机器设备的故障数等等。
8.u 控制图。当样品的大小变化时应换算成每单位的缺陷数并用u 控制图。