心理测量学重点
一、基本介绍(第一章、第二章)
第一章 心理与教育测量概论
第一节 测量概述
一、测量的定义:依据一定的法则使用量具对事物的特征进行定量描述的过程。
四个方面:
(1)测量的法则——给事物属性分派数字的依据
(2)测量的对象——事物的属性或特征
(3)量具——测量工具
(4)测量的结果——描述事物属性的数字或符号
二、测量的要素(重要)
(1)参照点——绝对零点 相对零点
(2)单位——理想的单位必须符合的两个条件:①有确定的意义;②有相等的价值,即相邻两个单位之间的差别总相等。
三、四种测量水平和测量量表(重要)
类别量表:简单进行分类。次数统计:百分比,X2检验。
等级量表:顺序量表,分等级,除次数统计外,中位数、百分位数、等级相关、肯德尔和谐系数、秩次变差分析。
等距量表:单位等值,但没有绝对零点,可进行加减运算。T 检验、F 检验、积距相关、均数、变差等。
等比量表:最高水平的测量,以上统计方法、几何平均数、相对差异量。
第二节 心理与教育测量的性质
一、心理与教育测量的定义
二、心理与教育测量的理论基础
三、心理与教育测量的水平(重要)心理测量属于哪一种水平的测量,为什么?
心理测量是顺序量表
原因:(1)使用的参照点:心理测量领域的参照点均为相对参照点。
(2)使用的单位:意义不太明确;单位常常不等值
四、心理与教育测验(重要)
心理测验实质是对行为样本客观化标准化的测量.
简述心理测验的基本条件,测验为什么要标准化,怎样保证测验的标准化?
(1)行为样组:被抽取出来的作为直接的测量对象的行为。
(2)标准化:①为什么要进行标准化?有可比性;②怎样保证测验的标准化?测验内容、施测条件、评分规则、测验常模。
(3)难度或应答率:对题目分析的指标。如智力测验的项目的难度,态度测验的项目的应答率。
(4)信度和效度:是否科学的重要指标。
第三节 测验的类型与功能
1. 按测量的对象分类:认知测验(又称能力测验) ;智力测验,能力倾向测验(又称性向测验) ,教育测验(又称成就测验) ;人格测验。
2. 按测量的方式分类:个别测验 ,团体测验
团体测验可个别施测,但个体测验不能以团体方式实施。
3. 按测验内容的形式分类:语言或文字测验,非语言或操作性测验。
4. 按测验功能分类:成就测验与预测测验;按测验的难度分类:速度测验,难度测验。
5. 按评价所参照的标准分
常模参照测验:此种测验是将一个人的分数常模比较,看其在某一团体中所处的位置。 标准参照测验:将被试的分数与某种标准进行比较来解释。 各种专业资格测验都属于标准参照测验测验。
6. 按测验要求分类:最高行为测验,典型行为测验,潜力参照测验。
投射测验和瑞文测验为非语言测验,韦氏测验既包含语言又包含非语言,复本信度为最高行为测验。
重点总结
1. 心理测量属于哪一种水平的测量,为什么?2. 简述心理测验的基本条件。3. 测验为什么要标准化,怎样保证测验的标准化?4. 什么是常模参照测验和标准参照测验。
第二章 心理与教育测量的历史
1. (权,然后知轻重;度,然后知长短。物皆然,心为甚。)
2.
3.1890
4.1905
5.
二、经典测验介绍(第十二章——十五章)
第十二章 智力测验
第一节 智力测验概述
一、智力实质的探讨
二、智力测验的实践探索
1、高尔顿和生理计量法: 以感觉敏锐度为指标测量智力
2、比奈和智力年龄:第一个心理取向的智力测验;首次采用智龄。
3、推孟和比率智商:智商=心理年龄/实足年龄×100
4、韦克斯勒与离差智商:同年龄组的标准分,根据同年龄组测得的平均分和标准差计算。
离差智商把某一个儿童的智力与同龄伙伴相比后,算出它们的离差;比率智商是把儿童智力与同龄伙伴相比后,算出它们的比率。
判断:比奈智力测量是世界上第一个智力测验,首次使用智商的概念。
三、对传统智力测验的评价
第二节 常用智力测验介绍(重要)
一、中国比内量表
(1)测试对象:适合2岁到18岁;
(2)测验内容:51道题,每岁3个项目,最适合测查小学生和初中生的智力水平。题目由易到难排列。
(3)实施过程:
①计算被试的实足年龄,几岁几个月(出生年月日);
实足年龄的计算:用测验的年、月、日减去出生的年、月、日。凡超过15天或整15天的日数按一月计,不足15天的一律不计。
②根据实足年龄,查寻开始的题目;
③严格遵守指导书的记分标准记分。答对1题得1分,连续5题未通过即停止。计算测验总分时,除了累加答对的题目分外,还要补加一定的分数。
④根据实足年龄和总分,从智商表中查出相应的智商分数。(离差智商)
(4)施测注意事项:
①施行测验之前,应安排好一间安静房子,内设一桌两凳。施测时主试、被试对坐。主试可将指导书立在面前,以免被试窥视主试的记录,思想受到扰乱。
②主试者对被试者必须保持和善态度。对于被试的有关试题内容的探索性问题,一概支吾过去,比如对他说:“你自己想一想”。对于他的答案,不论对与不对,都不要表示肯定或否定的神态,以免影响他的测验结果。
③主试必须按照各试题的时限控制时间,不可随意延长或缩短。时限不包括主试用的时间。
④记录要尽量录被试者原话,以便根据真实材料核对分数。在测验进行过程中,主试者除按指导语让被试者回答试题外,凡属闲话,一概不说。
(5)结果评价指标:智龄
(6)评价:直观,易理解,但不同年龄组间不好比较。
二、韦克斯勒智力量表:
(1)适用对象:韦式成人量表、韦式儿童量表、韦式学龄前儿童和学龄初期儿童智力量表
(2)测验内容(成人智力测验各分测验的具体实施方法):知识(常识)分测验;领悟(理解)分测验;算术分测验;相似性(类同)分测验;数字广度分测验;词汇(定义)分测验;数字符号(译码)分测验;图画填充分测验;积木拼图分测验;图片排列分测验;图形拼凑(拼板)分测验。
(3)施测注意事项:
①施测程序和时间
⏹ 儿童:言语测验和操作测验交叉进行;成人测验一般先言语后操作测验。
⏹ 时间:大约55-80分钟,尽可能一次施测完,分两次进行,间隔时间不要超过一周 ⏹ 测验时间要选择恰当,被试者应在精力充沛、身体舒适、没有急事的时候来接受测
验。
②测验场所
⏹ 除主试和被试外不得有第三者在场,隔桌对坐。
③施测前的注意事项
⏹ 检查所有材料
⏹ 填写个人资料,年龄应准确计算。
⏹ 在场,隔桌对坐。
④测试过程中注意事项
⏹ 有些测验项目在计分纸上写下答案,测验过后评分
⏹ 记录特殊问题,如被试的不合作态度,测验中断的原因,语言障碍,左利手等。
(4)记分方法:
①原始分的获得
☐ 注意时间限制:算术、图片排列、木块图案、物体拼凑、数字符号和图画填
充有时间限制。以反应的速度和正确性作为评分依据,超时即使通过也记0
分,提前完成的按提前时间的长短记奖励分。
☐ 不限时间的项目,则按反应的质量给予不同的分数。
②原始分换算成量表分
☐ 分测验:转化成平均数为10,标准差为3的量表分(可查表)。
☐ 言语测验和操作测验的量表分相加,得言语量表分和操作量表分。
言语量表分+操作量表分=全量表分
③量表分算成智商分数
☐ 量表分+年龄(查表)换算成言语智商、操作智商和总智商。
(5)评价:
⏹ 优点:
☐ 能较好地反映一个人智力的全貌和测量各种智力。
☐ 用离差智商代替比率智商,克服了计算成人智商的困难。
⏹ 缺点:
☐ 测验的起点偏难,有的分测验(如相似性测验) 方法对低智力者难以说明,故
不便测量低智力者。
☐ 有的分测验项目过多(如词汇测验) ,增加测验时间;有的相反,项目过少(如
物体拼凑测验) ,难以调整项目难度。
三、瑞文智力测验(团体智力测验):使用百分等级
(1)测验功能:非文字智力测验,主要测验一个人的智力观察力和清晰逻辑推理能力。
(2)适用对象
⏹ 渐进矩阵标准型SPM (5.5岁以上正常人)
⏹ 渐进矩阵彩色型(幼儿和智力水平低的人)
⏹ 渐进矩阵高级型(高智力水平的人)
(3)测验内容
整个测验共有60张图组成,按逐步增加难度的顺序分成A 、B 、C 、D 、E 五组,每组都有一定的主题,题目的类型略有不同。从直观上看,
A 组主要测知觉辨别力,图形比较,图形想象力等;
B 组主要测类同比较,图形组合等;
C 组主要测比较推理和图形组合;
D 组主要测系列关系,图形套合,比拟等;
E 组主要测互换、交错等抽象推理能力。
(4)施测注意事项:
一般没有时间限制,但在必要时也可限制时间。
在个别测验时,如果记录下测试所用时间,并分析其错误的特性,还可以有助于了解被试者的气质,性格和情绪等方面的特点。
一般人完成瑞文标准推理测验大约需要半小时,最好在45分钟之内完成。
(5)记分方法(评估指标)
一级:测验标准分等于或超过同年龄常模组的95%,为高水平智力
二级:测验标准分在75%与95%之间,智力水平良好
三级:测验标准分在25%与75%之间,智力水平中等
四级:测验标准分在5%与25%之间,智力水平中下
五级:测验标准分低于5%,为智力缺陷
(6)评价
● 适用范围广
● 使用方便,经济,且测验结果比较可靠。
● 较高的信度和中等效度。
四、希-内学习能力测验:
测量对象:3-16岁的聋哑儿童。不要求被试用言语或文字回答,全部采用操作的方式,测智力的G 因素。
第三节 智力测验的新发展
重点理解:1. 中国比内量表:适用对象、施测过程、施测注意事项、结果评价指标、评价。
2. 韦克斯勒智力量表:适用对象、测验内容、施测注意事项、记分方法、评价。 3.瑞文智力测验:测验功能、适用对象,测验内容、施测注意事项、记分方法、评价。
第十四章 人格测验
第一节 人格测验概述
一、人格与人格测验
二、人格测验的发展
1、前科学水平:颅相学、相面术、笔迹学
2、科学探索:
1884年,高尔顿首先提倡用科学方法测量人格。心律和脉律的变化测量情绪;情景观察分析人的性情、脾气。
1905年,荣格用词语联想测验检查和分析了心理情结;
1919年,武德沃斯发表第一个自陈人格量表——个人资料调查表;
1920年,罗夏墨迹测验问世;
1943年,明尼苏达多相人格问卷MMPI ;
1956年,卡特尔人格因素问卷16PF
1975年,艾森克EPQ
三、人格测验的种类(重要)
1、问卷式人格测验: 自陈量表;
评定量表。
2、投射测验;
3、其他方法: 客观测量(生理测量、知觉和认知测量);
行为观察(特殊观察技术、情景测验、非语言行为、晤谈法)。
自陈量表的种类(编制方法) :
1. 内容效度人格问卷(逻辑法)
❑ 根据某种人格理论,确定所要测量的特质,用逻辑分析的方法编写和选择一些看起
来能测验这些特质的题目。
步骤:
(1)确定所要测量的特质[美国默瑞的人类需求理论]
人的15种需要和动机:自责、接近他人、攻击、自主、求变、关注他人、支配、执著、表现、异性恋、内省、帮助他人等。
(2)编写一些看来能测这些特质的题目。
举例:1. A当我的朋友有麻烦时,我喜欢帮助他们。
B对我所承担的一切事情,我都尽我最大的努力去做。
2. 因素分析人格问卷
❑ 依据因素分析的统计结果来选取题目。
步骤:
(1)先给被试施测大量题目;
(2)统计分析得出几个因素(相关);
(3)一种因素代表一种人格特质,根据题目内容进行因素命名;
举例:卡特尔人格因素问卷16PF
3. 经验效标人格问卷
❑ 不是从某种理论出发,而是完全依据经验来选择题目。
步骤:
(1)根据经验选择题目;
(2)抽取已公认为不同类型的几组被试,施测题目。
(3)选出那些能把不同类型被试区分开的题目组成人格测验。
举例:明尼苏达多相人格问卷
第二节 自陈人格量表
自陈量表的特点:
①题量较大,多数用于测量人格的若干特质。
②通常采用纸笔测验。
③操作简单,容易评分,易于掌握。
人格自陈量表的问题:
人格自陈量表的主要问题——反应偏差(response bias)
反应定势(response set) :受测者有意识或无意识地“扭曲”其对测验项目的反应,
从而塑造出一种其内心中所希望显现的形象,而这一形象并不真正代表他自己。 主要有掩饰、装坏、伪装等,社会赞许倾向。
编制时可采取的对策
✓ 避免反应定势:
①题目尽量选择不诱发假装倾向的题目,以减少测题的社会评价意义,避免引起心理防卫和反感。
②选择表面效度和内容效度适当分离的题目
③注意量表的名称
④安排测题的选答方式
⑤创设使受测者老实回答的情景
⑥设置防伪题组成各种防伪量表
一、艾森克人格问卷(EPQ)(重点)
EPQ 分为成人和幼年两套问卷,龚耀先修订。各包括精神质(P )、内外向(E )、神经质(N )和说谎(L )四个量表,均为88个项目。
1、计分方法(原始分的计算):P 量表分;E 量表分;N 量表分;L 量表分。
2、标准分的转换
T=50+10*(X-MD )/SD 查表:获得平均数和标准差
3、结果解释
当T=50时为同龄人的平均值
根据计学方法计算:
T分在43.3~56.7占50%,
38.5~61.5占75%
各维度的典型人格特征
(1)典型外向(E 分特高)
表现为:爱社交、朋友多、喜欢冒险、追求剌激、不甘寂寞、好谈笑、冲动行事不爱做研究工作,喜欢实际的工作,反应迅速,随和,但情绪容易失去控制,做事粗心,从外表看似乎是一个不太可靠的人。
(2)典型内向(E 分特低)
表现:保守,交际不广,但有挚友,好静,做事瞻前顾后,行为不易受冲动的影响,不喜欢剌激,喜欢有秩序的生活和工作,极少发脾气,做事有计划,情绪倾向于悲观
(3)典型的情绪不稳(N 分特高)
表现为:焦虑、紧张,易怒,往往又有抑郁,对各种剌激的反应都过于强烈,情绪被激发后以很难平复下来,好抱偏见,常患有多种心身障碍。
(4)情绪极稳(N 分特低)
表现为:情绪反应缓慢,不强烈,而且容易平复,很难生气,在一般人难以忍耐的剌激下也有所反应,但不强烈。
(5)P 分高
表现为:独身,不关心人,常到哪里都觉得不合适,有的可能表现为残忍,不人道,缺乏同情心,对人常抱有敌意,攻击性强,喜恶作剧。
儿童:好恶作剧,很麻烦,缺乏是非感,令人讨厌的调皮。
(6)L 分高
表现为:测量被试的掩饰或自身隐蔽,或测定其社会性朴实幼稚的水平。高分者,表示有掩饰性,也可能较成熟老练,它本身代表一种稳定的人格功能。
N 和E 维的关系图
二、卡特尔人格因素问卷(16PF)
三、明尼苏达多相人格问卷(MMPI)
明尼苏达多相人格调查表——最新研究与多类量表解释(纪术茂 戴政生 科学出版社) 功能:帮助医生在短时间内对病人进行全面的客观检查和分类。测查个体的人格特点,判别精神病患者和正常者。
编制者:美国的郝兹威和莫金利
时间:20世纪40年代初期
内容(分量表简介):
题目:566题,其中16个重复题目,用于检验被试反应的一致性,看作答是否认真,实际只有550题。
10个临床量表: 1、疑病 2、抑郁 3、癔病 4、病态人格
5、男性化-女性化 6、妄想 7、精神衰弱
8、精神分裂症 9、轻躁狂 10、社会内向
8个临床量表编制时标准组是精神病人,5.10不是。
4个效度量表: (用于识别被试是否作假)
第三节 投射测验
一、理论假设
(1)人们对外界刺激的反应都是有原因且可以预测的;
(2)个人的反应固然取决于当时的刺激和情景,反映者过去的人格特征、他当时的心理状态以及他对未来的期望等心理因素会渗透在他对刺激的反应过程及结果中。
(3)人格结构的大部分处于潜意识中,通过向受测者提供意义模糊的情景,让受测者解释,来获得对其人格的认识。
二、基本分类
①联想型:要求受试说出刺激(如字词或墨迹)引起的联想。字词联想测验和墨迹测验。 ②构造型:要求受试者针对某种情景或图片编制一些故事。如主题统觉测验。
③完成型:要求被试将测验中未完成的语句或其他作业加以完成。如语句完成测验。 ④表露型:要求被试利用某种媒介(绘画、游戏、心理剧等)自由表露他的心理状态,如画人测验等。
⑤选排型:要求被试根据某一准则选择项目,或作各种排列。可用图画、照片、数字等作为刺激项目。
理解:人格测验的发展历史;人格测验的种类;MMPI 问卷的内容;投射测验的类型; 自陈人格量表的特点; 自陈人格量表编制中的问题。
掌握:自陈人格量表的分类(编制);自陈人格量表编制中的策略;EPQ 的使用及解释;投射测验的理论假设。
第十五章 其他心理与教育测量
国内常用心理健康量表总结
心理健康综合评鉴工具
主要是症状自评量表(SCL-90)、心理健康诊断测验(MHT)、Achenbach 儿童行为量表
(CBCL)。
对情绪及相关问题的评鉴工具
依次为状态-特质焦虑量表(STAI)、考试焦虑量表(TAS)、抑郁自评量表(SDS) 常用人格特点的评鉴工具
卡特尔16种人格因素量表(16PF)、艾森克人格问卷(EPQ)、大五人格量表(BFI)、王
登峰和崔红编制的大七人格因素量表(QZPS)。
第一节 焦虑测验
一、显性焦虑量表
二、状态特质焦虑量表STAI
1970年由斯皮而博格编制。
内容:
1. 状态焦虑,评定人们“现在”或最近一个特定时间内的感受或人们将要遇
到特别情景时的感受;一般为短暂性的。
2. 特征焦虑:用来描述相对稳定的、作为一种人格特质、具有个体差异的焦
虑倾向。适用于焦虑症者。
施测:如果两个测验都做,最好先做状态焦虑,再做特征焦虑。
三、测验(考试)焦虑量表TAI
斯皮尔伯格,把测验焦虑看成是特质,看成个体的焦虑倾向性。
内容:
W 因素(忧虑性) :指对失败结果的认知。
E 因素(情绪性):指由评价的紧张所引起的自主性神经系统反应。
要求被试报告他们在考试之前、之中、之后所经历的怎样程度的焦虑体验。
四、临床焦虑量表
1、贝克焦虑量表
1985年由贝克等人编制,适合具有焦虑症状的成年人。共21个条目。 施测:
1.评定时间范围应是“现在”或“最近一周”内的自我体验。
2.应仔细评定结果,不要漏项或重复评定。
3.可随临床诊治或研究需要反复评定,一般间隔时间至少一周。
计分:4点评分。Y=INT(1.19X ), 大于45分即为阳性。
2、汉密顿焦虑量表(唯一的一个他评量表)
汉密顿1959年编制,用于评定神经症和其他病人的焦虑严重程度,5点评分, 施测人员:受过训练的评定员。
一种医生用焦虑量表,最经典的焦虑量表,在同类量表中,使用历史最长,用得最
多。
第二节 兴趣测验
一、斯特朗职业兴趣问卷
二、库德职业兴趣调查表
三、自我指导问卷(霍兰德职业兴趣量表)
1959年,Holland 指出,个体的人格特征和背景因素决定了他的职业选择方向,职
业选择是个体人格的一种表现方式。
核心思想:个体趋于选择最能满足个人需要、实现职业满意的职业环境。理想的职
业选择是使人格类型与职业类型相互协调和匹配。
第三节 态度测验
一、等距量表法
二、李克特量表法(等级评定)
问卷设计中运用十分广泛的一种量表。
不是受访者对这些问题的态度是简单的同意或不同意两类,而是将赞成度分为若干
类,范围从非常赞成到非常不赞成,中间为中性类。
它通过回答选项的类型增多,人们在态度上的差别就能充分体现出来。
三、内隐联想测验
第三节 品德的测量
三、经典测验理论(第三章——第十章)
第三章 经典测量理论的基本假设
第一节 心理特质及其可测性假设
第二节 测量误差及其来源(重要)
一、误差的含义 测量中由那些与测量目的无关的变化因素所产生的不准确或不一致的测量效应。
二、误差的种类
随机误差:由与测验目的无关的、偶然因素引起的又不易控制的误差。测量
误差,使测量结果既不一致又不准确。
系统误差:由与测量目的无关的变因引起的恒定的、有规律的效应。存在于
每一次测量之中,影响测量的准确性,不影响稳定性。
三、误差的来源
测量研究的任务:研究如何控制测量的误差。
测量工具:量表是否稳定、是否真正测到了要测量的东西。
测量对象:生理和心理因素。比如:应试动机;焦虑;测验经验。
测验实施过程:物理环境;主试方面;意外干扰;评分不客观,计算、登记分数出
错。
第三节 真分数模型及其假设(重要)
一、真分数的含义
⏹ 反映被试某种心理特质真正水平的那个数值称为该特质的真分数(T )
⏹ 实际测量得到的分数称为观察分数(X )
真分数只是一个理论概念,实际测量中无法得到。无论什么测量工具都不可能没有误差。 真分数理论
⏹ 真分数理论,又称经典测量理论,认为人的心理特质水平经测量之后应表现
为一个数值。但是,由于测量误差的存在,实际测得的数值往往不会刚好等
于该特质的真实水平,它总会略高于或略低于其真实水平值,有时甚至严重
偏离。该理论把反映被试某种心理特质真正水平的那个数值称作该特质的真
分数(简称为T 分数),把实测的分数称作该特质的观察分数(X ),而两者
之间的差异是一个随机误差(E )。观察分数与真分数之间是一种线性关系,由此得出真分数理论模型:X=T+E。
二、数学模型及假设
CTT 的数学模型:X =T +E
观察分数(X )与真分数(T )之间是一种线性关系,并只相差一个随机误差(E ) 三大基本假设:
⏹ 如果一个人的某种心理特质可以用平行测验反复测量足够多次,则其观察分数的平
均值会接近于真分数。(平行测验:两个题目不同的测验测的是同一特质,并且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布都一致。) ⏹ 真分数和误差分数之间的相关为零。
⏹ 各平行测验上的误差分数之间相关为零。
理解:误差的种类;测量误差的来源。掌握:什么是真分数理论?
第四章 测量信度
第一节 信度概述(重点)
一、信度的定义
信度是对测量一致性程度的估计。用同一测量工具反复测量某人的同一种心理特质,多次测量结果间的一致性程度就叫信度,也叫可靠性。
信度达到多高才算可靠?能力或学绩测验、学习成就测验信度应在0.90以上;性格、
兴趣、价值观等人格测验信度应在0.80以上。
二、信度的作用
(1)信度是测量过程中存在的随机误差大小的反映
(2)信度可以用来解释个人测验分数的意义
(3)信度可以帮助进行不同测验分数的比较
第二节 估计信度的方法(重点)
一、重测信度
1、含义:一组被试在不同时间用同一测验测量两次,两次测验分数的相关系数。
2、误差来源:
(1)测验本身:测验所测的心理特性是否稳定;
(2)被试方面:成熟、知识的发展,练习因素、记忆效果;
(3)施测过程:每次施测是否完全一致,如意外干扰、记时错误;
主要误差来源:时间造成的被试状态和施测情境的变化。
3、适用条件:人格、心理健康、社会调查等典型行为测验适合;智力测验不适合短期重测(一般6个月);学科测验不适合重测。
同一量表在不同的重测时间得到的重测信度是否相同?
二、复本信度
1、含义:又称等值系数,是指两个平行测验测量同一批被试所得结果的一致性程度。
2、误差来源:
(1)测验本身:测题取样、格式、内容、题数、难度、区分度等是否一致;
(2)被试方面:情绪波动、动机变化;
(3)施测过程:意外干扰.
主要误差来源:测验题目造成的不一致。
稳定-等值系数:经过一段时间后,再实施复本测验。 稳定-等值系数往往要低于重测信度和复本信度。
3、适用条件:适合学科测验;不适合人格测验、社会调查。很难编制复本
三、内在一致性信度——跨项目(使用最多)
1、含义:又称内部一致性系数,反映测验内部的一致性,即项目的同质性。包括分半信度和同质性信度。
2、计算:
(1)分半信度——一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。
注意:当一个测验无法分成对等的两半时,分半信度不宜使用。不同的分半方法,分半信度不同。
(2)同质性信度——实际是求所有题目间的一致性程度。库德—理查逊公式;克隆巴赫α系数(通用公式,使用最多)
四、评分者信度——跨评分者
一般要求在成对的受过训练的评分者之间,其平均一致性达到(0.9)以上,才认为评分是客观的。
练习:
1. 同质性信度主要代表测验内部(C )间的一致性。
A.两半测验 B.题目与分测验 C .所有题目 D .分测验
2. 信度只受(B )的影响。
A .系统误差 B.随机误差 C.恒定效应 D.概化理论
3. 重测信度即(B )。
A 等值系数(B )稳定性系数(C )相关系数(D )X 系数
4. 在不同时间内用同一测验重复测量同一被试者,所得结果的一致程度称为(A )。
(A )信度 (B )效度 (C )难度 (D )区分度
第三节 提高测量信度的方法(重点)
一、影响测量信度的因素
被试、主试、施测情境、测量工具、施测间隔的时间
二、提高测验信度的常用方法
(1)适当增加测验的长度
(2)控制试题的难度分布,中等水平
(3)努力提高每道题的区分度
(4)选取恰当的被试团体,努力提高测验在被试中各个同质亚团体上的信度
(5)规范施测程度、严格控制评分误差,统一施测环境。
适当增加测验的长度:测验长度的增加与信度的提高不是等比例的——报酬递减
3倍,那么新测验的信度系数应该是多少?
k ⋅r tt 3⨯0.30 解:r XX ===0.56251+(k -1) r 1+2⨯0.30 tt
例:原测验共10题,信度系数为0.30,如要把测验信度系数提高到0.94,需要把原测验延长多少倍?增加多少题?
r (1-r tt ) 0.954(1-0.30) 解:k =XX ==48.39 r tt (1-r XX ) 0.30(1-0.954)
结论:分数分布范围越宽,信度系数就越高。
注意:当某测验在一个团体中有较高的信度时,在另一个团体中也具有较高的信度。 “某测验的信度是0.92” 。(ⅹ)
“某测验的信度系数为0.92,该数值是通过计算一份能力测验间隔两周两次测试成绩的相关系数得出的。数据来源是从某市随机抽取的500名小学5年级的学生施测„„”。(√) 理解:1. 什么是测量的信度?2. 信度的作用 3. 信度的估计方法有哪些?它们的主要误差来源是什么?适用条件(适用于哪种测验)?
掌握:4. 影响信度的因素有哪些?5. 提高测量信度的方法有哪些?学会计算提高测验长度提高测验信度
第五章 测量效度
第一节 效度的概述
一、效度的定义
一个测验对其所要测量的特性测量到什么程度的估计。(科学测量工具最重要的条件)
二、效度的性质
效度是针对测验结果的;
效度是针对某种特定的测验目的的;
效度是一个相对的概念,即相对于某种特殊用途,具有较高或较低的效度。 关系1:高信度是高效度的必要条件,而不是充分条件。
关系2:信度系数的平方根(信度指数)是效度系数的最高限度。
第二节 效度的估计
一、内容效度
含义:指一个测验实际测到的内容与所要测量的内容之间的吻合程度;
关注的是测验的内容方面。
测题取样的代表性是主要考察的方面。
(一)验证内容效度的方法
1. 逻辑分析法(专家评定法):让一组独立的专家判断测题与所研究内容的吻合程度(即题目的代表性)。
2. 克隆巴赫的估计方法:先获得被试在两个独立取自同样内容范围的测验上的得分,计算出它们的相关,把这个相关作为对内容效度的数量估计。
3. 再测法:被试学习某种知识前做测验,学过该知识后再做测验,若后测显著高于前测,则说明内容效度较高。
(二)提高内容效度的方法——编写双向细目表
(三)表面效度
含义:表面看起来测验内容与测验目的的一致性程度。
与内容效度的区别:
表面效度不是真正的效度。
表面效度会影响被试的测验动机,影响测验的效度。
典型行为测验,高表面效度不合适。最高行为测验往往表面效度较高。
二、结构效度
定义:一个测验实际测到所要测量的理论结构或特质的程度。
即测量结果是否能证实或解释某一理论的假设或构想,解释的程度如何。
(一)验证结构效度的方法
方法1:测验内方法
内容效度:测验的内容
口语报告法:被试解答测题时的反应过程
测验的同质性(相关分析法) :(使用最多) 项目间或分测验间的关系,判断测验测的是单一特质还是多种特质。
方法2:测验间方法
相容效度(聚敛效度):测量相同结构或同一特质的各测验之间应该有较高的相关。
区分效度:如果两个测验测量的是不同的特质,即使使用了相同的方法进行测量,他们之间的相关较低。
因素效度(因素分析法):通过对一组测验(题目)进行因素分析,找到影响测验分
数的共同因素(维度),每个测验(题目)与共同因素(维度)的相关(因素负荷),即测验的因素效度。
方法3:实证效度
三、实证效度
(一)概念
实证效度:指一个测验对处于特定情境中的个体行为进行估计的有效性。用实践效果检验测验的准确性。
效标:衡量一个测验是否有效的外在标准,通常以一种测验分数或活动来表示。
如:学业成就、教师评定、实际工作表现、其他现成的有效测验。
种类:
预测性效度:测验分数和以后的某个效标之间的相关
同时性效度:同时获得测验分数和某个效标之间的相关。
(二)效标的测量
必须对效标下一个操作性定义;
避免效标的污染。
由于评定者知道被试测验的原分数而使被试的效标分数受到影响的情况。
(三)实证效度的估计方法
1. 相关法
指测验分数和效标分数之间的相关系数
2. 区分法
如果根据被试在效标上的行为表现,将他们分为不同的组别,那么,这些组在预测分数上也应该有显著性差异。
3. 命中率
录取率:采用测验作为工具录取人员的比例。
实证效度的较好指标:
正命中率:正确选取率,可作为预测效度。
总命中率:正确取舍率。
任何一个测验都需要各式各样的效度证据。
效度的验证通常是在测验编制完成之后,但是其指导思想贯穿于整个编制过程。
第三节 提高测量效度的方法
1. 精心编制测验量表,避免出现较大的系统误差。
2. 妥善组织测验,控制随机误差。
3. 创设标准应试情景,让被试发挥正常水平。
4. 选好正确的效标,定好恰当效标测量,正确使用相关公式
理解:效度,表面效度、内容效度、结构效度、效标、效标效度、信度与效度关系。内容效度的主要验证方法;实证效度的确定方法。
掌握:1. 验证结构效度的方法有哪些?2. 提高测量效度的方法有哪些?
第六章 项目分析
第一节 项目难度(重点)
一、项目难度的计算(重点)
(一) 二值记分测题
1、P=R/N
P :试题的难度;R :答对该题的人数;N :总人数。
P 值越大,则难度越小。
2、分组法——重要前提:将被试按总分高低排列。一般标准为27%。
计算公式:P=(PH+PL)/2
PH:高分组答对该题的百分比。PL:低分组答对该题的百分比。
(二)测题不是二值记分时
P=X/Xmax
X :全体考生在该题上的平均分。Xmax :该题的满分。
二、测验难度的确定——防止被试得满分
项目和测验的难度水平取决于测验目的和测验性质
常模参照测验:区分被试,大多数项目在0.3——0.7之间。
标准参照测验:不必过多考虑难度;
速度测验:难度不宜过高,每个项目的难度值基本相等;
难度测验:难度值在0.5左右;
三、项目难度对测验的影响(重点)
1. 对测验分数分布形态的影响
由一个标准化样组所构成的测验分数的分布,一般来说是常态分布。
出现偏态分布的情况:左偏态;右偏态。
2. 对信度系数的影响
项目难度集中在0.5左右最佳,分数分布范围广,信度高。
第二节 项目的鉴别力(区分度)(重点)
一、项目区分度的计算(重点)
(一)项目鉴别指数法
D=PH-PL
PH :高分组答对该题的人数比率。PL :低分组答对该题的人数比率
当人数小于100时,一般直接分为两半作为高低分组。
D 值越大,项目的鉴别力越大,表示项目的质量越好。
例题:某测验被试共100人,高分组和低分组各取总人数的27%,第五题高分组25人答对,低分组3人答对,则该题的鉴别指数是多少?
D
0.4以上
0.30-0.39
0.20-0.29
0.19以下 测题评鉴 优良 良好,如能修改更好 尚可,仍需修改 劣,必须淘汰
(二)相关法
1. 项目与总分(维度分) 相关——说明项目与总分有一致性
(1)点二列相关:项目是二值记分,总分连续变量。
(2)二列相关:其中一个变量是人为分成两类。
(3)皮尔逊积差相关
2. 项目与外部准则(效标)的相关:项目效度分析
含义:被试在项目上的反应和在效标上表现的关系。
目的:选取那些和效标有较高相关较高的题目。
估计方法:相关系数的计算公式。
(三)其他方法
临界比率法
①利用问卷总分分为高低两组组27%,
②对高低两组在每一道题上做独立样本T 检验;
③若高低两组在题目上差异显著,则说明该题符合要求,若差异不显著,则删除。
二、难度与区分度的关系
当P=0.50时,项目的鉴别力最大。
难度P D 最大值
1.00 0.90
0.80
0.70
0.60
0.50 0.00 0.20 0.40 0.60 0.80 1.00
项目难度、鉴别力、组间相关与测验信度的关系
组间相关越大,内部一致性信度越 高 ;
项目难度越相近——相关越大——信度越 高 ;
所有项目都是中等难度,且组间相关为1.0,测验分数U 型分布。(鉴别力)低 项目难度不同,组间适当相关,测验分数成长方形。(鉴别力)高
结论:这几者之间的关系十分复杂,甚至相互矛盾。
妥协的方法:组间相关在0.10~0.60之间;项目与测验总分(维度分) 相关为0.3~0.8。
第三节 猜测问题与猜测率
选择题难度的矫正计算:CP=(KP-1)/(K-1)
CP :矫正后的难度;P :未矫正的难度;K :选项的数目。
例题:一个五择一的测量难度值是0.61,另一个四择一的测题难度值为0.64,请问这两个测题哪个题更难一些?
被试原始分数的矫正:XC=R-W/(k-1)
R :答对的题目数;W :答错的题目数;K :选项的数目。
例题:被试参加由100道题组成的测验,答对了82道题,答错18道题,被试的实得分数为多少(每题1分)?
第四节 选择题的项目分析
理解:PPT 中标有重点符号的内容。掌握:鉴别力的估计方法;选择题难度的矫正计算。
第七章 测验的常模
第一节 分数转换
一、原始分数与导出分数
二、百分等级
• 把测验的原始分数分成100个单位或等级。
• 某原始分数的百分等级指:在一个群体的测验分数中,得分低于这个分数的人数的
百分比。
85的百分等级表示在常模样本中有85%的人比这个分数要 低 。
三、标准分数
第二节 分数合成
第三节 常模编制(重点)
• 常模:根据标准化样本的测验分数经过统计处理而建立起来的具有参照点和单位的
测验量表。
一、常模团体与常模
1、常模团体:由具有某种共同特征的人所组成一个群体或是该群体的一个样本。
2、确定常模团体的注意事项
(1)群体构成的界限必须明确
(2)常模团体必须是所测群体的一个代表性样本
(3)取样的过程必须明确且有详尽的描述
(4)样本大小要适当
(5)常模团体必须是近时的
(6)注意一般常模与特殊常模的结合。
二、编制常模的步骤
(1)谁的常模?测试样本是谁?——确定测验将用于哪一个群体。
(2)测试,获得团体成员的测验分数及分数分布。
(3)制作常模表,给出说明——确定常模分数类型,制作常模表,给出抽取常模团体的说明,以及常模分数的解释指南等。
三、常模的分类
根据参照已达到的发展水平还是某团体中的相对位置, 划分为:
• 发展常模:有年龄常模(比内量表)、年级常模等
• 组内常模:有百分等级常模(瑞文测验) 、标准分数常模(EPQ )
常模资料呈现的方法
1、 转化表(常模表)最简单、最基本、最常用的常模表示方法。
2、剖析图
• 把一套测验中几个分测验分数用图表(或图形)表示出来。
• 直观、全面地看出被试在各个分测验中的表现及其相对应的位置。
理解:百分等级的含义,常模的概念、分类、呈现方法。
掌握:1. 简述常模编制的步骤。2. 确定常模团体的注意事项(如何选择好的常模团体?)
第八章 测验的编制与实施
第一部分 测验的编制步骤
(1)目的确定
(2)分析测量目标
(3)选择测验材料,制定测题
(4)进行预试、分析测题(质的分析和量的分析)、筛选测题
(5)测题性能复核(难度、鉴别力的复核)
(6)测题编排
(7)标准化(对内容一致、标准实施的要求)
(8)基本特征鉴定(信、效度检验)
(9)制定常模
(10)编写测验说明书
一、确定测验的目的
(一)测验用途
(二)测量对象
(三)测量目标:确定能表征所欲测量的心理结构的行为。
☐ 确定测量目标的方法:
⏹ ①借鉴以往的研究成果
⏹ ②考虑时代特点
⏹ ③了解受测群体的实际情况——开放式问卷调查
⏹ ④向有关专家、了解情况的人请教
二、产生测题
(一)测题的形式
(二)组成测题
1. 收集有关资料
2. 拟定量表的框架
3. 编制测题
(三)检查测题并初步修改
(四)预测和对预测结果进行分析
(五)测题的选择、编排及最后测题的确定
三、测验的标准化
四、其他
(一)测验特征的鉴定
⏹ 1. 信度 2.效度3. 编制常模表
(二)编写测验指导手册
第二部分 测验的实施
一、测验的选择
二、测验的施测
1、施测前准备
⏹ 准备好测验材料,以免短缺而临时寻找
⏹ 熟悉测验的具体施测程序
⏹ 熟悉指导语
有时需要核实被试信息:年龄
2、施测中注意
⏹ 指导语:清晰、简明扼要且有礼貌,表达指导语的语气、语调,熟记;
⏹ 施测顺序:尤其个别测验;
⏹ 施测反应:不应点头、皱眉、摇头等暗示性反应,始终保持和蔼、微笑;
⏹ 避免测验焦虑:
⏹ 记分:熟练掌握记分要求;不让被试看到分数。
3. 与被试建立良好的协调关系。
主试者对被试应该关心、热情、真诚、有耐心,以引起被试者对测验的兴趣,使其表现出真实水平。
⏹ 学前儿童:友好、愉快、轻松;游戏;
⏹ 成人:强调测验目的,测验对他们有利的方面。
三、测验的评分
四、测验结果的报告
掌握:1. 测验编制的过程.2. 在测验实施时主试应该注意哪些问题。(准备、过程)
第九章 测验等值
一、测验等值:通过对考核同一种心理品质的多个测验形式作出测量分数系统的转换,进而使这些不同测验形式的测验分数之间具有可比性。
二、测验等值关系计算的基本方法:1、等百分位等值法。2、线性等值法(转换成标准分数)