教育测量与评价的质量特性2013(王书林)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

教育测量与评价的质量特性西南大学教育学部:王书林学习目标解释信度、效度、难度、区分度依据不同情况采用恰当的方法计算测验的信度依据不同情况选用恰当的方法对测验的效度进行评价计算测验题目的难度、区分度反思教育测量与评价方案的可用性12345知识回顾•测量(measurement)是根据法则给客体或事物的属性指派数字。Stevens,S.S.(1951)•测量的三个要素:•测量的对象(客体的特性)•测量的规则(给特性分派数字的依据)•测量的结果(描写特性的数字或符号)测试特征规则数字符号属性图1测量要素之间的关系测量的三要素测量的要素参照点单位(教育)测量工具绝对零点相对零点试卷测试题量表教育测量与评价的关系图2测量与评价的关系良好测验的特征可靠性信度效度难度区分度难易性鉴别性有效性•信度的学习目标•1.了解信度的含义;•2.掌握信度的计算;•3.知道影响信度的因素有哪些;•4.掌握提高信度的方法.一、信度真分数方差与观测分数方差的比值(一)信度的描述定义信度(reliability)是指测量结果的稳定性和可靠性程度。(二)信度的测量学定义(操作性定义)表示测量分数的方差表示真实值的方差表示信度系数式中222X2E22TXSS1xTxxXXS,,SrSSr(三)理论假设:1.真分数理论定义T与X关系数学模型X=T+ET=X-E真分数的解释测量分数X理论上真正特质水平操作上多个平等测验的平均数统计学上单独的参数无误差误差分数E真分数TX=T+ET=X-E2.真分数的三个假设•1.假设不包含或者控制了系统误差。•2.若一个人的某种心理物质可以用平行测验反复测量足够多次,则其观察分数的平均值会接近真分数,或者说,误差分数服从平均数为0的正态分布。•3.因为每一次测量中的随机误差将会相互抵消,即随机误差平均值将会为0,从而使观察分数的平均值接近真分数。•ε(X)=T或者ε(E)=03.随机误差与系统误差的比较类型产生原因结果表现(结果不一致)特点指标随机误差…偶然因素不易控制方向和大小上完全随机准确性信度效度系统误差…因素恒定、规律恒定效应稳定性•3.误差•误差分为随机误差和系统误差•误差是由与测量目的无关变因引起的不准确和不一致的效应。(测验内部、施测过程,被试)•由偶然因素引起的无规律的误差是随机误差。•(如被试的情绪、主试的表情及指导语等)•由与测验目的无关的某种常定因素引起的有规律性变化的误差称为系统误差。•(如测验里有一题没写清楚)系统误差随机误差2X2E22TXSS1XXSSr信度:减少随机误差,就能获得比较一致的结果二、信度的估计方法信度重测信度(理想状况)复本信度内部一致性信度评分者信度分半信度同质性信度(一)重测信度同一测验同组对象前后测2次相关系数稳定性系数时间太短练习效应记忆效应A卷一定时距A卷太长身心变化间隔2~4周<6个月程序含义误差重测信度是指用同一量表对同一组被试测试两次所得结果的一致程度,其大小等于同一组被试在两次测验上所得分数的积差相关系数。即:1.重测信度的计算2.重测信度使用的条件•(1)所测量的心理特质必须是稳定的•(2)遗忘和练习的效果基本上相互抵消•(3)在两次测试时间间隔内,被试在所要测查的心理特质方面没有其他的学习和练习3.计算重测信度应注意的问题•(1)两次测验时间间隔要适当•(2)应提高被试的积极性•(3)适宜于人格测验与速度测验,不适合于智力等难度测验4.重测信度举例例:假设有一份主观幸福感调查表,先后两次施测于10名学生,时间间隔为半年,结果如表所示,求该测验的重测信度。表1幸福感调查统计表信度很高。数大,说明测验结果的两次测验结果的相关系和故查相关系数检验表2105.0)8(05.0)8(765.099.0,765.0XXrrrxx(二)复本信度含义两等值测验最短时间内对同组对象施测结果r等值性系数程序误差内容取样A卷最短时距B卷1.含义与计算•是指两个平行测验测量同一批被试所得结果的一致程度,其大小等于同一组被试在两个复本测验上所得分数的积差相关系数。计算公式同重测信度。•(1)两个测验必须在项目的内容、形式、数量、难易、时限、指导语等方面相同或相似。•(2)两次测验的时间间隔要适当。•局限:•(1)复本法只能减少而不能排除练习和记忆效应。•(2)对于许多测验来说要建立复本是非常困难的。2.复本信度使用的条件(三)重测复本信度含义两等值测验一定时间内对同组对象施测结果r稳定性等值性程序误差时间间隔内容取样A卷一定时距B卷•例:假设用A、B两型创造力复本测验对初中一年级10个学生施测。结果如表所示,X1,X2分别代表A、B两型测验。求该测验的复本信度。表210名学生等值测验结果解:先计算得出以下值:(四)内部一致性信度测验各题目间一致性题目一致性分半信度类型同质性信度误差内容取样含义1.分半信度分半方法奇偶题、题目难度题目内容分半(2)分半信度计算(Split-halfreliability)•分半信度信度与等值性系数的解释一样,即可以把对等的两半测验看成是最短时距内施测的两个平行测验。分半信度描述的是两半题目间的一致性,所以也叫内部一致性系数。•计算方法与复本信度类似,但被试在两半测验上得分的相关系数只是半个测验的信度,所以必须用斯皮尔曼—布朗公式加以校正:hhhhrrrXX12式中为经过校正的信度值为未经校正的信度值xxrhhr2.同质性信度(Homogeneityreliability)同质性所有题目间的一致性•(1)含义同质性信度也叫内部一致性系数,它是测验内部所有题目间的一致性程度。这里的一致性有两种含义:一是所有题目都测的是同一种心理特质,二是所有题目得分之间都具有较高的正相关。同质性信度就是一个测验所测内容或特质的相同程度。类型库-理信度0、1题型各类题型克龙巴赫系数•例:有一个由100题构成的量表施测于10个即将毕业的职教学生。测验一次后,应试者即毕业离校。现在怎样评价测验结果的信度?•解:因不能再次测验,只能求分半信度。•步骤:•(1)计算出每个应试者的奇数题总分(X1)和偶数题总分(X2),见下表得分被试12345678910X138373841403638394035X237373639393438393936表310个职教学生的职业技能测试表个测验的信度高致性系数很大,说明整所以,经校正后内部一由于查相关系数检验765.001.0)8(91.0765.001.0)8()2(rxxrr2211XiSSkka2iS2XS=第i道题的方差=测验总分的方差K=题目数量(五)评分者信度1.含义与方法含义评分者评分的一致性(>.90)•2.计算评分者信度指的是多个评分者给同一批人的答卷进行评分的一致性程度。对于主观试题,不同的评分者给出的分数是不等的,这样会造成误差,如何降低评分者信度是心理测量的重要任务之一。表4两个评分者信度方法的比较•当评分者人数为2时,评分者信度等于两个评分者给同一批被试答卷所给分数的相关系数。如果是多个评分者,评分者信度采用肯德尔和谐系数进行估计。试卷得分名次等级之差DD2甲评份乙评份甲名次乙名次1949311002909222.5-0.50.25386923.52.511486703.57-3.512.255728254116707665.50.50.257686579-248667685.52.56.25964689811106160101000表5两位教师对10份试卷试阅结果•将以上数据D2求和,即738.084.0,738.084.0)110(102661)1(6110,2605.0)8(05.0)8(2222rrrNNdrNDxxxx故查等级相关表,则又已知由此可知,甲、乙两位教师阅卷的一致性系数高,评分可靠。表65位教师对5篇作文的评定结果表75位教师对8篇作文的评定结果例:有A、B、C、D、E5名学生参加对教师教学工作进行评定,共有四项指标(教学内容的选择、教学方法、教学态度和教书育人)。评定采用选定性再排序,最后赋值。问评教结果是否一致?)表85名学生评教结果信度计算方法总结类型内容误差来源要求重测(稳定)A一定时距A时间2-4周6个月复本(等值)A最短时距B内容取样重测复本A一定时距B时间和内容内部一致性分半两半题目一致性内容取样同质性所有题目一致性评分者评分者间的一致性评分者>.90三、信度的解释(一)信度的可接受水平(二)解释个人分数(一)信度的可接受水平测验类型最低标准标准化测验人格测验非标准化测验0.90以上0.80-0.850.60-0.85•典型测验的一般标准一般原则r≥0.70团体比较0.70≤r<0.85个体比较r≥0.85XXXErSSE1112~88696.1100eSEXT96.1例如:某生在智力测验中得分100,其真实智力分数是多少?(S=15,rxx=0.84)00.684.0115(二)解释个人分数95%四、影响信度的因素•测验的估计因素•测验长度•样本特征•测验难度•时间间隔(一)测量的估计因素影响信度的因素是指那些可能造成随机误差的因素。从受试者方面,受试者的身心健康、动机、注意力、焦虑程度、测验经验等会造成随机误差焦虑程度测验经验注意力动机身心健康受试者•从主试人方面,主试人的年龄、性别、态度、语调等会造成随机误差语调性别态度年龄主试方面•从测验内容方面,指导语的清晰程度、内容取样,等值型的一致性、内部一致性乘支造成随机误差内容取样指导与清晰度内部一致性等值一致性测验内容•从施测过程方面,测验场地的噪音、温度、光线、房间大小、记分、评分等会造成随机误差房间大小记分评分光线温度噪音实测过程方面五、提高信度的方法(一)测验长度与信度的关系增加长度的系数。是原始测验的信度;位的测验的信度;是比原始测验长nrnrrnnrrnnnn111111)1(1•特点–测验越长,试题取样越恰当,–测验越长,猜测性越小注意增加长长的效果——报酬递减率原则过长,信度下降例:某测验有40题,信度0.65,若增至120题,信度会是多少?例:某测验有30题,信度0.75,试问要达到多少题才能使信度达到0.90?84.065.0)13(165.03)1(11111rnnrrnn??,nk•已知:rxx=0.75,rkk=0.90,n1=50•求:n2=?•解:先求K=?•K=N1/N2N2=KN1=3X30=90•答:增加到90个题目。3)90.01(75.0)75.01(9.0k•特点–样本越异质,分数分布越广,测验越可靠(二)样本特征1.样本团体异质性2.样本团体平均能力水平•团体平均能力不同,信度不同–异质:高估信度–同质:低估信度–信度建立,描述团体例如,S-B量表,不同年龄和难度水平信度值从0.83~0.98。显然,每个信度都要求对建立信度的团体进行描述。•一般趋势–难度分布越广,信度越高•难度与题型–简答题:P=0.5时,X为0~100,信度最高。–选择题的理想难度(三)测验难度与信度的关系智力的时间变化间隔期信度系数同日或次日0.90~0.951年0.852~2.5年0.805年0.75~0.809年0.78(四)时间间隔间隔越短,信度越高S-B隔六年,rXX的变化(五)年龄的时间变化年龄越低,信度越低第一次第二次rXX4100.739150.8711170.92XXXErSSE1实得分数标准差个人分数的误差公式rXX越大:变化的可能性越小rXX=1:完全不变化标准误与信度的关系——互为消长信度()X与T的符合程度未反映个体测验分数的变异量(六)测验标准误xxr测量标准误SE测量误差分数分布的标准差)96SE.1X(T)96SE.1X(•例:已知某测验信度=0.90,测验分数的标准差=10,分别求70分、85分所对应的真分数的95%置信区间。•据SE=10×=

1 / 154
下载文档,编辑使用

©2015-2020 m.111doc.com 三一刀客.

备案号:赣ICP备18015867号-1 客服联系 QQ:2149211541

×
保存成功