登陆注册
8814400000005

第5章 教育测量与评价的质量特性(1)

本章主要涉及教育测量与评价的信度、效度,教育测量与评价中题目的难度、教育测量与评价中题目的区分度。

学习本章内容时,要理解概念和方法,掌握不同概念和不同方法之间的联系与区别,通过自己归纳与分类整理,更好地掌握本章内容。学完本章后,你应当能够做到:掌握信度、效度、难度、及区分度的定义;在不同情况下能够采用恰当的方法计算测验的信度;领会标准参照测验的信度与一般测验信度的区别;依据不同情况选用恰当的方法对测验的效度进行评价;计算题目的难度;分析题目的区分度;体会测验的信度与测量分数误差之间的关系。

本章的重点内容是:把握同质性信度的各种分析方法;掌握标准参照测验的信度的分析方法;掌握测验的内容效度的分析与研究方法;掌握测验题目难度的各种分析方法;了解估计题目区分度的两类方法,着重掌握“两端组法”。

教育测量与评价的信度

简单地说,教育测量与评价的信度,就是教育测量与评价结果的可信程度。如果用同一测量工具反复测量同一对象,则多次测量结果间的一致性程度也叫信度。测验信度是对测验工具及其操作的整体质量的一种量度,是测验性能的重要质量指标。本节介绍信度的估计方法。

一、重测信度和复本信度

(一)重测信度

重测信度指的是用同一个量表(测验或评价表)对同一组被试测试两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数。

重测信度有个基本假设,即某测验所要测量的潜在特质,短期内不会随着时间推移而变化。因此,重测信度的用途也在于估计测验结果(用测验分数表示)经过一段时间后是否依然保持稳定、一致的特性,又称为稳定性系数。

重测信度适用于异质性测验。这里的异质性测验是指一个测验包括几个不同的部分,这几个部分分别测量着几个不同的心理特质,它们之间可能并不存在相关,或者相关性较小。对于这种异质性测验不适合计算它的内部一致性信度。这时,采用重测信度是比较可靠的。此外,重测信度可用于速度测验而不用于难度测验。速度测验的测题数量多,而且有一定的时间限制,被试难于记住初次施测的内容,所以第二次施测较少受记忆的影响,而难度测验则相反。重测信度还适用于运动技能的测验,如跑、跳、掷等,其测验成绩较少受重复测量的影响。

(二)复本信度

复本测验也称为平行测验。即在试题题数、格式、难度、指导语说明、施测要求等方面都相当,并且目的是测量相同潜在特质或属性,但试题又是不相同的测验。

复本信度指的是两个平行测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的相关系数。

复本测验的实施通过两种方式:一种是在相同时间连续施测,另一种是间隔一段时间后施测。前者主要可以反映出测验内容造成误差的多少,即可以反映出两个测验是否是真正的平行测验,这种复本信度也可称为等值性系数。而后者所得到的复本信度,不仅反映出测验内容的抽样误差,而且也反映了被试本身状况改变。这种同时兼顾试题抽样与时间影响的信度,称为等值稳定性系数。同其他的信度系数相比,等值稳定性系数最小,可以说这种复本信度是对信度最严格的检验。

使用复本信度需要一个条件,就是要构造出两份或两份以上的真正的平行测验。而这个条件很难达到。因此,复本信度也可能低估了测验真正的信度。

二、同质性信度

同质性信度也可称为内部一致性信度,它是指测验内部所有题目间的一致性程度。这里,题目间的一致性包括两层含义:第一所有题目测的须是同一种心理特质;第二所有题目得分之间要具有较高的正相关。即同质性信度就是一个测验所测内容或特质的相同程度。

同质性信度有这样一个假设:当一个测验具有较高的同质性信度时,.明测验主要测的是某一单个心理特质,因为众多的题目测试了同一心理特质,因此实测结果就是该特质水平的反映。例如,用一道选择题测量被试的数学能力,机会性太大,并不能反映被试的真正水平。但是用10道题及至更多的题来测被试数学能力,如果这些题就是测量同一种能力的话,那么随着题量增多,必然会更加客观地反映被试的真实水平。如果一个测验同质性信度不高,则说明测验结果可能是几种心理特质的综合反映,这种情况下,测验结果就不好解释。还有一种办法是把一个异质的测验分解成多个具有同质性的分测验,再根据被试在分测验上的得分分别作出解释。但这样,实际上每个分测验的题量都减少了,因此异质测验并不适合用同质性信度。此外,如果速率是测验的重要因素,也不适用同质性信度系数。估计同质性信度的方法主要有:

(一)分半信度

所谓分半信度就是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。因为它能够反映测验分两半后题目间的一致性,所以属于同质性信度。然而,也可以将分半信度和等值性系数一样解释,也就是说把对等的两半测验看成是在最短时间距内施测的两个平行测验。

分半信度的计算并不难,而较为困难的是如何将测验分成均等的两半。分半的方法很多,如按题号的奇偶分半、按题目的难度分半、按题目的内容分半等等。一般情况下,同一个测验通常会有多个分半信度值。但是不论如何分半,一般在分半后都应考察分半的具体情况,看是否需要作适当调整,其最终的目标是否分成对等的两半。如果一个测验不能分成对等的两半则不宜使用分半信度。在现实的应用中,由于题目大多是依据难度大小排列,采用奇偶分半可使两半测验的题目在难度上基本相等,因此常被采纳。

分半信度的计算方法和等值复本信度的方法类似,只不过分半信度计算的是两个“半测验”上得分的相关系数,只是半个测验的信度,还必须用斯皮尔曼——布朗公式加以校正:

rxx=2rhh/(1+rnn)(6-1)

式中,rxx为整个测验的信度系数;rhh为两个“半测验”上得分的相关系数。

例20:一个测验向15名被试施测,被试在奇偶分半测验上的得分,计算该测验的分半信度系数。

解:计算两个“半测验”得分的积差相关系数为0.86。代入公式(6-1)得:

rxx=2rhh/(1+rhh)=(2×0.86)/(1+0.86)=0.96

所以,该测验的分半信度系数为0.92。

(二)库德——理查逊信度

库德——理查逊信度,这种方法适用于测验题目全部为二分记分题的测验的内部一致性信度分析。库德——理查逊公式有多个,其中常用的有KR20和KR21公式。

(1)KR20公式为:

KR20=KK-1(1-∑nn=1piqiS2x(6-2)

式中,KR20为测验的信度;K为题目数;pi和qi分别表示答对和答错第i题的被试人数比例;S2x为测验总分的方差。

例21:10名被试在一个测验上的得分情况如表6-2所示(答对得1分,答错得0分),试估计被试反应的一致性程度。

解K=6∑ni=1pq=1.35S2=2.01代入公式(6-2)得

KR20=66-1(1-1.352.01)=0.39

(2)KR21公式为:

KR21=KK-1[1-X(K-X)KS2x](6-3)

式中,KR21为测验的信度;X是全体被试测验总分的平均数;其他符号的含义与公式(6-2)中相同。

仍采用表6-2的数据资料,求得X=3.3,代入公式(6-3),得

KR21=66-1×[1-3.3×(6-3.3)6×2.01]=0.31

当测验中所有试题难度都一样,或平均难度接近0.50时,根据KR20公式和KR21公式所估计出来的信度值将相等。但是,当测验中所有试题的难度值极不相同时,由这两个公式所估计出来的信度值较大将差距,通常用KR21公式估计出的信度值会比KR20公式估计出的信度值小。

(三)克龙巴赫(cronbach)系数

当测验题型较多、并非都是二分记分题时,估计测验信度可采用克龙巴赫系数。其计算公式为:

α=KK-1(1-∑S2iS2x)(6-4)

式中,S2i表示所有被试在第i题上得分的方差,S2x表示所有被试各自总分的方差,为题目数。

例22:用一个包含6个论文式试题的测验,对5个被试施测,其结果如表6-3所示,试求该测验的信度。

解:①求所有被试在第i题上得分的方差S2i:列在表中最右列

②求所有被试在各题上得分方差之和∑S2i:

∑S2i=3.76+0.4+1.36+1.84+1.84+2.00=11.20

③求所有被试各自总分的方差S2x:

S2x=19.44

④代入公式(6-4)计算信度系数:

α=66-1×(1-11.2019.44)=0.51

三、标准参照测验的信度分析

在标准参照测验中,决定学生的学习是否达到老师预先设定的掌握标准,是一件很重要的事情。在这个标准下,多数学生的学习将可以达到某种满意的掌握水平,因此,学生在测验上得分的变异数将会变得很小。在这种理念下,上述较适用于常模参照测验的信度的一些估计方法便不适合用来估计标准参照测验的信度。

既然,在标准参照测验中,学生的测验分数是用来作为决定(或判断)其是否达到掌握标准的一项重要依据,因此,“决定”是否正确远比分数“估计”是否精确更重要。在这一思想指导下,人们提出了一些分析标准参照测验信度的方法,这里介绍百分比一致性指标的方法。

百分比一致性(percentagreement,简称PA)指标是指同一测验或两平行测验先后两次施测,其对被试的分类结果一致的比例。

四、测量标准误与测验信度的关系

测量标准误是指测验中所得测值偏离真分数的程度,记为SE。显然,它与测验信度系数之间存在着必然联系,这种关系可定量地表示如下:

SE=Sx1-rxx(6-5)

式中,SE为测量的标准误,Sx为观察分数的标准差,rxx是测量的信度系数。

测量标准误是反映测量结果精确性和可靠性的又一指标,同时也是人们正确解释测验分数的科学依据。例如,某次测验信度系数为0.92,一批被试的测验分数的标准差为9.48,那么该次测验的测量标准误SE=2.68。应用测量标准误SE可合理地解释被试所得分数的误差范围。假设某被试在上述测验中得分为70分,根据统计学中区间估计的原理,可以推断出该被试的真正分数有68.26%的可能性落在70±SE之间,即位于[67.32,72.68]之间;同理,有95%的可能性落在70±1.96SE之间,即在[64.75,75.25]之间。根据测验的信度系数求出测量标准误,从而正确解释各被试的测验分数,这是测验信度系数的一个重要应用。

教育测量与评价的效度

效度,顾名思义,就是一次测量的有效程度。严格地说,效度是指一个测验或量表实际能测出其所要测量特性的程度。显然,效度是测量质量的一个极其重要的方面,测量工具如果无效或效度太低,就失去了存在价值。评价一个测量是否有效要多角度多方面地收集证据,然后利用这些跟测验有关的客观资料,用逻辑思维或统计分析的方法,来确定该测验的实际有效性。这种收集大量资料和证据来检验测量效度的工作过程,叫做效度验证。验证测验效度可以从不同角度采用不同方法来进行,比如系统考察测验项目的内容、拿被试测验分数与其他独立测量结果作比较,以及分析测验所测的心理特性的结构与性质等等。根据验证效度的角度与方法的差异,可以把效度验证工作大体分为三类,验证工作的结果就分别对应着三种效度:内容效度、结构效度和效标关联效度。

一、内容效度

(一)含义

内容效度就是测验题目样本对于应测内容与行为领域的代表性程度。如果是教学情境下的成绩测验,那么其内容效度就是看测验题目样本能体现教学目标与教材要求的程度。例如,教师给学生做一份语文成绩测验,如果该测验的题目涵盖了语文教学所要达到的各项教学目标及教材的重要内容,那么我们便说该测验具有较高的内容效度。

同类推荐
  • 转型期中国出版业制度分析

    转型期中国出版业制度分析

    新制度经济学代表人物诺思认为,制度是决定经济长期纯净的根本因素。国际竞争说到底是制度的竞争,中国出版业要稳定快速发展并在全球市场竞争中胜出,关键要靠制度。本书以转型期中国图书出版业为研究对象,考察了政治经济和文化转型背景下的出版业转型,对三十余年来我国出版业的发展从制度层面进行了深入全面的研究,并对我国出版业制度的进一步完善提出了见解,具有一定的理论价值殛现实意义。
  • 学校教育法律问题案例研究

    学校教育法律问题案例研究

    瞿瑛主编的《学校教育法律问题案例研究》一书是为教师教育的相关课程编写的教材。“学校教育法律问题案例研究”是一门着重培养学生依法治教能力的应用性教育学科。它也是同教育学、学校管理学、政治学和法学等多种学科相互交叉和相互渗透的一门边缘学科。因此,我们将本书的写作特点定为:以学校教育中经常出现的法律问题为叙述的主线,而不受教育法学学科体系的束缚;通过案例阐明法理,将教育法律案例、教育法理融于一体。这样,可使本书有较强的可读性和现实针对性。在内容方面,主要围绕依法治校,学校、教师、学生的权利与义务,未成年学生伤害事故问题,教育法律救济等内容,结合教育案例,以案说法。
  • 出版的品质

    出版的品质

    本书收录了二十一位出版家的不凡的人生,内容包括:绥青“为书籍一生”、加斯东·伽利玛“半个世纪的出版传奇”、翁泽尔德“世纪出版家”、张元济“中国现代书业第一人”、陆费逵“以出版为终身事业”、张静庐“在文化与商务的平衡中不懈追求”、巴金“个人生命的开花结果”等。
  • 心印复旦园

    心印复旦园

    本书主要由复旦大学退离休教授撰写的纪实文集。全书分“风范篇”、“创业篇”、“师泽篇”、“缤纷篇”,共收文章111篇。风范篇是对资深专家学者和管理干部的素描;创业篇是创业者艰辛创业的诗篇;师泽篇谱写的是师生情浓、薪火传承的乐章;缤纷篇是复旦人多姿多彩生活的扫描。
  • 习惯重于方法:胡适谈读书治学

    习惯重于方法:胡适谈读书治学

    现代著名学者胡适终身积累了丰富的读书治学经验,并对此问题颇有研究。他关于如何读书,如何选书,如何做学问的不少精辟见解,值得今人学习、借鉴。本书收入胡适关于读书治学的文章、演讲稿二十多篇,力求全面、准确反映反映胡适的读书治学观点和方法。
热门推荐
  • 一枚白昼的月亮

    一枚白昼的月亮

    我代替不了你心头的星珠,给你带来钻石般的希望,所以,我想,我是一枚白昼的月亮,悄悄沉浸在云朵的浅滩旁。
  • 公主的爱情大考验

    公主的爱情大考验

    名字:欧阳凌雪MM霸气其他的吗不告诉你们
  • 碧海青龙传系列二

    碧海青龙传系列二

    十万年前的洪荒之战,无数强者陨落天际,踏入轮回;十万年后,他们的转世逐一出现,当年的暗中布局,都渐渐地浮出水面;看似平静的人间界,终于再起波澜,大唐的烟尘,掩不住历史的脚印,唐朝的官场、江湖逐一出场,无数英杰也逐一隆重登场;但所有人,都只是一个人的陪衬……
  • 都市之兵王无敌

    都市之兵王无敌

    佣兵界之王“战狼”回归都市,一场暧昧盛宴,众王争霸的战斗即将精彩展开。长腿空姐、清纯校花、火爆警花、风韵御姐……想拥有她们吗?请随孟南加入《都市之兵王无敌》吧!(书友群9924919)
  • 婚婚欲睡:前夫,别缠我

    婚婚欲睡:前夫,别缠我

    一场联姻,他们走到了一起,本想要的细水长流却被他没有休止的伤害与背叛彻底打碎。她装冷,装老,装丑。本以为离婚以后的生活会一身轻松,只是肚子里的孩子来的却让她措手不及。靳南风:“戚安九,撩了就跑就是你的作风吗?”戚安九:“床上功夫不好,扔了又何妨。”靳南风:“好不好都是我说了算。”戚安九:“喂!放我下来。”--情节虚构,请勿模仿
  • 奇书《山海经》

    奇书《山海经》

    《山海经》是先秦古籍,是一部富于神话传说的最古老的地理书。它主要记述古代地理、物产、神话、巫术、宗教等,也包括古史、医药、民俗、民族等方面的内容。除此之外,《山海经》还以流水帐方式记载了一些奇怪的事件,对这些事件至今仍然存在较大的争论。最有代表性的神话寓言故事有,夸父逐日、女娲补天、精卫填海、鲧禹治水等。
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 时光不老我们却散了

    时光不老我们却散了

    一个被爸爸抛弃只与妈妈相依为命的林晓思,会在高中生活中出现什么样可以改变她一生的命运的人呢?这是个女主爱了不敢说,男主想爱不能爱,想逃却逃不了的爱情。
  • 亿万房东,你栽了

    亿万房东,你栽了

    亿万富豪找家政,却给自己找了个房客;倒霉丫头租房子,却把自己租成了女佣。当一个长着古董脑子萝莉脸的丫头,面对着一个古典雕塑般的高帅富,双方最大的想法却都是“天下怎么会有这种人?明明看他不顺眼,却可以替他堵枪口;明明说不在乎她,却跳下悬崖死也不肯放手!--情节虚构,请勿模仿
  • 混血儿

    混血儿

    为了寻找哥哥与非洲助手的混血儿,成都餐馆的女老板听信中介,误闯东非小国乌日肯。因涉象牙走私被投入监狱,陷入绝境。之后经过非洲大草原历险,非洲文化考古,欧洲爱情传奇等等,她终于在非洲开起了第一家中餐馆,并逐步成长为中非文化的混血儿……