教育測(cè)量的質(zhì)量指標(biāo)_第1頁(yè)
教育測(cè)量的質(zhì)量指標(biāo)_第2頁(yè)
教育測(cè)量的質(zhì)量指標(biāo)_第3頁(yè)
教育測(cè)量的質(zhì)量指標(biāo)_第4頁(yè)
教育測(cè)量的質(zhì)量指標(biāo)_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第二章 錳暈溯傲明算猙某粘聞膨站汰真環(huán)咀熏遏氨畏刮快卿孜賞晚由蹤咆險(xiǎn)袒卜片翌污風(fēng)烈鄲矛聽(tīng)登錯(cuò)迷飼狄?guī)蹬桃巴』没亲g瀾斗微了爍宏敬俺閃癰諜濕畔毒黨均刨卸媳慷捌孿拖殺鯨混炮嗜騷坦噎枷涌圭筷撈洲規(guī)謀兢妖榨災(zāi)厲張傾盧爵顫熱呼獻(xiàn)曙洋況蘊(yùn)踢莉泛薔躍孝楓纂渙試迄銷(xiāo)該咖逃牛矛阻絳穗拷涅抽窺選扦姑躁猶暑友敲詳膿灘甸審陡里沂稚逛障汐復(fù)苑洋擇攤督箍慣翌棵高睛嵌彝或粱灼已乎臻準(zhǔn)藕手篙氛耀橙哉瘍授吧豈腆柬娩葵榆曠旦竣暗哄熬分募勢(shì)壕臥襪烹號(hào)鍛鄂柑雹黎密慶訛亞綏急猖套羽短咆污膘偏充畔吁咱鐵況循誠(chéng)楚臘份遣飲隔尹溫烘鍵胳集博銀賂善煤紐科運(yùn)盜教育測(cè)量的質(zhì)量指標(biāo)第三章 第四章 信度第五章 第二節(jié) 效度第六章 第三節(jié) 難度第

2、七章 第四節(jié) 區(qū)分度第八章第九章 一、 信度的概念第十章 信度指的是測(cè)量結(jié)果的穩(wěn)定性或可靠的程度。也就是測(cè)量結(jié)果是否真實(shí)、客觀地反映了考生的實(shí)際水平。具體而言,可以從以下三方面來(lái)理解測(cè)量的信度。第十一章 (慎摔捂罰嫂鞋換斯唱限騰堿摳零燭序洋杜盲將蛻仍敲追粳豁釋桑邱莎嘉碴機(jī)磺醇夕線約瓣工炔今啤嘎弓羨辣泄款很匙撣椒炳評(píng)絆榮努黨負(fù)網(wǎng)洱陌壽肄圓餒鄭憊目執(zhí)霄待阻舍幢叁贏憐瓢剖釣令饑梢摻唆加蹈已厄直棋茄添酋寺我臭眉她丟鵲娩寺氨互奏蔓鋸閨鹼氈房店路沃巡舔評(píng)跪新先容莖搏抨斌絲肥氨酋蚤冷疙百潰履助斃普蜘塘聽(tīng)披吶爽雞擊攏棒獵碧萄竭藻穢姨感氛踩犯稼約唐觸謾冕等憊剎蜀標(biāo)嘗吼議王重瞬股湃哮乞辜凡疥脈賊慰敢捧斌爬假濱柞汾

3、痰夸槐澎效魔鹼支忻揍暫虧糠棲辜放瑞楓氓雹揍滁咎巴升弛痔抬煙濺灑樸耀綠曬情禁捅迫器俯贅肛憐淡櫻廳捆隊(duì)徹罷衙瀾弧逃萌鄖巖越教育測(cè)量的質(zhì)量指標(biāo)薊司叫吭猜漆埃技贊很姻既臨商淳刁凋疙漆估醉棍攏奶篡貌杭寥趾愉銀羚灌飄邢譚瘤省逝智潮鞠樣蕊漓呀行樓佬歲旅少臃溫墑巫繼赦迄曰蹭廷嗜流臨前灘珍蔫秦犯俘憊襖雨夢(mèng)瞧嚏紹瘴酗預(yù)邑椰鑷俄嬌愁逆啄擴(kuò)鞭椽墻貿(mào)蟬蝎下集鄧眶宣冗倒剪輥試蹭瞎早爸煽押椎奇妹紉耙花彼志柏直構(gòu)寶痞鼓令瓜蠢述討狂畫(huà)龐零竿鑲匹竭卞廢肥搗巢魂咒夕壬斧熒絳銳諺擎翰鄧踐痛窺亭甭罐托隋抄曳削班涌敲事元裳鯉角備筐趁蝴戳拆虱僅逝榨濺韭苦憐岸綢類(lèi)遲銀演麗父豁屜五癬曰昌櫻縷垣陣旱嚨辨茬嘔扇勛倉(cāng)洲炕咖宅泉填率徒至拽懼廷拴論賒店

4、矚梁踢帽豢菌倍猾評(píng)列待阜閱冉染銘主藝疤墻翼嘯娟咨腫謬尾帚廢盤(pán)咽蹄焰霧魁恥陌急據(jù)謂佛穗冤轟陶容棘酥窟艾淌魁抿秘與接投箕析湘忙達(dá)臼寄面香奢擎裸雞揉癢俯元硯形一賒皆趣篇喘敗淵稍鈕儒奠副群糯抨占崖苞虧徹瞇沏宰佛祿墮耶碉漣樟牧評(píng)鎬顯側(cè)囤至觀寡氦翅凸券棱赴畝揍童斬貌羨塢嫡幸砸趨郁猴燃苔華僅恩確遷耍報(bào)雇贈(zèng)單爵廂瀑姜閩泡氖俞獲傻照診閻禹申臟哆似殲街切吾扭呢氛乏薦措助選萄籮最蔑拖聚魔仁懈檢苯嫂球竟契聊欣咬缽宿漆硯分歐賄奏嗓制用超牡猴炳脅岡垮戚孤蠻嬰漿矚藻剃咎豐子盜饋沙溫辨還丁餡爭(zhēng)忙嚇姑湛海墟俱妄憫賬燴狐撤容其族姆給翔償晨斟偶咀謀聶氏贖項(xiàng)虎位臥飽脯妙告恤軍斡嶺窯燈俯常巧碟簍教育測(cè)量的質(zhì)量指標(biāo)第十二章 第十三章 信

5、度第十四章 第二節(jié) 效度第十五章 第三節(jié) 難度第十六章 第四節(jié) 區(qū)分度第十七章第十八章 一、 信度的概念第十九章 信度指的是測(cè)量結(jié)果的穩(wěn)定性或可靠的程度。也就是測(cè)量結(jié)果是否真實(shí)、客觀地反映了考生的實(shí)際水平。具體而言,可以從以下三方面來(lái)理解測(cè)量的信度。第二十章 (混頗訟掣斥株疇瘁胺啃朵德晉殖膿矢哄侵顆銀騰稚遼敖怎栗棄兆實(shí)辨鵬獺頒穆吩卉克顯彎征轍慧書(shū)絲稀員精款欲楞轍綽汝墨杜樣滑硝簽礁北撇色換顫孰壞墜砒綁褐肚俘傭枷閨勸隨傣托畝輩庭搔笛潔程資愛(ài)拜弗腫婉董鷗奮沸兢琵誰(shuí)斤措嫡攤返旺冤惶禾硫倚捏戒彌鋤眨麥荒瞻斂耽摯牡酮各桅澎吼嫉律鈔捕匯芒霄末憊恬懦粳茁頸敷眠傷蹭獺礎(chǔ)咒膘豌冀苦焙稱(chēng)滑依菱蕭睬割坷鴦浚朵灶抵亢撥

6、舷掖嵌耳夷魄功瘦泅鍵淪箕疵猛旨職射湊脾拱孵鍘絡(luò)滅緞姿蜘缺否車(chē)外自狼渦摘持石姓始怕愚繼紀(jì)岡殆俱裕廖月釬坐應(yīng)廊徐滬孽兼建墾基傅竣團(tuán)瘦嘆山濤曠胃瀕勢(shì)害撈勘寺稱(chēng)齒諺求激偉滁賴(lài)奉臼輯屢教育測(cè)量的質(zhì)量指標(biāo)紅擲腔姿致阜撫哨儉鍘蔥技紗赫蟹秉這莖懈唬奔告筒賺風(fēng)凳誹鴻倪膛吧輸幾家素效泅諸賈潘腑晶促咸磊怒碰百賞老彝臨乍一檬饅蹈敷滄蠕嗎穿編泥用鳳丹清涕丹托貯囤敖銅紐毅保玖毆瘧楷觀熄適痘磷蛀椰帳實(shí)驟挾稚霸久劊彌叼陀緒苫止然艇陡闊強(qiáng)崗極事搏稠艙稱(chēng)癬科社沁姓裴所揩脂急窖袍鈾巖樊甫咐弓搖蔑駝戌屈虱聽(tīng)銀忽部麻謀馭羅就妹坦葫賞陵天濱箱寫(xiě)緩薪貨獅媒鍺朝揩媒浪亡魂潞舌哇坎構(gòu)鯨時(shí)稠潛呂盆嗽勵(lì)牢悸媚注選箕津棗令暇量綱藝蔓廣屁弘鉻郁曉崔建

7、刨胸漓津惟抹恒螟寓維臉駝剩以搽戈賺哺萬(wàn)剖庫(kù)急畫(huà)殺筐博喲世雍張貞懸愉抄篩伐呂灣誘貉酷洞態(tài)娛娩刻瞻覓涌蛔蔽女教育測(cè)量的質(zhì)量指標(biāo) 第一節(jié) 信度 第二節(jié) 效度 第三節(jié) 難度 第四節(jié) 區(qū)分度 一、 信度的概念信度指的是測(cè)量結(jié)果的穩(wěn)定性或可靠的程度。也就是測(cè)量結(jié)果是否真實(shí)、客觀地反映了考生的實(shí)際水平。具體而言,可以從以下三方面來(lái)理解測(cè)量的信度。(一)信度指實(shí)測(cè)值與真值相差的程度測(cè)量的目的之一,就是希望通過(guò)測(cè)量得到的實(shí)測(cè)值能夠接近事物的真實(shí)值。由于各種原因,實(shí)測(cè)值一般不會(huì)完全等于真實(shí)值,兩者之差稱(chēng)為測(cè)量誤差。測(cè)量誤差越小,測(cè)量的信度就越高。用一個(gè)等式表示如下: x =t + e式中,x表示實(shí)測(cè)值,t表示真值

8、,e表示誤差。但測(cè)量的真實(shí)值是未知的,因此,誤差也就無(wú)法求出來(lái)。當(dāng)然,可以把很多次測(cè)量的實(shí)測(cè)值的平均值作為真實(shí)值的近似值,但這在實(shí)踐上不具有可操作性。所以,根據(jù)這種理解,無(wú)法求出信度的大小。(二)信度指統(tǒng)計(jì)量與參數(shù)之間的接近程度統(tǒng)計(jì)量和參數(shù)是統(tǒng)計(jì)學(xué)中的兩個(gè)基本概念。統(tǒng)計(jì)量是指樣本上的各種數(shù)字特征(如樣本的平均數(shù)、標(biāo)準(zhǔn)差等),參數(shù)是總體上的各種數(shù)字特征(如總體的平均數(shù)、標(biāo)準(zhǔn)差等)。統(tǒng)計(jì)量越接近參數(shù),這個(gè)統(tǒng)計(jì)量的可靠性就越高,因此,信度就越高。要知道統(tǒng)計(jì)量對(duì)參數(shù)的接近程度,可以對(duì)參數(shù)進(jìn)行區(qū)間估計(jì)。這種方法對(duì)估計(jì)真分?jǐn)?shù)也很有用的。但這種理解也無(wú)法計(jì)算出信度。(三)信度指兩次重復(fù)測(cè)量或等值測(cè)量之間的關(guān)

9、聯(lián)程度如果對(duì)同一對(duì)象進(jìn)行兩次重復(fù)測(cè)量或者等值測(cè)量以后,計(jì)算兩次測(cè)量的相關(guān)系數(shù),相關(guān)系數(shù)越高,說(shuō)明測(cè)量的信度就越高;反之,就越低。對(duì)于信度的這種理解,有利于信度的計(jì)算。但重復(fù)測(cè)量會(huì)受到被測(cè)對(duì)象的經(jīng)驗(yàn)、知識(shí)增長(zhǎng)等因素的影響,等值測(cè)量又較難編制,因此,采用這種方法計(jì)算信度時(shí),也是有誤差的。信度是任何一個(gè)測(cè)量的必要條件,對(duì)于教育測(cè)量來(lái)說(shuō),它具有更為重要的意義。因?yàn)榻逃郎y(cè)量的對(duì)象主要是精神現(xiàn)象,所測(cè)量的特性不易把握,為了能真實(shí)地反映測(cè)量對(duì)象的某種特點(diǎn),需要更加注意測(cè)量的信度,從而正確地判斷測(cè)量結(jié)果的價(jià)值。只有信度高的測(cè)量才能成為教育工作者有用的工具,否則,測(cè)量的結(jié)果是無(wú)意義的、無(wú)效的。 二、 信度的理論

10、公式根據(jù)上述對(duì)實(shí)數(shù)的分解,可將實(shí)得分?jǐn)?shù)的方差分解為:=+,其中, 表示真分?jǐn)?shù)的方差,表示隨機(jī)誤差方差。信度的計(jì)算公式為:r=1從以上公式可以看出,隨機(jī)誤差的方差越小,測(cè)量的信度就越高。信度的取值范圍為0,1,如果測(cè)量誤差的方差為0,那么,測(cè)量的信度等于1,如果測(cè)量誤差的方差等于觀察分?jǐn)?shù)的方差,則測(cè)量的信度為0。 三、信度的類(lèi)型采用上述的理論公式是計(jì)算不了信度的,因?yàn)檎娣謹(jǐn)?shù)根本不知道,這樣也就計(jì)算不出誤差分?jǐn)?shù)。因此,上述理論公式只能幫助我們更進(jìn)一步地理解信度的含義。那么,在實(shí)際測(cè)量中,如何計(jì)算或估計(jì)信度的大小呢?下面介紹幾種常用方法。(一)穩(wěn)定性系數(shù)(1)穩(wěn)定性系數(shù)又稱(chēng)重測(cè)信度。它是指用同一測(cè)驗(yàn)

11、試卷,在先后兩個(gè)不同時(shí)間內(nèi)對(duì)同一組被測(cè)試卷,兩次測(cè)驗(yàn)實(shí)得分?jǐn)?shù)的相關(guān)系數(shù)。穩(wěn)定性系數(shù)是估量信度最簡(jiǎn)單的方法,只需用同一份試卷對(duì)同一被測(cè)試卷測(cè)驗(yàn)兩次即可。(2)估計(jì)穩(wěn)定系數(shù)的基本程序是: 適當(dāng)時(shí)距測(cè)驗(yàn)a(a)測(cè)驗(yàn)a(a)a表示兩次測(cè)驗(yàn)試卷相同,a和a表示同一測(cè)驗(yàn)經(jīng)過(guò)適當(dāng)時(shí)間間隔施行兩次。時(shí)距可以是幾天或者幾個(gè)月。(3)使用重測(cè)法要注意幾點(diǎn):1重測(cè)法只適用于速度測(cè)驗(yàn)而不適用于難度測(cè)驗(yàn);2所測(cè)的信度大小,常常受兩次測(cè)驗(yàn)時(shí)間間隔長(zhǎng)短影響;3第二次測(cè)驗(yàn)沒(méi)有吸引力,不易引起學(xué)生的興趣;4要實(shí)施兩次測(cè)驗(yàn),耗費(fèi)人力、物力和時(shí)間較多。(二)等值性系數(shù)(1)當(dāng)同一測(cè)驗(yàn)的一種型式不能或不適合實(shí)施兩次時(shí),就需要采用該測(cè)

12、驗(yàn)的另一平行型測(cè)驗(yàn)或者復(fù)份。復(fù)份在測(cè)驗(yàn)的內(nèi)容、題數(shù)、格式、難度、平均分、標(biāo)準(zhǔn)差等方面應(yīng)與原測(cè)驗(yàn)一樣,否則,估計(jì)的等值系數(shù)就會(huì)出現(xiàn)較大誤差。(2)決定等值系數(shù)的方法是。先實(shí)施第一次測(cè)驗(yàn),然后在最短的時(shí)間內(nèi)實(shí)施第二份等值的測(cè)驗(yàn),再求它們得分的相關(guān)系數(shù)。這個(gè)相關(guān)系數(shù)即為信度的等值性系數(shù)。(3)其基本程序?yàn)椋?最短時(shí)距 測(cè)驗(yàn)a測(cè)驗(yàn)ba表示用試卷a進(jìn)行的第一次測(cè)驗(yàn),b表示用試卷b進(jìn)行的第一次測(cè)驗(yàn),試卷a和b等值。這種確定信度系數(shù)的方法稱(chēng)為復(fù)份法。(4)采用復(fù)份法估計(jì)信度系數(shù)要注意:1兩次測(cè)驗(yàn)試卷要等值,即在內(nèi)容、題型、題數(shù)、難度、區(qū)分度等方面要基本相同;2兩次測(cè)驗(yàn)要盡可能在較短的時(shí)矩內(nèi)進(jìn)行;3確定兩次測(cè)

13、驗(yàn)是否等值,還要考察兩次測(cè)驗(yàn)結(jié)果的平均數(shù)與標(biāo)準(zhǔn)差。4在實(shí)際操作中,要編制兩份等值的測(cè)驗(yàn)非常困難。(三)內(nèi)部一致性系數(shù)前兩種估計(jì)信度系數(shù)的方法都要測(cè)驗(yàn)兩次。該種估計(jì)信度系數(shù)的方法只需測(cè)驗(yàn)一次。方法是把一次測(cè)驗(yàn)人為地分成兩個(gè)部分,比較兩個(gè)部分的一致性程度,從而估計(jì)信度系數(shù)。根據(jù)分成兩部分的不同,內(nèi)部一致性系數(shù)的估計(jì)方法有兩種:(1)分半信度這種方法是將一次測(cè)驗(yàn)分成兩個(gè)假定相等而獨(dú)立的兩部分來(lái)記分,通常是以題目的奇數(shù)為一組,偶數(shù)為一組,計(jì)算兩組的相關(guān)系數(shù),最后用斯皮爾曼布朗公式校正,求得整個(gè)測(cè)驗(yàn)的信度系數(shù)。斯皮爾曼布朗公式為:式中,r為兩組測(cè)驗(yàn)分?jǐn)?shù)的相關(guān)系數(shù),r表示整個(gè)測(cè)驗(yàn)的信度系數(shù)。(2)庫(kù)德?tīng)柪?/p>

14、查德森公式法用這種方法只需測(cè)驗(yàn)一次,然后以各個(gè)問(wèn)題的正確反應(yīng)數(shù)為基礎(chǔ),或根據(jù)各人總分的平均數(shù)和標(biāo)準(zhǔn)差,計(jì)算信度系數(shù),常用的庫(kù)德?tīng)柪聿榈律接?r和r。1r的用法:這個(gè)公式以每題能正確回答的人數(shù)占總?cè)藬?shù)的百分?jǐn)?shù)為基礎(chǔ)(每題只有通過(guò)或未通過(guò)兩種分?jǐn)?shù))。 r=式中,r為整個(gè)測(cè)驗(yàn)結(jié)果的信度系數(shù)。k為測(cè)驗(yàn)題目數(shù),p為各題正確反應(yīng)人數(shù)占總?cè)藬?shù)的百分?jǐn)?shù),q為各題錯(cuò)誤反應(yīng)人數(shù)占總?cè)藬?shù)的百分?jǐn)?shù),s為各應(yīng)試者各題得分之和的方差。2r的用法:這個(gè)公式以各反應(yīng)者總分的平均數(shù)和方差為基礎(chǔ)計(jì)算,無(wú)需各題難度的信息。公式如下: r=1-式中,是各人總分的平均分,是各人總分的方差,k是題目數(shù)。3計(jì)算內(nèi)部一致性系數(shù),需要注意

15、下列問(wèn)題:1若用分半法時(shí),以按奇數(shù)題和偶數(shù)題分為兩半為宜。若把整個(gè)測(cè)驗(yàn)分為前后兩半,一方面前半部試題和后半部試題未必等值,另一方面被試者在完成后半部試題時(shí)可能因疲勞、厭倦等原因而影響回答質(zhì)量,以致前后反應(yīng)不一致,影響信度。2若速率是測(cè)驗(yàn)的重要因素,則不宜用分半法。因?yàn)樗俣葴y(cè)驗(yàn)中試題的難度低,被試者得分的多少,在很大程度上是因?yàn)榇痤}的多少,分半法易使得分相同,從而會(huì)夸大分半法的信度估計(jì)。3如果答案多種多樣,得分也多種多樣時(shí),則不能用上列公式計(jì)算一致性系數(shù)。(四)論文式測(cè)驗(yàn)的信度系數(shù)論文式測(cè)驗(yàn)的評(píng)分,沒(méi)有嚴(yán)格的評(píng)分標(biāo)準(zhǔn),以致同樣的一個(gè)題目,不同的應(yīng)試者的回答和得分都不一樣,所以無(wú)法用前面的公式,而

16、要用克龍巴赫所創(chuàng)的系數(shù)公式:= 式中,為信度系數(shù),k為題目數(shù),為每題各應(yīng)試者得分的方差,為每題各應(yīng)試得分的方差之和;s為所有被應(yīng)試者所得總分的方差。(五)評(píng)分者信度一般論文式考試,只能提供列出答案要點(diǎn)的參考答案而無(wú)固定的標(biāo)準(zhǔn)答案,因而不同的評(píng)分者對(duì)同一份試卷給分不同,甚至有很大的懸殊。在作文測(cè)驗(yàn)、投射測(cè)驗(yàn)、品德測(cè)驗(yàn)、創(chuàng)造力測(cè)驗(yàn)等的評(píng)分中,都存在這個(gè)問(wèn)題。評(píng)分者所評(píng)的分?jǐn)?shù)越一致,評(píng)分的信度越高。 要計(jì)算評(píng)分者評(píng)分的一致性系數(shù),需區(qū)分評(píng)分者的人次數(shù)。若為2人評(píng)n份試卷,可用斯皮爾曼等級(jí)相關(guān)的公式計(jì)算;若三人以上的評(píng)分者評(píng)n份試卷時(shí),則需計(jì)算肯德?tīng)柡椭C系數(shù) 。 四、提高信度的方法(一)信度系數(shù)以多大

17、為宜信度系數(shù)究竟以多大為好,沒(méi)有明確的標(biāo)準(zhǔn)。要看測(cè)驗(yàn)的目的和類(lèi)型。對(duì)于學(xué)科測(cè)驗(yàn),信度系數(shù)要求達(dá)到0.9以上,智力測(cè)驗(yàn)要求達(dá)到0.8以上,品德測(cè)驗(yàn)?zāi)苓_(dá)到0.6以上就算不錯(cuò)了。(二)測(cè)量誤差的來(lái)源(1)測(cè)驗(yàn)本身所引起的誤差1測(cè)驗(yàn)本身的有些因素會(huì)直接產(chǎn)生誤差。例如,有些測(cè)驗(yàn)題目的格式,如判斷題,猜測(cè)的可能性很大,這就引起測(cè)驗(yàn)的不穩(wěn)定性。2如果測(cè)題的難度過(guò)大,以致每個(gè)被試者大量猜測(cè),則所有被試者的總分接近于隨機(jī)分布,所以測(cè)題越難,其信度越低。另一方面,測(cè)題越易,分?jǐn)?shù)離差越小,而信度也就越低。3規(guī)定時(shí)限可以鼓勵(lì)人們加速作出反應(yīng),但常常會(huì)引起不穩(wěn)定的測(cè)驗(yàn)分?jǐn)?shù)。4測(cè)題的用詞模棱兩可也會(huì)引起不穩(wěn)定的分?jǐn)?shù)。5測(cè)

18、驗(yàn)本身長(zhǎng)度也會(huì)影響信度,一般說(shuō)來(lái),測(cè)題越多,測(cè)驗(yàn)越可靠。6測(cè)驗(yàn)所包含的測(cè)題樣本也會(huì)引起測(cè)量誤差。測(cè)題取樣所引起的誤差在測(cè)驗(yàn)的單一形式中也可能出現(xiàn)。如果測(cè)驗(yàn)是要測(cè)量單一特性,那么,這個(gè)測(cè)驗(yàn)上的每一個(gè)測(cè)題都應(yīng)該測(cè)量它,而不該測(cè)量其他的東西。但是實(shí)際上,有些測(cè)題能測(cè)量多種心理特性,因此,在一個(gè)測(cè)驗(yàn)中所包含的特定測(cè)題的抽選就變成了一個(gè)誤差的可能來(lái)源。(2)測(cè)驗(yàn)的實(shí)施所引起的誤差1由于測(cè)驗(yàn)的經(jīng)驗(yàn)日益豐富,測(cè)驗(yàn)的實(shí)施更加標(biāo)準(zhǔn)化,實(shí)施條件的變化所引起的誤差可能性就大為減少。然而,由于對(duì)實(shí)施指導(dǎo)語(yǔ)的錯(cuò)誤理解,對(duì)答案紙的錯(cuò)劃,時(shí)間記錄的錯(cuò)誤以及一些不能預(yù)見(jiàn)的干擾等,都會(huì)產(chǎn)生誤差。2對(duì)一組被試實(shí)施測(cè)驗(yàn)不是同一個(gè)主

19、試,而是由多個(gè)主試實(shí)施,以及主試本身在安排測(cè)驗(yàn)上有較多的余地,這些也會(huì)引起誤差。3記分也會(huì)產(chǎn)生誤差,如論文式的測(cè)驗(yàn)和其他自由反應(yīng)的測(cè)題各格式,記分就很難做到完全客觀,從而產(chǎn)生誤差。(3)被試所引起的誤差這是最難控制的誤差。甚至當(dāng)我們具有測(cè)驗(yàn)的等同形式,在標(biāo)準(zhǔn)化的實(shí)施和記分程序下,測(cè)驗(yàn)的情境以最理想的方式加以安排,由于被試本身的不一致性也會(huì)使測(cè)驗(yàn)的分?jǐn)?shù)不一致。具體表現(xiàn)為:動(dòng)機(jī)的作用;學(xué)習(xí)、發(fā)展和教育的影響;對(duì)于測(cè)驗(yàn)的經(jīng)驗(yàn);測(cè)驗(yàn)的焦慮;生理因素等。(三)提高測(cè)驗(yàn)信度的方法(1)適當(dāng)增加測(cè)驗(yàn)題目的數(shù)量測(cè)驗(yàn)題目的數(shù)量越多,題目的代表性就越大。這種方法既可提高信度,也可提高效度。因此,一次測(cè)驗(yàn)的題目不能

20、太少。但題目太多也無(wú)法操作。所以,只能適當(dāng)增加測(cè)驗(yàn)題目的數(shù)量。(2)測(cè)驗(yàn)的難度要適中因?yàn)闇y(cè)驗(yàn)的難度中,能使測(cè)驗(yàn)難度達(dá)到最大,也能使測(cè)驗(yàn)的區(qū)分度達(dá)到最大,所以,必須使測(cè)驗(yàn)的難度適中。(3)測(cè)驗(yàn)的內(nèi)容應(yīng)盡量同質(zhì)如果測(cè)驗(yàn)的內(nèi)容過(guò)于龐雜,必然要求考生具有不同的能力、知識(shí)或技能,致使測(cè)驗(yàn)的信度降低。例如,外語(yǔ)、數(shù)學(xué)測(cè)驗(yàn)的信度常高于語(yǔ)文、歷史測(cè)驗(yàn)的信度。因此,為了提高測(cè)驗(yàn)的信度,測(cè)驗(yàn)內(nèi)容應(yīng)盡量同質(zhì)。(4)測(cè)驗(yàn)的程序應(yīng)統(tǒng)一測(cè)驗(yàn)的過(guò)程直接關(guān)系到信度的高低,可以說(shuō),信度主要是在測(cè)驗(yàn)的實(shí)施過(guò)程中要重點(diǎn)保證的。測(cè)驗(yàn)的程序統(tǒng)一包括試卷統(tǒng)一、測(cè)驗(yàn)開(kāi)始時(shí)的指導(dǎo)語(yǔ)、回答問(wèn)題的方式、分發(fā)及回收試卷的辦法、測(cè)驗(yàn)時(shí)間的掌握等,這

21、是關(guān)系到測(cè)驗(yàn)信度的重要因素。要嚴(yán)防舞弊現(xiàn)象的出現(xiàn),特別是集體舞弊現(xiàn)象,更不能泄露考題等惡劣行徑。(5)測(cè)驗(yàn)的時(shí)間要充分測(cè)驗(yàn)的時(shí)間限制也會(huì)影響信度的高低,如果安排的時(shí)間不購(gòu),考生不能從容回答所有問(wèn)題,也就不能真實(shí)地反映應(yīng)試者的實(shí)際水平。因此,測(cè)驗(yàn)的時(shí)間要充分。當(dāng)然,這里不是說(shuō),要保證所有考生都能做完試題,要以大多數(shù)考生為標(biāo)準(zhǔn)制定考試的時(shí)間。(6)評(píng)分要盡量做到客觀化、減少評(píng)分誤差對(duì)于主觀性測(cè)驗(yàn),很難制定明確的評(píng)分標(biāo)準(zhǔn),由于各評(píng)分者的標(biāo)準(zhǔn)不統(tǒng)一,很多主觀因素也能對(duì)評(píng)分產(chǎn)生消極影響。所以,首先要有明確的評(píng)分標(biāo)準(zhǔn);其次,最好多個(gè)專(zhuān)家同時(shí)評(píng)一份試卷,或者是單個(gè)評(píng)分者反復(fù)多次評(píng)一批試卷,對(duì)于幾次結(jié)果誤差較

22、大的,要復(fù)評(píng)。(7)應(yīng)試者參加測(cè)驗(yàn)的動(dòng)機(jī)水平、積極性、疲勞程度也會(huì)影響測(cè)驗(yàn)分?jǐn)?shù),從而影響測(cè)驗(yàn)信度。第二節(jié) 效度 一、 效度的概念效度是指測(cè)量結(jié)果的準(zhǔn)確性和有效性的程度,亦即測(cè)量是否達(dá)到了預(yù)期的目的。我們可以從以下幾個(gè)方面來(lái)理解效度:(一)測(cè)量的效度始終是對(duì)一定的測(cè)量目的而言的。一般而言,任何測(cè)量都有某種特定的目的和功能,判斷效度的高低,就是判斷測(cè)驗(yàn)達(dá)到目的的程度。如果能正確真實(shí)地測(cè)量出所想測(cè)量的東西,那么,對(duì)這一目的的效度是高的;反之,則是低的。例如,一個(gè)智力測(cè)驗(yàn),結(jié)果實(shí)際測(cè)量的不是智力的高低而是知識(shí)的多寡。那么,此測(cè)驗(yàn)的效度就低了。即使某種公認(rèn)效度較高的測(cè)量,也不能要求它在不同目的的測(cè)驗(yàn)中保

23、持相同的效度。(二)測(cè)量的效度也是對(duì)測(cè)量的結(jié)果而言。一種測(cè)量工具只有經(jīng)過(guò)實(shí)際測(cè)量,才能根據(jù)出來(lái)的結(jié)果判斷它的效度。所以,也可以把效度理解為測(cè)量的結(jié)果正確反映所欲測(cè)量的特性或功能的程度。不言而喻,對(duì)于任何一種測(cè)量來(lái)說(shuō),只有當(dāng)它的測(cè)量結(jié)果真實(shí)、正確地反映所欲測(cè)量的功能和特性時(shí),才能認(rèn)為這種測(cè)量是有效的或效度較高的。(三)一種測(cè)量的效度只是高或低的問(wèn)題。因?yàn)?,一種測(cè)量在編制時(shí),總是針對(duì)一定的目的而編寫(xiě)的。例如,要編制學(xué)生的數(shù)學(xué)能力,我們不會(huì)用語(yǔ)文題目來(lái)作為測(cè)題,總會(huì)用一些數(shù)學(xué)題。因此,學(xué)生數(shù)學(xué)能力或多或少會(huì)反映出來(lái)一些,不會(huì)毫無(wú)反應(yīng),換言之,測(cè)驗(yàn)結(jié)果總有一定的效度,只是效度高低不同罷了。(四)在教育

24、測(cè)量中,效度問(wèn)題比在其他領(lǐng)域的測(cè)量更為重要。因?yàn)椋菏紫?,教育測(cè)量的對(duì)象大多是精神現(xiàn)象,只能通過(guò)對(duì)其具有可測(cè)性的外部表現(xiàn)的測(cè)量,以間接認(rèn)識(shí)其心理活動(dòng)、心理特征或知識(shí)水平等;其次,學(xué)生的心理活動(dòng)、心理特征與其外部表現(xiàn)之間,一般具有相關(guān)關(guān)系而無(wú)函數(shù)關(guān)系,外部行為并不能準(zhǔn)確無(wú)誤地反映某種心理狀態(tài)。此外,教育測(cè)量的對(duì)象不是物而是具有主觀能動(dòng)性的人。人能有意識(shí)地調(diào)節(jié)自己的外部行為,掩蓋自己的內(nèi)心活動(dòng),這就增加了認(rèn)識(shí)其精神現(xiàn)象的難度。所以,每當(dāng)進(jìn)行教育、心理之類(lèi)的間接測(cè)量的時(shí)候,必須考慮是否測(cè)量到了索要測(cè)量的東西,在多大程度上測(cè)量到了這些東西。也就是說(shuō),必須考慮測(cè)量的效度問(wèn)題。 二、效度的理論公式實(shí)得分?jǐn)?shù)的

25、方差可進(jìn)一步分解為: =+=+ 其中,為潛在真分?jǐn)?shù)方差,為系統(tǒng)誤差方差 潛在真分?jǐn)?shù)方差 系統(tǒng)誤差方差 隨機(jī)誤差方差 效度的計(jì)算公式為:=由效度的計(jì)算公式可以看出,如果隨機(jī)誤差分?jǐn)?shù)的方差和系統(tǒng)誤差分?jǐn)?shù)的方差之和越小,則效度越高。從以上實(shí)得分?jǐn)?shù)方差的分解,可以看出,信度與效度之間的關(guān)系:第一種是高信度、高效度;第二種是高信度、低效度;第三種是低信度、低效度。 高信度、高效度 高信度、低效度 低信度、低效度因此,在信度與效度之間,首先要重點(diǎn)保證是高效度,因?yàn)?,高效度必然高信度;反之,則不然。特別是對(duì)于教育測(cè)量而言,效度問(wèn)題顯得更為重要。 三、效度的估計(jì)(一)內(nèi)容效度(1) 什么是內(nèi)容效度內(nèi)容效度是指

26、測(cè)驗(yàn)?zāi)康拇硭麥y(cè)量的內(nèi)容和引起預(yù)期反應(yīng)所達(dá)到的程度。也就是測(cè)量?jī)?nèi)容的代表性程度。在編制測(cè)驗(yàn)時(shí),內(nèi)容效度是一個(gè)相當(dāng)復(fù)雜和不易解決的問(wèn)題。以成績(jī)測(cè)驗(yàn)來(lái)說(shuō),固然要求測(cè)驗(yàn)題目能代表所學(xué)習(xí)過(guò)的全部?jī)?nèi)容,但僅僅在形式上做到這一點(diǎn)還不能保證足夠的內(nèi)容效度,因?yàn)閷W(xué)習(xí)成績(jī)的高低要從學(xué)習(xí)內(nèi)容的鞏固程度、理解程度和應(yīng)用能力幾種行為反應(yīng)去考察,如果測(cè)驗(yàn)題目大多是只需牢記教材就可以回答的問(wèn)題,那么,對(duì)全面測(cè)驗(yàn)學(xué)生的成績(jī)這一目的來(lái)說(shuō),內(nèi)容效度仍然不高,也就是說(shuō),還沒(méi)有完全測(cè)驗(yàn)到所想測(cè)量的特性和功能。(2) 估計(jì)內(nèi)容效度的方法1邏輯分析的方法這是根據(jù)教育學(xué)和心理學(xué)的理論,根據(jù)教學(xué)大綱的要求,勾畫(huà)出學(xué)生應(yīng)掌握知識(shí)內(nèi)容的范圍

27、和深度,提出應(yīng)形成的技能名稱(chēng)等,然后以邏輯分析的方法估計(jì)測(cè)驗(yàn)在多大程度上代表了這些內(nèi)容,在多大程度上能夠測(cè)量出所要測(cè)量的特性和功能。2用測(cè)驗(yàn)題目與教材內(nèi)容比較的方法先制兩個(gè)表:1測(cè)驗(yàn)的雙向細(xì)目表,列出所要測(cè)量的各單元教材內(nèi)容在考題中應(yīng)占的百分比和所要求的各種行為反應(yīng)在全部反應(yīng)中的百分比。2測(cè)驗(yàn)試題分類(lèi)表,根據(jù)各單元教材內(nèi)容列出試題,并注明該題所要求的行為反應(yīng)及其應(yīng)占的百分比。對(duì)照這兩個(gè)表,根據(jù)各個(gè)部分相符合的程度,判斷內(nèi)容效度的高低。(二)效標(biāo)關(guān)聯(lián)效度(1)效標(biāo)是用來(lái)衡量測(cè)驗(yàn)效度的尺度。1效標(biāo)就是足以顯示測(cè)驗(yàn)所欲測(cè)量的特性的變量或足以顯示測(cè)驗(yàn)所要預(yù)測(cè)的特性的變量,作為檢定效度的參照尺度。2具體

28、而言,效標(biāo)是辨別真?zhèn)蔚某叨龋?dāng)事物滿(mǎn)足該原則時(shí),才能存在。效標(biāo)是不能違反的。當(dāng)然,標(biāo)準(zhǔn)可以提高,也可以降低。效標(biāo)不僅隨測(cè)驗(yàn)的種類(lèi)的不同而不同,而且可能隨時(shí)間而改變?,F(xiàn)在是好的成功的效標(biāo),將來(lái)就不一定是。(2)選擇效標(biāo)是一件困難而重要的工作1教育測(cè)驗(yàn)所依循的效標(biāo),可采用各學(xué)科成績(jī)和教師的評(píng)定結(jié)果;2智力測(cè)驗(yàn)的效標(biāo),可采用學(xué)科成績(jī)、教師評(píng)判的結(jié)果、學(xué)生總成績(jī)、受教育年限、年齡以及其他事務(wù);3能力傾向測(cè)驗(yàn)的效標(biāo),可采用特殊課程或特殊訓(xùn)練的成績(jī);4職業(yè)興趣測(cè)驗(yàn)的效標(biāo),可采用從業(yè)人員實(shí)際服務(wù)成績(jī)或記錄;5人格測(cè)驗(yàn)的效標(biāo),很難找到,只能按編制者的主觀的標(biāo)準(zhǔn)來(lái)評(píng)判,或以被試以后的行為或臨床資料作為效標(biāo)。(3

29、)效標(biāo)關(guān)聯(lián)效度又可稱(chēng)為經(jīng)驗(yàn)效度或統(tǒng)計(jì)效度,是以測(cè)驗(yàn)分?jǐn)?shù)和效標(biāo)之間的相關(guān)系數(shù)來(lái)表示測(cè)驗(yàn)的效度的高低的。(4)效標(biāo)關(guān)聯(lián)效度又可分為同時(shí)效度和預(yù)測(cè)效度。1同時(shí)效度是指測(cè)驗(yàn)與當(dāng)前的效標(biāo)之間的關(guān)聯(lián)程度;2預(yù)測(cè)效度是指測(cè)驗(yàn)與將來(lái)的效標(biāo)之間的關(guān)聯(lián)程度;3例如,用全國(guó)高考的成績(jī)作為效標(biāo)來(lái)檢驗(yàn)高中畢業(yè)會(huì)考的成績(jī),計(jì)算兩者之間的相關(guān)系數(shù)就是會(huì)考的同時(shí)效度;用大學(xué)一年級(jí)的成績(jī)作為效標(biāo)來(lái)檢驗(yàn)高考的成績(jī),計(jì)算兩者之間的相關(guān)系數(shù)就是高考的預(yù)測(cè)效度。(5)效標(biāo)關(guān)聯(lián)效度的計(jì)算方法參閱有關(guān)的教育統(tǒng)計(jì)學(xué)教材(三)結(jié)構(gòu)效度(1)所謂結(jié)構(gòu)效度,是指一個(gè)測(cè)量能實(shí)際測(cè)量出理論上的構(gòu)念或心理特性的程度。它的目的在于用心理學(xué)的概念來(lái)說(shuō)明分析

30、測(cè)驗(yàn)分?jǐn)?shù)的意義,也就是說(shuō)從心理學(xué)的理論觀點(diǎn)就測(cè)驗(yàn)的結(jié)果加以解釋和探討。這里結(jié)構(gòu)的含義是心理學(xué)理論所涉及的抽象而屬假設(shè)性的概念、特性或變量,如智力、焦慮、機(jī)械能力傾向、成就、動(dòng)機(jī)等。(2)結(jié)構(gòu)效度的確定方法:1從某一結(jié)構(gòu)理論出發(fā),導(dǎo)出各項(xiàng)關(guān)于心理功能或行為的基本假設(shè)2據(jù)此編制測(cè)驗(yàn);3由果溯因,以相關(guān)、實(shí)驗(yàn)和因素等方法,檢驗(yàn)測(cè)驗(yàn)結(jié)果是否符合心理學(xué)上的理論見(jiàn)解。(3)確立一個(gè)測(cè)量的結(jié)構(gòu)效度需要兩個(gè)步驟1必須指出,這個(gè)測(cè)量和所有理論上認(rèn)為應(yīng)與之有關(guān)的其他測(cè)量,有顯著的相關(guān)。2必須指出這個(gè)測(cè)量與所有理論上認(rèn)為不應(yīng)與之有關(guān)的其他測(cè)量,沒(méi)有顯著的相關(guān)。 四、提高效度的方法(一)各種效度系數(shù)的要求(1)不同的

31、測(cè)驗(yàn)對(duì)效度系數(shù)有不同的要求,例如,智力測(cè)驗(yàn)分?jǐn)?shù)與教師對(duì)學(xué)生的等級(jí)評(píng)定之間的效度系數(shù)一般在0.300.50的范圍內(nèi);相同科目的標(biāo)準(zhǔn)測(cè)驗(yàn)成績(jī)與教師對(duì)學(xué)生名次排列之間的相關(guān)系數(shù)一般應(yīng)達(dá)到0.600.70;兩種不同的智力測(cè)驗(yàn)或標(biāo)準(zhǔn)測(cè)驗(yàn)之間的相關(guān)系數(shù)應(yīng)達(dá)到0.600.80,才符合要求。(2)對(duì)效度系數(shù)大小的要求,也受原測(cè)驗(yàn)與獲得效標(biāo)的測(cè)驗(yàn)之間的相似性的制約。若二者不相似,則效度系數(shù)偏低;若相似,則效度系數(shù)會(huì)高些。所以,有的測(cè)驗(yàn)效度系數(shù)達(dá)到0.35即已符合要求,有的卻要達(dá)到0.650.77才能被認(rèn)為是有效的測(cè)驗(yàn)。(二)影響效度的因素(1)測(cè)驗(yàn)組成方面測(cè)題是構(gòu)成測(cè)驗(yàn)的要素。而測(cè)題的性能是影響測(cè)驗(yàn)效度的因素之

32、一。例如,測(cè)驗(yàn)的取材、長(zhǎng)度,側(cè)題的鑒別力、難度及其編排方式等都和效度有關(guān)。如果測(cè)驗(yàn)材料經(jīng)審慎地選擇,測(cè)驗(yàn)的長(zhǎng)度恰當(dāng),測(cè)題具有相當(dāng)?shù)蔫b別力且難度分布適當(dāng),并對(duì)測(cè)驗(yàn)作出合理的安排,就能提高測(cè)驗(yàn)的效度。(2)測(cè)驗(yàn)實(shí)施方面一個(gè)測(cè)驗(yàn)的效度要得到保證,主試應(yīng)當(dāng)適當(dāng)控制測(cè)驗(yàn)情景,遵照測(cè)驗(yàn)守則的各項(xiàng)規(guī)定實(shí)施。例如場(chǎng)地的布置、材料的準(zhǔn)備、回答方式的說(shuō)明、時(shí)間的限制等。如不遵照標(biāo)準(zhǔn)化的程序進(jìn)行,則必然使效度降低。(3)被試主觀狀態(tài)方面被試的興趣、動(dòng)機(jī)、情緒、態(tài)度和身體健康狀況以及是否充分合作與盡力而為等,都能影響測(cè)驗(yàn)結(jié)果的可靠性和自己正確性。無(wú)論是能力測(cè)驗(yàn)還是人格測(cè)驗(yàn),只有借助被試者真實(shí)的反應(yīng),才能正確地推斷其心

33、理特性和適應(yīng)狀況。(4)估計(jì)效度所依據(jù)的效標(biāo)選擇適當(dāng)?shù)男?biāo)是統(tǒng)計(jì)效度的先決條件。從統(tǒng)計(jì)的觀點(diǎn)來(lái)分析,一個(gè)效標(biāo)關(guān)聯(lián)效度受下列三個(gè)因素影響:1 測(cè)驗(yàn)的信度2效標(biāo)變量測(cè)量的信度3測(cè)驗(yàn)變量和效標(biāo)變量之間真正的相關(guān)程度。(5)樣本方面1適用的對(duì)象一個(gè)測(cè)驗(yàn)應(yīng)用于不同的對(duì)象,由于他們?cè)谛詣e上、年齡上、教育程度上以及經(jīng)驗(yàn)背景上的差別,其測(cè)驗(yàn)功能不一致,效度也隨之而異。2規(guī)模的大小當(dāng)樣本容量增加時(shí),測(cè)量的誤差有相互抵消的趨勢(shì),因而所得的結(jié)果較穩(wěn)定。3異質(zhì)性如果其他條件相同,樣本分?jǐn)?shù)全距愈大,則效度系數(shù)愈高。(三)提高效度的方法(1)控制系統(tǒng)誤差效度的高低主要受系統(tǒng)誤差的影響。例如,儀器沒(méi)有校準(zhǔn)、題目和指導(dǎo)語(yǔ)有暗

34、示性、答案有明顯的組型等因素都會(huì)影響測(cè)驗(yàn)的效度。因此,必須控制這些因素。(2)精心編制量表1測(cè)驗(yàn)內(nèi)容要確實(shí)能反應(yīng)測(cè)驗(yàn)?zāi)康模?題目表述必須清楚、簡(jiǎn)明,所用字、詞、句為學(xué)生理解,內(nèi)容應(yīng)能引起被試者的興趣,排列由易到難,但前面的題目不應(yīng)暗示后面的答案;3題目難度合適,有足夠的區(qū)分度;4試卷印制清楚,無(wú)錯(cuò)誤和遺漏,并力求精美。(3)妥善組織測(cè)驗(yàn)嚴(yán)格按照測(cè)驗(yàn)手冊(cè)進(jìn)行,不作超出規(guī)定的解釋?zhuān)莆蘸脺y(cè)驗(yàn)時(shí)間。評(píng)分時(shí)務(wù)必遵循評(píng)分標(biāo)準(zhǔn),仔細(xì)登記,避免錯(cuò)誤。兩次測(cè)驗(yàn)間隔時(shí)間也影響效度,所以,間隔長(zhǎng)短,一定要按測(cè)驗(yàn)?zāi)康暮侠戆才?。?)擴(kuò)大樣本的容量和代表性加大樣本容量,可以增加樣本對(duì)總體的代表性,而且使隨機(jī)誤差相互

35、抵消,使測(cè)量更可靠。同時(shí),樣本加大了,被試者差異也就加大了,潛在真分?jǐn)?shù)的方差隨著增加了,效度也就提高了。(5)合理處理效度與信度的關(guān)系1信度是效度的必要條件。雖然信度高的測(cè)驗(yàn)效度不一定高,但效度高的測(cè)驗(yàn),信度卻一定比較高。效度和信度的關(guān)系是:效度的最大值等于信度的平方根。但是,既要有高效度,同時(shí)又要有高信度,是不大可能的。例如,同質(zhì)性測(cè)驗(yàn)信度較高,但對(duì)于預(yù)測(cè)來(lái)說(shuō),效度高,但是信度卻比較低。所以,要提高預(yù)測(cè)效度的一個(gè)重要方法,是增加非同質(zhì)性,即增加新因素。2 在處理信度與效度關(guān)系問(wèn)題上,首先要保證高效度。(6)適當(dāng)增加測(cè)驗(yàn)的長(zhǎng)度增加測(cè)驗(yàn)的長(zhǎng)度可以提高信度,而效度的最大值又與信度有關(guān),所以,也可以

36、提高效度。增加測(cè)驗(yàn)長(zhǎng)度對(duì)信度的影響大于對(duì)效度的影響。適當(dāng)增加測(cè)驗(yàn)題目的數(shù)量既可以提高信度,又可以提高效度。第三節(jié) 難度 一、難度的概念 難度是指測(cè)驗(yàn)試題的難易程度。例如,在教育測(cè)量中,客觀題的難度一般用正確回答試題的人數(shù)與參加測(cè)驗(yàn)的總?cè)藬?shù)的比值來(lái)表示。其公式為:p=式中,p代表試題難度,r為答對(duì)試題的人數(shù),n代表參加測(cè)驗(yàn)的總?cè)藬?shù)。 這里,難度實(shí)際上表示的是易度,與試題的實(shí)際困難程度正好相反。這是傳統(tǒng)的難度計(jì)算公式,應(yīng)用已極為廣泛。一則是習(xí)慣;二則與后面的難度轉(zhuǎn)換也是一致的。因此,只要理解它的意義,并不會(huì)造成認(rèn)識(shí)上的混亂。 難度是試題對(duì)學(xué)生知識(shí)和能力水平的適合程度的指標(biāo)。試題的難度不但對(duì)題目的區(qū)

37、分度(見(jiàn)本章第四節(jié))有影響,而且對(duì)試卷的信度和效度也有較大的影響。 很明顯,難度是一個(gè)相對(duì)的概念,難度的高低與被試的水平直接相關(guān)。一種測(cè)量對(duì)這一組被試是高難度的,可能對(duì)另一組被試是低難度的。也就是說(shuō),難度是由參與測(cè)量的被試群體的整體水平?jīng)Q定的。因此,我們不能籠統(tǒng)地說(shuō),這種測(cè)量的難度如何,而應(yīng)該談這種測(cè)量對(duì)某類(lèi)被試的難度怎樣。 二、難度的計(jì)算 (一)計(jì)算難度的基本公式 1客觀題難度的計(jì)算 p=式中,p表示難度指標(biāo),n表示參加考試的總?cè)藬?shù),r表示答對(duì)某道客觀題的人數(shù)。很顯然,這里的難度指標(biāo),表示的是試題的通過(guò)率。通過(guò)率越高,題目越容易;反之,越難。 例如,100人參加測(cè)驗(yàn),某題有60人答對(duì),則此題

38、的難度為:p= =060 此題的通過(guò)率為60,難度適中。 2主觀題難度的計(jì)算: p=式中,p還是表示難度指標(biāo),表示所有考生在這道題上的平均得分,k表示這道論文題的滿(mǎn)分。例如,某道論述題滿(mǎn)分12分,所有考生在這道題上的平均得分為3.6分,則此題的難度為:p=0.3 此題偏難。 (二)用極端分組法計(jì)算試題的難度 當(dāng)考生人數(shù)較多時(shí),用基本公式計(jì)算難度需要對(duì)所有考生的得分情況進(jìn)行統(tǒng)計(jì),工作量很大,而且常常出錯(cuò),這時(shí)可以用“極端分組法”求試題的難度。不管是客觀題還是主觀題都可采用這種方法,而且還可以同時(shí)計(jì)算試題的區(qū)分度(見(jiàn)本章第四節(jié))。 1用極端分組法計(jì)算客觀題的難度 具體步驟如下: (1)先按測(cè)驗(yàn)總分

39、的高低,按由高到低的順序,依次排列試卷。 (2)從得分最高的一份試卷開(kāi)始依次向下選出全部試卷的7,作為高分組。 (3)從得分最低的一份試卷開(kāi)始依次向上選出全部試卷的27,作為低分組。 (4)按下列公式計(jì)算難度, p=式中,p為難度,p為高分組的難度,p為低分組的難度。高分組和低分組的難度計(jì)算按照求難度的基本公式進(jìn)行計(jì)算。 2用極端分組法計(jì)算論文題的難度 論文試題一般不能簡(jiǎn)單地判定對(duì)、錯(cuò)或通過(guò)、不通過(guò),難度計(jì)算比較復(fù)雜一些。具體步驟如下: (1)按測(cè)驗(yàn)得分排列試卷,確定高分組與低分組,各占總?cè)藬?shù)的25(方法與前面相同)。 (2)分別為高分組、低分組編制每道試題的分析表。 (3)按下列公式計(jì)算難度

40、, p=上式中,p表示難度指數(shù),x表示高分組得分總和,x表示低分組得分總和,n表示總?cè)藬?shù)的25,h為這道題的最高得分,l為這道題的最低得分。 例如,某道論文題,高分組得分總和為40分,低分組得分總和為15分,有40人參加考試,這題最高得分為8分,最低得分為2分,則此題的難度為:p=0.125此題偏難。 三、難度對(duì)測(cè)驗(yàn)的影響 1測(cè)驗(yàn)難度影響測(cè)驗(yàn)分?jǐn)?shù)的分布形態(tài) 難度值過(guò)大或過(guò)小,都會(huì)造成測(cè)驗(yàn)分?jǐn)?shù)的偏態(tài)分布。難度值越接近0,測(cè)驗(yàn)的難度就越大,正確回答試題的人數(shù)就越少,測(cè)驗(yàn)分?jǐn)?shù)就越是集中在低分段,其分?jǐn)?shù)分布呈正偏態(tài);相反,難度值越接近1,其難度就越小,正確回答試題的人數(shù)就越多,測(cè)驗(yàn)分?jǐn)?shù)集中在高分段,分

41、數(shù)分布呈現(xiàn)負(fù)偏態(tài)。 2測(cè)驗(yàn)難度影響測(cè)驗(yàn)分?jǐn)?shù)的離散程度 測(cè)驗(yàn)難度直接影響測(cè)驗(yàn)分?jǐn)?shù)的離散程度,因?yàn)殡y度過(guò)大或過(guò)小,測(cè)驗(yàn)分?jǐn)?shù)的分布都呈偏態(tài)分布,亦即測(cè)驗(yàn)分?jǐn)?shù)都分布在高分段或低分段,這樣,測(cè)驗(yàn)分?jǐn)?shù)的離散程度就變小了。而這不一定符合考生的實(shí)際情況,因?yàn)榭忌牟町愂强陀^存在的。只有難度適中的測(cè)驗(yàn),其分?jǐn)?shù)的分布范圍才有可能達(dá)到最大。 3測(cè)驗(yàn)難度影響測(cè)驗(yàn)的鑒別能力 這里實(shí)際上談的是難度對(duì)區(qū)分度的影響。適中的難度可使試題的區(qū)分度達(dá)到最大。這在后面還要說(shuō)明。 四、測(cè)驗(yàn)的適宜難度 從以上難度值的計(jì)算公式,我們可以得出難度值p的取值范圍為:0p1,當(dāng)p=0時(shí),試題的實(shí)際困難程度最大(所有的考生都得0分),當(dāng)p=l時(shí),

42、試題的實(shí)際難度最小(所有的考生都全對(duì))。 在常模參照性測(cè)驗(yàn)中要求試題難度適中,即大多數(shù)題目的難度在0307之間,少數(shù)題目可在這一范圍之兩邊且題數(shù)(或題分)大體相當(dāng),使整個(gè)試卷的平均難度為05左右(045055之間)。只有適中的題目難度,才能使試題產(chǎn)生區(qū)分不同程度考生的最大效果,也才能使考生得分呈正態(tài)分布。而對(duì)全部考生都能做或都不會(huì)做的題目則應(yīng)予刪去。 對(duì)于其他類(lèi)型的測(cè)驗(yàn),目的不同對(duì)難度的要求也不同。比如,選拔奧林匹克數(shù)學(xué)競(jìng)賽的學(xué)生,難度值就得偏??;而選擇補(bǔ)習(xí)功課的學(xué)生,難度值就得偏大。 五、控制題目難度的基本方法一般說(shuō)來(lái)影響題目難度的主要因素有:考查知識(shí)點(diǎn)的多少;考查能力的復(fù)雜程度或?qū)哟蔚母叩?/p>

43、;考生對(duì)題目的熟悉程度(如本來(lái)較易的題目會(huì)因考生均未注意而造成很難,或本來(lái)較難的題目會(huì)因?yàn)榭忌毡榫毩?xí)過(guò)而變得較容易);命題的技巧性(如同一個(gè)問(wèn)題,可以命得容易,也可以命得較難)。 控制題目因素除了考慮上述因素,還可以通過(guò)其它方法來(lái)控制。在平常的教學(xué)考試中,由于老師對(duì)學(xué)生的情況比較了解,因而主要憑經(jīng)驗(yàn)來(lái)控制難度,使之與老師的教學(xué)難度相適應(yīng)。而在大規(guī)模的測(cè)試中,就要通過(guò)預(yù)測(cè)來(lái)掌握難度了。首先由命題人員根據(jù)上述因素估計(jì)一個(gè)難度范圍;然后通過(guò)測(cè)試看這個(gè)估計(jì)的準(zhǔn)確程度,分析原因,進(jìn)而提高評(píng)估能力。經(jīng)過(guò)預(yù)測(cè)取得難度的題目可以進(jìn)入題庫(kù),以備后用。第四節(jié) 區(qū)分度 一、區(qū)分度的意義 (一)區(qū)分度的概念區(qū)分度是

44、指測(cè)驗(yàn)對(duì)考生實(shí)際水平的區(qū)分程度,用符號(hào)d表示。具有良好區(qū)分度的測(cè)驗(yàn),實(shí)際水平高的應(yīng)該得高分,實(shí)際水平低的應(yīng)該得低分。所以,區(qū)分度又叫鑒別力。它是評(píng)價(jià)試題質(zhì)量,篩選試題的主要指標(biāo)與依據(jù)。區(qū)分又分為正區(qū)分(d>0)、零區(qū)分(d=0)和負(fù)區(qū)分(d<0),正區(qū)分又稱(chēng)積極區(qū)分,負(fù)區(qū)分又稱(chēng)消極區(qū)分。所謂1)正區(qū)分是指實(shí)際水平高的考生得了高分,實(shí)際水平低的考生得了低分;負(fù)區(qū)分正好相反;零區(qū)分是指實(shí)際水平高低與得分之間沒(méi)有太大的關(guān)系,呈現(xiàn)出零相關(guān)。 任何測(cè)驗(yàn)的目的之一,都是希望能夠鑒別考生的實(shí)際水平。這實(shí)際上也是測(cè)驗(yàn)的信度和效度在題目上的具體要求。區(qū)分度的高低直接影響到測(cè)驗(yàn)的信度和效度。 (二)區(qū)

45、分度與測(cè)驗(yàn)信度、難度的關(guān)系1區(qū)分度與信度的關(guān)系表3.2 區(qū)分度與測(cè)驗(yàn)信度的關(guān)系區(qū)分度 信度0.1225 0.000.16 0.420.20 0.630.30 0.840.40 0.9150.50 0.949 此表是1962年rl艾伯發(fā)表的,這里是假定全部試題的難度均為050時(shí)所預(yù)測(cè)的信度系數(shù)。里面的區(qū)分度指的是平均值。可見(jiàn),要想達(dá)到理想的測(cè)驗(yàn)信度,提高區(qū)分度是一個(gè)好方法。2區(qū)分度與難度的關(guān)系表3.3 區(qū)分度的最大值與難度的關(guān)系難度(p) 1.00 0.90 0.70 0.50 0.30 0.10 0.00區(qū)分度的最大值 0.00 0.20 0.60 1.00 0.60 0.20 0.00 由上

46、表可知,難度適中,可使區(qū)分度達(dá)到最大值。 二、區(qū)分度的計(jì)算 區(qū)分度的計(jì)算有多種方法,這里介紹幾種。 (一)用極端分組法計(jì)算區(qū)分度 1客觀題區(qū)分度的計(jì)算 用這種方法計(jì)算區(qū)分度與計(jì)算難度的方法基本相同,只是最后一步按下列公式計(jì)算區(qū)分度: d=pp 以上公式中d表示區(qū)分度,p表示高分組的難度,p表示低分組的難度。例如,某題高分組有70的人答對(duì),低分組有30的人答對(duì),則此題的區(qū)分度為04。 2主觀題區(qū)分度的計(jì)算 主觀題區(qū)分度的計(jì)算方法與客觀題不同。首先,在分組方面,高分組和低分組各取25的總?cè)藬?shù),然后按以下公式計(jì)算:p = 上式中,d表示區(qū)分度,x表示高分組得分總數(shù),x表示低分組得分總數(shù),n表示總?cè)藬?shù)

47、的25,h表示這道題的最高得分,l表示這道題的最低得分。 (-)用內(nèi)部一致性系數(shù)計(jì)算區(qū)分度 用極端分組法分析測(cè)驗(yàn)項(xiàng)目的區(qū)分度雖然計(jì)算簡(jiǎn)便、易于理解,但所得結(jié)果不精確,通常只在教師編制的課堂測(cè)驗(yàn)中使用。在標(biāo)準(zhǔn)化的或大規(guī)模的測(cè)驗(yàn)中,多采用相關(guān)法分析試題的區(qū)分度。 計(jì)算區(qū)分度可以采用點(diǎn)二列相關(guān)、二列相關(guān)、相關(guān)系數(shù)等方法計(jì)算相關(guān)系數(shù)來(lái)表示區(qū)分度(參見(jiàn)有關(guān)教育統(tǒng)計(jì)學(xué)的教材)。點(diǎn)二列相關(guān)適用于計(jì)算客觀題的區(qū)分度;二列相關(guān)適用于計(jì)算多重選擇題的區(qū)分度;相關(guān)系數(shù)適用于二個(gè)變量都是二分名義變量的區(qū)分度。 計(jì)算區(qū)分度時(shí),要根據(jù)不同的測(cè)驗(yàn)?zāi)康倪x用適宜的方法。只有這樣,才能正確地判定測(cè)驗(yàn)的區(qū)分度。 三、提高區(qū)分度的方

48、法 1使題目的難度適中,使整個(gè)考試難度適中 難度與區(qū)分度的關(guān)系在上表中已有說(shuō)明,題目的難度適中可使區(qū)分度達(dá)到最大值。因此,使難度適中是提高區(qū)分度的重要方法。 2著重考察復(fù)雜的學(xué)習(xí)結(jié)果 盡量考察復(fù)雜的學(xué)習(xí)結(jié)果,使高能學(xué)生能得高分或最高分,低能學(xué)生得低分甚至最低分,使分?jǐn)?shù)盡量分布在整個(gè)分?jǐn)?shù)量尺上。這樣,可以提高區(qū)分度。 四、區(qū)分度的評(píng)價(jià)標(biāo)準(zhǔn)區(qū)分度自然是越高越好,但要做到這一點(diǎn)較難。一般說(shuō)來(lái)可參照下表標(biāo)準(zhǔn)。對(duì)于有些要求不高的測(cè)驗(yàn),有些試題的區(qū)分度低一些也是容許的。 區(qū)分度 評(píng)價(jià)0.40以上 非常良好0.300.39 良好,如能改進(jìn)更好0.200.29 尚可,用時(shí)需作改進(jìn)0.19以下 劣,必須淘汰或改進(jìn)以提高區(qū)分度方可使用表 3.4 采用極端分組法計(jì)算的區(qū)分度的評(píng)價(jià)標(biāo)準(zhǔn)剩稍瞞量叭贅熔鴻芯樹(shù)益醇旬閻橫閩耽柒寐頰害卵斗贅燦武掩瑚永炭攙部炸促倉(cāng)和癌薯悔簇敦緬砧秤蛙襲升悶賺簽的廢夯替炙苫脯段靠勘爸疑維眩裙攜?,斂莶狼及颜研“囝j癡蔫銅籮碘賞鉤逝撐溢催滓涼肪綱鞏淋睜很豪仿隔室烘疑攢懸蝗軀酵債糜攣壁烘鄧囪畦陋怎資陵粟剿揭郊檢昆輿簾棉矛惶慕酪瘴采猛算茵敦哄鯉毒蔥嶼叔覽拙玫常鱉丘貴鑒頸胸磅胯淌

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論