IRT與CTT中合格分?jǐn)?shù)的確立方法_第1頁
IRT與CTT中合格分?jǐn)?shù)的確立方法_第2頁
IRT與CTT中合格分?jǐn)?shù)的確立方法_第3頁
IRT與CTT中合格分?jǐn)?shù)的確立方法_第4頁
IRT與CTT中合格分?jǐn)?shù)的確立方法_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、IRT與CTT中合格分?jǐn)?shù)的確立方法鄧遠(yuǎn)平 鄧遠(yuǎn)平(1979),男,江西興國(guó),現(xiàn)為集美大學(xué)教師教育學(xué)院助教,研究方向?yàn)樾睦斫y(tǒng)計(jì)與測(cè)量集美師范大學(xué)教師教育學(xué)院(廈門,361021) 摘要:如何確立標(biāo)準(zhǔn)參照測(cè)驗(yàn)中的合格分?jǐn)?shù)是涉及到測(cè)驗(yàn)公平性的一個(gè)技術(shù)問題,本文介紹了經(jīng)典測(cè)驗(yàn)理論(Classical test theory, 以下簡(jiǎn)稱CTT)下的被試組對(duì)比判斷法、測(cè)驗(yàn)內(nèi)容分析判斷法及項(xiàng)目反應(yīng)理論(Item response theory,以下簡(jiǎn)稱IRT)指導(dǎo)下的確立方法。希望能對(duì)廣大考試工作者有所啟發(fā)。關(guān)鍵詞:合格分?jǐn)?shù);標(biāo)準(zhǔn)誤;IRT;CTT1前言考試的公平性是一個(gè)受到廣泛關(guān)注的問題,中國(guó)的考試歷史悠

2、久,自隋朝的科舉考試以來,已有一千多年的歷史了。今天,大多數(shù)人認(rèn)為考試是“天然公平”的, “考試面前人人平等”這種觀念在人們腦中已植下了根。如果因考試成績(jī)不好而被拒絕入學(xué)或錄用,被試大多并無怨言,首先從自身的角度出發(fā)去找原因,認(rèn)為自己學(xué)識(shí)不深,極少人會(huì)去質(zhì)詢這項(xiàng)考試是否可靠??梢员灰暈榭荚囶I(lǐng)域行業(yè)標(biāo)準(zhǔn)的權(quán)威文獻(xiàn)教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)(1999年新版)中寫道:“不論是就整個(gè)社會(huì)而言,還是就測(cè)量專業(yè)的學(xué)術(shù)界而言,近期都還看不到人們?cè)跍y(cè)驗(yàn)公平問題上取得一致意見的前景”1。標(biāo)準(zhǔn)參照測(cè)驗(yàn)中合格分?jǐn)?shù)(standard setting,cut-off score,cutscore)的確立就涉及到考試公平性,它屬

3、于公平概念中的一個(gè)技術(shù)問題。如果在一次考試中,能力較低的考生可能獲得資格證書,能力較高的考生可能沒有獲得;或者是能力高與能力低的考生都未獲得或都獲得資格證書;出現(xiàn)這類現(xiàn)象顯然對(duì)考生是不公平的。減少出現(xiàn)這種現(xiàn)象的概率的一個(gè)方法就是科學(xué)合理地確定合格分?jǐn)?shù)。2關(guān)于合格分?jǐn)?shù),這類測(cè)驗(yàn)對(duì)測(cè)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)的標(biāo)準(zhǔn)不是常模,而是根據(jù)特定的操作標(biāo)準(zhǔn)和行為領(lǐng)域。被試最后的測(cè)驗(yàn)結(jié)果是被作出是否達(dá)標(biāo)或達(dá)到什么程度的判斷,它只判斷分?jǐn)?shù)是否達(dá)到了相應(yīng)的水平,而與其他人的分?jǐn)?shù)無關(guān)。當(dāng)今社會(huì)上屬于標(biāo)準(zhǔn)參照性的考試有很多,律師的資格考試、全國(guó)計(jì)算機(jī)等級(jí)考試、自學(xué)考試、會(huì)計(jì)師、經(jīng)濟(jì)師等。合格分?jǐn)?shù)是這類考試必不可少的指標(biāo),它是判斷

4、應(yīng)試者是否達(dá)到了相應(yīng)用人部門所要求的目標(biāo)的根據(jù),它保證了測(cè)驗(yàn)的科學(xué)性、被試參與競(jìng)爭(zhēng)的公平性,它為用人部門區(qū)分應(yīng)試者勝任與否提供更豐富、可靠的信息,從而使用人部門的決策更明智。確定合格分?jǐn)?shù)問題仍是教育測(cè)量中一個(gè)棘手的問題,被形象地稱為“致命的弱點(diǎn)”(Achilles'heel)。這主要是因?yàn)樵谶@些方法中沒有一個(gè)放之四海而皆準(zhǔn)的選擇,而且每個(gè)方法的結(jié)果也很難得到效度資料來驗(yàn)證。從這個(gè)意義上來說,幾乎沒有任何方法是絕對(duì)正確的,所以,與其說是需要最好的方法,不如說是尋找最適合的方法。3合格分?jǐn)?shù)的確立方法目前,教育測(cè)驗(yàn)理論主要有兩大理論:CTT與IRT。兩種理論中都有各自確立合格分?jǐn)?shù)的方法。3.

5、1CTT中合格分?jǐn)?shù)的確立方法CTT是最早出現(xiàn)的理論,它建立在真實(shí)分?jǐn)?shù)的模式基礎(chǔ)上,該模式認(rèn)為任何測(cè)量值都由兩部分組成:真實(shí)分?jǐn)?shù)和誤差分?jǐn)?shù),兩者之間沒有任何聯(lián)系,相互獨(dú)立。CTT中合格分?jǐn)?shù)的確立方法有多種,本文主要介紹CTT中具有代表性的兩種方法。被試組對(duì)比判斷法首先區(qū)分出典型的掌握被試組和未掌握被試組,然后將兩組的分?jǐn)?shù)分布狀況標(biāo)繪在同一量尺上,有下圖所示:掌握組未掌握組合格分?jǐn)?shù)圖1兩個(gè)分?jǐn)?shù)分布曲線交點(diǎn)在量尺上的位置,就是劃界分?jǐn)?shù)。如果大于該點(diǎn)的被試將劃入已掌握組,分?jǐn)?shù)小于該點(diǎn)的被試將歸為未掌握類。當(dāng)然理論上還存在另一種情況,如果兩組明顯來源于兩個(gè)水平差異非常的群體,這時(shí)劃界分?jǐn)?shù)在兩條曲線未交叉

6、區(qū)域的任意地點(diǎn)都一樣,但這種情況在實(shí)際考試中一般不會(huì)出現(xiàn)。 被試組對(duì)比判斷的結(jié)果依賴于樣本,對(duì)照組構(gòu)成若有不同,則劃界分?jǐn)?shù)也會(huì)隨之變化,有人主張構(gòu)建若干對(duì)對(duì)照組,求出多個(gè)值后再求平均數(shù),以平均數(shù)作為劃界分?jǐn)?shù),考夫勒(Koffler)曾用二次判別函數(shù)來優(yōu)化區(qū)分點(diǎn)的選取工作,以使區(qū)分誤差最小??傊寗澖绶?jǐn)?shù)準(zhǔn)確,就必須盡量使得對(duì)照組的構(gòu)成準(zhǔn)確。測(cè)驗(yàn)內(nèi)容分析判斷法邀請(qǐng)一批專家對(duì)測(cè)驗(yàn)所含項(xiàng)目逐一分析,請(qǐng)他們估出剛剛合格者在每個(gè)項(xiàng)目上的答對(duì)概率,然后算出每個(gè)項(xiàng)目的平均答對(duì)概率,再將測(cè)驗(yàn)上每個(gè)項(xiàng)目平均答對(duì)概率乘以其分值求和,即得劃界分?jǐn)?shù)。計(jì)算公式為: 公式中為劃界分?jǐn)?shù)、 為每一個(gè)專家估出的每一項(xiàng)目剛剛合

7、格者的答對(duì)概率、為第題的滿分、k為專家數(shù)、n為項(xiàng)目數(shù)。假設(shè)一份測(cè)驗(yàn)包含四個(gè)題目,分值分別為30、20、30、20,下表是三個(gè)專家評(píng)出剛達(dá)到合格分?jǐn)?shù)的被試在每一項(xiàng)目上的答對(duì)概率。表一專家評(píng)定概率表題目(總分)專家 1(30)2(20)3(30)4(20)甲0.400.400.650.50乙0.500.350.500.45丙0.600.450.650.55為保證判斷更加準(zhǔn)確,艾伯爾要求各專家對(duì)各項(xiàng)目的難度及所測(cè)內(nèi)容的重要性作出估計(jì),并以此再對(duì)項(xiàng)目答對(duì)概率加權(quán),最后求加權(quán)和作為劃界分?jǐn)?shù)。專家內(nèi)容的判斷則難以排除主觀偏向的影響,因?yàn)閷<医M的質(zhì)量不僅可以影響劃界分?jǐn)?shù)的結(jié)果,而且會(huì)影響標(biāo)準(zhǔn)的信度。專家的挑

8、選與培訓(xùn)是標(biāo)準(zhǔn)確立過程中十分重要的組成部分。(1)專家的挑選在選擇專家時(shí)應(yīng)該考慮的主要問題有兩個(gè):專家的資格和專家的數(shù)量。選擇的專家應(yīng)具備四點(diǎn)素質(zhì):要有考試所需要的主要知識(shí);要對(duì)考生群有一個(gè)很好的了解;要了解考生所接受的教育背景并且對(duì)于教育質(zhì)量中的各種變化表現(xiàn)出敏感性;要具備考試工作者的能力,如能估計(jì)出項(xiàng)目參數(shù)。(2)專家的培訓(xùn)由于專家的情況和水平各不相同,在正式程序開始之前,必須對(duì)專家進(jìn)行統(tǒng)一的培訓(xùn)。首先,需要明確有關(guān)內(nèi)容,主要包括關(guān)于標(biāo)準(zhǔn)確立的有關(guān)情況和關(guān)于標(biāo)準(zhǔn)確立使用的方法。其次,訓(xùn)練估計(jì)邊緣組。最后,進(jìn)行模擬練習(xí)判斷。 在專家對(duì)整個(gè)標(biāo)準(zhǔn)確立的過程有一個(gè)大致的了解后,應(yīng)給他們提供一些題目

9、進(jìn)行模擬的判斷練習(xí),練習(xí)可以分幾輪進(jìn)行。判斷結(jié)束后給專家提供一些實(shí)際的數(shù)據(jù)。這個(gè)步驟可以重復(fù)一到兩次,讓專家充分練習(xí)從而在操作上更加明確在判斷中應(yīng)該注意的一些問題。經(jīng)過培訓(xùn)的專家的判斷應(yīng)該具有穩(wěn)定性、估計(jì)一致性和反映實(shí)際情況的特點(diǎn)。23.2 IRT中合格分?jǐn)?shù)的確立方法IRT 是由Lord、Lazarsfeld等人于20世紀(jì)50年代所創(chuàng)立,他們提出了“一個(gè)可見反應(yīng)或行為的概率與個(gè)人具有隱含的潛在特質(zhì)水平相關(guān)”的假定,并提出了相應(yīng)的數(shù)量關(guān)系模型,上世紀(jì)六十年代后,隨著新技術(shù)成果在測(cè)量領(lǐng)域應(yīng)用范圍的日益加寬,尤其是電子技術(shù)的廣泛普及,IRT 獲得了迅速發(fā)展的技術(shù)條件3。在IRT中,項(xiàng)目難度跟被試特質(zhì)

10、水平定義在同一度量系統(tǒng)上,即特質(zhì)水平連續(xù)統(tǒng)量表上。故項(xiàng)目難度跟被試特質(zhì)水平可直接比較,題目難易是針對(duì)具體的被試而言,對(duì)甲而言是一道難度很大的題目上,對(duì)乙就不一定了。IRT揭露了掌握百分比分?jǐn)?shù)與被試特質(zhì)水平間的定量聯(lián)系。當(dāng)一個(gè)題庫確能恰當(dāng)?shù)卮砟骋惶刭|(zhì)領(lǐng)域時(shí),被試在該領(lǐng)域的掌握百分比就是他在該題庫全部項(xiàng)目上期望的平均數(shù),即: 公式中為百分比、表示被試的能力、n為題目數(shù)。為了理解這一方法,我們看一個(gè)具體的示例。某測(cè)驗(yàn)有12個(gè)題目,下表為各題的題目參數(shù)表:表二題目參數(shù)表題號(hào)區(qū)分度(a)難度(b)猜測(cè)概率(c)10.5399-3.24010.311620.64101.32220.052430.7336

11、0.16250.126640.76630.43480.079950.60170.15870.118360.62500.06960.121870.63500.75510.079480.67920.78400.087790.63311.24870.0476100.67391.51120.0523110.63521.26510.0499120.65211.92940.0488現(xiàn)確定掌握百分比為0.6,根據(jù)式1,根據(jù)式1可得:上述這個(gè)等式右邊只有一個(gè)未知數(shù),采用牛頓迭代法,即可求解。求得為1.0。這意味在特質(zhì)連續(xù)統(tǒng)上,應(yīng)試者的能力水平達(dá)到1.0或1.0以上的人就該特質(zhì)領(lǐng)域而言,可判定其掌握比例為0.6

12、。這樣,我們就可判定能力在1.0之下的被試為未掌握者,1.0及其之上的被試為掌握者。合格分?jǐn)?shù)使用IRT的確立方法在測(cè)量標(biāo)準(zhǔn)誤方面有更加理性的計(jì)算。 CTT認(rèn)為測(cè)量標(biāo)準(zhǔn)誤是一個(gè)固定不變的值,測(cè)量標(biāo)準(zhǔn)誤適應(yīng)于一切情況,對(duì)各種水平的被試都沒有差異,這顯然不合實(shí)際,如在一數(shù)奧考試中,水平低比水平高的被試結(jié)果的一致性顯然要更低,因?yàn)榈退降淖鞔鹬胁聹y(cè)的情況要更多。CTT的計(jì)算公式為:(表示觀察分?jǐn)?shù)標(biāo)準(zhǔn)差、表示信度系數(shù))但公式中的信度系數(shù)等于真分?jǐn)?shù)的方差對(duì)觀察分?jǐn)?shù)的方差,但真分?jǐn)?shù)卻不能求出,故不能精確求出信度系數(shù),只能通過相關(guān)來估計(jì),因此誤差是個(gè)模糊值。IRT提出了一個(gè)更合理的概念,提出了CTT中沒有的信

13、息函數(shù),能針對(duì)各種水平的被試來計(jì)算測(cè)量標(biāo)準(zhǔn)誤,測(cè)量標(biāo)準(zhǔn)誤跟信息函數(shù)的平方根成反比。可用以下公式來表示:表示能力為的那批被試測(cè)量標(biāo)準(zhǔn)誤,n表示題目數(shù),表示為第題的信息量,于是在實(shí)際施測(cè)中,我們就可以根據(jù)合格分?jǐn)?shù)(這里指的是能力值)來挑選有最大信息量的試題來組卷,從而使該處的測(cè)量標(biāo)準(zhǔn)誤最小。從而使合格分?jǐn)?shù)的鑒別力更強(qiáng)。相比較而言,IRT在標(biāo)準(zhǔn)參照測(cè)驗(yàn)中劃界分?jǐn)?shù)的確定提供了強(qiáng)有力的邏輯方法,根據(jù)項(xiàng)目反應(yīng)理論的原理,可將確定劃界分?jǐn)?shù)的步驟確立如下: (1)根據(jù)特質(zhì)領(lǐng)域定義編制測(cè)驗(yàn)內(nèi)容細(xì)目表,并按此編寫大量恰當(dāng)項(xiàng)目。(2)選擇大樣本被試組進(jìn)行項(xiàng)目試測(cè),估出項(xiàng)目參數(shù),作好模型資料擬合度檢驗(yàn),篩選出合用項(xiàng)目

14、,建立確能代表特質(zhì)領(lǐng)域的優(yōu)良題庫。(3)根據(jù)社會(huì)客觀需要確定掌握百分比值。(4)求出跟百分比對(duì)應(yīng)的能力值,從而確定劃界分?jǐn)?shù)。(5)針對(duì)劃界分?jǐn)?shù)選出項(xiàng)目,即可編寫出符合需要的標(biāo)準(zhǔn)參照測(cè)驗(yàn)。但I(xiàn)RT也有不足之處,IRT強(qiáng)調(diào)以數(shù)學(xué)模型為核心,模型的數(shù)學(xué)公式復(fù)雜,令大多數(shù)人望而生畏,教育學(xué)或心理學(xué)工作者并沒有統(tǒng)計(jì)學(xué)家那樣豐富的數(shù)學(xué)知識(shí),要理解它們是比較困難的5;另外IRT又是建立在相當(dāng)強(qiáng)的假設(shè)基礎(chǔ)上的,要求項(xiàng)目反應(yīng)模型與資料擬合要求較高,很多測(cè)驗(yàn)的數(shù)據(jù)并不能滿足這點(diǎn)。4結(jié)束語合格分?jǐn)?shù)是標(biāo)準(zhǔn)參照測(cè)驗(yàn)中解釋分?jǐn)?shù)和統(tǒng)計(jì)決斷的一個(gè)重要基礎(chǔ),國(guó)外提出了許多確定方法,如CTT中還有萊德爾斯基方法(Nedeisky

15、's Procedure)、吉杰方法(Jaeger's Procedure)、埃伯方法(Ebel's Procedure)等,但迄今都未得到公認(rèn)的方法,本文中所提到兩種理論指導(dǎo)下的方法都有利弊的兩面,關(guān)鍵是如何使區(qū)分盡可能合理、有效。參考文獻(xiàn):1謝小慶,考試如何才能公平?文匯報(bào),2003年12月1日第9版2武曉宇,趙 月,徐 靜分界標(biāo)準(zhǔn)確定方法綜述,中國(guó)考試,2004,13于金龍,李寧.IRT與IRT在試題參數(shù)確定上的比較研究,考試評(píng)析,2001年第8期.4漆書青,戴海崎,丁樹良現(xiàn)代教育與心理測(cè)量學(xué)原理,北京高等教育出版社,2002年版,P176 5俞曉琳, 項(xiàng)目反應(yīng)理

16、論與經(jīng)典測(cè)驗(yàn)理論之比較,南京師大學(xué)報(bào)(社會(huì)科學(xué)版),1998年第4期,P77The Methods of Setting cut -score Deng YuanpingJIMEI UniversityNormal Educational Department, XIAMEN, 361021Abstracts: How to set standard cut score in criterion-referenced test is a technic problem concerning test fairness. The particle explained the setting method of Classical test theory (CTT): the method of comparing judgement between groups、the method of analyzing testing contents, and the setting method of Item response theory (IRT). T

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論