項目反應理論簡介_第1頁
項目反應理論簡介_第2頁
項目反應理論簡介_第3頁
項目反應理論簡介_第4頁
項目反應理論簡介_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、心理測量學第十八講 項目反應理論簡介內容提要:v項目反應理論的發(fā)展: vIRT的基本理論體系 v項目反應模型 v計算機程序 vIRT的應用、優(yōu)點與不足 n(一)、經(jīng)典測驗理論一、項目反應理論的發(fā)展:n(二)、項目反應理論的發(fā)展 1、CTT的理論體系很完善,是其他測驗理論賴以產(chǎn)生的基石。優(yōu)點有:v理論方法體系相對完整v前提假設比較弱v所涉及到的數(shù)學模型以及參數(shù)的概念和估計方法易理解和掌握v標準化技術在控制測驗誤差等方面有明顯的效果(一)、經(jīng)典測驗理論l基本假設難以成立:真分數(shù)與觀測分數(shù)間存在線性關系的假定不合理;平行測驗的假設難以成立;誤差與真分數(shù)獨立的假設難以滿足。 2、CTT在理論體系和方法

2、體系方面存在許多其本身難以克服的缺點,具體表現(xiàn)為:l項目統(tǒng)計量嚴重依賴于測驗所實施的被試樣組。n被試測驗分數(shù)依賴于所施測項目的難度。 n測驗信度觀存在嚴重問題。CTT的信度是針對被試全體的,只代表平均測量精度,假設所有被試測量標準誤相等,而實際上,不同能力水平的被試不可能具有同樣的測量標準誤。 n缺乏預測力n對測驗等值、適應性測驗、標準參照性測驗的編制等問題不能給以滿意的解決。n盡管存在以上缺點,CTT仍在廣泛地應用。CTT、IRT和概化理論是當今最有影響的三種測驗理論。n簡單地說,IRT在處理微觀問題(即被試水平與答題目之間的實質性關系)時優(yōu)勢明顯,CTT在處理中觀問題(如處理常見的標準化考

3、試等)時方便易懂,GT則在處理宏觀問題(如對結果作推論)時更顯出色。n三種測驗理論體系有內在聯(lián)系,各有長短,應相互促進,互相補充。(二)、項目反應理論的發(fā)展v由于項目特征曲線(ICC)對項目反應理論的產(chǎn)生具有重要意義,所以在講項目反應理論的產(chǎn)生和發(fā)展問題時,一般都追溯到1905年比奈和西蒙編制第一個智力量表時的工作,他們當時所使用的作業(yè)成績隨年齡增長而提高的散點圖與現(xiàn)在的ICC曲線十分類似。nIRT的真正創(chuàng)立者是美國心理測量學家洛德(Lord)。1952年,洛德發(fā)表博士論文一個測驗分數(shù)的理論,提出了IRT的第一個數(shù)學模型(Two-parameter Normal Ogive Model,雙參數(shù)

4、正態(tài)卵形曲線模型)及其參數(shù)的估計方法,并把該模型應用到了學業(yè)成績和態(tài)度測量工作之中。v(一)、概念v(二)、基本思想及基本思路v(三)、基本理論假設二、IRT的基本理論體系(一)、概念v項目反應理論(Item Response Theory,簡稱 IRT),又稱潛在特質理論潛在特質理論(Latent Trait Theory)或項目特征曲線理論項目特征曲線理論(Item Characteristic Curse Theory),是為了克服經(jīng)典測驗理論(CTT)的局限而提出的現(xiàn)代測驗理論。v從測驗的內部或微觀方面入手,采取數(shù)學建模和統(tǒng)計調整的方法,重點討論被試的能力水平與測驗項目之間的實質性關系

5、,測驗的每一個項目都有自己的項目特征曲線,描述了每一個特定能力水平的被試答對或答錯該項目的概率。l它包括5層意思,詳見戴海崎等心理與教育測量第三章第一節(jié)。(二)、基本思想及基本思路(二)、基本思想及基本思路潛在特質:l把表現(xiàn)在一個人身上所特有的相對穩(wěn)定的行為方式稱為心理特質(trait),由于這種心理特質是隱含于其行為之中的,所以也稱做潛在特質。v與CTT一樣,IRT也認為被試的潛在特質是不能被觀察和測量的,但卻可以通過其外顯行為表現(xiàn)出來。 v不同的是,CTT是以被試對所有測驗項目的反應總和(測驗總分)為顯變量來預測被試的潛在特質的,并不認為被試對單個項目的反應 與其特質間有任何有意義的聯(lián)系。

6、lIRT則認為被試的能力與其對某一特定項目的反應(以正確或錯誤反應概率表示)有某種函數(shù)關系存在,確定這種關系就是IRT的基本思基本思想和出發(fā)點想和出發(fā)點。l所以IRT可以被理解為一種探討被試對項目的反應與其潛在特質間關系的概率性方法。n用(theta)表示被試的潛在特質或能力,用Pi()表示其對項目i正確反應概率,項目反應理論的關鍵就是確定與Pi()間的函數(shù)關系。表1 某個項目假設的項目特征曲線1.000.000.50潛在特質: 正確反應的概率: Pi()潛在特質空間(Latent Trait Space)l對于某一特殊行為的發(fā)展起作用的所有潛在特質的集合。維度 在潛在特質空間中互相獨立的潛在

7、特質的個數(shù)。 一個K維的潛在特質空間可以表示為:H =(1, 2, 3,.,k)總之,潛在特質理論是一切心理測量理論研究的基礎。n1、潛在特質空間的單維性假設n2、局部獨立性假設n3、項目特征曲線假設 n4、非速度性假設(三)、基本理論假設1、潛在特質空間的單維性假設(unidimensionality)v潛在特質空間 v單維性 v指測驗測量的是單一的特質而非多元特質,即被試對測驗中任一項目的反應是其單一特質的函數(shù)。 n如何判斷是否滿足單維性假設?n因素分析的方法n當因素分析抽取的第一個公共因素解釋的變異遠大于第二個公共因素時,就可認為測驗是單維的。l但嚴格的單維性是大多數(shù)測量工具都難以滿足的

8、,這也是IRT受到批評的主要原因。l所以,解決測驗的單維性問題及建立多維反應模型是IRT將要研究的任務之一。n在項目反應理論中,常用一般的統(tǒng)計依存性和統(tǒng)計獨立性概念來討論項目間關系。2、局部獨立性假設(local independence) nPi(+):表示正確回答第i個項目的概率nPi(-):表示答錯第個i項目的概率nPj(+):表示正確回答第j個項目的概率nPj(-) :表示答錯第j個項目的概率vP(+,+)表示正確回答第i和第j個項目的概率同理,其它的見課本。v根據(jù)以上定義,在下列條件下,兩個項目得分在統(tǒng)計上是獨立的。 nP(+,+)= Pi(+) Pj(+)nP(+, -)= Pi(

9、+) Pj(-)nP( -,+)= Pi(-) Pj(+)nP( -, -)= Pi(-) Pj(-)n如果四個等式中的任何一個不成立,則這兩個項目在統(tǒng)計上就是依存的。n例:如果 Pi(+)=.8 Pi(-)=.2 Pj(+)=.6 Pj(-)=.4n那么當且僅當 P(+,+)=.48 P(+, -)=.32 P( -,+)=.12 P( -, -)=.08 時兩個項目才獨立。n實際就是指,如果兩個項目的每種反應模式的概率,僅僅根據(jù)對每個項目正確與不正確反應的概率就能計算出來,那么項目之間便是獨立的。l如何理解局部獨立性假設呢? l由于這種獨立性是針對特定的值的被試而言的,所以稱為“局部”。l

10、例:假設1000名能力相同的被試參加某一能力測驗,600名被試答對了項目i,400名答錯了;這1000名被試對項目j的正確反應概率與對項目i的正確反應概率統(tǒng)計上是獨立的。l總之,同一特質水平的被試回答某一項目時不受其他項目的影響。3、項目特征曲線假設 vIRT假定正確反應概率Pi()與間存在規(guī)律性的變化關系,這種關系可以用一個數(shù)學函數(shù)的形式表示出來,這一函數(shù)稱為項目反應函數(shù)(Item Response Function),項目特征曲線就是這一函數(shù)的圖像。 大量事實證明,對兩級記分的項目,被試的能力水平與他對項目的反應之間呈S型的曲線關系,而且這一關系具有相當?shù)钠毡樾浴?S型ICC具有一些共同點

11、,即都有一條Y=1的上漸近線和一條Y=c(c0)的下漸進線,且是嚴格單調上升的,一條ICC的形狀取決于三個變量:下漸近線的高度,曲線拐點的位置及拐點處的斜率。 這三個變量恰好相當于三個項目參數(shù):猜測參數(shù)ci,難度參數(shù)bi和區(qū)分度參數(shù)ai。1.000.000.50Pi()上漸近線下漸近線c拐點切線b21 c(1)難度參數(shù)bi 在一條ICC中,bi等于曲線在拐點處的值。 當猜測參數(shù)ci=0(曲線的下漸近線為0)時,bi等于Pi()=0.50時的值,因為對一條完整的ICC,拐點恰好是曲線的中點和對稱點。 當ci0時, P()=(1+c)/2n在IRT中, bi表示一個項目的難度,其取值范圍一般在-3

12、.0到+3.0之間。nbi越大,表示項目的難度越大。1.000.000.50Pi()b1b2項目1項目2 從上圖可以看出,項目2比項目1更難些,因為能力相同的同一組被試對項目1的正確反應概率要大于對項目2的正確反應概率。 在其他條件不變的情況下,增大項目的難度會使ICC向右平移。(2)區(qū)分度參數(shù)aiv在一條ICC中,ai的大小決定曲線在拐點bi處的陡度。vai很大時,在bi附近能力的增加會導致正確反應概率Pi()有很快的增長;vai很小時,在bi附近能力的等量增加不會導致正確反應概率Pi()有明顯的增長。vai的取值范圍通常在0.302之間。圖圖 區(qū)分度參數(shù)區(qū)分度參數(shù)ai對正確反應概率的影響對

13、正確反應概率的影響1.000.000.50Pi()b項目1項目2nai越大,曲線在bi附近就會越陡,項目在bi附近的區(qū)分能力就越大,但在遠離bi的區(qū)域,曲線就會變得越平坦,項目的區(qū)分能力就越低。n也就是說,區(qū)分度參數(shù)ai大的項目對能力水平接近bi的被試有較大的區(qū)分能力,而對能力水平遠大于或小于bi的被試區(qū)分能力小。n相反,區(qū)分度參數(shù)ai小的項目則在能力分布更廣泛范圍內對被試都有一定的區(qū)分能力。(3)猜測參數(shù)ci 被試完全憑機遇答對項目i的概率即是該項目的猜測參數(shù)ci。注意:CTT中沒有猜測參數(shù),IRT引入此概念是為了提高對能力估計的精度。 對包含m個選擇項的選擇題,其猜測參數(shù)ci一般接近1/m

14、。 ci的取值范圍一般在00.50之間。n二級評分IRT模型n多級評分IRT模型n連續(xù)型IRT模型三、項目反應模型(一)、正態(tài)卵形模型(Normal Ogive Model) 正態(tài)卵形模型將項目特征曲線視為一條S形正態(tài)累積函數(shù)曲線,相應的數(shù)學模型即是正態(tài)累積分布函數(shù)。 可分為三參數(shù)、雙參數(shù)和單參數(shù)模型三種。(1)三參數(shù)正態(tài)卵形模型表達式為:)(2221)1 ()(iibayiiidyeccp ai、bi、ci,y為正態(tài)曲線縱線的高度,dy表示對y積分,為積分符號,上下角表示積分的范圍,求從z=-到z=ai(-bi)范圍內正態(tài)曲線下的累積面積。(2)雙參數(shù)正態(tài)卵形模型當猜測參數(shù)為0時,三參數(shù)變成

15、了雙參數(shù)。(3)單參數(shù)正態(tài)卵形模型當ci=0,ai=1時,雙參數(shù)變成了單參數(shù)。l由于正態(tài)卵形模型中的積分運算不易進行,伯恩鮑姆(Birnbaum,1957)在洛德正態(tài)卵形模型的基礎上提出了邏輯斯蒂模型。(二)、邏輯斯蒂模型(二)、邏輯斯蒂模型(Logistic Models)l邏輯斯蒂模型避免了復雜的積分運算,在估計能力和項目參數(shù)時要簡便得多。l邏輯斯蒂模型是使用最廣的模型,其次是正態(tài)卵形模型。l邏輯斯蒂模型也包括三參數(shù)、雙參數(shù)和單參數(shù)模型三種。(1)三參數(shù)邏輯斯蒂模型的表達式:)(7 . 111)1 ()(iibaiiieccpai、bi、ci分別為區(qū)分度參數(shù)、難度參數(shù)、猜測參數(shù),含義與正態(tài)

16、卵形模型相同。l(2)雙參數(shù)邏輯斯蒂模型當猜測參數(shù)ci=0時,三參數(shù)就變成了雙參數(shù)模型。)(7 . 111)(iibaiepl(3)單參數(shù)邏輯斯蒂模型當ci=0,ai=1時,就得到單參數(shù)邏輯斯蒂模型。)(7 . 111)(ibiepn單參數(shù)邏輯斯蒂模型又稱拉什模型,是丹麥數(shù)學家拉什(Rasch,G.,1960)從一個不同的角度獨立提出的心理測驗模型。n在IRT的發(fā)展歷史上,拉什模型占有重要的地位,有諸多研究者認為IRT的創(chuàng)立者是兩位,一位是洛德,一位就是拉什。項目反應模型的例題應用n詳見課本P2231.000.000.50Pi() -3 -2 -1 0 1 2 3項目2項目1圖 課本上的例題1

17、 見P223四、計算機程序 項目反應理論提出之后,由于涉及到復雜的數(shù)學和參數(shù)估計等問題,所以并沒有引起廣泛的重視。 隨著計算機技術的發(fā)展,1969年,懷特和潘杰帕克森(Wright & Panchapakesan)開發(fā)出IRT的第一個計算機程序BICAL(適用于拉什模型),這使得拉什模型得到了很大的發(fā)展。n1976年,洛德推出了IRT的第二個十分重要的應用軟件LOGIST,這使得IRT直接進入了考試的實用階段。n1982年,密斯萊維和博克(Mislevy & Bock)編制BILOG,可用于單參數(shù)、雙參數(shù)和三參數(shù)Logistic模型的參數(shù)估計。v江西師大現(xiàn)代教育與心理測量研究開

18、發(fā)中心漆書青、戴海崎等心理學家經(jīng)過多年的努力,在WINDOWS平臺上開發(fā)出了ANOTE軟件(心理與教育測驗通用分析系統(tǒng))。該系統(tǒng)是一個具有多種功能的軟件包。五、 IRT的應用及其優(yōu)缺點 應用:o借助計算機可以抽取項目樣本,被試在解答項目過程中開始遇到困難的具體項目范圍也可以被確定。o這就是計算機化自適應測驗(Computerized Adaptive Testing)。n其它應用見戴海崎等心理與教育測量第十七章第一節(jié)。IRT的優(yōu)點與不足優(yōu)點:v能力參數(shù)估計的不變性;v項目參數(shù)估計的不變性;v提供被試能力估計值的精確度指標測驗信息函數(shù);v為測驗編制、測驗分數(shù)的報告與解釋提供便利。不足:n單維性假定難以滿足;nIRT建立在更復雜的數(shù)學模型之上,依賴更強的假設,計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論