經(jīng)典測量理論、概化、項目反應(yīng)理論課件_第1頁
經(jīng)典測量理論、概化、項目反應(yīng)理論課件_第2頁
經(jīng)典測量理論、概化、項目反應(yīng)理論課件_第3頁
經(jīng)典測量理論、概化、項目反應(yīng)理論課件_第4頁
經(jīng)典測量理論、概化、項目反應(yīng)理論課件_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、經(jīng)典測量理論(classical test theory,CTT)2022/7/171904年斯皮爾曼首次提出了經(jīng)典測量理論,1950年,美國學(xué)者格立克森(Gulliksen)出版了“Theory of Mental Tests”一書,標志著經(jīng)典測驗理論的成熟。經(jīng)典測量理論主要是以真實分數(shù)模型 (true score model)為基礎(chǔ),圍繞被試對試題的應(yīng)答結(jié)果(觀測分數(shù))和被試所具有的真實的心理特質(zhì)(真分數(shù))之間存在的誤差進行分析,發(fā)展并形成了包括信度、效度、區(qū)分度、等值等概念在內(nèi)的比較完整的心理與教育測量理論體系,故經(jīng)典測量理論又稱為真分數(shù)理論。2022/7/17X=T+E任何一個測驗成績

2、都看做是真分數(shù)和測量誤差之和,這是經(jīng)典測量理論的基本思想。真分數(shù)理論的基本假設(shè):在討論范圍內(nèi),真分數(shù)具有某種程度的穩(wěn)定性,即真分數(shù)不變,是常數(shù);測量誤差的期望值為0,即E=0;測量誤差與真分數(shù)相互獨立,真分數(shù)與測量誤差相關(guān)為0;不同測量誤差之間的相關(guān)為0;平行性假設(shè):以相同的程度測量同一心理特質(zhì)的測驗稱為平行測驗。每個平行測驗的平均數(shù)相等,等于同一心理特質(zhì),即真分數(shù);測量誤差的平均數(shù)相等,且等于0;測量誤差方差相等。2022/7/17根據(jù)上面的假設(shè),可以將真分數(shù)定義為:一個被試在某一測量中無限多次測量的均值或數(shù)學(xué)期望,即經(jīng)典測量理論的優(yōu)點與局限性優(yōu)點:在20世紀大部分年代里,心理與教育測量的理

3、論與實踐一直建立在真分數(shù)模型基礎(chǔ)上。真分數(shù)模型是以弱假設(shè)為基礎(chǔ)的, 采用的計算公式簡單明了、淺顯易懂,能夠?qū)y試結(jié)果做出合理的解釋,并且可操作性強,便于在實際測驗情境(尤其是小規(guī)模資料)中實施,能滿足人們對將測試作為一種選拔工具的需要,在測驗實際工作中有著較強影響力,并發(fā)揮著重要的指導(dǎo)作用。局限性:2022/7/17(1)信度估計精確性不高 經(jīng)典測量理論對信度的假設(shè)是建立在平行測驗的概念假設(shè)上的,但很難找到兩個測驗的測量誤差完全相等,不可能要求每位受試者接受同一份測驗無數(shù)次,而每次測量間都彼此獨立不相關(guān)。因此平行測驗的理論假設(shè)很難滿足。在平行測驗條件不滿足的情況下,估計的各種信度可能有較大誤差

4、。(2)各參數(shù)估計受樣本依賴性太大 難度、區(qū)分度和信度等各項指標,依賴于它們所來自的特定的被試樣本。這些指標會因接受測驗的受試者樣本的不同而不同,因此,同一份試卷很難獲得一致的難度、區(qū)分度或信度。2022/7/17(3)等測量標準誤差難做到 真分數(shù)模型已經(jīng)指出測量誤差的存在,以一個相同的測量標準誤作為每位受試者的測量誤差,顯然不適當。當測驗施測于能力水平高于(或低于)測驗難度的被試時就容易產(chǎn)生較大的測量誤差,且誤差會隨著被試水平與測驗難度距離的增加而變大。(4)能力量表與難度量表不配套 在經(jīng)典測量理論中,被試能力量表是卷面總分,項目的難度量表是題目難度。因而不能提供不同能力水平的被試如何對項目

5、進行反應(yīng)的預(yù)測信息,找不到驗證某個項目是否匹配某種能力水平被試的計量方法,這使得在選題時帶有一定盲目性,失去了精確指導(dǎo)測驗編制的作用。概化理論(generalizability theory, GT)2022/7/17克朗巴赫等人(Cronbach)于1972年出版的The Dependability of Behavioral Measurement一書是概化理論形成的標志。GT是關(guān)于行為測量的可信賴度的統(tǒng)計學(xué)理論。概括性:分數(shù)能夠推論的范圍??尚刨嚩龋和茝V應(yīng)用時,推廣或概括化的準確程度。2022/7/17GT理論的基本思想是,任何測量都處在一定的情境關(guān)系之中,應(yīng)該從測量的情境關(guān)系中具體地考

6、察測量工作,提出了多種真分數(shù)與多種不同的信度系數(shù)的觀念,并設(shè)計了一套方法去系統(tǒng)辯明與實驗性研究多種誤差方差的來源。用“全域分數(shù)”(Universe Score)代替“真分數(shù)”(True Score) ,用“概括化系數(shù),G系數(shù)”(Generalizability Coefficent)代替了“信度”。2022/7/17概化理論把全域分數(shù)方差對總方差的比稱為為概括力系數(shù)(簡稱G系數(shù))。而總方差可以分成全域分數(shù)方差2(p)和誤差分數(shù)方差2()。概化理論的研究程序2022/7/17G研究(G study):測量的過程中有哪些因素會影響被試的測量結(jié)果。測量目標主效應(yīng)方差、測量面的主效應(yīng)方差、各種交互效應(yīng)

7、方差。D研究(D study)概化系數(shù)可信賴指數(shù)2022/7/17測量工作中要加以認識和應(yīng)用的心理特質(zhì)水平是測量目標。而構(gòu)成測量條件與具體情境關(guān)系的因素,稱為測量側(cè)面(Facets of Measurement)。測量側(cè)面又分為隨機側(cè)面和固定側(cè)面。進行測驗的標準化就是對某些測量側(cè)面進行固定。固定測量側(cè)面可以減少測量誤差,但卻會使測量目標變得更為局限,這樣,測驗所得的分數(shù)就不能再推廣到原來那么寬廣的范圍了。GT與CTT的幾點比較2022/7/17(1)CTT要求嚴格平行測驗的“強假設(shè)”,即兩個平行測驗的實測分數(shù)必須具有相同的平均數(shù)和方差,否則無法確定測驗信度的意義;而GT只要求隨機平行的“弱假設(shè)

8、”,所謂隨機平行測驗是指隨機取自同一題庫的長度相同的測驗。因而CTT的應(yīng)用范圍受到許多限制,而GT的應(yīng)用范圍則更廣泛,應(yīng)用也更合理。(2)CTT把測驗分數(shù)簡單劃分為真分數(shù)和誤差分數(shù)兩個部分,誤差分數(shù)是單一的、含混的、隨機的,這就導(dǎo)致不能有效地解釋影響人的心理活動因素的多樣性,從而在實踐上對控制誤差缺乏有效指導(dǎo)。GT采用方差分析方法,充分考慮了影響分數(shù)的所有誤差來源,并進一步提出絕對誤差和相對誤差的劃分及其對絕對誤差和相對誤差的度量。2022/7/17(3) CTT主要關(guān)注的是個體之間的差異,而GT除了個體之間的差異以外,還關(guān)注個體的絕對水平。(4)在CTT中,測量誤差的估計方法導(dǎo)致同一個測量量

9、表往往表現(xiàn)出多種測量信度并存現(xiàn)象,如重測信度、復(fù)本信度、同質(zhì)信度等,這些信度系數(shù)之間沒有必然的內(nèi)在關(guān)系。而GT則采用具有內(nèi)在邏輯關(guān)系的概化系數(shù)、可靠性系數(shù)或信噪比等指數(shù)來反映各種因素可能對測驗分數(shù)的影響程度。2022/7/17盡管CTT和GT之間存在著基礎(chǔ)性差異,但是在某種程度上,GT仍然可以看做是通過應(yīng)用適當?shù)姆讲罘治鯝NOVA程序?qū)TT的一種拓展。由于統(tǒng)計計算相當繁雜,前在我國還處于實驗研究階段,在面試、考核等主觀性測評中有一些應(yīng)用。項目反應(yīng)理論(item response theory,IRT)2022/7/17無論是CTT還是GT,其測驗內(nèi)容的選擇、項目參數(shù)的獲得和常模的制定,都是通

10、過抽取一定的樣本(行為樣本或被試樣本)實現(xiàn),二者都建立在隨機抽樣理論基礎(chǔ)之上。它們的局限性主要表現(xiàn)在以下四個方面:(1)測量結(jié)果的應(yīng)用范圍有限。(2)測量分數(shù)賴性于具體的測驗(內(nèi)容)。(3)測量參數(shù)依賴于被試樣本。(4)信度估計的精確性不高。2022/7/17 項目反應(yīng)理論也稱項目特征曲線理論或潛在特質(zhì)理論,它是依據(jù)一定的數(shù)學(xué)模型,用項目特征參數(shù)估計潛在特質(zhì)的一種測量理論。該理論中最重要的兩個基本概念是“潛在特質(zhì)”和“項目特征曲線”。項目反應(yīng)理論的基本假設(shè)17(一)潛在特質(zhì)空間假說潛在特質(zhì)空間是指由心理學(xué)中的潛在特質(zhì)組成的抽象空間。如果考生在測驗項目上的反應(yīng)是有K種潛在特質(zhì)所決定的,那么這些潛

11、在特征就定義了一個K維潛在空間,考生的各個潛在特質(zhì)分數(shù)綜合起來,就決定了該考生在該潛在空間的位置。如果影響考生測驗分數(shù)的所有重要的心理特質(zhì)都被確定了,那么該潛在空間就稱為完全潛在空間。 2022/7/17目前比較成熟的大多數(shù)項目反應(yīng)模型都假設(shè)完全潛在空間是單維的,即只有一種潛在特質(zhì)決定了考生對項目的反應(yīng),也就是說組成某個測驗的所有項目都是測量的同一個心理變量。單維項目反應(yīng)理論多維目反應(yīng)理論(二)局部獨立性假設(shè)2022/7/17指某個考生對于某個項目的正確概率不會受到他對于該測驗中其他項目反應(yīng)的影響,也就是說只有考生的特質(zhì)水平和項目的特性會影響到考生對該項目的反應(yīng)。在實際的教育和心理測量問題中,

12、如果前一個項目的內(nèi)容為后一個項目的正確反應(yīng)提供暗示或其它有效的信息,局部獨立性的假設(shè)就會遭到破壞,例如所謂的鏈狀試題就會出現(xiàn)這種情況。局部獨立性是建立在統(tǒng)計的意義上的,對每一個測驗者來說,對整個試題作出某種反應(yīng)的概率等于對組成試卷的每個項目的反應(yīng)的概率的乘積。(三)項目特征曲線假設(shè)2022/7/17項目反應(yīng)理論的一個關(guān)鍵就是在被試者對項目作出的反應(yīng)或作出反應(yīng)的概率與被測試者的潛在特質(zhì)之間建立某種函數(shù)關(guān)系。所謂的項目特征曲線(item charecteristic curve, ICC),就是相應(yīng)函數(shù)關(guān)系的圖象。項目反應(yīng)理論之所以要作出項目特征曲線形式的假設(shè),是因為項目反應(yīng)理論的建立不是首先從理

13、論上推導(dǎo)出函數(shù)關(guān)系的存在,而是先假定有某種形式的項目特征曲線,然后找出滿足相應(yīng)曲線的函數(shù)形式。所以,關(guān)于項目特征曲線的特征形式的假設(shè)實際上就是對未來函數(shù)關(guān)系的假設(shè)。項目特征曲線有3個特點:2022/7/17人的潛在特質(zhì)量表應(yīng)定義在正負無窮的區(qū)域內(nèi);被試在項目上正確作答的概率P()取值在0,1區(qū)間之內(nèi);若題目質(zhì)量好,則被試的正確作答率應(yīng)隨被試的特質(zhì)水平的提高而提高,項目特征曲線應(yīng)是一條從負無窮到正無窮的遞增曲線。三、項目反應(yīng)模型2022/7/17IRT模型是一種數(shù)學(xué)模型,它的特點是以概率的概念來解釋應(yīng)試者對試題的反應(yīng)和其潛在能力特質(zhì)之間的關(guān)系。IRT的模型有20余種,但比較常用的有洛德提出的著名

14、的正態(tài)卵形模型和伯恩鮑姆提出的邏輯斯蒂模型(Logistic模型)。這兩種函數(shù)模型在計算結(jié)果上并無大的區(qū)別,所繪制的曲線也大體相同,然而,在實際中大多采用后者。其中主要有以下兩個方面的原因:首先是它形式上的簡潔,更具數(shù)學(xué)模型的特點;其次是它便于用對數(shù)關(guān)系作處理,因而模型的項目質(zhì)量參數(shù)和能力參數(shù)估計起來較為方便。邏輯斯蒂模型(Logistic模型)2022/7/17由于Logistic模型相對比較簡單,準確性較高,計算量較其他模型小,因此在建立自適應(yīng)考試系統(tǒng)時,常采用Logistic模型。由于參數(shù)的不同,分為單參數(shù)、雙參數(shù)和三參數(shù),其中以三參數(shù)的Logistic模型最為常用,由于計算機和網(wǎng)絡(luò)技術(shù)

15、的發(fā)展,對考試的準確性的要求也越來越高,對三參數(shù)的Logistic模型的研究也比較成熟,現(xiàn)在逐步趨向使用三參數(shù)模型。 式中 表示能力為的被試在項目上正確作答的概率; 表示被試的能力; 表示項目 的難度參數(shù); 表示自然對數(shù)之底=2.71828; D表示量表因字常數(shù)=1.7; 表示項目 的區(qū)分度參數(shù); 表示項目 的偽隨機水平參數(shù),習(xí)慣稱猜測參數(shù)。 2022/7/17項目反應(yīng)理論的優(yōu)點:2022/7/17( )特質(zhì)水平的估計可以從任何一組項目屬性已知的項目中得出。( )項目屬性直接與測驗行為聯(lián)系在一起。( )自變量,即特質(zhì)水平和項目屬性,可以不借助額外數(shù)據(jù)而分別估計。四、項目反應(yīng)理論的應(yīng)用-計算機自適應(yīng)測驗2022/7/17computerized adaptive testing(CAT)是建立在項目反應(yīng)理論基礎(chǔ)上的,由計算機根據(jù)被試能力水平自動選擇測題,最終對被試能力做出估計的一種新型測驗。其目的在于通過被試正確回答題目難度的高低來評價其能力,而不是像傳統(tǒng)的紙筆測驗?zāi)菢油ㄟ^被試能正確回答題目的多少來評價其能力。2022/7/17與傳統(tǒng)的紙筆測驗相比,計算機自適應(yīng)測驗在理論上可以允許被試在任何時間進行測試,而且測試的時間要比紙筆測驗所需時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論