經(jīng)典測(cè)量理論、概化、項(xiàng)目反應(yīng)理論課件_第1頁
經(jīng)典測(cè)量理論、概化、項(xiàng)目反應(yīng)理論課件_第2頁
經(jīng)典測(cè)量理論、概化、項(xiàng)目反應(yīng)理論課件_第3頁
經(jīng)典測(cè)量理論、概化、項(xiàng)目反應(yīng)理論課件_第4頁
經(jīng)典測(cè)量理論、概化、項(xiàng)目反應(yīng)理論課件_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

經(jīng)典測(cè)量理論(classicaltesttheory,CTT)2023/12/61904年斯皮爾曼首次提出了經(jīng)典測(cè)量理論,1950年,美國學(xué)者格立克森(Gulliksen)出版了“TheoryofMentalTests”一書,標(biāo)志著經(jīng)典測(cè)驗(yàn)理論的成熟。經(jīng)典測(cè)量理論主要是以真實(shí)分?jǐn)?shù)模型(truescoremodel)為基礎(chǔ),圍繞被試對(duì)試題的應(yīng)答結(jié)果(觀測(cè)分?jǐn)?shù))和被試所具有的真實(shí)的心理特質(zhì)(真分?jǐn)?shù))之間存在的誤差進(jìn)行分析,發(fā)展并形成了包括信度、效度、區(qū)分度、等值等概念在內(nèi)的比較完整的心理與教育測(cè)量理論體系,故經(jīng)典測(cè)量理論又稱為真分?jǐn)?shù)理論。2023/12/6X=T+E任何一個(gè)測(cè)驗(yàn)成績都看做是真分?jǐn)?shù)和測(cè)量誤差之和,這是經(jīng)典測(cè)量理論的基本思想。真分?jǐn)?shù)理論的基本假設(shè):在討論范圍內(nèi),真分?jǐn)?shù)具有某種程度的穩(wěn)定性,即真分?jǐn)?shù)不變,是常數(shù);測(cè)量誤差的期望值為0,即E=0;測(cè)量誤差與真分?jǐn)?shù)相互獨(dú)立,真分?jǐn)?shù)與測(cè)量誤差相關(guān)為0;不同測(cè)量誤差之間的相關(guān)為0;平行性假設(shè):以相同的程度測(cè)量同一心理特質(zhì)的測(cè)驗(yàn)稱為平行測(cè)驗(yàn)。每個(gè)平行測(cè)驗(yàn)的平均數(shù)相等,等于同一心理特質(zhì),即真分?jǐn)?shù);測(cè)量誤差的平均數(shù)相等,且等于0;測(cè)量誤差方差相等。2023/12/6根據(jù)上面的假設(shè),可以將真分?jǐn)?shù)定義為:一個(gè)被試在某一測(cè)量中無限多次測(cè)量的均值或數(shù)學(xué)期望,即經(jīng)典測(cè)量理論的優(yōu)點(diǎn)與局限性優(yōu)點(diǎn):在20世紀(jì)大部分年代里,心理與教育測(cè)量的理論與實(shí)踐一直建立在真分?jǐn)?shù)模型基礎(chǔ)上。真分?jǐn)?shù)模型是以弱假設(shè)為基礎(chǔ)的,采用的計(jì)算公式簡單明了、淺顯易懂,能夠?qū)y(cè)試結(jié)果做出合理的解釋,并且可操作性強(qiáng),便于在實(shí)際測(cè)驗(yàn)情境(尤其是小規(guī)模資料)中實(shí)施,能滿足人們對(duì)將測(cè)試作為一種選拔工具的需要,在測(cè)驗(yàn)實(shí)際工作中有著較強(qiáng)影響力,并發(fā)揮著重要的指導(dǎo)作用。局限性:2023/12/6(1)信度估計(jì)精確性不高

經(jīng)典測(cè)量理論對(duì)信度的假設(shè)是建立在平行測(cè)驗(yàn)的概念假設(shè)上的,但很難找到兩個(gè)測(cè)驗(yàn)的測(cè)量誤差完全相等,不可能要求每位受試者接受同一份測(cè)驗(yàn)無數(shù)次,而每次測(cè)量間都彼此獨(dú)立不相關(guān)。因此平行測(cè)驗(yàn)的理論假設(shè)很難滿足。在平行測(cè)驗(yàn)條件不滿足的情況下,估計(jì)的各種信度可能有較大誤差。(2)各參數(shù)估計(jì)受樣本依賴性太大難度、區(qū)分度和信度等各項(xiàng)指標(biāo),依賴于它們所來自的特定的被試樣本。這些指標(biāo)會(huì)因接受測(cè)驗(yàn)的受試者樣本的不同而不同,因此,同一份試卷很難獲得一致的難度、區(qū)分度或信度。2023/12/6(3)等測(cè)量標(biāo)準(zhǔn)誤差難做到真分?jǐn)?shù)模型已經(jīng)指出測(cè)量誤差的存在,以一個(gè)相同的測(cè)量標(biāo)準(zhǔn)誤作為每位受試者的測(cè)量誤差,顯然不適當(dāng)。當(dāng)測(cè)驗(yàn)施測(cè)于能力水平高于(或低于)測(cè)驗(yàn)難度的被試時(shí)就容易產(chǎn)生較大的測(cè)量誤差,且誤差會(huì)隨著被試水平與測(cè)驗(yàn)難度距離的增加而變大。(4)能力量表與難度量表不配套在經(jīng)典測(cè)量理論中,被試能力量表是卷面總分,項(xiàng)目的難度量表是題目難度。因而不能提供不同能力水平的被試如何對(duì)項(xiàng)目進(jìn)行反應(yīng)的預(yù)測(cè)信息,找不到驗(yàn)證某個(gè)項(xiàng)目是否匹配某種能力水平被試的計(jì)量方法,這使得在選題時(shí)帶有一定盲目性,失去了精確指導(dǎo)測(cè)驗(yàn)編制的作用。概化理論(generalizabilitytheory,GT)2023/12/6克朗巴赫等人(Cronbach)于1972年出版的TheDependabilityofBehavioralMeasurement一書是概化理論形成的標(biāo)志。GT是關(guān)于行為測(cè)量的可信賴度的統(tǒng)計(jì)學(xué)理論。概括性:分?jǐn)?shù)能夠推論的范圍??尚刨嚩龋和茝V應(yīng)用時(shí),推廣或概括化的準(zhǔn)確程度。2023/12/6GT理論的基本思想是,任何測(cè)量都處在一定的情境關(guān)系之中,應(yīng)該從測(cè)量的情境關(guān)系中具體地考察測(cè)量工作,提出了多種真分?jǐn)?shù)與多種不同的信度系數(shù)的觀念,并設(shè)計(jì)了一套方法去系統(tǒng)辯明與實(shí)驗(yàn)性研究多種誤差方差的來源。用“全域分?jǐn)?shù)”(UniverseScore)代替“真分?jǐn)?shù)”(TrueScore),用“概括化系數(shù),G系數(shù)”(GeneralizabilityCoefficent)代替了“信度”。2023/12/6概化理論把全域分?jǐn)?shù)方差對(duì)總方差的比稱為為概括力系數(shù)(簡稱G系數(shù))。而總方差可以分成全域分?jǐn)?shù)方差σ2(p)和誤差分?jǐn)?shù)方差σ2(δ)。概化理論的研究程序2023/12/6G研究(Gstudy):測(cè)量的過程中有哪些因素會(huì)影響被試的測(cè)量結(jié)果。測(cè)量目標(biāo)主效應(yīng)方差、測(cè)量面的主效應(yīng)方差、各種交互效應(yīng)方差。D研究(Dstudy)概化系數(shù)ρ可信賴指數(shù)φ2023/12/6測(cè)量工作中要加以認(rèn)識(shí)和應(yīng)用的心理特質(zhì)水平是測(cè)量目標(biāo)。而構(gòu)成測(cè)量條件與具體情境關(guān)系的因素,稱為測(cè)量側(cè)面(FacetsofMeasurement)。測(cè)量側(cè)面又分為隨機(jī)側(cè)面和固定側(cè)面。進(jìn)行測(cè)驗(yàn)的標(biāo)準(zhǔn)化就是對(duì)某些測(cè)量側(cè)面進(jìn)行固定。固定測(cè)量側(cè)面可以減少測(cè)量誤差,但卻會(huì)使測(cè)量目標(biāo)變得更為局限,這樣,測(cè)驗(yàn)所得的分?jǐn)?shù)就不能再推廣到原來那么寬廣的范圍了。GT與CTT的幾點(diǎn)比較2023/12/6(1)CTT要求嚴(yán)格平行測(cè)驗(yàn)的“強(qiáng)假設(shè)”,即兩個(gè)平行測(cè)驗(yàn)的實(shí)測(cè)分?jǐn)?shù)必須具有相同的平均數(shù)和方差,否則無法確定測(cè)驗(yàn)信度的意義;而GT只要求隨機(jī)平行的“弱假設(shè)”,所謂隨機(jī)平行測(cè)驗(yàn)是指隨機(jī)取自同一題庫的長度相同的測(cè)驗(yàn)。因而CTT的應(yīng)用范圍受到許多限制,而GT的應(yīng)用范圍則更廣泛,應(yīng)用也更合理。(2)CTT把測(cè)驗(yàn)分?jǐn)?shù)簡單劃分為真分?jǐn)?shù)和誤差分?jǐn)?shù)兩個(gè)部分,誤差分?jǐn)?shù)是單一的、含混的、隨機(jī)的,這就導(dǎo)致不能有效地解釋影響人的心理活動(dòng)因素的多樣性,從而在實(shí)踐上對(duì)控制誤差缺乏有效指導(dǎo)。GT采用方差分析方法,充分考慮了影響分?jǐn)?shù)的所有誤差來源,并進(jìn)一步提出絕對(duì)誤差和相對(duì)誤差的劃分及其對(duì)絕對(duì)誤差和相對(duì)誤差的度量。2023/12/6(3)CTT主要關(guān)注的是個(gè)體之間的差異,而GT除了個(gè)體之間的差異以外,還關(guān)注個(gè)體的絕對(duì)水平。(4)在CTT中,測(cè)量誤差的估計(jì)方法導(dǎo)致同一個(gè)測(cè)量量表往往表現(xiàn)出多種測(cè)量信度并存現(xiàn)象,如重測(cè)信度、復(fù)本信度、同質(zhì)信度等,這些信度系數(shù)之間沒有必然的內(nèi)在關(guān)系。而GT則采用具有內(nèi)在邏輯關(guān)系的概化系數(shù)、可靠性系數(shù)或信噪比等指數(shù)來反映各種因素可能對(duì)測(cè)驗(yàn)分?jǐn)?shù)的影響程度。2023/12/6盡管CTT和GT之間存在著基礎(chǔ)性差異,但是在某種程度上,GT仍然可以看做是通過應(yīng)用適當(dāng)?shù)姆讲罘治鯝NOVA程序?qū)TT的一種拓展。由于統(tǒng)計(jì)計(jì)算相當(dāng)繁雜,前在我國還處于實(shí)驗(yàn)研究階段,在面試、考核等主觀性測(cè)評(píng)中有一些應(yīng)用。項(xiàng)目反應(yīng)理論(itemresponsetheory,IRT)2023/12/6無論是CTT還是GT,其測(cè)驗(yàn)內(nèi)容的選擇、項(xiàng)目參數(shù)的獲得和常模的制定,都是通過抽取一定的樣本(行為樣本或被試樣本)實(shí)現(xiàn),二者都建立在隨機(jī)抽樣理論基礎(chǔ)之上。它們的局限性主要表現(xiàn)在以下四個(gè)方面:(1)測(cè)量結(jié)果的應(yīng)用范圍有限。(2)測(cè)量分?jǐn)?shù)賴性于具體的測(cè)驗(yàn)(內(nèi)容)。(3)測(cè)量參數(shù)依賴于被試樣本。(4)信度估計(jì)的精確性不高。2023/12/6項(xiàng)目反應(yīng)理論也稱項(xiàng)目特征曲線理論或潛在特質(zhì)理論,它是依據(jù)一定的數(shù)學(xué)模型,用項(xiàng)目特征參數(shù)估計(jì)潛在特質(zhì)的一種測(cè)量理論。該理論中最重要的兩個(gè)基本概念是“潛在特質(zhì)”和“項(xiàng)目特征曲線”。項(xiàng)目反應(yīng)理論的基本假設(shè)17(一)潛在特質(zhì)空間假說潛在特質(zhì)空間是指由心理學(xué)中的潛在特質(zhì)組成的抽象空間。如果考生在測(cè)驗(yàn)項(xiàng)目上的反應(yīng)是有K種潛在特質(zhì)所決定的,那么這些潛在特征就定義了一個(gè)K維潛在空間,考生的各個(gè)潛在特質(zhì)分?jǐn)?shù)綜合起來,就決定了該考生在該潛在空間的位置。如果影響考生測(cè)驗(yàn)分?jǐn)?shù)的所有重要的心理特質(zhì)都被確定了,那么該潛在空間就稱為完全潛在空間。2023/12/6目前比較成熟的大多數(shù)項(xiàng)目反應(yīng)模型都假設(shè)完全潛在空間是單維的,即只有一種潛在特質(zhì)決定了考生對(duì)項(xiàng)目的反應(yīng),也就是說組成某個(gè)測(cè)驗(yàn)的所有項(xiàng)目都是測(cè)量的同一個(gè)心理變量。單維項(xiàng)目反應(yīng)理論?多維目反應(yīng)理論(二)局部獨(dú)立性假設(shè)2023/12/6指某個(gè)考生對(duì)于某個(gè)項(xiàng)目的正確概率不會(huì)受到他對(duì)于該測(cè)驗(yàn)中其他項(xiàng)目反應(yīng)的影響,也就是說只有考生的特質(zhì)水平和項(xiàng)目的特性會(huì)影響到考生對(duì)該項(xiàng)目的反應(yīng)。在實(shí)際的教育和心理測(cè)量問題中,

如果前一個(gè)項(xiàng)目的內(nèi)容為后一個(gè)項(xiàng)目的正確反應(yīng)提供暗示或其它有效的信息,

局部獨(dú)立性的假設(shè)就會(huì)遭到破壞,

例如所謂的鏈狀試題就會(huì)出現(xiàn)這種情況。局部獨(dú)立性是建立在統(tǒng)計(jì)的意義上的,對(duì)每一個(gè)測(cè)驗(yàn)者來說,

對(duì)整個(gè)試題作出某種反應(yīng)的概率等于對(duì)組成試卷的每個(gè)項(xiàng)目的反應(yīng)的概率的乘積。(三)項(xiàng)目特征曲線假設(shè)2023/12/6項(xiàng)目反應(yīng)理論的一個(gè)關(guān)鍵就是在被試者對(duì)項(xiàng)目作出的反應(yīng)或作出反應(yīng)的概率與被測(cè)試者的潛在特質(zhì)之間建立某種函數(shù)關(guān)系。所謂的項(xiàng)目特征曲線(itemcharecteristiccurve,ICC),

就是相應(yīng)函數(shù)關(guān)系的圖象。項(xiàng)目反應(yīng)理論之所以要作出項(xiàng)目特征曲線形式的假設(shè),

是因?yàn)轫?xiàng)目反應(yīng)理論的建立不是首先從理論上推導(dǎo)出函數(shù)關(guān)系的存在,

而是先假定有某種形式的項(xiàng)目特征曲線,

然后找出滿足相應(yīng)曲線的函數(shù)形式。所以,

關(guān)于項(xiàng)目特征曲線的特征形式的假設(shè)實(shí)際上就是對(duì)未來函數(shù)關(guān)系的假設(shè)。項(xiàng)目特征曲線有3個(gè)特點(diǎn):

2023/12/6人的潛在特質(zhì)量表應(yīng)定義在正負(fù)無窮的區(qū)域內(nèi);被試在項(xiàng)目上正確作答的概率P(θ)取值在[0,1]區(qū)間之內(nèi);若題目質(zhì)量好,則被試的正確作答率應(yīng)隨被試的特質(zhì)水平的提高而提高,項(xiàng)目特征曲線應(yīng)是一條從負(fù)無窮到正無窮的遞增曲線。三、項(xiàng)目反應(yīng)模型2023/12/6IRT

模型是一種數(shù)學(xué)模型,

它的特點(diǎn)是以概率的概念來解釋應(yīng)試者對(duì)試題的反應(yīng)和其潛在能力特質(zhì)之間的關(guān)系。IRT

的模型有20余種,

但比較常用的有洛德提出的著名的正態(tài)卵形模型和伯恩鮑姆提出的邏輯斯蒂模型(

Logistic模型)。這兩種函數(shù)模型在計(jì)算結(jié)果上并無大的區(qū)別,

所繪制的曲線也大體相同,

然而,

在實(shí)際中大多采用后者。其中主要有以下兩個(gè)方面的原因:首先是它形式上的簡潔,

更具數(shù)學(xué)模型的特點(diǎn);

其次是它便于用對(duì)數(shù)關(guān)系作處理,

因而模型的項(xiàng)目質(zhì)量參數(shù)和能力參數(shù)估計(jì)起來較為方便。邏輯斯蒂模型(

Logistic模型)

2023/12/6由于Logistic

模型相對(duì)比較簡單,

準(zhǔn)確性較高,計(jì)算量較其他模型小,

因此在建立自適應(yīng)考試系統(tǒng)時(shí),

常采用Logistic

模型。由于參數(shù)的不同,

分為單參數(shù)、雙參數(shù)和三參數(shù),其中以三參數(shù)的Logistic模型最為常用,

由于計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,

對(duì)考試的準(zhǔn)確性的要求也越來越高,

對(duì)三參數(shù)的Logistic

模型的研究也比較成熟,

現(xiàn)在逐步趨向使用三參數(shù)模型。

式中表示能力為的被試在項(xiàng)目上正確作答的概率;表示被試的能力;表示項(xiàng)目的難度參數(shù);表示自然對(duì)數(shù)之底=2.71828;D表示量表因字常數(shù)=1.7;表示項(xiàng)目的區(qū)分度參數(shù);表示項(xiàng)目的偽隨機(jī)水平參數(shù),習(xí)慣稱猜測(cè)參數(shù)。2023/12/6項(xiàng)目反應(yīng)理論的優(yōu)點(diǎn):2023/12/6(1)特質(zhì)水平的估計(jì)可以從任何一組項(xiàng)目屬性已知的項(xiàng)目中得出。(2)項(xiàng)目屬性直接與測(cè)驗(yàn)行為聯(lián)系在一起。(3)自變量,即特質(zhì)水平和項(xiàng)目屬性,可以不借助額外數(shù)據(jù)而分別估計(jì)。四、項(xiàng)目反應(yīng)理論的應(yīng)用--計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)2023/12/6computerizedadaptivetesting(CAT)是建立在項(xiàng)目反應(yīng)理論基礎(chǔ)上的,由計(jì)算機(jī)根據(jù)被試能力水平自動(dòng)選擇測(cè)題,最終對(duì)被試能力做出估計(jì)的一種新型測(cè)驗(yàn)。其目的在于通過被試正確回答題目難度的高低來評(píng)價(jià)其能力,而不是像傳統(tǒng)的紙筆測(cè)驗(yàn)?zāi)菢油ㄟ^被試能正確回答題目的多少來評(píng)價(jià)其能力。2023/12/6與傳統(tǒng)的紙筆測(cè)驗(yàn)相比,計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)在理論上可以允許被試在任何時(shí)間進(jìn)行測(cè)試

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論