概化理論簡介教學(xué)課件_第1頁
概化理論簡介教學(xué)課件_第2頁
概化理論簡介教學(xué)課件_第3頁
概化理論簡介教學(xué)課件_第4頁
概化理論簡介教學(xué)課件_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、概化理論簡介目錄 1引言 2概化理論的產(chǎn)生背景及其發(fā)展 3概化理論的基本概念 3.1測量目標(biāo) 3.2全域分?jǐn)?shù)的概念及其相關(guān)的假定 3.3數(shù)學(xué)模型及相關(guān)的假定 3.4概化理論的誤差觀點 4概化理論的基本方法 4.1概化理論研究問題的基本過程 4.2概化研究(G研究) 4.3決策研究(研究) 1引言 在評價人的能力或某種素質(zhì)時,必須使用科學(xué)的方法。對于測評工作,人們通常主要關(guān)注兩個問題:其一,測驗分?jǐn)?shù)能不能有效地把應(yīng)試者(被試)的真正水區(qū)分開來(體現(xiàn)在選拔性測評工作中),這種目的的測驗稱為常模參照測驗(Norm-referenced Test)。其二,測評分?jǐn)?shù)是不是應(yīng)試者真正水平的一個恰當(dāng)?shù)捏w現(xiàn)(

2、體現(xiàn)在達標(biāo)性測評工作中),這種目的的測驗稱為標(biāo)準(zhǔn)參照測驗(Criterion-referenced Test)。 無論使用哪種方法,如何保證測評質(zhì)量的問題是其首要問題。一般來說,保證測評質(zhì)量的主要方法是控制測評誤差??刂茰y評誤差的方法主要有三種,即匹配或標(biāo)準(zhǔn)化技術(shù)、隨機化技術(shù)以及統(tǒng)計調(diào)整的技術(shù)。 標(biāo)準(zhǔn)化技術(shù)旨在從測量工作中各個環(huán)節(jié)上控制測量誤差,使得“測量誤差不會干擾被測目標(biāo)群體內(nèi)個體間先后順序的排定工作。” 隨機化技術(shù)旨在控制測量的系統(tǒng)誤差。 統(tǒng)計調(diào)整技術(shù)則是把誤差變量作為模型的參數(shù)來對待,從而清楚地了解誤差變量對測量目標(biāo)的影響程度,以便在一個可接受的誤差范圍內(nèi)來解釋測評結(jié)果。 在各種控制測

3、評誤差的方法中,標(biāo)準(zhǔn)化技術(shù)用得最多。如在各種大規(guī)模的常模參照測驗之中,以經(jīng)典測驗理論(Classical Test Theory,CTT)為指導(dǎo),通過大量采用像托福考試一樣的測驗標(biāo)準(zhǔn)化技術(shù),較好地控制了測評誤差,達到了考試的目的。當(dāng)然,這種方法付出了高昂的代價:費時、費力建題庫的臨時性的常模參照測驗,以及所有的標(biāo)準(zhǔn)參照性測驗來說,標(biāo)準(zhǔn)化方法很難實施。這就使得測量誤差的控制工作變得十分困難,因此需要尋找新的方法。 概化理論(Generalization Theory,GT或G理論)是一種能夠同時達到區(qū)分考生與評估應(yīng)考者真正實力之目的,并較好地控制測評誤差的現(xiàn)代化測量理論。它控制測量誤差的方法主要

4、增加了統(tǒng)計調(diào)整技術(shù)。即,把干擾測驗分?jǐn)?shù)的無關(guān)變量或因素引入測量模型之中,然后用統(tǒng)計技術(shù)分別估計出這些因素或因素之間的交互作用對測驗分?jǐn)?shù)的影響程度。剔除這些影響后被試之間的真正差異便能得到非常清晰的顯現(xiàn),即達到了控制測評誤差的目的。 概化理論的基本原理是:首先運用實驗設(shè)計的思想,分析影響測驗分?jǐn)?shù)變異的各種來源(如,被試水平的差異、題目的難度、評分者的評分標(biāo)準(zhǔn)等)。接著,運用方差分析的技術(shù),分別估計各種變異來源對分?jǐn)?shù)總變異所作的貢獻(通常用方差分變量作為指標(biāo))。然后,根據(jù)不同的研究目的的需要,分別考察研究目標(biāo)在測驗總分變異中所占的比重。一般地,當(dāng)側(cè)量目標(biāo)引起的變異所占的比重較大時,測量被看做是具有

5、較高信度的。不過,測量信度的概念在概化理論中為概化系數(shù)(Generalizability Coefficient)或可靠性指數(shù)(Dependent Index)所代替。概化理論一個突出特點是:對同一次測量,可以根據(jù)研究目的的不同提供多個測量信度。事實上,當(dāng)測量目標(biāo)發(fā)生變化(如,測量目標(biāo)由被試水平改為評分者素質(zhì))時,或者當(dāng)測量結(jié)果被推論的范圍不同時,測量信度都會發(fā)生變化。 其實,在各種各樣的測評活動中,把測量結(jié)果概括到不同的程度,其測量精度是會大不相同的,二者之間存在著此消彼長的關(guān)系。即,測驗分?jǐn)?shù)推論的范圍越大,其測量精度就會越?。y量誤差增大,測量效度降低)。反之,測量精度就會提高,誤差就會縮

6、小。 若要追求高標(biāo)準(zhǔn)的測量效度,測量誤差就不能太大。而要減小測量誤差,就必須縮小測驗分?jǐn)?shù)的推論范圍。不過,若一味追求高效度,使得測驗結(jié)果可解釋或推論的范圍過小,則又會影響整個測驗的意義。在現(xiàn)實生活中,當(dāng)這種誤差落在我們可以接受的范圍之內(nèi)時,對測量結(jié)果的這種概括就有一定實用價值了。顯然,我們應(yīng)當(dāng)尋找一個滿意解,即,只要誤差在能夠容忍的范圍之內(nèi),測驗結(jié)果就應(yīng)當(dāng)概括到盡可能大的范圍上去,進而滿足測驗?zāi)康牡囊蟆?在現(xiàn)實中,由于人們對這種有關(guān)測驗結(jié)果的概括程度問題重視不夠,所以給測量工作帶來了許多問題。其中的一個常見問題是,僅僅根據(jù)有限樣本上的資料作出無限范圍的概括與推論,更沒有指出作這種概括所犯的錯

7、誤的概率。 值得指出的是,概化理論是在繼承CTT標(biāo)準(zhǔn)化技術(shù)和項目分析技術(shù)等方法的基礎(chǔ)上,通過吸收實驗設(shè)計的原理和方法,對真分?jǐn)?shù)理論和參數(shù)估計方法等進行系統(tǒng)地改良而產(chǎn)生出來的,它是CTT的進一步發(fā)展,二者同屬于隨機抽樣理論。事實上,在實驗技術(shù)處理測量誤差的三種方法中,理論只用到了其中的標(biāo)準(zhǔn)化技術(shù)(含匹配技術(shù))和隨機化技術(shù),而概化理論則在此基礎(chǔ)上還應(yīng)用了其中的第三種技術(shù),即統(tǒng)計調(diào)整技術(shù)。 另外,相對項目反應(yīng)理論(Item Response Theory,IRT)而言,概化理論比較重視結(jié)論的宏觀解釋,而IRT更重視內(nèi)部的實質(zhì)關(guān)系,即,IRT更重視被試的潛在特質(zhì)水平與試題的正確作答之間的實質(zhì)性關(guān)系。

8、簡單地說,在處理微觀問題(即被試水平與答題目之間的實質(zhì)性的關(guān)系)時優(yōu)勢比較明顯。CTT在處理中觀問題(如處理常見的標(biāo)準(zhǔn)化考試等)時顯得方便易懂。GT則在處理宏觀問題(如對結(jié)果作推論)時更顯出色。 三種現(xiàn)代化測量理論各有長短,也各有用武之地。 概化理論的主要用途有:其一,根據(jù)不同的需要,對各種標(biāo)準(zhǔn)化測驗提供多個更為恰當(dāng)?shù)臏y量信度估計,給測驗一個正確和公正的評價;其二,對非標(biāo)準(zhǔn)化測驗,準(zhǔn)確地分析測量誤差的來源并估計各種誤差源對分?jǐn)?shù)總變異的影響程度,為改進測驗提供具體的有益信息;其三,同時估計出成套測驗及其各分測驗的測量信度,使得測驗結(jié)果的解釋更加準(zhǔn)確和合理。2概化理論的產(chǎn)生背景及其發(fā)展 當(dāng)今測量學(xué)

9、界最有影響的三大理論是經(jīng)典測量理論(CTT),概化理論(GT)和項目反應(yīng)理論(IRT)。前兩者同屬隨機抽樣理論,GT是對CTT的擴展和改進,而項目反應(yīng)理論是從另外一個角度來分析每一個項目的項目特征曲線和項目信息函數(shù)。 在GT理論產(chǎn)生之前,人們通常使用CTT對測量誤差進行分析。的理論體系由三部分構(gòu)成,即關(guān)于真分?jǐn)?shù)的假定,關(guān)于測量信度的理論和關(guān)于測量效度的理論。其方法體系包括題目分析技術(shù)和測驗的標(biāo)準(zhǔn)化技術(shù)兩大部分。其中測驗的標(biāo)準(zhǔn)化技術(shù)主要包括題目編制的標(biāo)準(zhǔn)化、測驗實施的標(biāo)準(zhǔn)化、閱卷評分的標(biāo)準(zhǔn)化以及分?jǐn)?shù)的轉(zhuǎn)換與解釋的標(biāo)準(zhǔn)化共個環(huán)節(jié)。 是標(biāo)準(zhǔn)化的理論支柱,在考試工作中發(fā)揮著重大的作用。其突出優(yōu)點是:理

10、論和方法體系相對完整;前提假設(shè)比較弱,很容易為實際考試工作所滿足;所涉及的數(shù)學(xué)模型以及參數(shù)的概念和估計方法容易被人們理解和掌握;所倡導(dǎo)的標(biāo)準(zhǔn)化技術(shù)在控制測驗誤差等方面具有明顯的效果,并已為許多人所認(rèn)可。 不過,存在著許多先天不足,其主要缺點有:第一,考生的能力參數(shù)嚴(yán)重地依賴于試題樣本。第二,對考生能力參數(shù)估計的精度指標(biāo)不恰當(dāng)。第三,考試結(jié)果極易被人錯誤地推廣到不恰當(dāng)?shù)姆秶先ァ5谒?,估計測量信度所依賴的經(jīng)典平行測驗假設(shè)在現(xiàn)實中無法滿足。第五,題目參數(shù)嚴(yán)重依賴于考生樣本。第六,題目的難度參數(shù)和考生的能力參數(shù)定義在不同的量表上,不利于實現(xiàn)測驗的預(yù)定目標(biāo)。 上述弱點限制了CTT的進一步應(yīng)用。鑒于CT

11、T理論存在的不足,測量的理論界和實踐領(lǐng)域都呼喚一個全新的測量理論。正是在此背景下,GT理論應(yīng)運而生。 1963年,克龍巴赫等人(Cronbach,Ra-jaratnam,&Gleser,1963)在英國統(tǒng)計心理學(xué)雜志上發(fā)表了論文概化理論:信度理論的豐富和發(fā)展(Theory of Generalizability:A liberazation of reliz-ability theory),這標(biāo)志著GT理論的誕生,但正式提出這一理論的是Cronbach等人在1972年出版的行為測量的可靠性一書。 到1983年,該理論開始走向成熟,各種術(shù)語等開始走向規(guī)范和統(tǒng)一,相關(guān)的計算機軟件也開發(fā)成功。當(dāng)年出

12、版的布瑞南(Brennan,1983)的專著概化理論綱要以及相應(yīng)的軟件GE-NOVA,對GT理論的發(fā)展起了很大的推動作用。該書在1992年又被再版發(fā)行,同一時期,謝偉森和韋伯(Shavelson&Webb,1991)也出版了自己的專著:概化理論入門。 2001年,布瑞南重新出版了概化理論專著,該書大量增加了不平衡設(shè)計和多元GT理論的內(nèi)容,并同時推出了相應(yīng)的軟件包。隨著研究水平的提高,GT理論的范圍越來越大。 目前,GT理論不僅被用于標(biāo)準(zhǔn)化的常模參照性測驗,而且還被廣泛用于標(biāo)準(zhǔn)性參照測驗,非標(biāo)準(zhǔn)化測驗,表現(xiàn)性評價等多方面,對教師的教學(xué)評價和人事測評中的面試均有直接的幫助。3概化理論的基本概念概化

13、理論的基本概念主要有:全域分?jǐn)?shù)與測量目標(biāo)測量側(cè)面與觀測全域和概括全域或概化全域相對誤差與概化系數(shù)(G系數(shù))絕對誤差與可靠性指數(shù)()此外還有關(guān)于測量模式、設(shè)計結(jié)構(gòu)、樣本容量和隨機平行測驗假定,等等。3.1測量目標(biāo)在CCT中,測量目標(biāo)(Object of measurement)通常是指被試的某種潛在心理特質(zhì),但在GT中,測量目標(biāo)不僅是被試的某種潛在特質(zhì),也可以是試題或評分者的某種特質(zhì)。3.2全域分?jǐn)?shù)的概念及其相關(guān)的假定心理與教育測量的主要任務(wù)是用數(shù)值對測量對象(通常是被試)的某種潛在心理特質(zhì)水平(測量目標(biāo))給予確定。CCT認(rèn)為,被試的這種潛在心理特質(zhì)水平用真分?jǐn)?shù)(True Score)來刻畫。而

14、GT認(rèn)為,測量對象的水平應(yīng)該用全域分?jǐn)?shù)(Universe Score)來刻畫。3.21全域分?jǐn)?shù) GT認(rèn)為,被試的潛在特質(zhì)水平不能抽象地描述為真分?jǐn)?shù),而應(yīng)根據(jù)決策的需要,把它置于指定的條件范圍之中進行解釋。事實上,每次測量工作所涉及的條件或稱影響測量結(jié)果的因素、側(cè)面(facet)是不盡相同的,研究者對測驗結(jié)果的用途(即推論或概括的程度)也不盡相同。GT認(rèn)為,測量工作的精確程度(科學(xué)性程度)取決于研究者獲取行為樣本數(shù)據(jù)時所涉及的條件個數(shù)、結(jié)構(gòu)與性質(zhì)等,也取決于結(jié)果的概括程度。 GT不提真分?jǐn)?shù)的概念,而提出全域分?jǐn)?shù)的概念。 即,在討論被試的某種潛在特質(zhì)水平時,必須同時指出這種水平是在何種測量條件下取

15、得的,在根據(jù)行為樣本的表現(xiàn)(得分)估計行為總體的水平時,必須同時指出測量條件樣本是否也推論到了各自所對應(yīng)的條件總體(全域)。這種把被試的某種潛在特質(zhì)水平定義在具體的測量條件全域(范圍)上的分?jǐn)?shù),就叫全域分?jǐn)?shù)。3.22測量情景的描述 既然在對行為樣本推論行為總體時,要同時指出測量條件是否也從樣本推論到了全域等情景因素之上,因此,GT對測量情景作了以下必要的說明。 ()測量側(cè)面(facets) 在說明測量情景時,最重要的是要明確有哪些因素(條件)會影響被試的得分。 例如,在一次標(biāo)準(zhǔn)化的客觀性測驗中,因評分標(biāo)準(zhǔn)不會因人而異,所以評分者因素(條件)不會影響測驗得分。但是,題目樣本的代表性以及題目與被試

16、間的交互作用等卻會給測驗分?jǐn)?shù)帶來重大影響。于是,試題這一影響因素(測量條件)就被定義為測量的側(cè)面。 因此,除了測量目標(biāo)(如被試)以外,凡是會影響測驗得分的條件因素都稱之為測量側(cè)面。這里測量側(cè)面類似于數(shù)學(xué)中的維度,也相當(dāng)于實驗設(shè)計中的干擾因素。 本例中只有一個面,即試題面。在實際工作中,測量側(cè)面可能有若干個。例如,在面試工作中,通常就有兩個面,即是試題面和平分這面。有時還能有更多的側(cè)面。值得指出的是,測量目標(biāo)并不應(yīng)是被試,它也可以是試題或評估者,如,在考察普通話測試評分員水平時,可以錄制10個有代表性考生的普通話測試錄音資料,再讓評分員一個一個來評分。這時,被試成了測量面,而評分者面轉(zhuǎn)化為測量目

17、標(biāo)。即,GT可以根據(jù)研究的需要,自行確定測量目標(biāo)。()觀測全域與G研究和概括全域或概化全域與D研究 在中,當(dāng)我們討論被試水平時,通常是根據(jù)被試在某一特定條件下的作答表現(xiàn)(行為樣本)來估計其真分?jǐn)?shù)(行為總體)的。 現(xiàn)在,GT進一步要求討論測量面的條件樣本與條件總體間的一致性程度。為了避免混亂,把測量面的條件樣本所對應(yīng)的條件總體改叫條件全域(Universal)。這里,測量面類似于數(shù)學(xué)中的維度,而全域則類似于由這些維度構(gòu)成的一個數(shù)學(xué)空間。 所謂觀測全域(Universal of Admissible Observation)即是實際測量活動中所有測量側(cè)面條件全域的集合。例如,在一次人事面試中,試題

18、面條件全域和評分者面條件全域的集合就通常構(gòu)成了面試的觀測全域。 在觀測全域之上,研究者須對所有側(cè)面和側(cè)面目標(biāo)以及它們間的交互作用作變異分量估計,這一過程就叫G研究(或概化研究)。 值得注意的是,人們在推論測驗分?jǐn)?shù)時并不一定會在觀測全域的各個側(cè)面(維度)上進行,可能其中的某個面的條件樣本并不要推論到條件總體(全域)之上去。因此,根據(jù)不同的決策需要,對被試行為總體水平的推論會涉及到不同的測量面全域。 為方便,把概括推論測驗結(jié)果時所涉及到的測量面條件全域的集合叫做概括全域或概化全域或推論全域(Universal of Generalization)。 研究者在概括全域或概化全域上,對各測量面或測量對

19、象或它們之間交互作用的研究,GT稱之為D研究(決策研究)。 顯然,概括全域或概化全域僅是觀測全域的一個子集。不同的研究者對同一個測量目標(biāo)可以設(shè)計不同的觀測全域和G研究,同樣的觀測全域也可以有不同的概括全域或概化全域和D研究。()測量模式 同樣的測量條件、同樣的概括全域或概化全域和觀測全域,如果其測量模式不同,那么其測量“信度”也會不同。中的討論模式主要有三類,其一是隨機測量模式,其二是固定測量模式,其三為混合測量模式。其中,固定測量模式即是中的標(biāo)準(zhǔn)化測量模式。 一般地,如果測量面的條件樣本是從觀測全域中隨機抽取的,則稱該測量模式為隨機測量模式,這種測量的面為隨機面;如果測量的所有面的條件樣本都

20、是固定不變的,則稱這種測量模式為固定測量模式(即CTT中的標(biāo)準(zhǔn)化測驗),其中的測量面稱為固定測量面;若一次測量中有部分面試隨機面,另一部分面是固定測量面,則稱它為混合測量模式。 其中,隨機測量面的情況主要有兩種。 其一,相對于側(cè)面全域容量而言,側(cè)面的樣本容量非常??; 其二,側(cè)面的樣本或者是從側(cè)面全域中隨機抽取,或者在側(cè)面全域中存在著與該側(cè)面樣本長度相等的其他可替代的側(cè)面樣本(Shavelson & Webb,1991)。()測量結(jié)構(gòu) GT認(rèn)為,實測時的測量目標(biāo)與測量條件(側(cè)面)及條件之間的相互關(guān)系十分重要。不同的設(shè)計結(jié)構(gòu)會有不同的測量“信度”。GT所討論的結(jié)構(gòu)主要有三類,其一是交叉設(shè)計,其二是

21、嵌套設(shè)計,其三是混合設(shè)計。 在CCT中,測量目標(biāo)(通常是被試)與測量條件(如試題等)之間的結(jié)構(gòu)關(guān)系并不會影響測量的模型,而在概化理論中,測量目標(biāo)與測量條件的關(guān)系卻會影響測量的數(shù)學(xué)模型。 一般地,若所有被試(p)都要求回答所有試題(i),則稱這種測量結(jié)構(gòu)為交叉設(shè)計,記做p*i。 如果要求被試(p)分別回答不同的試題(i)(如第一小組被試回答單號題,第二小組回答雙號題),則稱被試題面嵌套于被試中,記為i:p,這種測量設(shè)計稱之為嵌套設(shè)計。 若存在多個測量面,且測量對象與測量面或測量面與測量面之間有部分是交叉設(shè)計,另外一部分是嵌套設(shè)計,則稱之為混合設(shè)計。例如,在一次涉及試題和評分者面的測試中,若要求所

22、有被試均要作答所有試題,然后不同的試題分別由不同的評分者評分,則這一測量側(cè)面為混合設(shè)計。 值得注意的是,盡管實際測驗時各測量面、測量目標(biāo)之間不一定均為交叉設(shè)計,但它們各自對應(yīng)的全域或總體之間永遠(yuǎn)被看做是交叉設(shè)計的。GT約定,在進行G研究時,代表測量目標(biāo)的字母(如p)及代表測量側(cè)面的字母(如,i,h,r等)均用小寫英文字母表示(如:p*i,i*p)等。在進行D研究時,則均為大寫字母表示(如P*I,I*P等)。()樣本容量 GT主張,各測量側(cè)面的條件樣本容量是影響測量精度的重要指標(biāo)。但是,在G研究時的樣本容量(通常記為 、 ,等)與D研究時的樣本容量(常記為 ,等)是可以不相一致的。()隨機平行測

23、驗 “平行測驗”是CCT的一個重要概念,但這種“經(jīng)典平行測驗假設(shè)”(Classically Parallel Tests)在實際工作中難以滿足。事實上,我們很難用兩套不同的試題去構(gòu)造出兩個內(nèi)容完全相同、測驗結(jié)果的均值和方差也相同的測驗。即使是同一測驗進行復(fù)制,也很難保證測驗結(jié)果不受時間和練習(xí)的影響。尤其是分半信度的計算,很難保證測驗的兩半對等,且計算結(jié)果不惟一,等等。為了克服這一缺點,用較容易滿足的隨機平行測驗假設(shè)(Randomly Parallel Tests)代替了中較難理解的經(jīng)典平行測驗假設(shè)。 認(rèn)為,如果每次測量的所有條件樣本都是來自于同一觀測全域,且樣本容量一致,則稱這些是彼此隨機平行

24、的。3.3數(shù)學(xué)模型及相關(guān)的假定 認(rèn)為,測量模型不能簡單地用觀測分與真分?jǐn)?shù)之間相差一個隨機誤差來表述,而應(yīng)把測量側(cè)面、測量目標(biāo)以及測量目標(biāo)與測量側(cè)面或測量側(cè)面與側(cè)面之間的交互效應(yīng)全部考慮進去?,F(xiàn)以單面交叉設(shè)計為例加以說明。3.31G研究數(shù)學(xué)模型及有關(guān)假設(shè)條件 假若某人從觀測全域中隨機抽取 道中學(xué)數(shù)學(xué)試題來測量 個中學(xué)生的推理能力,且答案惟一。記 為被試總體中任一被試 在觀測全域中任一試題 上的得分,則其G研究 設(shè)計數(shù)學(xué)模型為: (總均值) + (被試效應(yīng)) + (試題效應(yīng)) + (殘余效應(yīng))即,其中, 表示被試在試題全域上平均每題的得分; 表示被試總體中平均每人每題的得分; 表示總體中平均每人在

25、試題全域上平均每題的得分。 分別表示被試隨機效應(yīng)、試題隨機效應(yīng)以及試題與被試交互作用(殘余效應(yīng))。 該模型所暗含的假設(shè)條件是,當(dāng)測量的次數(shù)足夠多時,有以下關(guān)系成立。(所有主效應(yīng)和交互效應(yīng)的數(shù)學(xué)期望都為零)(任意兩種效應(yīng)的相關(guān)為零)(任意兩種效應(yīng)的相關(guān)為零)符號 表示被試 總體上求數(shù)學(xué)期望(均值),符號 表示在試題側(cè)面的全域上求數(shù)學(xué)期望。3.32D研究數(shù)學(xué)模型 與單面交叉設(shè)計的G研究對應(yīng),單面 設(shè)計的D研究模型為 或 其中,各符號的含義與G研究時的含義相同,只不過用大寫英文字母表示這些值是在樣本組上求取的均值。 在實際測量中,樣本的統(tǒng)計量一般用英文字母表示,總參數(shù)用希臘字母表示。3.概化理論的誤

26、差觀點3.1誤差的來源 GT認(rèn)為,測量誤差不能粗糙的歸納為隨機誤差和系統(tǒng)誤差。實質(zhì)上,每個測量面都是系統(tǒng)誤差的來源,而測量對象自身的穩(wěn)定性以及各種因素間的交互作用均是隨機誤差的來源。 根據(jù)實驗設(shè)計和方差分析的思想,我們可以考察總的離均差的平方和的內(nèi)部結(jié)構(gòu)。即,像方差分析一樣對原始得分的總變異分解成若干種變異分量,進而探討分?jǐn)?shù)之間的差異可以歸結(jié)為何種因素等問題。測驗分?jǐn)?shù)變異來源歸納為:(1)被試水平之間的差異(屬測量目標(biāo)引起的有效變異);(2)評分者自身在不同時間給同一試題打分的差異(隨機誤差引起的變異);(3)不同評分者在同一時間給相同試題打分的變異(系統(tǒng)誤差變異)(4)同一測量內(nèi)容不同試題的

27、差異(系統(tǒng)誤差);(5)不同的測量內(nèi)容所引起的差異(系統(tǒng)誤差變異);(6)被試者臨考發(fā)揮不當(dāng)引起的差異(隨機誤差變異);(7)其他因素,如初測與復(fù)測之間差異、平行測驗之間的差異、不同施測環(huán)境之間的差異、不同體力狀況之間的差異,等等。 顯然,對誤差來源的分析比要細(xì)致得多。而僅對上述()和()等問題進行過分析,分別提出了評分者信度()和同質(zhì)性信度()等等,其他則未給予有效研究。3.2 誤差的種類 GT認(rèn)為,測量誤差包括兩種,其一為相對誤差,記作 ;其二為絕對誤差記作 。所謂相對誤差即是由隨機誤差引起的測量誤差。若以 設(shè)計為例,可以定義相對誤差為: 該 所要解釋的是:在概括全域或概化全域上,被試P的

28、樣本得分與全體被試樣本得分的均值之差值是否恰好與被試的全域分?jǐn)?shù)與全體被試全域分?jǐn)?shù)均值之差接近。 即,被試在樣本上的離均值與他在全域上分?jǐn)?shù)的離均值之差值即為測量的相對誤差。 在概化全域上的D研究中,相對誤差的方差或變異 等于所有與測量對象(p)有關(guān)的交互效應(yīng)的變異數(shù)的總和。 與相對誤差不同,絕對誤差指的是樣本觀測值與概化全域上的全域分?jǐn)?shù)之差,其數(shù)學(xué)定義為: 即,在概化全域或概括全域上,所有無關(guān)因素及因素之間交互作用所致的測量誤差都屬于絕對誤差。其方差估計 等于除測量對象自身的分?jǐn)?shù)變異之外的 所有分?jǐn)?shù)變異之和(D研究上)。3.43 刻畫誤差的指標(biāo)概化系數(shù)和可靠性指數(shù) 由于可以針對不同的概括全域或概

29、化全域作推論,因此,在不同條件下其測量誤差會有所不同。于是,對同一次測量可以僅對不同的推論范圍估計出不同的測量精度值。 就標(biāo)準(zhǔn)化常模參照測驗而言,我們的主要興趣在于測量的相對誤差。因此,的信度定義方法,概化系數(shù)可以定義為: 即用測量目標(biāo)的有效變異占有效變異與相對誤差之和的比值作為精度指標(biāo)。該指標(biāo)類似于中的信度,但在中,由于概括全域或概化全域可以有多個,因 此, 和 也會有多個。即,可以針對測驗結(jié)果 概括程度的不同而估計出多個測量“信度”。 就非常模參照性測驗或非標(biāo)準(zhǔn)化測驗而言,研究者必須考慮測量的絕對誤差,于是便定義了相對的可靠性指數(shù)來刻畫測量的精度,其數(shù)學(xué)定義為: 即,它是測量目標(biāo)自身的分?jǐn)?shù)

30、變異在全體分?jǐn)?shù)變異 中所占的比率。其中 實質(zhì)上包括了全部的系統(tǒng)誤差 和隨機誤差的變異。4 概化理論的基本方法 由于概化理論是CCT的進一步發(fā)展,所以CCT關(guān)于測量過程和題目分析的技術(shù)并未完全被GT所否認(rèn)。GT只是將該工作做得更加細(xì)致了一些。不過,GT把實測時的研究與做決策時的研究作了進一步的區(qū)分,并通過測量目標(biāo)與測量側(cè)面之間身份變換的方式成功地解決了題目分析及評分者信度方面的問題。4.1概化理論研究問題的基本過程 和CTT一樣。GT首先要考慮的也是測驗題目。但是GT不僅僅是把精力投入到測驗題目身上,而同時全面考慮影響測驗分?jǐn)?shù)的所有重要因素(即測量側(cè)面)。題目常常被看做是測量的側(cè)面或維度之一。

31、用樣本觀測值(如 )去估計被試的真值(如全域分?jǐn)?shù) )時,我們不再是去估計一個不涉及具體測量情境,而且對全體被試得分的誤差估計看做一致的信度值,而是根據(jù)測量目的的需要,慎重地選擇作估計時所涉及的測量側(cè)面及側(cè)面的水平數(shù)。換句話說,對于定義在不同概括全域上的全域分?jǐn)?shù),用樣本值 估計真值 會有不同的測驗信度或精度。這里,前一個問題就是GT中的概括化研究(研究),后一個問題則屬于GT中的決策研究(D研究)。研究和研究是GT的兩個基本步驟。而G研究的方差分解技術(shù)主要來源于實驗設(shè)計與方差分析。4.2概化研究(G研究) 概化理論認(rèn)為,測量工作者先要進行研究,其具體步驟如下。 第一步,明確測量對象和測量目標(biāo)。這一點與相同,即要首先明確測量對象及其潛在的特質(zhì)(測誰的什么屬性)。其中測量對象的行為與行為總體之間的關(guān)系也是重要的考慮因素。通常,測量目標(biāo)是被試的某種潛在特質(zhì)水平。 第二步,明確測量側(cè)面和觀測全域。凡是會影響測驗分?jǐn)?shù)的因素或條件都是需要慎重考慮的。同時,還要考慮每個側(cè)面的水平數(shù)(即要考慮從每個側(cè)面所對應(yīng)的全域中所抽取的樣本容量該有多大的問題)。通常,試題和評分者都是測量面,我們同時需要考慮的問題是:容量該有多大試題樣本才能有效地代表試

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論