心理測(cè)量學(xué)-第三章-信度_第1頁(yè)
心理測(cè)量學(xué)-第三章-信度_第2頁(yè)
心理測(cè)量學(xué)-第三章-信度_第3頁(yè)
心理測(cè)量學(xué)-第三章-信度_第4頁(yè)
心理測(cè)量學(xué)-第三章-信度_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章信度心理測(cè)驗(yàn)就是對(duì)某些心理特質(zhì)的個(gè)別差異進(jìn)行測(cè)量的工具,對(duì)心理特質(zhì)的測(cè)量與對(duì)物理屬性,如物體長(zhǎng)度和重量等的測(cè)量是一樣的。不同的是心理測(cè)量所測(cè)量的是抽象的心理特質(zhì),工具是心理測(cè)驗(yàn),而物理測(cè)量的對(duì)象那么是物體的重量和長(zhǎng)度等特性,工具是尺子和天平。心理測(cè)量與物理測(cè)量的另一個(gè)共同點(diǎn)是二者都難以防止誤差的影響。在對(duì)物體的長(zhǎng)度進(jìn)行測(cè)量時(shí),物體的熱脹冷縮,測(cè)量者讀取刻度的準(zhǔn)確性等因素都會(huì)使測(cè)量出的長(zhǎng)度與物體的實(shí)際長(zhǎng)度不符,在不同時(shí)間、地點(diǎn)的測(cè)量值會(huì)有出入。就是說(shuō),在不同情景下測(cè)量結(jié)果是不穩(wěn)定的,與測(cè)量情景和測(cè)量條件有關(guān)的誤差稱隨機(jī)誤差〔randomerror〕。由于這一誤差是由測(cè)量過(guò)程造成的,因此也稱測(cè)量誤差〔measurementerror〕。另一方面,使用一把尺子對(duì)物體的長(zhǎng)度進(jìn)行測(cè)量時(shí),這把尺子本身的質(zhì)量也可能造成誤差。如果一把尺子本身就是有問(wèn)題的,測(cè)量出的物體的長(zhǎng)度自然就不準(zhǔn)確。這類誤差與測(cè)量情景引進(jìn)的誤差不同,只要在測(cè)量時(shí)使用這把尺子,誤差就會(huì)恒定地存在,無(wú)法消除。這類由測(cè)量工具本身造成的誤差稱為系統(tǒng)誤差〔systemerror〕。對(duì)心理的測(cè)量與對(duì)物理的測(cè)量一樣,也同樣存在這兩類誤差。與這兩類誤差相對(duì)應(yīng),心理測(cè)驗(yàn)中引入了信度和效度的概念。信度研究涉及了測(cè)驗(yàn)分?jǐn)?shù)的可靠性和穩(wěn)定性,也即如何控制和減少隨機(jī)誤差。效度研究那么涉及了測(cè)量的系統(tǒng)誤差,也即如何提高測(cè)量工具本身的準(zhǔn)確性。經(jīng)典測(cè)驗(yàn)理論的信度觀教育與心理測(cè)驗(yàn)的目的是將個(gè)體的心理特質(zhì)數(shù)量化,從而更精確地研究心理的個(gè)別差異。在廿世紀(jì)初心理測(cè)量實(shí)踐的推動(dòng)下,測(cè)驗(yàn)理論產(chǎn)生了。經(jīng)過(guò)幾十年的開(kāi)展,到廿世紀(jì)五十年代初,教育與心理測(cè)驗(yàn)理論對(duì)測(cè)驗(yàn)的構(gòu)建、誤差的控制、測(cè)驗(yàn)結(jié)果的統(tǒng)計(jì)分析及解釋等問(wèn)題已形成一個(gè)完整的理論體系。為與以后產(chǎn)生的工程反響理論和概化理論相區(qū)別,人們習(xí)慣上將這一理論體系被稱為經(jīng)典測(cè)驗(yàn)理論〔ClassicalTestTheory,簡(jiǎn)稱CTT〕。信度〔reliability〕也稱可靠性,測(cè)驗(yàn)分?jǐn)?shù)的信度是指測(cè)驗(yàn)結(jié)果的一致性和穩(wěn)定性程度。即測(cè)驗(yàn)分?jǐn)?shù)不隨時(shí)間、地點(diǎn)等因素的變化而變化。信度與效度一樣,是衡量測(cè)驗(yàn)整體質(zhì)量的重要指標(biāo)。要搞清信度的概念,必須了解經(jīng)典測(cè)驗(yàn)理論中有關(guān)真分?jǐn)?shù)、測(cè)驗(yàn)誤差等的一系列假設(shè)。一、真分?jǐn)?shù)與測(cè)量誤差測(cè)驗(yàn)的結(jié)果是以分?jǐn)?shù)表示的,但是一個(gè)人在同一測(cè)驗(yàn)上的分?jǐn)?shù)并不是穩(wěn)定的,測(cè)驗(yàn)環(huán)境的熟悉與陌生、安靜與嘈雜、主試的和藹與嚴(yán)厲、以及被試是過(guò)度焦慮還是缺乏動(dòng)機(jī),以及機(jī)體和情緒狀態(tài)等因素都會(huì)影響測(cè)驗(yàn)分?jǐn)?shù),此外,被試的粗心、抄襲等因素也會(huì)使測(cè)驗(yàn)出現(xiàn)虛假的高分和低分。以上所說(shuō)的影響測(cè)驗(yàn)分?jǐn)?shù)的因素被稱為測(cè)驗(yàn)誤差,誤差的存在使得一個(gè)被試的測(cè)驗(yàn)實(shí)得分?jǐn)?shù)偏離他應(yīng)得的真實(shí)分?jǐn)?shù)。心理測(cè)量學(xué)家的任務(wù)之一就是降低測(cè)驗(yàn)誤差,使測(cè)驗(yàn)分?jǐn)?shù)接近被試的真實(shí)分?jǐn)?shù)。對(duì)一個(gè)測(cè)驗(yàn)而言,如果被試的實(shí)得分?jǐn)?shù)反映了他們的真實(shí)分?jǐn)?shù),我們就說(shuō)這個(gè)測(cè)驗(yàn)結(jié)果可靠、客觀,這次測(cè)驗(yàn)的信度就高。因此,測(cè)驗(yàn)信度也可理解為被試的真實(shí)分?jǐn)?shù)與其實(shí)得分?jǐn)?shù)的差距。前面說(shuō)的真實(shí)分?jǐn)?shù),心理和教育測(cè)量學(xué)上稱真分?jǐn)?shù)〔truescore〕,真分?jǐn)?shù)指無(wú)數(shù)次測(cè)量的平均值。即一個(gè)被試在許多〔理論上指無(wú)限多的〕平行測(cè)驗(yàn)上得分的平均值或具備某一個(gè)能力或其他心理特質(zhì)水平的許多被試在同一測(cè)驗(yàn)上得分的平均值。知道被試的真分?jǐn)?shù)后,我們就可以用所有被試真分?jǐn)?shù)與測(cè)驗(yàn)分?jǐn)?shù)的比值的平均數(shù)來(lái)表示測(cè)驗(yàn)的信度。然而事實(shí)上,真分?jǐn)?shù)是無(wú)法求得的,它只是一個(gè)理想概念,我們不能對(duì)同一被試反復(fù)屢次測(cè)量,因?yàn)閷掖螠y(cè)量后被試會(huì)由于練習(xí)或疲勞效應(yīng)而出現(xiàn)額外的誤差;同樣,找到能力水平完全相同的被試也只是理論上的可能。我們無(wú)法知道一個(gè)被試的真分?jǐn)?shù),也就無(wú)法知道實(shí)得分?jǐn)?shù)與真分?jǐn)?shù)的偏離程度,因此就不能計(jì)算測(cè)驗(yàn)的信度。為解決這一問(wèn)題,心理測(cè)驗(yàn)理論對(duì)實(shí)得分?jǐn)?shù)、真分?jǐn)?shù)、測(cè)驗(yàn)誤差做出了理論上的假定,推導(dǎo)出了信度的估計(jì)方法,由此構(gòu)建起了經(jīng)典測(cè)驗(yàn)理論的大廈。二、經(jīng)典測(cè)繪理論的根本理論假設(shè)〔一〕實(shí)得分?jǐn)?shù)、真分?jǐn)?shù)及測(cè)驗(yàn)誤差的關(guān)系經(jīng)典測(cè)驗(yàn)理論又稱真分?jǐn)?shù)理論,它對(duì)實(shí)得分?jǐn)?shù)、真分?jǐn)?shù)及測(cè)驗(yàn)誤差的關(guān)系進(jìn)行了一系列的理論假設(shè)。CTT將真分?jǐn)?shù)定義為被試在無(wú)數(shù)個(gè)平行形式的測(cè)驗(yàn)上得分的平均值〔或期望值〕。平行形式的測(cè)驗(yàn)可以是測(cè)驗(yàn)的多個(gè)等值復(fù)本,也可以是一個(gè)測(cè)驗(yàn)在不同條件下屢次施測(cè)。經(jīng)典測(cè)驗(yàn)理論對(duì)實(shí)得分?jǐn)?shù)、真分?jǐn)?shù)和測(cè)驗(yàn)誤差有如下假定:1.實(shí)得分?jǐn)?shù)與真分?jǐn)?shù)存在線性關(guān)系。這種線性關(guān)系可以用一個(gè)簡(jiǎn)單的公式表達(dá)出來(lái),即X=T+E〔3-1〕式中X表示實(shí)得分?jǐn)?shù)或觀測(cè)分?jǐn)?shù),即某被試在一個(gè)測(cè)驗(yàn)形式上的得分;T表示真分?jǐn)?shù);E表示測(cè)驗(yàn)誤差,即在測(cè)驗(yàn)?zāi)骋痪唧w形式上產(chǎn)生的隨機(jī)誤差。公式中的T、E是無(wú)法得到的,因此上式僅僅是一個(gè)表示真分?jǐn)?shù)與實(shí)得分?jǐn)?shù)間關(guān)系的數(shù)學(xué)模型。2.測(cè)驗(yàn)誤差的期望為零〔或誤差的平均數(shù)為0〕。即E〔E〕=0〔3-2〕上式可以是對(duì)一個(gè)被試而言的,也可以是對(duì)一組被試而言的,對(duì)一組被試,其測(cè)驗(yàn)誤差的和為0,平均數(shù)也為0。這一性質(zhì)是非常實(shí)用的。由〔3-1〕和〔3-2〕可以推論出〔3-3〕即一組被試真分?jǐn)?shù)的與實(shí)得分?jǐn)?shù)的平均數(shù)相等。3.誤差與真分?jǐn)?shù)獨(dú)立。E是測(cè)驗(yàn)中產(chǎn)生的隨機(jī)誤差,只與偶然因素有關(guān),而與真分?jǐn)?shù)T的大小無(wú)關(guān),也就是說(shuō),測(cè)驗(yàn)誤差并不隨被試能力或心理特質(zhì)水平的變化而出現(xiàn)有規(guī)律的變化,即真分?jǐn)?shù)與誤差分?jǐn)?shù)的相關(guān)系數(shù)為0。用rTE表示被試真分?jǐn)?shù)與誤差分?jǐn)?shù)的相關(guān)系數(shù),那么有:rTE=0 〔3-4〕上式也可表示為真分?jǐn)?shù)與誤差的協(xié)方差為0,即Cov〔T,E〕=0。4.實(shí)得分?jǐn)?shù)方差等于真分?jǐn)?shù)方差與隨機(jī)誤差方差之和。假設(shè)以S2X表示實(shí)得分?jǐn)?shù)方差,以S2T表示真分?jǐn)?shù)的方差,以S2E表示誤差方差,那么有〔3-5〕式〔3-5〕是由〔3-1〕、〔3-2〕、〔3-3〕、〔3-4〕式推導(dǎo)出的。由〔3-4〕式知rTE=0,故協(xié)方差Cov〔T,E〕=0。假設(shè)記t=T-T,e=E-E那么有∑〔t〕〔e〕=0〔參見(jiàn)有關(guān)的統(tǒng)計(jì)學(xué)課本〕又∵E=0∴E=e∴∑tE=0所以〔3-6〕〔二〕平行測(cè)驗(yàn)的假定與測(cè)驗(yàn)信度由于實(shí)得分?jǐn)?shù)的方差可分解為真分?jǐn)?shù)的方差和隨機(jī)誤差方差之和,因此從可操作的角度上,信度可定義為一組被試的真分?jǐn)?shù)方差與其實(shí)得分?jǐn)?shù)方差的比。也即真分?jǐn)?shù)的變異在實(shí)得分?jǐn)?shù)的變異中所占的比重?;?qū)嵉梅謹(jǐn)?shù)的變異在多大程度上是由真分?jǐn)?shù)的變異引起的。這一定義是不難理解的,因?yàn)楫?dāng)真分?jǐn)?shù)的變異在實(shí)得分?jǐn)?shù)中的變異大時(shí),就說(shuō)明真分?jǐn)?shù)對(duì)實(shí)得分?jǐn)?shù)的影響大,相應(yīng)誤差的影響就低,也就是說(shuō),真分?jǐn)?shù)方差對(duì)實(shí)得分?jǐn)?shù)方差的奉獻(xiàn)大,當(dāng)實(shí)得分?jǐn)?shù)變異可以全部由真分?jǐn)?shù)的變異解釋時(shí),測(cè)驗(yàn)誤差就是0,這時(shí)測(cè)驗(yàn)的信度為1。假設(shè)用表示測(cè)驗(yàn)的信度,那么有〔3-7〕或〔3-8〕但是,在實(shí)踐中我們是無(wú)法知道被試真分?jǐn)?shù)的方差,上式只是給出了信度的定義,不能用來(lái)計(jì)算測(cè)驗(yàn)信度。因此經(jīng)典測(cè)驗(yàn)理論又做出了平行測(cè)驗(yàn)的假定。經(jīng)典測(cè)驗(yàn)理論假定嚴(yán)格意義上的平行測(cè)驗(yàn)是存在的。平行測(cè)驗(yàn)指兩個(gè)測(cè)驗(yàn)內(nèi)容相似,測(cè)驗(yàn)長(zhǎng)度、平均分、難度、標(biāo)準(zhǔn)差均相同的測(cè)量同一特質(zhì)的兩個(gè)測(cè)驗(yàn)形式。對(duì)參加兩個(gè)平行測(cè)驗(yàn)的每一被試者,其真分?jǐn)?shù)相同〔T1=T2〕,誤差分的條件方差相同。且Cov〔E1,E2〕=0〔3-9〕Cov〔E1,T2〕=0〔3-10〕Cov〔E2,T1〕=0〔3-11〕有了這些假設(shè),我們就可以討論兩個(gè)平行測(cè)驗(yàn)間實(shí)得分?jǐn)?shù)〔X1和X2〕的相關(guān)系數(shù)與測(cè)驗(yàn)信度的關(guān)系。用X1i、X2i,T1i、T2i,E1i、E2i分別表示被試i在平行測(cè)驗(yàn)1和2上的實(shí)得分?jǐn)?shù)、真分?jǐn)?shù)和誤差分?jǐn)?shù),根據(jù)平行測(cè)驗(yàn)的定義有:且所以〔3—12〕〔3-13〕式證明了一個(gè)至關(guān)重要的結(jié)論,即一個(gè)測(cè)驗(yàn)兩個(gè)平行形式之間的相關(guān)系數(shù)就是該測(cè)驗(yàn)的信度,實(shí)踐中我們可以通過(guò)構(gòu)建平行測(cè)驗(yàn)來(lái)計(jì)算測(cè)驗(yàn)的信度。至此,心理測(cè)驗(yàn)學(xué)完成了其對(duì)測(cè)驗(yàn)信度的理論假設(shè)和推導(dǎo),構(gòu)建了一個(gè)較完整的理論體系,第二節(jié)信度系數(shù)的計(jì)算方法經(jīng)典測(cè)驗(yàn)理論證明了一個(gè)至關(guān)重要的結(jié)論,即一個(gè)測(cè)驗(yàn)的兩種平行形式之間的相關(guān)系數(shù)就是該測(cè)驗(yàn)的信度。這一結(jié)論為測(cè)驗(yàn)信度的實(shí)際計(jì)算提供了理論依據(jù)。從這一結(jié)論出發(fā)人們找到了平行測(cè)驗(yàn)的各種替代形式,相應(yīng)地也推導(dǎo)出了各種計(jì)算信度系數(shù)的替代性方法。這些替代性方法中常用的有重測(cè)法、復(fù)本法、分半法和計(jì)算內(nèi)部一致性系數(shù)法等。穩(wěn)定性系數(shù)〔coefficientofstability〕穩(wěn)定性系數(shù)的計(jì)算方法是,用同一量表在不同時(shí)間內(nèi)對(duì)同一組被試先后施測(cè)兩次,計(jì)算兩次測(cè)驗(yàn)得分的積差相關(guān)系數(shù),即為穩(wěn)定性系數(shù),表示的是測(cè)驗(yàn)結(jié)果的穩(wěn)定性。這種方法又稱重測(cè)法,所得的信度系數(shù)又稱為重測(cè)信度〔test-retestreliability〕。重測(cè)法的模式是:適當(dāng)時(shí)間施測(cè)————再施測(cè)重測(cè)時(shí)間間隔可以是幾分鐘,也要可以是幾年,但一般不超過(guò)6個(gè)月。計(jì)算重測(cè)信度的原理是對(duì)平行測(cè)驗(yàn)的假定,即認(rèn)為在不同時(shí)間施測(cè)的同一測(cè)驗(yàn)是平行的,其真分?jǐn)?shù)相同,實(shí)得分?jǐn)?shù)和誤差的方差也相同。但這一假定從嚴(yán)格意義上講是難以成立的。因?yàn)橹販y(cè)時(shí)被試的心理特質(zhì)會(huì)發(fā)生變化,導(dǎo)致真分?jǐn)?shù)變異,練習(xí)和疲勞效應(yīng)會(huì)使重測(cè)時(shí)的測(cè)驗(yàn)結(jié)果出現(xiàn)變異。在測(cè)驗(yàn)手冊(cè)上報(bào)告的重測(cè)信度,一般要注明被試樣本的性質(zhì)、大小,及間隔多長(zhǎng)時(shí)間所測(cè)得的信度系數(shù),以便使用者了解樣本及時(shí)間因素對(duì)測(cè)驗(yàn)穩(wěn)定性的影響。計(jì)算重測(cè)信度時(shí)應(yīng)注意兩方面的問(wèn)題:1.所欲測(cè)量的心理特質(zhì)是否穩(wěn)定。所測(cè)的如果是人格、智力、興趣等心理特質(zhì),那么可以使用重測(cè)法,而知識(shí)、情緒等不穩(wěn)定的心理特質(zhì)使用重測(cè)法時(shí)必須慎重。2.重測(cè)結(jié)果要盡量減少練習(xí)或遺忘因素的影響。智力測(cè)驗(yàn)的時(shí)間間隔不能太短,成就測(cè)驗(yàn)?zāi)敲床荒荛g隔太長(zhǎng),既不能讓被試記住上一次的測(cè)驗(yàn)內(nèi)容,又不能使其特質(zhì)發(fā)生變化,或?qū)λ鶎W(xué)知識(shí)產(chǎn)生遺忘。因此要有適當(dāng)?shù)臅r(shí)間間隔。如使用年齡小的被試樣本時(shí),測(cè)驗(yàn)間隔就要小些,年齡大的被試那么可以長(zhǎng)些。等值性系數(shù)復(fù)本即編制測(cè)驗(yàn)時(shí)形成的兩個(gè)平行測(cè)驗(yàn)。兩個(gè)復(fù)本施測(cè)于同一被試樣本所得測(cè)驗(yàn)分?jǐn)?shù)的積差相關(guān)系數(shù),即為等值性系數(shù)〔coefficientofequivalence〕,或稱復(fù)本信度〔alternateformreliability〕。復(fù)本法的模式是:最短時(shí)間復(fù)本A————復(fù)本B一般的標(biāo)準(zhǔn)化測(cè)驗(yàn)都有復(fù)本,原那么上講,所有的心理測(cè)驗(yàn)都可以使用復(fù)本法計(jì)算信度,適用范圍較廣泛,一般而言,成就測(cè)驗(yàn)、特殊能力測(cè)驗(yàn)較容易制作復(fù)本,這是因?yàn)閺乃袦y(cè)題中選擇出等值的測(cè)題樣本并不太困難,但對(duì)一些不易測(cè)量的特質(zhì),如人格、動(dòng)機(jī)等,那么不易找到等值的測(cè)題,因而不容易制作復(fù)本。但等值性系數(shù)也有缺點(diǎn):如被試易出現(xiàn)疲勞、失去積極性等反響,還會(huì)出現(xiàn)遷移。這稱為順序效應(yīng),為抵消順序效應(yīng),可隨機(jī)分配一半被試先做復(fù)本A后做復(fù)本B,另一半先做B再做A,以平衡順序效應(yīng)。三、等值穩(wěn)定性系數(shù)〔coefficientofstabilityandequivalence〕等值性系數(shù)易出現(xiàn)練習(xí)和疲勞效應(yīng),穩(wěn)定性系數(shù)的局限是受所測(cè)心理特性的穩(wěn)定程度的影響,為克服這個(gè)缺點(diǎn),我們可以使用一個(gè)測(cè)驗(yàn)等值的兩個(gè)復(fù)本,間隔適當(dāng)時(shí)間施測(cè)于同一組被試。這一方法所得相關(guān)系數(shù)稱為等值穩(wěn)定系數(shù)。其模式是:適當(dāng)時(shí)間復(fù)本A————復(fù)本B同復(fù)本法和重測(cè)法相比,等值穩(wěn)定系數(shù)有以下特點(diǎn):1、因兩次測(cè)試有適當(dāng)?shù)臅r(shí)間間隔,減少了復(fù)本法中的練習(xí)、疲勞效應(yīng)。2、如果時(shí)間間隔適當(dāng),可用于計(jì)算穩(wěn)定性不高的心理特質(zhì)的測(cè)驗(yàn)的信度,克服了穩(wěn)定性系數(shù)的局限。比方對(duì)知識(shí)的測(cè)量,如果被試對(duì)復(fù)本A的記憶對(duì)復(fù)本B的影響小,時(shí)間間隔就可小些,防止了被試對(duì)知識(shí)的過(guò)多遺忘。等值穩(wěn)定性信度系數(shù)的應(yīng)用也較廣。但應(yīng)注意,等值穩(wěn)定性信度系數(shù)的取值一般比重測(cè)信度和復(fù)本信度低,因?yàn)橛?jì)算兩復(fù)本間的相關(guān)時(shí),時(shí)間因素引起的所欲測(cè)量的特質(zhì)的變化及試題取樣的不同都會(huì)影響兩次測(cè)驗(yàn)分?jǐn)?shù)的一致性。因此,等值穩(wěn)定性系數(shù)是對(duì)測(cè)驗(yàn)信度最嚴(yán)格的考察,得到的是信度系數(shù)的下限。四、分半信度〔split-halfreliability〕前面講述的三種計(jì)算信度的方法的共同點(diǎn)是需要兩次測(cè)量,因而不可防止地出現(xiàn)一些問(wèn)題,如時(shí)間因素對(duì)兩次測(cè)驗(yàn)分?jǐn)?shù)一致性的影響,被試容易出現(xiàn)練習(xí)和疲勞效應(yīng),及失去興趣等,且在組織被試時(shí)也會(huì)有很多不便。為此可通過(guò)計(jì)算分半信度來(lái)克服以上問(wèn)題。分半信度就是將測(cè)驗(yàn)題目分成等值的兩半,分別求出兩半題目的總分,再計(jì)算兩局部總分的相關(guān)系數(shù)。分半法實(shí)際上是一種特殊的復(fù)本法。分半的方法很多,一般是將奇數(shù)題和偶數(shù)題各分為一半,而非前后分半,目的是防止順序效應(yīng)。分半后再計(jì)算一組被試兩半題目各自得分和的相關(guān)系數(shù),使用分半信度要注意兩點(diǎn)問(wèn)題:一是測(cè)驗(yàn)題目所測(cè)的是同一種心理特質(zhì)。二是兩半題目是等值的,即平行的。分半以后,我們實(shí)際上計(jì)算的是測(cè)驗(yàn)的一半題目的信度,而非整個(gè)測(cè)驗(yàn)的信度,也就是說(shuō),我們把一個(gè)完整的測(cè)驗(yàn)分成了兩個(gè)等值的復(fù)本,所計(jì)算的只是其中一個(gè)復(fù)本的信度。這就造成了對(duì)整個(gè)測(cè)驗(yàn)的信度的低估,因?yàn)樾哦葧?huì)隨著測(cè)驗(yàn)長(zhǎng)度的增加而提高。要得到整個(gè)測(cè)驗(yàn)信度的估計(jì),必須對(duì)分半相關(guān)系數(shù)進(jìn)行校正,其校正公式為斯皮爾曼—布朗公式:〔3-13〕其中rxx為分半信度,rx1x2表示兩半題目各自得分和之相關(guān),n為原測(cè)驗(yàn)相當(dāng)于變化后測(cè)驗(yàn)長(zhǎng)度的倍數(shù),計(jì)算分半信度時(shí)n=2。斯—布公式是一個(gè)經(jīng)驗(yàn)公式,它要求前后兩半題目有相同的變異〔方差〕,方差不同時(shí),那么會(huì)高估信度系數(shù)。為克服這一限制,心理學(xué)家又創(chuàng)造了其他計(jì)算分半信度的公式。常用的有盧龍〔Rulon,1939〕公式和弗朗那根〔Flanagan,1941〕公式。盧龍公式可表示為:rxx=1-〔3-14〕S2d是兩半題目總分差的方差,相當(dāng)于信度公式中誤差的方差。測(cè)驗(yàn)奇偶兩半題目的總分之差的方差越小,說(shuō)明測(cè)驗(yàn)分?jǐn)?shù)受偶然因素的影響越小,信度就高。弗朗那根公式可表示為:rxx=2〔1-〕〔3-15〕式中S2x1和S2x2為兩半題目得分和的方差。應(yīng)該注意的是,盧龍公式和弗朗那概公式的計(jì)算結(jié)果是一致的。五、同質(zhì)性信度同質(zhì)性指測(cè)驗(yàn)的所有測(cè)題測(cè)量的是同一種心理特質(zhì),表現(xiàn)為各題得分之間有較高的相關(guān),相關(guān)越高那么同質(zhì)性越強(qiáng)。人的心理特質(zhì),如人格、智力等大都是多維度的,因此整個(gè)測(cè)驗(yàn)就不可能是同質(zhì)的,如果按維度的不同將測(cè)驗(yàn)分成幾個(gè)分測(cè)驗(yàn)構(gòu)成的分測(cè)驗(yàn),那么每個(gè)分測(cè)驗(yàn)就都是同質(zhì)的。分半信度是一種同質(zhì)性信度,計(jì)算的奇偶兩半題目得分的一致性,是以測(cè)驗(yàn)題目同質(zhì)為前提的。但是,奇偶分半法并非唯一的一種分半法,而應(yīng)該有種,不同的分半法計(jì)算出的分半信度也不一致,難以保證哪一個(gè)是測(cè)驗(yàn)的真正信度。而如果我們想計(jì)算各種分半法所得信度的平均值時(shí),又顯得過(guò)于繁瑣。如一個(gè)含有20個(gè)題目的測(cè)驗(yàn),就要計(jì)算=92378個(gè)信度系數(shù)。因此人們提出了其他更有效的方法。1.庫(kù)德-理查森公式法庫(kù)德-理查森公式是常用的計(jì)算兩級(jí)計(jì)分測(cè)驗(yàn)同質(zhì)性信度的公式。其中最有代表性的是庫(kù)德-理查森的20號(hào)公式〔KR20〕和21號(hào)公式〔KR21〕。它們被認(rèn)為計(jì)算的是所有可能的分半信度的平均數(shù)。KR20的計(jì)算公式為:〔3-16〕式中n為題數(shù),S2x為被試總分的方差,pi為通過(guò)i題〔得1分〕的被試占總?cè)藬?shù)的比例,qi=1-pi,即未通過(guò)的比例。表示測(cè)驗(yàn)題目的通過(guò)比例和未通過(guò)比例的積的和。KR20公式中的Pi表示答對(duì)該題的比例,可視為該題的難度,當(dāng)所有題目的難度相近時(shí),可使用更為簡(jiǎn)便的21號(hào)公式:〔3-17〕2.克龍巴赫的α系數(shù)庫(kù)德-理查森公式適用于兩級(jí)記分的測(cè)驗(yàn),而對(duì)多級(jí)記分的測(cè)驗(yàn),那么使用克龍巴赫的α系數(shù),其公式為: 〔3-18〕其中n表示題目數(shù)。S2i為每一題目的方差,S2x為總分方差。α系數(shù)也適用于兩級(jí)記分的情況,測(cè)驗(yàn)分?jǐn)?shù)是兩級(jí)記分時(shí),用α系數(shù)和庫(kù)德--理查森公式所得結(jié)果一樣,可見(jiàn)庫(kù)德--理查森公式是α系數(shù)的一個(gè)特例??她埌秃盏摩料禂?shù)因適用性強(qiáng)而被測(cè)驗(yàn)編制者廣為應(yīng)用,但α系數(shù)在應(yīng)用上不是沒(méi)有問(wèn)題的。不少研究者發(fā)現(xiàn),α系數(shù)并不能作為測(cè)驗(yàn)同質(zhì)性的指標(biāo),高α系數(shù)不一定說(shuō)明測(cè)驗(yàn)是單維度的,多維度的測(cè)驗(yàn)計(jì)算出的α系數(shù)值有可能高于單維度測(cè)驗(yàn)〔候杰泰,1995,吳瑞屯,1996〕。吳瑞屯〔1996〕的模擬研究說(shuō)明,增加測(cè)驗(yàn)的工程數(shù)會(huì)使測(cè)驗(yàn)的α系數(shù)明顯地提高。例如,當(dāng)工程數(shù)為20而工程間的相關(guān)僅為0.1時(shí),α系數(shù)也能到達(dá)0.70以上。如此低的工程間相關(guān)很難說(shuō)明測(cè)驗(yàn)是同質(zhì)的。因此α系數(shù)高并不表示測(cè)驗(yàn)的信度高。另外α系數(shù)的應(yīng)用條件也是較嚴(yán)格的,在工程方差不同的情況下,α系數(shù)只是信度估計(jì)的下限。六、評(píng)分者信度〔scorerreliability〕客觀性測(cè)驗(yàn)中,不存在評(píng)分者之者評(píng)分不一致的情況,因此無(wú)需計(jì)算評(píng)分者信度,而在涉及主觀性題目的測(cè)驗(yàn)中,評(píng)分者的不同會(huì)造成測(cè)驗(yàn)評(píng)分的差異而導(dǎo)致評(píng)分誤差,是測(cè)驗(yàn)誤差的來(lái)源之一。因此要計(jì)算評(píng)分者信度。教育測(cè)驗(yàn)中的作文考試就是典型的主觀性測(cè)題,高考作文的評(píng)分在不同評(píng)分者中會(huì)有很大差異,即存在評(píng)分者信度的問(wèn)題。而在一些投射性測(cè)驗(yàn)〔如TAT和羅夏測(cè)驗(yàn)〕中,評(píng)分者信度是測(cè)驗(yàn)信度的重要評(píng)價(jià)指標(biāo)。當(dāng)評(píng)分者為兩人〔或一個(gè)人兩次評(píng)分〕時(shí),可采用相關(guān)系數(shù)的方法,計(jì)算在某個(gè)題目上兩次評(píng)分的相關(guān)系數(shù)作為評(píng)分者信度系數(shù)。如果是多個(gè)評(píng)分者或一個(gè)人兩次以上的評(píng)分,可采用肯德?tīng)柡椭C系數(shù)。評(píng)分者信度高僅僅是測(cè)驗(yàn)信度高的必要條件,而非充分條件。七、各種信度系數(shù)的比擬各種信度系數(shù)及其誤差的來(lái)源見(jiàn)表3.1。從表3.1中可看出影響信度系數(shù)的各方面誤差。由于誤差來(lái)源的不同,即使同一個(gè)測(cè)驗(yàn)用不同方法所計(jì)算的信度系數(shù)也會(huì)有很大不同,各系數(shù)間也不具有可比性。這種不一致似乎說(shuō)明沒(méi)有一種指標(biāo)能代表測(cè)驗(yàn)的真正信度,這也正表達(dá)了經(jīng)典測(cè)驗(yàn)理論的局限性。因此在涉及測(cè)驗(yàn)信度的研究中,要分別報(bào)告不同方法計(jì)算出的信度值。表3.1與信度系數(shù)有關(guān)的誤差方差來(lái)源信度系數(shù)類型誤差方差來(lái)源重測(cè)信度時(shí)間抽樣復(fù)本信度內(nèi)容抽樣等值穩(wěn)定系數(shù)時(shí)間和內(nèi)容抽樣分半信度內(nèi)容抽樣庫(kù)德-理查森系數(shù)和α系數(shù)內(nèi)容抽樣和內(nèi)容異質(zhì)性評(píng)分者信度評(píng)分者之間的差異第三節(jié)信度的作用與影響因素一、信度的意義與作用測(cè)驗(yàn)結(jié)果信度的信息有兩方面的作用,一是用于評(píng)價(jià)測(cè)驗(yàn)質(zhì)量,一是用于解釋測(cè)驗(yàn)分?jǐn)?shù)。1.評(píng)價(jià)測(cè)驗(yàn)信度表示真分?jǐn)?shù)變異在實(shí)得分?jǐn)?shù)變異中所占的比重,信度越高,說(shuō)明測(cè)驗(yàn)所得分?jǐn)?shù)越接近被試的真實(shí)分?jǐn)?shù),分?jǐn)?shù)就可靠。因此要求信度越高越好,理想狀態(tài)下為1.00,但實(shí)際上達(dá)不到這一標(biāo)準(zhǔn)。測(cè)驗(yàn)的信度會(huì)隨著測(cè)驗(yàn)種類、測(cè)驗(yàn)情境的不同而不同。一般能力和成就測(cè)驗(yàn)的信度系數(shù)通常在0.90以上,人格和興趣測(cè)驗(yàn)在之間。測(cè)驗(yàn)的目的不同,對(duì)信度的要求也不同。一般認(rèn)為信度系數(shù)高于0.85時(shí),可對(duì)個(gè)人進(jìn)行診斷、鑒別、解釋,也可以進(jìn)行團(tuán)體比擬;當(dāng)信度位于0.70和0.85之間時(shí),只能進(jìn)行團(tuán)體比擬,信度<0.70時(shí),不能評(píng)價(jià)個(gè)人,也不能進(jìn)行團(tuán)體比擬。但這些不能作為絕對(duì)的取舍標(biāo)準(zhǔn),有些信度不高的測(cè)驗(yàn)卻可能是非常有用的。必須重申,我們討論的信度一般指的是某次測(cè)驗(yàn)結(jié)果的信度,利用不同的被試,在不同時(shí)間和地點(diǎn)測(cè)驗(yàn)可能會(huì)有不同的信度,因此不能根據(jù)一兩次測(cè)驗(yàn)的結(jié)果否認(rèn)一個(gè)測(cè)驗(yàn)的價(jià)值。2.解釋分?jǐn)?shù)〔1〕解釋個(gè)人分?jǐn)?shù)實(shí)際測(cè)量中我們往往希望通過(guò)一次測(cè)驗(yàn)結(jié)果來(lái)了解被試的真分?jǐn)?shù)。因?yàn)橛袦y(cè)量誤差存在,所以我們不能把實(shí)得分?jǐn)?shù)當(dāng)成真分?jǐn)?shù),而只能根據(jù)已有信息對(duì)其進(jìn)行估計(jì)。推論統(tǒng)計(jì)告訴我們,對(duì)總體參數(shù)進(jìn)行點(diǎn)估計(jì)是不準(zhǔn)確的,錯(cuò)誤的概率非常大。而如果通過(guò)區(qū)間估計(jì)的方法估計(jì)出總體參數(shù)的置信區(qū)間,那么能將預(yù)測(cè)誤差控制在較低的水平。真分?jǐn)?shù)是無(wú)數(shù)次測(cè)量的平均值,所以可看作總體參數(shù),而一次測(cè)量的結(jié)果就可看作樣本統(tǒng)計(jì)量,這樣估計(jì)真分?jǐn)?shù)的問(wèn)題就變成了估計(jì)總體參數(shù)的問(wèn)題。利用實(shí)得分?jǐn)?shù)估計(jì)被試真分?jǐn)?shù)時(shí),就應(yīng)采取區(qū)間估計(jì)的方法。如果SE為無(wú)數(shù)次測(cè)量誤差〔E=X-T〕的標(biāo)準(zhǔn)差,即測(cè)驗(yàn)的標(biāo)準(zhǔn)誤的話,那么真分?jǐn)?shù)95%的置信區(qū)間為〔X±1.96SE〕。但SE如何求出呢?我們知道,在經(jīng)典測(cè)驗(yàn)理論中SE是隨機(jī)誤差,其大小和方差只與偶然因素有關(guān)而與被試的能力〔特質(zhì)〕水平無(wú)關(guān),故我們可以把一組被試在同一測(cè)驗(yàn)上的誤差的標(biāo)準(zhǔn)差SE看作使用平行測(cè)驗(yàn)對(duì)同一被試無(wú)數(shù)次測(cè)量的標(biāo)準(zhǔn)誤SE。測(cè)驗(yàn)標(biāo)準(zhǔn)誤可用下式計(jì)算:SE=SX(jué)1-rXX〔3-19〕SE為測(cè)驗(yàn)標(biāo)準(zhǔn)誤,或測(cè)量標(biāo)準(zhǔn)誤,rXX為測(cè)驗(yàn)的信度,SX為測(cè)驗(yàn)分?jǐn)?shù)的方差??梢钥闯鰷y(cè)驗(yàn)標(biāo)準(zhǔn)誤與SX,即實(shí)得分?jǐn)?shù)標(biāo)準(zhǔn)差成正比,而與測(cè)驗(yàn)信度rXX成反比。知道了一組被試實(shí)得分?jǐn)?shù)和測(cè)驗(yàn)的信度后,我們就可以對(duì)每一被試真分?jǐn)?shù)的分布范圍進(jìn)行區(qū)間估計(jì)。假設(shè)某智力測(cè)驗(yàn)信度為0.95,標(biāo)準(zhǔn)差為15,某兒童得分為120分,我們就可以估計(jì)其真分?jǐn)?shù)的范圍。SE=15×1-0.95=3.35那么他的真實(shí)智力測(cè)驗(yàn)分?jǐn)?shù)的95%的置信區(qū)間為〔113.4T126.6〕。即他的智力測(cè)驗(yàn)分?jǐn)?shù)有95%的可能是在113.4和126.6之間。如果要提高估計(jì)的把握度,那么可求出99%的置信區(qū)間。由此可見(jiàn),知道測(cè)驗(yàn)的信度后,我們就能對(duì)被試的真分?jǐn)?shù)進(jìn)行估計(jì),信度越高,實(shí)得分?jǐn)?shù)越得代表他的真分?jǐn)?shù),信度為1時(shí),實(shí)得分?jǐn)?shù)就是真分?jǐn)?shù)。測(cè)驗(yàn)標(biāo)準(zhǔn)誤在個(gè)人分?jǐn)?shù)的解釋中有重大意義。〔2〕比擬測(cè)驗(yàn)分?jǐn)?shù)的差異有時(shí)我們希望比擬一個(gè)人或兩個(gè)人在不同測(cè)驗(yàn)上的分?jǐn)?shù)是否有顯著差異,以判斷其真分?jǐn)?shù)是否有差異,這就要用分?jǐn)?shù)差異的顯著性檢驗(yàn)。在知道兩測(cè)驗(yàn)的信度的情況下,我們可以根據(jù)公式對(duì)這一問(wèn)題方便地予以解答。當(dāng)然這里比擬的分?jǐn)?shù)不是兩測(cè)驗(yàn)的原始分?jǐn)?shù),而是轉(zhuǎn)換到同一量尺上的導(dǎo)出分?jǐn)?shù),如T分?jǐn)?shù),Z分?jǐn)?shù),離差智商等,分?jǐn)?shù)在同一量尺上才能相互比擬。在統(tǒng)計(jì)學(xué)上,兩分?jǐn)?shù)差異的標(biāo)準(zhǔn)誤可表示為:SEd=SEX+SEY〔3-20〕由于兩測(cè)驗(yàn)的分?jǐn)?shù)是在同一量尺上表示的,所以有相同的標(biāo)準(zhǔn)差,即SX=SY=S。將和代入上式,得:〔3-21〕將標(biāo)準(zhǔn)差和兩測(cè)驗(yàn)信度代入上式,即得分?jǐn)?shù)差異的標(biāo)準(zhǔn)誤。如果我們要求判斷真分?jǐn)?shù)是否有差異時(shí)要有95%的把握,那么必須在兩測(cè)驗(yàn)分?jǐn)?shù)之差不低于1.96SEd時(shí)才能認(rèn)為其真分?jǐn)?shù)有差異,假設(shè)把握度為99%,那么差異應(yīng)不低于2.58SEd。二、影響測(cè)驗(yàn)信度的因素信度上下表達(dá)了測(cè)量中對(duì)隨機(jī)誤差即測(cè)驗(yàn)誤差的控制程度。測(cè)驗(yàn)誤差是測(cè)驗(yàn)過(guò)程中產(chǎn)生的隨機(jī)誤差,其來(lái)源有:被試方面:包括被試的測(cè)驗(yàn)動(dòng)機(jī)、注意力、焦慮水平、測(cè)驗(yàn)經(jīng)驗(yàn)、身心健康等;主試及測(cè)驗(yàn)評(píng)分方面:包括主試的年齡、性別、態(tài)度,及記分、評(píng)分的客觀性;測(cè)驗(yàn)情境方面:包括噪音、光線、房間大小、環(huán)境的熟悉程度等;測(cè)驗(yàn)內(nèi)容方面:包括指導(dǎo)語(yǔ)的清晰度、內(nèi)容取樣的差異等都會(huì)造成隨機(jī)誤差。測(cè)驗(yàn)誤差是任何測(cè)驗(yàn)形式都不可防止的,也是測(cè)驗(yàn)理論都力求解決的,具有普遍性。而以下我們討論的幾種影響信度的因素卻主要與經(jīng)典測(cè)驗(yàn)理論計(jì)算信度的方法有關(guān)。1.所測(cè)樣本團(tuán)體同質(zhì)性程度被試樣本的同質(zhì)性程度即被試樣本團(tuán)體中實(shí)際能力〔或特質(zhì)水平〕的差異程度。實(shí)際水平相差大時(shí),被試為異質(zhì)團(tuán)體,實(shí)際水平相差小時(shí),被試那么為同質(zhì)團(tuán)體。按照經(jīng)典測(cè)驗(yàn)理論,測(cè)驗(yàn)誤差是與樣本同質(zhì)性無(wú)關(guān)的,即不同樣本中誤差的方差可認(rèn)為不變,但同質(zhì)樣本中,實(shí)得分?jǐn)?shù)的變異小,而異質(zhì)樣本中實(shí)得分?jǐn)?shù)的變異那么大,從信度計(jì)算公式可知,在異質(zhì)團(tuán)體中,真分?jǐn)?shù)變異在實(shí)得分?jǐn)?shù)中的變異中的比重會(huì)增加,誤差的變異所占的比重就小,信度值就較大;而在同質(zhì)性的被試團(tuán)體中,信度值就低。增大樣本的異質(zhì)性的作用是增大測(cè)驗(yàn)分?jǐn)?shù)的分布范圍,即變異程度,從而到達(dá)了降低隨機(jī)誤差,提高信度的目的。2.測(cè)驗(yàn)的長(zhǎng)度測(cè)驗(yàn)的長(zhǎng)度也會(huì)影響測(cè)驗(yàn)的信度。由于測(cè)驗(yàn)總分是由各題目得分的累加得到,所以當(dāng)測(cè)驗(yàn)的題目數(shù)增加時(shí),就可以使發(fā)生在各測(cè)題上的誤差相互抵消,被試的測(cè)驗(yàn)總分就會(huì)更加接近其真分?jǐn)?shù);另一方面,測(cè)驗(yàn)題目數(shù)的增加會(huì)導(dǎo)致測(cè)驗(yàn)分?jǐn)?shù)〔總分〕的分布范圍、即變異程度的增加,測(cè)驗(yàn)分?jǐn)?shù)的變異程度增加了,誤差分?jǐn)?shù)的方差在實(shí)得分?jǐn)?shù)方差中占的比重就會(huì)減小,測(cè)驗(yàn)的信度就會(huì)提高。前面已經(jīng)討論過(guò),增加被試的異質(zhì)性會(huì)增加測(cè)驗(yàn)的信度,原因是增加異質(zhì)性事實(shí)上是擴(kuò)大了被試的得分范圍。而增加測(cè)驗(yàn)題會(huì)同樣起到擴(kuò)大得分范圍的目的,故此會(huì)增加測(cè)驗(yàn)信度。明確了測(cè)驗(yàn)長(zhǎng)度與測(cè)驗(yàn)信度的關(guān)系,在實(shí)際工作中就可以采用延長(zhǎng)測(cè)驗(yàn)長(zhǎng)度的方法提高信度。測(cè)驗(yàn)信度與測(cè)驗(yàn)長(zhǎng)度的關(guān)系可用斯皮爾曼--布朗通式來(lái)表示〔參見(jiàn)分半信度局部的討論〕。延長(zhǎng)測(cè)驗(yàn)長(zhǎng)度需注意的一個(gè)問(wèn)題是所增加的題目必須是與原測(cè)驗(yàn)題目同質(zhì)的。3.測(cè)驗(yàn)題目的難度測(cè)驗(yàn)題目的難度會(huì)影響測(cè)驗(yàn)分?jǐn)?shù)的分布范圍,因此會(huì)影響信度。測(cè)驗(yàn)題目都很難時(shí),被試的分?jǐn)?shù)會(huì)集中于低分一端,而題目過(guò)易時(shí),那么集中于高分一端,都會(huì)使分?jǐn)?shù)范圍縮小,而當(dāng)測(cè)題難度都接近0.5或平均難度為0.5左右時(shí),測(cè)驗(yàn)分?jǐn)?shù)就呈現(xiàn)正態(tài)分布,分布范圍廣,信度就高。第四節(jié)概化理論的信度觀概化理論〔GeneralizabilityTheory,簡(jiǎn)稱GT〕與工程反響理論一起被稱為現(xiàn)代測(cè)驗(yàn)理論,代表了測(cè)驗(yàn)理論開(kāi)展的一大趨勢(shì)。1963年,克龍巴赫等〔Cronbach,L.J.,Rajaratuam,N.,&Gleser,G.C.,〕在英國(guó)統(tǒng)計(jì)心理學(xué)雜志上發(fā)表了有關(guān)概化理論的第一篇論文,1972年,克龍巴赫等又將這一理論系統(tǒng)化,出版《行為測(cè)量的可靠性》一書(shū),標(biāo)志著概化理論的創(chuàng)立。此后不少研究者,如布倫南〔Brennan,R.L.,〕和施沃森〔Shavelson,R.J.,〕等人進(jìn)一步豐富了這一理論體系??死锟恕睠rick,J.E.,〕和布倫南〔1983〕編制了專門(mén)用于概化理論統(tǒng)計(jì)分析的計(jì)算機(jī)程序GENOVA,促進(jìn)了這一理論的推廣和應(yīng)用。一、概化理論的根本框架任何測(cè)量都是在一組測(cè)量條件,或者說(shuō)情境下進(jìn)行的,如測(cè)驗(yàn)所使用的題目樣本、測(cè)驗(yàn)場(chǎng)所、評(píng)分者等,這些都構(gòu)成了誤差的來(lái)源。但經(jīng)典測(cè)驗(yàn)理論并沒(méi)有區(qū)分出不同的誤差來(lái)源,因而不能對(duì)誤差的控制提出很好的方法。概化理論那么運(yùn)用方差分析技術(shù)將來(lái)自不同測(cè)量條件的誤差分解,從而選擇合理的測(cè)驗(yàn)設(shè)計(jì)方案以減少誤差,提高測(cè)量的精度?!惨弧硿y(cè)量的目標(biāo)〔objects〕和測(cè)量的面〔facets〕概化理論區(qū)分了測(cè)量的目標(biāo)和測(cè)量的面這兩個(gè)概念,并在實(shí)施測(cè)量之前首先確定其測(cè)量目標(biāo)和測(cè)量的面是什么。測(cè)量的目標(biāo)一般是指所要測(cè)量的心理特質(zhì),如被試的閱讀理解能力,寫(xiě)作能力等,測(cè)量面那么是指測(cè)量的一組條件,也就是影響測(cè)驗(yàn)過(guò)程和測(cè)量結(jié)果的各種情境。測(cè)量時(shí)我們可以將測(cè)量條件分成幾個(gè)維度,如測(cè)驗(yàn)所用的題目樣本,測(cè)驗(yàn)的場(chǎng)所,測(cè)驗(yàn)的時(shí)間等就是測(cè)量條件的幾個(gè)維度,它們都是測(cè)量的面,這些面的變化會(huì)導(dǎo)致不同的測(cè)驗(yàn)結(jié)果。在測(cè)量時(shí),我們總希望由測(cè)量目標(biāo)所引起的測(cè)驗(yàn)結(jié)果的變異到達(dá)最大,而由測(cè)量面所引起的變異最小。比方,一個(gè)研究者要編制一個(gè)測(cè)量閱讀理解能力的測(cè)驗(yàn),他選擇了幾篇不同內(nèi)容的短文,讓幾名評(píng)分員評(píng)分。在他的研究中,我們可區(qū)分出兩個(gè)測(cè)量面,一個(gè)是試題面〔items,簡(jiǎn)稱i〕,一個(gè)評(píng)分者面〔raters,簡(jiǎn)稱r〕,測(cè)量的目標(biāo)〔person,簡(jiǎn)稱p〕那么是被試的閱讀理解能力。一個(gè)測(cè)量面〔即測(cè)量條件的一個(gè)維度〕類似于方差分析的一個(gè)自變量,方差分析中的自變量可以有不同的水平,相應(yīng)地,測(cè)量面也可以有不同的水平,二者的含義也是根本一致的。例如上例中,研究者可以用8篇短文作為試題,讓5個(gè)評(píng)分員對(duì)10個(gè)被試的8篇短文的成績(jī)進(jìn)行評(píng)分,8篇短文就是試題面的8個(gè)水平,5個(gè)評(píng)分者就是評(píng)分者面的5個(gè)水平,它們都是誤差的可能來(lái)源。原那么上講,研究者可從無(wú)窮多篇短文中選擇假設(shè)干篇作為試題,同樣作為評(píng)分者的人選也有無(wú)窮多個(gè),也即試題面和評(píng)分者的水平有無(wú)窮多個(gè)。研究者所選用的試題和評(píng)分者往往都是相應(yīng)總體的一個(gè)樣本。概化理論把每個(gè)測(cè)量面的水平所對(duì)應(yīng)的總體叫做測(cè)量的全域〔universe〕。測(cè)量中研究者所考察的所有測(cè)量面全域的集合就叫該測(cè)量的可觀測(cè)全域或允許測(cè)量全域〔universeofadmissiableobservation〕,可觀測(cè)全域或允許測(cè)量全域中的每一個(gè)水平都是可以測(cè)量的。如上例中所有試題的集合就是試題全域,所有評(píng)分者的集合就是評(píng)分者全域,而試題全域和評(píng)分者全域就構(gòu)成測(cè)量的可觀測(cè)全域,這樣,研究中的可觀測(cè)全域就包括了一個(gè)評(píng)分者面和一個(gè)試題面。測(cè)量的面還有隨機(jī)〔random〕和固定〔fixed〕之分。固定面指的是面的各個(gè)水平都是固定的,在以后的測(cè)量中不再變化,這與方差分析中因素水平的固定是一個(gè)道理。當(dāng)測(cè)量面固定時(shí),一次測(cè)驗(yàn)的結(jié)果就可以直接推廣到另一次測(cè)驗(yàn)中去。例如上例中,如果研究者在以后測(cè)量中都使用同樣的8篇短文,就不必要推測(cè)使用其他試題時(shí)測(cè)驗(yàn)結(jié)果會(huì)有什么不同。在這一情況下,使用概化理論是沒(méi)有意義的。隨機(jī)面是指在每一次測(cè)量中面的水平都是隨機(jī)選取的,因此每一次測(cè)量的條件都不會(huì)相同。如果一個(gè)面是隨機(jī)的,就意味著要將樣本測(cè)量條件下的結(jié)果推廣到測(cè)量全域上去。在上例中,假設(shè)每次測(cè)驗(yàn)都使用不同的題目樣本,那么試題面就是隨機(jī)的。一旦一個(gè)面固定了,它就成為測(cè)量目標(biāo)的一局部,固定面不再屬于誤差的來(lái)源。隨著固定面的增多,測(cè)量誤差來(lái)源就會(huì)變少,測(cè)量的信度就提高。如果測(cè)量的所有面都固定了,測(cè)量的誤差雖然到達(dá)了最低限度,但測(cè)驗(yàn)也失去了任何可推廣的佘地。這種測(cè)驗(yàn)是完全標(biāo)準(zhǔn)化的,測(cè)驗(yàn)結(jié)果只能在標(biāo)準(zhǔn)化條件下進(jìn)行解釋和應(yīng)用,離開(kāi)了這一標(biāo)準(zhǔn)化的條件測(cè)驗(yàn)結(jié)果也就失去了意義。因此任何測(cè)驗(yàn)都允許至少一個(gè)面是隨機(jī)的。隨機(jī)的面越多,概化理論的優(yōu)越性就越能表達(dá)出來(lái)?!捕硿y(cè)量的設(shè)計(jì)概化理論的研究中首先要按照一定的測(cè)量設(shè)計(jì)〔類似于實(shí)驗(yàn)設(shè)計(jì)〕方案安排測(cè)驗(yàn),并對(duì)搜集到資料的進(jìn)行方差分析,分解出各種誤差成份。測(cè)量的設(shè)計(jì)有交叉的〔crossed〕、嵌套的〔nested〕和混合的三種。交叉設(shè)計(jì)是指一個(gè)測(cè)量面所有水平與另一個(gè)測(cè)量面或測(cè)量目標(biāo)的每一個(gè)水平都發(fā)生了關(guān)系,比方在一次測(cè)量中所有的評(píng)分員〔r〕都對(duì)試題〔i〕進(jìn)行了評(píng)定,那么評(píng)分員與試題就是交叉的,交叉設(shè)計(jì)可記為p×i。假設(shè)有Ni個(gè)測(cè)題和Nr個(gè)評(píng)分者,這次測(cè)量中就有Ni×Nr個(gè)測(cè)量條件的組合。上例中如果所有被試做了所有的試題,而所有的評(píng)分員又評(píng)定了所有被試的全部試題,那么被試、試題、評(píng)分員全部都是交叉的,記為p×i×r。嵌套設(shè)計(jì)那么是指一個(gè)測(cè)量面〔或測(cè)量目標(biāo)〕只與另一個(gè)面〔或測(cè)量目標(biāo)〕的局部水平發(fā)生了關(guān)系。假設(shè)在一次測(cè)驗(yàn)中,m個(gè)被試每人都做了n個(gè)不同的測(cè)題〔總題數(shù)為n×m個(gè),每一測(cè)題只測(cè)試了一個(gè)被試〕,那么稱被試與測(cè)題是嵌套安排的,記為i:p,即試題i嵌套于被試p中。一個(gè)設(shè)計(jì)中如果既有交叉關(guān)系又有嵌套關(guān)系,那么這一設(shè)計(jì)就是混合設(shè)計(jì)。比方上例中如果10名被試都做了全部的試題,但每個(gè)評(píng)分員只對(duì)兩個(gè)被試的全部試題評(píng)分,那么被試是嵌套于評(píng)分員之中的,而被試與試題又是交叉的,這一設(shè)計(jì)就是交叉設(shè)計(jì),記為i×〔p:r〕?!踩矰研究與G研究概化理論一般分兩步進(jìn)行,即先進(jìn)行G研究,再進(jìn)行D研究。1.G研究〔generalizabilitystudy〕概化理論的研究中,首先要估計(jì)不同來(lái)源的誤差的大小,在此根底上確定測(cè)量的信度,或者是通過(guò)改變測(cè)量設(shè)計(jì)方案以盡可能地減少誤差,進(jìn)而到達(dá)提高信度的目的。在概化理論中,除測(cè)量目標(biāo)外的來(lái)自各測(cè)量面的影響都稱為誤差,G研究就是通過(guò)G研究的設(shè)計(jì)〔Gstudydesign〕,借助方差分析技術(shù)將誤差分解,估計(jì)出不同來(lái)源的方差成分〔variancecomponent〕的大小。上例中,如果G研究的設(shè)計(jì)采用的是p×i×r的交叉設(shè)計(jì),那么測(cè)驗(yàn)結(jié)果中就得到10×8×4=320個(gè)數(shù)據(jù)。方差分析時(shí)有七個(gè)方面的變異源需要估計(jì),這七個(gè)方差成份分別是:被試〔p〕、試題〔i〕、評(píng)分者〔r〕三個(gè)主效應(yīng),3個(gè)兩向交互作用pi、pr、ir,和一個(gè)三向交互作用pir。借助普通的方差分析方法,通過(guò)計(jì)算與各方差成份有關(guān)的均方,就可得到這些方差成份的無(wú)偏估計(jì)值〔詳細(xì)過(guò)程請(qǐng)參見(jiàn)本文后面的內(nèi)容〕。假設(shè)本例中各變異來(lái)源的方差估計(jì)值分別為:〔p〕=0.30,〔i〕=0.25,〔r〕=0.10,〔pi〕=0.37,〔pr〕=0.50,〔ir〕=0.25,〔pir〕=1.00。應(yīng)該注意,表示使用樣本測(cè)量的數(shù)據(jù)估計(jì)真實(shí)變異σ時(shí)所得到的估計(jì)值,如,〔p〕就是σ〔p〕的估計(jì)值,σ〔p〕可解釋為:某被試做完可觀測(cè)全域中所有可能的測(cè)題〔Ni個(gè)而非ni個(gè)〕后再由所有可能的評(píng)分者〔Nr個(gè)而非nr個(gè)〕評(píng)分,得到Nr×Ni個(gè)分?jǐn)?shù),相加得總分后再除以Nr×Ni,得一均分,p個(gè)被試的均分的方差就表示為σ〔μp〕或σ〔p〕。其他變異成份的含義可作類似的解釋。2.D研究〔Dstudy〕G研究的目的是獲得可觀測(cè)全域中變異成份的估計(jì),以后的工作就屬于D研究,即決策〔decision〕研究了。G研究的質(zhì)量決定了D研究的可靠性。當(dāng)G研究中每一測(cè)量面都有足夠多的測(cè)量水平作為樣本被考慮時(shí)〔如在上例中當(dāng)評(píng)分者面中有大量評(píng)分者作為樣本時(shí)〕,對(duì)變異成份的估計(jì)就越穩(wěn)定。這種情況下,D研究的結(jié)論就更可靠。在多數(shù)的情況下D研究是利用G研究中的數(shù)據(jù)進(jìn)行的,有時(shí)也重新搜集數(shù)據(jù)。D研究通常包括以下內(nèi)容:首先是確定拓廣全域〔universeofgenerization〕。拓廣全域是指研究者要將G研究中的結(jié)論在哪些面上推廣,及推廣到這些面的哪些水平上去,即推廣的范圍。拓廣全域可能與G研究中的可觀測(cè)全域的范圍相同,也可能是可觀測(cè)全域的一個(gè)子體,但不能超出這一范圍。比方上例中,G研究中的所用的評(píng)分者都是從高中語(yǔ)文教師中隨機(jī)選取的,那么評(píng)分者全域就是高中語(yǔ)文老師,拓廣全域就不能超出高中語(yǔ)文教師這一范圍,面只能是這一范圍中的全部或局部水平〔如高一、高二或高三的語(yǔ)文教師等〕。其次是確定D研究面的水平的取樣的大小。D研究時(shí)所選取的測(cè)量面的水平數(shù)可以與G研究相同,也可以不同。為與G研究相區(qū)分,D研究中測(cè)量面的水平的取樣所用的符號(hào)為n'i和n'r。最后是確定D研究的設(shè)計(jì),D研究的設(shè)計(jì)也可采用G研究中的三種設(shè)計(jì)。為與G研究區(qū)分開(kāi),D研究設(shè)計(jì)中測(cè)量面的水平數(shù)大寫(xiě)字母表示,如p×I×R。更重要的是,D研究中的大寫(xiě)字母表示對(duì)拓廣全域的一組測(cè)量水平取平均值。G研究D和研究中的測(cè)量目標(biāo)是相同的,并不取平均值,所以D研究中測(cè)量目標(biāo)的數(shù)量仍然用小寫(xiě)字母p表示。D研究中另一個(gè)重要的概念是全域分〔universescore〕。全域分指拓廣全域上的測(cè)量的平均值,是一個(gè)測(cè)量目標(biāo)在拓廣全域的所有測(cè)量條件下的平均分?jǐn)?shù),是測(cè)量目標(biāo)的“理想”分?jǐn)?shù),類似于CTT中的真分?jǐn)?shù)。所有被試的全域分的方差稱為全域分方差,類似于CTT中的真分?jǐn)?shù)方差。但在概化理論中,拓廣全域不同,就有不同的全域分,相應(yīng)地也有不同的全域分方差,而CTT中只有一個(gè)真分?jǐn)?shù)和真分?jǐn)?shù)方差。假設(shè)在上例中,研究者在D研究中使用了p×I×R的交叉設(shè)計(jì),選用了6道測(cè)題和2個(gè)評(píng)分員,即n'i=6,n'r=2。于是就可以根據(jù)G研究中的方差成份的估計(jì)值計(jì)算出D研究中的方差成份。由于D研究中要對(duì)一個(gè)面的一組測(cè)量水平求平均,所以計(jì)算D研究的方差成份時(shí),只需將G研究中含有i的方差成份除以6,將G研究中含有r的方差成份除以2即可,而測(cè)量目標(biāo)的方差那么不變。如〔I〕=〔i〕。n'i=0.25。6=0.04。具體計(jì)算結(jié)果如下:〔p〕=0.30,〔I〕=0.04,〔R〕=0.05,〔pI〕=0.06,〔pR〕=0.25,〔IR〕=0.02,〔pIR〕=0.08。從以上的數(shù)據(jù)可以得出結(jié)論,即D研究中選用的樣本數(shù)〔即面的水平數(shù)〕越多,各誤差項(xiàng)的值就越小,測(cè)量的信度就越高,因此D研究中可以通過(guò)增加測(cè)量面的水平數(shù)來(lái)增加測(cè)量的可靠性。由于n'i和n'r的選取可以是任意的,在不同的研究中可以不同,所以概化理論采用的是隨機(jī)平行測(cè)驗(yàn)形式,各測(cè)量間的平均分、方差不一定相等。這也是GT與CTT的區(qū)別之一。〔三〕信度估計(jì)與經(jīng)典測(cè)驗(yàn)理論中的信度指標(biāo)一樣,概化理論也給出表示測(cè)驗(yàn)結(jié)果可靠性的指標(biāo)。常用的有概化系數(shù)與依存性系數(shù)。1.概化系數(shù)〔generalizabilitycoefficients〕對(duì)常模參照性測(cè)驗(yàn),表示信度上下的指標(biāo)為概化系數(shù),在常模參照性測(cè)驗(yàn)中,被試能力水平的估計(jì)值依賴于所參照?qǐng)F(tuán)體的平均水平,因此測(cè)驗(yàn)誤差也是相對(duì)的。在GT中,相對(duì)誤差是用實(shí)得分?jǐn)?shù)的離均差估計(jì)全域分的離均差時(shí)的誤差。相對(duì)誤差方差的大小依賴于實(shí)得分?jǐn)?shù)的離均差與全域分的離均差之間差異的大小,其大小等于所有測(cè)量面與測(cè)量目標(biāo)的交互作用〔即所有含有p項(xiàng)的方差成份〕的累加。對(duì)單面的研究設(shè)計(jì),相對(duì)誤差方差σ〔δ〕=〔pI〕=〔pi〕/n'i,對(duì)上例中的數(shù)據(jù),相對(duì)誤差方差σ〔δ〕=〔pI〕+〔pR〕+〔pIR〕=0.06+0.25+0.08=0.39。概化系數(shù)可定義為全域分變異與期望的觀測(cè)分變異的比率,即〔3-22〕在實(shí)際計(jì)算中,由于各變異成份都使用估計(jì)值,所以得到的概化系數(shù)也是估計(jì)值,即〔3-23〕上例中,估計(jì)的概化系數(shù)為0.30/〔0.30+0.39〕=0.43。概化系數(shù)也可理解為全域分與觀測(cè)分之間的相關(guān)系數(shù)的平方。由于期望觀測(cè)分?jǐn)?shù)方差依賴于D研究的設(shè)計(jì)和拓廣全域,所以當(dāng)D研究的設(shè)計(jì)不同時(shí),或D研究的設(shè)計(jì)相同而拓廣全域不同時(shí),概化系數(shù)也會(huì)不同。因此研究者可根據(jù)概化系數(shù)的大小選擇最正確的D研究設(shè)計(jì)方案。同時(shí),為提高概化系數(shù),研究者還可采用固定某一測(cè)量面或增加某一測(cè)量面的水平數(shù)等策略。2.依存性系數(shù)〔indexofdependabilitycoefficients〕與常模參照性測(cè)驗(yàn)不同,標(biāo)準(zhǔn)參照性測(cè)驗(yàn)中表示信度上下的指標(biāo)稱為依存性系數(shù)。對(duì)標(biāo)準(zhǔn)參照性測(cè)驗(yàn)而言,被試的測(cè)驗(yàn)結(jié)果不是與團(tuán)體的平均水平相比來(lái)判斷其優(yōu)劣,測(cè)驗(yàn)結(jié)果表達(dá)的是其絕對(duì)水平,因此所考慮的測(cè)驗(yàn)誤差也是絕對(duì)誤差。絕對(duì)誤差的方差取決于實(shí)得分?jǐn)?shù)與全載分的差異的大小。在GT中,絕對(duì)誤差方差等于除測(cè)量目標(biāo)方差之外的所有方差成份的累加。與概化系數(shù)相似,依存性系數(shù)的計(jì)算公式為〔3-24〕其大小表示對(duì)被試領(lǐng)域分?jǐn)?shù)估計(jì)的可靠性。對(duì)上例而言,絕對(duì)誤差方差σ〔Δ〕=〔i〕+〔r〕+〔pi〕+〔ir〕+〔pr〕+〔pir〕=0.50。經(jīng)典測(cè)驗(yàn)理論中只有一種測(cè)驗(yàn)誤差,沒(méi)有將其進(jìn)一步分解,因此不能區(qū)分絕對(duì)誤差和相對(duì)誤差,這使其在標(biāo)準(zhǔn)參照性測(cè)驗(yàn)的分析中面臨嚴(yán)重困難。而概化理論那么借助于方差分析的技術(shù)區(qū)分了這兩種誤差,為標(biāo)準(zhǔn)參照性測(cè)驗(yàn)的信度估計(jì)提供了理論依據(jù)。二、概化理論的模型與計(jì)算公式與經(jīng)典測(cè)驗(yàn)理論一樣,概化理論采用的數(shù)學(xué)模型也是隨機(jī)線性模型。這一模型假定被試與被試之間、試題與試題之間及二者的交互作用之間都是相互獨(dú)立的。在概化理論中,由于研究者可選擇交叉設(shè)計(jì)、嵌套設(shè)計(jì)或混合設(shè)計(jì),不同的研究設(shè)計(jì)適用的數(shù)學(xué)模型和計(jì)算公式是不同的,下面我們將介紹單面交叉設(shè)計(jì)和單面嵌套設(shè)計(jì)情境下的理論模型和計(jì)算公式。更復(fù)雜的多面交叉設(shè)計(jì)、多面嵌套設(shè)計(jì)和多面混合設(shè)計(jì)都是這兩種根本測(cè)量設(shè)計(jì)的擴(kuò)展?!惨弧硢蚊娼徊嬖O(shè)計(jì)單面交叉設(shè)計(jì)是最簡(jiǎn)單的測(cè)量設(shè)計(jì),最常見(jiàn)的情況是p個(gè)被試參加了共i個(gè)題目的測(cè)驗(yàn),就構(gòu)成了p×i的單面交叉設(shè)計(jì)。假設(shè)一研究者要編制一個(gè)推理能力測(cè)驗(yàn),在編制測(cè)驗(yàn)之前他希望搞清楚不同的測(cè)驗(yàn)題目對(duì)被試能力估計(jì)的影響,他就可以選用單面交叉設(shè)計(jì)。單面交叉設(shè)計(jì)應(yīng)滿足以下三個(gè)條件:〔1〕可觀測(cè)域全中僅包括一個(gè)試題面;〔2〕被試和試題是交叉的,即所有被試都做了全部測(cè)題;〔3〕被試總體和試題面的水平都是無(wú)限的。1.根本模型我們以Xpi表示第p個(gè)被試在第i題上的觀測(cè)分?jǐn)?shù),那么這個(gè)人在試題全域中的期望得分為:μp=Expi〔3-25〕i類似地,題目i在被試總體中的期望得分為:μi=Expi〔3-26〕p而總體中所有被試在試題全域上的平均得分為:μpi=EExpi〔3-27〕ip這些平均數(shù)〔μp、μi、μpi〕本身是不可觀測(cè)的,我們只能得到它們的樣本平均數(shù)。盡管如此,任何被試p在任何題目i上的觀測(cè)分?jǐn)?shù)都可以用這些平均數(shù)使用線性模型來(lái)表達(dá),即Xpi=μ〔假想的總均值〕+μp-μ〔被試效應(yīng)μp~〕+μi-μ〔題目效應(yīng)μi~〕+xpi-μp-μi+μ〔剩余效應(yīng)μpi~〕〔3-28〕或Xpi=μ+μp~+μi~+μpi~〔3-29〕上式說(shuō)明,單面設(shè)計(jì)中的觀測(cè)分?jǐn)?shù)可分解為被試效應(yīng)、題目效應(yīng)和剩余效應(yīng)三局部〔假想總均值μ在所有觀測(cè)分?jǐn)?shù)中都是恒定不變的〕。必須注意的是,剩余效應(yīng)μpi~常稱交互作用效應(yīng),但由于不存在重復(fù)測(cè)量,對(duì)一個(gè)被試在單個(gè)工程上的反響而言,交互作用效應(yīng)與剩余效應(yīng)是無(wú)法區(qū)分開(kāi)的,但為表達(dá)的方便,我們將其簡(jiǎn)稱為交互作用效應(yīng)。以上各種效應(yīng)都是隨機(jī)的,因此各效應(yīng)的期望值應(yīng)為0,也即:Eμp~=Eμi~=Eμpi~=Eμpi~=0〔3-30〕PIPI相應(yīng)地,被試的、試題的和二者交互作用的方差成分分別為:σ2〔p〕=E〔μp-μ〕2=E〔μp~〕2〔3-31〕ppσ2〔i〕=E〔μi-μ〕2=E〔μi~〕2〔3-32〕iiσ2〔pi〕=EE〔μpi-μp-μi+μ〕2=EE〔μpI~〕〔3-33〕pIpi由于是線性的隨機(jī)模型,所以被試與被試之間、試題與試題之間及二者的交互作用之間都是相互獨(dú)立的。因此,測(cè)驗(yàn)得分的總變異σ2〔Xpi〕等于被試變異分量σ2〔p〕、試題變異分量σ2〔i〕、和試題與被試交互作用分量σ2〔pi〕的累加,即σ2〔Xpi〕=σ2〔p〕+σ2〔i〕+σ2〔pi〕〔3-34〕2.方差成份的估計(jì)實(shí)際計(jì)算中,由于方差成份σ2〔p〕、σ2〔i〕和σ2〔pi〕都涉及了被試或試題全域上的平均分,而這些平均分又是永遠(yuǎn)無(wú)法得到的期望值,因此只能由樣本平均值來(lái)代替,再將觀測(cè)分的總變異分解。假設(shè)記樣本平均數(shù),,,它們所對(duì)應(yīng)的全域分平均值分別是μp、μi、μ。用樣本平均數(shù)代替全域分平均數(shù),重復(fù)〔3-25〕~〔3-34〕式的推導(dǎo)步驟,可將觀測(cè)分?jǐn)?shù)的總變異分解為〔p〕、〔i〕和〔pi〕三局部。對(duì)這三個(gè)方差成份可通過(guò)方差分析技術(shù)加以估計(jì)。從而得到方差成分σ2〔p〕、σ2〔i〕和σ2〔pi〕的估計(jì)值。表3.2中列出了單面交叉設(shè)計(jì)中計(jì)算各方差成份的公式。表3.2單面交叉設(shè)計(jì)中對(duì)G研究和D研究方差成份的估計(jì)G研究中方差D研究中方差效應(yīng)dfSSMS成份的估計(jì)值成份的估計(jì)值被試〔p〕np-1SS〔p〕SS〔p〕/df〔p〕〔p〕〔p〕試韙〔i〕ni-1SS〔i〕SS〔i〕/df〔i〕〔i〕〔I〕交互作用〔pi〕〔np-1〕〔ni-1〕SS〔pi〕SS〔pi〕/df〔pi〕〔pi〕〔pI〕〔p〕=[MS〔p〕-MS〔pi〕]/ni〔i〕=[MS〔i〕-MS〔pi〕]/np〔pi〕=MS〔pi〕從表中可以看出,方差成分σ2〔p〕、σ2〔i〕和σ2〔pi〕完全可以通過(guò)傳統(tǒng)的方差分析方法得到。其過(guò)程是先計(jì)算出平方和SS〔p〕、SS〔i〕、SS〔pi〕,除以自由度后得相應(yīng)的均方MS〔p〕、MS〔i〕、MS〔pi〕,再用表中的公式計(jì)算各方差成分的估計(jì)值〔p〕、〔i〕和〔pi〕。在估計(jì)方差成分時(shí),需要用到期望均方EMS。期望均方與各方差成份的關(guān)系為:EMS〔p〕=σ2〔pi〕+niσ2〔p〕EMS〔i〕=σ2〔pi〕+npσ2〔i〕EMS〔pi〕=σ2〔pi〕至此就可估計(jì)出各方差成分,其中〔p〕=[MS〔p〕-MS〔pi〕]/ni〔i〕=[MS〔i〕-MS〔pi〕]/np〔pi〕=MS〔pi〕應(yīng)該注意的是,表3.2中使用均方MS代替了期望均方EMS,所以得到的是各變異成份的估計(jì)值。在上述方程中,用均方MS代替期望均方EMS、用各方差成份的估計(jì)值代替期望值后,重新解這個(gè)方程,即可得到各方差成份的估計(jì)值。計(jì)算出各方差成份的估計(jì)值后,就可進(jìn)一步進(jìn)行D研究的設(shè)計(jì)。3.D研究的方差成分對(duì)單面交叉設(shè)計(jì)而言,D研究與G研究涉及了同一個(gè)測(cè)量面。但D研究中的方差成分卻與G研究不同。G研究中的方差成分涉及的是可觀測(cè)全域上被試在單個(gè)工程上得分的變異,而在D研究中使用被試在所有工程上的平均分,或多個(gè)評(píng)分者評(píng)定的平均分作為其全域分的估計(jì)值,被試所得的分?jǐn)?shù)〔即在n'i個(gè)測(cè)驗(yàn)工程上的平均分〕被視為在拓廣全域上的一個(gè)隨機(jī)平行測(cè)驗(yàn)的得分。根據(jù)抽樣分布的知識(shí),相應(yīng)的方差成分應(yīng)等于G研究中的方差成分除以測(cè)量面的水平數(shù)。如果以XpI表示某被試在一個(gè)長(zhǎng)度為n'i的隨機(jī)平行測(cè)驗(yàn)上的觀測(cè)分,這一分?jǐn)?shù)可分解為:XpI=μ+μp~+μI~+μpI~〔3-35〕式中的字母下標(biāo)i變成了大寫(xiě)字母I,表示測(cè)驗(yàn)平均分,其余符號(hào)均不變。比方在某單面交叉設(shè)計(jì)中,試題數(shù)為n'i,那么測(cè)量目標(biāo)σ2〔p〕的方差成分不變,試題面,試題與測(cè)量目標(biāo)交互作用的方差成分分別為σ2〔I〕=σ2〔i〕/n'i和σ2〔pI〕=σ2〔pi〕/n'I。4.概化系數(shù)與依存性系數(shù)估計(jì)出相對(duì)誤差方差與絕對(duì)誤差方差之后,就可計(jì)算概化系數(shù)與依存性系數(shù)了。對(duì)單面交叉設(shè)計(jì),概化系數(shù)的計(jì)算公式為:Eρ2=σ2〔p〕/[σ2〔p〕+σ〔δ〕]=σ2〔p〕/[σ2〔p〕+σ2〔pI〕]=σ2〔p〕/[σ2〔p〕+σ2〔pi〕/n'i]〔3-36〕單面交叉設(shè)計(jì)的概化系數(shù)等于克龍巴赫的α系數(shù),對(duì)二值記分工程的測(cè)驗(yàn),它等于用KR-20公式計(jì)算出的信度系數(shù)。依存性系數(shù)的計(jì)算公式為Φ=σ2〔p〕/[σ2〔p〕+σ〔Δ〕]=σ2〔p〕/[σ2〔p〕+σ2〔I〕+σ2〔pI〕]=σ2〔p〕/[σ2〔p〕+σ2〔i〕/n'i+σ2〔pi〕/n'i]〔3-37〕概化系數(shù)和依存性系數(shù)代表了測(cè)驗(yàn)信度的上下。研究者可以通過(guò)重新進(jìn)行測(cè)量的設(shè)計(jì),如增加測(cè)量面的水平數(shù)等,以提高信度系數(shù)。如果信度指標(biāo)符合要求,概化理論的研究即告完成?!捕硢蚊媲短自O(shè)計(jì)1.G研究和D研究都是嵌套設(shè)計(jì)的模型對(duì)i:p的G研究嵌套設(shè)計(jì),其線性模型是Xpi=μ+〔μp-μ〕+〔Xpi-μp〕〔3-38〕其中〔μp-μ〕相當(dāng)于測(cè)量目標(biāo)的主效應(yīng)μp~,〔Xpi-μp〕相當(dāng)于嵌套效應(yīng)μi:p~。于是上式變?yōu)椋兀穑椋溅?μp~+μi:p~〔3-39〕由于不同被試做了不同的測(cè)題組合,所以工程效應(yīng)μi~、被試與工程的交互作用效應(yīng)μip~、及其他來(lái)源的殘差均混雜在嵌套效應(yīng)μi:p~中。因此對(duì)單面嵌套設(shè)計(jì)的G研究,就只有兩個(gè)方差成分需要分解,即σ2〔p〕和σ2〔i:p〕。相應(yīng)地,嵌套的D研究設(shè)計(jì)的線性模型是XpI=μ+μp~+μI:p~〔3-40〕D研究中的嵌套效應(yīng)同樣是σ2〔I:p〕=σ2〔i:p〕/n'i〔3-41〕表3.3中給出了單面嵌套設(shè)計(jì)中方差成分的分解模型。表3.3單面嵌套設(shè)計(jì)中對(duì)G研究和D研究方差成份的估計(jì)G研究中方差D研究中方差效應(yīng)dfSSMS成份的估計(jì)值成份的估計(jì)值被試〔p〕np-1SS〔p〕SS〔p〕/df〔p〕〔p〕〔p〕試韙〔i:p〕npni-npSS〔i:p〕SS〔i:p〕/df〔i:p〕〔i:p〕〔I:p〕〔p〕=[MS〔p〕-MS〔i:p〕]/ni〔i:p〕=MS〔i:p〕從表中可以看出,從原始數(shù)據(jù)中我們用公式和可以求出平方和SS〔p〕和SS〔i:p〕,除以各自的自由度后得到相應(yīng)的均方。方差成分〔p〕、〔i:p〕可由公式〔p〕=[MS〔p〕-MS〔i:p〕]/ni〔i:p〕=MS〔i:p〕計(jì)算出來(lái)。在嵌套設(shè)計(jì)中,由于交互作用效應(yīng)與工程效應(yīng)都混雜在嵌套效應(yīng)中,相對(duì)誤差的方差σ〔δ〕和絕對(duì)誤差方差σ〔Δ〕就難以區(qū)分,因此概化系數(shù)和依存性系數(shù)就用同一個(gè)公式計(jì)算。2.僅有D研究是嵌套設(shè)計(jì)的情況如果只有D研究是嵌套設(shè)計(jì),那么可以獨(dú)立地估計(jì)出方差成分工程效應(yīng)〔i〕和交互作用效應(yīng)〔pi〕。這兩個(gè)方差成分合并后,即得到嵌套效應(yīng)的方差成分〔i:p〕.即〔i:p〕=〔i〕+〔pi〕〔3-42〕于是絕對(duì)誤差和相對(duì)誤差的方差σ2〔δpI〕=σ2〔ΔpI〕=[〔i〕+〔pi〕]/n'i〔3-43〕第五節(jié)標(biāo)準(zhǔn)參照性測(cè)驗(yàn)的信度標(biāo)準(zhǔn)參照性測(cè)驗(yàn)的目的不是鑒別出被試的能力差異,因此在標(biāo)準(zhǔn)參照性測(cè)驗(yàn)中分?jǐn)?shù)的變異一般較小。這是與常模參照性測(cè)驗(yàn)根本不同的。因此標(biāo)準(zhǔn)參照性測(cè)驗(yàn)的信度估計(jì)方法也就完全不同,標(biāo)準(zhǔn)參照測(cè)驗(yàn)的作用是估計(jì)被試的領(lǐng)域分?jǐn)?shù),并對(duì)被試的掌握狀態(tài)作出區(qū)分。因此標(biāo)準(zhǔn)參照的信度估計(jì)主要關(guān)心兩種類型的測(cè)量誤差:隨機(jī)誤差和區(qū)分誤差。前者涉及領(lǐng)域分?jǐn)?shù)的穩(wěn)定性,類似于常模參照性測(cè)驗(yàn)的信度估計(jì),但是領(lǐng)域分?jǐn)?shù)的性質(zhì)和應(yīng)用不同于常模參照的相對(duì)分?jǐn)?shù),因此還不能完全照搬傳統(tǒng)的信度估計(jì)方法;后者影響區(qū)分決策的一致性,即用分界標(biāo)準(zhǔn)對(duì)被試進(jìn)行分類的穩(wěn)定性問(wèn)題。由于標(biāo)準(zhǔn)參照性測(cè)驗(yàn)的特殊性,目前文獻(xiàn)中雖有很多信度估計(jì)方法,但至今尚沒(méi)有受到公認(rèn)的指標(biāo)。一、決策一致性信度〔classificationconsisitencyreliability〕標(biāo)準(zhǔn)參照性測(cè)驗(yàn)在解釋時(shí)要將被試分為達(dá)標(biāo)未達(dá)標(biāo)等類別,這其實(shí)是根據(jù)測(cè)驗(yàn)分?jǐn)?shù)對(duì)被試進(jìn)行的分類決策。那么分類決策是否有跨時(shí)間穩(wěn)定性和情境的一致性?如果依測(cè)驗(yàn)結(jié)果作出的分類在不同情境下是一致的,那么說(shuō)明測(cè)驗(yàn)結(jié)果受誤差的影響較小,測(cè)驗(yàn)結(jié)果就是可靠的,即測(cè)驗(yàn)有高信度。因此決策一致性信度也可稱作區(qū)分信度〔decisionreliability〕。其假設(shè)是,錯(cuò)誤區(qū)分的正誤差〔未掌握者區(qū)分為掌握者〕和負(fù)誤差〔掌握者區(qū)分為未掌握者〕所帶來(lái)的損失是同樣嚴(yán)重的,所有的錯(cuò)誤分類,不管錯(cuò)誤的類型與程度如何,都帶來(lái)同等嚴(yán)重的損失。決策一致性信度可使用復(fù)本法和重測(cè)法,計(jì)算出兩次測(cè)驗(yàn)分類決策的一致性,這與傳統(tǒng)的信度計(jì)算方法很相似。決策一致性信度也可以通過(guò)同一次測(cè)驗(yàn)的結(jié)果來(lái)估計(jì)。決策一致性信度有兩種統(tǒng)計(jì)指標(biāo),即p0指數(shù)和K指數(shù)。p0是漢布萊頓和諾維克〔Hambleton和Novick〕提出的分類一致性指標(biāo),計(jì)算公式為: 〔3-44〕式中pkk為兩次測(cè)驗(yàn)中被一致地劃分到第k〔k=1,2,3,…,m〕個(gè)類別的人數(shù)占總?cè)藬?shù)的比例,一般情況下m=2,即只有掌握與未掌握兩種狀態(tài)。如表3.4所示。表3.4兩個(gè)復(fù)本測(cè)驗(yàn)對(duì)被試的區(qū)分結(jié)果復(fù)本A掌握未掌握總計(jì)復(fù)本B掌握P11P12P1.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論