心理測(cè)量學(xué)-第三章-信度

上傳人：王*** IP屬地：廣西上傳時(shí)間：2024-03-02 格式：DOC 頁(yè)數(shù)：20 大?。?67.50KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩15頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章信度心理測(cè)驗(yàn)就是對(duì)某些心理特質(zhì)的個(gè)別差異進(jìn)行測(cè)量的工具，對(duì)心理特質(zhì)的測(cè)量與對(duì)物理屬性，如物體長(zhǎng)度和重量等的測(cè)量是一樣的。不同的是心理測(cè)量所測(cè)量的是抽象的心理特質(zhì)，工具是心理測(cè)驗(yàn)，而物理測(cè)量的對(duì)象那么是物體的重量和長(zhǎng)度等特性，工具是尺子和天平。心理測(cè)量與物理測(cè)量的另一個(gè)共同點(diǎn)是二者都難以防止誤差的影響。在對(duì)物體的長(zhǎng)度進(jìn)行測(cè)量時(shí)，物體的熱脹冷縮，測(cè)量者讀取刻度的準(zhǔn)確性等因素都會(huì)使測(cè)量出的長(zhǎng)度與物體的實(shí)際長(zhǎng)度不符，在不同時(shí)間、地點(diǎn)的測(cè)量值會(huì)有出入。就是說(shuō)，在不同情景下測(cè)量結(jié)果是不穩(wěn)定的，與測(cè)量情景和測(cè)量條件有關(guān)的誤差稱隨機(jī)誤差〔randomerror〕。由于這一誤差是由測(cè)量過(guò)程造成的，因此也稱測(cè)量誤差〔measurementerror〕。另一方面，使用一把尺子對(duì)物體的長(zhǎng)度進(jìn)行測(cè)量時(shí)，這把尺子本身的質(zhì)量也可能造成誤差。如果一把尺子本身就是有問(wèn)題的，測(cè)量出的物體的長(zhǎng)度自然就不準(zhǔn)確。這類誤差與測(cè)量情景引進(jìn)的誤差不同，只要在測(cè)量時(shí)使用這把尺子，誤差就會(huì)恒定地存在，無(wú)法消除。這類由測(cè)量工具本身造成的誤差稱為系統(tǒng)誤差〔systemerror〕。對(duì)心理的測(cè)量與對(duì)物理的測(cè)量一樣，也同樣存在這兩類誤差。與這兩類誤差相對(duì)應(yīng)，心理測(cè)驗(yàn)中引入了信度和效度的概念。信度研究涉及了測(cè)驗(yàn)分?jǐn)?shù)的可靠性和穩(wěn)定性，也即如何控制和減少隨機(jī)誤差。效度研究那么涉及了測(cè)量的系統(tǒng)誤差，也即如何提高測(cè)量工具本身的準(zhǔn)確性。經(jīng)典測(cè)驗(yàn)理論的信度觀教育與心理測(cè)驗(yàn)的目的是將個(gè)體的心理特質(zhì)數(shù)量化，從而更精確地研究心理的個(gè)別差異。在廿世紀(jì)初心理測(cè)量實(shí)踐的推動(dòng)下，測(cè)驗(yàn)理論產(chǎn)生了。經(jīng)過(guò)幾十年的開(kāi)展，到廿世紀(jì)五十年代初，教育與心理測(cè)驗(yàn)理論對(duì)測(cè)驗(yàn)的構(gòu)建、誤差的控制、測(cè)驗(yàn)結(jié)果的統(tǒng)計(jì)分析及解釋等問(wèn)題已形成一個(gè)完整的理論體系。為與以后產(chǎn)生的工程反響理論和概化理論相區(qū)別，人們習(xí)慣上將這一理論體系被稱為經(jīng)典測(cè)驗(yàn)理論〔ClassicalTestTheory，簡(jiǎn)稱CTT〕。信度〔reliability〕也稱可靠性，測(cè)驗(yàn)分?jǐn)?shù)的信度是指測(cè)驗(yàn)結(jié)果的一致性和穩(wěn)定性程度。即測(cè)驗(yàn)分?jǐn)?shù)不隨時(shí)間、地點(diǎn)等因素的變化而變化。信度與效度一樣，是衡量測(cè)驗(yàn)整體質(zhì)量的重要指標(biāo)。要搞清信度的概念，必須了解經(jīng)典測(cè)驗(yàn)理論中有關(guān)真分?jǐn)?shù)、測(cè)驗(yàn)誤差等的一系列假設(shè)。一、真分?jǐn)?shù)與測(cè)量誤差測(cè)驗(yàn)的結(jié)果是以分?jǐn)?shù)表示的，但是一個(gè)人在同一測(cè)驗(yàn)上的分?jǐn)?shù)并不是穩(wěn)定的，測(cè)驗(yàn)環(huán)境的熟悉與陌生、安靜與嘈雜、主試的和藹與嚴(yán)厲、以及被試是過(guò)度焦慮還是缺乏動(dòng)機(jī)，以及機(jī)體和情緒狀態(tài)等因素都會(huì)影響測(cè)驗(yàn)分?jǐn)?shù)，此外，被試的粗心、抄襲等因素也會(huì)使測(cè)驗(yàn)出現(xiàn)虛假的高分和低分。以上所說(shuō)的影響測(cè)驗(yàn)分?jǐn)?shù)的因素被稱為測(cè)驗(yàn)誤差，誤差的存在使得一個(gè)被試的測(cè)驗(yàn)實(shí)得分?jǐn)?shù)偏離他應(yīng)得的真實(shí)分?jǐn)?shù)。心理測(cè)量學(xué)家的任務(wù)之一就是降低測(cè)驗(yàn)誤差，使測(cè)驗(yàn)分?jǐn)?shù)接近被試的真實(shí)分?jǐn)?shù)。對(duì)一個(gè)測(cè)驗(yàn)而言，如果被試的實(shí)得分?jǐn)?shù)反映了他們的真實(shí)分?jǐn)?shù)，我們就說(shuō)這個(gè)測(cè)驗(yàn)結(jié)果可靠、客觀，這次測(cè)驗(yàn)的信度就高。因此，測(cè)驗(yàn)信度也可理解為被試的真實(shí)分?jǐn)?shù)與其實(shí)得分?jǐn)?shù)的差距。前面說(shuō)的真實(shí)分?jǐn)?shù)，心理和教育測(cè)量學(xué)上稱真分?jǐn)?shù)〔truescore〕，真分?jǐn)?shù)指無(wú)數(shù)次測(cè)量的平均值。即一個(gè)被試在許多〔理論上指無(wú)限多的〕平行測(cè)驗(yàn)上得分的平均值或具備某一個(gè)能力或其他心理特質(zhì)水平的許多被試在同一測(cè)驗(yàn)上得分的平均值。知道被試的真分?jǐn)?shù)后，我們就可以用所有被試真分?jǐn)?shù)與測(cè)驗(yàn)分?jǐn)?shù)的比值的平均數(shù)來(lái)表示測(cè)驗(yàn)的信度。然而事實(shí)上，真分?jǐn)?shù)是無(wú)法求得的，它只是一個(gè)理想概念，我們不能對(duì)同一被試反復(fù)屢次測(cè)量，因?yàn)閷掖螠y(cè)量后被試會(huì)由于練習(xí)或疲勞效應(yīng)而出現(xiàn)額外的誤差；同樣，找到能力水平完全相同的被試也只是理論上的可能。我們無(wú)法知道一個(gè)被試的真分?jǐn)?shù)，也就無(wú)法知道實(shí)得分?jǐn)?shù)與真分?jǐn)?shù)的偏離程度，因此就不能計(jì)算測(cè)驗(yàn)的信度。為解決這一問(wèn)題，心理測(cè)驗(yàn)理論對(duì)實(shí)得分?jǐn)?shù)、真分?jǐn)?shù)、測(cè)驗(yàn)誤差做出了理論上的假定，推導(dǎo)出了信度的估計(jì)方法，由此構(gòu)建起了經(jīng)典測(cè)驗(yàn)理論的大廈。二、經(jīng)典測(cè)繪理論的根本理論假設(shè)〔一〕實(shí)得分?jǐn)?shù)、真分?jǐn)?shù)及測(cè)驗(yàn)誤差的關(guān)系經(jīng)典測(cè)驗(yàn)理論又稱真分?jǐn)?shù)理論，它對(duì)實(shí)得分?jǐn)?shù)、真分?jǐn)?shù)及測(cè)驗(yàn)誤差的關(guān)系進(jìn)行了一系列的理論假設(shè)。CTT將真分?jǐn)?shù)定義為被試在無(wú)數(shù)個(gè)平行形式的測(cè)驗(yàn)上得分的平均值〔或期望值〕。平行形式的測(cè)驗(yàn)可以是測(cè)驗(yàn)的多個(gè)等值復(fù)本，也可以是一個(gè)測(cè)驗(yàn)在不同條件下屢次施測(cè)。經(jīng)典測(cè)驗(yàn)理論對(duì)實(shí)得分?jǐn)?shù)、真分?jǐn)?shù)和測(cè)驗(yàn)誤差有如下假定：1．實(shí)得分?jǐn)?shù)與真分?jǐn)?shù)存在線性關(guān)系。這種線性關(guān)系可以用一個(gè)簡(jiǎn)單的公式表達(dá)出來(lái)，即Ｘ＝Ｔ＋Ｅ〔3-1〕式中Ｘ表示實(shí)得分?jǐn)?shù)或觀測(cè)分?jǐn)?shù)，即某被試在一個(gè)測(cè)驗(yàn)形式上的得分；Ｔ表示真分?jǐn)?shù)；Ｅ表示測(cè)驗(yàn)誤差，即在測(cè)驗(yàn)?zāi)骋痪唧w形式上產(chǎn)生的隨機(jī)誤差。公式中的T、E是無(wú)法得到的，因此上式僅僅是一個(gè)表示真分?jǐn)?shù)與實(shí)得分?jǐn)?shù)間關(guān)系的數(shù)學(xué)模型。2．測(cè)驗(yàn)誤差的期望為零〔或誤差的平均數(shù)為０〕。即E〔E〕=0〔3-2〕上式可以是對(duì)一個(gè)被試而言的，也可以是對(duì)一組被試而言的，對(duì)一組被試，其測(cè)驗(yàn)誤差的和為０，平均數(shù)也為０。這一性質(zhì)是非常實(shí)用的。由〔3-1〕和〔3-2〕可以推論出〔3-3〕即一組被試真分?jǐn)?shù)的與實(shí)得分?jǐn)?shù)的平均數(shù)相等。3．誤差與真分?jǐn)?shù)獨(dú)立。Ｅ是測(cè)驗(yàn)中產(chǎn)生的隨機(jī)誤差，只與偶然因素有關(guān)，而與真分?jǐn)?shù)T的大小無(wú)關(guān)，也就是說(shuō)，測(cè)驗(yàn)誤差并不隨被試能力或心理特質(zhì)水平的變化而出現(xiàn)有規(guī)律的變化，即真分?jǐn)?shù)與誤差分?jǐn)?shù)的相關(guān)系數(shù)為0。用rTE表示被試真分?jǐn)?shù)與誤差分?jǐn)?shù)的相關(guān)系數(shù)，那么有:rTE=0 〔3-4〕上式也可表示為真分?jǐn)?shù)與誤差的協(xié)方差為0，即Cov〔T，E〕=0。4．實(shí)得分?jǐn)?shù)方差等于真分?jǐn)?shù)方差與隨機(jī)誤差方差之和。假設(shè)以Ｓ2X表示實(shí)得分?jǐn)?shù)方差，以Ｓ2T表示真分?jǐn)?shù)的方差，以Ｓ2E表示誤差方差，那么有〔3-5〕式〔3-５〕是由〔3-１〕、〔3-２〕、〔3-３〕、〔3-４〕式推導(dǎo)出的。由〔3-4〕式知rTE=0，故協(xié)方差Cov〔T，E〕=0。假設(shè)記ｔ＝T-T，ｅ＝E-E那么有∑〔t〕〔e〕=0〔參見(jiàn)有關(guān)的統(tǒng)計(jì)學(xué)課本〕又∵E=0∴E=e∴∑tE=0所以〔3-6〕〔二〕平行測(cè)驗(yàn)的假定與測(cè)驗(yàn)信度由于實(shí)得分?jǐn)?shù)的方差可分解為真分?jǐn)?shù)的方差和隨機(jī)誤差方差之和，因此從可操作的角度上，信度可定義為一組被試的真分?jǐn)?shù)方差與其實(shí)得分?jǐn)?shù)方差的比。也即真分?jǐn)?shù)的變異在實(shí)得分?jǐn)?shù)的變異中所占的比重?；?qū)嵉梅謹(jǐn)?shù)的變異在多大程度上是由真分?jǐn)?shù)的變異引起的。這一定義是不難理解的，因?yàn)楫?dāng)真分?jǐn)?shù)的變異在實(shí)得分?jǐn)?shù)中的變異大時(shí)，就說(shuō)明真分?jǐn)?shù)對(duì)實(shí)得分?jǐn)?shù)的影響大，相應(yīng)誤差的影響就低，也就是說(shuō)，真分?jǐn)?shù)方差對(duì)實(shí)得分?jǐn)?shù)方差的奉獻(xiàn)大，當(dāng)實(shí)得分?jǐn)?shù)變異可以全部由真分?jǐn)?shù)的變異解釋時(shí)，測(cè)驗(yàn)誤差就是0，這時(shí)測(cè)驗(yàn)的信度為1。假設(shè)用表示測(cè)驗(yàn)的信度，那么有〔3-7〕或〔3-8〕但是，在實(shí)踐中我們是無(wú)法知道被試真分?jǐn)?shù)的方差，上式只是給出了信度的定義，不能用來(lái)計(jì)算測(cè)驗(yàn)信度。因此經(jīng)典測(cè)驗(yàn)理論又做出了平行測(cè)驗(yàn)的假定。經(jīng)典測(cè)驗(yàn)理論假定嚴(yán)格意義上的平行測(cè)驗(yàn)是存在的。平行測(cè)驗(yàn)指兩個(gè)測(cè)驗(yàn)內(nèi)容相似，測(cè)驗(yàn)長(zhǎng)度、平均分、難度、標(biāo)準(zhǔn)差均相同的測(cè)量同一特質(zhì)的兩個(gè)測(cè)驗(yàn)形式。對(duì)參加兩個(gè)平行測(cè)驗(yàn)的每一被試者，其真分?jǐn)?shù)相同〔T1＝T2〕，誤差分的條件方差相同。且Cov〔E1，E2〕=0〔3-9〕Cov〔E1，T2〕=0〔3-10〕Cov〔E2，T1〕=0〔3-11〕有了這些假設(shè)，我們就可以討論兩個(gè)平行測(cè)驗(yàn)間實(shí)得分?jǐn)?shù)〔Ｘ１和Ｘ２〕的相關(guān)系數(shù)與測(cè)驗(yàn)信度的關(guān)系。用X１i、X２i，T１i、T２i，E１i、E２i分別表示被試ｉ在平行測(cè)驗(yàn)1和2上的實(shí)得分?jǐn)?shù)、真分?jǐn)?shù)和誤差分?jǐn)?shù)，根據(jù)平行測(cè)驗(yàn)的定義有：且所以〔3—12〕〔3-13〕式證明了一個(gè)至關(guān)重要的結(jié)論，即一個(gè)測(cè)驗(yàn)兩個(gè)平行形式之間的相關(guān)系數(shù)就是該測(cè)驗(yàn)的信度，實(shí)踐中我們可以通過(guò)構(gòu)建平行測(cè)驗(yàn)來(lái)計(jì)算測(cè)驗(yàn)的信度。至此，心理測(cè)驗(yàn)學(xué)完成了其對(duì)測(cè)驗(yàn)信度的理論假設(shè)和推導(dǎo)，構(gòu)建了一個(gè)較完整的理論體系，第二節(jié)信度系數(shù)的計(jì)算方法經(jīng)典測(cè)驗(yàn)理論證明了一個(gè)至關(guān)重要的結(jié)論，即一個(gè)測(cè)驗(yàn)的兩種平行形式之間的相關(guān)系數(shù)就是該測(cè)驗(yàn)的信度。這一結(jié)論為測(cè)驗(yàn)信度的實(shí)際計(jì)算提供了理論依據(jù)。從這一結(jié)論出發(fā)人們找到了平行測(cè)驗(yàn)的各種替代形式，相應(yīng)地也推導(dǎo)出了各種計(jì)算信度系數(shù)的替代性方法。這些替代性方法中常用的有重測(cè)法、復(fù)本法、分半法和計(jì)算內(nèi)部一致性系數(shù)法等。穩(wěn)定性系數(shù)〔coefficientofstability〕穩(wěn)定性系數(shù)的計(jì)算方法是，用同一量表在不同時(shí)間內(nèi)對(duì)同一組被試先后施測(cè)兩次，計(jì)算兩次測(cè)驗(yàn)得分的積差相關(guān)系數(shù)，即為穩(wěn)定性系數(shù)，表示的是測(cè)驗(yàn)結(jié)果的穩(wěn)定性。這種方法又稱重測(cè)法，所得的信度系數(shù)又稱為重測(cè)信度〔test-retestreliability〕。重測(cè)法的模式是：適當(dāng)時(shí)間施測(cè)————再施測(cè)重測(cè)時(shí)間間隔可以是幾分鐘，也要可以是幾年，但一般不超過(guò)6個(gè)月。計(jì)算重測(cè)信度的原理是對(duì)平行測(cè)驗(yàn)的假定，即認(rèn)為在不同時(shí)間施測(cè)的同一測(cè)驗(yàn)是平行的，其真分?jǐn)?shù)相同，實(shí)得分?jǐn)?shù)和誤差的方差也相同。但這一假定從嚴(yán)格意義上講是難以成立的。因?yàn)橹販y(cè)時(shí)被試的心理特質(zhì)會(huì)發(fā)生變化，導(dǎo)致真分?jǐn)?shù)變異，練習(xí)和疲勞效應(yīng)會(huì)使重測(cè)時(shí)的測(cè)驗(yàn)結(jié)果出現(xiàn)變異。在測(cè)驗(yàn)手冊(cè)上報(bào)告的重測(cè)信度，一般要注明被試樣本的性質(zhì)、大小，及間隔多長(zhǎng)時(shí)間所測(cè)得的信度系數(shù)，以便使用者了解樣本及時(shí)間因素對(duì)測(cè)驗(yàn)穩(wěn)定性的影響。計(jì)算重測(cè)信度時(shí)應(yīng)注意兩方面的問(wèn)題：1．所欲測(cè)量的心理特質(zhì)是否穩(wěn)定。所測(cè)的如果是人格、智力、興趣等心理特質(zhì)，那么可以使用重測(cè)法，而知識(shí)、情緒等不穩(wěn)定的心理特質(zhì)使用重測(cè)法時(shí)必須慎重。2．重測(cè)結(jié)果要盡量減少練習(xí)或遺忘因素的影響。智力測(cè)驗(yàn)的時(shí)間間隔不能太短，成就測(cè)驗(yàn)?zāi)敲床荒荛g隔太長(zhǎng)，既不能讓被試記住上一次的測(cè)驗(yàn)內(nèi)容，又不能使其特質(zhì)發(fā)生變化，或?qū)λ鶎W(xué)知識(shí)產(chǎn)生遺忘。因此要有適當(dāng)?shù)臅r(shí)間間隔。如使用年齡小的被試樣本時(shí)，測(cè)驗(yàn)間隔就要小些，年齡大的被試那么可以長(zhǎng)些。等值性系數(shù)復(fù)本即編制測(cè)驗(yàn)時(shí)形成的兩個(gè)平行測(cè)驗(yàn)。兩個(gè)復(fù)本施測(cè)于同一被試樣本所得測(cè)驗(yàn)分?jǐn)?shù)的積差相關(guān)系數(shù)，即為等值性系數(shù)〔coefficientofequivalence〕，或稱復(fù)本信度〔alternateformreliability〕。復(fù)本法的模式是：最短時(shí)間復(fù)本A————復(fù)本B一般的標(biāo)準(zhǔn)化測(cè)驗(yàn)都有復(fù)本，原那么上講，所有的心理測(cè)驗(yàn)都可以使用復(fù)本法計(jì)算信度，適用范圍較廣泛，一般而言，成就測(cè)驗(yàn)、特殊能力測(cè)驗(yàn)較容易制作復(fù)本，這是因?yàn)閺乃袦y(cè)題中選擇出等值的測(cè)題樣本并不太困難，但對(duì)一些不易測(cè)量的特質(zhì)，如人格、動(dòng)機(jī)等，那么不易找到等值的測(cè)題，因而不容易制作復(fù)本。但等值性系數(shù)也有缺點(diǎn)：如被試易出現(xiàn)疲勞、失去積極性等反響，還會(huì)出現(xiàn)遷移。這稱為順序效應(yīng)，為抵消順序效應(yīng)，可隨機(jī)分配一半被試先做復(fù)本A后做復(fù)本B，另一半先做B再做A，以平衡順序效應(yīng)。三、等值穩(wěn)定性系數(shù)〔coefficientofstabilityandequivalence〕等值性系數(shù)易出現(xiàn)練習(xí)和疲勞效應(yīng)，穩(wěn)定性系數(shù)的局限是受所測(cè)心理特性的穩(wěn)定程度的影響，為克服這個(gè)缺點(diǎn)，我們可以使用一個(gè)測(cè)驗(yàn)等值的兩個(gè)復(fù)本，間隔適當(dāng)時(shí)間施測(cè)于同一組被試。這一方法所得相關(guān)系數(shù)稱為等值穩(wěn)定系數(shù)。其模式是：適當(dāng)時(shí)間復(fù)本A————復(fù)本B同復(fù)本法和重測(cè)法相比，等值穩(wěn)定系數(shù)有以下特點(diǎn)：1、因兩次測(cè)試有適當(dāng)?shù)臅r(shí)間間隔，減少了復(fù)本法中的練習(xí)、疲勞效應(yīng)。2、如果時(shí)間間隔適當(dāng)，可用于計(jì)算穩(wěn)定性不高的心理特質(zhì)的測(cè)驗(yàn)的信度，克服了穩(wěn)定性系數(shù)的局限。比方對(duì)知識(shí)的測(cè)量，如果被試對(duì)復(fù)本A的記憶對(duì)復(fù)本B的影響小，時(shí)間間隔就可小些，防止了被試對(duì)知識(shí)的過(guò)多遺忘。等值穩(wěn)定性信度系數(shù)的應(yīng)用也較廣。但應(yīng)注意，等值穩(wěn)定性信度系數(shù)的取值一般比重測(cè)信度和復(fù)本信度低，因?yàn)橛?jì)算兩復(fù)本間的相關(guān)時(shí)，時(shí)間因素引起的所欲測(cè)量的特質(zhì)的變化及試題取樣的不同都會(huì)影響兩次測(cè)驗(yàn)分?jǐn)?shù)的一致性。因此，等值穩(wěn)定性系數(shù)是對(duì)測(cè)驗(yàn)信度最嚴(yán)格的考察，得到的是信度系數(shù)的下限。四、分半信度〔split-halfreliability〕前面講述的三種計(jì)算信度的方法的共同點(diǎn)是需要兩次測(cè)量，因而不可防止地出現(xiàn)一些問(wèn)題，如時(shí)間因素對(duì)兩次測(cè)驗(yàn)分?jǐn)?shù)一致性的影響，被試容易出現(xiàn)練習(xí)和疲勞效應(yīng)，及失去興趣等，且在組織被試時(shí)也會(huì)有很多不便。為此可通過(guò)計(jì)算分半信度來(lái)克服以上問(wèn)題。分半信度就是將測(cè)驗(yàn)題目分成等值的兩半，分別求出兩半題目的總分，再計(jì)算兩局部總分的相關(guān)系數(shù)。分半法實(shí)際上是一種特殊的復(fù)本法。分半的方法很多，一般是將奇數(shù)題和偶數(shù)題各分為一半，而非前后分半，目的是防止順序效應(yīng)。分半后再計(jì)算一組被試兩半題目各自得分和的相關(guān)系數(shù)，使用分半信度要注意兩點(diǎn)問(wèn)題：一是測(cè)驗(yàn)題目所測(cè)的是同一種心理特質(zhì)。二是兩半題目是等值的，即平行的。分半以后，我們實(shí)際上計(jì)算的是測(cè)驗(yàn)的一半題目的信度，而非整個(gè)測(cè)驗(yàn)的信度，也就是說(shuō)，我們把一個(gè)完整的測(cè)驗(yàn)分成了兩個(gè)等值的復(fù)本，所計(jì)算的只是其中一個(gè)復(fù)本的信度。這就造成了對(duì)整個(gè)測(cè)驗(yàn)的信度的低估，因?yàn)樾哦葧?huì)隨著測(cè)驗(yàn)長(zhǎng)度的增加而提高。要得到整個(gè)測(cè)驗(yàn)信度的估計(jì)，必須對(duì)分半相關(guān)系數(shù)進(jìn)行校正，其校正公式為斯皮爾曼—布朗公式：〔3-13〕其中rxx為分半信度，rx1x2表示兩半題目各自得分和之相關(guān)，n為原測(cè)驗(yàn)相當(dāng)于變化后測(cè)驗(yàn)長(zhǎng)度的倍數(shù)，計(jì)算分半信度時(shí)n=2。斯—布公式是一個(gè)經(jīng)驗(yàn)公式，它要求前后兩半題目有相同的變異〔方差〕，方差不同時(shí)，那么會(huì)高估信度系數(shù)。為克服這一限制，心理學(xué)家又創(chuàng)造了其他計(jì)算分半信度的公式。常用的有盧龍〔Rulon，1939〕公式和弗朗那根〔Flanagan，1941〕公式。盧龍公式可表示為：rxx＝1－〔3-14〕S2d是兩半題目總分差的方差，相當(dāng)于信度公式中誤差的方差。測(cè)驗(yàn)奇偶兩半題目的總分之差的方差越小，說(shuō)明測(cè)驗(yàn)分?jǐn)?shù)受偶然因素的影響越小，信度就高。弗朗那根公式可表示為：rxx＝2〔1－〕〔3-15〕式中S2x1和S2x2為兩半題目得分和的方差。應(yīng)該注意的是，盧龍公式和弗朗那概公式的計(jì)算結(jié)果是一致的。五、同質(zhì)性信度同質(zhì)性指測(cè)驗(yàn)的所有測(cè)題測(cè)量的是同一種心理特質(zhì)，表現(xiàn)為各題得分之間有較高的相關(guān)，相關(guān)越高那么同質(zhì)性越強(qiáng)。人的心理特質(zhì)，如人格、智力等大都是多維度的，因此整個(gè)測(cè)驗(yàn)就不可能是同質(zhì)的，如果按維度的不同將測(cè)驗(yàn)分成幾個(gè)分測(cè)驗(yàn)構(gòu)成的分測(cè)驗(yàn)，那么每個(gè)分測(cè)驗(yàn)就都是同質(zhì)的。分半信度是一種同質(zhì)性信度，計(jì)算的奇偶兩半題目得分的一致性，是以測(cè)驗(yàn)題目同質(zhì)為前提的。但是，奇偶分半法并非唯一的一種分半法，而應(yīng)該有種，不同的分半法計(jì)算出的分半信度也不一致，難以保證哪一個(gè)是測(cè)驗(yàn)的真正信度。而如果我們想計(jì)算各種分半法所得信度的平均值時(shí)，又顯得過(guò)于繁瑣。如一個(gè)含有20個(gè)題目的測(cè)驗(yàn)，就要計(jì)算＝92378個(gè)信度系數(shù)。因此人們提出了其他更有效的方法。1．庫(kù)德－理查森公式法庫(kù)德－理查森公式是常用的計(jì)算兩級(jí)計(jì)分測(cè)驗(yàn)同質(zhì)性信度的公式。其中最有代表性的是庫(kù)德－理查森的20號(hào)公式〔KR20〕和21號(hào)公式〔KR21〕。它們被認(rèn)為計(jì)算的是所有可能的分半信度的平均數(shù)。KR20的計(jì)算公式為:〔3-16〕式中n為題數(shù)，S2x為被試總分的方差，pi為通過(guò)i題〔得1分〕的被試占總?cè)藬?shù)的比例，qi＝1－pi，即未通過(guò)的比例。表示測(cè)驗(yàn)題目的通過(guò)比例和未通過(guò)比例的積的和。KR20公式中的Pi表示答對(duì)該題的比例，可視為該題的難度，當(dāng)所有題目的難度相近時(shí)，可使用更為簡(jiǎn)便的21號(hào)公式：〔3-17〕2．克龍巴赫的α系數(shù)庫(kù)德－理查森公式適用于兩級(jí)記分的測(cè)驗(yàn)，而對(duì)多級(jí)記分的測(cè)驗(yàn)，那么使用克龍巴赫的α系數(shù)，其公式為: 〔3-18〕其中n表示題目數(shù)。S2i為每一題目的方差，S2x為總分方差。α系數(shù)也適用于兩級(jí)記分的情況，測(cè)驗(yàn)分?jǐn)?shù)是兩級(jí)記分時(shí)，用α系數(shù)和庫(kù)德--理查森公式所得結(jié)果一樣，可見(jiàn)庫(kù)德--理查森公式是α系數(shù)的一個(gè)特例?？她埌秃盏摩料禂?shù)因適用性強(qiáng)而被測(cè)驗(yàn)編制者廣為應(yīng)用，但α系數(shù)在應(yīng)用上不是沒(méi)有問(wèn)題的。不少研究者發(fā)現(xiàn)，α系數(shù)并不能作為測(cè)驗(yàn)同質(zhì)性的指標(biāo)，高α系數(shù)不一定說(shuō)明測(cè)驗(yàn)是單維度的，多維度的測(cè)驗(yàn)計(jì)算出的α系數(shù)值有可能高于單維度測(cè)驗(yàn)〔候杰泰，1995，吳瑞屯，1996〕。吳瑞屯〔1996〕的模擬研究說(shuō)明，增加測(cè)驗(yàn)的工程數(shù)會(huì)使測(cè)驗(yàn)的α系數(shù)明顯地提高。例如，當(dāng)工程數(shù)為20而工程間的相關(guān)僅為0.1時(shí)，α系數(shù)也能到達(dá)0.70以上。如此低的工程間相關(guān)很難說(shuō)明測(cè)驗(yàn)是同質(zhì)的。因此α系數(shù)高并不表示測(cè)驗(yàn)的信度高。另外α系數(shù)的應(yīng)用條件也是較嚴(yán)格的，在工程方差不同的情況下，α系數(shù)只是信度估計(jì)的下限。六、評(píng)分者信度〔scorerreliability〕客觀性測(cè)驗(yàn)中，不存在評(píng)分者之者評(píng)分不一致的情況，因此無(wú)需計(jì)算評(píng)分者信度，而在涉及主觀性題目的測(cè)驗(yàn)中，評(píng)分者的不同會(huì)造成測(cè)驗(yàn)評(píng)分的差異而導(dǎo)致評(píng)分誤差，是測(cè)驗(yàn)誤差的來(lái)源之一。因此要計(jì)算評(píng)分者信度。教育測(cè)驗(yàn)中的作文考試就是典型的主觀性測(cè)題，高考作文的評(píng)分在不同評(píng)分者中會(huì)有很大差異，即存在評(píng)分者信度的問(wèn)題。而在一些投射性測(cè)驗(yàn)〔如TAT和羅夏測(cè)驗(yàn)〕中，評(píng)分者信度是測(cè)驗(yàn)信度的重要評(píng)價(jià)指標(biāo)。當(dāng)評(píng)分者為兩人〔或一個(gè)人兩次評(píng)分〕時(shí)，可采用相關(guān)系數(shù)的方法，計(jì)算在某個(gè)題目上兩次評(píng)分的相關(guān)系數(shù)作為評(píng)分者信度系數(shù)。如果是多個(gè)評(píng)分者或一個(gè)人兩次以上的評(píng)分，可采用肯德?tīng)柡椭C系數(shù)。評(píng)分者信度高僅僅是測(cè)驗(yàn)信度高的必要條件，而非充分條件。七、各種信度系數(shù)的比擬各種信度系數(shù)及其誤差的來(lái)源見(jiàn)表3.1。從表3.1中可看出影響信度系數(shù)的各方面誤差。由于誤差來(lái)源的不同，即使同一個(gè)測(cè)驗(yàn)用不同方法所計(jì)算的信度系數(shù)也會(huì)有很大不同，各系數(shù)間也不具有可比性。這種不一致似乎說(shuō)明沒(méi)有一種指標(biāo)能代表測(cè)驗(yàn)的真正信度，這也正表達(dá)了經(jīng)典測(cè)驗(yàn)理論的局限性。因此在涉及測(cè)驗(yàn)信度的研究中，要分別報(bào)告不同方法計(jì)算出的信度值。表3.1與信度系數(shù)有關(guān)的誤差方差來(lái)源信度系數(shù)類型誤差方差來(lái)源重測(cè)信度時(shí)間抽樣復(fù)本信度內(nèi)容抽樣等值穩(wěn)定系數(shù)時(shí)間和內(nèi)容抽樣分半信度內(nèi)容抽樣庫(kù)德－理查森系數(shù)和α系數(shù)內(nèi)容抽樣和內(nèi)容異質(zhì)性評(píng)分者信度評(píng)分者之間的差異第三節(jié)信度的作用與影響因素一、信度的意義與作用測(cè)驗(yàn)結(jié)果信度的信息有兩方面的作用，一是用于評(píng)價(jià)測(cè)驗(yàn)質(zhì)量，一是用于解釋測(cè)驗(yàn)分?jǐn)?shù)。1．評(píng)價(jià)測(cè)驗(yàn)信度表示真分?jǐn)?shù)變異在實(shí)得分?jǐn)?shù)變異中所占的比重，信度越高，說(shuō)明測(cè)驗(yàn)所得分?jǐn)?shù)越接近被試的真實(shí)分?jǐn)?shù)，分?jǐn)?shù)就可靠。因此要求信度越高越好，理想狀態(tài)下為1.00，但實(shí)際上達(dá)不到這一標(biāo)準(zhǔn)。測(cè)驗(yàn)的信度會(huì)隨著測(cè)驗(yàn)種類、測(cè)驗(yàn)情境的不同而不同。一般能力和成就測(cè)驗(yàn)的信度系數(shù)通常在0.90以上，人格和興趣測(cè)驗(yàn)在之間。測(cè)驗(yàn)的目的不同，對(duì)信度的要求也不同。一般認(rèn)為信度系數(shù)高于0.85時(shí)，可對(duì)個(gè)人進(jìn)行診斷、鑒別、解釋，也可以進(jìn)行團(tuán)體比擬；當(dāng)信度位于0.70和0.85之間時(shí)，只能進(jìn)行團(tuán)體比擬，信度<0.70時(shí)，不能評(píng)價(jià)個(gè)人，也不能進(jìn)行團(tuán)體比擬。但這些不能作為絕對(duì)的取舍標(biāo)準(zhǔn)，有些信度不高的測(cè)驗(yàn)卻可能是非常有用的。必須重申，我們討論的信度一般指的是某次測(cè)驗(yàn)結(jié)果的信度，利用不同的被試，在不同時(shí)間和地點(diǎn)測(cè)驗(yàn)可能會(huì)有不同的信度，因此不能根據(jù)一兩次測(cè)驗(yàn)的結(jié)果否認(rèn)一個(gè)測(cè)驗(yàn)的價(jià)值。2．解釋分?jǐn)?shù)〔1〕解釋個(gè)人分?jǐn)?shù)實(shí)際測(cè)量中我們往往希望通過(guò)一次測(cè)驗(yàn)結(jié)果來(lái)了解被試的真分?jǐn)?shù)。因?yàn)橛袦y(cè)量誤差存在，所以我們不能把實(shí)得分?jǐn)?shù)當(dāng)成真分?jǐn)?shù)，而只能根據(jù)已有信息對(duì)其進(jìn)行估計(jì)。推論統(tǒng)計(jì)告訴我們，對(duì)總體參數(shù)進(jìn)行點(diǎn)估計(jì)是不準(zhǔn)確的，錯(cuò)誤的概率非常大。而如果通過(guò)區(qū)間估計(jì)的方法估計(jì)出總體參數(shù)的置信區(qū)間，那么能將預(yù)測(cè)誤差控制在較低的水平。真分?jǐn)?shù)是無(wú)數(shù)次測(cè)量的平均值，所以可看作總體參數(shù)，而一次測(cè)量的結(jié)果就可看作樣本統(tǒng)計(jì)量，這樣估計(jì)真分?jǐn)?shù)的問(wèn)題就變成了估計(jì)總體參數(shù)的問(wèn)題。利用實(shí)得分?jǐn)?shù)估計(jì)被試真分?jǐn)?shù)時(shí)，就應(yīng)采取區(qū)間估計(jì)的方法。如果SE為無(wú)數(shù)次測(cè)量誤差〔E=X-T〕的標(biāo)準(zhǔn)差，即測(cè)驗(yàn)的標(biāo)準(zhǔn)誤的話，那么真分?jǐn)?shù)95％的置信區(qū)間為〔Ｘ±1.96SE〕。但SE如何求出呢？我們知道，在經(jīng)典測(cè)驗(yàn)理論中SE是隨機(jī)誤差，其大小和方差只與偶然因素有關(guān)而與被試的能力〔特質(zhì)〕水平無(wú)關(guān)，故我們可以把一組被試在同一測(cè)驗(yàn)上的誤差的標(biāo)準(zhǔn)差SE看作使用平行測(cè)驗(yàn)對(duì)同一被試無(wú)數(shù)次測(cè)量的標(biāo)準(zhǔn)誤SE。測(cè)驗(yàn)標(biāo)準(zhǔn)誤可用下式計(jì)算：SE=ＳX(jué)1－rXX〔3-19〕SE為測(cè)驗(yàn)標(biāo)準(zhǔn)誤，或測(cè)量標(biāo)準(zhǔn)誤，rXX為測(cè)驗(yàn)的信度，ＳＸ為測(cè)驗(yàn)分?jǐn)?shù)的方差?？梢钥闯鰷y(cè)驗(yàn)標(biāo)準(zhǔn)誤與SX，即實(shí)得分?jǐn)?shù)標(biāo)準(zhǔn)差成正比，而與測(cè)驗(yàn)信度rXX成反比。知道了一組被試實(shí)得分?jǐn)?shù)和測(cè)驗(yàn)的信度后，我們就可以對(duì)每一被試真分?jǐn)?shù)的分布范圍進(jìn)行區(qū)間估計(jì)。假設(shè)某智力測(cè)驗(yàn)信度為0.95，標(biāo)準(zhǔn)差為15，某兒童得分為120分，我們就可以估計(jì)其真分?jǐn)?shù)的范圍。ＳE＝15×1－0.95＝3.35那么他的真實(shí)智力測(cè)驗(yàn)分?jǐn)?shù)的95％的置信區(qū)間為〔113.4Ｔ126.6〕。即他的智力測(cè)驗(yàn)分?jǐn)?shù)有95%的可能是在113.4和126.6之間。如果要提高估計(jì)的把握度，那么可求出99%的置信區(qū)間。由此可見(jiàn)，知道測(cè)驗(yàn)的信度后，我們就能對(duì)被試的真分?jǐn)?shù)進(jìn)行估計(jì)，信度越高，實(shí)得分?jǐn)?shù)越得代表他的真分?jǐn)?shù)，信度為1時(shí)，實(shí)得分?jǐn)?shù)就是真分?jǐn)?shù)。測(cè)驗(yàn)標(biāo)準(zhǔn)誤在個(gè)人分?jǐn)?shù)的解釋中有重大意義。〔2〕比擬測(cè)驗(yàn)分?jǐn)?shù)的差異有時(shí)我們希望比擬一個(gè)人或兩個(gè)人在不同測(cè)驗(yàn)上的分?jǐn)?shù)是否有顯著差異，以判斷其真分?jǐn)?shù)是否有差異，這就要用分?jǐn)?shù)差異的顯著性檢驗(yàn)。在知道兩測(cè)驗(yàn)的信度的情況下，我們可以根據(jù)公式對(duì)這一問(wèn)題方便地予以解答。當(dāng)然這里比擬的分?jǐn)?shù)不是兩測(cè)驗(yàn)的原始分?jǐn)?shù)，而是轉(zhuǎn)換到同一量尺上的導(dǎo)出分?jǐn)?shù)，如T分?jǐn)?shù)，Z分?jǐn)?shù)，離差智商等，分?jǐn)?shù)在同一量尺上才能相互比擬。在統(tǒng)計(jì)學(xué)上，兩分?jǐn)?shù)差異的標(biāo)準(zhǔn)誤可表示為:SEd=SEX+SEY〔3-20〕由于兩測(cè)驗(yàn)的分?jǐn)?shù)是在同一量尺上表示的，所以有相同的標(biāo)準(zhǔn)差，即SX=SY=S。將和代入上式，得:〔3-21〕將標(biāo)準(zhǔn)差和兩測(cè)驗(yàn)信度代入上式，即得分?jǐn)?shù)差異的標(biāo)準(zhǔn)誤。如果我們要求判斷真分?jǐn)?shù)是否有差異時(shí)要有95%的把握，那么必須在兩測(cè)驗(yàn)分?jǐn)?shù)之差不低于1.96SEd時(shí)才能認(rèn)為其真分?jǐn)?shù)有差異，假設(shè)把握度為99%，那么差異應(yīng)不低于2.58SEd。二、影響測(cè)驗(yàn)信度的因素信度上下表達(dá)了測(cè)量中對(duì)隨機(jī)誤差即測(cè)驗(yàn)誤差的控制程度。測(cè)驗(yàn)誤差是測(cè)驗(yàn)過(guò)程中產(chǎn)生的隨機(jī)誤差，其來(lái)源有：被試方面：包括被試的測(cè)驗(yàn)動(dòng)機(jī)、注意力、焦慮水平、測(cè)驗(yàn)經(jīng)驗(yàn)、身心健康等；主試及測(cè)驗(yàn)評(píng)分方面：包括主試的年齡、性別、態(tài)度，及記分、評(píng)分的客觀性；測(cè)驗(yàn)情境方面：包括噪音、光線、房間大小、環(huán)境的熟悉程度等；測(cè)驗(yàn)內(nèi)容方面：包括指導(dǎo)語(yǔ)的清晰度、內(nèi)容取樣的差異等都會(huì)造成隨機(jī)誤差。測(cè)驗(yàn)誤差是任何測(cè)驗(yàn)形式都不可防止的，也是測(cè)驗(yàn)理論都力求解決的，具有普遍性。而以下我們討論的幾種影響信度的因素卻主要與經(jīng)典測(cè)驗(yàn)理論計(jì)算信度的方法有關(guān)。1．所測(cè)樣本團(tuán)體同質(zhì)性程度被試樣本的同質(zhì)性程度即被試樣本團(tuán)體中實(shí)際能力〔或特質(zhì)水平〕的差異程度。實(shí)際水平相差大時(shí)，被試為異質(zhì)團(tuán)體，實(shí)際水平相差小時(shí)，被試那么為同質(zhì)團(tuán)體。按照經(jīng)典測(cè)驗(yàn)理論，測(cè)驗(yàn)誤差是與樣本同質(zhì)性無(wú)關(guān)的，即不同樣本中誤差的方差可認(rèn)為不變，但同質(zhì)樣本中，實(shí)得分?jǐn)?shù)的變異小，而異質(zhì)樣本中實(shí)得分?jǐn)?shù)的變異那么大，從信度計(jì)算公式可知，在異質(zhì)團(tuán)體中，真分?jǐn)?shù)變異在實(shí)得分?jǐn)?shù)中的變異中的比重會(huì)增加，誤差的變異所占的比重就小，信度值就較大；而在同質(zhì)性的被試團(tuán)體中，信度值就低。增大樣本的異質(zhì)性的作用是增大測(cè)驗(yàn)分?jǐn)?shù)的分布范圍，即變異程度，從而到達(dá)了降低隨機(jī)誤差，提高信度的目的。2．測(cè)驗(yàn)的長(zhǎng)度測(cè)驗(yàn)的長(zhǎng)度也會(huì)影響測(cè)驗(yàn)的信度。由于測(cè)驗(yàn)總分是由各題目得分的累加得到，所以當(dāng)測(cè)驗(yàn)的題目數(shù)增加時(shí)，就可以使發(fā)生在各測(cè)題上的誤差相互抵消，被試的測(cè)驗(yàn)總分就會(huì)更加接近其真分?jǐn)?shù)；另一方面，測(cè)驗(yàn)題目數(shù)的增加會(huì)導(dǎo)致測(cè)驗(yàn)分?jǐn)?shù)〔總分〕的分布范圍、即變異程度的增加，測(cè)驗(yàn)分?jǐn)?shù)的變異程度增加了，誤差分?jǐn)?shù)的方差在實(shí)得分?jǐn)?shù)方差中占的比重就會(huì)減小，測(cè)驗(yàn)的信度就會(huì)提高。前面已經(jīng)討論過(guò)，增加被試的異質(zhì)性會(huì)增加測(cè)驗(yàn)的信度，原因是增加異質(zhì)性事實(shí)上是擴(kuò)大了被試的得分范圍。而增加測(cè)驗(yàn)題會(huì)同樣起到擴(kuò)大得分范圍的目的，故此會(huì)增加測(cè)驗(yàn)信度。明確了測(cè)驗(yàn)長(zhǎng)度與測(cè)驗(yàn)信度的關(guān)系，在實(shí)際工作中就可以采用延長(zhǎng)測(cè)驗(yàn)長(zhǎng)度的方法提高信度。測(cè)驗(yàn)信度與測(cè)驗(yàn)長(zhǎng)度的關(guān)系可用斯皮爾曼--布朗通式來(lái)表示〔參見(jiàn)分半信度局部的討論〕。延長(zhǎng)測(cè)驗(yàn)長(zhǎng)度需注意的一個(gè)問(wèn)題是所增加的題目必須是與原測(cè)驗(yàn)題目同質(zhì)的。3．測(cè)驗(yàn)題目的難度測(cè)驗(yàn)題目的難度會(huì)影響測(cè)驗(yàn)分?jǐn)?shù)的分布范圍，因此會(huì)影響信度。測(cè)驗(yàn)題目都很難時(shí)，被試的分?jǐn)?shù)會(huì)集中于低分一端，而題目過(guò)易時(shí)，那么集中于高分一端，都會(huì)使分?jǐn)?shù)范圍縮小，而當(dāng)測(cè)題難度都接近0.5或平均難度為0.5左右時(shí)，測(cè)驗(yàn)分?jǐn)?shù)就呈現(xiàn)正態(tài)分布，分布范圍廣，信度就高。第四節(jié)概化理論的信度觀概化理論〔GeneralizabilityTheory，簡(jiǎn)稱GT〕與工程反響理論一起被稱為現(xiàn)代測(cè)驗(yàn)理論，代表了測(cè)驗(yàn)理論開(kāi)展的一大趨勢(shì)。1963年，克龍巴赫等〔Cronbach，L.J.，Rajaratuam，N.，&Gleser，G.C.，〕在英國(guó)統(tǒng)計(jì)心理學(xué)雜志上發(fā)表了有關(guān)概化理論的第一篇論文，1972年，克龍巴赫等又將這一理論系統(tǒng)化，出版《行為測(cè)量的可靠性》一書(shū)，標(biāo)志著概化理論的創(chuàng)立。此后不少研究者，如布倫南〔Brennan，R.L.，〕和施沃森〔Shavelson，R.J.，〕等人進(jìn)一步豐富了這一理論體系?？死锟恕睠rick，J.E.，〕和布倫南〔1983〕編制了專門(mén)用于概化理論統(tǒng)計(jì)分析的計(jì)算機(jī)程序GENOVA，促進(jìn)了這一理論的推廣和應(yīng)用。一、概化理論的根本框架任何測(cè)量都是在一組測(cè)量條件，或者說(shuō)情境下進(jìn)行的，如測(cè)驗(yàn)所使用的題目樣本、測(cè)驗(yàn)場(chǎng)所、評(píng)分者等，這些都構(gòu)成了誤差的來(lái)源。但經(jīng)典測(cè)驗(yàn)理論并沒(méi)有區(qū)分出不同的誤差來(lái)源，因而不能對(duì)誤差的控制提出很好的方法。概化理論那么運(yùn)用方差分析技術(shù)將來(lái)自不同測(cè)量條件的誤差分解，從而選擇合理的測(cè)驗(yàn)設(shè)計(jì)方案以減少誤差，提高測(cè)量的精度?！惨弧硿y(cè)量的目標(biāo)〔objects〕和測(cè)量的面〔facets〕概化理論區(qū)分了測(cè)量的目標(biāo)和測(cè)量的面這兩個(gè)概念，并在實(shí)施測(cè)量之前首先確定其測(cè)量目標(biāo)和測(cè)量的面是什么。測(cè)量的目標(biāo)一般是指所要測(cè)量的心理特質(zhì)，如被試的閱讀理解能力，寫(xiě)作能力等，測(cè)量面那么是指測(cè)量的一組條件，也就是影響測(cè)驗(yàn)過(guò)程和測(cè)量結(jié)果的各種情境。測(cè)量時(shí)我們可以將測(cè)量條件分成幾個(gè)維度，如測(cè)驗(yàn)所用的題目樣本，測(cè)驗(yàn)的場(chǎng)所，測(cè)驗(yàn)的時(shí)間等就是測(cè)量條件的幾個(gè)維度，它們都是測(cè)量的面，這些面的變化會(huì)導(dǎo)致不同的測(cè)驗(yàn)結(jié)果。在測(cè)量時(shí)，我們總希望由測(cè)量目標(biāo)所引起的測(cè)驗(yàn)結(jié)果的變異到達(dá)最大，而由測(cè)量面所引起的變異最小。比方，一個(gè)研究者要編制一個(gè)測(cè)量閱讀理解能力的測(cè)驗(yàn)，他選擇了幾篇不同內(nèi)容的短文，讓幾名評(píng)分員評(píng)分。在他的研究中，我們可區(qū)分出兩個(gè)測(cè)量面，一個(gè)是試題面〔items，簡(jiǎn)稱i〕，一個(gè)評(píng)分者面〔raters，簡(jiǎn)稱r〕，測(cè)量的目標(biāo)〔person，簡(jiǎn)稱p〕那么是被試的閱讀理解能力。一個(gè)測(cè)量面〔即測(cè)量條件的一個(gè)維度〕類似于方差分析的一個(gè)自變量，方差分析中的自變量可以有不同的水平，相應(yīng)地，測(cè)量面也可以有不同的水平，二者的含義也是根本一致的。例如上例中，研究者可以用8篇短文作為試題，讓5個(gè)評(píng)分員對(duì)10個(gè)被試的8篇短文的成績(jī)進(jìn)行評(píng)分，8篇短文就是試題面的8個(gè)水平，5個(gè)評(píng)分者就是評(píng)分者面的5個(gè)水平，它們都是誤差的可能來(lái)源。原那么上講，研究者可從無(wú)窮多篇短文中選擇假設(shè)干篇作為試題，同樣作為評(píng)分者的人選也有無(wú)窮多個(gè)，也即試題面和評(píng)分者的水平有無(wú)窮多個(gè)。研究者所選用的試題和評(píng)分者往往都是相應(yīng)總體的一個(gè)樣本。概化理論把每個(gè)測(cè)量面的水平所對(duì)應(yīng)的總體叫做測(cè)量的全域〔universe〕。測(cè)量中研究者所考察的所有測(cè)量面全域的集合就叫該測(cè)量的可觀測(cè)全域或允許測(cè)量全域〔universeofadmissiableobservation〕，可觀測(cè)全域或允許測(cè)量全域中的每一個(gè)水平都是可以測(cè)量的。如上例中所有試題的集合就是試題全域，所有評(píng)分者的集合就是評(píng)分者全域，而試題全域和評(píng)分者全域就構(gòu)成測(cè)量的可觀測(cè)全域，這樣，研究中的可觀測(cè)全域就包括了一個(gè)評(píng)分者面和一個(gè)試題面。測(cè)量的面還有隨機(jī)〔random〕和固定〔fixed〕之分。固定面指的是面的各個(gè)水平都是固定的，在以后的測(cè)量中不再變化，這與方差分析中因素水平的固定是一個(gè)道理。當(dāng)測(cè)量面固定時(shí)，一次測(cè)驗(yàn)的結(jié)果就可以直接推廣到另一次測(cè)驗(yàn)中去。例如上例中，如果研究者在以后測(cè)量中都使用同樣的8篇短文，就不必要推測(cè)使用其他試題時(shí)測(cè)驗(yàn)結(jié)果會(huì)有什么不同。在這一情況下，使用概化理論是沒(méi)有意義的。隨機(jī)面是指在每一次測(cè)量中面的水平都是隨機(jī)選取的，因此每一次測(cè)量的條件都不會(huì)相同。如果一個(gè)面是隨機(jī)的，就意味著要將樣本測(cè)量條件下的結(jié)果推廣到測(cè)量全域上去。在上例中，假設(shè)每次測(cè)驗(yàn)都使用不同的題目樣本，那么試題面就是隨機(jī)的。一旦一個(gè)面固定了，它就成為測(cè)量目標(biāo)的一局部，固定面不再屬于誤差的來(lái)源。隨著固定面的增多，測(cè)量誤差來(lái)源就會(huì)變少，測(cè)量的信度就提高。如果測(cè)量的所有面都固定了，測(cè)量的誤差雖然到達(dá)了最低限度，但測(cè)驗(yàn)也失去了任何可推廣的佘地。這種測(cè)驗(yàn)是完全標(biāo)準(zhǔn)化的，測(cè)驗(yàn)結(jié)果只能在標(biāo)準(zhǔn)化條件下進(jìn)行解釋和應(yīng)用，離開(kāi)了這一標(biāo)準(zhǔn)化的條件測(cè)驗(yàn)結(jié)果也就失去了意義。因此任何測(cè)驗(yàn)都允許至少一個(gè)面是隨機(jī)的。隨機(jī)的面越多，概化理論的優(yōu)越性就越能表達(dá)出來(lái)?！捕硿y(cè)量的設(shè)計(jì)概化理論的研究中首先要按照一定的測(cè)量設(shè)計(jì)〔類似于實(shí)驗(yàn)設(shè)計(jì)〕方案安排測(cè)驗(yàn)，并對(duì)搜集到資料的進(jìn)行方差分析，分解出各種誤差成份。測(cè)量的設(shè)計(jì)有交叉的〔crossed〕、嵌套的〔nested〕和混合的三種。交叉設(shè)計(jì)是指一個(gè)測(cè)量面所有水平與另一個(gè)測(cè)量面或測(cè)量目標(biāo)的每一個(gè)水平都發(fā)生了關(guān)系，比方在一次測(cè)量中所有的評(píng)分員〔r〕都對(duì)試題〔i〕進(jìn)行了評(píng)定，那么評(píng)分員與試題就是交叉的，交叉設(shè)計(jì)可記為p×i。假設(shè)有Ni個(gè)測(cè)題和Nr個(gè)評(píng)分者，這次測(cè)量中就有Ni×Nr個(gè)測(cè)量條件的組合。上例中如果所有被試做了所有的試題，而所有的評(píng)分員又評(píng)定了所有被試的全部試題，那么被試、試題、評(píng)分員全部都是交叉的，記為p×i×r。嵌套設(shè)計(jì)那么是指一個(gè)測(cè)量面〔或測(cè)量目標(biāo)〕只與另一個(gè)面〔或測(cè)量目標(biāo)〕的局部水平發(fā)生了關(guān)系。假設(shè)在一次測(cè)驗(yàn)中，m個(gè)被試每人都做了n個(gè)不同的測(cè)題〔總題數(shù)為n×m個(gè)，每一測(cè)題只測(cè)試了一個(gè)被試〕，那么稱被試與測(cè)題是嵌套安排的，記為i:p，即試題i嵌套于被試p中。一個(gè)設(shè)計(jì)中如果既有交叉關(guān)系又有嵌套關(guān)系，那么這一設(shè)計(jì)就是混合設(shè)計(jì)。比方上例中如果10名被試都做了全部的試題，但每個(gè)評(píng)分員只對(duì)兩個(gè)被試的全部試題評(píng)分，那么被試是嵌套于評(píng)分員之中的，而被試與試題又是交叉的，這一設(shè)計(jì)就是交叉設(shè)計(jì)，記為i×〔p:r〕?！踩矰研究與G研究概化理論一般分兩步進(jìn)行，即先進(jìn)行G研究，再進(jìn)行D研究。1．G研究〔generalizabilitystudy〕概化理論的研究中，首先要估計(jì)不同來(lái)源的誤差的大小，在此根底上確定測(cè)量的信度，或者是通過(guò)改變測(cè)量設(shè)計(jì)方案以盡可能地減少誤差，進(jìn)而到達(dá)提高信度的目的。在概化理論中，除測(cè)量目標(biāo)外的來(lái)自各測(cè)量面的影響都稱為誤差，G研究就是通過(guò)G研究的設(shè)計(jì)〔Gstudydesign〕，借助方差分析技術(shù)將誤差分解，估計(jì)出不同來(lái)源的方差成分〔variancecomponent〕的大小。上例中，如果G研究的設(shè)計(jì)采用的是p×i×r的交叉設(shè)計(jì)，那么測(cè)驗(yàn)結(jié)果中就得到10×8×4=320個(gè)數(shù)據(jù)。方差分析時(shí)有七個(gè)方面的變異源需要估計(jì)，這七個(gè)方差成份分別是:被試〔p〕、試題〔i〕、評(píng)分者〔r〕三個(gè)主效應(yīng)，3個(gè)兩向交互作用pi、pr、ir，和一個(gè)三向交互作用pir。借助普通的方差分析方法，通過(guò)計(jì)算與各方差成份有關(guān)的均方，就可得到這些方差成份的無(wú)偏估計(jì)值〔詳細(xì)過(guò)程請(qǐng)參見(jiàn)本文后面的內(nèi)容〕。假設(shè)本例中各變異來(lái)源的方差估計(jì)值分別為:〔p〕=0.30，〔i〕=0.25，〔r〕=0.10，〔pi〕=0.37，〔pr〕=0.50，〔ir〕=0.25，〔pir〕=1.00。應(yīng)該注意，表示使用樣本測(cè)量的數(shù)據(jù)估計(jì)真實(shí)變異σ時(shí)所得到的估計(jì)值，如，〔p〕就是σ〔p〕的估計(jì)值，σ〔p〕可解釋為:某被試做完可觀測(cè)全域中所有可能的測(cè)題〔Ni個(gè)而非ni個(gè)〕后再由所有可能的評(píng)分者〔Nr個(gè)而非nr個(gè)〕評(píng)分，得到Nr×Ni個(gè)分?jǐn)?shù)，相加得總分后再除以Nr×Ni，得一均分，p個(gè)被試的均分的方差就表示為σ〔μp〕或σ〔p〕。其他變異成份的含義可作類似的解釋。2．D研究〔Dstudy〕G研究的目的是獲得可觀測(cè)全域中變異成份的估計(jì)，以后的工作就屬于D研究，即決策〔decision〕研究了。G研究的質(zhì)量決定了D研究的可靠性。當(dāng)G研究中每一測(cè)量面都有足夠多的測(cè)量水平作為樣本被考慮時(shí)〔如在上例中當(dāng)評(píng)分者面中有大量評(píng)分者作為樣本時(shí)〕，對(duì)變異成份的估計(jì)就越穩(wěn)定。這種情況下，D研究的結(jié)論就更可靠。在多數(shù)的情況下D研究是利用G研究中的數(shù)據(jù)進(jìn)行的，有時(shí)也重新搜集數(shù)據(jù)。D研究通常包括以下內(nèi)容:首先是確定拓廣全域〔universeofgenerization〕。拓廣全域是指研究者要將G研究中的結(jié)論在哪些面上推廣，及推廣到這些面的哪些水平上去，即推廣的范圍。拓廣全域可能與G研究中的可觀測(cè)全域的范圍相同，也可能是可觀測(cè)全域的一個(gè)子體，但不能超出這一范圍。比方上例中，G研究中的所用的評(píng)分者都是從高中語(yǔ)文教師中隨機(jī)選取的，那么評(píng)分者全域就是高中語(yǔ)文老師，拓廣全域就不能超出高中語(yǔ)文教師這一范圍，面只能是這一范圍中的全部或局部水平〔如高一、高二或高三的語(yǔ)文教師等〕。其次是確定D研究面的水平的取樣的大小。D研究時(shí)所選取的測(cè)量面的水平數(shù)可以與G研究相同，也可以不同。為與G研究相區(qū)分，D研究中測(cè)量面的水平的取樣所用的符號(hào)為n＇i和n＇r。最后是確定D研究的設(shè)計(jì)，D研究的設(shè)計(jì)也可采用G研究中的三種設(shè)計(jì)。為與G研究區(qū)分開(kāi)，D研究設(shè)計(jì)中測(cè)量面的水平數(shù)大寫(xiě)字母表示，如p×I×R。更重要的是，D研究中的大寫(xiě)字母表示對(duì)拓廣全域的一組測(cè)量水平取平均值。G研究D和研究中的測(cè)量目標(biāo)是相同的，并不取平均值，所以D研究中測(cè)量目標(biāo)的數(shù)量仍然用小寫(xiě)字母p表示。D研究中另一個(gè)重要的概念是全域分〔universescore〕。全域分指拓廣全域上的測(cè)量的平均值，是一個(gè)測(cè)量目標(biāo)在拓廣全域的所有測(cè)量條件下的平均分?jǐn)?shù)，是測(cè)量目標(biāo)的“理想”分?jǐn)?shù)，類似于CTT中的真分?jǐn)?shù)。所有被試的全域分的方差稱為全域分方差，類似于CTT中的真分?jǐn)?shù)方差。但在概化理論中，拓廣全域不同，就有不同的全域分，相應(yīng)地也有不同的全域分方差，而CTT中只有一個(gè)真分?jǐn)?shù)和真分?jǐn)?shù)方差。假設(shè)在上例中，研究者在D研究中使用了p×I×R的交叉設(shè)計(jì)，選用了6道測(cè)題和2個(gè)評(píng)分員，即n＇i=6，n＇r=2。于是就可以根據(jù)G研究中的方差成份的估計(jì)值計(jì)算出D研究中的方差成份。由于D研究中要對(duì)一個(gè)面的一組測(cè)量水平求平均，所以計(jì)算D研究的方差成份時(shí)，只需將G研究中含有i的方差成份除以6，將G研究中含有r的方差成份除以2即可，而測(cè)量目標(biāo)的方差那么不變。如〔I〕=〔i〕。n＇i=0.25。6=0.04。具體計(jì)算結(jié)果如下:〔p〕=0.30，〔I〕=0.04，〔R〕=0.05，〔pI〕=0.06，〔pR〕=0.25，〔IR〕=0.02，〔pIR〕=0.08。從以上的數(shù)據(jù)可以得出結(jié)論，即D研究中選用的樣本數(shù)〔即面的水平數(shù)〕越多，各誤差項(xiàng)的值就越小，測(cè)量的信度就越高，因此D研究中可以通過(guò)增加測(cè)量面的水平數(shù)來(lái)增加測(cè)量的可靠性。由于n＇i和n＇r的選取可以是任意的，在不同的研究中可以不同，所以概化理論采用的是隨機(jī)平行測(cè)驗(yàn)形式，各測(cè)量間的平均分、方差不一定相等。這也是GT與CTT的區(qū)別之一。〔三〕信度估計(jì)與經(jīng)典測(cè)驗(yàn)理論中的信度指標(biāo)一樣，概化理論也給出表示測(cè)驗(yàn)結(jié)果可靠性的指標(biāo)。常用的有概化系數(shù)與依存性系數(shù)。1．概化系數(shù)〔generalizabilitycoefficients〕對(duì)常模參照性測(cè)驗(yàn)，表示信度上下的指標(biāo)為概化系數(shù)，在常模參照性測(cè)驗(yàn)中，被試能力水平的估計(jì)值依賴于所參照?qǐng)F(tuán)體的平均水平，因此測(cè)驗(yàn)誤差也是相對(duì)的。在GT中，相對(duì)誤差是用實(shí)得分?jǐn)?shù)的離均差估計(jì)全域分的離均差時(shí)的誤差。相對(duì)誤差方差的大小依賴于實(shí)得分?jǐn)?shù)的離均差與全域分的離均差之間差異的大小，其大小等于所有測(cè)量面與測(cè)量目標(biāo)的交互作用〔即所有含有p項(xiàng)的方差成份〕的累加。對(duì)單面的研究設(shè)計(jì)，相對(duì)誤差方差σ〔δ〕=〔pI〕=〔pi〕／n＇i，對(duì)上例中的數(shù)據(jù)，相對(duì)誤差方差σ〔δ〕=〔pI〕+〔pR〕+〔pIR〕=0.06+0.25+0.08=0.39。概化系數(shù)可定義為全域分變異與期望的觀測(cè)分變異的比率，即〔3-22〕在實(shí)際計(jì)算中，由于各變異成份都使用估計(jì)值，所以得到的概化系數(shù)也是估計(jì)值，即〔3-23〕上例中，估計(jì)的概化系數(shù)為0.30/〔0.30+0.39〕=0.43。概化系數(shù)也可理解為全域分與觀測(cè)分之間的相關(guān)系數(shù)的平方。由于期望觀測(cè)分?jǐn)?shù)方差依賴于Ｄ研究的設(shè)計(jì)和拓廣全域，所以當(dāng)Ｄ研究的設(shè)計(jì)不同時(shí)，或Ｄ研究的設(shè)計(jì)相同而拓廣全域不同時(shí)，概化系數(shù)也會(huì)不同。因此研究者可根據(jù)概化系數(shù)的大小選擇最正確的D研究設(shè)計(jì)方案。同時(shí)，為提高概化系數(shù)，研究者還可采用固定某一測(cè)量面或增加某一測(cè)量面的水平數(shù)等策略。2．依存性系數(shù)〔indexofdependabilitycoefficients〕與常模參照性測(cè)驗(yàn)不同，標(biāo)準(zhǔn)參照性測(cè)驗(yàn)中表示信度上下的指標(biāo)稱為依存性系數(shù)。對(duì)標(biāo)準(zhǔn)參照性測(cè)驗(yàn)而言，被試的測(cè)驗(yàn)結(jié)果不是與團(tuán)體的平均水平相比來(lái)判斷其優(yōu)劣，測(cè)驗(yàn)結(jié)果表達(dá)的是其絕對(duì)水平，因此所考慮的測(cè)驗(yàn)誤差也是絕對(duì)誤差。絕對(duì)誤差的方差取決于實(shí)得分?jǐn)?shù)與全載分的差異的大小。在GT中，絕對(duì)誤差方差等于除測(cè)量目標(biāo)方差之外的所有方差成份的累加。與概化系數(shù)相似，依存性系數(shù)的計(jì)算公式為〔3-24〕其大小表示對(duì)被試領(lǐng)域分?jǐn)?shù)估計(jì)的可靠性。對(duì)上例而言，絕對(duì)誤差方差σ〔Δ〕=〔i〕+〔r〕+〔pi〕+〔ir〕+〔pr〕+〔pir〕=0.50。經(jīng)典測(cè)驗(yàn)理論中只有一種測(cè)驗(yàn)誤差，沒(méi)有將其進(jìn)一步分解，因此不能區(qū)分絕對(duì)誤差和相對(duì)誤差，這使其在標(biāo)準(zhǔn)參照性測(cè)驗(yàn)的分析中面臨嚴(yán)重困難。而概化理論那么借助于方差分析的技術(shù)區(qū)分了這兩種誤差，為標(biāo)準(zhǔn)參照性測(cè)驗(yàn)的信度估計(jì)提供了理論依據(jù)。二、概化理論的模型與計(jì)算公式與經(jīng)典測(cè)驗(yàn)理論一樣，概化理論采用的數(shù)學(xué)模型也是隨機(jī)線性模型。這一模型假定被試與被試之間、試題與試題之間及二者的交互作用之間都是相互獨(dú)立的。在概化理論中，由于研究者可選擇交叉設(shè)計(jì)、嵌套設(shè)計(jì)或混合設(shè)計(jì)，不同的研究設(shè)計(jì)適用的數(shù)學(xué)模型和計(jì)算公式是不同的，下面我們將介紹單面交叉設(shè)計(jì)和單面嵌套設(shè)計(jì)情境下的理論模型和計(jì)算公式。更復(fù)雜的多面交叉設(shè)計(jì)、多面嵌套設(shè)計(jì)和多面混合設(shè)計(jì)都是這兩種根本測(cè)量設(shè)計(jì)的擴(kuò)展?！惨弧硢蚊娼徊嬖O(shè)計(jì)單面交叉設(shè)計(jì)是最簡(jiǎn)單的測(cè)量設(shè)計(jì)，最常見(jiàn)的情況是p個(gè)被試參加了共i個(gè)題目的測(cè)驗(yàn)，就構(gòu)成了p×i的單面交叉設(shè)計(jì)。假設(shè)一研究者要編制一個(gè)推理能力測(cè)驗(yàn)，在編制測(cè)驗(yàn)之前他希望搞清楚不同的測(cè)驗(yàn)題目對(duì)被試能力估計(jì)的影響，他就可以選用單面交叉設(shè)計(jì)。單面交叉設(shè)計(jì)應(yīng)滿足以下三個(gè)條件：〔１〕可觀測(cè)域全中僅包括一個(gè)試題面；〔２〕被試和試題是交叉的，即所有被試都做了全部測(cè)題；〔３〕被試總體和試題面的水平都是無(wú)限的。1．根本模型我們以Ｘｐｉ表示第p個(gè)被試在第ｉ題上的觀測(cè)分?jǐn)?shù)，那么這個(gè)人在試題全域中的期望得分為：μｐ＝Ｅｘｐｉ〔3-25〕ｉ類似地，題目ｉ在被試總體中的期望得分為：μｉ＝Ｅｘｐｉ〔3-26〕ｐ而總體中所有被試在試題全域上的平均得分為：μｐｉ＝ＥＥｘｐｉ〔3-27〕ｉｐ這些平均數(shù)〔μｐ、μｉ、μｐｉ〕本身是不可觀測(cè)的，我們只能得到它們的樣本平均數(shù)。盡管如此，任何被試ｐ在任何題目ｉ上的觀測(cè)分?jǐn)?shù)都可以用這些平均數(shù)使用線性模型來(lái)表達(dá)，即Ｘｐｉ＝μ〔假想的總均值〕+μｐ－μ〔被試效應(yīng)μｐ～〕+μｉ－μ〔題目效應(yīng)μｉ～〕+ｘｐｉ－μｐ-μi＋μ〔剩余效應(yīng)μｐｉ～〕〔3-28〕或Ｘｐｉ＝μ＋μｐ～＋μｉ～＋μｐｉ～〔3-29〕上式說(shuō)明，單面設(shè)計(jì)中的觀測(cè)分?jǐn)?shù)可分解為被試效應(yīng)、題目效應(yīng)和剩余效應(yīng)三局部〔假想總均值μ在所有觀測(cè)分?jǐn)?shù)中都是恒定不變的〕。必須注意的是，剩余效應(yīng)μｐｉ～常稱交互作用效應(yīng)，但由于不存在重復(fù)測(cè)量，對(duì)一個(gè)被試在單個(gè)工程上的反響而言，交互作用效應(yīng)與剩余效應(yīng)是無(wú)法區(qū)分開(kāi)的，但為表達(dá)的方便，我們將其簡(jiǎn)稱為交互作用效應(yīng)。以上各種效應(yīng)都是隨機(jī)的，因此各效應(yīng)的期望值應(yīng)為0，也即：Ｅμｐ～＝Ｅμｉ～＝Ｅμｐｉ～＝Ｅμｐｉ～＝0〔3-30〕ＰＩＰＩ相應(yīng)地，被試的、試題的和二者交互作用的方差成分分別為：σ2〔p〕=E〔μp-μ〕2=E〔μp～〕2〔3-31〕ppσ2〔i〕=E〔μi-μ〕2=E〔μi～〕2〔3-32〕iiσ2〔pi〕=EE〔μpi-μp-μi+μ〕2=EE〔μpI～〕〔3-33〕pIpi由于是線性的隨機(jī)模型，所以被試與被試之間、試題與試題之間及二者的交互作用之間都是相互獨(dú)立的。因此，測(cè)驗(yàn)得分的總變異σ2〔Xｐｉ〕等于被試變異分量σ2〔p〕、試題變異分量σ2〔ｉ〕、和試題與被試交互作用分量σ2〔pｉ〕的累加，即σ2〔Xｐｉ〕=σ2〔p〕+σ2〔ｉ〕+σ2〔pｉ〕〔3-34〕2．方差成份的估計(jì)實(shí)際計(jì)算中，由于方差成份σ2〔p〕、σ2〔ｉ〕和σ2〔pｉ〕都涉及了被試或試題全域上的平均分，而這些平均分又是永遠(yuǎn)無(wú)法得到的期望值，因此只能由樣本平均值來(lái)代替，再將觀測(cè)分的總變異分解。假設(shè)記樣本平均數(shù)，，，它們所對(duì)應(yīng)的全域分平均值分別是μｐ、μｉ、μ。用樣本平均數(shù)代替全域分平均數(shù)，重復(fù)〔3-25〕～〔3-34〕式的推導(dǎo)步驟，可將觀測(cè)分?jǐn)?shù)的總變異分解為〔p〕、〔i〕和〔pi〕三局部。對(duì)這三個(gè)方差成份可通過(guò)方差分析技術(shù)加以估計(jì)。從而得到方差成分σ2〔p〕、σ2〔ｉ〕和σ2〔pｉ〕的估計(jì)值。表3.2中列出了單面交叉設(shè)計(jì)中計(jì)算各方差成份的公式。表3.2單面交叉設(shè)計(jì)中對(duì)G研究和D研究方差成份的估計(jì)G研究中方差D研究中方差效應(yīng)dfSSMS成份的估計(jì)值成份的估計(jì)值被試〔p〕np-1SS〔p〕SS〔p〕/df〔p〕〔p〕〔p〕試韙〔i〕ni-1SS〔i〕SS〔i〕/df〔i〕〔i〕〔I〕交互作用〔pi〕〔np-1〕〔ni-1〕SS〔pi〕SS〔pi〕/df〔pi〕〔pi〕〔pI〕〔p〕=[MS〔p〕-MS〔pi〕]/ni〔i〕=[MS〔i〕-MS〔pi〕]/np〔pi〕=MS〔pi〕從表中可以看出，方差成分σ2〔p〕、σ2〔ｉ〕和σ2〔pｉ〕完全可以通過(guò)傳統(tǒng)的方差分析方法得到。其過(guò)程是先計(jì)算出平方和SS〔p〕、SS〔i〕、SS〔pi〕，除以自由度后得相應(yīng)的均方MS〔p〕、MS〔i〕、MS〔pi〕，再用表中的公式計(jì)算各方差成分的估計(jì)值〔p〕、〔i〕和〔pi〕。在估計(jì)方差成分時(shí)，需要用到期望均方EMS。期望均方與各方差成份的關(guān)系為:EMS〔p〕=σ2〔pi〕+niσ2〔p〕EMS〔i〕=σ2〔pi〕+npσ2〔i〕EMS〔pi〕=σ2〔pi〕至此就可估計(jì)出各方差成分，其中〔p〕=[MS〔p〕-MS〔pi〕]/ni〔i〕=[MS〔i〕-MS〔pi〕]/np〔pi〕=MS〔pi〕應(yīng)該注意的是，表3.2中使用均方MS代替了期望均方EMS，所以得到的是各變異成份的估計(jì)值。在上述方程中，用均方MS代替期望均方EMS、用各方差成份的估計(jì)值代替期望值后，重新解這個(gè)方程，即可得到各方差成份的估計(jì)值。計(jì)算出各方差成份的估計(jì)值后，就可進(jìn)一步進(jìn)行D研究的設(shè)計(jì)。3．D研究的方差成分對(duì)單面交叉設(shè)計(jì)而言，D研究與G研究涉及了同一個(gè)測(cè)量面。但Ｄ研究中的方差成分卻與G研究不同。G研究中的方差成分涉及的是可觀測(cè)全域上被試在單個(gè)工程上得分的變異，而在D研究中使用被試在所有工程上的平均分，或多個(gè)評(píng)分者評(píng)定的平均分作為其全域分的估計(jì)值，被試所得的分?jǐn)?shù)〔即在n＇i個(gè)測(cè)驗(yàn)工程上的平均分〕被視為在拓廣全域上的一個(gè)隨機(jī)平行測(cè)驗(yàn)的得分。根據(jù)抽樣分布的知識(shí)，相應(yīng)的方差成分應(yīng)等于G研究中的方差成分除以測(cè)量面的水平數(shù)。如果以ＸpI表示某被試在一個(gè)長(zhǎng)度為n＇i的隨機(jī)平行測(cè)驗(yàn)上的觀測(cè)分，這一分?jǐn)?shù)可分解為：ＸｐＩ＝μ＋μｐ～＋μＩ～＋μｐＩ～〔3-35〕式中的字母下標(biāo)i變成了大寫(xiě)字母I，表示測(cè)驗(yàn)平均分，其余符號(hào)均不變。比方在某單面交叉設(shè)計(jì)中，試題數(shù)為n＇i，那么測(cè)量目標(biāo)σ2〔p〕的方差成分不變，試題面，試題與測(cè)量目標(biāo)交互作用的方差成分分別為σ2〔Ｉ〕=σ2〔i〕／n＇i和σ2〔pＩ〕＝σ2〔pi〕／n＇I。4．概化系數(shù)與依存性系數(shù)估計(jì)出相對(duì)誤差方差與絕對(duì)誤差方差之后，就可計(jì)算概化系數(shù)與依存性系數(shù)了。對(duì)單面交叉設(shè)計(jì)，概化系數(shù)的計(jì)算公式為：Ｅρ２=σ2〔p〕/[σ2〔p〕+σ〔δ〕]=σ2〔p〕/[σ2〔p〕+σ2〔pI〕]=σ2〔p〕/[σ2〔p〕+σ2〔pi〕／n＇i]〔3-36〕單面交叉設(shè)計(jì)的概化系數(shù)等于克龍巴赫的α系數(shù)，對(duì)二值記分工程的測(cè)驗(yàn)，它等于用KR-20公式計(jì)算出的信度系數(shù)。依存性系數(shù)的計(jì)算公式為Φ=σ2〔p〕/[σ2〔p〕+σ〔Δ〕]=σ2〔p〕/[σ2〔p〕+σ2〔Ｉ〕+σ2〔pＩ〕]=σ2〔p〕/[σ2〔p〕+σ2〔i〕／n＇i+σ2〔pi〕／n＇i]〔3-37〕概化系數(shù)和依存性系數(shù)代表了測(cè)驗(yàn)信度的上下。研究者可以通過(guò)重新進(jìn)行測(cè)量的設(shè)計(jì)，如增加測(cè)量面的水平數(shù)等，以提高信度系數(shù)。如果信度指標(biāo)符合要求，概化理論的研究即告完成?！捕硢蚊媲短自O(shè)計(jì)1．G研究和D研究都是嵌套設(shè)計(jì)的模型對(duì)i:p的G研究嵌套設(shè)計(jì)，其線性模型是Ｘｐｉ＝μ＋〔μｐ-μ〕＋〔Ｘｐｉ-μｐ〕〔3-38〕其中〔μｐ-μ〕相當(dāng)于測(cè)量目標(biāo)的主效應(yīng)μp～，〔Ｘｐｉ-μｐ〕相當(dāng)于嵌套效應(yīng)μi：p～。于是上式變?yōu)椋兀穑椋溅?μp～+μi：p～〔3-39〕由于不同被試做了不同的測(cè)題組合，所以工程效應(yīng)μi～、被試與工程的交互作用效應(yīng)μip～、及其他來(lái)源的殘差均混雜在嵌套效應(yīng)μi：p～中。因此對(duì)單面嵌套設(shè)計(jì)的G研究，就只有兩個(gè)方差成分需要分解，即σ2〔p〕和σ2〔i：p〕。相應(yīng)地，嵌套的D研究設(shè)計(jì)的線性模型是ＸｐI＝μ+μp～+μI：p～〔3-40〕D研究中的嵌套效應(yīng)同樣是σ2〔I：p〕=σ2〔i：p〕/n＇i〔3-41〕表3.3中給出了單面嵌套設(shè)計(jì)中方差成分的分解模型。表3.3單面嵌套設(shè)計(jì)中對(duì)G研究和D研究方差成份的估計(jì)G研究中方差D研究中方差效應(yīng)dfSSMS成份的估計(jì)值成份的估計(jì)值被試〔p〕np-1SS〔p〕SS〔p〕/df〔p〕〔p〕〔p〕試韙〔i:p〕npni-npSS〔i:p〕SS〔i:p〕/df〔i:p〕〔i:p〕〔I:p〕〔p〕=[MS〔p〕-MS〔i：p〕]/ni〔i:p〕=MS〔i:p〕從表中可以看出，從原始數(shù)據(jù)中我們用公式和可以求出平方和SS〔p〕和SS〔i:p〕，除以各自的自由度后得到相應(yīng)的均方。方差成分〔p〕、〔i:p〕可由公式〔p〕=[MS〔p〕-MS〔i：p〕]/ni〔i:p〕=MS〔i:p〕計(jì)算出來(lái)。在嵌套設(shè)計(jì)中，由于交互作用效應(yīng)與工程效應(yīng)都混雜在嵌套效應(yīng)中，相對(duì)誤差的方差σ〔δ〕和絕對(duì)誤差方差σ〔Δ〕就難以區(qū)分，因此概化系數(shù)和依存性系數(shù)就用同一個(gè)公式計(jì)算。2．僅有D研究是嵌套設(shè)計(jì)的情況如果只有D研究是嵌套設(shè)計(jì)，那么可以獨(dú)立地估計(jì)出方差成分工程效應(yīng)〔i〕和交互作用效應(yīng)〔pi〕。這兩個(gè)方差成分合并后，即得到嵌套效應(yīng)的方差成分〔i：p〕.即〔i：p〕=〔i〕+〔pi〕〔3-42〕于是絕對(duì)誤差和相對(duì)誤差的方差σ2〔δpI〕=σ2〔ΔpI〕=[〔i〕+〔pi〕]/n＇i〔3-43〕第五節(jié)標(biāo)準(zhǔn)參照性測(cè)驗(yàn)的信度標(biāo)準(zhǔn)參照性測(cè)驗(yàn)的目的不是鑒別出被試的能力差異，因此在標(biāo)準(zhǔn)參照性測(cè)驗(yàn)中分?jǐn)?shù)的變異一般較小。這是與常模參照性測(cè)驗(yàn)根本不同的。因此標(biāo)準(zhǔn)參照性測(cè)驗(yàn)的信度估計(jì)方法也就完全不同，標(biāo)準(zhǔn)參照測(cè)驗(yàn)的作用是估計(jì)被試的領(lǐng)域分?jǐn)?shù)，并對(duì)被試的掌握狀態(tài)作出區(qū)分。因此標(biāo)準(zhǔn)參照的信度估計(jì)主要關(guān)心兩種類型的測(cè)量誤差：隨機(jī)誤差和區(qū)分誤差。前者涉及領(lǐng)域分?jǐn)?shù)的穩(wěn)定性，類似于常模參照性測(cè)驗(yàn)的信度估計(jì)，但是領(lǐng)域分?jǐn)?shù)的性質(zhì)和應(yīng)用不同于常模參照的相對(duì)分?jǐn)?shù)，因此還不能完全照搬傳統(tǒng)的信度估計(jì)方法；后者影響區(qū)分決策的一致性，即用分界標(biāo)準(zhǔn)對(duì)被試進(jìn)行分類的穩(wěn)定性問(wèn)題。由于標(biāo)準(zhǔn)參照性測(cè)驗(yàn)的特殊性，目前文獻(xiàn)中雖有很多信度估計(jì)方法，但至今尚沒(méi)有受到公認(rèn)的指標(biāo)。一、決策一致性信度〔classificationconsisitencyreliability〕標(biāo)準(zhǔn)參照性測(cè)驗(yàn)在解釋時(shí)要將被試分為達(dá)標(biāo)未達(dá)標(biāo)等類別，這其實(shí)是根據(jù)測(cè)驗(yàn)分?jǐn)?shù)對(duì)被試進(jìn)行的分類決策。那么分類決策是否有跨時(shí)間穩(wěn)定性和情境的一致性?如果依測(cè)驗(yàn)結(jié)果作出的分類在不同情境下是一致的，那么說(shuō)明測(cè)驗(yàn)結(jié)果受誤差的影響較小，測(cè)驗(yàn)結(jié)果就是可靠的，即測(cè)驗(yàn)有高信度。因此決策一致性信度也可稱作區(qū)分信度〔decisionreliability〕。其假設(shè)是，錯(cuò)誤區(qū)分的正誤差〔未掌握者區(qū)分為掌握者〕和負(fù)誤差〔掌握者區(qū)分為未掌握者〕所帶來(lái)的損失是同樣嚴(yán)重的，所有的錯(cuò)誤分類，不管錯(cuò)誤的類型與程度如何，都帶來(lái)同等嚴(yán)重的損失。決策一致性信度可使用復(fù)本法和重測(cè)法，計(jì)算出兩次測(cè)驗(yàn)分類決策的一致性，這與傳統(tǒng)的信度計(jì)算方法很相似。決策一致性信度也可以通過(guò)同一次測(cè)驗(yàn)的結(jié)果來(lái)估計(jì)。決策一致性信度有兩種統(tǒng)計(jì)指標(biāo)，即p0指數(shù)和K指數(shù)。p0是漢布萊頓和諾維克〔Hambleton和Novick〕提出的分類一致性指標(biāo)，計(jì)算公式為：〔3-44〕式中pkk為兩次測(cè)驗(yàn)中被一致地劃分到第k〔k=1，2，3，…，m〕個(gè)類別的人數(shù)占總?cè)藬?shù)的比例，一般情況下m=2，即只有掌握與未掌握兩種狀態(tài)。如表3.4所示。表3.4兩個(gè)復(fù)本測(cè)驗(yàn)對(duì)被試的區(qū)分結(jié)果復(fù)本A掌握未掌握總計(jì)復(fù)本B掌握P11P12P1.

人人文庫(kù)> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

心理測(cè)量學(xué)-第三章-信度

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

心理測(cè)量學(xué)-第三章-信度

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔