經(jīng)典測(cè)量理論

上傳人：4*** IP屬地：湖北上傳時(shí)間：2023-01-04 格式：DOC 頁數(shù)：12 大小：86.50KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩7頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

PAGEPAGE12第四節(jié)經(jīng)典測(cè)量理論本節(jié)首先簡(jiǎn)要論述了題庫同教育測(cè)量理論的關(guān)系以及兩種基本的教育測(cè)量理論，并且對(duì)教育測(cè)量理論和教育測(cè)量理論中的經(jīng)典測(cè)量理論作了詳盡的論述。一、題庫同教育測(cè)量理論的關(guān)系

如果我們想對(duì)題庫有一個(gè)透徹的理解，就很有必要了解題庫建設(shè)所依據(jù)的教育測(cè)量理論，他們是使題庫變得可以使用的科學(xué)的依據(jù)。題庫是按照一定的教育測(cè)量理論利用計(jì)算機(jī)技術(shù)構(gòu)成的某種學(xué)科題目的集合。題庫中的題目屬性有一些其量化指標(biāo)是一個(gè)統(tǒng)計(jì)量，如題目的難度、區(qū)分度，這是題庫的重要指標(biāo)項(xiàng)，被稱為項(xiàng)目統(tǒng)計(jì)量（或項(xiàng)目參數(shù)）。項(xiàng)目統(tǒng)計(jì)量要根據(jù)教育測(cè)量理論的方法計(jì)算出。教育測(cè)量理論不僅為題庫的項(xiàng)目統(tǒng)計(jì)量提供計(jì)算方法，也為題庫中題目屬性項(xiàng)目的建設(shè)提供依據(jù)，同時(shí)為測(cè)驗(yàn)的有效性、可靠性分析與評(píng)價(jià)提供方法和標(biāo)準(zhǔn)。二、兩種不同的教育測(cè)量理論

在題庫建設(shè)中使用的測(cè)量理論有兩種，即：經(jīng)典測(cè)量理論(CTT:ClassicalTestTheory)

項(xiàng)目反應(yīng)理論(IRT:ItemResponseTheory)

兩種理論的核心部分是數(shù)學(xué)模型，它們是基于不同的假設(shè)提出的。經(jīng)典測(cè)量理論采用的是線性的定性模型；項(xiàng)目反應(yīng)理論采用的是非線性的概率模型。盡管如此，兩種理論仍有許多相同及相互聯(lián)系的地方，經(jīng)典理論中的項(xiàng)目統(tǒng)計(jì)量與項(xiàng)目反應(yīng)理論中的項(xiàng)目參數(shù)有著很高的相關(guān)性，只是項(xiàng)目統(tǒng)計(jì)量依賴于被試團(tuán)體，不具普遍性；而項(xiàng)目參數(shù)與被試原體無關(guān)，項(xiàng)目參數(shù)具有不變性，這可使各個(gè)被試團(tuán)體所得到的項(xiàng)目參數(shù)具有可比性。參數(shù)不變對(duì)提高題庫的質(zhì)量、對(duì)于測(cè)驗(yàn)的編制和實(shí)施適應(yīng)性測(cè)驗(yàn)都是非常重要的。

三、測(cè)量理論

(一)教育測(cè)量的應(yīng)用

教育測(cè)量是對(duì)教育領(lǐng)域內(nèi)的事物或現(xiàn)象，根據(jù)一定的客觀標(biāo)準(zhǔn)，作慎密的考核，并依據(jù)一定的規(guī)則將考核的結(jié)果予以數(shù)量的描述。

教育測(cè)量是學(xué)校教育常用的基本手段之一。平時(shí)的單元測(cè)驗(yàn)和期中、期末考試，都是屬于教育測(cè)量。

在教育科學(xué)研究中，特別是實(shí)驗(yàn)研究，為了給選擇和組合基礎(chǔ)條件基本相仿的實(shí)驗(yàn)組和對(duì)照組提供客觀依據(jù)，或要掌握單組實(shí)驗(yàn)的實(shí)驗(yàn)對(duì)象的初始水平，一般都要進(jìn)行事前測(cè)量；在實(shí)驗(yàn)結(jié)束之后，為了要顯示因變量的變化情況，又要進(jìn)行測(cè)量。因此，教育測(cè)量也是教育科學(xué)研究，特別是實(shí)驗(yàn)研究的必不可少的工具。

(二)教育測(cè)量的要素

任何一種測(cè)量都要定義單位、確定參照點(diǎn)和使用體現(xiàn)單位、參照點(diǎn)的測(cè)量工具。例如，攝氏溫度的測(cè)量，人們規(guī)定了在標(biāo)準(zhǔn)大氣壓下，水的沸點(diǎn)和凝固點(diǎn)之差的1/100作為一個(gè)攝氏溫度單位，確定水的凝固點(diǎn)為攝氏溫度零度，并以此為參照點(diǎn)；在此基礎(chǔ)上，把體現(xiàn)單位、參照點(diǎn)的攝氏溫度計(jì)作為測(cè)量溫度的一種工具。由此可見，測(cè)量的三要素是單位、參照點(diǎn)和體現(xiàn)單位和參照點(diǎn)的測(cè)量工具。教育測(cè)量作為一種特殊的測(cè)量，毫不例外地要有單位、參照點(diǎn)和體現(xiàn)單位、參照點(diǎn)的測(cè)量工具。

1、單位單位是計(jì)算數(shù)量的名稱。在物理特征的測(cè)量時(shí)，千克是測(cè)量重量的單位，米是測(cè)量長(zhǎng)度的單位，分貝是測(cè)量聲音的單位。任何測(cè)量都離不開計(jì)量單位。教育測(cè)量也是如此。目前，在中小學(xué)教育中，教育測(cè)量最常用的單位是百分單位和等級(jí)單位。百分單位就是規(guī)定一項(xiàng)測(cè)驗(yàn)的滿分為100分，把滿分的1/100作為一個(gè)計(jì)量單位。等級(jí)單位是根據(jù)一項(xiàng)測(cè)驗(yàn)結(jié)果的上限和下限，把結(jié)果分成若干個(gè)等級(jí)，每一個(gè)等級(jí)作為一個(gè)計(jì)量單位。

2、參照點(diǎn)所謂參照點(diǎn)是指計(jì)量的起點(diǎn)。有了參照點(diǎn)，就可以比較兩個(gè)測(cè)量結(jié)果的異同。否則，測(cè)量的結(jié)果就無法進(jìn)行比較。根據(jù)測(cè)量理論，參照點(diǎn)可分成兩類：一類是絕對(duì)參照點(diǎn)；另一類是人為參照點(diǎn)。

教育測(cè)量中的參照點(diǎn)，除了某些體育測(cè)量之外，其余測(cè)量的參照點(diǎn)，全部是人為參照點(diǎn)。例如，在百分單位的測(cè)量中，習(xí)慣上將60分作為及格的參照點(diǎn)。

(三)教育測(cè)量的特點(diǎn)

1、測(cè)量的間接性一個(gè)物體的物理特征，諸如重量、長(zhǎng)度和溫度等，可以用秤、尺和溫度計(jì)等予以直接測(cè)量。但是，由于學(xué)生的知識(shí)和技能的掌握、能力的發(fā)展、思想品德等情況，都是人的大腦活動(dòng)情況。今天的科學(xué)發(fā)展水平，人們還沒有辦法直接測(cè)量人類的心理活動(dòng)情況。目前，我們只能通過學(xué)生的外顯行為，間接地測(cè)量學(xué)生與教育有關(guān)的精神特征。具體地說，我們主要是通過學(xué)生對(duì)文字測(cè)驗(yàn)題的反應(yīng)和其它的一些行為表現(xiàn)，根據(jù)教育學(xué)和心理學(xué)的理論，用邏輯推理的方法來間接地測(cè)量他們的知識(shí)和技能水平、能力發(fā)展情況和思想品德情況的。

2、測(cè)量的不穩(wěn)定性物理特征的測(cè)量結(jié)果基本上是穩(wěn)定不變的。但教育測(cè)量則不然。例如，在百分單位中，A、B兩個(gè)不同年級(jí)的學(xué)生，在期中語文考試中的成績(jī)都是88分。完全有可能A學(xué)生是班上的高分獲得者，而B學(xué)生在班上是低分獲得者。這是由于A、B兩學(xué)生各自所在年級(jí)的語文考試試題的難易程度不一致，評(píng)分標(biāo)準(zhǔn)不一樣，所在班級(jí)的學(xué)生考試成績(jī)的分布情況有差異等，造成了分?jǐn)?shù)的價(jià)值不相等。

3、計(jì)量單位的不等距性重量、長(zhǎng)度、體積和溫度等物理特征的計(jì)量單位，大部分是等距的。例如，100米與95米的差是5米，41米與36米的差也是5米，這兩個(gè)差是相等的。但是，教育測(cè)量中的計(jì)量單位就未必是等距的。如，在百分單位的測(cè)驗(yàn)中，A、B兩個(gè)學(xué)生的數(shù)學(xué)測(cè)驗(yàn)成績(jī)是60分和59分，C、D兩個(gè)學(xué)生的數(shù)學(xué)測(cè)驗(yàn)成績(jī)是90分和89分。雖然A、B兩個(gè)學(xué)生的分?jǐn)?shù)之差與C、D兩個(gè)學(xué)生的分?jǐn)?shù)之差都是1分，但前者1分的價(jià)值和后者1分的價(jià)值是完全不同的。

(四)測(cè)驗(yàn)的基本指標(biāo)

測(cè)驗(yàn)的信度、效度、難度和區(qū)分度是衡量測(cè)驗(yàn)質(zhì)量的基本指標(biāo)。

1、信度所謂測(cè)驗(yàn)的信度是指測(cè)驗(yàn)的可靠性或者可靠程度。具體地說，測(cè)驗(yàn)的信度是指同一組學(xué)生用同一測(cè)驗(yàn)實(shí)施兩次后所得分?jǐn)?shù)的一致性，或者同一組學(xué)生經(jīng)過一次測(cè)驗(yàn)后，用另一個(gè)同質(zhì)的測(cè)驗(yàn)再測(cè)一次，這兩次測(cè)驗(yàn)所得分?jǐn)?shù)的一致性。

2、難度難度是指測(cè)驗(yàn)的難易程度。在教育測(cè)量中，某測(cè)驗(yàn)的難度一般是用正確解答該測(cè)驗(yàn)題的人數(shù)與參與測(cè)驗(yàn)的學(xué)生數(shù)的比值來刻劃的。

3、區(qū)分度區(qū)分度又叫鑒別力，它是測(cè)驗(yàn)對(duì)學(xué)生實(shí)際水平的區(qū)分程度的指標(biāo)。一個(gè)具有良好區(qū)分度的測(cè)驗(yàn)題，實(shí)際水平高的學(xué)生應(yīng)該得高分，實(shí)際水平低的學(xué)生應(yīng)該得低分。測(cè)驗(yàn)的區(qū)分度有積極區(qū)分度和消極區(qū)分度兩種。積極區(qū)分是指區(qū)分的方向與測(cè)驗(yàn)總分的方向一致的區(qū)分，區(qū)分的方向與測(cè)驗(yàn)部分的方向不一致的區(qū)分是消極區(qū)分。測(cè)驗(yàn)題的區(qū)分度的取值范圍在-100至100之間。如果區(qū)分度是負(fù)值，則表示該區(qū)分是消極區(qū)分；如果區(qū)分度為0，則表示該測(cè)驗(yàn)題沒有區(qū)分；如果區(qū)分度是正值，則表示該區(qū)分是積極區(qū)分。

四、經(jīng)典測(cè)量理論的內(nèi)容

(一)成績(jī)分析

對(duì)于被試群體的成績(jī)分析，經(jīng)常使用的測(cè)量指標(biāo)有平均分和標(biāo)準(zhǔn)差。

1.平均分?jǐn)?shù)

平均分?jǐn)?shù)是用得最多的一種集中量數(shù)。所謂集中量數(shù)是指反映分?jǐn)?shù)集中位置這個(gè)特征的數(shù)值，它代表一批分?jǐn)?shù)，反映一批分?jǐn)?shù)的典型情況，因此常用它進(jìn)行不同分?jǐn)?shù)組之間的比較。集中量數(shù)的形式有多種，如算術(shù)平均數(shù)、中位數(shù)、眾數(shù)等。算術(shù)平均數(shù)則是最常用的一種。

設(shè)一組分?jǐn)?shù)分別用X1，X2，…，Xn表示，則這組有n個(gè)分?jǐn)?shù)的分?jǐn)?shù)組的平均分為：

簡(jiǎn)記為:

2.標(biāo)準(zhǔn)差

對(duì)于一批分?jǐn)?shù)，除了要了解它的集中量數(shù)外，還應(yīng)了解它的差異量數(shù)，即分?jǐn)?shù)的分散程度或離散程度。差異量數(shù)的形式也有多種，標(biāo)準(zhǔn)差是最重要的差異量數(shù)。

若有n個(gè)分?jǐn)?shù)X1，X2，…，Xn,這組分?jǐn)?shù)的標(biāo)準(zhǔn)差定義為:

而稱為該組分?jǐn)?shù)的方差。(二)項(xiàng)目分析

通常，對(duì)考試的分析與評(píng)價(jià)分兩方面進(jìn)行。一是對(duì)各個(gè)試題進(jìn)行的分析，稱為"項(xiàng)目分析"，二是對(duì)整個(gè)試卷或考試進(jìn)行的分析和評(píng)價(jià)，稱為"整體分析"。

學(xué)業(yè)成績(jī)測(cè)驗(yàn)可以用來衡量學(xué)生的相對(duì)水平，也可用于衡量學(xué)生的實(shí)際水平。在教育測(cè)量中，把用于衡量學(xué)生相對(duì)水平的測(cè)驗(yàn)叫做常模參照測(cè)驗(yàn)；把用于衡量學(xué)生實(shí)際水平的測(cè)驗(yàn)叫做目標(biāo)參照測(cè)驗(yàn)。常模參照測(cè)驗(yàn)中的"常模"是指某一規(guī)定的學(xué)生群體在該測(cè)驗(yàn)中的成績(jī)，在標(biāo)準(zhǔn)化測(cè)驗(yàn)中，"常摸"實(shí)際上就是標(biāo)準(zhǔn)化樣本在測(cè)驗(yàn)中的平均成績(jī)。某-指定學(xué)生的學(xué)習(xí)成績(jī)的好壞，是根據(jù)該生的成績(jī)?cè)谝?guī)定群體中所處的地位來判斷的，例如與群體的平均分進(jìn)行比較。目標(biāo)參照測(cè)驗(yàn)的"目標(biāo)"是指某門課程既定的標(biāo)準(zhǔn)，即教學(xué)目標(biāo)。目標(biāo)參照測(cè)驗(yàn)是以學(xué)生必須達(dá)到的標(biāo)準(zhǔn)來決定他是否具備某種能力的測(cè)驗(yàn)。它所關(guān)心的是測(cè)知一個(gè)人所能做的是什么，而不是要參照別人的學(xué)習(xí)能力水平來決定名次。當(dāng)然，對(duì)一次測(cè)驗(yàn)也可以同時(shí)提出這兩方面的要求。

由于存在著常模參照測(cè)驗(yàn)和目標(biāo)參照測(cè)驗(yàn)，因此，對(duì)項(xiàng)目分析和整體分析也有不同的要求。常模參照測(cè)驗(yàn)的項(xiàng)目分析包括難度分析、區(qū)分度分析和迷惑答案的有效性分析。

1.難度分析

難度是指試題的難易程度，確定試題難度的方法有多種，其中一種常用的方法是利用下式計(jì)算：其中:分別表示第j題的難度，考生的第j題的平均分和第j題的滿分分?jǐn)?shù)。如果有n個(gè)考生，則可利用下式，由考生在第j題上的得分直接求得第j題的難度。

其中:Xji

表示第i個(gè)學(xué)生在第j題上的得分。

如果采用0、l記分法，即答對(duì)時(shí)記1分，答錯(cuò)時(shí)記0分，也可用下式求得Pj的值。

由上面的式子可知：Pj的最大值是l，表示無一人答對(duì)該題，該題的難度高。最小值是0，表示每個(gè)學(xué)生都答對(duì)了該題，該題的難度低。

在編制試題時(shí)，一般取難度適中的題目。一個(gè)試題，如果受試者全部答對(duì)或全部答錯(cuò)，即難度為0或l，這樣就無法區(qū)分受試者之間的能力差異。難度越接近0.5時(shí)，其區(qū)別力越高，所以應(yīng)選擇難度為0.5的試題來組成試卷，但這也不是絕對(duì)的，如果一份試卷的各個(gè)題目的難度都是0.5，由于題目太同質(zhì)，又會(huì)降低總分?jǐn)?shù)的區(qū)別力。因此，在選擇試題時(shí)，除盡量使試卷的平均難度接近0.5外，還要使試題的難度適當(dāng)分散為宜。

事實(shí)上，試題難度的選取還應(yīng)考慮考試的目的。例如，某次考試要錄取15％的人進(jìn)行重點(diǎn)培養(yǎng)，試題的難度應(yīng)選在o．85左右；如果要選15％的困難同學(xué)參加輔導(dǎo)，測(cè)試題的難度應(yīng)在0.15左右。如果要測(cè)驗(yàn)學(xué)生對(duì)學(xué)習(xí)內(nèi)容的掌握情況，學(xué)習(xí)的內(nèi)容簡(jiǎn)單；試題也應(yīng)該簡(jiǎn)單；學(xué)習(xí)的內(nèi)容難，試題也應(yīng)該難。在這種情況下，我們的目的是要了解學(xué)生能否完成學(xué)業(yè)，而不是區(qū)分學(xué)生的等級(jí)，則可不去追求試題的難度。

2.區(qū)分度分析

區(qū)分度即鑒別度，是指測(cè)驗(yàn)項(xiàng)目對(duì)被試者的區(qū)分程度或鑒別能力。計(jì)算區(qū)分度的方法有多種，用得比較普遍的一種方法是兩端分組法。它是比較得分在高、低兩端的受試者通過該題目的比率。

假設(shè)PH和PL分別為高分組和低分組通過某個(gè)題目的百分比，則下式提供了該題目的區(qū)分度的指標(biāo)：

D＝PH-PL

D是區(qū)分度指數(shù)。D的值在-l和+1之間。D＝+l，表示高分組全部答對(duì)，而低分組全都答錯(cuò)；D=-1則與上面的情形相反，低分組的全部答對(duì)，高分組的卻全都答錯(cuò)；D=0，則表示兩個(gè)分?jǐn)?shù)組的通過率相等。一般認(rèn)為，D在0.4以上就非常好了。

上式也可表示為：

其中PH及PL分別表示高分組和低分組通過該題的人數(shù)，n為每組的人數(shù)。

顯然，兩個(gè)組越是處于極端，二者之間的差異越是明顯。但很極端的分組(例如最高10％和最低10％)，由于每組的人數(shù)太少，會(huì)降低結(jié)果的可靠性。有人證明，在常態(tài)分布中，高低分的分組最佳點(diǎn)是上下27％，以此為分界點(diǎn)，既可以使兩個(gè)對(duì)比組間的差異盡可能大，又可使兩組人數(shù)盡可能多。當(dāng)分布比常態(tài)曲線更平緩或更陡時(shí)，最佳分界點(diǎn)可比27％稍大或稍小些。當(dāng)被試的人數(shù)不太多時(shí)，分界點(diǎn)可取25％一33％之間的任何數(shù)字，若被試少于1O0人，甚至可用50％作分界點(diǎn)，把上下各半作為高分組和低分組。

3.迷惑答案的有效性

迷惑答案的有效性分析是對(duì)選擇題而言的，它是在難度分析和區(qū)分度分析的基礎(chǔ)上進(jìn)行的?？梢愿鶕?jù)迷惑答案的有效性分析，為教師提供修改試題的參考信息。

例如，一次測(cè)驗(yàn)的考生人數(shù)為100人，按考試成績(jī)?nèi)∏懊?7人和后面27人構(gòu)成高分組和低分組。表3.41表示該測(cè)驗(yàn)的部分試題的項(xiàng)目分析。"()"表示正確的選項(xiàng)

根據(jù)表中列出的各題的回答情況，可對(duì)每題的設(shè)計(jì)質(zhì)量進(jìn)行分析。

第一題，選項(xiàng)C無論是高分組或是低分組無一人選擇，說明C對(duì)該試題沒有貢獻(xiàn)，應(yīng)予修改或刪除。對(duì)選項(xiàng)A，高分組和低分組幾乎有相同的選擇，說明該選項(xiàng)有意義含糊之處，也需要修改。本題的難度和區(qū)分度比較合適。

第二題，高分組和低分組對(duì)正確選項(xiàng)選擇的人數(shù)一樣多，區(qū)分度為0，四個(gè)錯(cuò)誤選項(xiàng)也具有同等的迷惑力。這很可能是因?yàn)轭}目的編制不當(dāng)，因此需要進(jìn)一步修改。

第三題，低分組的答對(duì)人數(shù)反比高分組的答對(duì)人數(shù)多，區(qū)分度出現(xiàn)負(fù)值，這樣的題要么刪掉，要么重新編制。

第四題，高分組的學(xué)生有80％以上的學(xué)生答錯(cuò)，低分組的無一人答對(duì)，可見題太難。而且答錯(cuò)者較多地集中在選項(xiàng)C上，說明選項(xiàng)的迷惑力太強(qiáng)了。(三)整體分析

整體分析是利用測(cè)驗(yàn)的結(jié)果對(duì)試卷進(jìn)行全面的分析和評(píng)價(jià)。它是通過兩個(gè)數(shù)量指標(biāo)來描述的。這兩個(gè)指標(biāo)稱為效度和信度，它們是表明測(cè)驗(yàn)的有效性和可靠性的數(shù)量指標(biāo)。

1.信度

信度又稱可靠性，它是指測(cè)驗(yàn)的一致性程度。表現(xiàn)在同一個(gè)測(cè)驗(yàn)在不同時(shí)間上所得結(jié)果的一致性。通常以相關(guān)系數(shù)為數(shù)據(jù)指標(biāo)，稱為信度系數(shù)。如果信度系數(shù)大，則測(cè)驗(yàn)信度高；如果信度系數(shù)小，則測(cè)驗(yàn)信度低。

信度的概念是個(gè)理論上的構(gòu)想概念，在實(shí)際測(cè)量中是無法得到的，通常是以估計(jì)的方法求得信度系數(shù)，以它的大小來表示測(cè)驗(yàn)信度的高低。常用的估計(jì)方法有：

第一，再測(cè)法。以同一份試卷，在不同的時(shí)間內(nèi)對(duì)同一組受測(cè)者施測(cè)兩次，根據(jù)兩次測(cè)驗(yàn)分?jǐn)?shù)計(jì)算得到的相關(guān)系數(shù)稱為再測(cè)信度。如果兩次測(cè)驗(yàn)分?jǐn)?shù)相關(guān)程度高，表明測(cè)驗(yàn)結(jié)果穩(wěn)定，可靠。但是，兩次測(cè)驗(yàn)結(jié)果的穩(wěn)定性受它們之間的時(shí)間間隔長(zhǎng)短的影響，因此，一般標(biāo)準(zhǔn)化測(cè)驗(yàn)很少用再測(cè)信度來估計(jì)測(cè)驗(yàn)結(jié)果的可靠性。

第二，復(fù)本法。編制兩套題目不同、形式相同的試卷，題目的難度和區(qū)分度類同，在最短的時(shí)間內(nèi)用兩卷考試同一個(gè)群體，所得結(jié)果的相關(guān)系數(shù)稱為復(fù)本信度。

第三，分半法。一測(cè)驗(yàn)施予受測(cè)者后，將全部試題分為相等的兩部分(一般采用奇、偶題分半)，并分別計(jì)算每個(gè)學(xué)生在兩半試題的得分，再求得兩半試題得分的相關(guān)系數(shù)，這是半個(gè)考試的信度系數(shù)。為了估計(jì)整個(gè)測(cè)驗(yàn)的信度，可采用斯布公式計(jì)算：其中rtt為整個(gè)測(cè)驗(yàn)的信度;rhh為兩半試題得分的相關(guān)系數(shù)。

第四，庫理法。這是一種常用的方法，使用K-R20公式與K-R21公式估計(jì)測(cè)驗(yàn)的信度。

K-R20公式：

式中，K表示測(cè)驗(yàn)所有的題目數(shù)；Pi為題目i通過率；是測(cè)驗(yàn)總分的變異數(shù)；r為測(cè)驗(yàn)的信度系數(shù)。

如果每個(gè)題目的難度相近，可利用K-R21公式：

式是測(cè)驗(yàn)總分的平均數(shù)，其它符號(hào)的含義與K-R20公式中的相同。

用庫理法估計(jì)測(cè)驗(yàn)的信度只適于客觀性測(cè)驗(yàn)，對(duì)于主觀性測(cè)驗(yàn)可用克倫巴赫α系數(shù)公式估計(jì)其信度：

式中α為克倫巴赫系數(shù)值，即信度系數(shù)；K為題目數(shù)；為題目j的分?jǐn)?shù)變異數(shù)；S為測(cè)驗(yàn)總分?jǐn)?shù)的變異數(shù)。

2.效度

效度即測(cè)驗(yàn)的有效性，指測(cè)驗(yàn)結(jié)果的正確性程度，即是說測(cè)驗(yàn)在多大程度上測(cè)量到了所要測(cè)的東西，由于測(cè)驗(yàn)的目標(biāo)不一樣，因而便產(chǎn)生了幾種效度形式：內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度和結(jié)構(gòu)效度。

第一種形式是內(nèi)容效度，指測(cè)驗(yàn)內(nèi)容與預(yù)定要測(cè)量的內(nèi)容間的一致性程度。測(cè)驗(yàn)內(nèi)容是對(duì)測(cè)驗(yàn)題目而言，預(yù)定要測(cè)量的內(nèi)容不但指教學(xué)內(nèi)容，而且還包括教學(xué)目標(biāo)。因此，教學(xué)內(nèi)容和教學(xué)目標(biāo)是內(nèi)容效度的兩大要素。如果測(cè)驗(yàn)題目與所要測(cè)量的教學(xué)內(nèi)容及教學(xué)目標(biāo)的一致性程度比較高，則測(cè)驗(yàn)的內(nèi)容效度比較高，否則，測(cè)驗(yàn)的內(nèi)容效度比較低。內(nèi)容效度的值常由該領(lǐng)域的專家判定。為了保證測(cè)驗(yàn)有較高的內(nèi)容效度，在編制試題之前，認(rèn)真地建立一個(gè)雙向綱目表，然后再依據(jù)雙向綱目表編制試題。

第二種形式為效標(biāo)關(guān)聯(lián)效度，在特定條件下測(cè)驗(yàn)對(duì)被測(cè)驗(yàn)的操作行為所作預(yù)測(cè)的有效性，一般以測(cè)驗(yàn)分?jǐn)?shù)與效標(biāo)分?jǐn)?shù)之間的相關(guān)系數(shù)來度量。所謂效標(biāo)是衡量測(cè)驗(yàn)有效性的參照標(biāo)準(zhǔn)，它是指測(cè)驗(yàn)所要測(cè)量或所要預(yù)知的行為特征，這種特征又常用另一種測(cè)驗(yàn)的結(jié)果來表示，例如，對(duì)大學(xué)生來說，可用他們的"大學(xué)的成功"作為大學(xué)入學(xué)考試的效標(biāo)。"大學(xué)的成功"的標(biāo)準(zhǔn)通常用效標(biāo)分?jǐn)?shù)來表示，即用大學(xué)期間的學(xué)習(xí)成績(jī)或一年級(jí)的學(xué)年平均成績(jī)作為效標(biāo)分?jǐn)?shù)。

根據(jù)測(cè)驗(yàn)分?jǐn)?shù)與效標(biāo)分?jǐn)?shù)之間的時(shí)間關(guān)系，效標(biāo)關(guān)聯(lián)效度分為同時(shí)效度和預(yù)測(cè)效度。如果測(cè)驗(yàn)分?jǐn)?shù)和作為效標(biāo)的分?jǐn)?shù)兩者獲得的時(shí)間間隔很短，稱為同時(shí)效度；若獲得這兩種分?jǐn)?shù)的時(shí)間間隔較長(zhǎng)(通常是測(cè)驗(yàn)分?jǐn)?shù)在前，效標(biāo)分?jǐn)?shù)在后)，則稱為預(yù)測(cè)效度。

第三種形式為結(jié)構(gòu)效度結(jié)構(gòu)效度是指測(cè)驗(yàn)?zāi)軠y(cè)量理論上的結(jié)構(gòu)或心理特性的程度。所謂結(jié)構(gòu)是指用來解釋人類行為的理論體系或心理特質(zhì)。如"理解能力"、"研究能力"、"智力"、"動(dòng)機(jī)"、"自尊心"等等。當(dāng)把考分用作測(cè)量某種心理特質(zhì)時(shí)，亦即根據(jù)考分的高低來推論具有這種心理特質(zhì)的程度時(shí)，就需要結(jié)構(gòu)效度來作為衡量的指標(biāo)。

按照經(jīng)典理論計(jì)算難度、區(qū)分度、信度等質(zhì)量指標(biāo)的方法，存在著嚴(yán)重依賴于樣本的問題。那怕從同一總體抽樣，就同一試題而言，被試樣本組的水平如果較低，求出的難度值就會(huì)偏高；如果水平高，求出的難度值就會(huì)顯得低。對(duì)區(qū)分度來說，如果被試樣本組的程度參差不齊，較為異質(zhì)，求出的區(qū)分度值就會(huì)高；若較為同質(zhì)，程度相當(dāng)整齊，求出的區(qū)分度值就會(huì)顯得低。信度也有與區(qū)分度類似的情況。這樣，質(zhì)量指標(biāo)隨測(cè)試樣本而變化，得不到普遍適用于整個(gè)被試總體的值。

在應(yīng)用方面，經(jīng)典理論也表現(xiàn)許多不足。例如，它主要適合于常模參照測(cè)驗(yàn)，而難以較好地滿足目標(biāo)參照測(cè)驗(yàn)的要求；主要適合于進(jìn)行觀察分?jǐn)?shù)等值，難以較好地滿足題目參數(shù)等值的要求；特別是，它不能為自適應(yīng)測(cè)驗(yàn)(AdaptiveTesting)這類新型測(cè)驗(yàn)提供堅(jiān)實(shí)可靠的理論基礎(chǔ)。經(jīng)典測(cè)量理論的精華一般將測(cè)量理論分為經(jīng)典測(cè)量理論、概化理論和項(xiàng)目反應(yīng)理論三大類，或稱三種理論模型。人們將以真分?jǐn)?shù)理論(TrueScoreTheory)為核心理論假設(shè)的測(cè)量理論及其方法體系，統(tǒng)稱為經(jīng)典測(cè)驗(yàn)理論(ClassicalTestTheory，CTT)，也稱真分?jǐn)?shù)理論。

真分?jǐn)?shù)理論是最早實(shí)現(xiàn)數(shù)學(xué)形式化的測(cè)量理論。它從十九世紀(jì)末開始興起，二十世紀(jì)30年代形成比較完整的體系而漸趨成熟。５０年代格里克森的著作使其具有完備的數(shù)學(xué)理論形式，而1968年洛德和諾維克的《心理測(cè)驗(yàn)分?jǐn)?shù)的統(tǒng)計(jì)理論》一書，將經(jīng)典真分?jǐn)?shù)理論發(fā)展至顛峰狀態(tài)，并實(shí)現(xiàn)了向現(xiàn)代測(cè)量理論的轉(zhuǎn)換。

所謂真分?jǐn)?shù)是指被測(cè)者在所測(cè)特質(zhì)（如能力、知識(shí)、個(gè)性等）上的真實(shí)值，即(TrueScore)真分?jǐn)?shù)。而我們通過一定測(cè)量工具（如測(cè)驗(yàn)量表和測(cè)量?jī)x器）進(jìn)行測(cè)量，在測(cè)量工具上直接獲得的值（讀數(shù)），叫觀測(cè)值或觀察分?jǐn)?shù)。由于有測(cè)量誤差存在，所以，觀察值并不等于所測(cè)特質(zhì)的真實(shí)質(zhì)，換句話說，觀察分?jǐn)?shù)中包含有真分?jǐn)?shù)和誤差分?jǐn)?shù)。而要獲得對(duì)真實(shí)分?jǐn)?shù)的值，就必須將測(cè)量的誤差從觀察分?jǐn)?shù)中分離出來。為了解決這一問題，真分?jǐn)?shù)理論提出了三個(gè)假設(shè)：其一，真分?jǐn)?shù)具有不變性。這一假設(shè)其實(shí)質(zhì)是指真分?jǐn)?shù)所指代的被測(cè)者的某種特質(zhì)，必須具有某種程度的穩(wěn)定性，至少在所討論的問題范圍內(nèi)，或者說在一個(gè)特定的時(shí)間內(nèi)，個(gè)體具有的特質(zhì)為一個(gè)常數(shù)，保持恒定。其二，誤差是完全隨機(jī)的。這一假設(shè)有兩個(gè)方面的含義。一是測(cè)量誤差的平均數(shù)為零的正態(tài)隨機(jī)變量。在多次測(cè)量中，誤差有正有負(fù)。如果測(cè)量誤差為正值，觀測(cè)分?jǐn)?shù)就會(huì)高于其實(shí)際的分?jǐn)?shù)（真分?jǐn)?shù)）；如果測(cè)量誤差為負(fù)值，則觀測(cè)分?jǐn)?shù)就會(huì)低于其實(shí)際的分?jǐn)?shù)，即觀察分?jǐn)?shù)會(huì)出現(xiàn)上下波動(dòng)的現(xiàn)象。但是，只要重復(fù)測(cè)量次數(shù)足夠多，這種正負(fù)偏差會(huì)兩相抵消，測(cè)量誤差的平均數(shù)恰好為零。用數(shù)學(xué)式表達(dá)為：E(E)=0。二是測(cè)量誤差分?jǐn)?shù)與所測(cè)的特質(zhì)即真分?jǐn)?shù)之間相互獨(dú)立。不僅如此，測(cè)量誤差之間，測(cè)量誤差與所測(cè)特質(zhì)外其它變量間，也相互獨(dú)立的。其三，觀測(cè)分?jǐn)?shù)是真分?jǐn)?shù)與誤差分?jǐn)?shù)的和。即Ｘ＝Ｔ＋Ｅ。

在上述三個(gè)基本假設(shè)的基礎(chǔ)上，真分?jǐn)?shù)理論作出了如下兩個(gè)重要推論：第一，真分?jǐn)?shù)等于實(shí)得分?jǐn)?shù)的平均數(shù)（T=E(X)）；第二，在一組測(cè)量分?jǐn)?shù)中，實(shí)得分?jǐn)?shù)的變異數(shù)（方差）等于真分?jǐn)?shù)的變異數(shù)（方差）與誤差分?jǐn)?shù)的變異數(shù)（方差）之和。即（S2X=S2T+S2E）。經(jīng)典測(cè)量理論在真分?jǐn)?shù)理論假設(shè)的基石上構(gòu)建起了它的理論大廈，主要包括信度、效度、項(xiàng)目分析、常模、標(biāo)準(zhǔn)化等基本概念。

（1）信度(Reliability)。信度是測(cè)量理論中最重要的核心概念，指測(cè)量果的一致性程度，亦稱可靠性程度。在經(jīng)典測(cè)量理論中信度被定義為：一組測(cè)量分?jǐn)?shù)的真分?jǐn)?shù)的方差（變異數(shù)）在總方差（總變異數(shù)）中所占的比率。

由于真分?jǐn)?shù)的方差和誤差分?jǐn)?shù)的方差是無法獲得的，因此這個(gè)信度概念還只是一個(gè)理想的構(gòu)想的概念，不能直接計(jì)算。為了解決這一問題，CTT提出了平行測(cè)驗(yàn)(ParallelTest)的概念。

所謂平行測(cè)驗(yàn)是指能夠?qū)ν槐辉嚨耐惶刭|(zhì)作相同準(zhǔn)確測(cè)量的不同測(cè)驗(yàn)形式(測(cè)驗(yàn)題目)。如果某一測(cè)驗(yàn)有許多平行式，則某被試可以在每一形式上獲一個(gè)觀測(cè)分?jǐn)?shù)，這樣就產(chǎn)生了一個(gè)觀測(cè)分?jǐn)?shù)的分布，這一分布的平均值就稱作該被試的真分?jǐn)?shù)。實(shí)際上，平行測(cè)驗(yàn)是一個(gè)構(gòu)想的概念，要在實(shí)際的測(cè)驗(yàn)的編制中實(shí)現(xiàn)是非常困難甚至是不可能的，最多也只能說是比較接近。

在平行測(cè)驗(yàn)假設(shè)的基礎(chǔ)上，CTT提出了估計(jì)測(cè)驗(yàn)信度的一系列方法，如采用相關(guān)法進(jìn)行重測(cè)信度(Test-retestReliability)、復(fù)本信度(Equivalent-formsReliability)、分半信度(Split-halfReliability)的估計(jì)，提出同質(zhì)性的概念以保證反應(yīng)的一致性，如克倫巴赫(Cronbachα)系數(shù)、庫德和理查遜(G.F.Kuder＆M.W.Richardson，1937)提出的估計(jì)一致性的兩個(gè)公式Ｋ－Ｒ20公式和Ｋ－Ｒ21公式、荷伊特信度(Hoyt，1941)等都是進(jìn)行同質(zhì)性估計(jì)的重要方法。(２)效度(Validity)

測(cè)量的效度是指測(cè)量結(jié)果的有效性程度，也就是已測(cè)到的質(zhì)和量與主試者欲測(cè)的質(zhì)和量相符合的程度，有的也稱效度為正確性。效度是任何一種測(cè)評(píng)必須解決的首要問題，因?yàn)橛行詻Q定了一種對(duì)測(cè)量效度的考查是一個(gè)很復(fù)雜的問題，特別是對(duì)人的潛在特質(zhì)的測(cè)量，因?yàn)闈撛谔刭|(zhì)并不是一個(gè)看得見摸得著的物質(zhì)實(shí)體，而是一種觀念構(gòu)想。對(duì)潛在特質(zhì)的測(cè)量只能采用間接的方法，其測(cè)量模型可表示用行為主義的公式Ｓ－Ｒ表示，在測(cè)量過程中我們所能控制的是呈現(xiàn)給被試的刺激Ｓ，所能觀測(cè)到的是被試在一定測(cè)量情景下對(duì)刺激Ｓ的反應(yīng)Ｒ。而潛在特質(zhì)是介于Ｓ和Ｒ之間的，在這一中間過程對(duì)Ｓ傳入大腦的信息作出了處理，處理后的信息以Ｒ方式輸出。簡(jiǎn)單地說，效度要弄清楚的是在Ｓ信號(hào)傳入大腦后，哪種（哪些或最主要是哪一種）特質(zhì)參與了對(duì)輸入信號(hào)的處理。

CTT對(duì)效度問題提出了諸多解決方案，因而有很多效度名稱。如，同時(shí)效度，預(yù)測(cè)效度，表面效度，相容效度，協(xié)同效度，假設(shè)效度，效標(biāo)關(guān)聯(lián)效度，實(shí)證效度，經(jīng)驗(yàn)效度等等。為了規(guī)范效度問題的研究與解釋，美國(guó)心理學(xué)會(huì)在1974年將測(cè)量的效度分為三大類，即，內(nèi)容效度(ContentValidity)，是指測(cè)驗(yàn)的內(nèi)容對(duì)欲測(cè)范圍內(nèi)內(nèi)容的代表性程度；結(jié)構(gòu)效度(ConstructValidity)，測(cè)量結(jié)果與測(cè)驗(yàn)的理論假設(shè)之間的一致性程度；效標(biāo)關(guān)聯(lián)效度(Criterion-relatedValidity)，又稱實(shí)證效度，指測(cè)量的結(jié)果與某種外在效標(biāo)之間的一致性程度，一般用測(cè)驗(yàn)分?jǐn)?shù)與效標(biāo)之間的相關(guān)系數(shù)表示。

成就測(cè)驗(yàn)或?qū)W科測(cè)驗(yàn)（以檢測(cè)知識(shí)為主的考試）較容易獲得較高的內(nèi)容效度，而對(duì)這類測(cè)驗(yàn)也往往注重考察它們的內(nèi)容效度。對(duì)于能力測(cè)驗(yàn)、個(gè)性測(cè)驗(yàn)、態(tài)度測(cè)驗(yàn)、品德測(cè)評(píng)等，其內(nèi)容效度的考察往往比較困難，而采用效標(biāo)關(guān)聯(lián)效度較多。效度的檢驗(yàn)不是一次就能完成的，往往要通過累積證據(jù)的方法不斷積累效度資料來證實(shí)它的有效性，結(jié)構(gòu)效度在根據(jù)某一理論結(jié)構(gòu)模型（智力、個(gè)性等）編制測(cè)驗(yàn)時(shí)特別注重，它也是通過累積證據(jù)的方法來效度獲得支持的。

(３)項(xiàng)目分析(ItemAnalysis)

為了提高測(cè)驗(yàn)的信度和效度，CTT理論特別注重測(cè)驗(yàn)項(xiàng)目的質(zhì)量，除了深入研究試題的類型和功能及編制技巧外，還發(fā)明一系列篩選、甄別項(xiàng)目的方法，統(tǒng)稱為項(xiàng)目分析，其中最主要的是難度分析和區(qū)分度分析。項(xiàng)目難度的主要指標(biāo)是通過率，即在該題上答對(duì)的人數(shù)與全體被試的比率（或平均得分與該題滿分的比率）。僅難度還不足以說明題目質(zhì)量的優(yōu)劣，CTT還提出以題目對(duì)被試水平區(qū)分鑒別能力作為評(píng)價(jià)試題質(zhì)量的區(qū)分度概念。

(４)常模(Norm)CTT理論認(rèn)為，僅從測(cè)驗(yàn)試卷上的得分不能獲得被試個(gè)體確切地位的信息。為了對(duì)測(cè)驗(yàn)的分?jǐn)?shù)進(jìn)行合理的解釋，提出常模的概念。所謂常模即是從某一總體中抽取的被試樣本在該測(cè)驗(yàn)上得分的分布，以常模團(tuán)體的平均數(shù)（或中位數(shù)）為參照點(diǎn)，將個(gè)體的分?jǐn)?shù)標(biāo)定在高或低于參照點(diǎn)的某一位置以確定該被試在團(tuán)體中的相對(duì)地位。這種標(biāo)定可以通過原始分?jǐn)?shù)(RawScore)轉(zhuǎn)換成量表分(ScaleScore)，或稱導(dǎo)出分?jǐn)?shù)。CTT將這種類型的測(cè)驗(yàn)稱為常模參照測(cè)驗(yàn)(Norm-referencedTest)，與此相對(duì)應(yīng)的稱為標(biāo)準(zhǔn)參照測(cè)驗(yàn)(Criterion-referencedTest)，其測(cè)驗(yàn)分?jǐn)?shù)的解釋與轉(zhuǎn)換方法有所不同。

(５)標(biāo)準(zhǔn)化(Standardization)

所謂標(biāo)準(zhǔn)化是指對(duì)測(cè)驗(yàn)實(shí)施程序、對(duì)象范圍、施測(cè)環(huán)境、測(cè)試方式、測(cè)驗(yàn)時(shí)限、分?jǐn)?shù)解釋（常模）作了統(tǒng)一的規(guī)定，使測(cè)驗(yàn)?zāi)軌蛟诋悤r(shí)、異地，不同的主試等條件下進(jìn)行，并能得到同等有效的測(cè)驗(yàn)結(jié)果。標(biāo)準(zhǔn)化的思想主要來自于自然科學(xué)中對(duì)實(shí)驗(yàn)條件進(jìn)行嚴(yán)格控制以降低測(cè)量誤差，其方法主要源自實(shí)驗(yàn)心理學(xué)對(duì)無關(guān)變量和干擾變量控制的方法。

2概化理論

凡測(cè)量都有誤差，誤差可能來自測(cè)量工具的不標(biāo)準(zhǔn)或不適合所測(cè)量的對(duì)象，也可能來自工具的使用者沒有掌握要領(lǐng)，也可能是測(cè)量條件和環(huán)境所造成，也可能是測(cè)量對(duì)象不合作所引起?？傊a(chǎn)生測(cè)量誤差的原因是多種多樣的，而CTT理論僅以一個(gè)Ｅ就概括了所有的誤差，并不能指明哪種誤差或在總誤差中各種誤差的相對(duì)大小如何。這樣對(duì)于測(cè)量工具和程序的改革沒有明確的指導(dǎo)意義，只能根據(jù)主試自己的理解去控制一些因素，針對(duì)性并不強(qiáng)。鑒于此種情況，二十世紀(jì)六十至七十年代初，克倫巴赫(Cronbach)等人提出了概化理論(GeneralizabilityTheory)簡(jiǎn)稱GT理論。

GT理論的基本思想是，任何測(cè)量都處在一定的情境關(guān)系之中，應(yīng)該從測(cè)量的情境關(guān)系中具體地考察測(cè)量工作，提出了多種真分?jǐn)?shù)與多種不同的信度系數(shù)的觀念，并設(shè)計(jì)了一套方法去系統(tǒng)辯明與實(shí)驗(yàn)性研究多種誤差方差的來源。并用“全域分?jǐn)?shù)”(UniverseScore)代替“真分?jǐn)?shù)”(TrueScore)，用“概括化系數(shù)，G系數(shù)”(GeneralizabilityCoefficent)代替了“信度”(Reliabilty)。

概化理論認(rèn)為，測(cè)量的總方差可以分解為代表目標(biāo)測(cè)量的方差成分和構(gòu)成誤差的種種方差成分。測(cè)量工作中要加以認(rèn)識(shí)和予應(yīng)用的心理特質(zhì)水平是測(cè)量目標(biāo)。而構(gòu)成測(cè)量條件與具體情境關(guān)系的因素，稱為測(cè)量側(cè)面(FacetsofMeasurement)。如學(xué)生閱讀能力測(cè)驗(yàn)，其目的是對(duì)學(xué)生閱讀能力的測(cè)量，因此，閱讀能力就成為測(cè)量目標(biāo)，除此外試題的水平和評(píng)分者等因素也會(huì)影響測(cè)驗(yàn)的總變異。這兩個(gè)因素就是測(cè)量側(cè)面。這里對(duì)學(xué)生閱讀能力的測(cè)量是在雙側(cè)面情境的條件下進(jìn)行的。測(cè)量側(cè)面中的單個(gè)事例叫側(cè)面的水平，如有兩個(gè)評(píng)分者甲和乙，則評(píng)分者這一側(cè)面就有兩個(gè)水平。測(cè)量側(cè)面又分為隨機(jī)側(cè)面和固定側(cè)面。隨機(jī)側(cè)面是指測(cè)量側(cè)面中所包含的各水平中是類似水平的隨機(jī)樣本，而非固定不變的側(cè)面，如大規(guī)模考試中評(píng)分者每次都有可能不同，由這樣變化的評(píng)分者所組成的測(cè)量側(cè)面就稱為隨機(jī)側(cè)面。固定側(cè)面是指在各次實(shí)施中測(cè)量側(cè)面的所在水平一直保持不變的測(cè)量側(cè)面，如標(biāo)準(zhǔn)化的心理測(cè)驗(yàn)中測(cè)驗(yàn)的項(xiàng)目總是一樣，這樣的側(cè)面就叫固定側(cè)面。因此，進(jìn)行測(cè)驗(yàn)的標(biāo)準(zhǔn)化就是對(duì)某些測(cè)量側(cè)面進(jìn)行固定。固定測(cè)量側(cè)面可以減少測(cè)量誤差，但卻會(huì)使測(cè)量目標(biāo)變得更為局限。比如，把閱讀理解題定為對(duì)科技說明文，這時(shí)，所測(cè)的特質(zhì)就不再是一般的閱讀理解能力，而是特定的對(duì)科技說明文的理解能力了。這樣，測(cè)驗(yàn)所得分?jǐn)?shù)就不能再推廣到原來那么寬廣的范圍了。概化理論強(qiáng)調(diào)，測(cè)量目標(biāo)是具體的，并不是絕對(duì)固定不變的。因而全域分?jǐn)?shù)也就不固定，可以有多種。一方面，當(dāng)固定側(cè)面時(shí)，側(cè)面本身會(huì)轉(zhuǎn)化為測(cè)量目標(biāo)的一部分（如對(duì)一般閱讀理解能力的測(cè)量轉(zhuǎn)變?yōu)閷?duì)科技說明文的測(cè)量），測(cè)量目標(biāo)要局限化；另一方面，當(dāng)測(cè)量中考察目的與應(yīng)用需要改變時(shí)，測(cè)量目標(biāo)對(duì)象就可能完全轉(zhuǎn)移。比如，當(dāng)作文考試結(jié)果是要對(duì)考生作判斷時(shí)，測(cè)量目標(biāo)就是考生的作文能力，若要把評(píng)分嚴(yán)與評(píng)分寬的評(píng)分者區(qū)分開，評(píng)分者的能力就成了測(cè)量目標(biāo)，也即測(cè)量目標(biāo)就完全發(fā)生了轉(zhuǎn)移。顯然，測(cè)量目標(biāo)不同時(shí)，標(biāo)志測(cè)量目標(biāo)的分?jǐn)?shù)也就不同。測(cè)量目標(biāo)在具體關(guān)系條件下的分?jǐn)?shù)叫全域分?jǐn)?shù)。這樣，有時(shí)對(duì)同一批測(cè)量資料來說，當(dāng)測(cè)量工作的具體關(guān)系變化時(shí)全域分?jǐn)?shù)也會(huì)變。即同一測(cè)驗(yàn)資料就可能有多種全域分?jǐn)?shù)。

概化理論把全域分?jǐn)?shù)方差對(duì)總變差的比稱為為概括力系數(shù)（簡(jiǎn)稱G系數(shù)）。而總方差可以分成全域分?jǐn)?shù)方差(δ2(p)和誤差分?jǐn)?shù)方差(δ2(δ))，如果測(cè)驗(yàn)是常模參照性測(cè)驗(yàn)，則G系數(shù)E2ρ是評(píng)價(jià)測(cè)驗(yàn)穩(wěn)定性程度的最佳指標(biāo):

即:E2ρ=(δ2(p))/[δ2(p)+(δ2(δ))]

若該測(cè)驗(yàn)是標(biāo)準(zhǔn)參照性測(cè)驗(yàn)，則其依存性j指標(biāo)是測(cè)驗(yàn)穩(wěn)定一致性的最好指標(biāo)。

j=(δ2(p))/[δ2(p)+(δ2(△))]

上兩式中，誤差方差δ2(δ)可能是很多項(xiàng)的和，如上例中考生的閱讀理解能力的方差是標(biāo)志測(cè)量目標(biāo)的方差，即為全域分?jǐn)?shù)方差記為(δ2(p))，而試題、評(píng)分者及三個(gè)主效應(yīng)間的交互作用方差（共有７種方差成分）都不應(yīng)包括在全域分?jǐn)?shù)方差之中，作為誤差方差(δ2(δ))的一部分，是構(gòu)成總方差的成分之一。由此可見，當(dāng)全域分?jǐn)?shù)方差不變，而誤差分?jǐn)?shù)方差增大時(shí)，概括力系數(shù)值降低，信度降低。反之，當(dāng)全域分?jǐn)?shù)方差增大，而誤差分?jǐn)?shù)方差不變，則概括力系數(shù)增大，信度提高。所以，隨著測(cè)量情境關(guān)系的變化，測(cè)量目標(biāo)與側(cè)面的變動(dòng)，概括力系數(shù)即信度也就會(huì)不同。同一批資料就可能有多種不同含義與取值的概括力系數(shù)。一般說來，增大概括力系數(shù)的方法有兩種：第一種是，固定測(cè)量側(cè)面（如固定試題）。第二種是增加側(cè)面所包含的水平數(shù)（如增加試題或評(píng)分者數(shù)目）。(漆書青,1993)

概化理論是用方差分析的方法來全面估計(jì)出各種方差成分的相對(duì)大小，并可直接比較其大小。雖然真分?jǐn)?shù)理論也可以分別地估出某一方差成分的大小，如代表試題側(cè)面的內(nèi)部一致性系數(shù)，代表評(píng)分者側(cè)面的評(píng)分者信度等，正因?yàn)槭菃为?dú)估出的，這些值之間不能直接比較，也只有對(duì)主效應(yīng)作估計(jì)，而不能對(duì)交互作用進(jìn)行估計(jì)。而概化理論卻能做到這一點(diǎn)。它既能估計(jì)出主效應(yīng)，也能估計(jì)出交互作用效應(yīng)，并能對(duì)各估計(jì)值的大小進(jìn)行直接比較。在概化理論中，理論估出各方差成分相對(duì)大小的過程，叫概化理論的概括分研究階段或稱G－研究階段。概化理論并不內(nèi)靜止地分析各種誤差來源，還要在G－研究的基礎(chǔ)上，通過實(shí)驗(yàn)性研究，進(jìn)一步考察不同測(cè)驗(yàn)設(shè)計(jì)條件下的概括力系數(shù)的變化狀況，如固定側(cè)面或增加側(cè)面水平下的變化狀況，從而探求到最佳的控制誤差的方法，作出最佳的設(shè)計(jì)決策，從而改進(jìn)測(cè)驗(yàn)的內(nèi)容、方式方法提供了有價(jià)值的信息。這一階段稱作決策研究或稱D－研究階段。

GT在研究測(cè)量誤差方面有更大的優(yōu)越性，它能針對(duì)不同測(cè)量情境估計(jì)測(cè)量誤差的多種來源，為改善測(cè)驗(yàn)，提高測(cè)量質(zhì)量有用的信息。其缺陷是統(tǒng)計(jì)計(jì)算相當(dāng)繁雜，如果借助一些統(tǒng)計(jì)分析軟件可以解決這一問題。GT理論目前在我國(guó)還處于實(shí)驗(yàn)研究階段，在面試、考核等主觀性測(cè)評(píng)中有一些應(yīng)用(劉遠(yuǎn)我,張厚粲,1998)

3項(xiàng)目反應(yīng)理論

任何一種理論都不可能是完美無缺的，作為測(cè)量初期發(fā)展起來的理論更是不可避免地存在著一些缺陷。項(xiàng)目反應(yīng)理論（ItemResponseTheory,IRT）則是在反對(duì)和克服傳統(tǒng)測(cè)量理論的不足之中發(fā)展起來的一種現(xiàn)代測(cè)量理論。

無論是CTT還是GT，其測(cè)驗(yàn)內(nèi)容的選擇、項(xiàng)目參數(shù)的獲得和常模的制定，都是通過抽取一定的樣本（行為樣本或被試樣本），因此可以說二者都建立在隨機(jī)抽樣理論基礎(chǔ)之上。它們的局限性主要表現(xiàn)在以下四個(gè)方面：

（1）測(cè)量結(jié)果的應(yīng)用范圍有限。一般來說，對(duì)測(cè)量誤差的控制有三種方法：配對(duì)或標(biāo)準(zhǔn)化、隨機(jī)化、統(tǒng)計(jì)調(diào)整。配對(duì)或標(biāo)準(zhǔn)化技術(shù)的應(yīng)用使得誤差變量的影響不能解釋測(cè)量結(jié)果的差異，隨機(jī)化技術(shù)的應(yīng)用可使誤差變量的影響不能在測(cè)量結(jié)果上形成系統(tǒng)誤差。統(tǒng)計(jì)調(diào)整技術(shù)建立在數(shù)學(xué)模型基礎(chǔ)上，將誤差變量的影響參數(shù)化，從而在測(cè)量中調(diào)整參數(shù)估計(jì)值，減少誤差變量的影響。經(jīng)典測(cè)驗(yàn)理論主要應(yīng)用的是配對(duì)或標(biāo)準(zhǔn)化技術(shù)和隨機(jī)化技術(shù)。然而，使用配對(duì)或標(biāo)準(zhǔn)技術(shù)的測(cè)量結(jié)果僅僅能在相同的測(cè)量條件下成立，卻不能將其拓展到非標(biāo)準(zhǔn)化的環(huán)境之中去，使得測(cè)量的應(yīng)用受到很大的限制。

（2）測(cè)量分?jǐn)?shù)賴性于具體的測(cè)驗(yàn)（內(nèi)容）。經(jīng)典測(cè)量理論控制誤差應(yīng)用標(biāo)準(zhǔn)化技術(shù)，但其標(biāo)準(zhǔn)化的對(duì)象是測(cè)驗(yàn)的各種外部變量，對(duì)測(cè)驗(yàn)的內(nèi)部變量即測(cè)驗(yàn)的項(xiàng)目的“性質(zhì)”這一變量卻沒有也不可能實(shí)現(xiàn)標(biāo)準(zhǔn)化。這就造成了測(cè)驗(yàn)分?jǐn)?shù)對(duì)具體測(cè)驗(yàn)的依賴性，迫使經(jīng)典測(cè)驗(yàn)理論要么使用統(tǒng)一的試卷，要么使用實(shí)際上并不平行的所謂“平行試卷”。這種處理方法，即給實(shí)際操作帶來困難，也給結(jié)果的解釋帶來較大的誤差。

（3）測(cè)量參數(shù)依賴于被試樣本。經(jīng)典測(cè)量理論構(gòu)造了一個(gè)完整的理論體系，同時(shí)設(shè)計(jì)了一套參數(shù)指標(biāo)來刻劃測(cè)量各方面的特性。如測(cè)驗(yàn)的信度、效度、項(xiàng)目的難度、區(qū)分度等。但是這些參數(shù)的估計(jì)對(duì)樣本的依賴性是很大的。測(cè)驗(yàn)的信度和效度采用相關(guān)分析法，同樣受到樣本的影響。為避免抽樣誤差對(duì)參數(shù)估計(jì)的影響，經(jīng)典測(cè)量理論特別強(qiáng)調(diào)樣本對(duì)總體的代表性。但經(jīng)典理論所應(yīng)用的是隨機(jī)抽樣，隨機(jī)抽樣總是偏差存在。何況在實(shí)際工作中，由于客觀條件的限制，還不能做到隨機(jī)抽樣。因此，參數(shù)估計(jì)值對(duì)樣本的依賴性使得所估參數(shù)對(duì)測(cè)驗(yàn)的分析的價(jià)值是有限的。（4）信度估計(jì)的精確性不高。測(cè)量的重要目標(biāo)就是降低測(cè)量誤差，提高測(cè)量的精度。在經(jīng)典測(cè)量理論中，信度被定義為真分?jǐn)?shù)的變異在總變異（觀測(cè)分?jǐn)?shù)）中所占的比率。然而，真分?jǐn)?shù)的方差是無法求取的，誤差的方差也無法計(jì)算。為了估計(jì)信度，CTT就提出了平行測(cè)驗(yàn)的概念，并在此基礎(chǔ)上推演出了若干個(gè)信度估計(jì)公式。但是嚴(yán)格的平行測(cè)驗(yàn)是不存在的，等價(jià)測(cè)驗(yàn)也很難獲得的，在此基礎(chǔ)上估計(jì)的測(cè)驗(yàn)信度很難達(dá)到比較高的精確程度。另外，經(jīng)典測(cè)量理論中的信度估計(jì)值也是一個(gè)籠統(tǒng)值，即假定對(duì)不同能力水平的被試來說，測(cè)量的誤差是相同的。而事實(shí)是，一份測(cè)驗(yàn)只有在施測(cè)于能力水平與測(cè)驗(yàn)難度相當(dāng)?shù)谋辉嚂r(shí)容易獲得比較高的測(cè)量精確度。當(dāng)測(cè)驗(yàn)施測(cè)于能力水平高于（或低于）測(cè)驗(yàn)難度的被試時(shí)就容易產(chǎn)生較大的測(cè)量誤差。而且測(cè)量誤差值會(huì)隨著被試水平與測(cè)驗(yàn)難度距離的增加而變大。

項(xiàng)目反應(yīng)理論研究是以潛在特質(zhì)為假設(shè)并從項(xiàng)目特征曲線開始。所謂項(xiàng)目特質(zhì)曲線就是用能穩(wěn)定反映被試水平的特質(zhì)量表分代替被試卷面總分作為回歸曲線的自變量，并把求得的被試在試題上正確作答概率對(duì)特質(zhì)分?jǐn)?shù)的回歸曲線稱為項(xiàng)目特質(zhì)曲線（ItemCharacteristicCurve,簡(jiǎn)稱ICC）。項(xiàng)目反應(yīng)理論研究中的一項(xiàng)重要工作就是要確定項(xiàng)目特征曲線的形態(tài)，然后寫出這條特征曲線的解析式，即項(xiàng)目反應(yīng)函數(shù)，也稱為項(xiàng)目特征函數(shù)（ItemCharacteristicFunction,簡(jiǎn)稱ICF）。

第一個(gè)項(xiàng)目反應(yīng)理論模型是由洛德于1952年提出的雙參數(shù)正態(tài)肩形曲線模型。其項(xiàng)目特征曲線的形狀和函數(shù)如下。

θ表示被試特質(zhì)水平的參數(shù)；Pi(θ)表示特質(zhì)水平為θ的被試在項(xiàng)目I上正確回稱的概率。從理論上講，θ的取值在-∞和+∞之間，當(dāng)θ=-∞時(shí)Pi(θ)為0，當(dāng)θ=+∞時(shí)Pi(θ)為1；bi為項(xiàng)目難度參數(shù)，它與特質(zhì)θ定義在同一個(gè)量表上。取θ=bi代入上式，得Pi(θ)=0.5，可見b點(diǎn)是肩形曲線的對(duì)稱中心，也是曲線的拐點(diǎn)；ai稱為項(xiàng)目的區(qū)分度參數(shù)。從圖中可以看出，ai是曲線在拐點(diǎn)bi處的切線斜率的函數(shù)，即

自洛德提出第一個(gè)IRT模型后，許多學(xué)者投入到此領(lǐng)域的研究中，提出了很多種模型，目前應(yīng)用最多是伯恩鮑姆（Brinbaum）提出的邏輯斯蒂克模型(LogisticModel)和拉希模型（RaschModel）。邏輯斯蒂克模型如下：

上式是三參數(shù)模型，除了試題的難度參數(shù)bi和區(qū)分度ai以外，他還增加了一個(gè)猜測(cè)參數(shù)ci,ci通常定義為被試中能力水平遠(yuǎn)低于項(xiàng)目難度2/ai個(gè)單位的人在該項(xiàng)目實(shí)際猜測(cè)作答獲得成功的概率。當(dāng)令ci=0，則上述天參數(shù)模型就變成了雙參數(shù)模型，如ci=0且ai=1，則變成了單參數(shù)模型，邏輯斯蒂克的單數(shù)模型與丹麥學(xué)者拉希(Rasch)提出的單參數(shù)模型是相同的。拉希模型是在實(shí)踐中最常用的模型之一,其模型如下：

與CTT理論和GT理論相比，IRT具有以下優(yōu)點(diǎn)：第一，項(xiàng)目反應(yīng)理論深入測(cè)驗(yàn)的微觀領(lǐng)域，將被試特質(zhì)水平與被試在項(xiàng)目上的行為關(guān)聯(lián)起來并且將其參數(shù)化，模型化，是通過統(tǒng)計(jì)調(diào)整控制誤差的最好方法。若模型成立并且項(xiàng)目參數(shù)均已知，則模型在測(cè)驗(yàn)中為項(xiàng)目性質(zhì)調(diào)整數(shù)據(jù)，可生成獨(dú)立于測(cè)驗(yàn)項(xiàng)目性質(zhì)的特質(zhì)水平測(cè)量，這是項(xiàng)目反應(yīng)理論建立項(xiàng)目反應(yīng)模型的最大優(yōu)點(diǎn)。也就是通常所說的被試能力估計(jì)不依賴于測(cè)驗(yàn)項(xiàng)目的特殊選擇。

第二，IRT模型項(xiàng)目參數(shù)的估計(jì)獨(dú)立于被試樣本。項(xiàng)目特征曲線是被試作答正確的概率對(duì)其潛在特質(zhì)水平的回歸。而回歸曲線并不依賴于回歸變量本身的次數(shù)分布。對(duì)于項(xiàng)目反應(yīng)函數(shù)來說，已知特質(zhì)水平面為θ0的被試在項(xiàng)目i上正確作答的概率僅僅依賴于其值θ0，并不依賴于具有θ0水平的人數(shù)有多少，也不依賴于其它θ取值上的人次數(shù)。所以，在求取項(xiàng)目特征曲線的各種參數(shù)時(shí)，由于回歸線的形狀、位置都不依賴于被試的分布，所以它的參數(shù)，包括難度、區(qū)分度和猜測(cè)參數(shù)也都是不變的。IRT的第三個(gè)優(yōu)點(diǎn)是能力參數(shù)與項(xiàng)目難度參數(shù)的配套性，亦即項(xiàng)目難度參數(shù)與能力參數(shù)是定義在同一個(gè)量表上的。這樣，對(duì)一個(gè)能力參數(shù)已知的被試，配給一個(gè)項(xiàng)目參數(shù)已知的試題，我們可以立刻通過模型預(yù)測(cè)被試正確作答的概率。如果估出被試的能力，我們可以在題庫中選出難度與其能力相當(dāng)?shù)捻?xiàng)目進(jìn)行新一輪的測(cè)試，使得能力估計(jì)更為精確。這一特點(diǎn)為自適應(yīng)測(cè)評(píng)奠定了基礎(chǔ)。

第四個(gè)優(yōu)良性質(zhì)是通過模型測(cè)得的被試能力水平，可以精確估計(jì)其測(cè)量誤差。這一優(yōu)良特性得益于伯恩鮑姆的工作。他把費(fèi)嘯的描寫測(cè)驗(yàn)信息結(jié)構(gòu)的測(cè)度引進(jìn)了項(xiàng)目反應(yīng)模型。他提出在項(xiàng)目反應(yīng)模型下，能力參數(shù)未定的被試在n個(gè)測(cè)驗(yàn)項(xiàng)目上的信息測(cè)度可由下式給出。其中Ii(θ)是項(xiàng)目i上的信息，Pi’(θ)是Pi(θ)的導(dǎo)數(shù)。

利用IRT這些優(yōu)良性質(zhì)，可以開發(fā)優(yōu)質(zhì)題庫，可以按測(cè)量精度目標(biāo)編制各種測(cè)驗(yàn)試卷，可能實(shí)施測(cè)驗(yàn)等值，可以偵察測(cè)驗(yàn)項(xiàng)目功能偏差，可以實(shí)現(xiàn)計(jì)算機(jī)化的自適應(yīng)測(cè)驗(yàn)(CAT)。

項(xiàng)目反應(yīng)理論的發(fā)展除了自身的基本理論系統(tǒng)，模型種類，數(shù)據(jù)模型擬合檢驗(yàn)方法和參數(shù)估計(jì)方法的發(fā)展之外，在實(shí)際應(yīng)用方面也有很大成就，主要表現(xiàn)在三個(gè)方面：一是指導(dǎo)測(cè)驗(yàn)編制。伯恩鮑姆和費(fèi)嘯的測(cè)驗(yàn)信息結(jié)構(gòu)的測(cè)度引入測(cè)驗(yàn)，導(dǎo)致通過建立測(cè)驗(yàn)信息目標(biāo)函數(shù)來影響測(cè)驗(yàn)的結(jié)果，從根本上改善了測(cè)驗(yàn)編制的指導(dǎo)思想。在此基礎(chǔ)上發(fā)展起了多種測(cè)驗(yàn)編制指導(dǎo)方法，特別是對(duì)目標(biāo)參照性測(cè)驗(yàn)編制的指導(dǎo)，一改經(jīng)典測(cè)驗(yàn)理論軟弱無力的指導(dǎo)狀況。二是計(jì)算化自適應(yīng)測(cè)驗(yàn)的興起，其三是項(xiàng)目反應(yīng)理論認(rèn)知測(cè)量模型的出現(xiàn)，將測(cè)量導(dǎo)向與認(rèn)知心理學(xué)相結(jié)合的方向，應(yīng)用測(cè)量模型直接探索人的認(rèn)知結(jié)構(gòu)。

IRT的優(yōu)良特性確實(shí)是測(cè)評(píng)希望達(dá)到的理想狀態(tài)，但也存在著一定的局限性，首先它假定所測(cè)的特質(zhì)是單維的，這只是一種理想狀態(tài)，在現(xiàn)實(shí)中很難滿足這一假設(shè)。其次，現(xiàn)有的IRT模型主要是針對(duì)的是二級(jí)評(píng)分試題（即只有正確與錯(cuò)誤兩種答案的試題），而對(duì)多級(jí)評(píng)分的試題模型，雖說有一些探索，但還不是太成熟。第三，IRT的參數(shù)估計(jì)不依賴于特定的樣本，但是要使參數(shù)的估計(jì)具有穩(wěn)定性，需要大樣本才可以，而在現(xiàn)實(shí)的測(cè)評(píng)中要對(duì)大量的試題進(jìn)行大樣本測(cè)試以獲取穩(wěn)定的參數(shù)估計(jì)值，其人才和物力的投入都是相當(dāng)可觀的。上述問題都制約了IRT理論在實(shí)踐中應(yīng)用的推進(jìn)程度。但必須提出的是，IRT代表了現(xiàn)代測(cè)量理論的發(fā)展方向，隨著統(tǒng)計(jì)理論成熟和計(jì)算機(jī)技術(shù)的普及和測(cè)評(píng)需求的發(fā)展，IRT理論將逐步擴(kuò)大其的現(xiàn)代人才測(cè)評(píng)中的應(yīng)用范圍。上述三種測(cè)量理論構(gòu)成了現(xiàn)代人才測(cè)評(píng)的理論基石。三種理論各有長(zhǎng)短，經(jīng)典理論容易理解、操作簡(jiǎn)單，體系完整，在現(xiàn)實(shí)中更易于被接受，因?yàn)檫m應(yīng)面很廣。GT理論主要解決測(cè)量誤差的問題，對(duì)于分析測(cè)量的信度有一定優(yōu)勢(shì)。IRT理論數(shù)理邏輯嚴(yán)密，測(cè)量精度高，但對(duì)使用者的素質(zhì)和客觀條件都有很高的要求，故應(yīng)用的范圍受到限制。在人才測(cè)評(píng)實(shí)踐中，要根據(jù)具體的測(cè)評(píng)對(duì)象、目的和具備的條件選擇恰當(dāng)?shù)睦碚搧碇笇?dǎo)測(cè)評(píng)工作。當(dāng)然如果能將幾種測(cè)量理論的優(yōu)勢(shì)結(jié)合起來則會(huì)獲得更好的測(cè)評(píng)結(jié)果。一般將測(cè)量理論分為經(jīng)典測(cè)量理論、概化理論和項(xiàng)目反應(yīng)理論三大類，或稱三種理論模型。人們將以真分?jǐn)?shù)理論(TrueScoreTheory)為核心理論假設(shè)的測(cè)量理論及其方法體系，統(tǒng)稱為經(jīng)典測(cè)驗(yàn)理論(ClassicalTestTheory，CTT)，也稱真分?jǐn)?shù)理論。真分?jǐn)?shù)理論是最早實(shí)現(xiàn)數(shù)學(xué)形式化的測(cè)量理論。它從十九世紀(jì)末開始興起，二十世紀(jì)30年代形成比較完整的體系而漸趨成熟。５０年代格里克森的著作使其具有完備的數(shù)學(xué)理論形式，而1968年洛德和諾維克的《心理測(cè)驗(yàn)分?jǐn)?shù)的統(tǒng)計(jì)理論》一書，將經(jīng)典真分?jǐn)?shù)理論發(fā)展至顛峰狀態(tài)，并實(shí)現(xiàn)了向現(xiàn)代測(cè)量理論的轉(zhuǎn)換。所謂真分?jǐn)?shù)是指被測(cè)者在所測(cè)特質(zhì)（如能力、知識(shí)、個(gè)性等）上的真實(shí)值，即(TrueScore)真分?jǐn)?shù)。而我們通過一定測(cè)量工具（如測(cè)驗(yàn)量表和測(cè)量?jī)x器）進(jìn)行測(cè)量，在測(cè)量工具上直接獲得的值（讀數(shù)），叫觀測(cè)值或觀察分?jǐn)?shù)。由于有測(cè)量誤差存在，所以，觀察值并不等于所測(cè)特質(zhì)的真實(shí)質(zhì)，換句話說，觀察分?jǐn)?shù)中包含有真分?jǐn)?shù)和誤差分?jǐn)?shù)。而要獲得對(duì)真實(shí)分?jǐn)?shù)的值，就必須將測(cè)量的誤差從觀察分?jǐn)?shù)中分離出來。為了解決這一問題，真分?jǐn)?shù)理論提出了三個(gè)假設(shè)：其一，真分?jǐn)?shù)具有不變性。這一假設(shè)其實(shí)質(zhì)是指真分?jǐn)?shù)所指代的被測(cè)者的某種特質(zhì)，必須具有某種程度的穩(wěn)定性，至少在所討論的問題范圍內(nèi)，或者說在一個(gè)特定的時(shí)間內(nèi)，個(gè)體具有的特質(zhì)為一個(gè)常數(shù)，保持恒定。其二，誤差是完全隨機(jī)的。這一假設(shè)有兩個(gè)方面的含義。一是測(cè)量誤差的平均數(shù)為零的正態(tài)隨機(jī)變量。在多次測(cè)量中，誤差有正有負(fù)。如果測(cè)量誤差為正值，觀測(cè)分?jǐn)?shù)就會(huì)高于其實(shí)際的分?jǐn)?shù)（真分?jǐn)?shù)）；如果測(cè)量誤差為負(fù)值，則觀測(cè)分?jǐn)?shù)就會(huì)低于其實(shí)際的分?jǐn)?shù)，即觀察分?jǐn)?shù)會(huì)出現(xiàn)上下波動(dòng)的現(xiàn)象。但是，只要重復(fù)測(cè)量次數(shù)足夠多，這種正負(fù)偏差會(huì)兩相抵消，測(cè)量誤差的平均數(shù)恰好為零。用數(shù)學(xué)式表達(dá)為：E(E)=0。二是測(cè)量誤差分?jǐn)?shù)與所測(cè)的特質(zhì)即真分?jǐn)?shù)之間相互獨(dú)立。不僅如此，測(cè)量誤差之間，測(cè)量誤差與所測(cè)特質(zhì)外其它變量間，也相互獨(dú)立的。其三，觀測(cè)分?jǐn)?shù)是真分?jǐn)?shù)與誤差分?jǐn)?shù)的和。即Ｘ＝Ｔ＋Ｅ。在上述三個(gè)基本假設(shè)的基礎(chǔ)上，真分?jǐn)?shù)理論作出了如下兩個(gè)重要推論：第一，真分?jǐn)?shù)等于實(shí)得分?jǐn)?shù)的平均數(shù)（T=E(X)）；第二，在一組測(cè)量分?jǐn)?shù)中，實(shí)得分?jǐn)?shù)的變異數(shù)（方差）等于真分?jǐn)?shù)的變異數(shù)（方差）與誤差分?jǐn)?shù)的變異數(shù)（方差）之和。即（S2X=S2T+S2E）。經(jīng)典測(cè)量理論在真分?jǐn)?shù)理論假設(shè)的基石上構(gòu)建起了它的理論大廈，主要包括信度、效度、項(xiàng)目分析、常模、標(biāo)準(zhǔn)化等基本概念。（1）信度(Reliability)。信度是測(cè)量理論中最重要的核心概念，指測(cè)量果的一致性程度，亦稱可靠性程度。在經(jīng)典測(cè)量理論中信度被定義為：一組測(cè)量分?jǐn)?shù)的真分?jǐn)?shù)的方差（變異數(shù)）在總方差（總變異數(shù)）中所占的比率。由于真分?jǐn)?shù)的方差和誤差分?jǐn)?shù)的方差是無法獲得的，因此這個(gè)信度概念還只是一個(gè)理想的構(gòu)想的概念，不能直接計(jì)算。為了解決這一問題，CTT提出了平行測(cè)驗(yàn)(ParallelTest)的概念。所謂平行測(cè)驗(yàn)是指能夠?qū)ν槐辉嚨耐惶刭|(zhì)作相同準(zhǔn)確測(cè)量的不同測(cè)驗(yàn)形式(測(cè)驗(yàn)題目)。如果某一測(cè)驗(yàn)有許多平行式，則某被試可以在每一形式上獲一個(gè)觀測(cè)分?jǐn)?shù)，這樣就產(chǎn)生了一個(gè)觀測(cè)分?jǐn)?shù)的分布，這一分布的平均值就稱作該被試的真分?jǐn)?shù)。實(shí)際上，平行測(cè)驗(yàn)是一個(gè)構(gòu)想的概念，要在實(shí)際的測(cè)驗(yàn)的編制中實(shí)現(xiàn)是非常困難甚至是不可能的，最多也只能說是比較接近。在平行測(cè)驗(yàn)假設(shè)的基礎(chǔ)上，CTT提出了估計(jì)測(cè)驗(yàn)信度的一系列方法，如采用相關(guān)法進(jìn)行重測(cè)信度(Test-retestReliability)、復(fù)本信度(Equivalent-formsReliability)、分半信度(Split-halfReliability)的估計(jì)，提出同質(zhì)性的概念以保證反應(yīng)的一致性，如克倫巴赫(Cronbachα)系數(shù)、庫德和理查遜(G.F.Kuder＆M.W.Richardson，1937)提出的估計(jì)一致性的兩個(gè)公式Ｋ－Ｒ20公式和Ｋ－Ｒ21公式、荷伊特信度(Hoyt，1941)等都是進(jìn)行同質(zhì)性估計(jì)的重要方法。(２)效度(Validity)測(cè)量的效度是指測(cè)量結(jié)果的有效性程度，也就是已測(cè)到的質(zhì)和量與主試者欲測(cè)的質(zhì)和量相符合的程度，有的也稱效度為正確性。效度是任何一種測(cè)評(píng)必須解決的首要問題，因?yàn)橛行詻Q定了一種對(duì)測(cè)量效度的考查是一個(gè)很復(fù)雜的問題，特別是對(duì)人的潛在特質(zhì)的測(cè)量，因?yàn)闈撛谔刭|(zhì)并不是一個(gè)看得見摸得著的物質(zhì)實(shí)體，而是一種觀念構(gòu)想。對(duì)潛在特質(zhì)的測(cè)量只能采用間接的方法，其測(cè)量模型可表示用行為主義的公式Ｓ－Ｒ表示，在測(cè)量過程中我們所能控制的是呈現(xiàn)給被試的刺激Ｓ，所能觀測(cè)到的是被試在一定測(cè)量情景下對(duì)刺激Ｓ的反應(yīng)Ｒ。而潛在特質(zhì)是介于Ｓ和Ｒ之間的，在這一中間過程對(duì)Ｓ傳入大腦的信息作出了處理，處理后的信息以Ｒ方式輸出。簡(jiǎn)單地說，效度要弄清楚的是在Ｓ信號(hào)傳入大腦后，哪種（哪些或最主要是哪一種）特質(zhì)參與了對(duì)輸入信號(hào)的處理。CTT對(duì)效度問題提出了諸多解決方案，因而有很多效度名稱。如，同時(shí)效度，預(yù)測(cè)效度，表面效度，相容效度，協(xié)同效度，假設(shè)效度，效標(biāo)關(guān)聯(lián)效度，實(shí)證效度，經(jīng)驗(yàn)效度等等。為了規(guī)范效度問題的研究與解釋，美國(guó)心理學(xué)會(huì)在1974年將測(cè)量的效度分為三大類，即，內(nèi)容效度(ContentValidity)，是指測(cè)驗(yàn)的內(nèi)容對(duì)欲測(cè)范圍內(nèi)內(nèi)容的代表性程度；結(jié)構(gòu)效度(ConstructValidity)，測(cè)量結(jié)果與測(cè)驗(yàn)的理論假設(shè)之間的一致性程度；效標(biāo)關(guān)聯(lián)效度(Criterion-relatedValidity)，又稱實(shí)證效度，指測(cè)量的結(jié)果與某種外在效標(biāo)之間的一致性程度，一般用測(cè)驗(yàn)分?jǐn)?shù)與效標(biāo)之間的相關(guān)系數(shù)表示。成就測(cè)驗(yàn)或?qū)W科測(cè)驗(yàn)（以檢測(cè)知識(shí)為主的考試）較容易獲得較高的內(nèi)容效度，而對(duì)這類測(cè)驗(yàn)也往往注重考察它們的內(nèi)容效度。對(duì)于能力測(cè)驗(yàn)、個(gè)性測(cè)驗(yàn)、態(tài)度測(cè)驗(yàn)、品德測(cè)評(píng)等，其內(nèi)容效度的考察往往比較困難，而采用效標(biāo)關(guān)聯(lián)效度較多。效度的檢驗(yàn)不是一次就能完成的，往往要通過累積證據(jù)的方法不斷積累效度資料來證實(shí)它的有效性，結(jié)構(gòu)效度在根據(jù)某一理論結(jié)構(gòu)模型（智力、個(gè)性等）編制測(cè)驗(yàn)時(shí)特別注重，它也是通過累積證據(jù)的方法來效度獲得支持的。(３)項(xiàng)目分析(ItemAnalysis)為了提高測(cè)驗(yàn)的信度和效度，CTT理論特別注重測(cè)驗(yàn)項(xiàng)目的質(zhì)量，除了深入研究試題的類型和功能及編制技巧外，還發(fā)明一系列篩選、甄別項(xiàng)目的方法，統(tǒng)稱為項(xiàng)目分析，其中最主要的是難度分析和區(qū)分度分析。項(xiàng)目難度的主要指標(biāo)是通過率，即在該題上答對(duì)的人數(shù)與全體被試的比率（或平均得分與該題滿分的比率）。僅難度還不足以說明題目質(zhì)量的優(yōu)劣，CTT還提出以題目對(duì)被試水平區(qū)分鑒別能力作為評(píng)價(jià)試題質(zhì)量的區(qū)分度概念。(４)常模(Norm)CTT理論認(rèn)為，僅從測(cè)驗(yàn)試卷上的得分不能獲得被試個(gè)體確切地位的信息。為了對(duì)測(cè)驗(yàn)的分?jǐn)?shù)進(jìn)行合理的解釋，提出常模的概念。所謂常模即是從某一總體中抽取的被試樣本在該測(cè)驗(yàn)上得分的分布，以常模團(tuán)體的平均數(shù)（或中位數(shù)）為參照點(diǎn)，將個(gè)體的分?jǐn)?shù)標(biāo)定在高或低于參照點(diǎn)的某一位置以確定該被試在團(tuán)體中的相對(duì)地位。這種標(biāo)定可以通過原始分?jǐn)?shù)(RawScore)轉(zhuǎn)換成量表分(ScaleScore)，或稱導(dǎo)出分?jǐn)?shù)。CTT將這種類型的測(cè)驗(yàn)稱為常模參照測(cè)驗(yàn)(Norm-referencedTest)，與此相對(duì)應(yīng)的稱為標(biāo)準(zhǔn)參照測(cè)驗(yàn)(Criterion-referencedTest)，其測(cè)驗(yàn)分?jǐn)?shù)的解釋與轉(zhuǎn)換方法有所不同。(５)標(biāo)準(zhǔn)化(Standardization)所謂標(biāo)準(zhǔn)化是指對(duì)測(cè)驗(yàn)實(shí)施程序、對(duì)象范圍、施測(cè)環(huán)境、測(cè)試方式、測(cè)驗(yàn)時(shí)限、分?jǐn)?shù)解釋（常模）作了統(tǒng)一的規(guī)定，使測(cè)驗(yàn)?zāi)軌蛟诋悤r(shí)、異地，不同的主試等條件下進(jìn)行，并能得到同等有效的測(cè)驗(yàn)結(jié)果。標(biāo)準(zhǔn)化的思想主要來自自然科學(xué)中對(duì)實(shí)驗(yàn)條件進(jìn)行嚴(yán)格控制以降低測(cè)量誤差，其方法主要源自實(shí)驗(yàn)心理學(xué)中對(duì)無關(guān)變量和干擾變量控制的方法。2概化理論凡測(cè)量都有誤差，誤差可能來自測(cè)量工具的不標(biāo)準(zhǔn)或不適合所測(cè)量的對(duì)象，也可能來自工具的使用者沒有掌握要領(lǐng)，也可能是測(cè)量條件和環(huán)境所造成，也可能是測(cè)量對(duì)象不合作所引起。總之產(chǎn)生測(cè)量誤差的原因是多種多樣的，而CTT理論僅以一個(gè)Ｅ就概括了所有的誤差，并不能指明哪種誤差或在總誤差中各種誤差的相對(duì)大小如何。這樣對(duì)于測(cè)量工具和程序的改革沒有明確的指導(dǎo)意義，只能根據(jù)主試自己的理解去控制一些因素，針對(duì)性并不強(qiáng)。鑒于此種情況，二十世紀(jì)六十至七十年代初，克倫巴赫(Cronbach)等人提出了概化理論(GeneralizabilityTheory)簡(jiǎn)稱GT理論。GT理論的基本思想是，任何測(cè)量都處在一定的情境關(guān)系之中，應(yīng)該從測(cè)量的情境關(guān)系中具體地考察測(cè)量工作，提出了多種真分?jǐn)?shù)與多種不同的信度系數(shù)的觀念，并設(shè)計(jì)了一套方法去系統(tǒng)辯明與實(shí)驗(yàn)性研究多種誤差方差的來源。并用“全域分?jǐn)?shù)”(UniverseScore)代替“真分?jǐn)?shù)”(TrueScore)，用“概括化系數(shù)，G系數(shù)”(GeneralizabilityCoefficent)代替了“信度”(Reliabilty)。概化理論認(rèn)為，測(cè)量的總方差可以分解為代表目標(biāo)測(cè)量的方差成分和構(gòu)成誤差的種種方差成分。測(cè)量工作中要加以認(rèn)識(shí)和予應(yīng)用的心理特質(zhì)水平是測(cè)量目標(biāo)。而構(gòu)成測(cè)量條件與具體情境關(guān)系的因素，稱為測(cè)量側(cè)面(FacetsofMeasurement)。如學(xué)生閱讀能力測(cè)驗(yàn)，其目的是對(duì)學(xué)生閱讀能力的測(cè)量，因此，閱讀能力就成為測(cè)量目標(biāo)，除此外試題的水平和評(píng)分者等因素也會(huì)影響測(cè)驗(yàn)的總變異。這兩個(gè)因素就是測(cè)量側(cè)面。這里對(duì)學(xué)生閱讀能力的測(cè)量是在雙側(cè)面情境的條件下進(jìn)行的。測(cè)量側(cè)面中的單個(gè)事例叫側(cè)面的水平，如有兩個(gè)評(píng)分者甲和乙，則評(píng)分者這一側(cè)面就有兩個(gè)水平。測(cè)量側(cè)面又分為隨機(jī)側(cè)面和固定側(cè)面。隨機(jī)側(cè)面是指測(cè)量側(cè)面中所包含的各水平中是類似水平的隨機(jī)樣本，而非固定不變的側(cè)面，如大規(guī)?？荚囍性u(píng)分者每次都有可能不同，由這樣變化的評(píng)分者所組成的測(cè)量側(cè)面就稱為隨機(jī)側(cè)面。固定側(cè)面是指在各次實(shí)施中測(cè)量側(cè)面的所在水平一直保持不變的測(cè)量側(cè)面，如標(biāo)準(zhǔn)化的心理測(cè)驗(yàn)中測(cè)驗(yàn)的項(xiàng)目總是一樣，這樣的側(cè)面就叫固定側(cè)面。因此，進(jìn)行測(cè)驗(yàn)的標(biāo)準(zhǔn)化就是對(duì)某些測(cè)量側(cè)面進(jìn)行固定。固定測(cè)量側(cè)面可以減少測(cè)量誤差，但卻會(huì)使測(cè)量目標(biāo)變得更為局限。比如，把閱讀理解題定為對(duì)科技說明文，這時(shí)，所測(cè)的特質(zhì)就不再是一般的閱讀理解能力，而是特定的對(duì)科技說明文的理解能力了。這樣，測(cè)驗(yàn)所得分?jǐn)?shù)就不能再推廣到原來那么寬廣的范圍了。概化理論強(qiáng)調(diào)，測(cè)量目標(biāo)是具體的，并不是絕對(duì)固定不變的。因而全域分?jǐn)?shù)也就不固定，可以有多種。一方面，當(dāng)固定側(cè)面時(shí)，側(cè)面本身會(huì)轉(zhuǎn)化為測(cè)量目標(biāo)的一部分（如對(duì)一般閱讀理解能力的測(cè)量轉(zhuǎn)變?yōu)閷?duì)科技說明文的測(cè)量），測(cè)量目標(biāo)要局限化；另一方面，當(dāng)測(cè)量中考察目的與應(yīng)用需要改變時(shí)，測(cè)量目標(biāo)對(duì)象就可能完全轉(zhuǎn)移。比如，當(dāng)作文考試結(jié)果是要對(duì)考生作判斷時(shí)，測(cè)量目標(biāo)就是考生的作文能力，若要把評(píng)分嚴(yán)與評(píng)分寬的評(píng)分者區(qū)分開，評(píng)分者的能力就成了測(cè)量目標(biāo)，也即測(cè)量目標(biāo)就完全發(fā)生了轉(zhuǎn)移。顯然，測(cè)量目標(biāo)不同時(shí)，標(biāo)志測(cè)量目標(biāo)的分?jǐn)?shù)也就不同。測(cè)量目標(biāo)在具體關(guān)系條件下的分?jǐn)?shù)叫全域分?jǐn)?shù)。這樣，有時(shí)對(duì)同一批測(cè)量資料來說，當(dāng)測(cè)量工作的具體關(guān)系變化時(shí)全域分?jǐn)?shù)也會(huì)變。即同一測(cè)驗(yàn)資料就可能有多種全域分?jǐn)?shù)。概化理論把全域分?jǐn)?shù)方差對(duì)總變差的比稱為為概括力系數(shù)（簡(jiǎn)稱G系數(shù)）。而總方差可以分成全域分?jǐn)?shù)方差(δ2(p)和誤差分?jǐn)?shù)方差(δ2(δ))，如果測(cè)驗(yàn)是常模參照性測(cè)驗(yàn)，則G系數(shù)E2ρ是評(píng)價(jià)測(cè)驗(yàn)穩(wěn)定性程度的最佳指標(biāo):即:E2ρ=(δ2(p))/[δ2(p)+(δ2(δ))]若該測(cè)驗(yàn)是標(biāo)準(zhǔn)參照性測(cè)驗(yàn)，則其依存性j指標(biāo)是測(cè)驗(yàn)穩(wěn)定一致性的最好指標(biāo)。j=(δ2(p))/[δ2(p)+(δ2(△))]上兩式中，誤差方差δ2(δ)可能是很多項(xiàng)的和，如上例中考生的閱讀理解能力的方差是標(biāo)志測(cè)量目標(biāo)的方差，即為全域分?jǐn)?shù)方差記為(δ2(p))，而試題、評(píng)分者及三個(gè)主效應(yīng)間的交互作用方差（共有７種方差成分）都不應(yīng)包括在全域分?jǐn)?shù)方差之中，作為誤差方差(δ2(δ))的一部分，是構(gòu)成總方差的成分之一。由此可見，當(dāng)全域分?jǐn)?shù)方差不變，而誤差分?jǐn)?shù)方差增大時(shí)，概括力系數(shù)值降低，信度降低。反之，當(dāng)全域分?jǐn)?shù)方差增大，而誤差分?jǐn)?shù)方差不變，則概括力系數(shù)增大，信度提高。所以，隨著測(cè)量情境關(guān)系的變化，測(cè)量目標(biāo)與側(cè)面的變動(dòng)，概括力系數(shù)即信度也就會(huì)不同。同一批資料就可能有多種不同含義與取值的概括力系數(shù)。一般說來，增大概括力系數(shù)的方法有兩種：第一種是，固定測(cè)量側(cè)面（如固定試題）。第二種是增加側(cè)面所包含的水平數(shù)（如增加試題或評(píng)分者數(shù)目）。(漆書青,1993)概化理論是用方差分析的方法來全面估計(jì)出各種方差成分的相對(duì)大小，并可直接比較其大小。雖然真分?jǐn)?shù)理論也可以分別地估出某一方差成分的大小，如代表試題側(cè)面的內(nèi)部一致性系數(shù)，代表評(píng)分者側(cè)面的評(píng)分者信度等，正因?yàn)槭菃为?dú)估出的，這些值之間不能直接比較，也只有對(duì)主效應(yīng)作估計(jì)，而不能對(duì)交互作用進(jìn)行估計(jì)。而概化理論卻能做到這一點(diǎn)。它既能估計(jì)出主效應(yīng)，也能估計(jì)出交互作用效應(yīng)，并能對(duì)各估計(jì)值的大小進(jìn)行直接比較。在概化理論中，理論估出各方差成分相對(duì)大小的過程，叫概化理論的概括分研究階段或稱G－研究階段。概化理論并不內(nèi)靜止地分析各種誤差來源，還要在G－研究的基礎(chǔ)上，通過實(shí)驗(yàn)性研究，進(jìn)一步考察不同測(cè)驗(yàn)設(shè)計(jì)條件下的概括力系數(shù)的變化狀況，如固定側(cè)面或增加側(cè)面水平下的變化狀況，從而探求到最佳的控制誤差的方法，作出最佳的設(shè)計(jì)決策，從而改進(jìn)測(cè)驗(yàn)的內(nèi)容、方式方法提供了有價(jià)值的信息。這一階段稱作決策研究或稱D－研究階段。GT在研究測(cè)量誤差方面有更大的優(yōu)越性，它能針對(duì)不同測(cè)量情境估計(jì)測(cè)量誤差的多種來源，為改善測(cè)驗(yàn)，提高測(cè)量質(zhì)量有用的信息。其缺陷是統(tǒng)計(jì)計(jì)算相當(dāng)繁雜，如果借助一些統(tǒng)計(jì)分析軟件可以解決這一問題。GT理論目前在我國(guó)還處于實(shí)驗(yàn)研究階段，在面試、考核等主觀性測(cè)評(píng)中有一些應(yīng)用(劉遠(yuǎn)我,張厚粲,1998)3項(xiàng)目反應(yīng)理論任何一種理論都不可能是完美無缺的，作為測(cè)量初期發(fā)展起來的理論更是不可避免地存在著一些缺陷。項(xiàng)目反應(yīng)理論（ItemResponseTheory,IRT）則是在反對(duì)和克服傳統(tǒng)測(cè)量理論的不足之中發(fā)展起來的一種現(xiàn)代測(cè)量理論。無論是CTT還是GT，其測(cè)驗(yàn)內(nèi)容的選擇、項(xiàng)目參數(shù)的獲得和常模的制定，都是通過抽取一定的樣本（行為樣本或被試樣本），因此可以說二者都建立在隨機(jī)抽樣理論基礎(chǔ)之上。它們的局限性主要表現(xiàn)在以下四個(gè)方面：（1）測(cè)量結(jié)果的應(yīng)用范圍有限。一般來說，對(duì)測(cè)量誤差的控制有三種方法：配對(duì)或標(biāo)準(zhǔn)化、隨機(jī)化、統(tǒng)計(jì)調(diào)整。配對(duì)或標(biāo)準(zhǔn)化技術(shù)的應(yīng)用使得誤差變量的影響不能解釋測(cè)量結(jié)果的差異，隨機(jī)化技術(shù)的應(yīng)用可使誤差變量的影響不能在測(cè)量結(jié)果上形成系統(tǒng)誤差。統(tǒng)計(jì)調(diào)整技術(shù)建立在數(shù)學(xué)模型基礎(chǔ)上，將誤差變量的影響參數(shù)化，從而在測(cè)量中調(diào)整參數(shù)估計(jì)值，減少誤差變量的影響。經(jīng)典測(cè)驗(yàn)理論主要應(yīng)用的是配對(duì)或標(biāo)準(zhǔn)化技術(shù)和隨機(jī)化技術(shù)。然而，使用配對(duì)或標(biāo)準(zhǔn)技術(shù)的測(cè)量結(jié)果僅僅能在相同的測(cè)量條件下成立，卻不能將其拓展到非標(biāo)準(zhǔn)化的環(huán)境之中去，使得測(cè)量的應(yīng)用受到很大的限制。（2）測(cè)量分?jǐn)?shù)賴性于具體的測(cè)驗(yàn)（內(nèi)容）。經(jīng)典測(cè)量理論控制誤差應(yīng)用標(biāo)準(zhǔn)化技術(shù)，但其標(biāo)準(zhǔn)化的對(duì)象是測(cè)驗(yàn)的各種外部變量，對(duì)測(cè)驗(yàn)的內(nèi)部變量即測(cè)驗(yàn)的項(xiàng)目的“性質(zhì)”這一變量卻沒有也不可能實(shí)現(xiàn)標(biāo)準(zhǔn)化。這就造成了測(cè)驗(yàn)分?jǐn)?shù)對(duì)具體測(cè)驗(yàn)的依賴性，迫使經(jīng)典測(cè)驗(yàn)理論要么使用統(tǒng)一的試卷，要么使用實(shí)際上并不平行的所謂“平行試卷”。這種處理方法，即給實(shí)際操作帶來困難，也給結(jié)果的解釋帶來較大的誤差。（3）測(cè)量參數(shù)依賴于被試樣本。經(jīng)典測(cè)量理論構(gòu)造了一個(gè)完整的理論體系，同時(shí)設(shè)計(jì)了一套參數(shù)指標(biāo)來刻劃測(cè)量各方面的特性。如測(cè)驗(yàn)的信度、效度、項(xiàng)目的難度、區(qū)分度等。但是這些參數(shù)的估計(jì)對(duì)樣本的依賴性是很大的。測(cè)驗(yàn)的信度和效度采用相關(guān)分析法，同樣受到樣本的影響。為避免抽樣誤差對(duì)參數(shù)估計(jì)的影響，經(jīng)典測(cè)量理論特別強(qiáng)調(diào)樣本對(duì)總體的代表性。但經(jīng)典理論所應(yīng)用的是隨機(jī)抽樣，隨機(jī)抽樣總是偏差存在。何況在實(shí)際工作中，由于客觀條件的限制，還不能做到隨機(jī)抽樣。因此，參數(shù)估計(jì)值對(duì)樣本的依賴性使得所估參數(shù)對(duì)測(cè)驗(yàn)的分析的價(jià)值是有限的。（4）信度估計(jì)的精確性不高。測(cè)量的重要目標(biāo)就是降低測(cè)量誤差，提高測(cè)量的精度。在經(jīng)典測(cè)量理論中，信度被定義為真分?jǐn)?shù)的變異在總變異（觀測(cè)分?jǐn)?shù)）中所占的比率。然而，真分?jǐn)?shù)的方差是無法求取的，誤差的方差也無法計(jì)算。為了估計(jì)信度，CTT就提出了平行測(cè)驗(yàn)的概念，并在此基礎(chǔ)上推演出了若干個(gè)信度估計(jì)公式。但是嚴(yán)格的平行測(cè)驗(yàn)是不存在的，等價(jià)測(cè)驗(yàn)也很難獲得的，在此基礎(chǔ)上估計(jì)的測(cè)驗(yàn)信度很難達(dá)到比較高的精確程度。另外，經(jīng)典測(cè)量理論中的信度估計(jì)值也是一個(gè)籠統(tǒng)值，即假定對(duì)不同能力水平的被試來說，測(cè)量的誤差是相同的。而事實(shí)是，一份測(cè)驗(yàn)只有在施測(cè)于能力水平與測(cè)驗(yàn)難度相當(dāng)?shù)谋辉嚂r(shí)容易獲得比較高的測(cè)量精確度。當(dāng)測(cè)驗(yàn)施測(cè)于能力水平高于（或低于）測(cè)驗(yàn)難度的被試時(shí)就容易產(chǎn)生較大的測(cè)量誤差。而且測(cè)量誤差值會(huì)隨著被試水平與測(cè)驗(yàn)難度距離的增加而變大。項(xiàng)目反應(yīng)理論研究是以潛在特質(zhì)為假設(shè)并從項(xiàng)目特征曲線開始。所謂項(xiàng)目特質(zhì)曲線就是用能穩(wěn)定反映被試水平的特質(zhì)量表分代替被試卷面總分作為回歸曲線的自變量，并把求得的被試在試題上正確作答概率對(duì)特質(zhì)分?jǐn)?shù)的回歸曲線稱為項(xiàng)目特質(zhì)曲線（ItemCharacteristicCurve,簡(jiǎn)稱ICC）。項(xiàng)目反應(yīng)理論研究中的一項(xiàng)重要工作就是要確定項(xiàng)目特征曲線的形態(tài)，然后寫出這條特征曲線的解析式，即項(xiàng)目反應(yīng)函數(shù)，也稱為項(xiàng)目特征函數(shù)（ItemCharacteristicFunction,簡(jiǎn)稱ICF）。第一個(gè)項(xiàng)目反應(yīng)理論模型是由洛德于1952年提出的雙參數(shù)正態(tài)肩形曲線模型。其項(xiàng)目特征曲線的形狀和函數(shù)如下。θ表示被試特質(zhì)水平的參數(shù)；Pi(θ)表示特質(zhì)水平為θ的被試在項(xiàng)目I上正確回稱的概率。從理論上講，θ的取值在-∞和+∞之間，當(dāng)θ=-∞時(shí)Pi(θ)為0，當(dāng)θ=+∞時(shí)Pi(θ)為1；bi為項(xiàng)目難度參數(shù)，它與特質(zhì)θ定義在同一個(gè)量表上。取θ=bi代入上式，得Pi(θ)=0.5，可見b點(diǎn)是肩形曲線的對(duì)稱中心，也是曲線的拐點(diǎn)；ai稱為項(xiàng)目的區(qū)分度參數(shù)。從圖中可以看出，ai是曲線在拐點(diǎn)bi處的切線斜率的函數(shù)，即自洛德提出第一個(gè)IRT模型后，許多學(xué)者投入到此領(lǐng)域的研究中，提出了很多種模型，目前應(yīng)用最多是伯恩鮑姆（Brinbaum）提出的邏輯斯蒂克模型(LogisticModel)

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

經(jīng)典測(cè)量理論

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

經(jīng)典測(cè)量理論

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔