經(jīng)典測(cè)量理論_第1頁
經(jīng)典測(cè)量理論_第2頁
經(jīng)典測(cè)量理論_第3頁
經(jīng)典測(cè)量理論_第4頁
經(jīng)典測(cè)量理論_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

PAGEPAGE12第四節(jié)經(jīng)典測(cè)量理論本節(jié)首先簡(jiǎn)要論述了題庫同教育測(cè)量理論的關(guān)系以及兩種基本的教育測(cè)量理論,并且對(duì)教育測(cè)量理論和教育測(cè)量理論中的經(jīng)典測(cè)量理論作了詳盡的論述。一、題庫同教育測(cè)量理論的關(guān)系

如果我們想對(duì)題庫有一個(gè)透徹的理解,就很有必要了解題庫建設(shè)所依據(jù)的教育測(cè)量理論,他們是使題庫變得可以使用的科學(xué)的依據(jù)。題庫是按照一定的教育測(cè)量理論利用計(jì)算機(jī)技術(shù)構(gòu)成的某種學(xué)科題目的集合。題庫中的題目屬性有一些其量化指標(biāo)是一個(gè)統(tǒng)計(jì)量,如題目的難度、區(qū)分度,這是題庫的重要指標(biāo)項(xiàng),被稱為項(xiàng)目統(tǒng)計(jì)量(或項(xiàng)目參數(shù))。項(xiàng)目統(tǒng)計(jì)量要根據(jù)教育測(cè)量理論的方法計(jì)算出。教育測(cè)量理論不僅為題庫的項(xiàng)目統(tǒng)計(jì)量提供計(jì)算方法,也為題庫中題目屬性項(xiàng)目的建設(shè)提供依據(jù),同時(shí)為測(cè)驗(yàn)的有效性、可靠性分析與評(píng)價(jià)提供方法和標(biāo)準(zhǔn)。二、兩種不同的教育測(cè)量理論

在題庫建設(shè)中使用的測(cè)量理論有兩種,即:經(jīng)典測(cè)量理論(CTT:ClassicalTestTheory)

項(xiàng)目反應(yīng)理論(IRT:ItemResponseTheory)

兩種理論的核心部分是數(shù)學(xué)模型,它們是基于不同的假設(shè)提出的。經(jīng)典測(cè)量理論采用的是線性的定性模型;項(xiàng)目反應(yīng)理論采用的是非線性的概率模型。盡管如此,兩種理論仍有許多相同及相互聯(lián)系的地方,經(jīng)典理論中的項(xiàng)目統(tǒng)計(jì)量與項(xiàng)目反應(yīng)理論中的項(xiàng)目參數(shù)有著很高的相關(guān)性,只是項(xiàng)目統(tǒng)計(jì)量依賴于被試團(tuán)體,不具普遍性;而項(xiàng)目參數(shù)與被試原體無關(guān),項(xiàng)目參數(shù)具有不變性,這可使各個(gè)被試團(tuán)體所得到的項(xiàng)目參數(shù)具有可比性。參數(shù)不變對(duì)提高題庫的質(zhì)量、對(duì)于測(cè)驗(yàn)的編制和實(shí)施適應(yīng)性測(cè)驗(yàn)都是非常重要的。

三、測(cè)量理論

(一)教育測(cè)量的應(yīng)用

教育測(cè)量是對(duì)教育領(lǐng)域內(nèi)的事物或現(xiàn)象,根據(jù)一定的客觀標(biāo)準(zhǔn),作慎密的考核,并依據(jù)一定的規(guī)則將考核的結(jié)果予以數(shù)量的描述。

教育測(cè)量是學(xué)校教育常用的基本手段之一。平時(shí)的單元測(cè)驗(yàn)和期中、期末考試,都是屬于教育測(cè)量。

在教育科學(xué)研究中,特別是實(shí)驗(yàn)研究,為了給選擇和組合基礎(chǔ)條件基本相仿的實(shí)驗(yàn)組和對(duì)照組提供客觀依據(jù),或要掌握單組實(shí)驗(yàn)的實(shí)驗(yàn)對(duì)象的初始水平,一般都要進(jìn)行事前測(cè)量;在實(shí)驗(yàn)結(jié)束之后,為了要顯示因變量的變化情況,又要進(jìn)行測(cè)量。因此,教育測(cè)量也是教育科學(xué)研究,特別是實(shí)驗(yàn)研究的必不可少的工具。

(二)教育測(cè)量的要素

任何一種測(cè)量都要定義單位、確定參照點(diǎn)和使用體現(xiàn)單位、參照點(diǎn)的測(cè)量工具。例如,攝氏溫度的測(cè)量,人們規(guī)定了在標(biāo)準(zhǔn)大氣壓下,水的沸點(diǎn)和凝固點(diǎn)之差的1/100作為一個(gè)攝氏溫度單位,確定水的凝固點(diǎn)為攝氏溫度零度,并以此為參照點(diǎn);在此基礎(chǔ)上,把體現(xiàn)單位、參照點(diǎn)的攝氏溫度計(jì)作為測(cè)量溫度的一種工具。由此可見,測(cè)量的三要素是單位、參照點(diǎn)和體現(xiàn)單位和參照點(diǎn)的測(cè)量工具。教育測(cè)量作為一種特殊的測(cè)量,毫不例外地要有單位、參照點(diǎn)和體現(xiàn)單位、參照點(diǎn)的測(cè)量工具。

1、單位單位是計(jì)算數(shù)量的名稱。在物理特征的測(cè)量時(shí),千克是測(cè)量重量的單位,米是測(cè)量長(zhǎng)度的單位,分貝是測(cè)量聲音的單位。任何測(cè)量都離不開計(jì)量單位。教育測(cè)量也是如此。目前,在中小學(xué)教育中,教育測(cè)量最常用的單位是百分單位和等級(jí)單位。百分單位就是規(guī)定一項(xiàng)測(cè)驗(yàn)的滿分為100分,把滿分的1/100作為一個(gè)計(jì)量單位。等級(jí)單位是根據(jù)一項(xiàng)測(cè)驗(yàn)結(jié)果的上限和下限,把結(jié)果分成若干個(gè)等級(jí),每一個(gè)等級(jí)作為一個(gè)計(jì)量單位。

2、參照點(diǎn)所謂參照點(diǎn)是指計(jì)量的起點(diǎn)。有了參照點(diǎn),就可以比較兩個(gè)測(cè)量結(jié)果的異同。否則,測(cè)量的結(jié)果就無法進(jìn)行比較。根據(jù)測(cè)量理論,參照點(diǎn)可分成兩類:一類是絕對(duì)參照點(diǎn);另一類是人為參照點(diǎn)。

教育測(cè)量中的參照點(diǎn),除了某些體育測(cè)量之外,其余測(cè)量的參照點(diǎn),全部是人為參照點(diǎn)。例如,在百分單位的測(cè)量中,習(xí)慣上將60分作為及格的參照點(diǎn)。

(三)教育測(cè)量的特點(diǎn)

1、測(cè)量的間接性一個(gè)物體的物理特征,諸如重量、長(zhǎng)度和溫度等,可以用秤、尺和溫度計(jì)等予以直接測(cè)量。但是,由于學(xué)生的知識(shí)和技能的掌握、能力的發(fā)展、思想品德等情況,都是人的大腦活動(dòng)情況。今天的科學(xué)發(fā)展水平,人們還沒有辦法直接測(cè)量人類的心理活動(dòng)情況。目前,我們只能通過學(xué)生的外顯行為,間接地測(cè)量學(xué)生與教育有關(guān)的精神特征。具體地說,我們主要是通過學(xué)生對(duì)文字測(cè)驗(yàn)題的反應(yīng)和其它的一些行為表現(xiàn),根據(jù)教育學(xué)和心理學(xué)的理論,用邏輯推理的方法來間接地測(cè)量他們的知識(shí)和技能水平、能力發(fā)展情況和思想品德情況的。

2、測(cè)量的不穩(wěn)定性物理特征的測(cè)量結(jié)果基本上是穩(wěn)定不變的。但教育測(cè)量則不然。例如,在百分單位中,A、B兩個(gè)不同年級(jí)的學(xué)生,在期中語文考試中的成績(jī)都是88分。完全有可能A學(xué)生是班上的高分獲得者,而B學(xué)生在班上是低分獲得者。這是由于A、B兩學(xué)生各自所在年級(jí)的語文考試試題的難易程度不一致,評(píng)分標(biāo)準(zhǔn)不一樣,所在班級(jí)的學(xué)生考試成績(jī)的分布情況有差異等,造成了分?jǐn)?shù)的價(jià)值不相等。

3、計(jì)量單位的不等距性重量、長(zhǎng)度、體積和溫度等物理特征的計(jì)量單位,大部分是等距的。例如,100米與95米的差是5米,41米與36米的差也是5米,這兩個(gè)差是相等的。但是,教育測(cè)量中的計(jì)量單位就未必是等距的。如,在百分單位的測(cè)驗(yàn)中,A、B兩個(gè)學(xué)生的數(shù)學(xué)測(cè)驗(yàn)成績(jī)是60分和59分,C、D兩個(gè)學(xué)生的數(shù)學(xué)測(cè)驗(yàn)成績(jī)是90分和89分。雖然A、B兩個(gè)學(xué)生的分?jǐn)?shù)之差與C、D兩個(gè)學(xué)生的分?jǐn)?shù)之差都是1分,但前者1分的價(jià)值和后者1分的價(jià)值是完全不同的。

(四)測(cè)驗(yàn)的基本指標(biāo)

測(cè)驗(yàn)的信度、效度、難度和區(qū)分度是衡量測(cè)驗(yàn)質(zhì)量的基本指標(biāo)。

1、信度所謂測(cè)驗(yàn)的信度是指測(cè)驗(yàn)的可靠性或者可靠程度。具體地說,測(cè)驗(yàn)的信度是指同一組學(xué)生用同一測(cè)驗(yàn)實(shí)施兩次后所得分?jǐn)?shù)的一致性,或者同一組學(xué)生經(jīng)過一次測(cè)驗(yàn)后,用另一個(gè)同質(zhì)的測(cè)驗(yàn)再測(cè)一次,這兩次測(cè)驗(yàn)所得分?jǐn)?shù)的一致性。

2、難度難度是指測(cè)驗(yàn)的難易程度。在教育測(cè)量中,某測(cè)驗(yàn)的難度一般是用正確解答該測(cè)驗(yàn)題的人數(shù)與參與測(cè)驗(yàn)的學(xué)生數(shù)的比值來刻劃的。

3、區(qū)分度區(qū)分度又叫鑒別力,它是測(cè)驗(yàn)對(duì)學(xué)生實(shí)際水平的區(qū)分程度的指標(biāo)。一個(gè)具有良好區(qū)分度的測(cè)驗(yàn)題,實(shí)際水平高的學(xué)生應(yīng)該得高分,實(shí)際水平低的學(xué)生應(yīng)該得低分。測(cè)驗(yàn)的區(qū)分度有積極區(qū)分度和消極區(qū)分度兩種。積極區(qū)分是指區(qū)分的方向與測(cè)驗(yàn)總分的方向一致的區(qū)分,區(qū)分的方向與測(cè)驗(yàn)部分的方向不一致的區(qū)分是消極區(qū)分。測(cè)驗(yàn)題的區(qū)分度的取值范圍在-100至100之間。如果區(qū)分度是負(fù)值,則表示該區(qū)分是消極區(qū)分;如果區(qū)分度為0,則表示該測(cè)驗(yàn)題沒有區(qū)分;如果區(qū)分度是正值,則表示該區(qū)分是積極區(qū)分。

四、經(jīng)典測(cè)量理論的內(nèi)容

(一)成績(jī)分析

對(duì)于被試群體的成績(jī)分析,經(jīng)常使用的測(cè)量指標(biāo)有平均分和標(biāo)準(zhǔn)差。

1.平均分?jǐn)?shù)

平均分?jǐn)?shù)是用得最多的一種集中量數(shù)。所謂集中量數(shù)是指反映分?jǐn)?shù)集中位置這個(gè)特征的數(shù)值,它代表一批分?jǐn)?shù),反映一批分?jǐn)?shù)的典型情況,因此常用它進(jìn)行不同分?jǐn)?shù)組之間的比較。集中量數(shù)的形式有多種,如算術(shù)平均數(shù)、中位數(shù)、眾數(shù)等。算術(shù)平均數(shù)則是最常用的一種。

設(shè)一組分?jǐn)?shù)分別用X1,X2,…,Xn表示,則這組有n個(gè)分?jǐn)?shù)的分?jǐn)?shù)組的平均分為:

簡(jiǎn)記為:

2.標(biāo)準(zhǔn)差

對(duì)于一批分?jǐn)?shù),除了要了解它的集中量數(shù)外,還應(yīng)了解它的差異量數(shù),即分?jǐn)?shù)的分散程度或離散程度。差異量數(shù)的形式也有多種,標(biāo)準(zhǔn)差是最重要的差異量數(shù)。

若有n個(gè)分?jǐn)?shù)X1,X2,…,Xn,這組分?jǐn)?shù)的標(biāo)準(zhǔn)差定義為:

而稱為該組分?jǐn)?shù)的方差。(二)項(xiàng)目分析

通常,對(duì)考試的分析與評(píng)價(jià)分兩方面進(jìn)行。一是對(duì)各個(gè)試題進(jìn)行的分析,稱為"項(xiàng)目分析",二是對(duì)整個(gè)試卷或考試進(jìn)行的分析和評(píng)價(jià),稱為"整體分析"。

學(xué)業(yè)成績(jī)測(cè)驗(yàn)可以用來衡量學(xué)生的相對(duì)水平,也可用于衡量學(xué)生的實(shí)際水平。在教育測(cè)量中,把用于衡量學(xué)生相對(duì)水平的測(cè)驗(yàn)叫做常模參照測(cè)驗(yàn);把用于衡量學(xué)生實(shí)際水平的測(cè)驗(yàn)叫做目標(biāo)參照測(cè)驗(yàn)。常模參照測(cè)驗(yàn)中的"常模"是指某一規(guī)定的學(xué)生群體在該測(cè)驗(yàn)中的成績(jī),在標(biāo)準(zhǔn)化測(cè)驗(yàn)中,"常摸"實(shí)際上就是標(biāo)準(zhǔn)化樣本在測(cè)驗(yàn)中的平均成績(jī)。某-指定學(xué)生的學(xué)習(xí)成績(jī)的好壞,是根據(jù)該生的成績(jī)?cè)谝?guī)定群體中所處的地位來判斷的,例如與群體的平均分進(jìn)行比較。目標(biāo)參照測(cè)驗(yàn)的"目標(biāo)"是指某門課程既定的標(biāo)準(zhǔn),即教學(xué)目標(biāo)。目標(biāo)參照測(cè)驗(yàn)是以學(xué)生必須達(dá)到的標(biāo)準(zhǔn)來決定他是否具備某種能力的測(cè)驗(yàn)。它所關(guān)心的是測(cè)知一個(gè)人所能做的是什么,而不是要參照別人的學(xué)習(xí)能力水平來決定名次。當(dāng)然,對(duì)一次測(cè)驗(yàn)也可以同時(shí)提出這兩方面的要求。

由于存在著常模參照測(cè)驗(yàn)和目標(biāo)參照測(cè)驗(yàn),因此,對(duì)項(xiàng)目分析和整體分析也有不同的要求。常模參照測(cè)驗(yàn)的項(xiàng)目分析包括難度分析、區(qū)分度分析和迷惑答案的有效性分析。

1.難度分析

難度是指試題的難易程度,確定試題難度的方法有多種,其中一種常用的方法是利用下式計(jì)算:其中:分別表示第j題的難度,考生的第j題的平均分和第j題的滿分分?jǐn)?shù)。如果有n個(gè)考生,則可利用下式,由考生在第j題上的得分直接求得第j題的難度。

其中:Xji

表示第i個(gè)學(xué)生在第j題上的得分。

如果采用0、l記分法,即答對(duì)時(shí)記1分,答錯(cuò)時(shí)記0分,也可用下式求得Pj的值。

由上面的式子可知:Pj的最大值是l,表示無一人答對(duì)該題,該題的難度高。最小值是0,表示每個(gè)學(xué)生都答對(duì)了該題,該題的難度低。

在編制試題時(shí),一般取難度適中的題目。一個(gè)試題,如果受試者全部答對(duì)或全部答錯(cuò),即難度為0或l,這樣就無法區(qū)分受試者之間的能力差異。難度越接近0.5時(shí),其區(qū)別力越高,所以應(yīng)選擇難度為0.5的試題來組成試卷,但這也不是絕對(duì)的,如果一份試卷的各個(gè)題目的難度都是0.5,由于題目太同質(zhì),又會(huì)降低總分?jǐn)?shù)的區(qū)別力。因此,在選擇試題時(shí),除盡量使試卷的平均難度接近0.5外,還要使試題的難度適當(dāng)分散為宜。

事實(shí)上,試題難度的選取還應(yīng)考慮考試的目的。例如,某次考試要錄取15%的人進(jìn)行重點(diǎn)培養(yǎng),試題的難度應(yīng)選在o.85左右;如果要選15%的困難同學(xué)參加輔導(dǎo),測(cè)試題的難度應(yīng)在0.15左右。如果要測(cè)驗(yàn)學(xué)生對(duì)學(xué)習(xí)內(nèi)容的掌握情況,學(xué)習(xí)的內(nèi)容簡(jiǎn)單;試題也應(yīng)該簡(jiǎn)單;學(xué)習(xí)的內(nèi)容難,試題也應(yīng)該難。在這種情況下,我們的目的是要了解學(xué)生能否完成學(xué)業(yè),而不是區(qū)分學(xué)生的等級(jí),則可不去追求試題的難度。

2.區(qū)分度分析

區(qū)分度即鑒別度,是指測(cè)驗(yàn)項(xiàng)目對(duì)被試者的區(qū)分程度或鑒別能力。計(jì)算區(qū)分度的方法有多種,用得比較普遍的一種方法是兩端分組法。它是比較得分在高、低兩端的受試者通過該題目的比率。

假設(shè)PH和PL分別為高分組和低分組通過某個(gè)題目的百分比,則下式提供了該題目的區(qū)分度的指標(biāo):

D=PH-PL

D是區(qū)分度指數(shù)。D的值在-l和+1之間。D=+l,表示高分組全部答對(duì),而低分組全都答錯(cuò);D=-1則與上面的情形相反,低分組的全部答對(duì),高分組的卻全都答錯(cuò);D=0,則表示兩個(gè)分?jǐn)?shù)組的通過率相等。一般認(rèn)為,D在0.4以上就非常好了。

上式也可表示為:

其中PH及PL分別表示高分組和低分組通過該題的人數(shù),n為每組的人數(shù)。

顯然,兩個(gè)組越是處于極端,二者之間的差異越是明顯。但很極端的分組(例如最高10%和最低10%),由于每組的人數(shù)太少,會(huì)降低結(jié)果的可靠性。有人證明,在常態(tài)分布中,高低分的分組最佳點(diǎn)是上下27%,以此為分界點(diǎn),既可以使兩個(gè)對(duì)比組間的差異盡可能大,又可使兩組人數(shù)盡可能多。當(dāng)分布比常態(tài)曲線更平緩或更陡時(shí),最佳分界點(diǎn)可比27%稍大或稍小些。當(dāng)被試的人數(shù)不太多時(shí),分界點(diǎn)可取25%一33%之間的任何數(shù)字,若被試少于1O0人,甚至可用50%作分界點(diǎn),把上下各半作為高分組和低分組。

3.迷惑答案的有效性

迷惑答案的有效性分析是對(duì)選擇題而言的,它是在難度分析和區(qū)分度分析的基礎(chǔ)上進(jìn)行的??梢愿鶕?jù)迷惑答案的有效性分析,為教師提供修改試題的參考信息。

例如,一次測(cè)驗(yàn)的考生人數(shù)為100人,按考試成績(jī)?nèi)∏懊?7人和后面27人構(gòu)成高分組和低分組。表3.41表示該測(cè)驗(yàn)的部分試題的項(xiàng)目分析。"()"表示正確的選項(xiàng)

根據(jù)表中列出的各題的回答情況,可對(duì)每題的設(shè)計(jì)質(zhì)量進(jìn)行分析。

第一題,選項(xiàng)C無論是高分組或是低分組無一人選擇,說明C對(duì)該試題沒有貢獻(xiàn),應(yīng)予修改或刪除。對(duì)選項(xiàng)A,高分組和低分組幾乎有相同的選擇,說明該選項(xiàng)有意義含糊之處,也需要修改。本題的難度和區(qū)分度比較合適。

第二題,高分組和低分組對(duì)正確選項(xiàng)選擇的人數(shù)一樣多,區(qū)分度為0,四個(gè)錯(cuò)誤選項(xiàng)也具有同等的迷惑力。這很可能是因?yàn)轭}目的編制不當(dāng),因此需要進(jìn)一步修改。

第三題,低分組的答對(duì)人數(shù)反比高分組的答對(duì)人數(shù)多,區(qū)分度出現(xiàn)負(fù)值,這樣的題要么刪掉,要么重新編制。

第四題,高分組的學(xué)生有80%以上的學(xué)生答錯(cuò),低分組的無一人答對(duì),可見題太難。而且答錯(cuò)者較多地集中在選項(xiàng)C上,說明選項(xiàng)的迷惑力太強(qiáng)了。(三)整體分析

整體分析是利用測(cè)驗(yàn)的結(jié)果對(duì)試卷進(jìn)行全面的分析和評(píng)價(jià)。它是通過兩個(gè)數(shù)量指標(biāo)來描述的。這兩個(gè)指標(biāo)稱為效度和信度,它們是表明測(cè)驗(yàn)的有效性和可靠性的數(shù)量指標(biāo)。

1.信度

信度又稱可靠性,它是指測(cè)驗(yàn)的一致性程度。表現(xiàn)在同一個(gè)測(cè)驗(yàn)在不同時(shí)間上所得結(jié)果的一致性。通常以相關(guān)系數(shù)為數(shù)據(jù)指標(biāo),稱為信度系數(shù)。如果信度系數(shù)大,則測(cè)驗(yàn)信度高;如果信度系數(shù)小,則測(cè)驗(yàn)信度低。

信度的概念是個(gè)理論上的構(gòu)想概念,在實(shí)際測(cè)量中是無法得到的,通常是以估計(jì)的方法求得信度系數(shù),以它的大小來表示測(cè)驗(yàn)信度的高低。常用的估計(jì)方法有:

第一,再測(cè)法。以同一份試卷,在不同的時(shí)間內(nèi)對(duì)同一組受測(cè)者施測(cè)兩次,根據(jù)兩次測(cè)驗(yàn)分?jǐn)?shù)計(jì)算得到的相關(guān)系數(shù)稱為再測(cè)信度。如果兩次測(cè)驗(yàn)分?jǐn)?shù)相關(guān)程度高,表明測(cè)驗(yàn)結(jié)果穩(wěn)定,可靠。但是,兩次測(cè)驗(yàn)結(jié)果的穩(wěn)定性受它們之間的時(shí)間間隔長(zhǎng)短的影響,因此,一般標(biāo)準(zhǔn)化測(cè)驗(yàn)很少用再測(cè)信度來估計(jì)測(cè)驗(yàn)結(jié)果的可靠性。

第二,復(fù)本法。編制兩套題目不同、形式相同的試卷,題目的難度和區(qū)分度類同,在最短的時(shí)間內(nèi)用兩卷考試同一個(gè)群體,所得結(jié)果的相關(guān)系數(shù)稱為復(fù)本信度。

第三,分半法。一測(cè)驗(yàn)施予受測(cè)者后,將全部試題分為相等的兩部分(一般采用奇、偶題分半),并分別計(jì)算每個(gè)學(xué)生在兩半試題的得分,再求得兩半試題得分的相關(guān)系數(shù),這是半個(gè)考試的信度系數(shù)。為了估計(jì)整個(gè)測(cè)驗(yàn)的信度,可采用斯布公式計(jì)算:其中rtt為整個(gè)測(cè)驗(yàn)的信度;rhh為兩半試題得分的相關(guān)系數(shù)。

第四,庫理法。這是一種常用的方法,使用K-R20公式與K-R21公式估計(jì)測(cè)驗(yàn)的信度。

K-R20公式:

式中,K表示測(cè)驗(yàn)所有的題目數(shù);Pi為題目i通過率;是測(cè)驗(yàn)總分的變異數(shù);r為測(cè)驗(yàn)的信度系數(shù)。

如果每個(gè)題目的難度相近,可利用K-R21公式:

式是測(cè)驗(yàn)總分的平均數(shù),其它符號(hào)的含義與K-R20公式中的相同。

用庫理法估計(jì)測(cè)驗(yàn)的信度只適于客觀性測(cè)驗(yàn),對(duì)于主觀性測(cè)驗(yàn)可用克倫巴赫α系數(shù)公式估計(jì)其信度:

式中α為克倫巴赫系數(shù)值,即信度系數(shù);K為題目數(shù);為題目j的分?jǐn)?shù)變異數(shù);S為測(cè)驗(yàn)總分?jǐn)?shù)的變異數(shù)。

2.效度

效度即測(cè)驗(yàn)的有效性,指測(cè)驗(yàn)結(jié)果的正確性程度,即是說測(cè)驗(yàn)在多大程度上測(cè)量到了所要測(cè)的東西,由于測(cè)驗(yàn)的目標(biāo)不一樣,因而便產(chǎn)生了幾種效度形式:內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度和結(jié)構(gòu)效度。

第一種形式是內(nèi)容效度,指測(cè)驗(yàn)內(nèi)容與預(yù)定要測(cè)量的內(nèi)容間的一致性程度。測(cè)驗(yàn)內(nèi)容是對(duì)測(cè)驗(yàn)題目而言,預(yù)定要測(cè)量的內(nèi)容不但指教學(xué)內(nèi)容,而且還包括教學(xué)目標(biāo)。因此,教學(xué)內(nèi)容和教學(xué)目標(biāo)是內(nèi)容效度的兩大要素。如果測(cè)驗(yàn)題目與所要測(cè)量的教學(xué)內(nèi)容及教學(xué)目標(biāo)的一致性程度比較高,則測(cè)驗(yàn)的內(nèi)容效度比較高,否則,測(cè)驗(yàn)的內(nèi)容效度比較低。內(nèi)容效度的值常由該領(lǐng)域的專家判定。為了保證測(cè)驗(yàn)有較高的內(nèi)容效度,在編制試題之前,認(rèn)真地建立一個(gè)雙向綱目表,然后再依據(jù)雙向綱目表編制試題。

第二種形式為效標(biāo)關(guān)聯(lián)效度,在特定條件下測(cè)驗(yàn)對(duì)被測(cè)驗(yàn)的操作行為所作預(yù)測(cè)的有效性,一般以測(cè)驗(yàn)分?jǐn)?shù)與效標(biāo)分?jǐn)?shù)之間的相關(guān)系數(shù)來度量。所謂效標(biāo)是衡量測(cè)驗(yàn)有效性的參照標(biāo)準(zhǔn),它是指測(cè)驗(yàn)所要測(cè)量或所要預(yù)知的行為特征,這種特征又常用另一種測(cè)驗(yàn)的結(jié)果來表示,例如,對(duì)大學(xué)生來說,可用他們的"大學(xué)的成功"作為大學(xué)入學(xué)考試的效標(biāo)。"大學(xué)的成功"的標(biāo)準(zhǔn)通常用效標(biāo)分?jǐn)?shù)來表示,即用大學(xué)期間的學(xué)習(xí)成績(jī)或一年級(jí)的學(xué)年平均成績(jī)作為效標(biāo)分?jǐn)?shù)。

根據(jù)測(cè)驗(yàn)分?jǐn)?shù)與效標(biāo)分?jǐn)?shù)之間的時(shí)間關(guān)系,效標(biāo)關(guān)聯(lián)效度分為同時(shí)效度和預(yù)測(cè)效度。如果測(cè)驗(yàn)分?jǐn)?shù)和作為效標(biāo)的分?jǐn)?shù)兩者獲得的時(shí)間間隔很短,稱為同時(shí)效度;若獲得這兩種分?jǐn)?shù)的時(shí)間間隔較長(zhǎng)(通常是測(cè)驗(yàn)分?jǐn)?shù)在前,效標(biāo)分?jǐn)?shù)在后),則稱為預(yù)測(cè)效度。

第三種形式為結(jié)構(gòu)效度結(jié)構(gòu)效度是指測(cè)驗(yàn)?zāi)軠y(cè)量理論上的結(jié)構(gòu)或心理特性的程度。所謂結(jié)構(gòu)是指用來解釋人類行為的理論體系或心理特質(zhì)。如"理解能力"、"研究能力"、"智力"、"動(dòng)機(jī)"、"自尊心"等等。當(dāng)把考分用作測(cè)量某種心理特質(zhì)時(shí),亦即根據(jù)考分的高低來推論具有這種心理特質(zhì)的程度時(shí),就需要結(jié)構(gòu)效度來作為衡量的指標(biāo)。

按照經(jīng)典理論計(jì)算難度、區(qū)分度、信度等質(zhì)量指標(biāo)的方法,存在著嚴(yán)重依賴于樣本的問題。那怕從同一總體抽樣,就同一試題而言,被試樣本組的水平如果較低,求出的難度值就會(huì)偏高;如果水平高,求出的難度值就會(huì)顯得低。對(duì)區(qū)分度來說,如果被試樣本組的程度參差不齊,較為異質(zhì),求出的區(qū)分度值就會(huì)高;若較為同質(zhì),程度相當(dāng)整齊,求出的區(qū)分度值就會(huì)顯得低。信度也有與區(qū)分度類似的情況。這樣,質(zhì)量指標(biāo)隨測(cè)試樣本而變化,得不到普遍適用于整個(gè)被試總體的值。

在應(yīng)用方面,經(jīng)典理論也表現(xiàn)許多不足。例如,它主要適合于常模參照測(cè)驗(yàn),而難以較好地滿足目標(biāo)參照測(cè)驗(yàn)的要求;主要適合于進(jìn)行觀察分?jǐn)?shù)等值,難以較好地滿足題目參數(shù)等值的要求;特別是,它不能為自適應(yīng)測(cè)驗(yàn)(AdaptiveTesting)這類新型測(cè)驗(yàn)提供堅(jiān)實(shí)可靠的理論基礎(chǔ)。經(jīng)典測(cè)量理論的精華一般將測(cè)量理論分為經(jīng)典測(cè)量理論、概化理論和項(xiàng)目反應(yīng)理論三大類,或稱三種理論模型。人們將以真分?jǐn)?shù)理論(TrueScoreTheory)為核心理論假設(shè)的測(cè)量理論及其方法體系,統(tǒng)稱為經(jīng)典測(cè)驗(yàn)理論(ClassicalTestTheory,CTT),也稱真分?jǐn)?shù)理論。

真分?jǐn)?shù)理論是最早實(shí)現(xiàn)數(shù)學(xué)形式化的測(cè)量理論。它從十九世紀(jì)末開始興起,二十世紀(jì)30年代形成比較完整的體系而漸趨成熟。50年代格里克森的著作使其具有完備的數(shù)學(xué)理論形式,而1968年洛德和諾維克的《心理測(cè)驗(yàn)分?jǐn)?shù)的統(tǒng)計(jì)理論》一書,將經(jīng)典真分?jǐn)?shù)理論發(fā)展至顛峰狀態(tài),并實(shí)現(xiàn)了向現(xiàn)代測(cè)量理論的轉(zhuǎn)換。

所謂真分?jǐn)?shù)是指被測(cè)者在所測(cè)特質(zhì)(如能力、知識(shí)、個(gè)性等)上的真實(shí)值,即(TrueScore)真分?jǐn)?shù)。而我們通過一定測(cè)量工具(如測(cè)驗(yàn)量表和測(cè)量?jī)x器)進(jìn)行測(cè)量,在測(cè)量工具上直接獲得的值(讀數(shù)),叫觀測(cè)值或觀察分?jǐn)?shù)。由于有測(cè)量誤差存在,所以,觀察值并不等于所測(cè)特質(zhì)的真實(shí)質(zhì),換句話說,觀察分?jǐn)?shù)中包含有真分?jǐn)?shù)和誤差分?jǐn)?shù)。而要獲得對(duì)真實(shí)分?jǐn)?shù)的值,就必須將測(cè)量的誤差從觀察分?jǐn)?shù)中分離出來。為了解決這一問題,真分?jǐn)?shù)理論提出了三個(gè)假設(shè):其一,真分?jǐn)?shù)具有不變性。這一假設(shè)其實(shí)質(zhì)是指真分?jǐn)?shù)所指代的被測(cè)者的某種特質(zhì),必須具有某種程度的穩(wěn)定性,至少在所討論的問題范圍內(nèi),或者說在一個(gè)特定的時(shí)間內(nèi),個(gè)體具有的特質(zhì)為一個(gè)常數(shù),保持恒定。其二,誤差是完全隨機(jī)的。這一假設(shè)有兩個(gè)方面的含義。一是測(cè)量誤差的平均數(shù)為零的正態(tài)隨機(jī)變量。在多次測(cè)量中,誤差有正有負(fù)。如果測(cè)量誤差為正值,觀測(cè)分?jǐn)?shù)就會(huì)高于其實(shí)際的分?jǐn)?shù)(真分?jǐn)?shù));如果測(cè)量誤差為負(fù)值,則觀測(cè)分?jǐn)?shù)就會(huì)低于其實(shí)際的分?jǐn)?shù),即觀察分?jǐn)?shù)會(huì)出現(xiàn)上下波動(dòng)的現(xiàn)象。但是,只要重復(fù)測(cè)量次數(shù)足夠多,這種正負(fù)偏差會(huì)兩相抵消,測(cè)量誤差的平均數(shù)恰好為零。用數(shù)學(xué)式表達(dá)為:E(E)=0。二是測(cè)量誤差分?jǐn)?shù)與所測(cè)的特質(zhì)即真分?jǐn)?shù)之間相互獨(dú)立。不僅如此,測(cè)量誤差之間,測(cè)量誤差與所測(cè)特質(zhì)外其它變量間,也相互獨(dú)立的。其三,觀測(cè)分?jǐn)?shù)是真分?jǐn)?shù)與誤差分?jǐn)?shù)的和。即X=T+E。

在上述三個(gè)基本假設(shè)的基礎(chǔ)上,真分?jǐn)?shù)理論作出了如下兩個(gè)重要推論:第一,真分?jǐn)?shù)等于實(shí)得分?jǐn)?shù)的平均數(shù)(T=E(X));第二,在一組測(cè)量分?jǐn)?shù)中,實(shí)得分?jǐn)?shù)的變異數(shù)(方差)等于真分?jǐn)?shù)的變異數(shù)(方差)與誤差分?jǐn)?shù)的變異數(shù)(方差)之和。即(S2X=S2T+S2E)。經(jīng)典測(cè)量理論在真分?jǐn)?shù)理論假設(shè)的基石上構(gòu)建起了它的理論大廈,主要包括信度、效度、項(xiàng)目分析、常模、標(biāo)準(zhǔn)化等基本概念。

(1)信度(Reliability)。信度是測(cè)量理論中最重要的核心概念,指測(cè)量果的一致性程度,亦稱可靠性程度。在經(jīng)典測(cè)量理論中信度被定義為:一組測(cè)量分?jǐn)?shù)的真分?jǐn)?shù)的方差(變異數(shù))在總方差(總變異數(shù))中所占的比率。

由于真分?jǐn)?shù)的方差和誤差分?jǐn)?shù)的方差是無法獲得的,因此這個(gè)信度概念還只是一個(gè)理想的構(gòu)想的概念,不能直接計(jì)算。為了解決這一問題,CTT提出了平行測(cè)驗(yàn)(ParallelTest)的概念。

所謂平行測(cè)驗(yàn)是指能夠?qū)ν槐辉嚨耐惶刭|(zhì)作相同準(zhǔn)確測(cè)量的不同測(cè)驗(yàn)形式(測(cè)驗(yàn)題目)。如果某一測(cè)驗(yàn)有許多平行式,則某被試可以在每一形式上獲一個(gè)觀測(cè)分?jǐn)?shù),這樣就產(chǎn)生了一個(gè)觀測(cè)分?jǐn)?shù)的分布,這一分布的平均值就稱作該被試的真分?jǐn)?shù)。實(shí)際上,平行測(cè)驗(yàn)是一個(gè)構(gòu)想的概念,要在實(shí)際的測(cè)驗(yàn)的編制中實(shí)現(xiàn)是非常困難甚至是不可能的,最多也只能說是比較接近。

在平行測(cè)驗(yàn)假設(shè)的基礎(chǔ)上,CTT提出了估計(jì)測(cè)驗(yàn)信度的一系列方法,如采用相關(guān)法進(jìn)行重測(cè)信度(Test-retestReliability)、復(fù)本信度(Equivalent-formsReliability)、分半信度(Split-halfReliability)的估計(jì),提出同質(zhì)性的概念以保證反應(yīng)的一致性,如克倫巴赫(Cronbachα)系數(shù)、庫德和理查遜(G.F.Kuder&M.W.Richardson,1937)提出的估計(jì)一致性的兩個(gè)公式K-R20公式和K-R21公式、荷伊特信度(Hoyt,1941)等都是進(jìn)行同質(zhì)性估計(jì)的重要方法。(2)效度(Validity)

測(cè)量的效度是指測(cè)量結(jié)果的有效性程度,也就是已測(cè)到的質(zhì)和量與主試者欲測(cè)的質(zhì)和量相符合的程度,有的也稱效度為正確性。效度是任何一種測(cè)評(píng)必須解決的首要問題,因?yàn)橛行詻Q定了一種對(duì)測(cè)量效度的考查是一個(gè)很復(fù)雜的問題,特別是對(duì)人的潛在特質(zhì)的測(cè)量,因?yàn)闈撛谔刭|(zhì)并不是一個(gè)看得見摸得著的物質(zhì)實(shí)體,而是一種觀念構(gòu)想。對(duì)潛在特質(zhì)的測(cè)量只能采用間接的方法,其測(cè)量模型可表示用行為主義的公式S-R表示,在測(cè)量過程中我們所能控制的是呈現(xiàn)給被試的刺激S,所能觀測(cè)到的是被試在一定測(cè)量情景下對(duì)刺激S的反應(yīng)R。而潛在特質(zhì)是介于S和R之間的,在這一中間過程對(duì)S傳入大腦的信息作出了處理,處理后的信息以R方式輸出。簡(jiǎn)單地說,效度要弄清楚的是在S信號(hào)傳入大腦后,哪種(哪些或最主要是哪一種)特質(zhì)參與了對(duì)輸入信號(hào)的處理。

CTT對(duì)效度問題提出了諸多解決方案,因而有很多效度名稱。如,同時(shí)效度,預(yù)測(cè)效度,表面效度,相容效度,協(xié)同效度,假設(shè)效度,效標(biāo)關(guān)聯(lián)效度,實(shí)證效度,經(jīng)驗(yàn)效度等等。為了規(guī)范效度問題的研究與解釋,美國(guó)心理學(xué)會(huì)在1974年將測(cè)量的效度分為三大類,即,內(nèi)容效度(ContentValidity),是指測(cè)驗(yàn)的內(nèi)容對(duì)欲測(cè)范圍內(nèi)內(nèi)容的代表性程度;結(jié)構(gòu)效度(ConstructValidity),測(cè)量結(jié)果與測(cè)驗(yàn)的理論假設(shè)之間的一致性程度;效標(biāo)關(guān)聯(lián)效度(Criterion-relatedValidity),又稱實(shí)證效度,指測(cè)量的結(jié)果與某種外在效標(biāo)之間的一致性程度,一般用測(cè)驗(yàn)分?jǐn)?shù)與效標(biāo)之間的相關(guān)系數(shù)表示。

成就測(cè)驗(yàn)或?qū)W科測(cè)驗(yàn)(以檢測(cè)知識(shí)為主的考試)較容易獲得較高的內(nèi)容效度,而對(duì)這類測(cè)驗(yàn)也往往注重考察它們的內(nèi)容效度。對(duì)于能力測(cè)驗(yàn)、個(gè)性測(cè)驗(yàn)、態(tài)度測(cè)驗(yàn)、品德測(cè)評(píng)等,其內(nèi)容效度的考察往往比較困難,而采用效標(biāo)關(guān)聯(lián)效度較多。效度的檢驗(yàn)不是一次就能完成的,往往要通過累積證據(jù)的方法不斷積累效度資料來證實(shí)它的有效性,結(jié)構(gòu)效度在根據(jù)某一理論結(jié)構(gòu)模型(智力、個(gè)性等)編制測(cè)驗(yàn)時(shí)特別注重,它也是通過累積證據(jù)的方法來效度獲得支持的。

(3)項(xiàng)目分析(ItemAnalysis)

為了提高測(cè)驗(yàn)的信度和效度,CTT理論特別注重測(cè)驗(yàn)項(xiàng)目的質(zhì)量,除了深入研究試題的類型和功能及編制技巧外,還發(fā)明一系列篩選、甄別項(xiàng)目的方法,統(tǒng)稱為項(xiàng)目分析,其中最主要的是難度分析和區(qū)分度分析。項(xiàng)目難度的主要指標(biāo)是通過率,即在該題上答對(duì)的人數(shù)與全體被試的比率(或平均得分與該題滿分的比率)。僅難度還不足以說明題目質(zhì)量的優(yōu)劣,CTT還提出以題目對(duì)被試水平區(qū)分鑒別能力作為評(píng)價(jià)試題質(zhì)量的區(qū)分度概念。

(4)常模(Norm)CTT理論認(rèn)為,僅從測(cè)驗(yàn)試卷上的得分不能獲得被試個(gè)體確切地位的信息。為了對(duì)測(cè)驗(yàn)的分?jǐn)?shù)進(jìn)行合理的解釋,提出常模的概念。所謂常模即是從某一總體中抽取的被試樣本在該測(cè)驗(yàn)上得分的分布,以常模團(tuán)體的平均數(shù)(或中位數(shù))為參照點(diǎn),將個(gè)體的分?jǐn)?shù)標(biāo)定在高或低于參照點(diǎn)的某一位置以確定該被試在團(tuán)體中的相對(duì)地位。這種標(biāo)定可以通過原始分?jǐn)?shù)(RawScore)轉(zhuǎn)換成量表分(ScaleScore),或稱導(dǎo)出分?jǐn)?shù)。CTT將這種類型的測(cè)驗(yàn)稱為常模參照測(cè)驗(yàn)(Norm-referencedTest),與此相對(duì)應(yīng)的稱為標(biāo)準(zhǔn)參照測(cè)驗(yàn)(Criterion-referencedTest),其測(cè)驗(yàn)分?jǐn)?shù)的解釋與轉(zhuǎn)換方法有所不同。

(5)標(biāo)準(zhǔn)化(Standardization)

所謂標(biāo)準(zhǔn)化是指對(duì)測(cè)驗(yàn)實(shí)施程序、對(duì)象范圍、施測(cè)環(huán)境、測(cè)試方式、測(cè)驗(yàn)時(shí)限、分?jǐn)?shù)解釋(常模)作了統(tǒng)一的規(guī)定,使測(cè)驗(yàn)?zāi)軌蛟诋悤r(shí)、異地,不同的主試等條件下進(jìn)行,并能得到同等有效的測(cè)驗(yàn)結(jié)果。標(biāo)準(zhǔn)化的思想主要來自于自然科學(xué)中對(duì)實(shí)驗(yàn)條件進(jìn)行嚴(yán)格控制以降低測(cè)量誤差,其方法主要源自實(shí)驗(yàn)心理學(xué)對(duì)無關(guān)變量和干擾變量控制的方法。

2概化理論

凡測(cè)量都有誤差,誤差可能來自測(cè)量工具的不標(biāo)準(zhǔn)或不適合所測(cè)量的對(duì)象,也可能來自工具的使用者沒有掌握要領(lǐng),也可能是測(cè)量條件和環(huán)境所造成,也可能是測(cè)量對(duì)象不合作所引起??傊a(chǎn)生測(cè)量誤差的原因是多種多樣的,而CTT理論僅以一個(gè)E就概括了所有的誤差,并不能指明哪種誤差或在總誤差中各種誤差的相對(duì)大小如何。這樣對(duì)于測(cè)量工具和程序的改革沒有明確的指導(dǎo)意義,只能根據(jù)主試自己的理解去控制一些因素,針對(duì)性并不強(qiáng)。鑒于此種情況,二十世紀(jì)六十至七十年代初,克倫巴赫(Cronbach)等人提出了概化理論(GeneralizabilityTheory)簡(jiǎn)稱GT理論。

GT理論的基本思想是,任何測(cè)量都處在一定的情境關(guān)系之中,應(yīng)該從測(cè)量的情境關(guān)系中具體地考察測(cè)量工作,提出了多種真分?jǐn)?shù)與多種不同的信度系數(shù)的觀念,并設(shè)計(jì)了一套方法去系統(tǒng)辯明與實(shí)驗(yàn)性研究多種誤差方差的來源。并用“全域分?jǐn)?shù)”(UniverseScore)代替“真分?jǐn)?shù)”(TrueScore),用“概括化系數(shù),G系數(shù)”(GeneralizabilityCoefficent)代替了“信度”(Reliabilty)。

概化理論認(rèn)為,測(cè)量的總方差可以分解為代表目標(biāo)測(cè)量的方差成分和構(gòu)成誤差的種種方差成分。測(cè)量工作中要加以認(rèn)識(shí)和予應(yīng)用的心理特質(zhì)水平是測(cè)量目標(biāo)。而構(gòu)成測(cè)量條件與具體情境關(guān)系的因素,稱為測(cè)量側(cè)面(FacetsofMeasurement)。如學(xué)生閱讀能力測(cè)驗(yàn),其目的是對(duì)學(xué)生閱讀能力的測(cè)量,因此,閱讀能力就成為測(cè)量目標(biāo),除此外試題的水平和評(píng)分者等因素也會(huì)影響測(cè)驗(yàn)的總變異。這兩個(gè)因素就是測(cè)量側(cè)面。這里對(duì)學(xué)生閱讀能力的測(cè)量是在雙側(cè)面情境的條件下進(jìn)行的。測(cè)量側(cè)面中的單個(gè)事例叫側(cè)面的水平,如有兩個(gè)評(píng)分者甲和乙,則評(píng)分者這一側(cè)面就有兩個(gè)水平。測(cè)量側(cè)面又分為隨機(jī)側(cè)面和固定側(cè)面。隨機(jī)側(cè)面是指測(cè)量側(cè)面中所包含的各水平中是類似水平的隨機(jī)樣本,而非固定不變的側(cè)面,如大規(guī)模考試中評(píng)分者每次都有可能不同,由這樣變化的評(píng)分者所組成的測(cè)量側(cè)面就稱為隨機(jī)側(cè)面。固定側(cè)面是指在各次實(shí)施中測(cè)量側(cè)面的所在水平一直保持不變的測(cè)量側(cè)面,如標(biāo)準(zhǔn)化的心理測(cè)驗(yàn)中測(cè)驗(yàn)的項(xiàng)目總是一樣,這樣的側(cè)面就叫固定側(cè)面。因此,進(jìn)行測(cè)驗(yàn)的標(biāo)準(zhǔn)化就是對(duì)某些測(cè)量側(cè)面進(jìn)行固定。固定測(cè)量側(cè)面可以減少測(cè)量誤差,但卻會(huì)使測(cè)量目標(biāo)變得更為局限。比如,把閱讀理解題定為對(duì)科技說明文,這時(shí),所測(cè)的特質(zhì)就不再是一般的閱讀理解能力,而是特定的對(duì)科技說明文的理解能力了。這樣,測(cè)驗(yàn)所得分?jǐn)?shù)就不能再推廣到原來那么寬廣的范圍了。概化理論強(qiáng)調(diào),測(cè)量目標(biāo)是具體的,并不是絕對(duì)固定不變的。因而全域分?jǐn)?shù)也就不固定,可以有多種。一方面,當(dāng)固定側(cè)面時(shí),側(cè)面本身會(huì)轉(zhuǎn)化為測(cè)量目標(biāo)的一部分(如對(duì)一般閱讀理解能力的測(cè)量轉(zhuǎn)變?yōu)閷?duì)科技說明文的測(cè)量),測(cè)量目標(biāo)要局限化;另一方面,當(dāng)測(cè)量中考察目的與應(yīng)用需要改變時(shí),測(cè)量目標(biāo)對(duì)象就可能完全轉(zhuǎn)移。比如,當(dāng)作文考試結(jié)果是要對(duì)考生作判斷時(shí),測(cè)量目標(biāo)就是考生的作文能力,若要把評(píng)分嚴(yán)與評(píng)分寬的評(píng)分者區(qū)分開,評(píng)分者的能力就成了測(cè)量目標(biāo),也即測(cè)量目標(biāo)就完全發(fā)生了轉(zhuǎn)移。顯然,測(cè)量目標(biāo)不同時(shí),標(biāo)志測(cè)量目標(biāo)的分?jǐn)?shù)也就不同。測(cè)量目標(biāo)在具體關(guān)系條件下的分?jǐn)?shù)叫全域分?jǐn)?shù)。這樣,有時(shí)對(duì)同一批測(cè)量資料來說,當(dāng)測(cè)量工作的具體關(guān)系變化時(shí)全域分?jǐn)?shù)也會(huì)變。即同一測(cè)驗(yàn)資料就可能有多種全域分?jǐn)?shù)。

概化理論把全域分?jǐn)?shù)方差對(duì)總變差的比稱為為概括力系數(shù)(簡(jiǎn)稱G系數(shù))。而總方差可以分成全域分?jǐn)?shù)方差(δ2(p)和誤差分?jǐn)?shù)方差(δ2(δ)),如果測(cè)驗(yàn)是常模參照性測(cè)驗(yàn),則G系數(shù)E2ρ是評(píng)價(jià)測(cè)驗(yàn)穩(wěn)定性程度的最佳指標(biāo):

即:E2ρ=(δ2(p))/[δ2(p)+(δ2(δ))]

若該測(cè)驗(yàn)是標(biāo)準(zhǔn)參照性測(cè)驗(yàn),則其依存性j指標(biāo)是測(cè)驗(yàn)穩(wěn)定一致性的最好指標(biāo)。

j=(δ2(p))/[δ2(p)+(δ2(△))]

上兩式中,誤差方差δ2(δ)可能是很多項(xiàng)的和,如上例中考生的閱讀理解能力的方差是標(biāo)志測(cè)量目標(biāo)的方差,即為全域分?jǐn)?shù)方差記為(δ2(p)),而試題、評(píng)分者及三個(gè)主效應(yīng)間的交互作用方差(共有7種方差成分)都不應(yīng)包括在全域分?jǐn)?shù)方差之中,作為誤差方差(δ2(δ))的一部分,是構(gòu)成總方差的成分之一。由此可見,當(dāng)全域分?jǐn)?shù)方差不變,而誤差分?jǐn)?shù)方差增大時(shí),概括力系數(shù)值降低,信度降低。反之,當(dāng)全域分?jǐn)?shù)方差增大,而誤差分?jǐn)?shù)方差不變,則概括力系數(shù)增大,信度提高。所以,隨著測(cè)量情境關(guān)系的變化,測(cè)量目標(biāo)與側(cè)面的變動(dòng),概括力系數(shù)即信度也就會(huì)不同。同一批資料就可能有多種不同含義與取值的概括力系數(shù)。一般說來,增大概括力系數(shù)的方法有兩種:第一種是,固定測(cè)量側(cè)面(如固定試題)。第二種是增加側(cè)面所包含的水平數(shù)(如增加試題或評(píng)分者數(shù)目)。(漆書青,1993)

概化理論是用方差分析的方法來全面估計(jì)出各種方差成分的相對(duì)大小,并可直接比較其大小。雖然真分?jǐn)?shù)理論也可以分別地估出某一方差成分的大小,如代表試題側(cè)面的內(nèi)部一致性系數(shù),代表評(píng)分者側(cè)面的評(píng)分者信度等,正因?yàn)槭菃为?dú)估出的,這些值之間不能直接比較,也只有對(duì)主效應(yīng)作估計(jì),而不能對(duì)交互作用進(jìn)行估計(jì)。而概化理論卻能做到這一點(diǎn)。它既能估計(jì)出主效應(yīng),也能估計(jì)出交互作用效應(yīng),并能對(duì)各估計(jì)值的大小進(jìn)行直接比較。在概化理論中,理論估出各方差成分相對(duì)大小的過程,叫概化理論的概括分研究階段或稱G-研究階段。概化理論并不內(nèi)靜止地分析各種誤差來源,還要在G-研究的基礎(chǔ)上,通過實(shí)驗(yàn)性研究,進(jìn)一步考察不同測(cè)驗(yàn)設(shè)計(jì)條件下的概括力系數(shù)的變化狀況,如固定側(cè)面或增加側(cè)面水平下的變化狀況,從而探求到最佳的控制誤差的方法,作出最佳的設(shè)計(jì)決策,從而改進(jìn)測(cè)驗(yàn)的內(nèi)容、方式方法提供了有價(jià)值的信息。這一階段稱作決策研究或稱D-研究階段。

GT在研究測(cè)量誤差方面有更大的優(yōu)越性,它能針對(duì)不同測(cè)量情境估計(jì)測(cè)量誤差的多種來源,為改善測(cè)驗(yàn),提高測(cè)量質(zhì)量有用的信息。其缺陷是統(tǒng)計(jì)計(jì)算相當(dāng)繁雜,如果借助一些統(tǒng)計(jì)分析軟件可以解決這一問題。GT理論目前在我國(guó)還處于實(shí)驗(yàn)研究階段,在面試、考核等主觀性測(cè)評(píng)中有一些應(yīng)用(劉遠(yuǎn)我,張厚粲,1998)

3項(xiàng)目反應(yīng)理論

任何一種理論都不可能是完美無缺的,作為測(cè)量初期發(fā)展起來的理論更是不可避免地存在著一些缺陷。項(xiàng)目反應(yīng)理論(ItemResponseTheory,IRT)則是在反對(duì)和克服傳統(tǒng)測(cè)量理論的不足之中發(fā)展起來的一種現(xiàn)代測(cè)量理論。

無論是CTT還是GT,其測(cè)驗(yàn)內(nèi)容的選擇、項(xiàng)目參數(shù)的獲得和常模的制定,都是通過抽取一定的樣本(行為樣本或被試樣本),因此可以說二者都建立在隨機(jī)抽樣理論基礎(chǔ)之上。它們的局限性主要表現(xiàn)在以下四個(gè)方面:

(1)測(cè)量結(jié)果的應(yīng)用范圍有限。一般來說,對(duì)測(cè)量誤差的控制有三種方法:配對(duì)或標(biāo)準(zhǔn)化、隨機(jī)化、統(tǒng)計(jì)調(diào)整。配對(duì)或標(biāo)準(zhǔn)化技術(shù)的應(yīng)用使得誤差變量的影響不能解釋測(cè)量結(jié)果的差異,隨機(jī)化技術(shù)的應(yīng)用可使誤差變量的影響不能在測(cè)量結(jié)果上形成系統(tǒng)誤差。統(tǒng)計(jì)調(diào)整技術(shù)建立在數(shù)學(xué)模型基礎(chǔ)上,將誤差變量的影響參數(shù)化,從而在測(cè)量中調(diào)整參數(shù)估計(jì)值,減少誤差變量的影響。經(jīng)典測(cè)驗(yàn)理論主要應(yīng)用的是配對(duì)或標(biāo)準(zhǔn)化技術(shù)和隨機(jī)化技術(shù)。然而,使用配對(duì)或標(biāo)準(zhǔn)技術(shù)的測(cè)量結(jié)果僅僅能在相同的測(cè)量條件下成立,卻不能將其拓展到非標(biāo)準(zhǔn)化的環(huán)境之中去,使得測(cè)量的應(yīng)用受到很大的限制。

(2)測(cè)量分?jǐn)?shù)賴性于具體的測(cè)驗(yàn)(內(nèi)容)。經(jīng)典測(cè)量理論控制誤差應(yīng)用標(biāo)準(zhǔn)化技術(shù),但其標(biāo)準(zhǔn)化的對(duì)象是測(cè)驗(yàn)的各種外部變量,對(duì)測(cè)驗(yàn)的內(nèi)部變量即測(cè)驗(yàn)的項(xiàng)目的“性質(zhì)”這一變量卻沒有也不可能實(shí)現(xiàn)標(biāo)準(zhǔn)化。這就造成了測(cè)驗(yàn)分?jǐn)?shù)對(duì)具體測(cè)驗(yàn)的依賴性,迫使經(jīng)典測(cè)驗(yàn)理論要么使用統(tǒng)一的試卷,要么使用實(shí)際上并不平行的所謂“平行試卷”。這種處理方法,即給實(shí)際操作帶來困難,也給結(jié)果的解釋帶來較大的誤差。

(3)測(cè)量參數(shù)依賴于被試樣本。經(jīng)典測(cè)量理論構(gòu)造了一個(gè)完整的理論體系,同時(shí)設(shè)計(jì)了一套參數(shù)指標(biāo)來刻劃測(cè)量各方面的特性。如測(cè)驗(yàn)的信度、效度、項(xiàng)目的難度、區(qū)分度等。但是這些參數(shù)的估計(jì)對(duì)樣本的依賴性是很大的。測(cè)驗(yàn)的信度和效度采用相關(guān)分析法,同樣受到樣本的影響。為避免抽樣誤差對(duì)參數(shù)估計(jì)的影響,經(jīng)典測(cè)量理論特別強(qiáng)調(diào)樣本對(duì)總體的代表性。但經(jīng)典理論所應(yīng)用的是隨機(jī)抽樣,隨機(jī)抽樣總是偏差存在。何況在實(shí)際工作中,由于客觀條件的限制,還不能做到隨機(jī)抽樣。因此,參數(shù)估計(jì)值對(duì)樣本的依賴性使得所估參數(shù)對(duì)測(cè)驗(yàn)的分析的價(jià)值是有限的。(4)信度估計(jì)的精確性不高。測(cè)量的重要目標(biāo)就是降低測(cè)量誤差,提高測(cè)量的精度。在經(jīng)典測(cè)量理論中,信度被定義為真分?jǐn)?shù)的變異在總變異(觀測(cè)分?jǐn)?shù))中所占的比率。然而,真分?jǐn)?shù)的方差是無法求取的,誤差的方差也無法計(jì)算。為了估計(jì)信度,CTT就提出了平行測(cè)驗(yàn)的概念,并在此基礎(chǔ)上推演出了若干個(gè)信度估計(jì)公式。但是嚴(yán)格的平行測(cè)驗(yàn)是不存在的,等價(jià)測(cè)驗(yàn)也很難獲得的,在此基礎(chǔ)上估計(jì)的測(cè)驗(yàn)信度很難達(dá)到比較高的精確程度。另外,經(jīng)典測(cè)量理論中的信度估計(jì)值也是一個(gè)籠統(tǒng)值,即假定對(duì)不同能力水平的被試來說,測(cè)量的誤差是相同的。而事實(shí)是,一份測(cè)驗(yàn)只有在施測(cè)于能力水平與測(cè)驗(yàn)難度相當(dāng)?shù)谋辉嚂r(shí)容易獲得比較高的測(cè)量精確度。當(dāng)測(cè)驗(yàn)施測(cè)于能力水平高于(或低于)測(cè)驗(yàn)難度的被試時(shí)就容易產(chǎn)生較大的測(cè)量誤差。而且測(cè)量誤差值會(huì)隨著被試水平與測(cè)驗(yàn)難度距離的增加而變大。

項(xiàng)目反應(yīng)理論研究是以潛在特質(zhì)為假設(shè)并從項(xiàng)目特征曲線開始。所謂項(xiàng)目特質(zhì)曲線就是用能穩(wěn)定反映被試水平的特質(zhì)量表分代替被試卷面總分作為回歸曲線的自變量,并把求得的被試在試題上正確作答概率對(duì)特質(zhì)分?jǐn)?shù)的回歸曲線稱為項(xiàng)目特質(zhì)曲線(ItemCharacteristicCurve,簡(jiǎn)稱ICC)。項(xiàng)目反應(yīng)理論研究中的一項(xiàng)重要工作就是要確定項(xiàng)目特征曲線的形態(tài),然后寫出這條特征曲線的解析式,即項(xiàng)目反應(yīng)函數(shù),也稱為項(xiàng)目特征函數(shù)(ItemCharacteristicFunction,簡(jiǎn)稱ICF)。

第一個(gè)項(xiàng)目反應(yīng)理論模型是由洛德于1952年提出的雙參數(shù)正態(tài)肩形曲線模型。其項(xiàng)目特征曲線的形狀和函數(shù)如下。

θ表示被試特質(zhì)水平的參數(shù);Pi(θ)表示特質(zhì)水平為θ的被試在項(xiàng)目I上正確回稱的概率。從理論上講,θ的取值在-∞和+∞之間,當(dāng)θ=-∞時(shí)Pi(θ)為0,當(dāng)θ=+∞時(shí)Pi(θ)為1;bi為項(xiàng)目難度參數(shù),它與特質(zhì)θ定義在同一個(gè)量表上。取θ=bi代入上式,得Pi(θ)=0.5,可見b點(diǎn)是肩形曲線的對(duì)稱中心,也是曲線的拐點(diǎn);ai稱為項(xiàng)目的區(qū)分度參數(shù)。從圖中可以看出,ai是曲線在拐點(diǎn)bi處的切線斜率的函數(shù),即

自洛德提出第一個(gè)IRT模型后,許多學(xué)者投入到此領(lǐng)域的研究中,提出了很多種模型,目前應(yīng)用最多是伯恩鮑姆(Brinbaum)提出的邏輯斯蒂克模型(LogisticModel)和拉希模型(RaschModel)。邏輯斯蒂克模型如下:

上式是三參數(shù)模型,除了試題的難度參數(shù)bi和區(qū)分度ai以外,他還增加了一個(gè)猜測(cè)參數(shù)ci,ci通常定義為被試中能力水平遠(yuǎn)低于項(xiàng)目難度2/ai個(gè)單位的人在該項(xiàng)目實(shí)際猜測(cè)作答獲得成功的概率。當(dāng)令ci=0,則上述天參數(shù)模型就變成了雙參數(shù)模型,如ci=0且ai=1,則變成了單參數(shù)模型,邏輯斯蒂克的單數(shù)模型與丹麥學(xué)者拉希(Rasch)提出的單參數(shù)模型是相同的。拉希模型是在實(shí)踐中最常用的模型之一,其模型如下:

與CTT理論和GT理論相比,IRT具有以下優(yōu)點(diǎn):第一,項(xiàng)目反應(yīng)理論深入測(cè)驗(yàn)的微觀領(lǐng)域,將被試特質(zhì)水平與被試在項(xiàng)目上的行為關(guān)聯(lián)起來并且將其參數(shù)化,模型化,是通過統(tǒng)計(jì)調(diào)整控制誤差的最好方法。若模型成立并且項(xiàng)目參數(shù)均已知,則模型在測(cè)驗(yàn)中為項(xiàng)目性質(zhì)調(diào)整數(shù)據(jù),可生成獨(dú)立于測(cè)驗(yàn)項(xiàng)目性質(zhì)的特質(zhì)水平測(cè)量,這是項(xiàng)目反應(yīng)理論建立項(xiàng)目反應(yīng)模型的最大優(yōu)點(diǎn)。也就是通常所說的被試能力估計(jì)不依賴于測(cè)驗(yàn)項(xiàng)目的特殊選擇。

第二,IRT模型項(xiàng)目參數(shù)的估計(jì)獨(dú)立于被試樣本。項(xiàng)目特征曲線是被試作答正確的概率對(duì)其潛在特質(zhì)水平的回歸。而回歸曲線并不依賴于回歸變量本身的次數(shù)分布。對(duì)于項(xiàng)目反應(yīng)函數(shù)來說,已知特質(zhì)水平面為θ0的被試在項(xiàng)目i上正確作答的概率僅僅依賴于其值θ0,并不依賴于具有θ0水平的人數(shù)有多少,也不依賴于其它θ取值上的人次數(shù)。所以,在求取項(xiàng)目特征曲線的各種參數(shù)時(shí),由于回歸線的形狀、位置都不依賴于被試的分布,所以它的參數(shù),包括難度、區(qū)分度和猜測(cè)參數(shù)也都是不變的。IRT的第三個(gè)優(yōu)點(diǎn)是能力參數(shù)與項(xiàng)目難度參數(shù)的配套性,亦即項(xiàng)目難度參數(shù)與能力參數(shù)是定義在同一個(gè)量表上的。這樣,對(duì)一個(gè)能力參數(shù)已知的被試,配給一個(gè)項(xiàng)目參數(shù)已知的試題,我們可以立刻通過模型預(yù)測(cè)被試正確作答的概率。如果估出被試的能力,我們可以在題庫中選出難度與其能力相當(dāng)?shù)捻?xiàng)目進(jìn)行新一輪的測(cè)試,使得能力估計(jì)更為精確。這一特點(diǎn)為自適應(yīng)測(cè)評(píng)奠定了基礎(chǔ)。

第四個(gè)優(yōu)良性質(zhì)是通過模型測(cè)得的被試能力水平,可以精確估計(jì)其測(cè)量誤差。這一優(yōu)良特性得益于伯恩鮑姆的工作。他把費(fèi)嘯的描寫測(cè)驗(yàn)信息結(jié)構(gòu)的測(cè)度引進(jìn)了項(xiàng)目反應(yīng)模型。他提出在項(xiàng)目反應(yīng)模型下,能力參數(shù)未定的被試在n個(gè)測(cè)驗(yàn)項(xiàng)目上的信息測(cè)度可由下式給出。其中Ii(θ)是項(xiàng)目i上的信息,Pi’(θ)是Pi(θ)的導(dǎo)數(shù)。

利用IRT這些優(yōu)良性質(zhì),可以開發(fā)優(yōu)質(zhì)題庫,可以按測(cè)量精度目標(biāo)編制各種測(cè)驗(yàn)試卷,可能實(shí)施測(cè)驗(yàn)等值,可以偵察測(cè)驗(yàn)項(xiàng)目功能偏差,可以實(shí)現(xiàn)計(jì)算機(jī)化的自適應(yīng)測(cè)驗(yàn)(CAT)。

項(xiàng)目反應(yīng)理論的發(fā)展除了自身的基本理論系統(tǒng),模型種類,數(shù)據(jù)模型擬合檢驗(yàn)方法和參數(shù)估計(jì)方法的發(fā)展之外,在實(shí)際應(yīng)用方面也有很大成就,主要表現(xiàn)在三個(gè)方面:一是指導(dǎo)測(cè)驗(yàn)編制。伯恩鮑姆和費(fèi)嘯的測(cè)驗(yàn)信息結(jié)構(gòu)的測(cè)度引入測(cè)驗(yàn),導(dǎo)致通過建立測(cè)驗(yàn)信息目標(biāo)函數(shù)來影響測(cè)驗(yàn)的結(jié)果,從根本上改善了測(cè)驗(yàn)編制的指導(dǎo)思想。在此基礎(chǔ)上發(fā)展起了多種測(cè)驗(yàn)編制指導(dǎo)方法,特別是對(duì)目標(biāo)參照性測(cè)驗(yàn)編制的指導(dǎo),一改經(jīng)典測(cè)驗(yàn)理論軟弱無力的指導(dǎo)狀況。二是計(jì)算化自適應(yīng)測(cè)驗(yàn)的興起,其三是項(xiàng)目反應(yīng)理論認(rèn)知測(cè)量模型的出現(xiàn),將測(cè)量導(dǎo)向與認(rèn)知心理學(xué)相結(jié)合的方向,應(yīng)用測(cè)量模型直接探索人的認(rèn)知結(jié)構(gòu)。

IRT的優(yōu)良特性確實(shí)是測(cè)評(píng)希望達(dá)到的理想狀態(tài),但也存在著一定的局限性,首先它假定所測(cè)的特質(zhì)是單維的,這只是一種理想狀態(tài),在現(xiàn)實(shí)中很難滿足這一假設(shè)。其次,現(xiàn)有的IRT模型主要是針對(duì)的是二級(jí)評(píng)分試題(即只有正確與錯(cuò)誤兩種答案的試題),而對(duì)多級(jí)評(píng)分的試題模型,雖說有一些探索,但還不是太成熟。第三,IRT的參數(shù)估計(jì)不依賴于特定的樣本,但是要使參數(shù)的估計(jì)具有穩(wěn)定性,需要大樣本才可以,而在現(xiàn)實(shí)的測(cè)評(píng)中要對(duì)大量的試題進(jìn)行大樣本測(cè)試以獲取穩(wěn)定的參數(shù)估計(jì)值,其人才和物力的投入都是相當(dāng)可觀的。上述問題都制約了IRT理論在實(shí)踐中應(yīng)用的推進(jìn)程度。但必須提出的是,IRT代表了現(xiàn)代測(cè)量理論的發(fā)展方向,隨著統(tǒng)計(jì)理論成熟和計(jì)算機(jī)技術(shù)的普及和測(cè)評(píng)需求的發(fā)展,IRT理論將逐步擴(kuò)大其的現(xiàn)代人才測(cè)評(píng)中的應(yīng)用范圍。上述三種測(cè)量理論構(gòu)成了現(xiàn)代人才測(cè)評(píng)的理論基石。三種理論各有長(zhǎng)短,經(jīng)典理論容易理解、操作簡(jiǎn)單,體系完整,在現(xiàn)實(shí)中更易于被接受,因?yàn)檫m應(yīng)面很廣。GT理論主要解決測(cè)量誤差的問題,對(duì)于分析測(cè)量的信度有一定優(yōu)勢(shì)。IRT理論數(shù)理邏輯嚴(yán)密,測(cè)量精度高,但對(duì)使用者的素質(zhì)和客觀條件都有很高的要求,故應(yīng)用的范圍受到限制。在人才測(cè)評(píng)實(shí)踐中,要根據(jù)具體的測(cè)評(píng)對(duì)象、目的和具備的條件選擇恰當(dāng)?shù)睦碚搧碇笇?dǎo)測(cè)評(píng)工作。當(dāng)然如果能將幾種測(cè)量理論的優(yōu)勢(shì)結(jié)合起來則會(huì)獲得更好的測(cè)評(píng)結(jié)果。一般將測(cè)量理論分為經(jīng)典測(cè)量理論、概化理論和項(xiàng)目反應(yīng)理論三大類,或稱三種理論模型。人們將以真分?jǐn)?shù)理論(TrueScoreTheory)為核心理論假設(shè)的測(cè)量理論及其方法體系,統(tǒng)稱為經(jīng)典測(cè)驗(yàn)理論(ClassicalTestTheory,CTT),也稱真分?jǐn)?shù)理論。真分?jǐn)?shù)理論是最早實(shí)現(xiàn)數(shù)學(xué)形式化的測(cè)量理論。它從十九世紀(jì)末開始興起,二十世紀(jì)30年代形成比較完整的體系而漸趨成熟。50年代格里克森的著作使其具有完備的數(shù)學(xué)理論形式,而1968年洛德和諾維克的《心理測(cè)驗(yàn)分?jǐn)?shù)的統(tǒng)計(jì)理論》一書,將經(jīng)典真分?jǐn)?shù)理論發(fā)展至顛峰狀態(tài),并實(shí)現(xiàn)了向現(xiàn)代測(cè)量理論的轉(zhuǎn)換。所謂真分?jǐn)?shù)是指被測(cè)者在所測(cè)特質(zhì)(如能力、知識(shí)、個(gè)性等)上的真實(shí)值,即(TrueScore)真分?jǐn)?shù)。而我們通過一定測(cè)量工具(如測(cè)驗(yàn)量表和測(cè)量?jī)x器)進(jìn)行測(cè)量,在測(cè)量工具上直接獲得的值(讀數(shù)),叫觀測(cè)值或觀察分?jǐn)?shù)。由于有測(cè)量誤差存在,所以,觀察值并不等于所測(cè)特質(zhì)的真實(shí)質(zhì),換句話說,觀察分?jǐn)?shù)中包含有真分?jǐn)?shù)和誤差分?jǐn)?shù)。而要獲得對(duì)真實(shí)分?jǐn)?shù)的值,就必須將測(cè)量的誤差從觀察分?jǐn)?shù)中分離出來。為了解決這一問題,真分?jǐn)?shù)理論提出了三個(gè)假設(shè):其一,真分?jǐn)?shù)具有不變性。這一假設(shè)其實(shí)質(zhì)是指真分?jǐn)?shù)所指代的被測(cè)者的某種特質(zhì),必須具有某種程度的穩(wěn)定性,至少在所討論的問題范圍內(nèi),或者說在一個(gè)特定的時(shí)間內(nèi),個(gè)體具有的特質(zhì)為一個(gè)常數(shù),保持恒定。其二,誤差是完全隨機(jī)的。這一假設(shè)有兩個(gè)方面的含義。一是測(cè)量誤差的平均數(shù)為零的正態(tài)隨機(jī)變量。在多次測(cè)量中,誤差有正有負(fù)。如果測(cè)量誤差為正值,觀測(cè)分?jǐn)?shù)就會(huì)高于其實(shí)際的分?jǐn)?shù)(真分?jǐn)?shù));如果測(cè)量誤差為負(fù)值,則觀測(cè)分?jǐn)?shù)就會(huì)低于其實(shí)際的分?jǐn)?shù),即觀察分?jǐn)?shù)會(huì)出現(xiàn)上下波動(dòng)的現(xiàn)象。但是,只要重復(fù)測(cè)量次數(shù)足夠多,這種正負(fù)偏差會(huì)兩相抵消,測(cè)量誤差的平均數(shù)恰好為零。用數(shù)學(xué)式表達(dá)為:E(E)=0。二是測(cè)量誤差分?jǐn)?shù)與所測(cè)的特質(zhì)即真分?jǐn)?shù)之間相互獨(dú)立。不僅如此,測(cè)量誤差之間,測(cè)量誤差與所測(cè)特質(zhì)外其它變量間,也相互獨(dú)立的。其三,觀測(cè)分?jǐn)?shù)是真分?jǐn)?shù)與誤差分?jǐn)?shù)的和。即X=T+E。在上述三個(gè)基本假設(shè)的基礎(chǔ)上,真分?jǐn)?shù)理論作出了如下兩個(gè)重要推論:第一,真分?jǐn)?shù)等于實(shí)得分?jǐn)?shù)的平均數(shù)(T=E(X));第二,在一組測(cè)量分?jǐn)?shù)中,實(shí)得分?jǐn)?shù)的變異數(shù)(方差)等于真分?jǐn)?shù)的變異數(shù)(方差)與誤差分?jǐn)?shù)的變異數(shù)(方差)之和。即(S2X=S2T+S2E)。經(jīng)典測(cè)量理論在真分?jǐn)?shù)理論假設(shè)的基石上構(gòu)建起了它的理論大廈,主要包括信度、效度、項(xiàng)目分析、常模、標(biāo)準(zhǔn)化等基本概念。(1)信度(Reliability)。信度是測(cè)量理論中最重要的核心概念,指測(cè)量果的一致性程度,亦稱可靠性程度。在經(jīng)典測(cè)量理論中信度被定義為:一組測(cè)量分?jǐn)?shù)的真分?jǐn)?shù)的方差(變異數(shù))在總方差(總變異數(shù))中所占的比率。由于真分?jǐn)?shù)的方差和誤差分?jǐn)?shù)的方差是無法獲得的,因此這個(gè)信度概念還只是一個(gè)理想的構(gòu)想的概念,不能直接計(jì)算。為了解決這一問題,CTT提出了平行測(cè)驗(yàn)(ParallelTest)的概念。所謂平行測(cè)驗(yàn)是指能夠?qū)ν槐辉嚨耐惶刭|(zhì)作相同準(zhǔn)確測(cè)量的不同測(cè)驗(yàn)形式(測(cè)驗(yàn)題目)。如果某一測(cè)驗(yàn)有許多平行式,則某被試可以在每一形式上獲一個(gè)觀測(cè)分?jǐn)?shù),這樣就產(chǎn)生了一個(gè)觀測(cè)分?jǐn)?shù)的分布,這一分布的平均值就稱作該被試的真分?jǐn)?shù)。實(shí)際上,平行測(cè)驗(yàn)是一個(gè)構(gòu)想的概念,要在實(shí)際的測(cè)驗(yàn)的編制中實(shí)現(xiàn)是非常困難甚至是不可能的,最多也只能說是比較接近。在平行測(cè)驗(yàn)假設(shè)的基礎(chǔ)上,CTT提出了估計(jì)測(cè)驗(yàn)信度的一系列方法,如采用相關(guān)法進(jìn)行重測(cè)信度(Test-retestReliability)、復(fù)本信度(Equivalent-formsReliability)、分半信度(Split-halfReliability)的估計(jì),提出同質(zhì)性的概念以保證反應(yīng)的一致性,如克倫巴赫(Cronbachα)系數(shù)、庫德和理查遜(G.F.Kuder&M.W.Richardson,1937)提出的估計(jì)一致性的兩個(gè)公式K-R20公式和K-R21公式、荷伊特信度(Hoyt,1941)等都是進(jìn)行同質(zhì)性估計(jì)的重要方法。(2)效度(Validity)測(cè)量的效度是指測(cè)量結(jié)果的有效性程度,也就是已測(cè)到的質(zhì)和量與主試者欲測(cè)的質(zhì)和量相符合的程度,有的也稱效度為正確性。效度是任何一種測(cè)評(píng)必須解決的首要問題,因?yàn)橛行詻Q定了一種對(duì)測(cè)量效度的考查是一個(gè)很復(fù)雜的問題,特別是對(duì)人的潛在特質(zhì)的測(cè)量,因?yàn)闈撛谔刭|(zhì)并不是一個(gè)看得見摸得著的物質(zhì)實(shí)體,而是一種觀念構(gòu)想。對(duì)潛在特質(zhì)的測(cè)量只能采用間接的方法,其測(cè)量模型可表示用行為主義的公式S-R表示,在測(cè)量過程中我們所能控制的是呈現(xiàn)給被試的刺激S,所能觀測(cè)到的是被試在一定測(cè)量情景下對(duì)刺激S的反應(yīng)R。而潛在特質(zhì)是介于S和R之間的,在這一中間過程對(duì)S傳入大腦的信息作出了處理,處理后的信息以R方式輸出。簡(jiǎn)單地說,效度要弄清楚的是在S信號(hào)傳入大腦后,哪種(哪些或最主要是哪一種)特質(zhì)參與了對(duì)輸入信號(hào)的處理。CTT對(duì)效度問題提出了諸多解決方案,因而有很多效度名稱。如,同時(shí)效度,預(yù)測(cè)效度,表面效度,相容效度,協(xié)同效度,假設(shè)效度,效標(biāo)關(guān)聯(lián)效度,實(shí)證效度,經(jīng)驗(yàn)效度等等。為了規(guī)范效度問題的研究與解釋,美國(guó)心理學(xué)會(huì)在1974年將測(cè)量的效度分為三大類,即,內(nèi)容效度(ContentValidity),是指測(cè)驗(yàn)的內(nèi)容對(duì)欲測(cè)范圍內(nèi)內(nèi)容的代表性程度;結(jié)構(gòu)效度(ConstructValidity),測(cè)量結(jié)果與測(cè)驗(yàn)的理論假設(shè)之間的一致性程度;效標(biāo)關(guān)聯(lián)效度(Criterion-relatedValidity),又稱實(shí)證效度,指測(cè)量的結(jié)果與某種外在效標(biāo)之間的一致性程度,一般用測(cè)驗(yàn)分?jǐn)?shù)與效標(biāo)之間的相關(guān)系數(shù)表示。成就測(cè)驗(yàn)或?qū)W科測(cè)驗(yàn)(以檢測(cè)知識(shí)為主的考試)較容易獲得較高的內(nèi)容效度,而對(duì)這類測(cè)驗(yàn)也往往注重考察它們的內(nèi)容效度。對(duì)于能力測(cè)驗(yàn)、個(gè)性測(cè)驗(yàn)、態(tài)度測(cè)驗(yàn)、品德測(cè)評(píng)等,其內(nèi)容效度的考察往往比較困難,而采用效標(biāo)關(guān)聯(lián)效度較多。效度的檢驗(yàn)不是一次就能完成的,往往要通過累積證據(jù)的方法不斷積累效度資料來證實(shí)它的有效性,結(jié)構(gòu)效度在根據(jù)某一理論結(jié)構(gòu)模型(智力、個(gè)性等)編制測(cè)驗(yàn)時(shí)特別注重,它也是通過累積證據(jù)的方法來效度獲得支持的。(3)項(xiàng)目分析(ItemAnalysis)為了提高測(cè)驗(yàn)的信度和效度,CTT理論特別注重測(cè)驗(yàn)項(xiàng)目的質(zhì)量,除了深入研究試題的類型和功能及編制技巧外,還發(fā)明一系列篩選、甄別項(xiàng)目的方法,統(tǒng)稱為項(xiàng)目分析,其中最主要的是難度分析和區(qū)分度分析。項(xiàng)目難度的主要指標(biāo)是通過率,即在該題上答對(duì)的人數(shù)與全體被試的比率(或平均得分與該題滿分的比率)。僅難度還不足以說明題目質(zhì)量的優(yōu)劣,CTT還提出以題目對(duì)被試水平區(qū)分鑒別能力作為評(píng)價(jià)試題質(zhì)量的區(qū)分度概念。(4)常模(Norm)CTT理論認(rèn)為,僅從測(cè)驗(yàn)試卷上的得分不能獲得被試個(gè)體確切地位的信息。為了對(duì)測(cè)驗(yàn)的分?jǐn)?shù)進(jìn)行合理的解釋,提出常模的概念。所謂常模即是從某一總體中抽取的被試樣本在該測(cè)驗(yàn)上得分的分布,以常模團(tuán)體的平均數(shù)(或中位數(shù))為參照點(diǎn),將個(gè)體的分?jǐn)?shù)標(biāo)定在高或低于參照點(diǎn)的某一位置以確定該被試在團(tuán)體中的相對(duì)地位。這種標(biāo)定可以通過原始分?jǐn)?shù)(RawScore)轉(zhuǎn)換成量表分(ScaleScore),或稱導(dǎo)出分?jǐn)?shù)。CTT將這種類型的測(cè)驗(yàn)稱為常模參照測(cè)驗(yàn)(Norm-referencedTest),與此相對(duì)應(yīng)的稱為標(biāo)準(zhǔn)參照測(cè)驗(yàn)(Criterion-referencedTest),其測(cè)驗(yàn)分?jǐn)?shù)的解釋與轉(zhuǎn)換方法有所不同。(5)標(biāo)準(zhǔn)化(Standardization)所謂標(biāo)準(zhǔn)化是指對(duì)測(cè)驗(yàn)實(shí)施程序、對(duì)象范圍、施測(cè)環(huán)境、測(cè)試方式、測(cè)驗(yàn)時(shí)限、分?jǐn)?shù)解釋(常模)作了統(tǒng)一的規(guī)定,使測(cè)驗(yàn)?zāi)軌蛟诋悤r(shí)、異地,不同的主試等條件下進(jìn)行,并能得到同等有效的測(cè)驗(yàn)結(jié)果。標(biāo)準(zhǔn)化的思想主要來自自然科學(xué)中對(duì)實(shí)驗(yàn)條件進(jìn)行嚴(yán)格控制以降低測(cè)量誤差,其方法主要源自實(shí)驗(yàn)心理學(xué)中對(duì)無關(guān)變量和干擾變量控制的方法。2概化理論凡測(cè)量都有誤差,誤差可能來自測(cè)量工具的不標(biāo)準(zhǔn)或不適合所測(cè)量的對(duì)象,也可能來自工具的使用者沒有掌握要領(lǐng),也可能是測(cè)量條件和環(huán)境所造成,也可能是測(cè)量對(duì)象不合作所引起。總之產(chǎn)生測(cè)量誤差的原因是多種多樣的,而CTT理論僅以一個(gè)E就概括了所有的誤差,并不能指明哪種誤差或在總誤差中各種誤差的相對(duì)大小如何。這樣對(duì)于測(cè)量工具和程序的改革沒有明確的指導(dǎo)意義,只能根據(jù)主試自己的理解去控制一些因素,針對(duì)性并不強(qiáng)。鑒于此種情況,二十世紀(jì)六十至七十年代初,克倫巴赫(Cronbach)等人提出了概化理論(GeneralizabilityTheory)簡(jiǎn)稱GT理論。GT理論的基本思想是,任何測(cè)量都處在一定的情境關(guān)系之中,應(yīng)該從測(cè)量的情境關(guān)系中具體地考察測(cè)量工作,提出了多種真分?jǐn)?shù)與多種不同的信度系數(shù)的觀念,并設(shè)計(jì)了一套方法去系統(tǒng)辯明與實(shí)驗(yàn)性研究多種誤差方差的來源。并用“全域分?jǐn)?shù)”(UniverseScore)代替“真分?jǐn)?shù)”(TrueScore),用“概括化系數(shù),G系數(shù)”(GeneralizabilityCoefficent)代替了“信度”(Reliabilty)。概化理論認(rèn)為,測(cè)量的總方差可以分解為代表目標(biāo)測(cè)量的方差成分和構(gòu)成誤差的種種方差成分。測(cè)量工作中要加以認(rèn)識(shí)和予應(yīng)用的心理特質(zhì)水平是測(cè)量目標(biāo)。而構(gòu)成測(cè)量條件與具體情境關(guān)系的因素,稱為測(cè)量側(cè)面(FacetsofMeasurement)。如學(xué)生閱讀能力測(cè)驗(yàn),其目的是對(duì)學(xué)生閱讀能力的測(cè)量,因此,閱讀能力就成為測(cè)量目標(biāo),除此外試題的水平和評(píng)分者等因素也會(huì)影響測(cè)驗(yàn)的總變異。這兩個(gè)因素就是測(cè)量側(cè)面。這里對(duì)學(xué)生閱讀能力的測(cè)量是在雙側(cè)面情境的條件下進(jìn)行的。測(cè)量側(cè)面中的單個(gè)事例叫側(cè)面的水平,如有兩個(gè)評(píng)分者甲和乙,則評(píng)分者這一側(cè)面就有兩個(gè)水平。測(cè)量側(cè)面又分為隨機(jī)側(cè)面和固定側(cè)面。隨機(jī)側(cè)面是指測(cè)量側(cè)面中所包含的各水平中是類似水平的隨機(jī)樣本,而非固定不變的側(cè)面,如大規(guī)??荚囍性u(píng)分者每次都有可能不同,由這樣變化的評(píng)分者所組成的測(cè)量側(cè)面就稱為隨機(jī)側(cè)面。固定側(cè)面是指在各次實(shí)施中測(cè)量側(cè)面的所在水平一直保持不變的測(cè)量側(cè)面,如標(biāo)準(zhǔn)化的心理測(cè)驗(yàn)中測(cè)驗(yàn)的項(xiàng)目總是一樣,這樣的側(cè)面就叫固定側(cè)面。因此,進(jìn)行測(cè)驗(yàn)的標(biāo)準(zhǔn)化就是對(duì)某些測(cè)量側(cè)面進(jìn)行固定。固定測(cè)量側(cè)面可以減少測(cè)量誤差,但卻會(huì)使測(cè)量目標(biāo)變得更為局限。比如,把閱讀理解題定為對(duì)科技說明文,這時(shí),所測(cè)的特質(zhì)就不再是一般的閱讀理解能力,而是特定的對(duì)科技說明文的理解能力了。這樣,測(cè)驗(yàn)所得分?jǐn)?shù)就不能再推廣到原來那么寬廣的范圍了。概化理論強(qiáng)調(diào),測(cè)量目標(biāo)是具體的,并不是絕對(duì)固定不變的。因而全域分?jǐn)?shù)也就不固定,可以有多種。一方面,當(dāng)固定側(cè)面時(shí),側(cè)面本身會(huì)轉(zhuǎn)化為測(cè)量目標(biāo)的一部分(如對(duì)一般閱讀理解能力的測(cè)量轉(zhuǎn)變?yōu)閷?duì)科技說明文的測(cè)量),測(cè)量目標(biāo)要局限化;另一方面,當(dāng)測(cè)量中考察目的與應(yīng)用需要改變時(shí),測(cè)量目標(biāo)對(duì)象就可能完全轉(zhuǎn)移。比如,當(dāng)作文考試結(jié)果是要對(duì)考生作判斷時(shí),測(cè)量目標(biāo)就是考生的作文能力,若要把評(píng)分嚴(yán)與評(píng)分寬的評(píng)分者區(qū)分開,評(píng)分者的能力就成了測(cè)量目標(biāo),也即測(cè)量目標(biāo)就完全發(fā)生了轉(zhuǎn)移。顯然,測(cè)量目標(biāo)不同時(shí),標(biāo)志測(cè)量目標(biāo)的分?jǐn)?shù)也就不同。測(cè)量目標(biāo)在具體關(guān)系條件下的分?jǐn)?shù)叫全域分?jǐn)?shù)。這樣,有時(shí)對(duì)同一批測(cè)量資料來說,當(dāng)測(cè)量工作的具體關(guān)系變化時(shí)全域分?jǐn)?shù)也會(huì)變。即同一測(cè)驗(yàn)資料就可能有多種全域分?jǐn)?shù)。概化理論把全域分?jǐn)?shù)方差對(duì)總變差的比稱為為概括力系數(shù)(簡(jiǎn)稱G系數(shù))。而總方差可以分成全域分?jǐn)?shù)方差(δ2(p)和誤差分?jǐn)?shù)方差(δ2(δ)),如果測(cè)驗(yàn)是常模參照性測(cè)驗(yàn),則G系數(shù)E2ρ是評(píng)價(jià)測(cè)驗(yàn)穩(wěn)定性程度的最佳指標(biāo):即:E2ρ=(δ2(p))/[δ2(p)+(δ2(δ))]若該測(cè)驗(yàn)是標(biāo)準(zhǔn)參照性測(cè)驗(yàn),則其依存性j指標(biāo)是測(cè)驗(yàn)穩(wěn)定一致性的最好指標(biāo)。j=(δ2(p))/[δ2(p)+(δ2(△))]上兩式中,誤差方差δ2(δ)可能是很多項(xiàng)的和,如上例中考生的閱讀理解能力的方差是標(biāo)志測(cè)量目標(biāo)的方差,即為全域分?jǐn)?shù)方差記為(δ2(p)),而試題、評(píng)分者及三個(gè)主效應(yīng)間的交互作用方差(共有7種方差成分)都不應(yīng)包括在全域分?jǐn)?shù)方差之中,作為誤差方差(δ2(δ))的一部分,是構(gòu)成總方差的成分之一。由此可見,當(dāng)全域分?jǐn)?shù)方差不變,而誤差分?jǐn)?shù)方差增大時(shí),概括力系數(shù)值降低,信度降低。反之,當(dāng)全域分?jǐn)?shù)方差增大,而誤差分?jǐn)?shù)方差不變,則概括力系數(shù)增大,信度提高。所以,隨著測(cè)量情境關(guān)系的變化,測(cè)量目標(biāo)與側(cè)面的變動(dòng),概括力系數(shù)即信度也就會(huì)不同。同一批資料就可能有多種不同含義與取值的概括力系數(shù)。一般說來,增大概括力系數(shù)的方法有兩種:第一種是,固定測(cè)量側(cè)面(如固定試題)。第二種是增加側(cè)面所包含的水平數(shù)(如增加試題或評(píng)分者數(shù)目)。(漆書青,1993)概化理論是用方差分析的方法來全面估計(jì)出各種方差成分的相對(duì)大小,并可直接比較其大小。雖然真分?jǐn)?shù)理論也可以分別地估出某一方差成分的大小,如代表試題側(cè)面的內(nèi)部一致性系數(shù),代表評(píng)分者側(cè)面的評(píng)分者信度等,正因?yàn)槭菃为?dú)估出的,這些值之間不能直接比較,也只有對(duì)主效應(yīng)作估計(jì),而不能對(duì)交互作用進(jìn)行估計(jì)。而概化理論卻能做到這一點(diǎn)。它既能估計(jì)出主效應(yīng),也能估計(jì)出交互作用效應(yīng),并能對(duì)各估計(jì)值的大小進(jìn)行直接比較。在概化理論中,理論估出各方差成分相對(duì)大小的過程,叫概化理論的概括分研究階段或稱G-研究階段。概化理論并不內(nèi)靜止地分析各種誤差來源,還要在G-研究的基礎(chǔ)上,通過實(shí)驗(yàn)性研究,進(jìn)一步考察不同測(cè)驗(yàn)設(shè)計(jì)條件下的概括力系數(shù)的變化狀況,如固定側(cè)面或增加側(cè)面水平下的變化狀況,從而探求到最佳的控制誤差的方法,作出最佳的設(shè)計(jì)決策,從而改進(jìn)測(cè)驗(yàn)的內(nèi)容、方式方法提供了有價(jià)值的信息。這一階段稱作決策研究或稱D-研究階段。GT在研究測(cè)量誤差方面有更大的優(yōu)越性,它能針對(duì)不同測(cè)量情境估計(jì)測(cè)量誤差的多種來源,為改善測(cè)驗(yàn),提高測(cè)量質(zhì)量有用的信息。其缺陷是統(tǒng)計(jì)計(jì)算相當(dāng)繁雜,如果借助一些統(tǒng)計(jì)分析軟件可以解決這一問題。GT理論目前在我國(guó)還處于實(shí)驗(yàn)研究階段,在面試、考核等主觀性測(cè)評(píng)中有一些應(yīng)用(劉遠(yuǎn)我,張厚粲,1998)3項(xiàng)目反應(yīng)理論任何一種理論都不可能是完美無缺的,作為測(cè)量初期發(fā)展起來的理論更是不可避免地存在著一些缺陷。項(xiàng)目反應(yīng)理論(ItemResponseTheory,IRT)則是在反對(duì)和克服傳統(tǒng)測(cè)量理論的不足之中發(fā)展起來的一種現(xiàn)代測(cè)量理論。無論是CTT還是GT,其測(cè)驗(yàn)內(nèi)容的選擇、項(xiàng)目參數(shù)的獲得和常模的制定,都是通過抽取一定的樣本(行為樣本或被試樣本),因此可以說二者都建立在隨機(jī)抽樣理論基礎(chǔ)之上。它們的局限性主要表現(xiàn)在以下四個(gè)方面:(1)測(cè)量結(jié)果的應(yīng)用范圍有限。一般來說,對(duì)測(cè)量誤差的控制有三種方法:配對(duì)或標(biāo)準(zhǔn)化、隨機(jī)化、統(tǒng)計(jì)調(diào)整。配對(duì)或標(biāo)準(zhǔn)化技術(shù)的應(yīng)用使得誤差變量的影響不能解釋測(cè)量結(jié)果的差異,隨機(jī)化技術(shù)的應(yīng)用可使誤差變量的影響不能在測(cè)量結(jié)果上形成系統(tǒng)誤差。統(tǒng)計(jì)調(diào)整技術(shù)建立在數(shù)學(xué)模型基礎(chǔ)上,將誤差變量的影響參數(shù)化,從而在測(cè)量中調(diào)整參數(shù)估計(jì)值,減少誤差變量的影響。經(jīng)典測(cè)驗(yàn)理論主要應(yīng)用的是配對(duì)或標(biāo)準(zhǔn)化技術(shù)和隨機(jī)化技術(shù)。然而,使用配對(duì)或標(biāo)準(zhǔn)技術(shù)的測(cè)量結(jié)果僅僅能在相同的測(cè)量條件下成立,卻不能將其拓展到非標(biāo)準(zhǔn)化的環(huán)境之中去,使得測(cè)量的應(yīng)用受到很大的限制。(2)測(cè)量分?jǐn)?shù)賴性于具體的測(cè)驗(yàn)(內(nèi)容)。經(jīng)典測(cè)量理論控制誤差應(yīng)用標(biāo)準(zhǔn)化技術(shù),但其標(biāo)準(zhǔn)化的對(duì)象是測(cè)驗(yàn)的各種外部變量,對(duì)測(cè)驗(yàn)的內(nèi)部變量即測(cè)驗(yàn)的項(xiàng)目的“性質(zhì)”這一變量卻沒有也不可能實(shí)現(xiàn)標(biāo)準(zhǔn)化。這就造成了測(cè)驗(yàn)分?jǐn)?shù)對(duì)具體測(cè)驗(yàn)的依賴性,迫使經(jīng)典測(cè)驗(yàn)理論要么使用統(tǒng)一的試卷,要么使用實(shí)際上并不平行的所謂“平行試卷”。這種處理方法,即給實(shí)際操作帶來困難,也給結(jié)果的解釋帶來較大的誤差。(3)測(cè)量參數(shù)依賴于被試樣本。經(jīng)典測(cè)量理論構(gòu)造了一個(gè)完整的理論體系,同時(shí)設(shè)計(jì)了一套參數(shù)指標(biāo)來刻劃測(cè)量各方面的特性。如測(cè)驗(yàn)的信度、效度、項(xiàng)目的難度、區(qū)分度等。但是這些參數(shù)的估計(jì)對(duì)樣本的依賴性是很大的。測(cè)驗(yàn)的信度和效度采用相關(guān)分析法,同樣受到樣本的影響。為避免抽樣誤差對(duì)參數(shù)估計(jì)的影響,經(jīng)典測(cè)量理論特別強(qiáng)調(diào)樣本對(duì)總體的代表性。但經(jīng)典理論所應(yīng)用的是隨機(jī)抽樣,隨機(jī)抽樣總是偏差存在。何況在實(shí)際工作中,由于客觀條件的限制,還不能做到隨機(jī)抽樣。因此,參數(shù)估計(jì)值對(duì)樣本的依賴性使得所估參數(shù)對(duì)測(cè)驗(yàn)的分析的價(jià)值是有限的。(4)信度估計(jì)的精確性不高。測(cè)量的重要目標(biāo)就是降低測(cè)量誤差,提高測(cè)量的精度。在經(jīng)典測(cè)量理論中,信度被定義為真分?jǐn)?shù)的變異在總變異(觀測(cè)分?jǐn)?shù))中所占的比率。然而,真分?jǐn)?shù)的方差是無法求取的,誤差的方差也無法計(jì)算。為了估計(jì)信度,CTT就提出了平行測(cè)驗(yàn)的概念,并在此基礎(chǔ)上推演出了若干個(gè)信度估計(jì)公式。但是嚴(yán)格的平行測(cè)驗(yàn)是不存在的,等價(jià)測(cè)驗(yàn)也很難獲得的,在此基礎(chǔ)上估計(jì)的測(cè)驗(yàn)信度很難達(dá)到比較高的精確程度。另外,經(jīng)典測(cè)量理論中的信度估計(jì)值也是一個(gè)籠統(tǒng)值,即假定對(duì)不同能力水平的被試來說,測(cè)量的誤差是相同的。而事實(shí)是,一份測(cè)驗(yàn)只有在施測(cè)于能力水平與測(cè)驗(yàn)難度相當(dāng)?shù)谋辉嚂r(shí)容易獲得比較高的測(cè)量精確度。當(dāng)測(cè)驗(yàn)施測(cè)于能力水平高于(或低于)測(cè)驗(yàn)難度的被試時(shí)就容易產(chǎn)生較大的測(cè)量誤差。而且測(cè)量誤差值會(huì)隨著被試水平與測(cè)驗(yàn)難度距離的增加而變大。項(xiàng)目反應(yīng)理論研究是以潛在特質(zhì)為假設(shè)并從項(xiàng)目特征曲線開始。所謂項(xiàng)目特質(zhì)曲線就是用能穩(wěn)定反映被試水平的特質(zhì)量表分代替被試卷面總分作為回歸曲線的自變量,并把求得的被試在試題上正確作答概率對(duì)特質(zhì)分?jǐn)?shù)的回歸曲線稱為項(xiàng)目特質(zhì)曲線(ItemCharacteristicCurve,簡(jiǎn)稱ICC)。項(xiàng)目反應(yīng)理論研究中的一項(xiàng)重要工作就是要確定項(xiàng)目特征曲線的形態(tài),然后寫出這條特征曲線的解析式,即項(xiàng)目反應(yīng)函數(shù),也稱為項(xiàng)目特征函數(shù)(ItemCharacteristicFunction,簡(jiǎn)稱ICF)。第一個(gè)項(xiàng)目反應(yīng)理論模型是由洛德于1952年提出的雙參數(shù)正態(tài)肩形曲線模型。其項(xiàng)目特征曲線的形狀和函數(shù)如下。θ表示被試特質(zhì)水平的參數(shù);Pi(θ)表示特質(zhì)水平為θ的被試在項(xiàng)目I上正確回稱的概率。從理論上講,θ的取值在-∞和+∞之間,當(dāng)θ=-∞時(shí)Pi(θ)為0,當(dāng)θ=+∞時(shí)Pi(θ)為1;bi為項(xiàng)目難度參數(shù),它與特質(zhì)θ定義在同一個(gè)量表上。取θ=bi代入上式,得Pi(θ)=0.5,可見b點(diǎn)是肩形曲線的對(duì)稱中心,也是曲線的拐點(diǎn);ai稱為項(xiàng)目的區(qū)分度參數(shù)。從圖中可以看出,ai是曲線在拐點(diǎn)bi處的切線斜率的函數(shù),即自洛德提出第一個(gè)IRT模型后,許多學(xué)者投入到此領(lǐng)域的研究中,提出了很多種模型,目前應(yīng)用最多是伯恩鮑姆(Brinbaum)提出的邏輯斯蒂克模型(LogisticModel)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論