IRT在量表(測(cè)驗(yàn))編制上的應(yīng)用_第1頁(yè)
IRT在量表(測(cè)驗(yàn))編制上的應(yīng)用_第2頁(yè)
IRT在量表(測(cè)驗(yàn))編制上的應(yīng)用_第3頁(yè)
IRT在量表(測(cè)驗(yàn))編制上的應(yīng)用_第4頁(yè)
IRT在量表(測(cè)驗(yàn))編制上的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、目錄前言-1第一章 試題反應(yīng)理論的概念與發(fā)展-2第一節(jié) 試題反應(yīng)理論的基本概念-2第二節(jié) 試題反應(yīng)理論與古典測(cè)驗(yàn)理論的比較-2第三節(jié) 常見(jiàn)的irt模式-6第四節(jié) irt的基本假設(shè)-13第五節(jié) 當(dāng)代irt的發(fā)展-14第六節(jié) irt的應(yīng)用-15第二章 irt在測(cè)驗(yàn)編制上的應(yīng)用-19第一節(jié) 測(cè)驗(yàn)(量表)設(shè)計(jì)原理-19第二節(jié) 選擇模式-21第三節(jié) 估計(jì)受試者程度值-22第四節(jié) 試題分析-25第五節(jié) 測(cè)驗(yàn)訊息量與測(cè)量標(biāo)準(zhǔn)誤-28第六節(jié) 檢視資料的符合性-29第七節(jié) 以irt編制測(cè)驗(yàn)的實(shí)例-32前言試題反應(yīng)理論(irt)是測(cè)驗(yàn)領(lǐng)域中較新的技術(shù),它已經(jīng)被應(yīng)用在教育、心理、醫(yī)療等相關(guān)領(lǐng)域中,如國(guó)中基本學(xué)力測(cè)驗(yàn)

2、、托福、gre、gmat考試,以及國(guó)外的一些人格量表與醫(yī)學(xué)相關(guān)量表的編制。當(dāng)代著名的計(jì)算機(jī)化適性測(cè)驗(yàn)(cat)也必須仰賴irt的理論與技術(shù)才能運(yùn)作。本次工作坊的主要內(nèi)容是以介紹irt的概念與實(shí)務(wù)應(yīng)用為主,上午的課程是先對(duì)irt做基礎(chǔ)概念的介紹,接著以生活品質(zhì)量表與國(guó)中基本學(xué)力測(cè)驗(yàn)的發(fā)展為例,介紹irt的基礎(chǔ)應(yīng)用,并有實(shí)際數(shù)據(jù)讓學(xué)員上機(jī)操作,對(duì)于有量表發(fā)展需求者而言相當(dāng)實(shí)用。下午是irt的進(jìn)階課程,介紹irt在多向度測(cè)驗(yàn)及計(jì)算機(jī)化適性測(cè)驗(yàn)上的應(yīng)用,對(duì)于有興趣發(fā)展人格量表、多元性向測(cè)驗(yàn)等多向度測(cè)驗(yàn),或是想發(fā)展計(jì)算機(jī)化適性測(cè)驗(yàn)的人而言是很適合的課程。第一章、試題反應(yīng)理論的概念與發(fā)展第一節(jié) 試題反應(yīng)理

3、論的基本概念試題反應(yīng)理論(item response theory; irt)主要是用來(lái)描述試題特性(難度、鑒別度、猜測(cè)度)與受測(cè)者的能力(潛在特質(zhì))如何影響其答題反應(yīng)的一種數(shù)學(xué)模式。最簡(jiǎn)單的irt模式如下列公式(1)所示(rasch, 1960):, (1)其中qj為考生j的能力,bi是試題i的難度,而pij是受測(cè)者答對(duì)某個(gè)題目標(biāo)機(jī)率。在irt的模式中,受試者在某個(gè)題目上的答對(duì)機(jī)率是同時(shí)受到受試者能力與試題難易度所影響;而受試者在測(cè)驗(yàn)上的整體表現(xiàn)就是各題目答對(duì)機(jī)率的聯(lián)合機(jī)率。藉由這個(gè)數(shù)學(xué)模式與聯(lián)合機(jī)率的概念,我們就能根據(jù)受試者在各個(gè)題目上的答題反應(yīng)來(lái)估計(jì)受試者的能力以及題目的難易度,并且讓接

4、受不同題目的受試者其能力可以互相比較。irt其實(shí)是許多試題反應(yīng)模式的總稱,當(dāng)代已經(jīng)有許多irt模式分別適用在許多不同的測(cè)驗(yàn)情境中。常見(jiàn)的 irt模式可以根據(jù)其所包含的試題參數(shù)數(shù)目來(lái)分,分為單參數(shù)的rasch模式、二參數(shù)模式與三參數(shù)模式(birnbaum, 1968)。也可以依據(jù)計(jì)分型態(tài)來(lái)分,分成二元計(jì)分(dicotomous)與多元計(jì)分(polytomous)模式;或是依據(jù)適用的作答方式來(lái)分,分成評(píng)定量尺(rating scale)模式、部分計(jì)分(partial credit)模式、名義量尺(nominal scale)模式等。第二節(jié) 試題反應(yīng)理論與古典測(cè)驗(yàn)理論的比較試題反應(yīng)理論與傳統(tǒng)測(cè)驗(yàn)理論

5、(classical test theory; ctt)的比較見(jiàn)表1-1所示(embretson & reise, 2000; hambleton & swaminathan, 1986)。大致可以從模式特性、試題參數(shù)特性、能力與分?jǐn)?shù)量尺特性、測(cè)量精準(zhǔn)度與應(yīng)用等幾個(gè)層面來(lái)看。1.模式特性:irt的模式是針對(duì)單一試題的作答反應(yīng)所提出的數(shù)學(xué)模式,在其模式中同時(shí)考量了受試者能力與試題特性對(duì)答對(duì)機(jī)率的影響,所以它是一種直接描述作答行為的模式。此外,irt其實(shí)是許多試題反應(yīng)模式的總稱,這些irt模式是分別依據(jù)各種不同計(jì)分方式與不同作答方式的測(cè)驗(yàn)情境所發(fā)展出來(lái)的。表1-1 試題反應(yīng)理論與傳統(tǒng)測(cè)驗(yàn)理論的比較

6、試題反應(yīng)理論傳統(tǒng)測(cè)驗(yàn)理論模式特性1.針對(duì)單一試題的作答反應(yīng)所提出的數(shù)學(xué)模式。2.現(xiàn)有各種不同的irt模式,適用于不同計(jì)分方式與作答方式的測(cè)驗(yàn)中。1.針對(duì)測(cè)驗(yàn)總分所提出的數(shù)學(xué)模式。2.各種不同計(jì)分方式與作答方式的測(cè)驗(yàn)都使用同一套模式。試題參數(shù)特性題目特性(參數(shù))的估計(jì)不會(huì)受到試者能力所影響。題目特性(參數(shù))的估計(jì)會(huì)受到試者能力所影響。能力與分?jǐn)?shù)量尺特性1.對(duì)受試者的能力估計(jì)不會(huì)受到題目特性所影響。2.根據(jù)irt模式與概似函數(shù)估計(jì)受試者最有可能的程度值,有比較強(qiáng)的數(shù)學(xué)理論基礎(chǔ)。3.可以直接參照題目的特性來(lái)解釋分?jǐn)?shù),也可發(fā)展出一套參照標(biāo)準(zhǔn)(常模參照或標(biāo)準(zhǔn)參照)來(lái)解釋分?jǐn)?shù)。4.用某些irt模式可算出等

7、距量尺。1.對(duì)受試者的能力估計(jì)會(huì)受到題目特性所影響。2.根據(jù)各題目的配分直接加總所得的分?jǐn)?shù),間接推測(cè)出受試者的程度值,較缺乏數(shù)學(xué)理論基礎(chǔ)。3.通常需要額外發(fā)展出一套參照標(biāo)準(zhǔn)(常模參照或標(biāo)準(zhǔn)參照),才能解釋測(cè)驗(yàn)分?jǐn)?shù)的意義。4.當(dāng)群體的分?jǐn)?shù)完全符合常態(tài)分布時(shí),才能轉(zhuǎn)換出等距量尺。測(cè)量精準(zhǔn)度(信度)測(cè)量精確度的評(píng)估是以題目為單位來(lái)計(jì)算再加總起來(lái),因此受試者的測(cè)量精確度(訊息量)是隨著受試者的能力以及所接受的題目特性而有所不同。測(cè)量精確度的評(píng)估是以測(cè)驗(yàn)為單位,因此接受同一測(cè)驗(yàn)的所有受試者其測(cè)量精確度(信度)都相同。應(yīng)用編制測(cè)驗(yàn)(量表)、分?jǐn)?shù)等化,編制題庫(kù)、計(jì)算機(jī)化適性測(cè)驗(yàn)、組合測(cè)驗(yàn)編制測(cè)驗(yàn)(量表)整體

8、評(píng)估優(yōu)點(diǎn):具有能力估計(jì)不變性、具有題目參數(shù)估計(jì)不變性、測(cè)量精準(zhǔn)度的概念較合理、應(yīng)用層面較廣。缺點(diǎn):模式不易理解、能力估計(jì)與試題參數(shù)估計(jì)較麻煩,須仰賴計(jì)算機(jī)軟件來(lái)分析。優(yōu)點(diǎn):模式簡(jiǎn)單易理解,能力與試題參數(shù)容易計(jì)算。缺點(diǎn):不合理地假設(shè)不同人的測(cè)量精準(zhǔn)度相同、應(yīng)用層面較狹隘,受試者程度值會(huì)受題目特性所影響、題目參數(shù)值會(huì)被受試者特性所影響。傳統(tǒng)測(cè)驗(yàn)理論則是一種針對(duì)測(cè)驗(yàn)總分所提出的數(shù)學(xué)模式。在傳統(tǒng)測(cè)驗(yàn)理論中假設(shè)測(cè)驗(yàn)所得的分?jǐn)?shù)是包含了真實(shí)分?jǐn)?shù)與誤差兩個(gè)部份。如公式(2)所示:x(測(cè)得分?jǐn)?shù))=t(真實(shí)分?jǐn)?shù))+e(誤差), (2)不過(guò)這個(gè)模式并未說(shuō)明測(cè)驗(yàn)總分是如何得到的(一般都是直接對(duì)各試題的得分加總),也不

9、知道受試者答題反應(yīng)與題目難易度或受試者能力關(guān)系。在傳統(tǒng)測(cè)驗(yàn)理論中,不論是使用何種題型、何種計(jì)分方式或作答方式,都是使用公式(2)來(lái)描述測(cè)得分?jǐn)?shù)的特性,所以是一種與作答行為無(wú)關(guān)的數(shù)學(xué)模式。2.試題參數(shù)特性試題參數(shù)是指試題的難易度、鑒別度、猜對(duì)率等用來(lái)描述試題特性的指標(biāo)。在irt中,題目參數(shù)的估計(jì)不會(huì)受到試者能力所影響。這主要是因?yàn)樵趇rt中已經(jīng)將試題參數(shù)與受試者能力同時(shí)納進(jìn)其模式里,因此在估計(jì)其試題參數(shù)時(shí)已經(jīng)考量了受試者能力的影響,因此所估計(jì)出來(lái)的試題參數(shù)不會(huì)受到受試者能力所影響。所以在irt中估計(jì)試題參數(shù)時(shí),受試者是否具有代表性并不是很重要,只要受試者的人數(shù)夠多(單參數(shù)模式至少200人,三參數(shù)

10、模式至少1000人),程度值不會(huì)過(guò)度集中,就能夠估計(jì)出穩(wěn)定的試題參數(shù)。在傳統(tǒng)測(cè)驗(yàn)理論中,試題參數(shù)幾乎是完全決定于受試群體的能力。以難易度為例,如果受試群體的能力較高,則計(jì)算出來(lái)的試題難易度值(答對(duì)率)就變高,亦即題目變簡(jiǎn)單;如果受試群體的能力較低,則計(jì)算出來(lái)的試題難易度值(答對(duì)率)就變低,亦即題目變難。所以試題是難還是簡(jiǎn)單,完全取決于抽樣時(shí)所選到的受試群體能力高低,因此樣本的代表性對(duì)試題參數(shù)的估計(jì)有很重要的影響力。同樣地,試題鑒別度也會(huì)明顯地受到受試群體的能力分散程度所影響。3.能力與分?jǐn)?shù)量尺特性在irt中,對(duì)受試者的能力估計(jì)值也不會(huì)受到試題特性所影響,這也是因?yàn)閕rt模式已經(jīng)將試題參數(shù)與受試

11、者能力同時(shí)納進(jìn)其模式里,因此在估計(jì)受試者能力時(shí)已經(jīng)考量了試題參數(shù)的影響,因此所估計(jì)出來(lái)的試題參數(shù)不會(huì)受到受試者能力所影響。此外,irt的程度值是根據(jù)irt模式與概似函數(shù)(likelihood)所估計(jì)出來(lái)的,有比較強(qiáng)的數(shù)學(xué)理論基礎(chǔ)。而irt的程度值與試題難易度值是共享同一個(gè)量尺,也就是說(shuō)一個(gè)人的能力高低可以直接參照題目的難易度以及題目的描述句來(lái)解釋,因此不需要參照群體就能詳細(xì)地解釋受試者的能力特性。最特別的是,如果使用irt中的rasch模式(單參數(shù)模式),則所估計(jì)出來(lái)的受試者能力值具有等距量尺的特性,亦即其能力量尺的單位距離是相同的,這可以由rasch模式的推估證明出來(lái)(王文中,民86)。在傳

12、統(tǒng)測(cè)驗(yàn)理論中,受試者的能力值是直接加總測(cè)驗(yàn)中各題目的得分所得。當(dāng)測(cè)驗(yàn)的題目較難,則受試者的得分通常會(huì)比較低;當(dāng)測(cè)驗(yàn)的題目較簡(jiǎn)單,則受試者的得分通常會(huì)比較高,意即受試者的能力高低完全決定于他所接受到的題目難易度。而這種直接將各題目的得分加總形成能力值的做法也缺乏數(shù)學(xué)理論依據(jù),因?yàn)槿说哪芰Σ⒉皇侨绱藛渭兊母鶕?jù)題目的答對(duì)情形來(lái)加總,否則只要重復(fù)地讓一個(gè)人作同樣的題目10次,能力豈不變成10倍。此外,傳統(tǒng)測(cè)驗(yàn)理論所得到的分?jǐn)?shù)無(wú)法直接依題目特性來(lái)解釋,需要另外建立一套參照標(biāo)準(zhǔn)(常模參照或標(biāo)準(zhǔn)參照)才有辦法解釋測(cè)驗(yàn)分?jǐn)?shù)的意義。而且傳統(tǒng)測(cè)驗(yàn)理論所得的分?jǐn)?shù)也不具備等距量尺的特性,因此其分?jǐn)?shù)嚴(yán)格說(shuō)來(lái)并不適合進(jìn)行

13、四則運(yùn)算,也不適合直接拿來(lái)做t檢定或因素分析等統(tǒng)計(jì)運(yùn)算。4.測(cè)量精準(zhǔn)度irt的測(cè)量精準(zhǔn)度是以訊息量(information)的概念來(lái)表示。訊息量是指某種難度的題目對(duì)某種能力的受試者的測(cè)量誤差平方根的倒數(shù)。如公式(3)所示:, (3)其中i為訊息量,為測(cè)量誤差。測(cè)量誤差愈低,對(duì)此人的測(cè)量就愈精準(zhǔn),因此該題所提供的訊息量就愈高。相同題目對(duì)不同能力者而言其訊息量并不相同,因此即使是接受相同的測(cè)驗(yàn),對(duì)不同能力者而言,他們的訊息量或測(cè)量誤差應(yīng)該是不相同的。這種測(cè)量精準(zhǔn)度的特性較符合實(shí)際的測(cè)驗(yàn)情況,因?yàn)闇y(cè)驗(yàn)題目的難易度很難同時(shí)適用于各種不同能力的受試者,對(duì)高能力者而言,題目可能過(guò)于簡(jiǎn)單而測(cè)不出其能力;對(duì)低

14、能力者而言,題目可能過(guò)難而也測(cè)不出其能力;只有對(duì)中等能力者而言,題目的難易度較適當(dāng),較能精確地測(cè)出其能力。irt的訊息量概念恰可以反映出測(cè)驗(yàn)對(duì)不同能力者有不同測(cè)量精準(zhǔn)度的現(xiàn)象。反觀傳統(tǒng)測(cè)驗(yàn)理論,其測(cè)量精確度的評(píng)估是以測(cè)驗(yàn)為單位所計(jì)算出來(lái)的,也就是測(cè)量標(biāo)準(zhǔn)誤(standard error of measurement; sem)。我們可以經(jīng)由x=t+e的概念算出測(cè)驗(yàn)的信度(reliability),再經(jīng)由下列公式轉(zhuǎn)換得來(lái):其中為群體分?jǐn)?shù)標(biāo)準(zhǔn)差,為r測(cè)驗(yàn)信度。由于在傳統(tǒng)測(cè)驗(yàn)理論中,接受相同測(cè)驗(yàn)的受試者其信度都相同,因此測(cè)量標(biāo)準(zhǔn)誤也被視為相同。而這樣的假設(shè)顯然與實(shí)際的測(cè)驗(yàn)情況是不符合的,因?yàn)闇y(cè)驗(yàn)中的

15、題目不見(jiàn)得對(duì)各種不同能力的受試者而言都適用。5.應(yīng)用irt是促進(jìn)現(xiàn)代測(cè)驗(yàn)進(jìn)步的重要關(guān)鍵,尤其是計(jì)算機(jī)化適性測(cè)驗(yàn)?;趇rt的單向度假定與受試者能力估計(jì)的不變性,接受不同題目的受試者其能力就可以比較,因此就能讓受試者都接受適合于自己能力的題目,達(dá)到適性測(cè)驗(yàn)的目的。除此之外,irt的試題參數(shù)較不受樣本所影響,因此很適合用來(lái)發(fā)展題庫(kù);而irt的能力也較不受試題參數(shù)所影響,所以也很適合用來(lái)進(jìn)行能力分?jǐn)?shù)的等化。另外,irt也明確地建構(gòu)出試題與測(cè)驗(yàn)之間的關(guān)系,因此可以直接根據(jù)測(cè)驗(yàn)的目的(例如希望對(duì)不同能力者的測(cè)量誤差要低于多少)來(lái)選擇測(cè)驗(yàn)題目,組成各種形式的測(cè)驗(yàn)。而傳統(tǒng)測(cè)驗(yàn)理論的應(yīng)用就比較局限在測(cè)驗(yàn)編制或

16、量表編制上,很難應(yīng)用在上述各層面中。整體而言,irt是屬于理論架構(gòu)較嚴(yán)謹(jǐn)、應(yīng)用層面較廣的測(cè)驗(yàn)理論,irt所提來(lái)的諸多測(cè)量特性都較符合實(shí)際的測(cè)驗(yàn)情況;但是由于其模式較復(fù)雜不易讓人理解,計(jì)算過(guò)程也較繁瑣,因此尚未廣泛地被大眾所接受。不過(guò)隨著計(jì)算機(jī)科技的進(jìn)步,進(jìn)行irt分析時(shí)所需要的計(jì)算已經(jīng)都可以用計(jì)算機(jī)來(lái)執(zhí)行,因此也已經(jīng)漸漸被應(yīng)用在一些著名的大型測(cè)驗(yàn)中,例如國(guó)外的toefl、gre測(cè)驗(yàn),以及國(guó)內(nèi)的國(guó)中基本學(xué)力測(cè)驗(yàn)等。而傳統(tǒng)測(cè)驗(yàn)理論由于已經(jīng)被使用許久,而且其理論概念較簡(jiǎn)單,目前現(xiàn)有的測(cè)驗(yàn)也大多以它為基礎(chǔ)所發(fā)展出來(lái)的,因此短期內(nèi)還不太容易被irt所取代;然而它在測(cè)量特性上的一些問(wèn)題以及應(yīng)用層面的局限性

17、,已經(jīng)讓某些領(lǐng)域的測(cè)驗(yàn)(量表)編制者漸漸轉(zhuǎn)向以irt為理論基礎(chǔ)來(lái)發(fā)展測(cè)驗(yàn)。相信未來(lái)irt在測(cè)驗(yàn)評(píng)量領(lǐng)域的普及率應(yīng)該會(huì)愈來(lái)愈廣。第三節(jié) 常見(jiàn)的irt模式由于irt是許多試題反應(yīng)模式的總稱,直到現(xiàn)在irt模式還在發(fā)展中。以下僅以計(jì)分的方式來(lái)分,分別介紹常見(jiàn)的幾種irt模式。(一)二元計(jì)分模式二元計(jì)分模式是指受試者在題目上的答題反應(yīng)只有答對(duì)或答錯(cuò)兩種。這類模式又可以根據(jù)模式中所考慮到的試題參數(shù)個(gè)數(shù)來(lái)分,分為單參數(shù)的rasch模式(rasch, 1986)、二參數(shù)模式與三參數(shù)模式(birnbaum ,1968; lord , 1952)。1. rasch模式rasch模式如公式(1)所示,先前已經(jīng)介紹

18、過(guò)了。在rasch模式中認(rèn)為,影響受試者答對(duì)機(jī)率的試題特性主要是難易度,因此只要了解人的能力與題目的難易度,就能知道該人在某題目上的答對(duì)機(jī)率是多少。而在rasch模式中,所有試題都被要求要具有高鑒別度(都是1.0),而受試者猜對(duì)題目標(biāo)機(jī)率已經(jīng)被納入受試者能力中,而不是試題特性,因此猜對(duì)率為0。該模式最大的特色是它對(duì)試題的特性與受試者的作答反應(yīng)有較嚴(yán)格的要求,如果都能符合這些要求,則所估計(jì)出來(lái)的能力值就能反映出受試者的真實(shí)能力,而且是等距量尺。根據(jù)rasch模式,我們可以畫(huà)出各試題的特征曲線(item characteristic curve; icc),如圖1-1所示。對(duì)同一試題而言,一個(gè)人的

19、能力愈高其答對(duì)該題的機(jī)率應(yīng)該也愈高,因此這個(gè)曲線是單調(diào)遞增(monotonically increasing)曲線。由于每個(gè)試題都被要求需要有相同的高鑒別度,因此每條曲線在中段的部分看起來(lái)都很接近平行,整份測(cè)驗(yàn)的試題特征曲線放在一起就好像是一把尺上面有許多刻度一般。其中以答對(duì)率為0.5向右劃一條橫線,與各試題特征曲線的交叉點(diǎn),對(duì)應(yīng)到能力軸上的值,被定義為該題的難易度。由此也可以看出在irt中,能力與試題難易度被視為是被放在同一個(gè)量尺上的相對(duì)概念,因?yàn)槟J街袃烧叩臄?shù)值是可以直接相減的。圖1-1 rasch模式中不同試題的特征曲線圖2.二參數(shù)模式二參數(shù)模式最早是由lord (1952)所提出,當(dāng)時(shí)

20、所提出來(lái)的是常態(tài)肩型模式,之后再經(jīng)birnbaum (1968)修改成較間單的對(duì)數(shù)模式,如公式(4)所示。, (4)其中是試題i的鑒別度,其它的符號(hào)意義與公式(1)相同。在二參數(shù)模式中,與rasch最大的不同點(diǎn)是題目可以被允許有不同的鑒別度,而這些不同的鑒別度會(huì)對(duì)受試者答對(duì)題目標(biāo)機(jī)率有不同程度的調(diào)節(jié)性影響。這種模式與實(shí)際數(shù)據(jù)的分析結(jié)果較為接近,因?yàn)槊}者所設(shè)計(jì)出來(lái)的試題很難都具有相同的高鑒別度,有些題目的鑒別度總是不符合預(yù)期,但是依然能發(fā)揮部份的測(cè)量功能。二參數(shù)模式所畫(huà)出來(lái)的試題反應(yīng)曲線如圖1-2所示。在圖1-2中,有的曲線的中段是比較陡峭的(例如a1),有的則是比較平緩的(例如a2),這些題

21、目雖然具有相同的難易度,但是隨著受試者能力的提升,他們答對(duì)這兩題的機(jī)率變化情形卻不相同。在a1中段的區(qū)域,能力只要有些微的改變其答對(duì)率就有顯著的提升;而在a2中,同樣的能力改變量,其答對(duì)率的提升情形明顯不如a1。圖1-2 二參數(shù)模式中不同試題的特征曲線圖3.三參數(shù)模式三參數(shù)模式的概念也是源自于lord (1952)與birnbaum (1968)。這種模式主要是針對(duì)那些可以經(jīng)由猜測(cè)來(lái)答對(duì)試題的測(cè)驗(yàn)情況,例如選擇題、是非題等。如公式(6)所示。,(5)其中是試題i的猜對(duì)率,這里要特別注意的是此猜對(duì)率是指能力極低者猜對(duì)該題的機(jī)率,隨著能力的提高,答對(duì)該題的機(jī)率仍然會(huì)提升,但可以提升的機(jī)率范圍僅有。

22、由于在模式中,每個(gè)題目除了有難易度與鑒別度的特征外,還有可以被猜對(duì)的可能性,因此這種模式比二參數(shù)模式更能符合實(shí)際的數(shù)據(jù)。三參數(shù)模式的試題特征曲線如圖1-3所示,從圖1-3可以看出試題特征曲線更具有多樣性。在圖形左方,各試題特征曲線與縱軸的交叉點(diǎn)即為該題的猜對(duì)率,也就是能力很低者答對(duì)該題的機(jī)率。在以選擇題為主的測(cè)驗(yàn)情境中,我們經(jīng)??梢园l(fā)現(xiàn)有些試題因?yàn)檎T答選項(xiàng)設(shè)計(jì)不佳,或是題目中有些暗示答案的線索,造成即使能力很低者也容易猜對(duì)該題(例如c1),此時(shí)就需要這類模式來(lái)找出那些題目。而三參數(shù)模式在估計(jì)受試者能力時(shí)也已經(jīng)考慮了不同題目的猜對(duì)率對(duì)受試者答對(duì)機(jī)率的影響,因此所得到的能力值應(yīng)該會(huì)比較符合其實(shí)際能

23、力水準(zhǔn)。圖1-4 三參數(shù)模式中不同試題的特征曲線圖(二)多元計(jì)分模式多元計(jì)分是指受試者在題目上的答題結(jié)果不只有一種,而是有很多種可能性,例如:在成就測(cè)驗(yàn)中,經(jīng)常有計(jì)算題、簡(jiǎn)答題或申論題等開(kāi)放式反應(yīng)的題型,根據(jù)受試者回答題目的完整性,分別給予不同的分?jǐn)?shù)或等級(jí)?;蚴窃趹B(tài)度量表中常見(jiàn)的likert量表,將受試者在量表題目上的答題反應(yīng)分成非常同意、大致同意、沒(méi)意見(jiàn)、不太同意、非常不同意等,并分別給予15分。關(guān)于這些多元計(jì)分題的irt模式相當(dāng)多,在此僅介紹兩種較常見(jiàn)的模式。1.部份給分模式部份計(jì)分模式(partial credit model, pcm) 是由masters(1982)所提出來(lái)的,由于這

24、是他歸納各種適用于次序反應(yīng)數(shù)據(jù)的模式所得,因此pcm的適用層面較廣。只要是題目的評(píng)分點(diǎn)有次序的概念,得到低分比較簡(jiǎn)單,得到高分比較難時(shí),就能適用于這種模式。pcm的概念如公式(6)所示:, (6)其中,是第i題的最高得分,而是第i題的第j個(gè)得分的難度階(step difficult)。因此可以解釋成在第i題所有可能的得分類別中,得到x分的機(jī)率有多高。例如,某個(gè)計(jì)算題的計(jì)分方式是03(即)分,受試者得到1分的機(jī)率是: 而、就是分別從0分要變成1分、從1分要變成2分,或是從2分要變成3分所需跨越的難度階(或是能力點(diǎn))。這可以用圖1-4來(lái)說(shuō)明較清楚。在圖1-4中,依各種能力者得到不同分?jǐn)?shù)類別的機(jī)率所

25、畫(huà)出來(lái)的曲線稱為類別反應(yīng)曲線(category response curve)。其中,曲線0與曲線1的交叉點(diǎn)即為,此即為從0分要變成1所需跨越的難度階,或是當(dāng)受試者的能力值高于時(shí),則他得到0分的機(jī)率將會(huì)高于他得到1分的機(jī)率。藉由這種多元計(jì)分模式,我們可以知道受試者要在某個(gè)題目上得到某個(gè)分?jǐn)?shù)時(shí)(例如:得到1分),其能力的可能范圍所在(例如:圖中的之間),因此就能夠?qū)κ茉囌叩哪芰ψ鞲_的測(cè)量。但是要達(dá)到這個(gè)目標(biāo),需要有客觀的評(píng)分結(jié)果。從另一個(gè)觀點(diǎn)來(lái)看,也可以看成是評(píng)分者把受試者評(píng)為某種分?jǐn)?shù)點(diǎn)的嚴(yán)苛程度,愈高,表示評(píng)分者對(duì)于該題要得到某個(gè)分?jǐn)?shù)點(diǎn)的要求愈高,意即愈嚴(yán)苛。圖1-4 多元計(jì)分模式中,在某

26、試題得m分的類別反應(yīng)曲線圖2.評(píng)定量尺模式評(píng)定量表模式(rating scale model, rsm)是由andrich (1978)所提出來(lái)的,主要是適用在量表中所有的題目都有相同的計(jì)分方式時(shí)。例如:在自陳式人格或態(tài)度量表中常使用五點(diǎn)式或四點(diǎn)式的likert量表來(lái)讓受試者回答,每個(gè)題目都使用相同的評(píng)分點(diǎn)數(shù),其基本假設(shè)是受試者在各評(píng)分點(diǎn)上的差異,對(duì)所有題目而言都是相同的。如公式(7)所示:, (7)其中為第i題的平均難度,是量表中各評(píng)分點(diǎn)的難度階與平均難度之差距,而。由于rcm假定所有題目的都相同,因此不需像在pcm中樣要估計(jì)出每個(gè)題目的難度階,而是整份量表只需要估計(jì)出m個(gè)難度階即可。rsm

27、所畫(huà)出來(lái)的類別反應(yīng)曲線與pcm很像,在此不再重復(fù),讀者可自行參考圖1-4。唯一不同的是,在pcm中,不同題目的類別反應(yīng)曲線中,各類別的相對(duì)位置都不太相同,如圖1-5所示;但是在rsm中,不同題目的類別反應(yīng)曲線中,各類別的相對(duì)位置都一樣,只是平均難度不同,所以看起來(lái)只是整個(gè)圖形向左或向右平移而已,如圖1-6所示。 圖1-5 在多元計(jì)分模式,不同試題的類別反應(yīng)曲線圖圖1-6 在評(píng)定量尺模式,不同試題的類別反應(yīng)曲線圖第四節(jié) irt的基本假設(shè)irt有兩項(xiàng)重要的基本假設(shè),數(shù)據(jù)必須符合這些假設(shè)才能具備第二節(jié)所述的各項(xiàng)特性,否則就不適合用irt模式來(lái)進(jìn)行分析,當(dāng)然也無(wú)法具備其良好的測(cè)量特性。此兩項(xiàng)重要的假設(shè)

28、是單向度(unidimensionality)與局部獨(dú)立性(local independency)。1.單向度單向度是指同一份測(cè)驗(yàn)中的所有題目主要都是測(cè)量相同的某一項(xiàng)能力,或是受試者在測(cè)驗(yàn)題目上的答題反應(yīng)主要是受到單一項(xiàng)能力所影響。其實(shí)這是大部分測(cè)驗(yàn)的必備條件,只有當(dāng)測(cè)驗(yàn)中所有題目都測(cè)到相同的能力,我們才適合將受試者在這些題目上的得分經(jīng)由某種組合得到一個(gè)分?jǐn)?shù),用此分?jǐn)?shù)來(lái)表示受試者在這項(xiàng)能力上的程度。例如,我們必須檢驗(yàn)數(shù)學(xué)科測(cè)驗(yàn)中的所有題目是否都是在測(cè)量數(shù)學(xué)能力,而不是測(cè)到了其它能力,這樣受試者的測(cè)驗(yàn)分?jǐn)?shù)才能代表他的數(shù)學(xué)程度。如果其中有些題目因?yàn)檎Z(yǔ)匯表達(dá)太艱深或題意不清,使語(yǔ)文能力較差的受試者看

29、不懂題目而答錯(cuò),此時(shí)就表示這份數(shù)學(xué)測(cè)驗(yàn)不只測(cè)量到數(shù)學(xué)能力,還測(cè)量到語(yǔ)文能力,因此就不是單向度測(cè)驗(yàn),不適合用irt來(lái)進(jìn)行分析。有些智力測(cè)驗(yàn)或綜合能力測(cè)驗(yàn)(自然科、社會(huì)科)經(jīng)常將許多測(cè)量不同能力的分測(cè)驗(yàn)放在一起,就整份測(cè)驗(yàn)而言即是違反單向度假定,因此不適合進(jìn)行irt分析,也不適合形成單一分?jǐn)?shù)來(lái)解釋受試者的能力。不過(guò)如果測(cè)驗(yàn)結(jié)果是將這些分測(cè)驗(yàn)分開(kāi)來(lái)呈現(xiàn),就能夠用irt模式來(lái)針對(duì)每個(gè)分測(cè)驗(yàn)進(jìn)行分析。另外,當(dāng)題目本身就是設(shè)計(jì)用來(lái)同時(shí)測(cè)量?jī)煞N能力,受試者必須同時(shí)具備這兩種能力才能答對(duì)時(shí),也是違反單向度假定。幸好目前已經(jīng)發(fā)展出多向度試題反應(yīng)模式(multidimensional item response

30、theory; mirt)可以用來(lái)處里這些測(cè)驗(yàn)(adams, wilson & wang, 1997; hattie, 1981; mckinley & reckase, 1983)。2.局部獨(dú)立性局部獨(dú)立性則是指相同能力水準(zhǔn)的受試者,在各個(gè)題目上的答對(duì)機(jī)率是互相獨(dú)立的。也就是說(shuō),受試者的潛在特質(zhì)(能力)是影響答題反應(yīng)的唯一因素,當(dāng)排除這個(gè)因素的影響后,不同題目間的答題反應(yīng)不會(huì)有任何關(guān)系。此假設(shè)其實(shí)是奠基于單向度假設(shè)上,當(dāng)測(cè)驗(yàn)題目為單向度時(shí),此假設(shè)才有可能成立;如果不是單向度,則不同試題的答對(duì)機(jī)率可能受到其它能力的共同影響,因此就無(wú)法符合局部獨(dú)立性的假設(shè)。在成就測(cè)驗(yàn)中,常有一些試題會(huì)使用同一組

31、閱讀材料或圖片,稱為題組(testlet)。例如:英語(yǔ)或國(guó)文能力測(cè)驗(yàn)中的閱讀測(cè)驗(yàn)。受試者必須讀完這些測(cè)驗(yàn)后再回答若干試題。如果這篇閱讀材料是某些受試者事前閱讀過(guò)或是特別熟悉的,則他們就比較容易答對(duì)這幾題;而那些具有相同能力卻對(duì)這類題材比較不熟悉的人就比較容易答錯(cuò)這幾題,因此這些題目間的答題反應(yīng)就會(huì)有相關(guān),而違反局部獨(dú)立性假定。像這類測(cè)驗(yàn)就不適合用irt模式來(lái)進(jìn)行分析,所幸現(xiàn)在已經(jīng)發(fā)展出題組反應(yīng)模式(testlet response theory; trt)來(lái)解決這種問(wèn)題(wainer,bradlow & du, 2000)。第五節(jié) 當(dāng)代irt的發(fā)展當(dāng)代的irt模式已經(jīng)有數(shù)十種之多,分別應(yīng)用在許

32、多不同的測(cè)驗(yàn)情境里。表1-2分別依據(jù)向度數(shù)量、計(jì)分方式、參數(shù)數(shù)量來(lái)分類,列舉幾種比較常見(jiàn)的irt模式,以及幾種常見(jiàn)的irt軟件。這些軟件的價(jià)格并不高,且有些軟件有免費(fèi)的試用版本可供下載。在由評(píng)量系統(tǒng)公司中販?zhǔn)塾性S多關(guān)于類irt模式的書(shū)籍以及軟件,也有些試用版本供下載,詳情請(qǐng)洽。在眾多模式與軟件中,如果研究者沒(méi)有特殊的考量,作者比較建議采用包容性較廣的模式與軟件。例如:相較于二元計(jì)分模式而言,多元計(jì)分模式顯然比二元計(jì)分模式好,因?yàn)槎?jì)分模式僅是多元計(jì)分模式的其中個(gè)特例,因此多元計(jì)分模式當(dāng)然也可以用來(lái)分析二元計(jì)分的數(shù)據(jù)。同樣地,采用多向度模式也比單向度模式好,因?yàn)閱蜗蚨饶J揭彩嵌嘞蚨饶J街械奶乩?/p>

33、。至于參數(shù)個(gè)數(shù),雖然rasch模式也是三參數(shù)模式的特例,但由于rasch模式是比較符合測(cè)量觀點(diǎn)的模式,而且可以得到等距量尺,因此如果對(duì)測(cè)量特性的要求較高者可以考慮采用rasch模式;不過(guò)如果測(cè)驗(yàn)題目的品質(zhì)或?qū)嶋H數(shù)據(jù)不容易符合rasch模式,則三參數(shù)模式也是不錯(cuò)的選擇。表1-2 常見(jiàn)的irt模式與相關(guān)軟件向度數(shù)量計(jì)分方式參數(shù)個(gè)數(shù)模式提出者適用軟件單向度二元計(jì)分單參數(shù)模式(rasch模式)rasch(1960)bigstep,bilog,bilog-mg二參數(shù)模式lord(1952)三參數(shù)模式birnbaum(1968)多元計(jì)分類別反應(yīng)模式(nominal response model)bock(

34、1972)multilog, conquest等級(jí)反應(yīng)模式(grade response model)samejima(1969)部份給分模式 (partial credit model)wright & masters(1982)評(píng)定量尺模式(rating scale model)andrich (1978)多向度二元計(jì)分多向度二參數(shù)模式mckinley & reckase(1983)noharm,conquest多向度三參數(shù)模式hattie(1981)多元計(jì)分多元計(jì)分模式adams, wilson & wang, (1997)第六節(jié) irt的應(yīng)用先前曾提到當(dāng)代irt可以應(yīng)用在許多層面,包括

35、編制測(cè)驗(yàn)(量表)、分?jǐn)?shù)等化,編制題庫(kù)、計(jì)算機(jī)化適性測(cè)驗(yàn)、組合測(cè)驗(yàn)等,以下分別對(duì)這些應(yīng)用做簡(jiǎn)單說(shuō)明。1.編制測(cè)驗(yàn)(量表) 編制測(cè)驗(yàn)(量表)是irt最基本的功能,許多irt模式就是分別為了要因應(yīng)各種不同的測(cè)驗(yàn)或量表類型所提出來(lái)的。測(cè)驗(yàn)編制者可以根據(jù)所發(fā)展出來(lái)的測(cè)驗(yàn)類型與評(píng)分方式,選擇合適的irt模式。如果成就測(cè)驗(yàn)中都是采用是非題、選擇題等客觀測(cè)驗(yàn)題型,就很適合用二元計(jì)分的irt模式;如果包含計(jì)算題、簡(jiǎn)答題、申論題等開(kāi)放式題型時(shí),就可采用部份給分模式;也有專為語(yǔ)文類科的閱讀測(cè)驗(yàn)或克漏字測(cè)驗(yàn)等相依題所設(shè)計(jì)的題組反應(yīng)模式。如果是態(tài)度量表中采用likert式的多點(diǎn)計(jì)分量表,就可以采用等級(jí)反應(yīng)模式或評(píng)定量尺

36、模式。如果希望借著不同向度間的相關(guān)性來(lái)提高多元性向測(cè)驗(yàn)、人格測(cè)驗(yàn)或綜合能力測(cè)驗(yàn)的測(cè)量精準(zhǔn)度,還可以采用多向度irt模式。irt在測(cè)驗(yàn)(量表)分析上的功能主要有下列幾項(xiàng):(1)了解試題特征:估計(jì)試題的難易度、鑒別度、猜對(duì)率、計(jì)分點(diǎn)的難度階等。(2)估計(jì)受試者潛在特質(zhì)(能力):估計(jì)出不受試題難易度所影響的受試者程度值。(3)篩選試題與修改試題:根據(jù)的模式符合程度來(lái)篩選題目;或根據(jù)題目特征選擇難易度適當(dāng)?shù)母哞b別度試題,或修改猜對(duì)率較高的試題。(4)了解測(cè)驗(yàn)對(duì)不同程度特質(zhì)(能力)者的誤差:計(jì)算測(cè)驗(yàn)在不同能力點(diǎn)的訊息量以及測(cè)量誤差。(5)發(fā)展測(cè)驗(yàn)的量尺:建立等距量尺;或在考量測(cè)量誤差后將受試者能力值轉(zhuǎn)成

37、所需的量尺分?jǐn)?shù)。有關(guān)這些步驟的做法,將留待以后的章節(jié)中再作詳細(xì)介紹。2.測(cè)驗(yàn)等化(equating)測(cè)驗(yàn)等化是指將受試者程度值(或題目參數(shù))轉(zhuǎn)換成相同量尺,以方便進(jìn)行比較。由于irt所估計(jì)出來(lái)的受試者程度值具有不受題目難易度影響的特性。因此,只要受試者能力符合irt的模式與基本假設(shè),即使受試者接受不同難度的試題,其所估計(jì)出來(lái)的能力值不需經(jīng)過(guò)等化就可以放在同一個(gè)量尺上互相比較。不過(guò)其先備條件是題目參數(shù)必須先估計(jì)出來(lái)。irt所估計(jì)出來(lái)的題目參數(shù)也具有不受受試者影響的特性,只要受試者的程度值不要過(guò)度集中,人數(shù)不要太少,作答行為符合irt基本假設(shè),就能得到穩(wěn)定的題目參數(shù)值。不過(guò)估計(jì)題目參數(shù)所采取的預(yù)試

38、樣本通常是在不同群體、在不同時(shí)間點(diǎn)作答不同組試題所得(因?yàn)樽屖茉囌咄瑫r(shí)作答太多試題容易因疲勞而干擾作答),因此最好對(duì)這些試題進(jìn)行試題參數(shù)等化(又稱試題連結(jié))。試題等化的過(guò)程需要從安排預(yù)試題目開(kāi)始,例如要安插共同題到各題本中,并依同時(shí)估計(jì)法、平均數(shù)標(biāo)準(zhǔn)差法或特征曲線法來(lái)調(diào)整試題參數(shù)值。有關(guān)等化的問(wèn)題需要有較多說(shuō)明,將留待以后再述。3.建立題庫(kù)題庫(kù)是指將題目以及其相關(guān)的試題特性與試題參數(shù)建立在同一個(gè)數(shù)據(jù)庫(kù)中,以便未來(lái)能夠方便地從此數(shù)據(jù)庫(kù)中依據(jù)測(cè)驗(yàn)?zāi)康某檫x出所適當(dāng)?shù)脑囶}來(lái)進(jìn)行測(cè)驗(yàn)。題庫(kù)中必須包含許多試題特征(命題者、字?jǐn)?shù)、附圖表等),以及事先估計(jì)與等化過(guò)的試題參數(shù),否則未來(lái)在選取試題來(lái)組合測(cè)驗(yàn)時(shí)就不

39、知要如何進(jìn)行了。為了達(dá)到這個(gè)目的,建立題庫(kù)通常需要花費(fèi)相當(dāng)龐大的人力、物力與時(shí)間。因此,只有在需要經(jīng)常性施測(cè)(例如每隔一段時(shí)間就要施測(cè)一次),或需要根據(jù)不同對(duì)象來(lái)組合測(cè)驗(yàn),或需要進(jìn)行計(jì)算機(jī)化適性測(cè)驗(yàn)時(shí)才值得建立題庫(kù)。建立題庫(kù)的大致步驟如下陳柏熹,;wainer et al., 1990:(1)確定題庫(kù)的目標(biāo)(測(cè)驗(yàn)?zāi)繕?biāo))(2)建立題庫(kù)的雙向細(xì)目表(3)甄選與訓(xùn)練大量的命題者與修(審)題者(4)根據(jù)命題原則設(shè)計(jì)試題(5)將試題內(nèi)容與試題參數(shù)輸入計(jì)算機(jī)數(shù)據(jù)庫(kù)(6)修(審)試題 (7)預(yù)試與試題分析(8)分級(jí)、整理與補(bǔ)充試題有關(guān)題庫(kù)編制的實(shí)際作法,將留待以后再作詳細(xì)討論。4.組合測(cè)驗(yàn)由于irt的能力估

40、計(jì)不受試題參數(shù)影響;試題參數(shù)的估計(jì)也不受受試者能力所影響。因此我們可以根據(jù)不同程度者來(lái)發(fā)展出適合他們的測(cè)驗(yàn),而且還能讓接受不同測(cè)驗(yàn)的受試者能力可以放在相同的量尺上進(jìn)行比較。組合測(cè)驗(yàn)通常是根據(jù)測(cè)驗(yàn)的目標(biāo)或受試者的程度值來(lái)決定。最常見(jiàn)的受測(cè)驗(yàn)?zāi)繕?biāo)是希望達(dá)到的測(cè)量精準(zhǔn)度有多高,就是測(cè)驗(yàn)信度水準(zhǔn)。當(dāng)然測(cè)驗(yàn)中各項(xiàng)內(nèi)容的題數(shù)比例也需要符合測(cè)驗(yàn)的目標(biāo),此即為內(nèi)容效度。只要該測(cè)驗(yàn)事先建立出完整的題庫(kù),就能根據(jù)一些測(cè)驗(yàn)組合策略,從題庫(kù)中選取符合條件的題目來(lái)組成所需的測(cè)驗(yàn)。常見(jiàn)的組合測(cè)驗(yàn)的策略有程序選題法、0-1線性規(guī)劃法,類神經(jīng)網(wǎng)絡(luò)法等。應(yīng)用心理測(cè)量期刊(applied psychological measur

41、ement)第22卷第3期中特別針對(duì)這項(xiàng)議題有詳細(xì)介紹,有興趣的讀者可以自行參閱。5.發(fā)展計(jì)算機(jī)化適性測(cè)驗(yàn)irt最吸引人的應(yīng)用價(jià)值莫過(guò)于計(jì)算機(jī)化適性測(cè)驗(yàn)了。計(jì)算機(jī)化適性測(cè)驗(yàn)主要是利用計(jì)算機(jī)的快速運(yùn)算速度,根據(jù)受試者的答題反應(yīng)實(shí)時(shí)估算出其程度值,并立刻選出符合受試者程度值的題目讓受試者作答。由于所選出來(lái)的題目都很適合受試者的程度,因此只需要少數(shù)題目(約傳統(tǒng)非適性測(cè)驗(yàn)的1/21/3)就能達(dá)到與傳統(tǒng)非適性測(cè)驗(yàn)相當(dāng)?shù)臏y(cè)量精準(zhǔn)度。除了測(cè)量精準(zhǔn)度之外,計(jì)算機(jī)制式的接口還可以幫助達(dá)到測(cè)驗(yàn)情境標(biāo)準(zhǔn)化,而其多媒體特性也能讓測(cè)驗(yàn)試題更逼真,以彩色、動(dòng)畫(huà)、語(yǔ)音或互動(dòng)操作的方式來(lái)進(jìn)行測(cè)驗(yàn),提升測(cè)驗(yàn)的效度。有關(guān)計(jì)算機(jī)化

42、適性測(cè)驗(yàn)的發(fā)展程序?qū)⒘舸罄m(xù)章節(jié)再作詳細(xì)介紹。第二章、irt在測(cè)驗(yàn)編制上的應(yīng)用第節(jié) 測(cè)驗(yàn)(量表)設(shè)計(jì)原理有關(guān)irt的測(cè)驗(yàn)設(shè)計(jì)原理,讀者可以參考wright與stone(1979)所出版的經(jīng)典讀物優(yōu)良測(cè)驗(yàn)設(shè)計(jì)(best test design)。在該書(shū)中介紹了幾項(xiàng)與irt有關(guān)的測(cè)驗(yàn)設(shè)計(jì)原理,以下提出幾點(diǎn)供參考。1.測(cè)量模式的概念測(cè)驗(yàn)所使用的模式必須符合測(cè)量的原理,此即為測(cè)量模式。些原理包括:a.要具有可以測(cè)量的潛在特質(zhì) 可以直接觀察到或用客觀物理工具直接測(cè)量的特質(zhì)是不太適合用測(cè)驗(yàn)來(lái)測(cè)量的;例如高矮胖瘦。而特質(zhì)本身若只有性質(zhì)上的不同而無(wú)程度上的差異也不適合用測(cè)驗(yàn)來(lái)測(cè)量,例如問(wèn)題解決流程、做事風(fēng)格。

43、只有那些觀察不到的潛在特質(zhì),而且不同人在該特質(zhì)上會(huì)有程度上的高低差異時(shí),才是適合用測(cè)驗(yàn)來(lái)測(cè)量的特質(zhì)。例如:數(shù)學(xué)能力、情緒穩(wěn)定性、焦慮程度等。b.欲測(cè)量的特質(zhì)必須是單向度 當(dāng)要測(cè)量的特質(zhì)是單向度時(shí),我們就能夠劃出一條線來(lái)描述該項(xiàng)特質(zhì),并且設(shè)計(jì)出一些能夠測(cè)量不同特質(zhì)的題目,用受試者在這些題目上的作答反應(yīng)來(lái)估計(jì)受試者在該特質(zhì)上的程度值,如圖2-1所示。如果不是單向度,我們就無(wú)法畫(huà)出一條線來(lái)描述這個(gè)特質(zhì)的高低程度,即使設(shè)計(jì)出一些題目讓受試者去作答,我們也不知道要如何將這些作答結(jié)果來(lái)描繪出受試者的程度值。也就是說(shuō),測(cè)量國(guó)文的題目與測(cè)量數(shù)學(xué)的題目不應(yīng)該被放在一起或相加成為一項(xiàng)分?jǐn)?shù),因?yàn)槠洳痪咭饬x。c.要根

44、據(jù)測(cè)驗(yàn)?zāi)康脑O(shè)計(jì)出能測(cè)量到不同程度特質(zhì)的題目 測(cè)量的目的就是要了解受試者在某種特質(zhì)上的程度。如果許多題目所測(cè)量到的程度值都很接近,則受試者在該特質(zhì)上的程度高低就無(wú)法被測(cè)量開(kāi)來(lái)(如圖2-2上);此外,若題目所測(cè)到的程度值安排不恰當(dāng),也無(wú)法有效的測(cè)出受試者在該特質(zhì)上的差異(如圖2-2中)。當(dāng)題目所測(cè)到的程度值能符合測(cè)驗(yàn)的目的均等地分散時(shí),才能較真實(shí)地呈現(xiàn)出受試者的程度高低與差異(如圖2-2下)。每天都有用不完的能量常做激烈運(yùn)動(dòng)還能活力十足身體功能正常,不影響日常生活從事簡(jiǎn)單的活動(dòng)(散步)後不會(huì)累沒(méi)有臥病在床休息與睡眠功能正常有辦法從事簡(jiǎn)單的運(yùn)動(dòng),如慢跑甲受試者乙受試者圖2-1 單向度的測(cè)量概念甲受試

45、者乙受試者甲受試者乙受試者甲受試者乙受試者低程度題目高程度題目高程度題目高程度題目低程度題目低程度題目0分8分4分5分2分5分圖2-2 不同程度題目的安排對(duì)測(cè)驗(yàn)結(jié)果的影響d.受測(cè)者的答題反應(yīng)必須是合理的 測(cè)量品質(zhì)的好壞不只與測(cè)驗(yàn)題目的品質(zhì)有關(guān),也與受試者有關(guān)。如果受試者的作答反應(yīng)很不合理,表示測(cè)量的過(guò)程有瑕疵,則測(cè)驗(yàn)結(jié)果將無(wú)法反映出受試者的程度高低。例如:在圖2-1中,當(dāng)甲受試者對(duì)于從事簡(jiǎn)單的活動(dòng)(散步)后不會(huì)累右方的題目都覺(jué)得他做不到,而對(duì)于身體功能正常,不影響日常生活左方的題目都覺(jué)得蠻符合他的身體感受,此時(shí)我們就能說(shuō)他對(duì)自己身體功能的感受是介于這兩個(gè)題目之間。 在圖2-1中,如果受試者對(duì)右

46、半部的題目都覺(jué)得描述的非常像他對(duì)自己的身體感受,而在左半部的題目都認(rèn)為很不像他,這就是不合理的反應(yīng)。則我們將很難判斷出受試者對(duì)自己身體感受的評(píng)估是高還是低。因?yàn)橐粋€(gè)做完激烈運(yùn)動(dòng)還能活力十足的人,怎么可能無(wú)法做到從事簡(jiǎn)單的活動(dòng)(散步)而不覺(jué)得累呢?e.分?jǐn)?shù)量尺應(yīng)該要符合等距的特性等距量尺是分?jǐn)?shù)的重要特性,在數(shù)學(xué)上,數(shù)字應(yīng)該要具有單位大小相同的特性的,此即為等距。意即3分與2分之間的差異,應(yīng)該要等于2分與1分之間的差異。符合等距特性的分?jǐn)?shù)才能夠進(jìn)行四則運(yùn)算。但是在社會(huì)科學(xué)的領(lǐng)域里,我們卻經(jīng)常使用不具有等距特性的分?jǐn)?shù)來(lái)進(jìn)行四則運(yùn)算,例如,相加形成總分、相減來(lái)比較差異大小等。這些運(yùn)算其實(shí)都不符合數(shù)學(xué)上

47、的要求,當(dāng)然也無(wú)法符合統(tǒng)計(jì)運(yùn)算的基本要求。如果測(cè)驗(yàn)所得的分?jǐn)?shù)不僅是描述受試者的程度值,還要進(jìn)行后續(xù)的比較、分析時(shí),就應(yīng)該將測(cè)驗(yàn)分?jǐn)?shù)轉(zhuǎn)成等距量尺。rasch模式所建立出來(lái)的量尺恰能符合等距的要求,這也是為何在眾多irt模式發(fā)展出來(lái)后,仍然有許多學(xué)者一直獨(dú)鐘于rasch模式的主要原因。第二節(jié) 選擇模式使用irt來(lái)發(fā)展測(cè)驗(yàn)時(shí),第一個(gè)會(huì)面臨到的問(wèn)題就是應(yīng)該要選擇何種模式來(lái)進(jìn)行分析,其中又以要選擇單參數(shù)模式、二參數(shù)模式還是三參數(shù)模式來(lái)分析的問(wèn)題最具爭(zhēng)議性。根據(jù)embretson與reise(2000)的建議與作者的經(jīng)驗(yàn),選擇irt模式時(shí)應(yīng)考量幾項(xiàng)因素:1.計(jì)分或估計(jì)能力時(shí),是否要對(duì)題目進(jìn)行加權(quán)?如果認(rèn)為

48、各題目對(duì)于能力估計(jì)都同等重要時(shí),就表示不需要加權(quán),此時(shí)可以選單參數(shù)模式;如果不是,就要選二參數(shù)或三參數(shù)模式。2.對(duì)量尺特性的要求。如果研究者希望分?jǐn)?shù)量尺要符合等距的特性,就要使用單參數(shù)模式;如果分?jǐn)?shù)量尺不一定要完全符合等距特性,則使用二參數(shù)或三參數(shù)模式即可。3.希望獲得的試題參數(shù)類型。如果編制者想要得到較多的試題參數(shù),以便能得到較完整的試題信息,則可以使用二參數(shù)或三參數(shù)模式;如果只需要知道題目所測(cè)量到的程度值,則使用單參數(shù)模式即可。4.根據(jù)量尺特性或測(cè)驗(yàn)分析的目的來(lái)決定。如果量尺是屬于多元計(jì)分,且允許每個(gè)題目有不同的計(jì)分方法,則可以使用部分給分模式;如果計(jì)分方式都相同(例如:都是五點(diǎn)計(jì)分),則

49、可以采用評(píng)定量尺模式。此外,有些特殊的irt模式可以滿足測(cè)驗(yàn)分析的目的。例如:linacre(1989)的多面向模式(many-facet model)可以幫助了解評(píng)分者嚴(yán)苛程度,并在估計(jì)能力時(shí)將之因素考量進(jìn)去;fischer(1973)的邏輯斯地潛在特質(zhì)模式(logistic latent trait model; lltm)可以幫助我們了解試題特征(例如:字?jǐn)?shù)、圖形、數(shù)字)與試題參數(shù)的關(guān)系。5.數(shù)據(jù)與模式的符合度的比較。當(dāng)無(wú)法決定要使用何種irt模式時(shí),可以試著使用幾種不同的模式分別進(jìn)行分析,算出不同模式的符合度指針(多數(shù)軟件會(huì)提供 -2 log likelihood值作為模式符合度指針)

50、,然后再使用概率比法(likelihood ratio comparison)來(lái)比較何種模式較好。有關(guān)數(shù)據(jù)與模式符合度的比較,將在本章稍后做介紹。第三節(jié) 估計(jì)受試者程度值估計(jì)受試者在某項(xiàng)特質(zhì)上的程度高低是所有測(cè)驗(yàn)(或量表)的主要目的,對(duì)irt而言當(dāng)然也不例外。先前曾提到irt所估計(jì)出來(lái)的受試者程度值不會(huì)受到題目參數(shù)所影響,其主要的作法是不直接用受試者的答題反應(yīng)來(lái)計(jì)算程度值,而是先根據(jù)答題反應(yīng)以及irt的模式建立反應(yīng)概似函數(shù)(likelihood function),再找出最有可能產(chǎn)生此種概似函數(shù)的受試者程度值。藉由irt的模式與局部獨(dú)立性的假設(shè),可以計(jì)算出受測(cè)者在整份測(cè)驗(yàn)上的反應(yīng)概似函數(shù),并藉

51、此估計(jì)出每個(gè)受試者在接受測(cè)驗(yàn)試題后的能力值。其概似函數(shù)如公式(8)所示, (8)其中ui表示受測(cè)者答對(duì)(u=1)或答錯(cuò)(u=0)某個(gè)題目;pi如公式(1)所示,這要依所選取的irt模式而定。而。舉例來(lái)說(shuō),如果有一位受試者分別做了5個(gè)題目,這5個(gè)題目的難度分別是(-1.0, 0, 0.5, 1.0, 2.0),而受試者的作答結(jié)果是1,1,0,1,0;其中1代表答對(duì),而0代表答錯(cuò)。若選擇rasch模式,則受試者的反應(yīng)概似函數(shù)為:此時(shí),我們就可以設(shè)法找出最有可能產(chǎn)生這種反應(yīng)概似函數(shù)的程度值。我們可以試著以-3.0、-2.5、-2.02.5、3.0等不同的程度值代入此概似函數(shù),看看何種程度值代入后會(huì)使

52、此概似函數(shù)值最大,則該值就是該受試者最有可能的程度值。從表2-1可以看出,受試者最有可能的程度值應(yīng)該是1.0。 實(shí)際上irt軟題在進(jìn)行能力估計(jì)時(shí),是以所有受試者在所有題目上的答題反應(yīng)矩陣所形成的概似函數(shù)來(lái)進(jìn)行估計(jì),也就是同時(shí)估計(jì)所有受試者的程度。由于此反應(yīng)概似函數(shù)是個(gè)相當(dāng)大的矩陣所建立出來(lái)的,通常沒(méi)有封閉解,只能求出近似解或最佳解。受測(cè)者的能力估計(jì)值就是此能使此概似函數(shù)得到最佳解的能力值。最常見(jiàn)的尋找最佳能力解的方法有三種:最大概似法(maximum likelihood; ml)、貝氏最大后驗(yàn)法(maximum a posteriori, map)與貝氏期望后驗(yàn)法(expected a po

53、steriori, eap)。表2-1 受試者能力的最大概似估計(jì)第1題第2題第3題第4題第5題難度-1.000.51.02.0答題反應(yīng)答對(duì)答對(duì)答錯(cuò)答對(duì)答錯(cuò)機(jī)率pp1-p11-p概似函數(shù)值程度值-3.00.120.050.970.020.990.000程度值-2.50.180.080.950.030.990.000程度值-2.00.270.120.920.050.980.001程度值-1.50.380.180.880.080.970.004程度值-1.00.500.270.820.120.950.012程度值-0.50.620.380.730.180.920.029程度值0.00.730.500

54、.620.270.880.054程度值0.50.820.620.500.380.820.079程度值1.00.880.730.380.500.730.089程度值1.50.920.820.270.620.620.079程度值2.00.950.880.180.730.500.056程度值2.50.970.920.120.820.380.033程度值3.00.980.950.080.880.270.0171.最大概似估計(jì)法 最大概似估計(jì)法是直接找出能使受試者的反應(yīng)概似函數(shù)最佳化的能力值。就像是表2-1的作法。為了加速找到能使概似函數(shù)為最大值的程度值,通常是先對(duì)反應(yīng)概似函數(shù)取對(duì)數(shù),再以牛頓-約佛森(

55、newton-raphson)法來(lái)進(jìn)行迭代。迭代方式是: , (9)其中,q(j)為受試者在第j次迭代的能力估計(jì)值,的計(jì)算方式為:, (10)與分別是反應(yīng)概似函數(shù)之對(duì)數(shù)值的一階微分與二階微分。使用牛頓-約佛森法來(lái)進(jìn)行迭代的優(yōu)點(diǎn)是可以很快地找的受試者的程度值,而且較為精確。如果都使用表2-1的作法會(huì)很麻煩,且比較不精準(zhǔn)。2.最大后驗(yàn)估計(jì)法第二種是以受試者的事前能力分布作為加權(quán)值,形成事后機(jī)率密度函數(shù),并找出能使此事后機(jī)率密度函數(shù)最大化的程度值,稱為貝氏最大后驗(yàn)法(maximum a posteriori, map)。事后機(jī)率密度函數(shù)計(jì)算方式如公式(11)所示:, (11)map法也可以比照ml法

56、,先求出反應(yīng)概似函數(shù)的對(duì)數(shù),再以牛頓-約佛森法來(lái)進(jìn)行迭代。map法的概念就好像是當(dāng)我們已經(jīng)知道受試者是來(lái)自于資賦優(yōu)異的群體時(shí),我們?cè)诠烙?jì)他的程度值時(shí)就可以參考他所屬的群體的能力分布情形,如此我們?cè)诠烙?jì)他的程度值時(shí)會(huì)有比較準(zhǔn)確的估計(jì)。3.期望后驗(yàn)估計(jì)法第三種與第二種方法類似,只是所尋找的能力值是事后機(jī)率密度函數(shù)的期望值(相當(dāng)于平均數(shù)),而不是最大值(相當(dāng)于眾數(shù)),此稱為期望后驗(yàn)法(expected a posteriori, eap)。如公式(12)所示:, (12)其中q是計(jì)算能力的期望值時(shí)所切割成的量化點(diǎn),q點(diǎn)愈多,計(jì)算得愈精確。不過(guò)這種估計(jì)方法無(wú)法使用牛頓-約佛森法來(lái)進(jìn)行迭代,而且隨著所選取的量化點(diǎn)數(shù)愈多,所需的計(jì)算量較龐大,計(jì)算時(shí)間也比較久。在各種能力估計(jì)方法的比較上洪碧

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論