第七章測(cè)試項(xiàng)目分析_第1頁(yè)
第七章測(cè)試項(xiàng)目分析_第2頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第七章 測(cè)試項(xiàng)目分析早期,任何測(cè)試設(shè)計(jì)之前都需要認(rèn)真地考慮測(cè)試目的和相應(yīng)的測(cè)試規(guī)范。如今,我們需要了解一個(gè)給定測(cè)試或項(xiàng)目如何能完成多少這些既定的目的。不幸的是,很多老師認(rèn)為,一旦分?jǐn)?shù)得出,考試便可以畫上圓滿的句號(hào)。當(dāng)然,這是遠(yuǎn)遠(yuǎn)不夠的。因?yàn)椋@些所得結(jié)果能夠提供很有價(jià)值的相關(guān)信息。一組或一個(gè)班級(jí)的學(xué)生表現(xiàn)能夠告訴老師教學(xué)的有效性;個(gè)體學(xué)生的表現(xiàn);測(cè)試中每一個(gè)項(xiàng)目的表現(xiàn)。關(guān)于學(xué)生的整體變現(xiàn)或個(gè)體表現(xiàn)相關(guān)信息對(duì)于教學(xué)目的來講是非常重要的,尤其因?yàn)楹芏鄿y(cè)試結(jié)果能夠不僅顯示出最常見的錯(cuò)誤的種類,而且找出錯(cuò)誤產(chǎn)生的原因。客觀測(cè)試一個(gè)偉大的優(yōu)點(diǎn)是它能夠通過清清楚楚所做出的選項(xiàng)來反映出學(xué)生們頭腦中真正掌握的

2、知識(shí)狀況。因此,相應(yīng)的糾正能夠被及時(shí)提供。測(cè)試項(xiàng)目表現(xiàn)本身對(duì)于將來的測(cè)試有著顯而易見的重要性。因?yàn)楹玫目陀^性測(cè)試需要大量的時(shí)間和精力,大多數(shù)老師和測(cè)試設(shè)計(jì)者將都期待無(wú)需改變或適當(dāng)?shù)馗淖儊碓僖淮问褂眠@些好的客觀性測(cè)試。所以,去找到這些能讓更好能力的好學(xué)生有好表現(xiàn)的以及能讓能力低一些的學(xué)生有差表現(xiàn)的項(xiàng)目是非常有用的。測(cè)試中某些難項(xiàng)目的發(fā)現(xiàn)和多項(xiàng)選擇中干擾項(xiàng)的表現(xiàn)了解,兩者即為教學(xué)提供了有價(jià)值的幫助,也為將來的考試準(zhǔn)備了儲(chǔ)備。第一節(jié) 項(xiàng)目設(shè)計(jì)過程中應(yīng)該避免的問題1混合選項(xiàng)項(xiàng)目有時(shí)是用來測(cè)試一種特殊技巧或能力,但是回應(yīng)選項(xiàng)的檢查顯示選項(xiàng)實(shí)際上測(cè)量出的是其他方面的技巧,而非想要測(cè)量出的技巧。例如:Joh

3、n _ flowers to the party last night. a) carries c) lifts b) carried d) lifted如果想這樣一個(gè)項(xiàng)目用來測(cè)試一般過去時(shí)語(yǔ)法知識(shí),顯而易見的缺陷是回應(yīng)選項(xiàng)需要一個(gè)有關(guān)詞匯選項(xiàng)來作為一個(gè)任務(wù)。此項(xiàng)目既是詞匯項(xiàng)目又是語(yǔ)法項(xiàng)目。更加貼切的一組回應(yīng)選項(xiàng)如下: a) carries c) is carrying b) carried d) has carried當(dāng)時(shí)態(tài)想要被測(cè)試時(shí),選項(xiàng)卻測(cè)試的是主謂一致。這種類型問題例子如下:The woman _ to the same shop every week. a) go c) have

4、gone b) goes d) am going 很顯然,項(xiàng)目中的干擾項(xiàng)(a), (c), 和(d) 能夠被排除掉,不是因?yàn)闀r(shí)態(tài)的錯(cuò)誤而是因?yàn)橹髦^的不一致性。 該項(xiàng)目的根本問題不是他們無(wú)法顯示出答題者的總體水平,而是缺乏他們想要的測(cè)試能力效度。2. 選項(xiàng)提示或許在準(zhǔn)備多項(xiàng)選擇干擾項(xiàng)時(shí)最難的任務(wù)是避免給出選項(xiàng)提示。一些有過類似考試經(jīng)驗(yàn)的學(xué)生或許已經(jīng)培養(yǎng)了一種“測(cè)試智慧”;也就是,這樣的學(xué)生不用掌握要被測(cè)試的相關(guān)領(lǐng)域知識(shí),而能夠選出正確的選項(xiàng)。他們通常僅僅通過在選項(xiàng)中識(shí)別出選項(xiàng)提示而成功地作出正確選項(xiàng)。選項(xiàng)提示的例子如下:長(zhǎng)度提示通常來說,最長(zhǎng)最清楚的選項(xiàng)是最顯然的答案。例子如下:In the s

5、tory, the merchant was unhappy because it a) rained. c) was windy. b) was dark. d) was windy and rainy and he had forgotten his raincoat.如果我們既沒有讀過也不明白問題里的故事,我們或許仍舊選擇選項(xiàng) (d) 并且我們有很合理的機(jī)會(huì)將題答對(duì)。趨同提示考慮下面選項(xiàng) a) tea c) party b) tee d) dinner盡管我們沒有選項(xiàng)來源,但是因?yàn)橼呁?,我們能夠猜到正確地選項(xiàng)。選項(xiàng)(a), (c), (d) 都屬于提供食物或點(diǎn)心的聚會(huì)。選項(xiàng)(b)僅僅是

6、選項(xiàng)(a)的同音選項(xiàng),提供了一個(gè)同音的干擾項(xiàng)。兩種干擾(語(yǔ)音和語(yǔ)意)趨同的選項(xiàng)是(a) tea, 它便是這種情況的正確選項(xiàng)。不一致的干擾項(xiàng)提示Examine the following set of distractors: a) ran c) is running b) runs d) fast顯然,選項(xiàng)(d) 從詞根和語(yǔ)境都區(qū)別于其他選項(xiàng)。我們或許在最開始的時(shí)候可以去除該選項(xiàng)。在效果上,該選項(xiàng)只有三個(gè)可變化選項(xiàng)。這就使其變的比預(yù)想的更加簡(jiǎn)單。當(dāng)然,還有其他種類的提示可以被避免。但是,以上的例子是他們中更具代表性的。在正式的項(xiàng)目分析中,這些提示的出現(xiàn)不總是被發(fā)現(xiàn)。所以,如果學(xué)生的分?jǐn)?shù)一定要反

7、映出他們?cè)谀称诖I(lǐng)域里所掌握的知識(shí)狀況,那么項(xiàng)目設(shè)計(jì)者一定要對(duì)該事項(xiàng)敏感。選項(xiàng)的數(shù)量對(duì)于任何選項(xiàng)來說,選項(xiàng)的合適數(shù)量應(yīng)該被確定。當(dāng)回應(yīng)選項(xiàng)的數(shù)量太少時(shí),問題或許會(huì)出現(xiàn)。對(duì)/錯(cuò)型選項(xiàng)只容許兩種選項(xiàng)。這意味著需要超過不尋常大量的項(xiàng)目來增加測(cè)試的有效范圍和以此確定測(cè)試整體的信度。除非在同一測(cè)試中有很少這樣的項(xiàng)目,不然有這樣如此少的選項(xiàng)是錯(cuò)誤的。選項(xiàng)或許可以很多。例如,在聽力測(cè)試項(xiàng)目中五個(gè)選項(xiàng)可以被使用。通常在聽力測(cè)試中,在考試者有時(shí)間看完所有選項(xiàng)前,他或她忘記了聽覺的刺激。從這個(gè)角度上來看,該測(cè)試成為了一種記憶回顧的測(cè)試,超過了正常交流范圍的約束。因此,作為聽力理解的測(cè)試,它或許是無(wú)效的。選項(xiàng)在數(shù)量

8、上或許是無(wú)規(guī)則的,就像在統(tǒng)一測(cè)試中或分測(cè)試中,有些項(xiàng)目有三個(gè)干擾項(xiàng)或是四個(gè)干擾項(xiàng)等。擁有類似項(xiàng)目的測(cè)試或許可以滿足信度和效度的需求,但是在分析過程中該項(xiàng)目會(huì)帶來一定問題。例如,這樣的項(xiàng)目不容許猜測(cè)形式的應(yīng)用。當(dāng)該項(xiàng)目經(jīng)過分析表明是弱的或是錯(cuò)誤的,不會(huì)立刻明顯的判斷出是否問題是內(nèi)生于項(xiàng)目或選項(xiàng)中,或是否問題是不同選項(xiàng)的跡象。4. 無(wú)意義的干擾項(xiàng)在大多數(shù)情況下,無(wú)意義干擾項(xiàng)應(yīng)該避免。無(wú)意義的選項(xiàng)有兩個(gè)根本問題。第一,他們通常是弱的干擾項(xiàng)。第二,他們通常具有消極的反駁作用;例如,學(xué)生或許可以從考試本身學(xué)到一些錯(cuò)誤??紤]下面的例子: They said they a) had gone. c) hav

9、e went. b) had go. d) had went.顯然,干擾項(xiàng)(b),(c),和(d)是和我們課堂上學(xué)習(xí)的正確語(yǔ)法知識(shí)相違背的。一方面,沒有上下文的考慮,僅僅因?yàn)榱硗獾臏?zhǔn)則三個(gè)選項(xiàng)或許被排除掉,從而正確的選項(xiàng)被挑出來。另一方面,如果該選項(xiàng)恰巧包括了考生剛剛接觸的現(xiàn)在完成時(shí),可想而知的是該考生或許開始接受這樣無(wú)意義的選項(xiàng)。評(píng)述選項(xiàng)評(píng)述選項(xiàng)應(yīng)給予足夠的謹(jǐn)慎。例如:The stranger had left his native land because he wished to seek his fortune.wanted to avoid his creditors.preferr

10、ed the new land.none of the above.a and b but not c aboveb and c but not a above例子中選項(xiàng)(d), (e), 和(f)需要考生回顧前三個(gè)選項(xiàng)并且得出他們相關(guān)性和同現(xiàn)相關(guān)結(jié)論。從性質(zhì)上來說,后三個(gè)選項(xiàng)是區(qū)別于前面的選項(xiàng)。不僅如此,這些選項(xiàng)需要足夠地集中注意前三個(gè)選項(xiàng)中比較小的信息。這樣的項(xiàng)目或許更加傾向于測(cè)量注意力和推斷能力而不是閱讀理解或其他單純的語(yǔ)言技能。6. 陷阱式問題對(duì)于一些老師來說,考試中他們總是想要出一些陷阱式問題。很難說出是否老師的目的是展示聰明,報(bào)復(fù)得使學(xué)生們發(fā)窘,或僅僅是確認(rèn)測(cè)試的難度。關(guān)鍵是如此的

11、問題會(huì)導(dǎo)致不準(zhǔn)確的測(cè)量和糟糕的教育學(xué)??紤]一下的例子:When is it not appropriate not to be absent from class?When you are sick.When you are young.While class is in session.Whenever the teacher is angry.注意到例子中的項(xiàng)目主體應(yīng)用了雙重否定結(jié)構(gòu),次結(jié)構(gòu)嚴(yán)重違反了正常談話交流時(shí)所能應(yīng)用的話語(yǔ)結(jié)構(gòu)。該項(xiàng)目結(jié)構(gòu)更加合適的問法應(yīng)為,“When should you be absent from class?” 陷阱式問題增加了猜測(cè),糟糕的動(dòng)機(jī),對(duì)老師和目標(biāo)語(yǔ)

12、言所產(chǎn)生的不友好態(tài)度,以及測(cè)量結(jié)果的不理想。7. 常識(shí)性知識(shí)回應(yīng)尤其當(dāng)測(cè)試閱讀理解技巧的時(shí)候,項(xiàng)目或許測(cè)試普通知識(shí)。這種方式下,正確的答案或許在沒有理解閱讀文章的情況下被選出來。例子如下:We learn from this passage that Napoleon was a) British c) Polish b) French d) German 對(duì)于大多數(shù)人來說在沒有閱讀文章段落的情況下,答案是常識(shí)性的知識(shí)。匹配材料在測(cè)試閱讀理解中,另外一個(gè)常見的錯(cuò)誤是容許任務(wù)簡(jiǎn)并成選項(xiàng)中詞語(yǔ)簡(jiǎn)單地與段落中的詞語(yǔ)的匹配。不幸的是,在這種情況下,提供正確答案的人或許沒有真正理解文章,但是僅僅是熟練與

13、詞語(yǔ)的匹配?;谶@種原因,出題人應(yīng)該需要改變回應(yīng)選項(xiàng)材料。通常的方法是認(rèn)出題中的同義詞,而不是文章中的確切詞匯。冗長(zhǎng)另一個(gè)可以避免的錯(cuò)誤是在回應(yīng)選項(xiàng)中重復(fù)一些冗長(zhǎng)的材料??紤]下面的例子:The boy took the newspaperbecause he wanted to read it.because he wanted to wrap a gift in it.because he wanted to dispose of it.because he wanted to remove an article. 在這個(gè)例子中,應(yīng)試者需要閱讀多余的額外材料。這使得考試在這層意義上沒有效率,

14、花費(fèi)很多時(shí)間來明白所獲得信息。對(duì)于同樣項(xiàng)目一個(gè)更好的形式是: The boy took the newspaper because he wanted to a) read it. c) dispose it. b) wrap a gift in it. d) remove an article.10. 回應(yīng)媒介 在測(cè)試給定語(yǔ)言技巧時(shí),準(zhǔn)備測(cè)試的人有時(shí)有助于選項(xiàng)的不合適的媒介。作者發(fā)現(xiàn)測(cè)試閱讀理解時(shí),要求學(xué)生對(duì)書面問題給出簡(jiǎn)短句子回答比起多項(xiàng)選擇,同義詞/反義詞選擇,或是完形填空要差一些(Henning, 1975)。結(jié)果顯示,回應(yīng)被列出的方式是測(cè)量任務(wù)本身的一部分。項(xiàng)目設(shè)計(jì)者應(yīng)該仔細(xì)確定回應(yīng)

15、媒體應(yīng)該與測(cè)試目的一致。第二節(jié) 適合的干擾項(xiàng)選擇我們或許會(huì)問什么樣的干擾項(xiàng)選擇技術(shù)將會(huì)提供出確實(shí)能吸引考生的合適的干擾項(xiàng)。為了達(dá)到目標(biāo),我們必須注意考生的語(yǔ)言輸出。一種一直被使用的技術(shù)是對(duì)于干擾項(xiàng)來說的完形填空的使用。測(cè)試設(shè)計(jì)者管理著完形填空以及記錄給定選項(xiàng)的錯(cuò)誤回應(yīng)。它被認(rèn)為,錯(cuò)的最多的錯(cuò)誤將用多項(xiàng)選擇的形式使用并會(huì)成為最具吸引力的干擾項(xiàng)。留意學(xué)生們平時(shí)的作文或是比較隨意的講話例子也是非常有用的。比較常出現(xiàn)的作文錯(cuò)誤會(huì)形成帶有錯(cuò)誤確認(rèn)形式的理想的項(xiàng)目。下面的例子是用來測(cè)試第三人稱單數(shù)的使用情況: A B C DThe man frequently / go walking alone / w

16、hen he is / tired or sad.這里的任務(wù)是將選項(xiàng)B挑出來作為含有錯(cuò)誤的句子部分。但是句子本身的選擇或許依據(jù)學(xué)生作文的一個(gè)常見的錯(cuò)誤。這種方式下,錯(cuò)誤可能不會(huì)被一些學(xué)生辨認(rèn)出來。此外,這樣的項(xiàng)目如果有適和的反饋,它會(huì)提高學(xué)生們的作文寫作能力。第三節(jié) 項(xiàng)目特征考慮完項(xiàng)目設(shè)計(jì)中可能出現(xiàn)的主要缺陷和干擾項(xiàng)選擇后,我們來看項(xiàng)目分析的主體部分。盡管前面兩章或許可以作為好的項(xiàng)目設(shè)計(jì)的準(zhǔn)則,但是最終是要經(jīng)過該試題被合適的樣本考生提前測(cè)試過,并直到數(shù)據(jù)已經(jīng)被采集和分析后才能確定,該項(xiàng)目是有價(jià)值的。一個(gè)項(xiàng)目最重要的特征之一是它的難度。通常來說,對(duì)于給定樣本考生當(dāng)測(cè)試因?yàn)闇y(cè)試方法不可靠而被拒絕時(shí)

17、,原因多半不是項(xiàng)目設(shè)計(jì)者的粗心,而是項(xiàng)目難度與考生能力的不匹配性。如果測(cè)試對(duì)于給定考生而言過于太難或太易時(shí),該測(cè)試則顯示出較低的信度。但是如果同樣的測(cè)試配額與能力適當(dāng)?shù)目忌肫ヅ涞臅r(shí)候,該測(cè)試則會(huì)表現(xiàn)出較高的信度。1. 項(xiàng)目難度的意義項(xiàng)目:所謂項(xiàng)目(item),就是構(gòu)成一個(gè)測(cè)量工具的基本單位,在教育情境中,測(cè)量一般指測(cè)試或者考試,國(guó)內(nèi)心理學(xué)界一般稱測(cè)驗(yàn)。測(cè)量工具一般指的就是考試用的試卷(test)。項(xiàng)目就是構(gòu)成試卷的一道道的小題目。由數(shù)個(gè)小題目組成的大題或者部分,一般不叫做項(xiàng)目,子測(cè)試或自測(cè)驗(yàn)(sub-test)。例如,一份英語(yǔ)試卷中有一道完形填空大題,該大題有一段有20個(gè)空的文章組成,這種情

18、況下,我們通常把每一個(gè)空看作一個(gè)項(xiàng)目,而不是把全部29道題目看成一個(gè)項(xiàng)目。項(xiàng)目難度的實(shí)質(zhì):項(xiàng)目難度就是項(xiàng)目的難易程度,有時(shí)用易度指數(shù)來表示,有時(shí)用難度指數(shù)來表示。如果用易度指數(shù)表示,難么它的量值越大,難度反而越小,項(xiàng)目也越容易。如果用難度指數(shù)表示,那么它的量值越大,則難度也就越大,項(xiàng)目也就越難。一個(gè)項(xiàng)目的難度,代表著這個(gè)項(xiàng)目關(guān)于所測(cè)量對(duì)象的量的多少。一個(gè)項(xiàng)目越難,說明我們能用它測(cè)量的量越大;反之,一個(gè)項(xiàng)目越容易,說明我們用它能測(cè)量的量越小。打個(gè)比方:一份完全有較難項(xiàng)目組成的試卷,就相當(dāng)于一臺(tái)量程較大的磅秤(譬如最大可以稱500公斤),一份完全有較容易項(xiàng)目組成的試卷,就相當(dāng)于一臺(tái)量程較小的磅秤(

19、譬如最大可以稱50公斤)。但是,在實(shí)際的教育和心理測(cè)量實(shí)踐中,不同的測(cè)量對(duì)象對(duì)應(yīng)的項(xiàng)目難度也不同,例如,難度測(cè)試的項(xiàng)目難度就不同于速度測(cè)試的項(xiàng)目難度。因此,在確定項(xiàng)目的難度參數(shù)時(shí),一定要首先分清具體的測(cè)量對(duì)象以及性質(zhì)。由以上的分析不難推斷,關(guān)于項(xiàng)目難度的理論是測(cè)量理論的一個(gè)基本的、必不可少的組成部分。在一百年的教育和心理測(cè)量理論建設(shè)中,關(guān)于項(xiàng)目難度的操作化定義,一直是研究的焦點(diǎn)之一。本節(jié),我們主要討論難度測(cè)試和速度測(cè)試中項(xiàng)目難度的操作化定義。速度測(cè)試的測(cè)量目標(biāo)速度測(cè)試的目的是測(cè)量受考完成任務(wù)的速度。一般情況下,對(duì)于速度測(cè)試我們假定,如果有足夠長(zhǎng)的時(shí)間,受考應(yīng)該做對(duì)或者幾乎做對(duì)任何一道題目。因此

20、,在速度測(cè)試中,如果一個(gè)受考把某個(gè)題目做錯(cuò)了,我們認(rèn)為這位受考不是不會(huì)做這道題,而是沒有時(shí)間做。可見,速度測(cè)試中一個(gè)項(xiàng)目的難度,實(shí)際上取決于一組受考對(duì)這個(gè)項(xiàng)目做出正確反應(yīng)所用的時(shí)間。 雖然速度測(cè)試一直是教育和心理測(cè)量中的形式,但對(duì)于速度測(cè)試項(xiàng)目的定量分析,也一直是一件頗令教育和心理計(jì)量學(xué)家頭痛的事。余嘉元(1987:178)指出,雖然很多學(xué)者對(duì)速度測(cè)試的項(xiàng)目分析方法做了研究,至今仍然沒有一種令人滿意的結(jié)果。Anastasi和Urbina(1997:194)提醒我們最好記住,關(guān)于速度測(cè)試的項(xiàng)目分析結(jié)果是可疑的,應(yīng)該謹(jǐn)慎對(duì)待。事實(shí)上,情況本不應(yīng)該這么糟。早在20世紀(jì)50年代,Georg Rasch

21、在研究朗讀速度的客觀測(cè)量問題時(shí),已經(jīng)提出了速度測(cè)試項(xiàng)目難度分析的思路和方法,并記錄在他的那本木冊(cè)子一些智力和成就測(cè)試的概率模型之中。但是,由于在教育和心理測(cè)量界,人們對(duì)智力或能力測(cè)試的興趣一直遠(yuǎn)遠(yuǎn)壓倒對(duì)成就測(cè)試的興趣,Rasch在成就測(cè)試方面的遺產(chǎn)一直未被發(fā)覺,盡管引起Rasch特別關(guān)注特定客觀性的是成就測(cè)試,而不是智力測(cè)試。今天我們常說的Rasch項(xiàng)月反應(yīng)模型實(shí)際上是在客觀成就測(cè)試?yán)碚摮晒Φ幕A(chǔ)上發(fā)展出來的智力測(cè)量模型,而且那本小冊(cè)子也主要是關(guān)于成就測(cè)試的。下面是Rasch關(guān)于速度測(cè)試項(xiàng)目難度分析的思想。 2. 項(xiàng)目區(qū)分度測(cè)試項(xiàng)目中另一個(gè)重要特征是一個(gè)項(xiàng)目如何在要測(cè)試的能力上把好的考生與差的

22、考生區(qū)分開來。依據(jù)項(xiàng)目難度本身不能最終拒接或接受一個(gè)給定項(xiàng)目。例如,在一個(gè)給定項(xiàng)目中,一半的考生通過,一般的考生沒有通過。如果用項(xiàng)目難度作為唯一的標(biāo)準(zhǔn),我們將視該項(xiàng)目為一個(gè)理想的項(xiàng)目。但是,如果我們發(fā)現(xiàn)通過考試的考生是被測(cè)試能力本該弱的一般,而沒有通過的考生是被測(cè)試能力本該強(qiáng)的一半。那么,該項(xiàng)目的持久性會(huì)受到質(zhì)疑。如果我們的測(cè)試全部由這樣的項(xiàng)目組成,一個(gè)高的分?jǐn)?shù)將會(huì)意味著低能力,低分?jǐn)?shù)則意味著一個(gè)相對(duì)能力。在這點(diǎn)上,我們需要的是一種區(qū)分地計(jì)算項(xiàng)目的方法。 項(xiàng)目的區(qū)分度和區(qū)分力 一個(gè)項(xiàng)目的區(qū)分度是這個(gè)項(xiàng)目區(qū)分性能的量度。在項(xiàng)目分析中;有關(guān)項(xiàng)目區(qū)分性能的定義很多,已經(jīng)提出和投入使用的項(xiàng)目區(qū)分性能指

23、數(shù)就有五十多種9(Anastasi和Urbina,1997:182)。其中絕大部分指數(shù)都是關(guān)千項(xiàng)目在多大程度上能夠把受考在所測(cè)量的目標(biāo)或?qū)ο笊蠀^(qū)分開來的。為了有所區(qū)分,在本書中,我們管前者叫項(xiàng)目區(qū)分度(discrimination),管后者叫項(xiàng)目區(qū)分力(power of discrimination)。 區(qū)分力和區(qū)分度差別很大。區(qū)分力只能告訴我們一個(gè)項(xiàng)目能把受考區(qū)分得多么開,但是它不管區(qū)分對(duì)了還是錯(cuò)了。如果用方差定義的區(qū)分力,一個(gè)項(xiàng)目的區(qū)分力最大為0.25。假定有一個(gè)項(xiàng)目,我們把它施測(cè)于一組受考以便做項(xiàng)目分析,測(cè)試結(jié)果是:50%總分高的受考全部答錯(cuò)它,其余50%的總分低的受考全部答對(duì)它。顯然,

24、這是一道再差不過的項(xiàng)目了,然而,它的區(qū)分力仍然很大 。如果還有一道題目,測(cè)試結(jié)果是:50%的總分高的受考全部答對(duì)它,剩下的50%的總分低的受考全部答錯(cuò)它。顯然,這是一道再好不過的題目了。不幸的是,如果用方差表示的區(qū)分力鑒別這兩個(gè)項(xiàng)目,它們兩個(gè)具備同樣高的質(zhì)量,這種結(jié)果顯然是無(wú)用的,甚至是有害的。這一可能事實(shí)說明,嚴(yán)格區(qū)分項(xiàng)目區(qū)分度和區(qū)分力的實(shí)踐意義。 項(xiàng)目區(qū)分度的實(shí)質(zhì) 一個(gè)項(xiàng)目的區(qū)分度,就是這個(gè)項(xiàng)目正確鑒別不同受考在所考目標(biāo)方面的能力,其實(shí)質(zhì)很像一般衡器的靈敏度。例如有一袋大米,已知這袋大米的重量是10斤。如果有一臺(tái)磅秤,用它稱這袋大米,也能稱出它是10斤,可是從袋中拿走半斤米或往袋里再加半斤

25、米,其結(jié)果還是10斤。顯然,這是一臺(tái)很不夠靈敏的磅秤。同理,如果我們把一道題目施測(cè)于一組受考,他們中間水平高的和水平低的答對(duì)這道題目的比例差不多,我們就說這道題目的靈敏廢差、區(qū)分度低。如果對(duì)于一道題目,水平低的受考反而比水平高的受考答對(duì)率高,我們就說這道題目是一道壞題目,是一道破壞性的題目。如果我們把測(cè)試看作一種測(cè)量,我們測(cè)試用的工具-試卷就相當(dāng)于一臺(tái)衡器。顯然,對(duì)于一臺(tái)衡器;它的靈敏度是至關(guān)重要的。同樣的道理,對(duì)于一份試卷,每道題目在既定測(cè)量目標(biāo)上的區(qū)分度也是非常重要的,這不僅關(guān)系到測(cè)量結(jié)果的信度,也關(guān)系到效度。如果一道聽力試題和聽力部分總分的相關(guān)較高,這道題目對(duì)于聽力部分的內(nèi)部一致性信度的

26、貢獻(xiàn)量就大;如果除此之外,這道題目跟其他外部準(zhǔn)則的相關(guān)較高,這就為這道題目測(cè)量的確實(shí)是準(zhǔn)則變量所測(cè)量的目標(biāo)提供了堅(jiān)實(shí)的效度證據(jù)。如果一道題目同時(shí)滿足這兩個(gè)條件,它當(dāng)然是一道很好的題目。一般說來,項(xiàng)舊區(qū)分度是項(xiàng)目的質(zhì)量指標(biāo)。對(duì)于以區(qū)分為目的選拔性測(cè)試,滿足既定的區(qū)分度水平是項(xiàng)目合格的必要條件。換句話說,如果一個(gè)項(xiàng)目的區(qū)分度不夠高,這個(gè)項(xiàng)目要么需要修改,要么需要徹底淘汰。但是,對(duì)于以檢驗(yàn)教學(xué)大綱為目的的測(cè)試,區(qū)分度只是衡量項(xiàng)目質(zhì)量的一個(gè)重要條件,但絕對(duì)不是必要條件。也就是說,即使一個(gè)項(xiàng)月的區(qū)分度很低,也不一定要修改或者淘汰,而是要根據(jù)教學(xué)大綱認(rèn)真核對(duì)罩下該項(xiàng)目,看它考的是不是教學(xué)大綱規(guī)定的內(nèi)容,如

27、果是選擇型題,還要分析干擾項(xiàng)是否與教學(xué)大綱的規(guī)定內(nèi)容有關(guān)。如果確系大綱要求的內(nèi)容(尤其是重要內(nèi)容),區(qū)分度再低,該項(xiàng)目也應(yīng)該保留。第四節(jié) 經(jīng)典項(xiàng)目分析理論和項(xiàng)目反映理論 1. 經(jīng)典項(xiàng)目分析理論我們這里談?wù)摰捻?xiàng)目分析測(cè)試指的是客觀測(cè)試。傳統(tǒng)上,有兩種方法能夠計(jì)算測(cè)試的項(xiàng)目,難度和區(qū)分度指標(biāo)。Facility Value (F.V.)測(cè)試的是項(xiàng)目的難度水平,discrimination index (D.I.) 測(cè)試的是個(gè)體項(xiàng)目結(jié)果與整個(gè)測(cè)試結(jié)果的相關(guān)程度。項(xiàng)目難度一個(gè)項(xiàng)目的難度是指學(xué)生答對(duì)項(xiàng)目的百分比,在前面我們以及提到了相關(guān)的基本概念。例如,如果有300個(gè)學(xué)生,150個(gè)學(xué)生答對(duì)了項(xiàng)目,那么該項(xiàng)

28、目的難度是150/300,業(yè)績(jī)是0.5。這種簡(jiǎn)單的測(cè)量能夠立刻給項(xiàng)目設(shè)計(jì)者相應(yīng)該項(xiàng)目對(duì)于樣本受考有多么容易的概念。如果難度是6/300,那么難度是2%,很顯然該項(xiàng)目很難。同理如果難度是285/300(95%),項(xiàng)目就顯得很容易了。因?yàn)檫@樣的項(xiàng)目無(wú)法很好區(qū)分受考學(xué)生的能力區(qū)分程度,那么該項(xiàng)目就不具有信息價(jià)值了。舉一個(gè)極端的例子,如果一個(gè)項(xiàng)目的難度是0%,除了該項(xiàng)目非常非常難外,此項(xiàng)目沒有任何信息價(jià)值。如果項(xiàng)目設(shè)計(jì)者需要從考試結(jié)果中分?jǐn)?shù)分布廣泛的結(jié)果,如果他們需要學(xué)生的分?jǐn)?shù)從非常高到非常低的話,那么,他們選擇項(xiàng)目的難度應(yīng)該盡量接近于50%。然而,如果測(cè)試者需要一個(gè)特定的難度水平,他們可以通過選擇合

29、適的難度的項(xiàng)目從而達(dá)到自己所需的平均分?jǐn)?shù)(mean score)。例如,如果學(xué)生在測(cè)試中的平均分?jǐn)?shù)是70%,所有項(xiàng)目的平均難度是70%,那么測(cè)試必須有很多難度超過70%的項(xiàng)目。如果測(cè)試的指導(dǎo)者需要項(xiàng)目更難一些,他們可以去掉容易的項(xiàng)目,去掉一些項(xiàng)目F.V.超過80%,這樣平均的F.V.就會(huì)變低。項(xiàng)目區(qū)分度指數(shù)項(xiàng)目區(qū)分度指數(shù)是項(xiàng)目區(qū)分的測(cè)量方法,d(d)來表示。項(xiàng)目區(qū)分的這個(gè)估計(jì)值本質(zhì)上是比較給定項(xiàng)目中連續(xù)測(cè)試分?jǐn)?shù)分布中的高分與低分區(qū)域。如果分?jǐn)?shù)分布正常,低分與高分的最佳分界線是分?jǐn)?shù)分布的上下27%(Kelley, 1939)。如果測(cè)試分?jǐn)?shù)比較集中,那么最佳分界線會(huì)變得更大,接近33%(Curet

30、on, 1957)。Allen和Yen(1979,p.122)認(rèn)為,對(duì)于大多數(shù)應(yīng)用,任何介于25到33之間的分布都將產(chǎn)生相似的估計(jì)值。 項(xiàng)目區(qū)分度指數(shù)是高分答對(duì)該項(xiàng)目的比率與低分答對(duì)項(xiàng)目的比率之差;d值越高,高分答對(duì)此項(xiàng)目的人數(shù)越多。d的負(fù)值意味著該項(xiàng)目亮紅燈,因?yàn)樗凳局头值氖芸紩?huì)比高分的受考更加可能可能答對(duì)該項(xiàng)目。這種情況需要采取行動(dòng),例如修改項(xiàng)目或去除項(xiàng)目。2. 項(xiàng)目反映理論經(jīng)典項(xiàng)目分析理論的主要局限性是它無(wú)法提供一個(gè)令人滿意的基礎(chǔ)來預(yù)測(cè)一個(gè)受考將如何在給定的項(xiàng)目中表現(xiàn)。主要有兩個(gè)原因:第一,經(jīng)典項(xiàng)目分析理論沒有提供假設(shè)在個(gè)體的能力水平是如何在測(cè)試中影響他表現(xiàn)的方式上。第二,預(yù)測(cè)個(gè)體在

31、給定項(xiàng)目中的表現(xiàn)的唯一信息是難度指數(shù),p,它僅僅是答對(duì)給定項(xiàng)目中個(gè)體的比例。因此,唯一可用來預(yù)測(cè)個(gè)體將如何回答一個(gè)項(xiàng)目的信息是給定項(xiàng)目中受考團(tuán)體的平均表現(xiàn)。然而,顯然在預(yù)測(cè)個(gè)體在給定項(xiàng)目中的表現(xiàn)時(shí),個(gè)體的能力水平是一個(gè)重要的參考因素。當(dāng)然,一個(gè)具有高水平能力的受考與一個(gè)具有相對(duì)低水平能力的受相比較時(shí),前者往往將被期待在一個(gè)難得項(xiàng)目中有更好的表現(xiàn)。 因?yàn)樵摾碚摰木窒扌?,測(cè)試心理學(xué)家根據(jù)個(gè)體水平能力與個(gè)體測(cè)試表現(xiàn)建立了模型。這些模型都基于最根本的原理:個(gè)體在給定測(cè)試項(xiàng)目中的表現(xiàn)是項(xiàng)目難度水平和個(gè)體能力水平的函數(shù)。這些模型被稱為“項(xiàng)目反映”模型,以此基于的理論被稱為項(xiàng)目反映理論(IRT).單向度性假

32、設(shè)與經(jīng)典理論比較,項(xiàng)目反映理論是基于更加大,更嚴(yán)格的假設(shè),所以能夠作出關(guān)于給定項(xiàng)目中的個(gè)體表現(xiàn),能力水平以及項(xiàng)目的特征更加有力的預(yù)測(cè)。為了考慮到測(cè)試受考的能力水平信息,項(xiàng)目反映理論必須對(duì)被測(cè)試能力的數(shù)量提出假設(shè)?,F(xiàn)在應(yīng)用的大多數(shù)模型的假設(shè)是測(cè)試中的項(xiàng)目測(cè)量單一或單向度能力或特征,項(xiàng)目形成了測(cè)量的單向度規(guī)模。項(xiàng)目特征曲線除了上面提到的總的假設(shè)外,每一個(gè)具體的項(xiàng)目反映理論模型對(duì)于在給定項(xiàng)目中測(cè)試受考的能力與表現(xiàn)作出具體的假設(shè)。這些假設(shè)能夠清楚地用數(shù)學(xué)公式或表示其關(guān)系的項(xiàng)目性格曲線來表示(ICC)這些項(xiàng)目性格曲線是項(xiàng)目反映理論模型的基石。曲線顯示了受考個(gè)體通過給定項(xiàng)目的可能性和他能力水平的假設(shè)關(guān)系。

33、不同模型的形式,用來表示項(xiàng)目特征曲線的項(xiàng)目本身特征的信息或參數(shù),這些形成了模型的不同特征。數(shù)學(xué)模型決定了項(xiàng)目特征曲線。項(xiàng)目特征的信息種類包括:(1)不同能力水平中項(xiàng)目區(qū)分度(區(qū)分度參數(shù)a)(2)項(xiàng)目難度水平(難度參數(shù)b)(3)低能力水平受考答對(duì)項(xiàng)目的可能性(猜對(duì)機(jī)會(huì)c)當(dāng)其基本形式確定下來以及給定項(xiàng)目參數(shù)已知,項(xiàng)目的特征曲線便可以完全界定。在應(yīng)用反映理論模型中一個(gè)重要參考因素是項(xiàng)目參數(shù)的估值。一個(gè)項(xiàng)目反映理論模型包含用來描述項(xiàng)目特征曲線的三個(gè)參數(shù)。三參數(shù)模型簡(jiǎn)短闡明項(xiàng)目特征曲線的特征。模型明確說明,能力水平與一個(gè)正確回應(yīng)的可能性關(guān)系為非線性,并且它是一個(gè)關(guān)于所有三個(gè)參數(shù)的函數(shù)。圖4.1 三參數(shù)

34、項(xiàng)目特征曲線在上圖中,能力范圍由水平軸線表示,其平均值為0,標(biāo)準(zhǔn)方差為1。正確回應(yīng)的可能性有垂直軸線表示,理論上其范圍油0到1。代表三個(gè)項(xiàng)目的特征曲線是(1),(2)和(3)。第一,我們可以看出猜對(duì)可能參數(shù)c對(duì)于三個(gè)項(xiàng)目都是一樣的(p=0.20)。在這個(gè)模型中,該參數(shù)限定了項(xiàng)目特征曲線的下線。第二,難度參數(shù)b被定義為能力水平,在該水平上,一個(gè)正確回應(yīng)的可能性是介于猜對(duì)機(jī)率參數(shù)c與1之間(圖中顯示為0.60)。項(xiàng)目(1)難度參數(shù)為-0.20,是最容易的項(xiàng)目。而項(xiàng)目三難度參數(shù)為+2.0,是最難的項(xiàng)目。也就是說,能力水平低的受考(低于平均值2個(gè)標(biāo)準(zhǔn)方差)有60%可能性答對(duì)項(xiàng)目(1)。然而,低于或高于

35、平均能力一個(gè)標(biāo)準(zhǔn)方差個(gè)受考會(huì)完全答對(duì)該項(xiàng)目。對(duì)于項(xiàng)目(3),只有高于平均能力一個(gè)標(biāo)準(zhǔn)方差的受考才有更大的機(jī)會(huì)答對(duì)此項(xiàng)目。在難度參數(shù)點(diǎn)上,區(qū)分度參數(shù),a,與項(xiàng)目特征曲線的斜率成比例并且項(xiàng)目根據(jù)區(qū)分度參數(shù)的變化而變化。斜率越高,區(qū)分度參數(shù)越大。因此,擁有最低斜率的項(xiàng)目(2),其項(xiàng)目區(qū)分度也最低。換句話說,最為測(cè)量能力不同的函數(shù),該項(xiàng)目的正確回應(yīng)可能性是幾乎沒有變化的。此外,項(xiàng)目(1)和(3)擁有更陡的斜率,在不同能力水平的受考中,其區(qū)分度會(huì)更加的有效。比較普通的另外兩個(gè)項(xiàng)目反映理論模型是二參數(shù)模型。該模型假設(shè),低能力個(gè)體將沒有任何機(jī)會(huì)作出正確回應(yīng)。所以,猜對(duì)機(jī)會(huì)參數(shù)實(shí)質(zhì)上是0。一參數(shù)模型(Rasc

36、h模型)中,所有項(xiàng)目區(qū)分度被假設(shè)相等,換句話說,該假設(shè)認(rèn)為沒有猜對(duì)機(jī)率。值得注意的是,盡管三參數(shù)模型用來使用英語(yǔ)測(cè)試的發(fā)展和分析,但是大多數(shù)項(xiàng)目現(xiàn)今反映理論的語(yǔ)言測(cè)試應(yīng)用一直使用的是Rasch模型(例如,Davidson和Henning1975; Griffin1985; Henning et al. 1985; Madsen和Larson 1986; Pollitt和Hutchinson 1987; Larson 1987; Madsen 1987; Adams et al. 1987; Henning 1987)。第五節(jié) 測(cè)量方法及結(jié)果分析在這一部分,主要介紹在項(xiàng)目分析中常用到的公式以及如

37、何計(jì)算經(jīng)典測(cè)試中的項(xiàng)目難度和項(xiàng)目區(qū)分度,以及干擾度、干擾區(qū)分度和干擾靈敏度的計(jì)算和解釋以及相關(guān)的注意事項(xiàng)。1. 常用概念解釋 在介紹測(cè)量方法以及測(cè)試結(jié)果之前,在這一部分我們先將前面所介紹的概念總結(jié)一下,這將便于學(xué)習(xí)者在使用公式的同時(shí)可以快速的查找到相應(yīng)的概念,同時(shí)也是對(duì)前面的內(nèi)容作一個(gè)簡(jiǎn)要的回顧。1項(xiàng)目(item):構(gòu)成測(cè)量工具的基本單位,即試卷中的一道道小題目。2子測(cè)試/子測(cè)驗(yàn)(sub-test):由數(shù)個(gè)小題目組成的大題或者部分。3錯(cuò)對(duì)型項(xiàng)目:(true-false item)就是其答案只有錯(cuò)或者對(duì)這種可能。4非錯(cuò)對(duì)型項(xiàng)目:(non true-false item)如果一個(gè)項(xiàng)目的答案不是非錯(cuò)

38、即對(duì)這兩種可能,而是在錯(cuò)、對(duì)之間有多種5可能程度的答對(duì)(percentage of correct answers),其中完全答錯(cuò),就是0%答對(duì),完全答對(duì)就是100%答對(duì)。(例如簡(jiǎn)答題,填空題等)6測(cè)量:(measurement) 在教育情景中,測(cè)量一般指測(cè)試或者考試,也稱測(cè)驗(yàn)。7測(cè)量工具:(instrument of measurement)考試用的試卷。8易度指數(shù) (facility index):即項(xiàng)目的容易程度。量值越大,難度越小,項(xiàng)目越容易。 易度指數(shù)倒數(shù) (inverse of facility index)關(guān)于項(xiàng)目難以程度的一種定義方式, 用1/易度指數(shù)定義9難度指數(shù):(powe

39、r index)即項(xiàng)目的難度。量值越大,難度越大,項(xiàng)目越難。10項(xiàng)目的難度:(item difficulty)這個(gè)項(xiàng)目所測(cè)量對(duì)象量的多少。一個(gè)項(xiàng)目越難,測(cè)量的量越大。項(xiàng)目容易,測(cè)量的量越小。11校正后項(xiàng)目難度:(corrected item difficulty) 對(duì)于存在猜測(cè)因素的項(xiàng)目(例如選擇,判斷對(duì)錯(cuò)等。),扣除或校正猜測(cè)得分對(duì)難度影響之后的難度。成績(jī)率。13成績(jī)率:(accomplishment rate) 就是一組受考在一個(gè)項(xiàng)目上的平均成績(jī)與這個(gè)項(xiàng)目完全做對(duì)時(shí)的成績(jī)比率。14 易度指數(shù)補(bǔ):( complement of facility index) 易度指數(shù)補(bǔ)越大,項(xiàng)目越難。15項(xiàng)

40、目反映理論(item response theory):根據(jù)受考對(duì)于一組項(xiàng)目的反映結(jié)果來估計(jì)英氣受考做出這種反映的潛在能力的理論。16項(xiàng)目反映理論中的核心是一組項(xiàng)目反映函數(shù)(item response function),項(xiàng)目反映函數(shù)通常又叫項(xiàng)目特征曲線 (item characteristic curve)17項(xiàng)目的難度:(difficulty)在教育和心理測(cè)量界,一般假定一大批人的能力或水平都呈正態(tài)分布。于是我們可以把一個(gè)項(xiàng)目施測(cè)于一組數(shù)量足夠大的受考,并假定這組受考在項(xiàng)目所測(cè)量方面的水平呈標(biāo)準(zhǔn)正態(tài)分布(normal distribution)。這樣,就可以把項(xiàng)目的易度指數(shù)難度當(dāng)作標(biāo)準(zhǔn)正態(tài)

41、曲線下自右向左的面積,通過反差正態(tài)分布表就可以確定一定易度指數(shù)所對(duì)應(yīng)的Z值(Z scores)。18項(xiàng)目反映理論(item response theory)中的項(xiàng)目難度:根據(jù)受考對(duì)于一組項(xiàng)目的反映結(jié)果來估計(jì)引起受考做出這種反映的潛在能力理論。19項(xiàng)目反映理論的核心是一組項(xiàng)目反映函數(shù)(item response function),項(xiàng)目反映函數(shù)通常又叫項(xiàng)目特征曲線(item characteristic curve).20常用的反映函數(shù)總共有三個(gè):但參數(shù)邏輯斯蒂模型,雙參數(shù)邏輯斯蒂模型和三參數(shù)邏輯斯蒂模型。用以測(cè)試項(xiàng)目的難度。21邏輯斯蒂函數(shù)(Logistic equation):22速度測(cè)試(

42、 speed test) 的目的:測(cè)量受考完成任務(wù)的速度。23速度測(cè)試中的項(xiàng)目難度:取決于一組受考對(duì)這個(gè)項(xiàng)目做出正確發(fā)應(yīng)所用的時(shí)間。體現(xiàn)在受考成功完成該項(xiàng)目所用時(shí)間的多寡,用時(shí)越多,項(xiàng)目越難,用時(shí)越少,項(xiàng)目越易。24速度測(cè)試的原始數(shù)據(jù)收集( raw data collected):精確紀(jì)錄下每個(gè)受考成功完成各個(gè)項(xiàng)目所用的時(shí)間。25項(xiàng)目的區(qū)分度:這個(gè)項(xiàng)目區(qū)分性能的量度。項(xiàng)目的質(zhì)量指標(biāo)。區(qū)分度指數(shù)作行為項(xiàng)目能力指標(biāo)。用于篩選為目的測(cè)試的參考指數(shù)。26項(xiàng)目區(qū)分度(discrimination):關(guān)于項(xiàng)目在多大程度上能夠把受考在所測(cè)量的目標(biāo)或?qū)ο笊险_區(qū)分開來。27項(xiàng)目區(qū)分力(power of dis

43、crimination):項(xiàng)目在多大程度上能夠把受考在所測(cè)量的目標(biāo)和對(duì)象上區(qū)分開來。一個(gè)項(xiàng)目能把受考區(qū)分得多么開,但它不管區(qū)分對(duì)了還是錯(cuò)了。只是做區(qū)分,不能夠估算項(xiàng)目的好壞。28題目的靈敏度( sensitivity):如果把一道題目施測(cè)于一組受考,他們中間水平高和水平低的答對(duì)這道題目的比例差不多,我們就說這道題目的靈敏度差,區(qū)分度地。29壞題目/破壞性題目:(interference item) 如果對(duì)于一道題目,水平低的受考反而比水平高的受考答對(duì)率高,我們就說這道題目是一道壞題目,也是一道破壞性題目。30項(xiàng)目合格的必要條件:對(duì)于一區(qū)分為目的選拔性測(cè)試,滿足既定的區(qū)分度水平是項(xiàng)目合格的必要條

44、件。以檢驗(yàn)教學(xué)大綱為目的的測(cè)試,區(qū)分度支使衡量項(xiàng)目質(zhì)量的一個(gè)重要條件,但絕對(duì)不是必要條件。如果確系大綱要求的內(nèi)容,尤其是重要內(nèi)容,區(qū)分度再低,該項(xiàng)目也應(yīng)該保留。31干擾項(xiàng)( distractor) 的一般原則 (general principle of distractor):對(duì)于任何一個(gè)干擾項(xiàng),都應(yīng)該做和答案項(xiàng)一樣嚴(yán)格的分析。在分析一個(gè)項(xiàng)目的干擾項(xiàng)時(shí),我們也要分析干擾項(xiàng)的“難度”(即干擾力的大?。┖退摹皡^(qū)分度”。32干擾度 (foil):是干擾項(xiàng)干擾力度的大小的量度。(選擇它的人數(shù)越多干擾力度越大,選擇它的人數(shù)越少,干擾力度越小。)33干擾區(qū)分度 (distractor discrimin

45、ation):是干擾項(xiàng)的區(qū)分度,用于常模參照測(cè)試中的項(xiàng)目干擾分析。34干擾靈敏度 (distractor sensitivity):是干擾項(xiàng)的靈敏度,用于標(biāo)準(zhǔn)參照測(cè)試中的項(xiàng)目干擾分析。2易度指數(shù)估算項(xiàng)目的難度 1. P:易度指數(shù); R: 做對(duì)人數(shù)(參與考試的一組人數(shù)中,有R個(gè)做對(duì)了)N:一組受考總數(shù); 注意事項(xiàng):1) 用易度指數(shù)定義的錯(cuò)對(duì)型項(xiàng)目難度。2)R 值越大,P值越大,題目越容易。2. R: 做對(duì)人數(shù)(參與考試的一組人數(shù)中,有R個(gè)做對(duì)了)N:一組受考總數(shù); cP:校正后的項(xiàng)目難度 A:一道有A個(gè)備選答案的項(xiàng)目 注意事項(xiàng):1) 存在猜測(cè)因素是項(xiàng)目難度的計(jì)算。 2)cP為扣除或較正猜測(cè)得分對(duì)

46、難度影響之后的難度。 3)cP值越大,題目越容易。測(cè)試項(xiàng)目易度3. :一組受考在一個(gè)非錯(cuò)、對(duì)型項(xiàng)目上的平均成績(jī)。XMAX:該項(xiàng)目的滿分 注意事項(xiàng):1) 非錯(cuò)對(duì)型項(xiàng)目的難度的計(jì)算 2)P值越大,題目越容易。測(cè)試項(xiàng)目易度。4 P:易度指數(shù); R: 做對(duì)人數(shù)(參與考試的一組人數(shù)中,有R個(gè)做對(duì)了)N:一組受考總數(shù); q:不存在猜測(cè)因素的易度指數(shù)補(bǔ)注意事項(xiàng):1)不存在猜測(cè)因素是項(xiàng)目難度的計(jì)算。測(cè)試項(xiàng)目那度。 2)q越大,題目越難5P:易度指數(shù); R: 做對(duì)人數(shù)(參與考試的一組人數(shù)中,有R個(gè)做對(duì)了)N:一組受考總數(shù); cP:校正后的項(xiàng)目難度 A:一道有A個(gè)備選答案的項(xiàng)目 cq:校正后的易度指數(shù)(存在猜測(cè)因

47、素時(shí)的項(xiàng)目)注意事項(xiàng): 1)存在猜測(cè)因素是項(xiàng)目難度的計(jì)算。 2)校正后的易度系數(shù)補(bǔ),cq越大,題目越難。6 :一組受考在一個(gè)非錯(cuò)、對(duì)型項(xiàng)目上的平均成績(jī)。XMAX:該項(xiàng)目的滿分 q:不存在猜測(cè)因素的易度指數(shù)補(bǔ)注意事項(xiàng): 1)非錯(cuò)對(duì)性項(xiàng)目難度補(bǔ)的計(jì)算。用于測(cè)試項(xiàng)目難度。 2)不存在猜測(cè)因素,因此不需要校正。q 越大,題目越難。3難度指數(shù)計(jì)算項(xiàng)目的難度1項(xiàng)目難度指數(shù)R: 做對(duì)人數(shù)(參與考試的一組人數(shù)中,有R個(gè)做對(duì)了)N:一組受考總數(shù); XMAX:該項(xiàng)目的滿分 H:項(xiàng)目難度指數(shù)A:一道有A個(gè)備選答案的項(xiàng)目 :一組受考在一個(gè)非錯(cuò)、對(duì)型項(xiàng)目上的平均成績(jī)。注意事項(xiàng): 1)H為易度指數(shù)的倒數(shù) 2)H越大,題目

48、越難。用于測(cè)試項(xiàng)目難度。 3)2 項(xiàng)目的難度:=4Z +13注意事項(xiàng):1)假定該組受考在項(xiàng)目所測(cè)量方面的水平呈正態(tài)分布。2)Z的取值范圍在-3和3 之間。4項(xiàng)目反映理論中的項(xiàng)目難度測(cè)試單參數(shù)邏輯斯蒂模型:雙參數(shù)邏輯斯蒂模型:三參數(shù)邏輯斯蒂模型:p: 一個(gè)項(xiàng)目做出正確反映的概率:受考能力 bi: 項(xiàng)目i 的難度D=1.7 或1.72 /也用來表示項(xiàng)目區(qū)分度指數(shù)e=2.71828 (自然對(duì)數(shù)的底)ai :項(xiàng)目i的區(qū)分度 ci: 項(xiàng)目i的猜測(cè)度注意事項(xiàng):項(xiàng)目反映函數(shù)種的難度參數(shù)是能力維度上的量。受考的能力和項(xiàng)目難度的關(guān)系。易度指數(shù)以及易度指數(shù)補(bǔ)和項(xiàng)目反映理理論中的P(正確反映的概率)是定義項(xiàng)目難度但

49、參數(shù)模型和雙參數(shù)的模型中的難度就是以50%的概率大隊(duì)這個(gè)項(xiàng)目的受考的能力值。三參數(shù)模型中的難度參數(shù)出現(xiàn)在存在猜測(cè)因素的題目中,不再是一50%的概率答對(duì)一個(gè)項(xiàng)目的受考能力值,而是以的概率答對(duì)一個(gè)項(xiàng)目受考的能力值?;蛘?,用一組大量的、難度相等或者幾乎相等的項(xiàng)目施測(cè)于一個(gè)受考,這個(gè)受考答對(duì)了其中的百分之的項(xiàng)目,這個(gè)受考的能力就是這組項(xiàng)目的難度參數(shù)值。這組受考的能力值或者能力均值就是這個(gè)項(xiàng)目的難度參數(shù)值。5速度測(cè)試中的項(xiàng)目難度的估算一組受考完成一個(gè)項(xiàng)目所用的平均時(shí)間Xr: 成功完成參照項(xiàng)目所用的時(shí)間Hs: 速度測(cè)試的項(xiàng)目難度(s: speed-test; r: reference)注意事項(xiàng):該組受考成

50、功地完成這組項(xiàng)目的平均時(shí)間成功完成一個(gè)項(xiàng)目用時(shí)超過該平均時(shí)間的項(xiàng)目,其難度大于1用時(shí)少于該平均時(shí)間的項(xiàng)目,其難度小于1用時(shí)等于該平均時(shí)間 的項(xiàng)目,其難度等于1。在實(shí)際的測(cè)試中,記錄大隊(duì)題目的個(gè)數(shù),題目的數(shù)量要足夠的大,務(wù)必使受考無(wú)人能全部做完。如果某個(gè)受考作錯(cuò)了試卷中的某個(gè)項(xiàng)目,他就不能參加該項(xiàng)目的分析。 6項(xiàng)目區(qū)分度的計(jì)算 區(qū)分度指數(shù)計(jì)算 D=PH-PL注意事項(xiàng):區(qū)分度指數(shù)的最大值為1(總分高分的該項(xiàng)目全部做對(duì),總分低分沒有做對(duì)該項(xiàng)目的),最小值為-1(總分高分的該項(xiàng)目全沒有做對(duì),總分低分的該項(xiàng)目全做對(duì))。對(duì)于多項(xiàng)選擇型的題目,區(qū)分度指數(shù)的最大值一般是達(dá)不到1 的。區(qū)分度指數(shù)作為項(xiàng)目區(qū)分能力

51、的指標(biāo),衡量結(jié)果參照下表:項(xiàng)目區(qū)分度指數(shù)與項(xiàng)目的質(zhì)量評(píng)價(jià)區(qū)分度指數(shù)項(xiàng)目質(zhì)量等級(jí)0.4以上非常好0.3-0.39良好,但可能有待改進(jìn)0.20-0.29勉強(qiáng)可以,通常需要且有待改進(jìn)低于0.19差,淘汰或改寫Sources: Ebel, R.L.&Frisbie, D.A.(1986). Essentials of educational measurement (4th ed).Englewood Cliffs, NJ: Prentice Hall., P234 項(xiàng)目分-總分相關(guān)系數(shù)區(qū)分度計(jì)算 (1)點(diǎn)二列相關(guān)系數(shù)區(qū)分度計(jì)算rpb: 二列相關(guān)系數(shù) np: 標(biāo)準(zhǔn)受考樣本中答對(duì)該題的人數(shù)nq: 標(biāo)準(zhǔn)受

52、考樣本在中答錯(cuò)該題的人數(shù)p:受考樣本在該項(xiàng)目上的答對(duì)率 q: 受考樣本在該項(xiàng)目上的答錯(cuò)率 :為標(biāo)準(zhǔn)受考樣本中答對(duì)某項(xiàng)目的手銬在參照準(zhǔn)則上的評(píng)分:為標(biāo)準(zhǔn)受考樣本中答錯(cuò)某項(xiàng)目的手銬在參照準(zhǔn)則上的評(píng)分:為全體標(biāo)準(zhǔn)受考樣本參照準(zhǔn)則上的平均數(shù)S:標(biāo)準(zhǔn)受考樣本在參照準(zhǔn)則上的分?jǐn)?shù)的標(biāo)準(zhǔn)差注意事項(xiàng):項(xiàng)目采用錯(cuò)、對(duì)形式。項(xiàng)目和準(zhǔn)則分?jǐn)?shù)間的相關(guān)系數(shù)。用于區(qū)分和定額選拔為目的的測(cè)試(2)積矩相關(guān)系數(shù)區(qū)分度的計(jì)算S:標(biāo)準(zhǔn)受考樣本在參照準(zhǔn)則上的分?jǐn)?shù)的標(biāo)準(zhǔn)差s: 標(biāo)準(zhǔn)受考樣本在該項(xiàng)目上的分的標(biāo)準(zhǔn)差xi: 標(biāo)準(zhǔn)受考樣本中受考i在該項(xiàng)目上的得分X:標(biāo)準(zhǔn)受考樣本在參照準(zhǔn)則上的平均分Xi: 標(biāo)準(zhǔn)手銬樣本中受考i 在參照準(zhǔn)則上的得

53、分注意事項(xiàng):項(xiàng)目采用非錯(cuò)對(duì)形式項(xiàng)目和準(zhǔn)則分?jǐn)?shù)間的相關(guān)系數(shù)。(用excel軟件計(jì)算,用“=correl”)用于區(qū)分和定額選拔為目的的測(cè)試7項(xiàng)目靈敏度的計(jì)算為使測(cè)試公平,用項(xiàng)目靈敏度這一概念重新定義項(xiàng)目區(qū)分度。把區(qū)分度指數(shù)計(jì)算公式中的低分組的答對(duì)率改稱一組學(xué)生學(xué)習(xí)前在一個(gè)項(xiàng)目上的答對(duì)率, 把高分組 的答對(duì)率改稱這組學(xué)生經(jīng)過學(xué)習(xí)后在該項(xiàng)目上的答對(duì)率, 并用學(xué)習(xí)之后的答對(duì)率和學(xué)習(xí)之前的答對(duì)率之差定義區(qū)分度。把這樣定義的區(qū)分對(duì)稱為項(xiàng)目的靈敏度指數(shù) (sensitivity index). (1)錯(cuò)對(duì)型靈敏度計(jì)算DS 為項(xiàng)目靈敏度指數(shù)Ppost為經(jīng)過學(xué)習(xí)后一組手銬在該項(xiàng)目上的答對(duì)率Ppre 為學(xué)習(xí)前這組手

54、銬在該項(xiàng)目上的答對(duì)率Rpost該組受考學(xué)習(xí)后答對(duì)該項(xiàng)目的人數(shù)Rpre 該組受考學(xué)習(xí)前答對(duì)該項(xiàng)目的人數(shù)注意事項(xiàng):靈敏度指數(shù)最大值是1, 最小值是-1。對(duì)于選擇性的項(xiàng)目,靈敏度指數(shù)的最大值一般達(dá)不到1。四選一型項(xiàng)目最大靈敏度指數(shù)為0.75; 五選一,其最大靈敏度指數(shù)為0.80。(2)非錯(cuò)對(duì)型靈敏度計(jì)算DS 為項(xiàng)目靈敏度指數(shù)Ppost為經(jīng)過學(xué)習(xí)后一組手銬在該項(xiàng)目上的答對(duì)率Ppre 為學(xué)習(xí)前這組手銬在該項(xiàng)目上的答對(duì)率: 該組受考學(xué)習(xí)之前在一個(gè)項(xiàng)目上的前平均成績(jī):該組受考學(xué)習(xí)之后在一個(gè)項(xiàng)目上的前平均成績(jī)Xmax:該項(xiàng)目的滿分成績(jī)注意事項(xiàng):用于檢驗(yàn)學(xué)生的學(xué)習(xí)效果,對(duì)基礎(chǔ)知識(shí)的掌握程度一般最好不要低于0.4

55、如果一個(gè)項(xiàng)目的靈敏度指數(shù)達(dá)到我們的最低要求,我們可以認(rèn)為這個(gè)項(xiàng)目質(zhì)量達(dá)標(biāo),可以編入試卷或者收入題庫(kù)。對(duì)于選擇型項(xiàng)目,如果他們有似是而非的措辭或者似是而非的干擾項(xiàng),而且該項(xiàng)目?jī)?yōu)勢(shì)非靠不可的重要內(nèi)容,那么這個(gè)項(xiàng)目就得保留。對(duì)于非選擇型項(xiàng)目,如果表述確切且無(wú)任何含糊之處,而且問題系大綱規(guī)定的重要內(nèi)容,靈敏度再低這個(gè)項(xiàng)目也要用。對(duì)于標(biāo)準(zhǔn)參照性測(cè)試,項(xiàng)目靈敏度高是項(xiàng)目質(zhì)量的充分條件 ;對(duì)于常模參照性測(cè)試,項(xiàng)目區(qū)分度告示項(xiàng)目質(zhì)量的必要條件。8項(xiàng)目反映理論中區(qū)分度和難度的關(guān)系 對(duì)于雙參數(shù)和三參數(shù)模型,如果我們?cè)陧?xiàng)目反映函數(shù)的圖像上找出一個(gè)點(diǎn),在這個(gè)點(diǎn)上,即能力正好等于該項(xiàng)目的難度, 項(xiàng)目的區(qū)分度就是一個(gè)和項(xiàng)

56、目反映曲線在該點(diǎn)的斜率成正比的參數(shù)。因?yàn)槎x區(qū)分度的這一點(diǎn)正好呵項(xiàng)目的難度對(duì)應(yīng),所以我們說他們之間的顎關(guān)系僅僅是參照關(guān)系; 又由于項(xiàng)目的區(qū)分度與項(xiàng)目難度的大小無(wú)關(guān), 因而我們說他們之間沒有任何依存關(guān)系。(鄒申,2008)對(duì)于多選擇型項(xiàng)目,存在著很大的哀冊(cè)因素,這樣區(qū)分度的極大值就包含了很大的水分。為了解決這個(gè)問題,席仲恩( 2003a)建立了關(guān)于項(xiàng)目難度和區(qū)分度極大值之間的一般函數(shù)關(guān)系,不僅僅概括了滅有擦側(cè)因素的非選擇性項(xiàng)目,也概括了由各種猜測(cè)因素的多項(xiàng)選擇型項(xiàng)目。Dmax=2-2P.(a)Dmax =2P-2/A.(b)Dmax: 項(xiàng)目區(qū)分度指數(shù)的極大值P:項(xiàng)目易度指數(shù)A:備選項(xiàng)個(gè)數(shù)注意事項(xiàng)

57、:對(duì)于非選擇性項(xiàng)目,無(wú)猜測(cè)因素因此A=。在P0.50時(shí)用公式(a)在 P0.50時(shí)用公式(b)對(duì)于多項(xiàng)選擇性題目,P0.50+1/A時(shí)用公式(a)在 P0.50+1/A時(shí)用公式(b)(轉(zhuǎn)引自鄒申,2008)9干擾項(xiàng)干擾度在分析一個(gè)項(xiàng)目的干擾項(xiàng)時(shí),同樣也要分析干擾項(xiàng)的“難度”,即干擾力的大小和它的區(qū)分度。干擾度是干擾項(xiàng)干擾力度大小的量度,對(duì)于一個(gè)干擾項(xiàng),選擇它的人數(shù)越多,它的干擾力就越大;反之亦然。干擾度是一個(gè)介于0和1 之間的小數(shù)。對(duì)于一個(gè)干擾項(xiàng),其干擾項(xiàng)不可太強(qiáng)也不可以太弱。不同選擇型項(xiàng)目的干擾度如下表所示項(xiàng)目類型干擾度五選一型0.25四選一型0.33三選一型0.50設(shè)定A為備選項(xiàng)的個(gè)數(shù),其

58、中有一個(gè)為答案項(xiàng),在實(shí)踐中只要不偏離1/(A-1)太大就可以。干擾度的分析公式如下所示:F:干擾項(xiàng)的干擾度n: 選擇該干擾項(xiàng)的人數(shù)w: 大錯(cuò)該項(xiàng)目的人數(shù)干擾區(qū)分度和干擾靈敏度 干擾區(qū)分度是指干擾項(xiàng)的區(qū)分度,干擾靈敏度是指干擾項(xiàng)的靈敏度,前者用于腸膜參照測(cè)試中的項(xiàng)目干擾分析,后者用于標(biāo)準(zhǔn)參照測(cè)試中的項(xiàng)目干擾分析。二者之間的具體區(qū)別如下所述:對(duì)于答案項(xiàng)而言,其區(qū)分度或者靈敏度越高,該項(xiàng)目質(zhì)量越高。對(duì)于干擾項(xiàng)而言,其干擾區(qū)分度和干擾靈敏度越低越好。干擾區(qū)分度和干擾靈敏度應(yīng)該是負(fù)值,而且其絕對(duì)值越大越好。 即總成績(jī)高的受考選擇它的比例小,同時(shí)也希望總成績(jī)低的受考選擇它的比例高。第六節(jié) 項(xiàng)目分析的其他考

59、慮因素1猜測(cè)在測(cè)試中,如何解決受考猜測(cè)的問題一直是困擾著語(yǔ)言測(cè)試學(xué)者們的問題。盡管有關(guān)糾正猜測(cè)的一些不同步驟已經(jīng)出版,但是沒有一個(gè)證明是令人滿意的。原因是猜測(cè)問題要遠(yuǎn)遠(yuǎn)比它最初出現(xiàn)是復(fù)雜的多??紤]到以下猜測(cè)問題要滿足的三個(gè)標(biāo)準(zhǔn)以及提出的互動(dòng)問題,我們就知道原因了。(a) 糾正猜測(cè)必須要意識(shí)到,當(dāng)受考在給定測(cè)試中答題時(shí),猜測(cè)不完全建立在隨機(jī)的基礎(chǔ)上。我們可以更加合理地假設(shè),受考測(cè)猜測(cè)是建立在對(duì)一些該科目理解上以及排除一個(gè)或更多干擾項(xiàng)的能力。然而,個(gè)體受考對(duì)該科目的知識(shí)程度將隨著項(xiàng)目的改變而改變。(b) 猜測(cè)的糾正必須要考慮遺漏項(xiàng)目的問題。有時(shí),受考沒有猜測(cè),只是遺漏了一個(gè)項(xiàng)目的作答。是否該遺漏項(xiàng)目被判定為錯(cuò)誤?是否被遺

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論