




已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
導言筆者連續(xù)撰寫了三篇論文探討測驗等值和連接的概念、程序、應用以及存在的問題。第一篇文章(發(fā)表在考試研究2011年第1期)探討了效度的核心問題,以及在命制試題和組卷過程中構建等值測試版本的重要意義。同時,介紹了等值和連接的主要概念和基本術語,概述了經(jīng)典測量理論(CTT)和項目反應理論(IRT)。第二篇文章(發(fā)表在考試研究2011年第2期)重點介紹了連接和等值的取樣及等值設計,并探討了建立題庫的步驟和基于CTT的等值方法。本文是這一系列的最后一篇文章,主要介紹基于IRT的等值方法,同時就當前教育測量中的多級IRT模型的使用、縱向量表化、計算機化測試以及等值誤差四個重要問題進行簡單討論。本系列論文取材于一名業(yè)界人士對等值和連接的介紹經(jīng)典測量理論和項目反應理論入門(A Practitioners Introduction to Equating with Primers on Classical Test Theory and Item Response Theory, Ryan&Brockmann,2009),是面向開發(fā)、維護和改進教育測量項目的教育工作者而作的,其目標讀者群包括教育測量的用戶、從業(yè)者以及負責教育測量項目的政策制定者。當然,對于其他想對連接與等值作一些基礎的了解,從而更深入學習等值技術的人來說,這些論文也是非常實用的基礎知識。筆者強烈建議讀者參閱第一篇文章,其中闡述了這一系列文章的背景及思路。一、基于IRT的基本等值方法在應用IRT模型進行等值時,有一些基礎概念非常重要,本文介紹IRT等值的目的就在揭示這些概念。IRT等值可以通過出現(xiàn)在兩個或兩個以上的測試中的一組題目(稱為共同題),或者參加了這兩個或兩個以上測試的一組樣本考生(稱為共同組)來實現(xiàn)。在測量心理學上,我們可以認為隨機等值組群就是同樣的一群人去作不同種類的測試。本文主要介紹建立在共同題基礎上的IRT等值方法,并簡要說明這種基于共同題的等值的邏輯及基本做法是如何應用于共同組的等值。在共同題等值中常用的四種方法有:l 應用等值常數(shù)(applying an equating constant)l 利用固定校正估計題目參數(shù)( estimating item parameters with fixed calibration)l 利用同時校準估計題目參數(shù)(estimating item parameters with concurrent/simultaneous calibration)l 應用測試特征曲線法( the Test Characteristic Curve procedure, TCC)作為本文基礎(也是在不同等值方法中使用的)的共同題(錨題),筆者認為有必要再進一步明確其主要特性,這在本系列論文的第二篇中已作過介紹了。這里就共同題的使用準則再作一個簡要的回顧,即:錨題組應該是能代表整份試卷的一個“微型版本”,錨題在試卷A和試卷B的位置(題號)應大致相同,試卷A和試卷B的錨題應該完全一樣。不能修改文字、答案選項順序、題目材料,也不能出現(xiàn)不同的提示語,或者做出其他任何可能影響考生在不同試卷中表現(xiàn)的修改。同時,如果條件允許的話,在使用選擇題、簡答題、延伸題等題型時,錨題組應該與整份試卷具有大致相同的比例。如果有讀者想更加詳細地了解基于IRT的等值,可以參考以下資料,如Best Test Design Test(Wright& Stone, 1979),Equating, Scaling, and Linking: 2nd Edition (Kolen &Brennan, 2004), Educational Measurement, 4th Ed., (Brennan, 2006),Linking and Aligning Scores and Scales( Dorans, Pommerich, &Holland, 2007 ),以及A Practitioners Introduction to Equating with Primers on Classical Test Theory and Item Response Theory (Ryan& Brockmann, 2009)等。1.應用等值常數(shù)進行等值在等值試卷和建立題庫時,使用嵌入兩份試卷中的共同題是一種十分高效且實用的方法。對于兩份有待等值的試卷,此方法能夠用來估計所需的“原點變化”( the shift in the origins)。筆者接下來會為讀者說明應用等值常數(shù)進行等值時所要注意的基本原則和步驟,并以一個案例來示范如何使用單參數(shù)IRT模型(Rasch模型)通過等值常數(shù)進行等值。這一方法的邏輯與實際操作中的完全一致,而且通過一定的擴展與變化,這些原則就能夠適用于大多數(shù)IRT等值的情況。當然,與該案例中使用的IRT模型不同,使用其他的IRT模型也可能得到精確度更高的等值結果。在具有共同題的兩份試卷之間進行等值的第一步是對每份試卷的題目進行特征參數(shù)值估計,兩份試卷的參數(shù)值估計要分別進行,并且所有題目的參數(shù)估計都是在不受約束的條件下進行。當然,這一步驟可以存在例外,例如,如果一份試卷已經(jīng)與題庫進行了等值,那就無需再對題庫的題目參數(shù)值進行估計了。兩份試卷所用的測試量表的原點是任意指定的,使用者可以將其定在任意一個方便的數(shù)值上。在對Rasch模型的大多數(shù)應用中,測試量表的原點通常都定為所有題目難度的平均值,通常是定在零點(0)上。這樣一來,在我們所得到的測試量表上,所有比平均題目難度容易的題目就會呈現(xiàn)負題目難度,比平均題目難度難的題目則會顯示為正題目難度。在開始介紹應用常數(shù)進行等值的案例之前,有必要強調的是,在大多數(shù)IRT的應用中,量表的原點都可以定在任何一個方便的位置上。有時,我們會使用某個年度測試中第一份試卷的參數(shù)值來規(guī)定原點。而在另外的情況下,我們可能把達到某一成績水平(如“熟練”)所需要的學生能力作為量表的原點,當然也可能使用學生能力的平均值。使用不同的原點可以輕易地對量表進行改變,由此可以調整量表變量。圖1所示的是一份虛擬的試卷X,共有20道題目。其中A、B、C 3道題是錨題,也是另一份試卷Y中的共同題。另外17道題目在試卷X中有而在試卷Y中沒有。圖1中所示的3道共同題都位于原點(0)的左側,也就是說這3道題的難度都低于試卷X的平均題目難度。圖1試卷X中3道相對較易的共同題圖示由于3道共同題在全部20道題目中屬于相對容易的,因此試卷X中其余17道非共同題的平均難度肯定要高于A、B、C組成的共同題組。由圖1可知,題目A、B和C的難度估計值分別為-1.5、-1.0和-0.5, 3道題的平均難度要比試卷的平均題目難度低1.0。圖2是另一份虛擬的試卷Y,題量為20題。在這個例子中,除了由題目A、B、C組成的共同題組外,另外17道題目都與試卷X中的題目不同。在圖2中, 3道共同題都位于原點(0)的右側,也就是說它們的難度相對于整份試卷的平均題目難度要更高一些。 圖2試卷Y中3道相對難的共同題的圖示在試卷Y中, 3道共同題在全部20道題目中屬于相對較難的,因此試卷Y中其余17道非共同題的平均難度肯定要低于A、B、C組成的共同題組。由圖2可知,題目A、B和C的難度估值分別為+0.5, +1.0和+1.5。那么,這3道題的平均難度要比整份試卷的平均題目難度高出1.0。表1共同題難度分析與等值常數(shù)計算表1列出了試卷Y和試卷X中題目的難度,以及兩份試卷中難度估計值上的平均差異。對試卷X和試卷Y中的題目進行等值的關鍵在于要理解:由于兩份試卷中共同題的平均難度的計算與僅在該份試卷中出現(xiàn)的其他題目的難度是緊密相關的,所以兩份試卷共同題的平均相對難度是不同的。在表1所示的例子中,我們把試卷Y當做原點,此時只要將試卷X的分數(shù)量表調整兩個單位就可以等值到試卷Y的量表上去。當然,以Y作為原點是任意確定的,我們也可以把試卷X的量表作為原點。共同題的難度平均值由試卷Y中的+1.0變成了試卷X中的-1.0,這里有兩個單位的差距。試卷X和試卷Y中其他題目在難度上的不同造成了共同題平均難度上的變化,這個變化值也就是把試卷X等值到試卷Y的量表上所需要作出的調整量,即等值常數(shù)。上述案例中的等值常數(shù)是+2.0。當我們把這2.0的等值常數(shù)加到試卷X的難度值上以后,就可以得到一個共同的量表,這個共同量表的原點是試卷Y,共有37道題目分布在這個量表上,其中包括3道共同題、試卷Y獨有的17道題目以及試卷X獨有的17道題目。等值的過程如圖3所示,對試卷X作出+2.0的調整以后, 3道共同題的難度就和試卷Y中的難度一致了。圖3調整試卷X以使兩份試卷的共同題對齊通過調整,試卷X中錨題的平均難度現(xiàn)在也是+1. 0,也就是說與試卷Y中的共同題平均難度相等(即實現(xiàn)了等值)。更為重要的是,通過對共同題之間難度差距的調整,試卷X中所有的題目都等值到了試卷Y的量表上去。圖4所示的即是這一過程的最終結果。圖4兩份試卷通過共同題等值到同一量表上在這個圖中,試卷Y被確定為量表的原點,試卷X則進行了+2.0的調整,這樣一來共同題的平均難度就相同了,試卷X和試卷Y得以等值,兩份試卷中所有的題目都出現(xiàn)在同一量表上,其中包括試卷Y獨有的17道題目、3道共同題和試卷X獨有的17道題目。筆者用上述案例說明了應用等值常數(shù)對有共同題的兩份試卷進行等值的基本過程,這是一個經(jīng)過簡化的案例,目的是為了使這些基本過程看起來更加清楚。然而,在實際應用中這一案例是不切實際的,要想把這個案例中的方法與實際情況相結合,需要明確以下幾點:l 不同的試卷不能僅通過3道共同題就進行等值。我們很難具體地規(guī)定一個共同題的數(shù)量或者比例,但是在通常的實際操作中,一份題量約為4060題的試卷,至少要有1520道共同題用來等值。l 像案例中試卷X和試卷Y這樣難度差別較大的試卷,只能在某些特定的情況下才能進行等值或連接,如跨年級(縱向)連接,或是對大范圍的群體能力進行等值等。l 在命制試卷時,共同題一定要在更大范圍內選擇,覆蓋整份試卷不同難度的題目,而不能像案例中那樣。只要有可能,共同題組應當盡可能地涵蓋易、中、難等各個難度層次的題目。此外,共同題組還應該能體現(xiàn)整份試卷的內容和題目形式。或許有一些題目單獨放在試卷X或試卷Y里能發(fā)揮很好的作用,但并不意味著其可以作為對兩者進行等值的共同題。在檢驗某些題目能否成為好的共同題時,有大量可用的相關程序。此外,當一道題目被用作連接題目時,一定要就其可靠性和穩(wěn)定性進行測試。稍后筆者會詳細闡述這個問題。在上文中筆者使用了一個虛擬的案例來說明等值常數(shù)的應用過程,在這個案例中兩份試卷之間有一組共同的題目。當我們從題庫中抽取出這組共同題,再將其應用到另一份試卷中去時,依然還可以直接使用上文的方法進行等值。如果我們能得到一組共同題的題庫參數(shù)值,就可以將它們當作量表的原點,而把其他試卷中題目參數(shù)值不明的題目都等值到題庫中去。表2顯示的是在實際測試過程中應用等值常數(shù)方法的結果。在這個案例中,我們從題庫中提取了一組數(shù)量為13道題目的共同題組。在2008年的測試中,這13道共同題和另外27道題目共同組成了一份40道題目的試卷。研究者的任務是應用Rasch模型,將27道新題目等值到題庫的量表上去。步驟1:表中第一列說明的是試卷中共同題分布的位置,我們可以看出共同題廣泛分散在整份試卷中。步驟2:如第二列所示, 2008年的試卷經(jīng)過校準,所有的題目難度值都進行了估計。試卷中共同題的難度平均值是-0.382,說明共同題組相對于試卷中其余27道題目來說偏容易。步驟3:第三列是13道共同題的題庫難度值,此時其難度平均值為-0.254,這說明相對于題庫中其他題目,這組共同題也更容易。步驟4:第四列是2008年試卷中共同題的平均難度與其題庫平均難度的差值,這一差值的平均值為-0.128,即是我們要的等值常數(shù)。步驟5:將2008年試卷的題目難度值減去這個等值常數(shù),就可以把2008年試卷的量表等值到題庫量表上去。第五列中所示即是調整后相應題目的題庫難度值。步驟6:將調整后的題庫難度值(第五列)和其原始的題庫難度值(第三列)對比,得到的差值即是第六列中數(shù)值。表2等值常數(shù)分析的結果當用調整等值常數(shù)的方法進行試卷間的等值,或者將一份試卷等值到題庫中去時,我們可以通過評估用于估計等值常數(shù)的題目自身的穩(wěn)定性來衡量這次等值過程的充分性。理論上講,經(jīng)過調整之后,共同題的難度應該與其在題庫中的難度相等。當然,理論上能夠適用于IRT模型及模型參數(shù),實際統(tǒng)計的參數(shù)卻并非如此。表2中第六列的數(shù)據(jù)即提供了衡量題目穩(wěn)定性的信息。至于為什么一道(或更多)共同題在經(jīng)過難度調整后,題目難度和題庫中的難度有著較大的差距,筆者可以列出很多原因。這樣的差值反映了該題目穩(wěn)定性不足,甚至可能導致專業(yè)人員決定把某一道題從計算等值常數(shù)的題組中去掉。一道題目中任何一點改變,哪怕微不足道的,如命題的用語或者選項排列順序的改變,都可能造成題目參數(shù)估計值的不同。預測(field test)中得到的題目參數(shù)可能與實際測試中的參數(shù)值大不相同,因為學生覺得前者的測試結果對他們沒有什么影響,而后者可能對他們會產(chǎn)生決定性的作用。一道題目出現(xiàn)在試卷中的位置也可能會對題目參數(shù)值產(chǎn)生影響。在預測中出現(xiàn)在試卷開頭部分的題目也許在正式測試時會出現(xiàn)在靠近結束的位置,而這兩者的題目參數(shù)值有可能就有一定的差別。一般來說,出現(xiàn)在試卷末端的題目都會更難一些,使用過多次的題目會相對容易一些。此外,題目參數(shù)估計值也可能受到試卷中其他題目的影響。通常來講,我們很難為題目參數(shù)偏離找到一個確切的原因。表2最后一列最后一行顯示的是共同題經(jīng)過等值常數(shù)(-0.128)調整后的難度與其原始題庫難度之間差值的平均值。我們可以看到在平均值上這個差值是0,但這個結果是多個題目之間的差值經(jīng)過代數(shù)運算之后得到的平均值。在實踐中,題目穩(wěn)定性測量所關注的恰恰就是每道題目的調整后參數(shù)值與原始題庫參數(shù)值之間的差值。從表2的最后一列中我們可以看出,最大的正偏離為0.293(第11題),而最大的負偏離為-0.258(第18題)。許多研究者都就調整后的題目參數(shù)與其等值目標參數(shù)(可能是題庫參數(shù),也可能是另一份試卷的題目參數(shù))之間的差值提出了一些數(shù)字化標準,而且大部分實際測試項目也采用了其中一些標準。如Wright與Douglas(1975)和Wright(1977)提出,在計算等值常數(shù)時,應該以0.20和0.30(絕對值)作為調整值的基礎,將不適合的題目排除在計算范圍之外。這個標準被稱為“0.3標準”(the. 3 criterion),它和它的一些變體,如分步算法(a step-wise algorithm)在許多測試項目中都得到了使用。Huynh與Meyer(2010)也針對調整后的參數(shù)值與題庫參數(shù)值的差異提出了統(tǒng)計學標準。他們建議以三種指標為基礎將一些題目排除在題庫之外,這三種指標是:穩(wěn)健z統(tǒng)計量( the robust z-statistic)(+1.645)、調整值和題庫值之間的相關(r0.95)及標準差(介于0.90到1.10之間)。Huynh與Meyer還建議說,無論統(tǒng)計分析的結果如何,從共同題組中刪除的題目不應該超過全組的20%。Cohen, Jiang和Yu(2008)提出了一套程序,通過每道題目提供的統(tǒng)計信息來衡量這道題在等值中的作用。從效果上看,估計標準誤差越大的題目對等值造成的影響就會越小。當然,也有一些研究人員和業(yè)界人士建議,只要是設計用來做共同題的題目就都應該參與到等值計算中來,他們相信通過細致的命題和仔細的預測,共同題組中所有題目的實際效果都會很好。無論用怎樣的標準來分辨不穩(wěn)定的題目,人們還是需要作出一個決定。在一些項目中,這樣的題目會被自動排除在等值常數(shù)的計算之外,但仍會保留下來作為普通題目使用。而在另外一些情況下,統(tǒng)計標準可以用來辨別題目,為更進一步研究服務,但是不會僅根據(jù)統(tǒng)計標準把不符合的題目自動排除在共同題組之外。如果后續(xù)的研究能夠發(fā)現(xiàn)某道題目出現(xiàn)參數(shù)值偏離的原因,那么這道題就可以從共同題組中刪掉。如果沒有具有說服力的解釋,那么在計算等值常數(shù)時仍然要包含這道題。從共同題組中刪除的題目仍然可在試卷中作為普通題目使用。2.應用固定參數(shù)進行等值在不同試卷之間或試卷與題庫之間進行等值的另一種方法是固定參數(shù)法( the fixed parameter),這種方法需要試卷中有一套符合標準的共同題。以下筆者以試卷X和試卷Y為例說明固定參數(shù)等值的應用步驟。虛擬的試卷X代表題庫,試卷Y代表待等值的試卷,共同題是題庫與試卷之間的共同題。圖5所示就是這一方法的總設計圖,具體步驟如下。圖5用共同題固定校準等值步驟1:在兩份試卷中選擇一份作為基準,這份基準試卷中的共同題的題目參數(shù)值也就是等值量表的原點;步驟2:估計基準試卷中所有題目的參數(shù)值(包括難度,區(qū)分度,猜測度等等);步驟3:將基準試卷中共同題的題目參數(shù)值挑選出來,作為固定(或已知)參數(shù)值;步驟4:將試卷X與試卷Y的共同題的參數(shù)值分別對應起來;步驟5:估計試卷Y中其他題目(非共同題)的參數(shù)值,在校準這些題目的參數(shù)值時,試卷Y中共同題的參數(shù)值是固定的,固定值即試卷X共同題的參數(shù)估計值;步驟6:通過將試卷Y中非共同題等值到試卷X上,試卷Y的題目參數(shù)值就和試卷X處在同一個量表上了。在固定參數(shù)的應用中應該注意幾個問題,最重要的是審核、分析兩份試卷在構成上是否相同,或者說有多大的相同性。這是進行試卷間的等值或者試卷與題庫的等值時,人們關心的一個問題。測試框架、題目編制和試卷結構的可比性是審核與分析過程中最關鍵的因素。在檢驗固定參數(shù)是否適用時,一項重要的步驟是檢驗等值的數(shù)據(jù)與使用的IRT模型是否匹配。因為即使用某一IRT模型能夠估計出題目的參數(shù)值,也不能保證這個模型就適合在這次等值中應用。共同題的參數(shù)值的穩(wěn)定性也可以采用固定參數(shù)來檢驗。除了表2提及的技術,還涉及其他的步驟。具體來說,試卷Y中所有的題目(包括共同題和非共同題)都需要進行校準,并保證其題目參數(shù)值可以自由變化。這一校準的過程有可能得到一組新的共同題參數(shù),把這個參數(shù)與試卷X中校準得到的參數(shù)相比較,就可以得出固定參數(shù)中題目的穩(wěn)定性。這項分析所采用的就是上文有關等值常數(shù)等值時提到的方法。在常用的W insteps(Linacre, 2006)軟件中,不穩(wěn)定的題目難度指數(shù)通常用“題目位移”( item displacement)來表示。固定參數(shù)的應用可以用下面圖6進行說明,該圖示說明的是預測中的共同題的設計。圖6應用固定參數(shù)等值的設計圖圖中共有10份預測試卷,每份試卷中都有含有30道共同題。為了方便說明,筆者將共同題整體放在試卷的前半部分,但在實際命題中共同題應該分散地嵌入試卷的不同地方。除了共同題外,每份試卷還含有30道獨立題目。因此,預測總共有300道獨立題目,每份試卷由1000名學生作答。使用固定參數(shù)來分析這些數(shù)據(jù)時,首先要把全部10份試卷中學生對共同題的反應綜合起來,得出一份容量為10000的樣本。在這個樣本數(shù)據(jù)的基礎上,研究人員可以估計30道共同題的IRT題目參數(shù)值,這也就是共同題的固定參數(shù)值。接下來,在將共同題參數(shù)值固定的前提下,研究人員可以開始分析每一份預測試卷,估計其中獨立題目的參數(shù)值。這樣的分析步驟會在10套試卷中依次進行,最終得到一個容量為330道題目的題庫,題庫中的題目都處于同一個由共同題確定的量表上。3.應用同時校準進行等值與連接如圖7所示,應用同時校準進行等值時,試卷和題目的配置與固定參數(shù)分析設計非常相似。在此設計中,測試試卷X包含25道獨立題以及與試卷Y相同的15道共同題;同樣,測試試卷Y包含25道獨立題和15道共同題。因此,所有學生實際上回答40道測試題目。圖7同時校準等值設計使用同時校準方法分析處理數(shù)據(jù)時,學生群體參加了65題的測試,包括試卷X中的25題、試卷Y中的25題以及15道共同題。假設有500名學生使用試卷X,另外500名學生使用試卷Y,表3顯示了這種設計的數(shù)據(jù)分析情況。表3 同時校準的數(shù)據(jù)結構盡管兩部分學生都沒有參加另一試卷獨立題目的作答,但是我們可以把它當成是學生們都回答了這些題,只是學生回答的數(shù)據(jù)缺失了,即選擇試卷X的500名學生在試卷Y的25道獨立題上的作答數(shù)據(jù)缺失,選擇試卷Y的500名學生在試卷X的25道獨立題上的作答數(shù)據(jù)缺失。對這1000名學生進行IRT分析,題目和學生參數(shù)從包含丟失數(shù)據(jù)的數(shù)據(jù)矩陣中估計。IRT軟件可以提供對題目參數(shù)和學生能力參數(shù)的估計,即使并非所有學生都回答了所有題目。更為關鍵的是IRT軟件不把缺失數(shù)據(jù)處理成學生作出了錯誤的反應。對題目和學生參數(shù)進行IRT校準的結果可以放在同一個量表上,因為所有數(shù)據(jù)都是被當成1000名學生以及65道題的單一測試來分析和校正的。所有的IRT分析量表的原點是任意的,可以為共同題參數(shù)的均值、能力估計的均值,或是其他適宜值。解釋和使用同時校準產(chǎn)生結果時必須十分謹慎,這一設計方法將試卷置于同一量表中,但結果并不能保證是否構成了真正的等值試卷。要對兩個測試試卷的IRT假設的適合程度進行評估,并且在評估共同題的參數(shù)值的穩(wěn)定性時,應該比較這些共同題分別在試卷X與試卷Y中的參數(shù)估計值的作用。前述有關等值常數(shù)方法中評估參數(shù)穩(wěn)定性的方法,完全適用于同時校準等值。圖6和圖7中的設計也可以通過前面的固定參數(shù)等值進行分析。使用固定參數(shù)等值首先要將所有的數(shù)據(jù)組合,并在所有的1000個參與答題的學生中僅分析15道共同題。對這15道共同題,每題的參數(shù)值將基于1000位考生來估計,這些對共同題的參數(shù)估計值將被當做是共同題的固定值,然后通過使用共同題的固定參數(shù)值及對試卷X中25道獨立題目進行校準分析的估計參數(shù)值來分析試卷X。同樣,以類似的方式使用共同題的固定參數(shù)值及對試卷Y中25道獨立題目進行校準分析的估計參數(shù)值來分析試卷Y。在很多情況下,應用同步校準和固定參數(shù)的結果差別微乎其微。例如,如果測試試卷被設計成平行卷并使用隨機等值組時,那么在橫向的等值上兩個方法將產(chǎn)生非常相似的結果。但是,在縱向的連接上這兩個方法會產(chǎn)生不同的結果。有關縱向的連接或者量表化,將在后面討論。4.使用共同題的測試特征曲線等值測試特征曲線(TestCharacteristicCurve,TCC)是在使用共同題等值的試卷中一種非常靈活并廣泛使用的方法。測試特征曲線根據(jù)Stocking和Lord(1983)所描述的程序,頻繁地與雙參數(shù)和三參數(shù)IRT模型的數(shù)據(jù)分析一起使用,這種方法的基本算法在很多情況下相當有效。與所有的等值程序一樣,它假設涉及的測試試卷都是平行命制的。Stocking和Lord提出的該方法,其關鍵是使用IRT測試特征曲線。一個測試特征曲線顯示了學生在測試中的IRT能力和預期原始分數(shù)的關系。如圖8所示,具有更高IRT能力估計值的學生將比那些具有低能力的學生得到更高的原始分數(shù)。測試特征曲線反映了在原始分數(shù)和IRT能力之間的一個邏輯關系,可以認為這種關系是所有題目特征曲線的總和。圖8兩個測試特征曲線案例在圖8所示的例子中,兩份試卷有共同題,并且每份試卷都有一組獨立題。試卷A為圖中右側的測試特征曲線。在水平軸方向上能力值為1的位置,回答試卷A的學生預期將會比回答試卷B的學生得到更低的分數(shù),這樣表明試卷A比試卷B更難。試卷A的獨立題相對于試卷B的獨立題也必定更難,因為測試特征曲線基于兩份試卷的共同題是一樣的。利用測試特征曲線等值的基礎是基于IRT模型的某些特征。IRT量表沒有一個固定的原點,而是使用一個主觀的原點或是一個主觀的量表變量或間隔等。在實際的數(shù)據(jù)分析中,原點可以選擇并固定在量表上任何方便的位置,并且可以擴大或者縮小量表變量。一般來講,如果兩個量表的原點及間隔不同,可以對其中的一個量表采用線性轉換,使其處于另一量表上。選擇使用哪種量表需要考慮題目的使用目的、試卷或者題庫特征。在應用IRT方法分析時,對同一題目采用兩個獨立的校準來估計參數(shù)值結果是不一樣的,這是因為兩個校準方法有不同的主觀的原點和量表。另外,題目參數(shù)值也會受到其他各試卷獨立題的題目特征、取樣方法以及估計誤差的影響。要把一份試卷中共同題的參數(shù)值轉換為另一份試卷(目標試卷)量表中相對應的參數(shù)值需要使用兩個常量:一個是通過乘法來調整比例差異的常量,另一個是通過加法來調整量表原點的常量。在一般情況下,這個過程首先要非常仔細地選擇常量的初始值,然后重新優(yōu)化常量,以使轉換試卷和目標試卷的估計分數(shù)差異最小。在使用測試特征曲線方法時,研究人員將決定是否由試卷A作為原點并保持不變,然后將試卷B等值到試卷A的量表上;或者相反,將試卷B作為原點并保持不變,然后將試卷A等值到試卷B的量表上。選擇將哪個試卷作為原點取決于測量的背景。如果一個測試項目每年均舉行,每份新年度的試卷要被等值到上年度的試卷中,上年度的試卷就可以作為等值原點并固定下來。這種方法中,相鄰年度的試卷都被兩兩連在一起。在其他情況下,通常將已經(jīng)設有表現(xiàn)標準的試卷作為量表的原點使用,以便將其他試卷等值到這份試卷上。在這種方式下,標準或者臨界分數(shù)(cutsocres,采用IRT單位)可以通過等值保持不變。圖8中,試卷B的量表被等值到試卷A的原點。實際操作時,試卷A和B的平均值可以被當做原點,或者它們都可以被等值到第三份試卷或一個事先存在的題庫量表上,只要題庫中的共同題存在參數(shù)值即可。該方法要對共同題進行參數(shù)估計,并采取一系列步驟找到可用于估計試卷B中共同題的題目參數(shù)的權重,這些權重是估計題目參數(shù)的標準誤差的函數(shù)。使用這些權重,可以使試卷B中共同題的區(qū)分度、難度和猜測參數(shù)與試卷A中對應的共同題的參數(shù)值非常接近。當所有的權重都被應用到試卷B的題目參數(shù)中時,試卷B就可以等值到試卷A的量表上。衡量該方法是否適用,一個有效的方法是在IRT能力范圍內,選擇具體的幾個點(points)來比較試卷B和試卷A中共同題目的測試特征曲線。用測試特征曲線進行等值在很多情況下都很有效。然而,與其他程序一樣,該方法的應用并不是不存在問題。如圖9所示,試卷A和試卷B的特征曲線出現(xiàn)了相交,在交點之下試卷A比試卷B更難,但是在交點之上,試卷B比試卷A更難。在這種情況下,兩份試卷可被等值到一個假設的第三份試卷上,其測試特征曲線應該在試卷A和試卷B之間。這種方法在大部分情況下都是合理有效的,然而,兩條測試特征曲線如果交點超過一個時可能就會出現(xiàn)問題,因為用一條直線來表示兩條測試特征曲線之間的差異效果就很差。圖9相交的測試特征曲線5.共同組IRT等值參加兩個不同測試的一組考生或者兩個隨機等值組,可以被認為是一組共同組(common people),就如同一組出現(xiàn)在兩個不同測試中的題目可以被認為是一組共同題?;谝唤M共同題等值時,可以用等值常數(shù)進行調整,也可以在參數(shù)校準時固定共同題的參數(shù),這是連接和等值的基本邏輯,這個邏輯也可以以幾乎完全一樣的方式應用到一個共同組中。在此情況下,共同組IRT等值在利用IRT分析的能力和靈活性上非常類似于共同題等值。與共同題等值不同,共同組等值使用基于一個測試獲得學生的已知IRT能力估計值,然后連接到第二個測試上,而共同題等值是使用基于一個測試獲得的題目參數(shù)值,然后連接到第二個測試中。為了進行共同組等值,學生IRT能力的估計要以一個測試為基礎,當學生參加第二個測試時,這些能力估計值隨后被用來估計等值常量,或是固定、穩(wěn)定初始的估計值。以下是一個實例。5000位考生參加了一項50道題目的測試,利用IRT模型進行數(shù)據(jù)分析,把對學生的能力估計值和題目的參數(shù)估計值放在同一量表上。接下來,在參加原有50道題目測試的基礎上,這5000名學生將再參加一輪新的30道題目的測試,以此獲得基于30道題目的能力估計值。這樣,對每個學生而言,都有兩份能力估計值,而這兩份能力估計的差異即提供了一個等值常量,從而將一個測試調整到另一個測試的量表上。而在固定校正中,學生IRT的能力估計值在最初50道題目測試中被固定下來,然后對新的30道題目的參數(shù)值進行估計,以便于它們能夠產(chǎn)生對學生來說盡可能接近的能力估計值。上文提及的共同題等值的案例(如圖1,圖2,表1等)同樣也能使用共同組等值。在共同組等值過程中,同樣的學生,或者是在重要特征方面相似的兩個小組作答試卷X和試卷Y,這兩組試卷沒有共同題??己?兩份試卷被單獨分析,對學生或是題目的參數(shù)值不進行固定,并且將各自試卷題目難度的平均值定位原點。試卷X上學生平均能力的估計值為-1. 0(低能力),而試卷Y上學生平均能力的估計值為+1. 0(高能力)。但是學生能力之間的差別不能解釋他們在測試平均表現(xiàn)上的差別,因為同樣的學生都參加了兩個測試。既然學生能力估計值的差別不能歸因于他們在能力上的實際差別,那么這些差別一定是由測試難度上的差異引起的。因此,以下是這個例子中的關鍵點:l 在試卷X上,平均值為-1.0,學生看起來能力差l 在試卷Y上,平均值+1.0,學生看起來能力強l 試卷X一定比試卷Y更難,因為它使學生看起來能力差,并且兩份試卷在難度上相差+2.0個單位。l +2.0個單位的差異被用作連接常量,就像從共同題上獲得的連接常量一樣,對將兩份試卷進行調整,從而統(tǒng)一到同一量表上。上述對共同組等值的簡短描述和解釋都是相當簡化的,以此來反映整個方法的基本思想和邏輯。實際操作中,還有很多方法,如使用一組學生或者隨機等值組來進行等值,分析中要綜合考慮學生的平均能力以及組間的差異。通常來說,共同組的等值過程需要建立一個轉換方程,實現(xiàn)從第一個測試轉換到第二個測試的分數(shù)轉換。盡管關于轉換方程中系數(shù)計算有很多方法,但也存在很多問題。6.其他基于IRT等值的方法本文主要描述的是普遍使用的基于IRT的等值方法,目的在于闡述其基本邏輯、做法以及在IRT等值過程中存在的問題。然而,文中涉及的等值方法僅僅是用IRT程序來進行試卷等值和建立題庫方法的樣例。Kolen和Brennan(2004)提供了一個針對IRT等值方法的綜合評估,其對IRT量表轉換方法、真實分數(shù)和觀察分數(shù)等值以及使用多級IRT模型等值等的描述是非常有用并讓人受益的(Kolen and Brennan, 2004)。三、對等值若干重要問題的簡要回顧連續(xù)三篇文章已經(jīng)廣泛探討了關于等值與連接的概念、問題和方法。在此簡要回顧大型評估項目中非常受關注的四個問題,分別是多級IRT模型(polytomous IRTmodels)、縱向量表化(vertical scales)、計算機化測試(computers to administer tests)和等值誤差(errors in equating)。1.多級IRT模型的使用這一組三篇文章集中于等值(0-1)記分的測驗,用來闡述不同等值方法的圖表和例證都直接或間接地反映了這一記分特點。然而,許多評估項目會采用多級計分題,如順序評分等級(ordered rating categories)或分部評分模型(partial credit scoring models)。多級計分題的關鍵特征在于,心理測量的關注點集中在考生的有序反應( the ordered response)或評級等級(rating categories)之間的閾值。舉例來說,一個有4個順序等級(1、2、3、4分)的題目有三個閾值,分別是介于1分和2分之間的閾值、2分和3分之間的閾值、3分和4分之間的閾值。這些閾值代表著在IRT量表上的位置,當學生的能力越高時,他們就會獲得覆蓋閾值的更高等級。IRT等值的重點是關注這些閾值,而不是整體題目的難度。例如,如果一個題庫的多級計分題采用固定校正等值,題庫題目的閾值參數(shù)將被固定下來,并且用這些題庫題目的閾值作為“錨”進行校準,從而將新的題目置于題庫的量表上。對多級計分題目進行等值涉及很多技術問題,必須依靠專業(yè)知識和經(jīng)驗來妥善解決。Nering和Ostini(2010)對多級計分IRT模型進行了非常全面的闡述。而且,很多成功的測試項目也使用多級計分題目,并與(0-1)計分題目相結合,以更全面地評價學生掌握預期的知識和技能的情況。2.縱向量表化測量學生一段時間的變化或進步是一個常見的問題,解決這個問題涉及縱向量表化的創(chuàng)建與使用??v向量表是一個簡單的測量量表,橫跨兩個或多個教學年級。本文闡述的大部分等值方法都可應用于建立縱向量表。例如,圖7、表3所示的同時校準等值(連接),該例中提到了試卷X和試卷Y,但沒有關于試卷的其他信息。然而,在縱向連接設計中,試卷X可以用在一些特定年級,而試卷Y用在相鄰的較高年級,同時用一組15道的共同題來測試兩個年級重疊或交叉部分的課程內容,這些共同題目對低年級學生來說可能是較難的,而對高年級同學較容易。當對學生的反應矩陣進行量表化和同時校準后,所有橫跨兩個年級的題目就在同一量表上。同理,再加入一個更高年級的試卷Z,就可以把三個年級的量表構成一個更廣的縱向量表。本文中描述的任何等值方法的基本程序都可以用來建構橫跨兩個或多個年級的量表。構建這樣量表面臨著很多問題和挑戰(zhàn),最基本的問題在本系列論文的第一篇中已指出,即關于等值試卷和連接量表之間的區(qū)別。一般而言,等值測試測量的是同樣的內容、技能或結構,這在同一個年級測試(橫向等值)和兩個相鄰年級(特別是低年級)的測試可以實現(xiàn)。但是,要對來自多個年級的數(shù)據(jù)的測試進行“等值”,更準確地描述應該是“連接量表”而不是等值。涉及縱向連接有很多有意義的且有挑戰(zhàn)性的技術問題已經(jīng)超出了本文討論的范圍,但需要強調的重要問題是,不能想當然地認為跨年級的連接測試量表就是等值試卷。縱向連接的量表有著廣泛的用途,但不能就說其已經(jīng)在不同年級試卷中實現(xiàn)了等值。3.計算機化測試目前,許多測試項目都在使用計算機來管理題目或試卷,用計算機來輔助測試有兩種基本方法,一是基于計算機的測評(Computer Based Assessment, CBA),指的是所有學生都在計算機上完成完整的試卷,可能所有學生都做同樣的試卷,也可能不同學生隨機抽取了不同的完整測試卷。其特點是學生或學生樣本做完整份具有同樣題目的試卷,且試卷中題目的順序相同。第二種方法是計算機適應性測試(Computer Adaptive Testing, CAT),指的是在測試中不同學生按不同的順序分配到不同的測試題目。CAT的關鍵特點在于它是動態(tài)的,會根據(jù)之前的信息以及學生在事先小部分題目測試中的反應,判斷出他們的能力,并分配給學生與他們能力相匹配的題目。以學生在預測階段小部分題目中反映出的信息或數(shù)據(jù)來估計其在測量量表的位置,這樣,再從經(jīng)過等值校準的題庫中選出的題目也就與學生的能力相接近了。在大多數(shù)CAT中,挑選出的題目也要確保滿足基本的測試內容要求和測試目的。CAT中動態(tài)的、適應性的選題使學生作答符合他們能力的題目,與所有學生做整套相同的題目相比,適應性地分配給學生一組題目能夠提供關于該生更多精確的信息。適應性測試對學生有著積極的影響,避免了他們因題目過難而受挫敗,或因題目過于簡單而覺得無聊。CAT的實施需要一個非常龐大的題庫做支撐,這個題庫要滿足測試項目的內容框架,并且題目還要與一個共同量表等值或連接。本文中描述的方法可以用來創(chuàng)建這種題庫,但要創(chuàng)建一個滿足內容覆蓋全、題目難度范圍廣,且題量足夠大的題庫仍是一個非常具有挑戰(zhàn)性的任務。CAT系統(tǒng)也需要大量的計算機基礎設施,包括空間、計算機終端以及軟件支持等。盡管面臨挑戰(zhàn),與CBA和紙筆測試相比, CAT系統(tǒng)有著很多心理測量學和實踐上的優(yōu)勢。4.等值誤差所有測量活動,包括等值的結果都存在一定程度的誤差變量。這種誤差有很多來源,包括抽樣誤差、測量誤差、IRT參數(shù)估計誤差以及等值誤差等。本系列論文的第二篇闡述了等值中誤差估計的分析和經(jīng)驗法,這些方法在正確解釋基于IRT的等值中是適用且重要的。這里就不再重復討論了。總結本文是本系列審視試卷等值和連接概念、方法、應用和存在問題的文章的最后一篇,筆者闡述并舉例說明了基于項目反應理論的等值程序,并簡要分析了四種常見的等值問題?,F(xiàn)就使用和解釋等值方法中需要明確的四個基本問題作出如下總結。第一,等值的方法有很多,同時這些方法也都有許多相關的技術問題,從業(yè)人員需要研究評價項目的背景,并且根據(jù)項目的特點、條件來選擇符合要求的最優(yōu)的等值方法。若不考慮評價與測量的目的和背景而盲目地選擇一個等值方法,則是難以行之有效的。第二,本文闡述的等值具體程序可以用來連接兩個或多個試卷的量表,或者連接試卷與題庫的量表,但是聲稱使用這種程序將產(chǎn)生等值的試卷,則要非常小心。等值意味著在等值測試中的相同分數(shù),其在學生的知識和能力方面具有同樣的解釋,而等值程序的應用并不是自然而然地支持這個解釋。第三,試卷間等值的合適與否主要不是技術問題,其根本在于測試規(guī)范( test specifications)建立和描述、題目命制,以及試卷構建等的細致程度。第四,判斷等值充分性和合適度的重要標準也是效度評價的標準之一。因此,要將評估等值整體過程和結果的效度作為前期等值設計計劃的一個組成部分。參考文獻:1Brennan, R. L. (Ed) (2006), Educational Measurement, 4thed.,Westport,CT: Praeger Publishers Cohen, J., Jiang, T., and Yu, P. (2008),Information-Weighted Linking Constants, American Institutes for Research, 1000 Thomas Jefferson Street, NW, Washington, DC, 20007-3835,USA.2orans, N. J., Pommerich, M., & Holland, P. W.(2007),Linking and Aligning Scores and Scales, Stati
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 抖音商戶場控設備定期維護保養(yǎng)制度
- 全球鈾礦資源分布與核能產(chǎn)業(yè)市場前景預測研究報告
- 公交優(yōu)先戰(zhàn)略2025年城市交通擁堵治理的公共交通與體育賽事協(xié)同報告
- c-Kit-IN-9-生命科學試劑-MCE
- 山東勝利職業(yè)學院《企業(yè)經(jīng)營統(tǒng)計學》2023-2024學年第一學期期末試卷
- 長治學院《藝術社會學》2023-2024學年第一學期期末試卷
- 湖北省荊門市2024年九上化學期末復習檢測試題含解析
- 江蘇省沛縣2024-2025學年七年級數(shù)學第一學期期末質量檢測模擬試題含解析
- 湖北第二師范學院《數(shù)據(jù)處理與分析實驗》2023-2024學年第一學期期末試卷
- 公路貨運行業(yè)數(shù)字化轉型與智能物流系統(tǒng)優(yōu)化報告
- 資產(chǎn)評估收費管理辦法(2023)2914
- 孤獨癥康復教育人員上崗培訓練習題庫及答案
- 機械設備投入計劃及保證措施
- 東南大學附屬中大醫(yī)院ECMO操作記錄單
- 每月防火檢查及記錄表(每月一次)
- DFMEA編制作業(yè)指導書新版
- 工程項目成本預算表
- GB∕T 3639-2021 冷拔或冷軋精密無縫鋼管
- DB51∕T 2628-2019 司法所外觀及室內標識規(guī)范
- 一般自我效能感量表(GSES)
- 2022版義務教育語文課程標準(2022版含新增和修訂部分)
評論
0/150
提交評論