項目反應(yīng)理論與題庫建設(shè)_第1頁
項目反應(yīng)理論與題庫建設(shè)_第2頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、項目反應(yīng)理論與題庫建設(shè)項目反應(yīng)理論(IRT)項目反應(yīng)理論是針對經(jīng)典測量理論的不足而提出來的一種新的測量理論。它的最大優(yōu)點是項目參數(shù)和被試能力參數(shù)的不變性。即項目參數(shù)的估計值與被試樣組的選擇無關(guān);被試能力的估計值與所施測的試題無關(guān)。同時能夠提供各被試能力估計值的精確度指標,而且在施測前就可以知道各個測驗項目對于不同被試的能力估計的精確度。項目反應(yīng)理論的這些優(yōu)點對于題庫的建設(shè)、測驗的編制十分重要。項目反應(yīng)理論包含很多內(nèi)容,限于篇幅,下面僅就其核心內(nèi)容加以簡單的討論。1、項目反應(yīng)模型項目反應(yīng)模型是用以表示被試能力和被試者對測驗項目“正答概率”之間關(guān)系的數(shù)學函數(shù),這個函數(shù)是單調(diào)遞增的,被稱為項目特征函

2、數(shù)(ICF: Item Charateriseic Function)或項目反應(yīng)函數(shù)( IRF: Item Response Function)。它包含一定數(shù)目的項目參數(shù)(如難度參數(shù)、區(qū)分度參數(shù)、猜測參數(shù)等),這些參數(shù)值可以通過一定的方法估計出,在項目參數(shù)值確定后,利用項目反應(yīng)模型就可以計算出各被試的能力估計值。在IRT的研究發(fā)展中,人們提出了多種項目反應(yīng)模型,這些模型主要分為兩大類:靜態(tài)模型和動態(tài)模型。靜態(tài)模型描述考生某個時刻的潛在特質(zhì)水平,不包含時間因素;動態(tài)模型用來測量考生潛在特質(zhì)隨時間變化的程度。目前發(fā)展比較成熟且得到廣泛應(yīng)用的是靜態(tài)模型。下面我們主要介紹在題庫建設(shè)中常使用的幾種靜態(tài)模

3、型。靜態(tài)模型也有多種,它們可分為單維的和多維的;二值記分的和多值記分的;正態(tài)卵型的和邏輯斯諦型的,等等。在題庫建設(shè)中最常用的是單維的二值記分的邏輯斯諦模型。單維是指模型假設(shè)只有一種潛在特質(zhì)對測驗反應(yīng)數(shù)據(jù)起作用;二值記分是與二值反應(yīng)相聯(lián)系的記分方式。在成就和能力測驗中,考生對項目反應(yīng)的“正確”與“錯誤”,通常用0和1表示(0表示錯,l表示對),所形成的測驗數(shù)據(jù)就是二值的。二值記分表明模型所能處理的測驗數(shù)據(jù)是二值的。邏輯斯諦模型的數(shù)學表達式為:式中,e為自然對數(shù)的底;x為一個任意符號。當x用不同的代數(shù)式表示時,就形成了各種不同參數(shù)的邏輯斯諦模型,如雙參數(shù)邏輯斯諦模型、單參數(shù)和三參數(shù)邏輯斯諦模型等。

4、1、項目反應(yīng)模型 雙參數(shù)邏輯斯諦模型雙參數(shù)邏輯斯諦模型的數(shù)學表達式為:式中,Pi()表示某個隨機選出的能力值為的考生正答項目 i的概率;ai和bi是項目i的兩個不同的參數(shù);n為項目數(shù);D是量表因子,通常取值為1.7。在雙參數(shù)模型中蘊含這樣一個假設(shè),即考生在對項目作出反應(yīng)時并不受到猜測因素的影響,能力值極低的考生,其正確回答概率接近于零。 三參數(shù)邏輯斯諦模型三參數(shù)邏輯斯諦模型的數(shù)學表達式為:它是在雙參邏輯斯諦模型中增加了參數(shù)C后得到的。式中,Ci是和能力極低考生的正答概率有關(guān)的參數(shù),稱為猜測參數(shù),或偽隨機水平參數(shù);其它各字母的意義與雙參數(shù)模型數(shù)學表達式中的一致。如圖所示的是一個典型的三參數(shù)邏輯斯

5、諦模型項目特征曲線。圖中橫坐標表示考生的能力值,被稱為能力量表;縱坐標表示考生的正答概率,稱為概率量表。從圖中可以看出各個參數(shù)的涵義。參數(shù)bi等于項目特征曲線(項目特征函數(shù)的圖象稱為項目特征曲線,簡稱ICC)上斜率最大處在能力量表上對應(yīng)的值,對應(yīng)于bi點的ICC的斜率為0.425ai(1-Ci)。式中ai為項目區(qū)分度,ai值越大,ICC越陡,參數(shù)Ci是在概率量表上度量的,它表示能力極低考生的正答概率。顯然,由于該模型中包含了參數(shù)Ci,即意味著能力極低的考生也有可能答對該項目,因此,這一模型適合于多項選擇題的成就測驗或能力測驗。 單參數(shù)邏輯斯諦模型單參數(shù)邏輯斯諦模型可以看作是三參模型的特例。其數(shù)

6、學表達式為:式中,j為考生j的能力水平值;bi為項目i的難度,隨項目的不同,bi值是變化的;pi(j)為第j個考生答對項目i的概率。從式中可以看出,當考生的能力j強于項目難度bi時,即jbi時,(jbi)為正值,此時,該考生成功的概率將大于0.5;當(jbi)的值越大,考生成功的概率就越接近于l。當考生能力值低于項目難度值時,即 jbi 時,(jbi)為負值,此時,該考生成功的概率將小于0.5;考生能力越低,項目難度越高,該考生成功的概率越接近于零。雖然單參模型可以看作雙參和三參模型的特例,但由于它本身還有一些獨特性質(zhì),所以對于測驗使用者仍有相當?shù)奈ΑJ紫仍撃P椭挥休^少的項目參數(shù),比較容易

7、處理;其次,在進行參數(shù)估計時,它比其它模型遇到的問題要少些;第三,它可以使對項目參數(shù)和能力參數(shù)的估計完全分開,達到某種特定的客觀性。這就意味著:只要測驗項目是符合該模型的,對于考生能力參數(shù)的估計就是獨立于所使用的測驗項目和無偏的;只要考生是符合于該模型的,對項目參數(shù)的估計就獨立于考生樣組的能力分布和無偏的。單參模型的這一特點可以使我們對該模型中的項目難度參數(shù)和考生能力參數(shù)分別進行估計而不相互干擾。1、項目反應(yīng)模型以上介紹的三種邏輯斯諦模型都是最常用的項目反應(yīng)模型。但是,由于參數(shù)設(shè)置和模型中的假設(shè)不同,它們各自適用于特定的測驗數(shù)據(jù)。也就是說,在實際應(yīng)用中要進行模型的選擇。選用哪一種模型要考慮許多

8、因素,通常主要考慮測驗數(shù)據(jù)能夠滿足模型的假設(shè)情況。例如,單參數(shù)和雙參數(shù)模型假設(shè)被試在對項目作出反應(yīng)時不存在猜測成分,三參模型允許被試憑猜測作出反應(yīng)。如果測驗數(shù)據(jù)是從一組多項選擇題或是非題所得到的,那就不能排除被試作答時的猜測因素。對于這種測驗數(shù)據(jù),選擇三參數(shù)模型比較合適。再如,單參數(shù)模型假設(shè)各項目具有相同的區(qū)分度,而雙參和三參模型允許各項目具有不同的區(qū)分度,在無法保證或無法確定測驗的各項目具有相同的區(qū)分度時,就不能采用單參數(shù)模型。因此,一般認為,三參數(shù)模型適用于由多項選擇題和是非題組成的測驗,雙參數(shù)模型適用于其它一些不存在猜測因素的測驗,在測驗結(jié)果既不受猜測因素影響,測驗中各項目又具有相同區(qū)分

9、度的情況下,再選用單參模型。當然這并不意味著單參模型的實用性差。實驗研究證明,項目反應(yīng)模型具有一定的穩(wěn)健性,當有關(guān)假設(shè)受到輕度違反時,仍能夠得到較精確的參數(shù)估計值,這就為我們選用單參模型提供了理論依據(jù)。2、項目反應(yīng)模型的參數(shù)估計每一個項目反應(yīng)模型都有一定數(shù)目的參數(shù),這些參數(shù)值都不能由直接測量得到,而必須根據(jù)被試的反應(yīng)數(shù)據(jù)進行估計而得到。對于二值記分的邏輯斯諦模型,其參數(shù)估計是根據(jù)“0”、“1”得分矩陣進行的。設(shè)測驗由n個項目組成,共有m個被試,各被試對各項目的反應(yīng)情況組成一個 m n的得分數(shù)據(jù)矩陣(即 0、1矩陣)。根據(jù)這個得分矩陣進行參數(shù)估計的基本過程如下: 確定項目參數(shù)的初始估計值。具體方

10、法可有多種,何如,可根據(jù)經(jīng)典測量理論得到項目難度和項目區(qū)分度的統(tǒng)計量值,或假設(shè)項目參數(shù)為某個常數(shù)。 根據(jù)項目參數(shù)的初始值,運用極大似然法或貝葉斯方法得到每一個被試的能力估計值。 把所有被試根據(jù)其能力估計值分成若干組,使得每一組中的被試具有相近的能力估計值,并以同一組內(nèi)被試能力估計值的平均數(shù)(或中位數(shù))作為該組被試能力估計值的代表值。 根據(jù)得分數(shù)據(jù)矩陣,計算出每一組被試答對各個項目的比例。 以各組被試能力估計值的代表值為橫坐標,以該組被試答對某項目的比例為縱坐標作圖,對于每一個項目都可以作出一幅圖,圖中的曲線稱為經(jīng)驗項目反應(yīng)函數(shù),如圖620中的虛線所示。 尋找一組項目參數(shù)估計值,將其代人所選用的

11、項目反應(yīng)模型后,得到的答對概率值能夠和圖中經(jīng)驗項目反應(yīng)函數(shù)很好地擬合。 在得到這組項目參數(shù)估計值后,重復(fù)進行第至第步驟,再尋找項目參數(shù)新的估計值。上述過程不斷地重復(fù),不斷地對能力估計值和項目參數(shù)估計值進行修正,直至項目參數(shù)值趨于穩(wěn)定。2、項目反應(yīng)模型的參數(shù)估計項目參數(shù)估計的過程是非常復(fù)雜的,通常要運用專門的計算機軟件才能較好地完成。盡管各種軟件采用了不同的估計方法,但基本過程都如上所述。目前對參數(shù)進行估計的方法很多,極大似然法是最常用的方法。這種方法是在參數(shù)估計過程中,運用似然函數(shù)來尋找一組項目和被試能力的參數(shù)估計值,使得在取這組估計值時,出現(xiàn)所觀察到的實際反應(yīng)數(shù)據(jù)的可能性最大。在極大似然估計

12、中,似然函數(shù)的一般形式為:式中, U為 m n的項目反應(yīng)矩陣,其元素為Uij;Pij為被試j答對項目i的概率; Qij為被試 j答錯項目 i的概率; a,b,c為由各項目參數(shù)所組成的矢量; m為被試人數(shù),n為測驗項目數(shù)。由于上式是一個連乘式,計算很不方便。因此,在實際應(yīng)用時一般對該式取對數(shù)而簡化運算,得到的對數(shù)似然函數(shù)式為:這是三參數(shù)邏輯斯諦模型的似然函數(shù),適用于最一般的情況,單參數(shù)和雙參數(shù)模型的似然函數(shù)是它的特例。利用似然函數(shù)法進行參數(shù)估計時,通常是尋找使似然函數(shù)達到最大值的那個參數(shù)值。似然函數(shù)和它的對數(shù)能夠在同一點達到最大值,所以,只要找出能使對數(shù)似然函數(shù)取得最大值的參數(shù)值就可以了。具體做

13、法是:令I(lǐng)nL對于各參數(shù)的一階偏導數(shù)為0即可。也就是說,對三參數(shù)模型,只要解出如下的方程組就可得到項目和被試能力的參數(shù)值:由于有 m個被試和 n個項目,每個項目有三個參數(shù),所以從理論上說該方程組共有 m 3n個方程。這些方程都是非線性的,一般是采用數(shù)值計算的方法得到方程的解。極大似然法估計參敵時有兩條缺點:第一沒有利用關(guān)于被試能力的先驗知識;第二是對于滿分和零分的被試無法進行參數(shù)估計。貝葉斯估計方法克服了似然法的兩個缺點,只要事先知道一組被試的能力分布,就可運用貝葉斯法對各個被試的能力值進行估計。(由于貝葉斯估計涉及更復(fù)雜的數(shù)學問題,故不在本書贅述,有興趣者查閱有關(guān)資料。)3、信息函數(shù)信息函數(shù)

14、是項目反應(yīng)理論中的一個基本概念二相當于經(jīng)典理論中的信度,其主要作用是估計測驗的可靠性。在經(jīng)典理論中利用信度來估價測驗的可靠性,有關(guān)信度的計算方法都依賴于被試樣組,即對不同的被試樣組得到不同的信度值,這給測驗使用者帶來極大的不便。信度函數(shù)較好地解決了經(jīng)典理論遇到的困難。信度函數(shù)的計算不依賴于被試樣組,而只和該測驗中包含的項目有關(guān)。同時它是被試能力的函數(shù),對于每一個能力水平能提供不同的測量誤差估計值,并能在施測以前就預(yù)測出測驗的精確度。目前,信度函數(shù)被廣泛應(yīng)用于測驗的編制、測驗精度的評價。確定分數(shù)的權(quán)重等許多方面。信息函數(shù)常用的計算公式與極大似然估計值的性質(zhì)有關(guān),具體表達式為:其中,Pi表示項目反

15、應(yīng)函數(shù)對于的導數(shù), Pi為被試答對項目i的概率;Qi為被試答錯項目i的概率;I()稱為測驗信息函數(shù),其值稱為測驗信息量。從上式可以看出,I()是對個各項目的求和,所以各項目對整個測驗的信息量具有可加性。因此定義:為項目信息函數(shù)。其中,Ui為第 i個項目;I(,Ui)的值稱為項目信息量。這樣,測驗信息量等于各項目信息量之和。從I(,Ui)的計算公式可以看出,項目信息函數(shù)在每一能力水平上的值都取決于該點處的項目反應(yīng)函數(shù)的斜率(Pi)和條件方差(PiQi);斜率越大或方差越小,則信息量越大,測量的標準誤差SE()越小。測量誤差越小,說明對被試能力的估計越精確,因而測驗的可靠性越高。通常情況下,項目信

16、息量在能力為極大值max處達到極大值I(,Ui)max。不同的項目反應(yīng)模型,max和I(,Ui)max是不同的,它們的取值受到項目參數(shù)的影響。對于最常用的三種邏輯斯諦模型,max和I(,Ui)max的計算表達式分別為: 單參數(shù)模型 雙參數(shù)模型 三參數(shù)模型上面各式中, D1.7; ai、bi、ci分別為項目的區(qū)分度參數(shù)、難度參數(shù)和猜測參數(shù)。分析上面各式可以看到:對于單參和雙參邏輯斯諦模型,項目信息函數(shù)在max= bi處取得極大值,單參模型項目信息量的極大值為常數(shù);雙參模型項目信息量的極大值和項目區(qū)分度ai的平方成正比,ai值越大則信息量越大;對三參數(shù)模型,能力量表上的max同時受到ai、bi和c

17、i三個參數(shù)的影響,其項目信息量的極大值與參數(shù)a和c都有關(guān)系:a越大,則信息量越大;c越大則信息量越小,當c無窮大時,即完全憑猜測回答問題時,信息量為零,當C為零時,信息量可以達到極大值。若已知項目的各個參數(shù),就可以計算出該項目的信息量極大值,同時畫出它們的項目信息函數(shù)曲線。表中列出了4個項目的參數(shù)及I(,Ui)max;圖6.21給出了這4個項目的信息函數(shù)曲線,圖的橫坐標為能力量表,縱坐標為信息量表。圖6.21對四個項目的信息函數(shù)、從4個項目信息函數(shù)曲線可以看出:項目1和項目2的a。b值相等,猜測參數(shù)c值大的,提供的信息量??;區(qū)分度低的項目(如項目4)對能力的估計幾乎沒有什么作用(項目4的信息函

18、數(shù)曲線非常平坦,提供的信息量幾乎為0)。由此可見,項目的參數(shù)值對于項目信息函數(shù)有明顯影響,這一點對測驗的編制是非常有用的。因為信息函數(shù)反映了測量的精確度,根據(jù)項目參數(shù)和信息函數(shù)的關(guān)系,我們就可以選擇適當?shù)捻椖?,使整個測驗達到預(yù)定的精確度。另外,信息函數(shù)具有可加性,項目越多,測驗越長,信息函數(shù)值就越大,估計的精確性也越高。所以,要保證測驗的精度,一方面要選擇恰當?shù)捻椖?,另一方面要有適量的項目,項目過少,信息量就小,測驗的精度就低,可靠性就差。應(yīng)當說明的是,進行題庫建設(shè)一定要運用教育測量理論,但運用項目反應(yīng)理論與運用經(jīng)典理論在某些問題的考慮與處理上是不完全一致的,主要區(qū)別表現(xiàn)在項目參數(shù)的獲得。標準

19、參照測驗項目的選擇、常模的建立和預(yù)測分數(shù)的評價等方面。(由于篇幅所限,不能對這些區(qū)別作詳細討論,讀者在需要時可查閱有關(guān)書籍。)題庫系統(tǒng)的基本構(gòu)成對于一個功能較強的題庫系統(tǒng),與CAT系統(tǒng)在功能上沒有很大的區(qū)別,只是在規(guī)模上題庫系統(tǒng)不一定像CAT系統(tǒng)那樣大。通常,它完成測驗過程中某些環(huán)節(jié)上的工作,例如測驗編制。測試分析等,當然也可以完成測驗過程中的全部工作。一個題庫系統(tǒng),不論是專門化的(只支持某一學科的題庫建立,如建英語題庫。數(shù)學題庫、物理題庫等),還是通用的(支持各學科題庫的建立),在所形成的相應(yīng)學科的題庫方面會各有獨自的特點,但任何系統(tǒng)的功能基本上是一致的,一般都應(yīng)具備建庫和維護、查詢和檢索。

20、組卷和印卷、試題與試卷分析等功能,這是無論建立什么學科的題庫都需要的。對于不同學科的題庫系統(tǒng)必須根據(jù)學科本身特征去解決一些具體問題。例如英語不涉及圖形問題,相應(yīng)地,題庫系統(tǒng)就不必處理圖形所帶來的問題。而數(shù)學、物理等理科都要涉及圖形和特殊符號等問題,它們的題庫系統(tǒng)相應(yīng)地就必須解決圖形、特殊符號的繪制、存貯等技術(shù)問題。圖622所示的是一個物理題庫系統(tǒng)的功能結(jié)構(gòu)圖,它既可以說明一個題庫系統(tǒng)的基本構(gòu)成,也反映了學科特點對題庫系統(tǒng)的特殊功能要求。圖6.22題庫系統(tǒng)功能結(jié)構(gòu)圖1、建庫與維護干系統(tǒng)建庫與維護子系統(tǒng)的功能是將已經(jīng)選定的題目按屬性指標、題文、附圖、答文、答圖等項目,將有關(guān)信息準確方便地送入各子庫

21、中,并對庫中的有關(guān)信息進行增、刪、修改、更換以及按題號排序和查對等。由于物理學科的特點,圖形和特殊字符在題庫中占有較大比重,所以物理題庫系統(tǒng)需要有繪制圖形與特殊符號的功能,這項功能應(yīng)在建庫和維護子系統(tǒng)中實現(xiàn)。另外,由于試題中有圖形,答案中也可能有圖形,所以一個題目記錄要由屬性指標、題目正文(簡稱題文)、附圖、答文、答圖等五部分組成??紤]存儲和管理的方便,試題的這些信息不統(tǒng)一存放在一個庫中,而分別存放在指標庫、題文庫。附圖庫、答文庫和答圖庫等五個子庫中。各子庫中同屬一道試題的各項信息通過題目序號聯(lián)系起來。此外,按照課程的內(nèi)容把所有題目分類,按類存放,這樣各子庫相應(yīng)地分成若干分庫,每一分庫存放某一

22、類的試題。2、查詢與檢索子系統(tǒng)查詢與檢索子系統(tǒng)的功能是查詢題庫中試題的分布情況,包括總庫及各分庫的試題接任一屬性指標的分布情況;此外,根據(jù)用戶要求查詢?nèi)我庵付ㄔ囶}的指標、題文、附圖。答文和答圖,以便用戶及時了解題庫中試題的分布情況,對題庫的使用。整理和擴充提供必要的指導信息。3、交互式組卷子系統(tǒng)交互式組卷子系統(tǒng)的功能是允許用戶通過人機對話方式指定試題的屬性指標來選擇試題生成試卷,可使用不同的方式指定選題指標(如指定試題號或逐項指定指標)并允許進行調(diào)整。這種組卷方式比較適合于在具體的教學環(huán)境下生成有針對性的測驗試卷。4、自動組卷子系統(tǒng)自動組卷子系統(tǒng)的功能是由用戶向系統(tǒng)送入有關(guān)組卷的要求,例如試題

23、的內(nèi)容范圍。試題類型。各類型的題目數(shù)、試題難度。區(qū)分度等指標,根據(jù)這些指標的要求,系統(tǒng)自動檢索題庫生成試卷。5、打印與輸出于系統(tǒng)打印與輸出子系統(tǒng)的功能是進行試卷試題的輸出和打印,能給出一定格式的試卷。解答和試卷試題的指標,能把任意給定指標的試題從試題庫中顯示或打印出來。6、測試分析子系統(tǒng)測試分析子系統(tǒng)的功能是輸入考試成績等有關(guān)信息,然后按有關(guān)測量理論進行試題和試卷分析,給出實測指標,并根據(jù)實測值修改題庫中試題的有關(guān)屬性指標。題庫結(jié)構(gòu)設(shè)計一個題庫將存放大量的題目,這些題目在計算機內(nèi)如何存儲將直接影響題庫系統(tǒng)的工作效率和效果,因此題庫結(jié)構(gòu)的設(shè)計是題庫系統(tǒng)設(shè)計開發(fā)的關(guān)鍵一環(huán)。一般地說,一個大型題庫應(yīng)

24、該具有這樣的特征:(1)題庫中的題目按學科領(lǐng)域分類,每一學科領(lǐng)域的題目又細分為若干個題目組合,這些題目組合可用于特定的教學目標,或測驗特定的概念或能力。(2)題庫中的每一題目由兩部分組成,即題目屬性指標和題目本身。題目屬性指標有多項,反映有關(guān)題目的多種信息,這些信息將某一題目與庫中的其它題目區(qū)別開,同時標記著題目使用的歷史和使用情況(如使用次數(shù)、被高分學生答對的次數(shù)和被低分學生答對的次數(shù)等)。(3)題庫具有構(gòu)成和結(jié)出等價形式測驗的能力。等價形式的測驗是由不同的題目組合構(gòu)成的,但每個測驗的統(tǒng)計結(jié)果具有等效性,即這些不同的題目組合卻測驗相同的目標或概念,并用相同的統(tǒng)計方法來區(qū)分學生學習的好與差。根

25、據(jù)國家標準,對一個學生采用一個測驗的兩個或三個等價形式,每次得到的分數(shù)應(yīng)是相同的,這樣的等價形式是有效的。上述題庫的三方面特征的體現(xiàn)要通過題庫結(jié)構(gòu)設(shè)計來達到,換句話說題庫結(jié)構(gòu)設(shè)計時要考慮題庫的這三個基本特征。因此,題庫結(jié)構(gòu)設(shè)計最基礎(chǔ)的工作應(yīng)包括確定題目類型、規(guī)定試題屬性及題庫總體數(shù)據(jù)結(jié)構(gòu)的確立等幾方面。1、試題類型在CAI系統(tǒng)中提問可采用是非型、多重選擇型、匹配型及短答填充型等幾種形式。對于CAT系統(tǒng)來說,考慮計算機對閱卷評分的限制,也大都是選用這四種類型的試題。上述四種類型的題目除在表面形式和作答要求上有很大區(qū)別外,在測試中也表現(xiàn)出很多不同的特點,這些特點反映了各類型題目的適應(yīng)性,在選題和組

26、卷中應(yīng)考慮這些特征。表中列出了四種類型題目的測試特點,了解掌握這些特點對增加題庫的有效性、提高測驗的可靠性是有益的。表67題型測試特點比較表中從同一時間內(nèi)可作題數(shù)、計算機處理的難易程度。猜測而答對的可能性及可測目標分類層次范圍等四個方面比較了不同題型的測試特點?!巴粫r間內(nèi)可作題目數(shù)”的特點反映了考試周期(如兩小時)內(nèi)一般學生所能完成題量的限制;“計算機處理”難易程度的特點反映了題型在應(yīng)用計算機方面受到的約束限制,例如短答填充題與匹配題的回答不能用填寫答案后經(jīng)OCR讀入的方式進行評閱分析;“猜測而答對可能性”的特點反映了題型對于學生真實能力測試的限制,例如是非題容易產(chǎn)生猜測而答對的結(jié)果,這將影

27、響評價的可靠性,對是非題需要增加題數(shù)或者其它的處理來消除其不可靠性;“可測目標分類層次范圍”可說明各類型題對測驗的適應(yīng)性,但這一點并不是絕對的,例如一般說來是非題只適于目標層次較低的測試,但有些知識內(nèi)容通過精心的題目設(shè)計所得到的是非題也可以用于較高層次目標的測試。例如:數(shù)列2、3、5、8 、13的下一項是21嗎?此是非題可以測試學生的分析能力。應(yīng)該指出的是,目前很多題庫系統(tǒng)不提供閱卷評分的功能,試題庫中的題目類型就可不局限于上述四種,例如可有計算題、證明題、作圖題等。這樣,通??己怂褂玫念}型幾乎都可以存儲到題庫中。2、試題屬性試題屬性是指除題文以外能反映試題某些情況的指標項。規(guī)定試題的屬性是

28、從計算機管理、產(chǎn)生與測驗?zāi)繕讼喔胶系挠行г嚲砑皩υ囶}進行分析評價的需要出發(fā),確定一些項目以描述試題的某些特征。常見的題目屬性有題目的內(nèi)容范圍、目標分類層次、題目類型、難度、區(qū)分度、選中計數(shù)等,在試題庫中題目屬性常用代碼來描述。內(nèi)容范圍:是指題目所涉及的知識域(如動詞的時態(tài)。名詞的數(shù)。詞組搭配等)或是題目求解所需知識在課本中的范圍(如章節(jié)序號等)。目標層次:是指題目所能鑒別的學生能力層次。目標層次通常接認知活動的層次分成記憶、理解、應(yīng)用、分析、綜合、評價等六類。例如在題庫中用A0表示記憶類目標,用Al表示理解類目標,B0表示應(yīng)用類目標等等。題目類型:是指試題的提問形式,如是非題、匹配題。填充題等

29、。題目難度:是反映題目難易程度的指標項,通常以通過率作為衡量標準。題目區(qū)分度:是反映題目鑒別力的指標項。選中計數(shù):是指題目參與組卷的次數(shù)。選中計數(shù)指標可為新組卷提供參考。根據(jù)管理的需要,不同的設(shè)計人還會規(guī)定出其它的題目屬性。對于每一個入庫的題目,都要具有這些屬性并且每一屬性都具有值。有的值是確定不變的代碼,如題目類型、目標層次等;有的是具體的數(shù)值,如選中計數(shù)、內(nèi)容范圍(當內(nèi)容范圍由章節(jié)號確定時)等;有的值則是在題目使用后的分析評價中不斷修正的,如難度、區(qū)分度等。在試題庫中,一道題目的題文和屬性指標兩部分可以存放在同一記錄結(jié)構(gòu)中,也可以分別存放在不同子庫的記錄中,這與設(shè)計人從建庫的實際需要出發(fā)所

30、設(shè)計的題庫總體結(jié)構(gòu)有關(guān)。3、題庫總體數(shù)據(jù)結(jié)構(gòu)題庫總體數(shù)據(jù)結(jié)構(gòu)是指所有試題及其所有相關(guān)信息被組織存儲的形式結(jié)構(gòu)??傮w數(shù)據(jù)結(jié)構(gòu)的確立要從建庫目標和功能要求出發(fā),力求節(jié)省存儲空間,方便計算機處理和用戶使用,保證有較快的檢索和處理速度。對于較大的題庫系統(tǒng),其試題庫總體結(jié)構(gòu)是分層分塊的,總庫下有子庫,子庫中有分庫等。試題信息常按題文(題目中的文字部分)。題圖(題目中的附圖)、答文(答案信息為文字)、答圖(答案信息為圖形)、屬性指標等分類,分別存放于不同的子庫當中;全部試題又常技課程的內(nèi)容、或題型。或按測試目標層次分類存儲,這樣每個子庫被相應(yīng)地分成若干分庫。各個子庫要設(shè)定相同的關(guān)鍵字,利用關(guān)鍵字把同一道試

31、題的各種信息聯(lián)系在一起(例如同題號作關(guān)鍵字,那么在各子庫中都應(yīng)有題號這個數(shù)據(jù)項地為了提高檢索和庫管理速度,一般要根據(jù)需要建立各種索引文件,如對各個子庫建立各分庫的題號索引,以指出各分庫中存放的試題題號范圍。通常可用分庫中第一個試題的題序號和該庫中存放的試題總數(shù)目來標明該范圍(因題庫中題號是有順序的,題目按題號有序地存儲在分庫中)。設(shè)計題庫總體數(shù)據(jù)結(jié)構(gòu)時要考慮圖形存儲問題。許多學科題庫都不可避免地存儲帶有圖形的試題,而圖形需要占據(jù)大量存儲空間,應(yīng)采用數(shù)據(jù)壓縮技術(shù)來解決節(jié)省圖形存儲空間的問題。有關(guān)壓縮存儲的方法很多,針對不同學科的圖形特點可設(shè)計不同的方法來實現(xiàn)圖形數(shù)據(jù)壓縮。例如,將試題中的圖形以圖

32、段拼成,而圖段則由一些圖元組成,每個圖元給予不同的編碼,不同的編碼值代表不同的作圖算法,然后用參數(shù)表明圖的大小及它的相對位置。這樣使用適當?shù)木庉嬅?,就能很方便地繪制題目中所需要的圖形??梢钥闯觯@種方法已把一幅圖形變成一些代碼和參數(shù)存儲起來。當圖形顯示時,先調(diào)出相應(yīng)的圖形記錄,分解并翻譯那些代碼和參數(shù),然后根據(jù)代碼值所表示的算法,繪出每個圖段的各圖形元,這樣一幅題圖就顯示出來。采用這種辦法存儲圖形,占滿監(jiān)視器一屏幕的單線圖(如電路圖)僅約占2k字節(jié)的存儲空間。這比用點陣數(shù)據(jù)存儲圖形節(jié)省了三分之二的存儲。下面是全國高師物理化學標準化考試中心組研制的“物化標準化考試題庫”的數(shù)據(jù)結(jié)構(gòu)與題目編碼設(shè)計

33、,從這可以看出題庫結(jié)構(gòu)設(shè)計的復(fù)雜性和多樣性?!拔锘瘶藴驶荚囶}庫”(以下簡稱物化題庫)共有65個dBASE數(shù)據(jù)文件,其中試題庫主文件45個。試題按考試大綱擬定的考核內(nèi)容及考核目標分類,分別存放在45個分庫中,庫文件結(jié)構(gòu)如下:其中,“圖備注”字段為圖形標志字段,該字段的取值可以為0、1、2、3四個數(shù)中的任意一個,分別表示試題無圖。試題有圖。答案中有圖以及題和答案中都有圖四種情況。“考核目標”分為A、B、C、D四級,分別代表認識與記憶、理解與判斷、掌握與應(yīng)用、分析與綜合等由低到高四個層次。“題目類型”用一個字符標識,A代表單選題,B代表多選題,E代表計算題,F(xiàn)代表證明題,G代表作圖題?!邦}目編碼”

34、是這樣設(shè)定的:考題編碼一考綱代碼十考點代碼十考核目標代碼十題目類型代碼十序號。其中,考綱代碼由兩個字符加一位數(shù)字組成,字符為考試大綱中考核內(nèi)容的英文縮寫,數(shù)字為考核知識類型;序號為同類試題的區(qū)分號,如 EKI 10AB10表示電極過程動力學基本概念。第10個考點、A級目標多選題第10題。這種編碼對題目分類檢索十分方便。組卷策略設(shè)計組卷策略是指系統(tǒng)進行組卷的方式方法。它是題庫系統(tǒng)自動生成有效(對測驗?zāi)繕藖碚f)試卷的關(guān)鍵。組卷策略設(shè)計主要涉及成卷要求的數(shù)量化、卷面分數(shù)分配。庫中選題等問題的處理。一般地說,對題庫系統(tǒng)組織試卷的要求是根據(jù)出卷者的需求產(chǎn)生一份對于測驗?zāi)繕耍ㄈ缃虒W評價、學生能力水平評價等

35、)有價值的測驗試卷。因此,在組卷時,用戶要提出組卷要求,通常包括題目內(nèi)容范圍、題目類型。題目數(shù)量和測驗?zāi)繕说确矫妗_@些要求應(yīng)轉(zhuǎn)化成試卷每個題目的量化參數(shù)才能被系統(tǒng)使用。例如按照測驗?zāi)繕烁髦R點內(nèi)容所占比例數(shù),各層次的目標(記憶、理解、綜合、應(yīng)用等片于別由哪些題型反映,每種題型在試卷中的數(shù)量,各難度級在卷中所占比例,難度與時間的比例等要求。量化工作在功能較弱的系統(tǒng)中需由人工完成,并按一定格式送入系統(tǒng)中。功能較強的題庫系統(tǒng)能在一定程度上自動完成量化轉(zhuǎn)換,形成相應(yīng)的組卷參數(shù)。一種做法是,讓出題者按照一定格式描述試卷編制計劃信息,如卷內(nèi)題目在題型和難度上的分布,知識點內(nèi)容在各目標層次上的分布電話數(shù)量)

36、,然后通過一定算法交換成試卷試題的具體要求。另外一種做法是將課程目標與內(nèi)容信息在系統(tǒng)中建立一個目標內(nèi)容分布關(guān)系表。(見表65表中把目標分成四個層次,題目內(nèi)容分成四類,如概念理論類。計算類。綜合類等,內(nèi)容對目標層次的難易分布為表中所示。)這樣,教師只要提出出題內(nèi)容范圍和總題量,系統(tǒng)根據(jù)這個關(guān)系表和題庫中各試題的有關(guān)屬性,就可以選擇不同目標。不同難度。不同內(nèi)容的題目,組織成分布上符合該表的一份試卷。表 目標內(nèi)容分有關(guān)系一例在題庫中按上述量化的組卷要求查找符合條件的題目進行出題組卷,一般都采用匹配方法。精確匹配可以組出完全符合量化標準的試卷,但有時會出現(xiàn)組卷策略無法實現(xiàn)的情況(即查不到完全符合條件要

37、求的題目)。為了避免這種情況,設(shè)計組卷策略時要考慮怎樣解決它。常用的辦法之一是形成并試用新的組卷策略,這種做法會帶來時間上的浪費。另種辦法是把精確匹配改成近似匹配。采用近似匹配時應(yīng)事先規(guī)定所選題目在內(nèi)容。目標。題型與難度等各指標上是否可以與出題要求不完全一致,能不能有一定的模糊度。若模糊度為0表示必須精確匹配;而非零值則乘示可有多大的變異度。在后種條件下,若找不到完全符合要求的題目,就可以在模糊度許可范圍內(nèi)查找近似匹配的題目。卷面分數(shù)分配是指將試卷總分分配到每個試題。這項工作可由教師憑經(jīng)驗自己完成,也可由系統(tǒng)自動實現(xiàn)。系統(tǒng)自動完成賦分的方案有兩種,一種是提供參數(shù)法,即在出題組卷時向系統(tǒng)提供試卷

38、中各題型的單位分值和卷分在各目標層次上的占分比例;另一種是給各難度級規(guī)定賦分權(quán)重。在后者這一條件下,卷面分數(shù)分配策略可這樣設(shè)計;在同級難度的賦分權(quán)重相同時,各題的分數(shù)與答題的參考時間成正比;在不同難度級不同的賦分權(quán)重下,可通過加大或減少某些難度級的題目在總分中的比例進行調(diào)整。這樣可使所需時間相同而難度級不同的題目,其賦分的多少完全與該題難度級的賦分權(quán)重成正比。這種卷面分數(shù)分配的方法靈活,可以支持不同類型的考試與練習。試題庫系統(tǒng)的建立從試題庫的結(jié)構(gòu)和基本功能可以看出,題庫系統(tǒng)是一個相當復(fù)雜的系統(tǒng),它的建立需要專業(yè)課教師。程序設(shè)計人員和教育測量專家的分工合作。1、教育測量專家的工作是為建立題庫提供經(jīng)典的或現(xiàn)代的教育測量理論,使題庫具有科學的數(shù)學模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論