潛在類別模型在試題分析中的應(yīng)用_第1頁
潛在類別模型在試題分析中的應(yīng)用_第2頁
潛在類別模型在試題分析中的應(yīng)用_第3頁
潛在類別模型在試題分析中的應(yīng)用_第4頁
潛在類別模型在試題分析中的應(yīng)用_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、潛在類別模型在試題分析中的應(yīng)用二級(jí)計(jì)分題目的區(qū)分度和信度分析焦璨1,2張潔婷2高艷紅2張敏強(qiáng)2(1深圳深圳大學(xué)心理學(xué)系,深圳 518000)(2華南師范大學(xué)應(yīng)用心理研究中心,廣州510631 )一 一. . . . 一 一 一 一. . . . . . . . . . . 摘要:基于潛在類別分析的信度分析通過潛在類別模型的5個(gè)指標(biāo):P指標(biāo)、P指標(biāo)、W指標(biāo)、Q指標(biāo)、兀指標(biāo)來分 析試題的區(qū)分度和信度,該方法假設(shè)所測(cè)群體是由不同的亞群體組成,并且不需要潛在變量和殘差服從正態(tài)分布, 可以克服傳統(tǒng)的信度評(píng)價(jià)方法的一些不足。本研究在簡要介紹潛在類別分析的基本原理、分析思路的基礎(chǔ)上,以二 級(jí)計(jì)分題項(xiàng)的量表為

2、例,重點(diǎn)介紹如何運(yùn)用上述5個(gè)指標(biāo)判別題項(xiàng)質(zhì)量,并用實(shí)際數(shù)據(jù)驗(yàn)證此方法的可行性,最后 將潛在類別分析結(jié)果和傳統(tǒng)的基于CTT理論的信度分析結(jié)果進(jìn)行對(duì)比,闡述潛在類別分析在心理與教育統(tǒng)計(jì)中的應(yīng) . . . . . . . A . . . .用價(jià)值及研究拓展?;诜治鼋Y(jié)果,可得到如下結(jié)論:(1)條件概率之差、W指標(biāo)和Q指標(biāo)對(duì)題目的區(qū)分度評(píng)價(jià)結(jié) 果與傳統(tǒng)的區(qū)分度基本一致,寸指標(biāo)與傳統(tǒng)的a系數(shù)所得出的信度評(píng)價(jià)結(jié)果則有所不同。(2)基于潛在類別模型的 試題分析方法可較為全面地評(píng)價(jià)和鑒別每道題目和題目整體的優(yōu)劣,并且能考慮樣本的子分布,而其判斷標(biāo)準(zhǔn)還有 待研究。關(guān)鍵詞:潛在類別模型,二級(jí)計(jì)分,題目,指標(biāo),區(qū)分

3、度,信度1前言在平常的教育研究考試中,我們通常使用難度、區(qū)分度和信度a系數(shù)來鑒別試卷的質(zhì)量,并根 據(jù)相應(yīng)的結(jié)果來刪減題目,提高問卷的可靠性和有效性。然而,若在多峰分布下傳統(tǒng)難度、區(qū)分度 指標(biāo)往往難以客觀評(píng)價(jià)難度和區(qū)分度;運(yùn)用a系數(shù)進(jìn)行信度分析的假設(shè)條件是樣本為單一分布的群 體,并要求潛在變量和殘差都要符合正態(tài)分布,這些假設(shè)在現(xiàn)實(shí)研究中往往得不到滿足(Flaherty, 2002)。潛在類別模型這種數(shù)據(jù)處理方法則克服了傳統(tǒng)分析方法中的不足,它對(duì)潛在變量和殘差的分 布沒有任何要求,并假設(shè)所測(cè)群體是由不同的亞群體組成。潛在類別分析(Latent Class Analysis)是由社會(huì)學(xué)家Lazars

4、feld在1950年首次提出的,用于分 析態(tài)度量表中潛在變量的一種方法(Lazarsfeld & Henry,1986)。在20世紀(jì)70年代,Goodman發(fā)展 了極大似然估計(jì)法,并應(yīng)用于潛在類別模型中,使得潛在類別模型從分析二級(jí)計(jì)分試題擴(kuò)展到稱名 變量(Goodman,1974)。如今,潛在類別模型已經(jīng)越來越廣泛地應(yīng)用于社會(huì)研究,一方面,它可以 對(duì)外顯分類變量進(jìn)行分類,找出其內(nèi)在的潛在結(jié)構(gòu);另一方面,它可以測(cè)量稱名和順序變量的測(cè)量 誤差問題(Vermunt,2002)?,F(xiàn)階段,基于潛在類別模型的應(yīng)用,國外學(xué)者已作了廣泛的研究。例 如,Biemer和Wiesen(2002)運(yùn)用潛在類別模型,通

5、過三個(gè)題目把吸食大麻的被試分類,并指出不 能有效區(qū)分被試潛在結(jié)構(gòu)的題目。Kreuter, Yan和Tourangeau(2008)也運(yùn)用潛在類別模型來分析 馬里蘭州大學(xué)畢業(yè)生的數(shù)據(jù),并結(jié)合Hui-Walter模型來鑒別題目。Flaherty(2002)為調(diào)查青少年吸 煙情況,引用Clogg和Manning(1996)所提出的5個(gè)基于潛在類別模型的指標(biāo),對(duì)問卷題目進(jìn)行 分析,指出區(qū)分度較差的題目。然而,國內(nèi)外學(xué)者對(duì)基于潛在類別模型的量表分析研究僅限于對(duì)社 會(huì)調(diào)查問卷的題目,而對(duì)考試題目的研究頗少。本文將介紹潛在類別模型的基本原理、基于該模型 對(duì)題目質(zhì)量進(jìn)行判斷的指標(biāo),并以實(shí)證數(shù)據(jù)為例,如何運(yùn)用這

6、些指標(biāo)來鑒別考試試題的優(yōu)劣,比較 這些方法與傳統(tǒng)方法的實(shí)用性。2潛在類別模型的基本原理2.1潛在類別分析假設(shè)與模型潛在類別模型最突破性的原理就是將類別變量的概率轉(zhuǎn)化為參數(shù)模型,亦即概率參數(shù)化。傳統(tǒng) 的潛在類別模型涉及兩種類別變量:可觀察、測(cè)量的外顯變量與不可觀察的潛在變量,其對(duì)應(yīng)的參 數(shù)分別是潛在類別概率(latent class probabilities)與條件概率(conditional probilities)。一般使用極大 似然法來估計(jì)潛在類別模型的這些參數(shù)。潛在類別模型基于兩個(gè)假設(shè)。其一是局部獨(dú)立性假設(shè),即外顯變量之間的關(guān)聯(lián)能夠被一個(gè)潛在 變量來解釋,使得這兩個(gè)變量完全獨(dú)立無關(guān)。即

7、,對(duì)于某個(gè)潛在類別的被試來說,各個(gè)外顯變量的 作答不存在關(guān)聯(lián)。潛在類別的互斥性是另一個(gè)假設(shè),即潛在類別之間相互獨(dú)立,互不影響。 TOC o 1-5 h z 假設(shè)w = (W , W ,., W )表示一系列p個(gè)外顯變量,d = (d , d ,., d )表示在外顯變量W中 12p12p反應(yīng)選項(xiàng)的數(shù)目,讓w =(七,w2,., wp )表示某一個(gè)的反應(yīng)組合。潛在變量L中有C個(gè)潛在類別,P(W = w)=兀w代表反應(yīng)組合w的反應(yīng)概率。潛在類別模型寫作:p (w=w)=兀= y n p (i)( 1)wcw Jcc =1i = 1其中,y = P (L = c)為潛在類別概率,表示各個(gè)潛在類別所占

8、的人數(shù)比例;p(,)表示屬于潛在 cwjc類別c的被試,在題目W的反應(yīng)為w的條件概率。其中潛在類別概率y和條件概率p的取值范圍是01。2.2潛在類別模型的建立潛在類別模型的建立首先需要估計(jì)初始模型,然后逐步增加潛在類別的數(shù)目,進(jìn)行各模型的參 數(shù)估計(jì),計(jì)算適配性,同時(shí)進(jìn)行適配性檢驗(yàn),以決定最佳模型。值得注意的是,正確選擇潛在類別 的數(shù)量是至關(guān)重要的(Yang,2004)。我們通常使用Schwarz(1978)基于貝氏理論所提出的BIC指標(biāo) (Bayesian information criterion),來選擇潛在類別模型,當(dāng)BIC值越小,其模型的適配性就越好。 然后是對(duì)各潛在類別進(jìn)行命名,觀測(cè)

9、條件概率和歸屬概率,最后計(jì)算出判別指標(biāo)。2.3分析原理Clogg和Manning(1996)第一次運(yùn)用潛在類別模型來分析量表的可靠性,其思路是:如果一個(gè) 題目是反映這個(gè)潛在類別的有效指標(biāo),那么這個(gè)題目應(yīng)該會(huì)使此潛在類別的被試都作出一致的反應(yīng)。 若這種潛在類別的被試在這個(gè)項(xiàng)目上不能作出一致的反應(yīng),則該題目對(duì)于區(qū)分此類別的被試就是無 效的。Clogg和Manning (1996)指出兩種類型的可靠性指標(biāo):特定項(xiàng)目的可靠性(item-specific reliability)和試題整體的可靠性(item-set reliability)0通過潛在類別模型的5個(gè)指標(biāo):p指標(biāo),P指標(biāo),W指標(biāo),Q指標(biāo)和寸

10、指標(biāo)來分析單個(gè)題目的區(qū)分度、信度以及量表的整體信度。2.3.1特定項(xiàng)目的可靠性指標(biāo)所謂特定項(xiàng)目的可靠性,主要是從題目的鑒別能力、潛在類別與外顯變量的關(guān)聯(lián)大小、可靠性 來分析每道題目的質(zhì)量,具體指標(biāo)有p指標(biāo)、P指標(biāo)、W指標(biāo)和Q指標(biāo)。指標(biāo)P,即該題目的條件概率,根據(jù)條件概率在各個(gè)選項(xiàng)分布的均衡性來判斷被試的反應(yīng)傾向 是否明確:當(dāng)參數(shù)估計(jì)的條件概率P等于或接近1時(shí),這一潛在群體對(duì)該題目就有明確的作答傾向, 或者,當(dāng)參數(shù)估計(jì)的條件概率P等于或接近0時(shí),就代表該潛在類別的被試幾乎都不具有此行為特 征。這兩種情況下都表明此題目可以反映出該潛在群體的特征(Flaherty,2002)。此時(shí),該題目對(duì) 于此潛

11、在類別的被試是有效的。相反,當(dāng)條件概率P等于或接近作答選項(xiàng)的隨機(jī)分布概率,即vd j (dj為選項(xiàng)數(shù)目)時(shí),此題目就無法反映這一潛在群體的特征。第二個(gè)指標(biāo)P,表示某題某水平的選項(xiàng)對(duì)于各個(gè)潛類別的歸屬概率,也可看做正確歸類的概率 說明該題目某選項(xiàng)對(duì)各個(gè)潛在類別的區(qū)分能力。某一個(gè)題目選項(xiàng)在某個(gè)類別的P值很高,則說 明正確歸類的概率高,該選項(xiàng)能區(qū)分該類別與其他類別;反之,當(dāng)P值在各個(gè)潛類別相差很小,即呈平均分布,無法根據(jù)這道題目該選項(xiàng)對(duì)各潛在類別的鑒別度都不理想。用公式表示為:P (L = c I W = w )=兀iiL IWi = Wi(2)冗W = w ii指標(biāo)。和指標(biāo)P是分別從類別和題項(xiàng)的角

12、度鑒別題目的優(yōu)劣,可以全面地了解題目的好壞。第三個(gè)指標(biāo)為W,它可以計(jì)算一對(duì)潛在類別與某道題目的兩個(gè)選項(xiàng)之間的關(guān)聯(lián)。當(dāng)W接近1 時(shí),這對(duì)潛在類別和這道題目之間關(guān)聯(lián)很小,相反,當(dāng)V越大于1時(shí),這對(duì)潛在類別和這道題目之 間的關(guān)聯(lián)越大,即這道題目的兩個(gè)選項(xiàng)可以區(qū)分出這兩類群體。在潛在類別數(shù)目較多的時(shí)候,一般 計(jì)算差異較大的兩個(gè)潛在類別。公式為: TOC o 1-5 h z 人(0)0)/C、皿 = w -1 L1 L2= 2(3)(0) 0)w = 2 L = 1 w = L= I 2/ /在公式(3)中,(。和(。立2)表示兩種類別被試做出相應(yīng)的一致性反應(yīng)的概率,而 ii(d 2比|)和(d血2)表

13、示兩種類別被試做出與各自類別群體不一致性反應(yīng)的概率。 ii第四個(gè)指標(biāo)尤爾關(guān)聯(lián)系數(shù)。是由第三個(gè)指標(biāo)w轉(zhuǎn)化而來,即(4),也是反映被試能力與題目的關(guān)聯(lián)性。2.3.2試題整體的可靠性指標(biāo)第五個(gè)指標(biāo)是仃,是某一作答向量的歸屬概率,它反映了整個(gè)量表題目的可靠性程度,當(dāng)某個(gè) 指標(biāo)寸很高時(shí),表明該作答組合屬于某類人的概率高,這與指標(biāo)P有相似之處,但P只針對(duì)某題的 某一選項(xiàng)水平,而仃則針對(duì)整組題目的作答組合。當(dāng)某作答組合的潛類別仃大于0.8,則說明該量表 該作答組合信度較好,能將該潛在類別與其他類別區(qū)分開來(Flasherty,2002)。其公式為:71代=L = c, W = w(5)L = c |W =

14、w7W = w3實(shí)證研究3.1數(shù)據(jù)收集與分析工具選取某專業(yè)統(tǒng)考中的12道二級(jí)計(jì)分題目,考生共2931人。無缺失數(shù)據(jù)。答對(duì)計(jì)分為T,答錯(cuò)記為“0”。使用SPSS16.0和LatentGOLD4.0軟件分析數(shù)據(jù)。3.2潛在類別模型的確定表1探索性潛在類別分析模型適配指標(biāo)摘要表模型參數(shù)自由度LLBICP值1122919-20328407520.00225290626338289383451288090564286793表1列出了從C=1到C=5五種不同類別數(shù)目的模型適配估計(jì)結(jié)果,其中可以看出,C=

15、3模型有 最低的BIC值(37730),即模型3是最佳的模型。表2列出了潛在類別的概率值,表示三個(gè)潛在類別所占的比重。結(jié)合表2和圖1可知,屬于潛 在類別1的考生,其作答選項(xiàng)幾乎都答對(duì),可推測(cè)這部分考生對(duì)知識(shí)點(diǎn)的掌握良好,可命名為高分 組”,占了總?cè)藬?shù)的一半。屬于潛在類別2的考生,約占總體人數(shù)的30%,其作答選項(xiàng)的答對(duì)率處 于中等水平,可命名為“中等組”。第3類考生,其作答選項(xiàng)的答對(duì)率很低,可推測(cè)這部分考生對(duì)知 識(shí)點(diǎn)的掌握較差,可命名為“低分組”。表2探索性潛在類別模型的潛在類別概率潛在類別123潛在類別概率0.520.290.19如表3和圖1,對(duì)于高分組的考生,即“高分組”來說,除了第4和第1

16、2道題目答對(duì)率較低外, 其余題目的答對(duì)率都較高,而且所有題目的答對(duì)率都高于其它類別的考生。對(duì)于潛在類別2的考生, 即“中等組”來說,第3、6、和11題有較高的答對(duì)率,而考生在第4題的答對(duì)率較低,其余8個(gè)題目 的答對(duì)率接近0.5。對(duì)于成績較差的考生來說,第2、3、6、7和11題的答對(duì)率達(dá)0.4或以上,其余 題目的答對(duì)率則低于0.4。表3 12個(gè)題目在三個(gè)潛在類別上的答對(duì)率及傳統(tǒng)難度系數(shù)T1T2T3T4T5T6T7T8T9T10T11T12類別10.920.750.970.380.880.960.860.860.940.880.960.27類別20.560.600.840.290.630.850.

17、620.630.600.530.750.40類別30.220.400.500.120.220.520.560.290.290.360.420.34傳統(tǒng)難度 系數(shù)0.680.640.840.300.680.850.730.690.720.680.800.32圖1三個(gè)潛在類別分類的條件概率分布平面圖3.3試題的項(xiàng)目與信度分析3.3. 1項(xiàng)目分析對(duì)于知識(shí)掌握的明確程度,根據(jù)Flaherty的指標(biāo),除了題4和題12,其他題目對(duì)高分組的考 生都能明確反映高分組考生掌握了相應(yīng)的知識(shí)點(diǎn);題1、4、5、8、9能明確反映低分組考生沒有掌 握相應(yīng)的知識(shí)點(diǎn),而其余試題則無法反映該類考生的掌握情況;題3、6、11明確

18、反映中等組考生較 好地掌握了這些知識(shí)點(diǎn),而其他題的答對(duì)率接近0.5,則沒有明確反映考生的掌握情況。對(duì)于條件概 率,我們更應(yīng)該關(guān)注的是題目在各能力層次考生的答對(duì)率之差。如表3可知,三類考生在第1、5、 8、9和10題的答對(duì)率差距明顯,即高分組答對(duì)率較高,中等組的答對(duì)率一般,而低分組的答對(duì)率 較低,因此這些題目對(duì)于考試來說是恰當(dāng)?shù)?,有較好的區(qū)分度。其次,第2、3、6、7和11題的答 對(duì)率都相對(duì)較高,也就是說,這些題目對(duì)于所有考生來說都比較簡單,但仍有一定地區(qū)分度。值得 注意的是,第3題和第12題。對(duì)于所有考生來說,第三題的答對(duì)率都很低,即便是高分組也不超過 0.4,因此,這道題對(duì)考生來說比較難,試

19、題分析時(shí)應(yīng)予以注意。第12題的答對(duì)率也很低,并且高 分組的考生的答對(duì)率低于中等組和低分組,可知這道題目的區(qū)分度很差,其鑒別力是負(fù)向的。即不能對(duì)三種類別的考生進(jìn)行區(qū)分,高分組不能答對(duì),低分組也可能只憑猜測(cè)來回答,建議修改或刪除 此題。表412個(gè)題目在三個(gè)潛在類別上的歸屬概率題目選項(xiàng)高分組中等組低分組T100.1390.4040.45810.7000.2390.060T200.3660.3260.30810.6100.2720.118T300.1080.2940.59810.5980.2910.110T400.4660.2980.23610.6500.2770.072T500.1970.3430.

20、46010.6730.2670.059T600.1240.2880.58810.5930.2920.114T700.2760.4170.30810.6120.2460.142T800.2360.3420.42110.6530.2680.079T900.1150.4150.46910.6830.2420.074T1000.1900.4320.37810.6760.2260.098T1100.1010.3630.53510.6290.2730.098T1200.5620.2570.18110.4370.3650.198根據(jù)P指標(biāo),表4列出了三個(gè)潛在類別在每道題目中的歸屬概率。例如,在第1道題目答對(duì)

21、的 情況下,考生被歸為類別1的概率為0.70,有明確的歸屬傾向,而在第1題答錯(cuò)的情況下,中等組 和低分組的歸屬概率幾乎接近相同,分別為0.40和0.46,這就表示若考生在第1題答錯(cuò),其被歸為 類別2和類別3的概率相近,即無法區(qū)分兩者,而歸屬于類別1的概率很小,這也反映了可明確排 除類別1的可能性。再如,在第3題答對(duì)的情況下,其被歸為類別1的概率為0.60,遠(yuǎn)大于被歸屬 在類別2和3的概率;在題目3答錯(cuò)的情況下,3種潛類別的考生的歸屬概率分別為0.11,0.29, 0.60,這兩種情況說明題3能夠較好地區(qū)分三種類別的考生。題4和題12無論在考試答對(duì)還是答錯(cuò),高分組的歸屬概率都明顯高于其他類別。尤

22、其在題12 中,當(dāng)答錯(cuò)時(shí),歸屬于高分組的概率還比當(dāng)答對(duì)時(shí)歸屬于高分組的概率要高,這說明該題目的區(qū)分 能力差,應(yīng)予以刪除或修改。其余題目在答對(duì)的情況下都有較好的區(qū)分度,但在答錯(cuò)的情況下,只 有題3、6、11能較有效地將低分組與其他組相區(qū)別,其他題目則難以區(qū)分中等組和低分組。根據(jù)W指標(biāo),我們以高分組和低分組之間的差異與題目1的關(guān)聯(lián)為例,如表5。根據(jù)寸指標(biāo)可得, V =(0.915x0.78)/(0.085x0.22)-38,說明高分組的考生在第1題的答對(duì)率是低分組的考生的38 倍。將V轉(zhuǎn)化為Q指標(biāo)值(38-1 / 38+1) =0.95,這都反映了題目1可以有效地區(qū)分出高分考生和低 分考生。而中等

23、組和低分組的考生在第2道題目上的寸值為2.25,而Q指標(biāo)值為0.38,說明題2不 能很好地鑒別中等組和低分組的考生。同理,表6列出了3個(gè)潛在類別的考生與所有題目的關(guān)聯(lián)程 度W和Q。如表6可知,高分組和低分組的考生大多能夠被有效地區(qū)分出來,而中等組和低分組之 間或高分組和中等組之間,這12道題目的區(qū)分能力則大大減弱,總體來說,題2、題4、題7在各 類別之間的區(qū)分能力較小,而題12不能區(qū)分任何類別間的差異,甚至是反向的結(jié)果,即高分組的考 生的答對(duì)率比中等組及低分組的答對(duì)率更低,此題需要?jiǎng)h除或修改。表5 3種潛在類別的考生在題目1、2中的條件概率潛在類別選項(xiàng)T1T2高分組00.0850.25310.

24、9150.747中等組00.4400.40410.5600.596低分組00.7800.59610.2200.404表6考生能力水平與12道題目的關(guān)聯(lián)以及傳統(tǒng)區(qū)分度潛在類別T1T2T3T4T5T6T7T8T9T10T11T12W8.525.61.54.44.73.83.510.16.88.20.5高VS中Q0.790.330.700.200.630.650.580.560.820.740.78-0.33中VS低W4.52.85.3365.21.274.173.6824.11.3Q0.640.470.680.500.710.680.120.610.570.330.610.13高VS低38.54.

25、3530.24.526.624.54.814.737.213.8340.7Q0.950.630.940.640.930.920.660.870.950.860.94-0.18傳統(tǒng)區(qū)分度鑒別指數(shù)法0.690.50.410.390.680.380.430.590.640.590.510.15相關(guān)法0.60.410.50.350.580.490.40.530.590.520.530.123.3.2試題整體的信度分析(基于if指標(biāo))表7列出了部分作答組合的歸屬概率。例如,屬于類別1的考生,其中3個(gè)作答組合的歸屬概 率分別為0.82、0.99和0.97,分類的準(zhǔn)確性較高;但在“001010011000”

26、作答模式中,考生歸屬到類 別3的概率僅為0.54,歸屬到中等組中的概率為0.46,說明此作答組合無法明確其類別的歸屬,反 映了這12道題目對(duì)這種作答組合的測(cè)量信度不佳,這種情況需要從測(cè)驗(yàn)內(nèi)容上進(jìn)一步分析原因。表7潛在類別模型的歸屬概率歸屬類別T1T2T3T4T5T6T7T8T9T10T11T12類別1類別2類別330000000000010.000.001.0030000000000100.000.010.9930010100110000.000.460.5420010100110100.020.760.2220010100111010.010.690.3111111111111010.820

27、.180.0011111111111100.990.010.0011111111111110.970.030.0012個(gè)題目共有4096種作答組合,其中本研究只出現(xiàn)1061種作答組合,其中屬于高分組的考生, 共有163種作答組合,其平均歸屬概率為0.98,接近于1;而屬于中等組的考生,其平均歸屬概率 為0.72,共有519種作答組合,其中有364種作答組合的歸屬概率在0.49-0.79之間,其余作答組合 在0.8以上,大部衍指標(biāo)相對(duì)不夠理想:而屬于低分組的考生,其平均歸屬概率為0.81,共有377 種作答組合,其中有154種作答組合的歸屬概率在0.5-0.79之間,其余組合的歸屬概率在0.8以

28、上,指標(biāo)稍微優(yōu)于中等組??偟膩碚f,這12道考試題目,對(duì)于類別2的考生,也就是中等組的考生來 說,其正確歸屬的概率相對(duì)較低,而對(duì)于類別1的考生來說,這12道題目可以很好地鑒別考生的能 力水平類別。3.4試題分析總結(jié)對(duì)考生進(jìn)行分類。潛在類別分析得出3個(gè)潛在類別,即“高分組”、“中等組”和“高分組”。高 分組的考生大約占了總體考生人數(shù)的一半,其作答選項(xiàng)幾乎都答對(duì)。屬于中等組的考生,約占總體 人數(shù)的30%,其作答選項(xiàng)的答對(duì)率處于中等水平。低分組在各個(gè)題目的答對(duì)率普遍很低??傮w來說, 這12道題可以有效地把考生分為3種不同能力水平的潛在類別。根據(jù)。指標(biāo),大部分題目能明確反映高分組考生掌握相應(yīng)的知識(shí)點(diǎn);而

29、大部分題目在中等組的 答對(duì)率接近0.5,無法明確反映其對(duì)相應(yīng)的知識(shí)點(diǎn)的掌握情況;部分試題可以反映低分組未掌握的知 識(shí)點(diǎn)。根據(jù)各類別考生的答對(duì)率之差可知,題4和題12對(duì)各類考生的區(qū)分度不理想,尤其是題12, 需要修改或刪除。根據(jù)尸指標(biāo),題4和12區(qū)分度不理想;在答對(duì)的情況下,大部分題目都能區(qū)分高分組與其他類 別的考生;在答錯(cuò)的情況下,只有題3、6、11能較有效地將低分組與其他組相區(qū)分。根據(jù)寸指標(biāo)和指標(biāo),大部分題目能區(qū)分高分組和低分組的考生,而對(duì)于中等組和低分組之間、 高分組和中等組之間的區(qū)分能力則明顯下降。題2、題4、題7在各類別之間的區(qū)分能力較?。欢} 12不能區(qū)分任何類別間的差異,甚至是反向

30、的結(jié)果,需要修改或刪除。以上幾個(gè)項(xiàng)目分析的指標(biāo)都發(fā)現(xiàn)題4和題12未能區(qū)分考生的能力水平,甚至無法正確反映考生 的能力水平,需要予以修改或刪除。而寸指標(biāo)和指標(biāo)還發(fā)現(xiàn)題2和7不夠理想。這些指標(biāo)都發(fā)現(xiàn)試題能夠較好地區(qū)分高分組和低分組,而對(duì)于相鄰類別之間的能力往往難以區(qū)分, 這也反映了考生能力水平從高到低的漸進(jìn)性和連續(xù)性。根據(jù)Tf指標(biāo)我們可以得出,這12道題目可以有效地區(qū)分出高分組的考生,而對(duì)于中等組和低分 組的考生,還是有不少組合的正確歸類概率介于0.49-0.79之間,尤其是中等組。4試題分析方法的比較對(duì)于上述實(shí)例,用經(jīng)典測(cè)量理論計(jì)算區(qū)分度,發(fā)現(xiàn)區(qū)分度在0.4以下的題目分別為第4題(0.39)、

31、第6題(0.38)和第12題(0.15);其中第12題的區(qū)分度極差,不能有效地區(qū)分考生。這與基于潛 在類別模型的區(qū)分度評(píng)價(jià)結(jié)果一致?;跐撛陬悇e分析的試題分析方法,能夠針對(duì)不同類別或答對(duì)、答錯(cuò)的情況分別進(jìn)行區(qū)分度的 分析?;跐撛陬悇e模型的試題分析,整體的思路都是針對(duì)不同的能力分類分別進(jìn)行項(xiàng)目分析。其中, 各個(gè)類別的答對(duì)條件概率相當(dāng)于題目對(duì)于不同類別的難度系數(shù),從表3可知,各個(gè)題目的難度系數(shù) 因其類別而有所不同,而傳統(tǒng)的難度系數(shù)則是單一的,并且多接近或略高于中等水平的考生,也就 是傳統(tǒng)的難度系數(shù)僅能反映中等水平的考生群體下的難度,對(duì)于其他群體的難度并不敏感。條件p指標(biāo)是基于條件概率來分析題目能

32、否明確反映考生在相應(yīng)知識(shí)點(diǎn)的掌握情況,但是常模 考試的試題分析中發(fā)揮的作用和意義相對(duì)較小。對(duì)于考試的實(shí)際情況,中等的考生對(duì)于知識(shí)點(diǎn)的掌 握一般,其答對(duì)的概率接近0.5也是理所當(dāng)然的。再從試題難度分析角度來看,當(dāng)難度接近0.5時(shí), 題目適中則更適合于該群體的能力水平。由于考生對(duì)知識(shí)的掌握程度常常難以簡單分為掌握和未掌 握,尤其對(duì)于中等水平的考生。因此,指標(biāo)0應(yīng)用于常??荚嚨姆治鰟t存在某種不切實(shí)際,而且意 義不大。相比之下,題目的區(qū)分度、難度等更為重要?;蛟S指標(biāo)0在嚴(yán)格的達(dá)標(biāo)考試中可用于判斷 試題能否考量學(xué)生的達(dá)標(biāo)情況。而條件概率之差則可以分析出題目對(duì)各類考生的區(qū)分度。F指標(biāo)、寸指標(biāo)和Q指標(biāo)都反映

33、了根 據(jù)某道題目歸類的可靠性,實(shí)質(zhì)上便是對(duì)能力之間的區(qū)分能力。指標(biāo)P則通過歸屬概率來考察在答 對(duì)和答錯(cuò)的情況下,題目對(duì)類別的區(qū)分能力或者正確歸類的能力,反映了該題目對(duì)潛在分類中的重 要性,歸屬概率越趨于平均則表明該題目對(duì)分類所起的作用越小,反之亦然。版指標(biāo)和Q指標(biāo)則用 優(yōu)勢(shì)比的思想分析考生能力與某道題目之間的關(guān)聯(lián)性,關(guān)聯(lián)性越高,說明題目越能反映考生的能力 水平。實(shí)證數(shù)據(jù)的分析結(jié)果表明,答對(duì)率之差、p指標(biāo)、寸指標(biāo)和Q指標(biāo)分析所得的結(jié)果呈現(xiàn)一致 性,都能找到區(qū)分度明顯低的題目,其中由于寸指標(biāo)和Q指標(biāo)存在著非線性關(guān)系,這兩個(gè)指標(biāo)對(duì)各 個(gè)題目區(qū)分度的判斷都十分相近。同時(shí)也存在一些差異,尤其對(duì)于題目之間

34、區(qū)分度的高低比較,此 外,寸指標(biāo)和Q指標(biāo)似乎更為嚴(yán)格或敏感,這些差異與分析的角度和思路的差異有關(guān)。例如,同樣 是分析區(qū)分度,條件概率之差是用線性相減的方法,而寸指標(biāo)和Q指標(biāo)則用優(yōu)勢(shì)比的方法;前者更 為直觀、簡單;但后者更適合于概率的計(jì)算原理,而判斷的標(biāo)準(zhǔn)則較為模糊。如表6,傳統(tǒng)的區(qū)分 度計(jì)算僅能識(shí)別出題12區(qū)分度不理想,而對(duì)于其他題目都判斷為十分好的區(qū)分度,過于樂觀,并且 無法了解各個(gè)能力層次之間的區(qū)分能力?;跐撛陬悇e模型的指標(biāo)Tf是作答組合的歸屬概率,歸屬概率越高,則說明該作答組合越能明 確歸于該類別。在潛在類別模型中,潛在變量相當(dāng)于離散型的真分?jǐn)?shù),一般將歸屬概率最高的類別 看作該向量真正

35、所屬的類別,此時(shí),歸屬概率就是正確歸類的概率,即歸類的可靠性,從某種程度 上就是信度的反映。因此,該指標(biāo)可以針對(duì)具體的作答組合分析題目整體的信度,各個(gè)潛在類別的 平均歸屬概率則可反映整套試題在各個(gè)能力水平考生中的測(cè)量信度。對(duì)于上述例子,傳統(tǒng)的信度a系 數(shù)為0.67,這說明信度不理想。而基于潛在類別模型的指標(biāo)if則發(fā)現(xiàn),試題整體對(duì)高分組有很高的 信度,在低分組的信度較好,正確歸類的概率是0.81,而對(duì)于中等組的考生信度則比較低(0.72)。 這反映該試題對(duì)高分組的測(cè)試具有較高的可靠性,而對(duì)于中等組和低分組則不然;從另一個(gè)角度看, 也可能是由于試題在中等組可靠性不佳,從而導(dǎo)致傳統(tǒng)的信度系數(shù)很低。焦

36、璨等人(2008)也指出, 大型考試常見的測(cè)量數(shù)據(jù)分布多是呈明顯的偏態(tài)或多峰分布,模擬實(shí)驗(yàn)研究發(fā)現(xiàn),在這種情況下需 要求出各個(gè)子分布的信度,即用多個(gè)信度來描述測(cè)驗(yàn)的可靠性。指標(biāo)正體現(xiàn)了該研究結(jié)論的思想, 克服了傳統(tǒng)a系數(shù)在實(shí)際考試中數(shù)據(jù)非正態(tài)分布時(shí)單一而不準(zhǔn)確等局限。另一方面,從該結(jié)果可知, 指標(biāo)Tf對(duì)信度的評(píng)價(jià)也有可能存在高估的情況,這可能由于這只是分類的信度,相比于估計(jì)連續(xù)變 量,對(duì)精確度的要求比較低,正確分類的幾率比較大??傮w來說,在經(jīng)典測(cè)量理論框架下主要通過線性方法來處理連續(xù)型數(shù)據(jù),以分析試題的區(qū)分度 和信度,但其前提條件往往難以滿足?;跐撛陬悇e模型的試題分析,能夠在不同能力層次的考

37、生 群體下,分別進(jìn)行各種項(xiàng)目分析,相比傳統(tǒng)的項(xiàng)目分析更能客觀細(xì)致地考察題目真正的特點(diǎn);同時(shí), 將考生的作答看做一組二分變量所組成的向量,并將類別變量的概率轉(zhuǎn)化為參數(shù)模型,發(fā)揮潛在類 別模型在處理離散型數(shù)據(jù)中分類客觀、科學(xué)的優(yōu)點(diǎn),而且對(duì)數(shù)據(jù)的分布前提假設(shè)較少,克服傳統(tǒng)方 法籠統(tǒng)而不符合前提假設(shè)的情況。在本研究中,由于沒有客觀的校標(biāo),對(duì)于這些指標(biāo)判斷的準(zhǔn)確性尚無法判斷。另一方面,這些 指標(biāo)雖然能全面對(duì)試題進(jìn)行分析,但是顯得比較繁瑣,根據(jù)分析目的選擇性地采用其中的指標(biāo)則更 為合適。由于這些試題分析方法的判斷標(biāo)準(zhǔn)還比較模糊,至今還沒有定出決斷值,如何根據(jù)這些指 標(biāo)進(jìn)行更為明確的分析也是值得進(jìn)一步關(guān)注的

38、問題。5結(jié)論基于潛在類別模型對(duì)某考試中的12道試題進(jìn)行區(qū)分度和信度的分析,結(jié)果發(fā)現(xiàn):根據(jù)考生的能 力水平可以分為高分組、中等組和低分組;題4和題12的區(qū)分能力不理想,需要修改或刪除。其他 題目能對(duì)高分組和低分組有較好的區(qū)分,而對(duì)于相鄰類別的考生則較難區(qū)分。條件概率之差、P指標(biāo)、寸指標(biāo)和指標(biāo)對(duì)題目的區(qū)分度評(píng)價(jià)結(jié)果與傳統(tǒng)的區(qū)分度基本一致, 相對(duì)于傳統(tǒng)方法,區(qū)分度評(píng)價(jià)還能具體到不同能力水平的被試;if指標(biāo)與傳統(tǒng)的a系數(shù)所得出的信 度評(píng)價(jià)則有所不同,可能是由于傳統(tǒng)a系數(shù)對(duì)信度的計(jì)算沒有考慮具體到樣本子分布,也可能由于if 指標(biāo)只針對(duì)分類的可靠性,評(píng)價(jià)比較寬松。總而言之,基于潛在類別模型的試題分析,能針

39、對(duì)不同 能力水平的考生,這更符合考試數(shù)據(jù)的實(shí)際;對(duì)于這些方法的精確性以及具體的項(xiàng)目評(píng)價(jià)標(biāo)準(zhǔn),則 是未來研究的一大重點(diǎn)。參考文獻(xiàn)Akaike, H. (1973). Information theory and an extension of the maximum likelihood principle. In B. N. Petrov & F . Caski (Eds.), Second international symposium on information theory. Budapest: Akademiai Kiado.Biemer, P.P.,& Wiesen, C.(200

40、2). Measurement error evaluation of self-reported drug use:a latent class analysis of the USNational Household Survey on Drug Abuse. J.R.Statist. Soc.A, 165, 97-119.Chih-Chien , Yang.(2004). Evaluating latent class analysis models in qualitative phenotype identification. ComputationalStatistics & Da

41、ta Analysis, 50, 1090-1104Clogg, C.C., Manning, W.D. (1996). Assessing reliability of categorical measurements using latent class models. In: von Eye ,A., Clogg, C.(eds.), Categorical Variables in Developmental Research. Academic Press, San Diego, CA, PP. 169-182.Flaherty, B. P. (2002). Assessing re

42、liability of categorical substance use measures with latent class analysis. Drug andAlcohol Dependence, 6S(Supplement 1), 7-20.Goodman, L.A. (1974). The analysis of systems of qualitative variables when some of the variables are unobservable: Part 1-A modified latent structure approach. American Jou

43、rnal of Sociology, 1179-1259.焦璨,張敏強(qiáng),黃慶均,張文怡,黎光明.(2008).非正態(tài)分布測(cè)量數(shù)據(jù)對(duì)克隆巴赫信度a系數(shù)的影響.應(yīng)用心理學(xué)14(3), 276-281.Kreuter, F.,Yan,T. & Tourangeau, R. (2008). Good item or badcan latent class analysis tell?: the utility of latent classanalysis for the evaluation of survey questions. J.R.Statist. Soc.A, 171, 723-738.

44、Lazarsfeld, P. F.,& Henry, N.W.(1968). Latent Structure Analysis.Boston: Houghton Mill.邱皓政.(2008).潛在類別模型的原理與技術(shù)北京:教育科學(xué)出版社.Spencer, B.D. (2009). When do latent class models overstate accuracy for binary classifiers?: With applications to juryaccuracy, survey response error, and diagnostic error. Institute for Research Northwestern University Working PaperSeries,1-24.Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics, 6(2), 461-464.Vermunt, J.K. (2002). Multilevel latent class models. Sociological M

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論