教育統(tǒng)計(jì)與測量-測量質(zhì)量分析_第1頁
教育統(tǒng)計(jì)與測量-測量質(zhì)量分析_第2頁
教育統(tǒng)計(jì)與測量-測量質(zhì)量分析_第3頁
教育統(tǒng)計(jì)與測量-測量質(zhì)量分析_第4頁
教育統(tǒng)計(jì)與測量-測量質(zhì)量分析_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、測量質(zhì)量分析難度與區(qū)分度效度p為了使測驗(yàn)得到的分?jǐn)?shù)準(zhǔn)確可靠,我們要求使用的測驗(yàn)是高質(zhì)量的,因此必須對分析測驗(yàn)的質(zhì)量,而測驗(yàn)又是由一個個題目或者說測試項(xiàng)目所組成,整個測驗(yàn)質(zhì)量要高,必然要求各個題目的質(zhì)量要高。p因此分析一個測驗(yàn)的質(zhì)量,一般就要從兩個方面來進(jìn)行:一是考察整個測驗(yàn)的質(zhì)量指標(biāo),即考察測驗(yàn)效度與信度;二是考察所含項(xiàng)目的質(zhì)量指標(biāo),即考察測驗(yàn)項(xiàng)目的難度和區(qū)分度。測驗(yàn)項(xiàng)目的難度p測驗(yàn)項(xiàng)目的難度,就是被試完成項(xiàng)目作答任務(wù)時(shí)所遇到的困難程度。n有的項(xiàng)目很容易,幾乎所有初試都能正確完成作答任務(wù);有的項(xiàng)目卻很難,只有少數(shù)高水平被試能正確完成任務(wù)。n困難的項(xiàng)目,被試在其上得分的可能性就小,失分的可能性就

2、大;容易的項(xiàng)目,被試在其上得分的可能性就大,失分的可能性就小。n總之,每一個測驗(yàn)項(xiàng)目都有自己的難度;不同項(xiàng)目間其難度常常是不同的。p定量刻畫一個測驗(yàn)項(xiàng)目的被試作答困難程度的量數(shù)就叫項(xiàng)目的難度指數(shù)或難度系數(shù)。難度系數(shù)的求法p最通用的項(xiàng)目難度系數(shù)的求法就是計(jì)算被試在項(xiàng)目上的得分率或者說通過率。1.像選擇題這種測驗(yàn)項(xiàng)目,評分采取“全或無”的方式,答對給滿分,答錯給零分,難度指數(shù)就可以求通過人數(shù)比例或稱通過率。2.對于不采用“全或無”的方式給分的測驗(yàn)項(xiàng)目,難度系數(shù)的求取方法是先求所有被試在該項(xiàng)目上的平均得分值,可記為 ;再用它去對測驗(yàn)項(xiàng)目總分(滿分),可記為K,求比值,這個比值就是全體被試在該測驗(yàn)項(xiàng)目

3、上的得分率即難度指數(shù)p了。nrp KXp XR通過人數(shù)n 接受測試的總?cè)藬?shù)P難度指數(shù)p例如,有一滿分值K=5的試題,測試10名被試,實(shí)得成績?yōu)?,3,4.5,2,5, 0, 3.5, 1,3, 4 要求其難度指數(shù)p。p先求平均得分p然后用平均得分值對滿分值求比1 . 31031X62. 051 . 3KXpp整體試卷的難度,就是全體被試測驗(yàn)的總分平均值與全卷滿分的比值。p有人覺得用得分率p來表示難度別扭,主張用失分率q來作為難度指數(shù)。p得分率p是可以與失分率q相互轉(zhuǎn)換的,q=1-p。我們一般用得分率p來表示難度,但也有人用失分率q來表示難度,所以當(dāng)我們聽取人家報(bào)告難度系數(shù)時(shí),一定要弄清是指p還

4、是q值p不同目的的測試,測驗(yàn)難度系數(shù)要求也不相同。一般的標(biāo)準(zhǔn)化測試,目的是要盡可以把握住被試的個別差異,因此希望測驗(yàn)后所有被試的分?jǐn)?shù)“盡可能拉開距離”。這樣,測驗(yàn)項(xiàng)目的恰當(dāng)難度,就應(yīng)該是p值盡量接近0.5. p如果一個測驗(yàn)對某一被試團(tuán)體來說,難度相對顯得大,那么,被試團(tuán)體中大多數(shù)人就會得低分,被試總分分布就會形成正偏態(tài)分布;p如果相反,難度相對顯得小,被試團(tuán)體中就會有很多人得高分,總分分布就會形成負(fù)偏態(tài)。區(qū)分度p項(xiàng)目區(qū)分度就是項(xiàng)目區(qū)別被試水平高低的能力的量度。p項(xiàng)目是用來測試被試水平高低的;在所測特質(zhì)上,被試水平也不會人人相等,總是會有高低水平差異的。倘若,高水平被試,在測驗(yàn)項(xiàng)目上能利市中分,

5、而低水平被試則只能得低分,測驗(yàn)項(xiàng)目區(qū)分被試高低的能力就強(qiáng);如果高水平被試和低水平被試在測驗(yàn)項(xiàng)目上所得分?jǐn)?shù)并無差別,項(xiàng)目提供不出被試水平差異的信息,它的區(qū)分能力就弱,更糟糕的是,高水平被試在測驗(yàn)項(xiàng)目上反而得低分,低水平被試在測驗(yàn)項(xiàng)目上所得分?jǐn)?shù)卻不低,這種項(xiàng)目的性能就跟 測驗(yàn)?zāi)康南噙`背,只會起破壞作用。p所以,項(xiàng)目區(qū)分度是測驗(yàn)性能的一個重要指標(biāo),說明的正是項(xiàng)目對測驗(yàn)?zāi)康膩碚f的有效性程度區(qū)分度指數(shù)的求法p計(jì)算被試在該項(xiàng)目上的得分與其測驗(yàn)總分的相關(guān)系數(shù)。如相關(guān)一致性高就認(rèn)定該項(xiàng)目區(qū)分力強(qiáng);如果相關(guān)低,甚至負(fù)相關(guān),就認(rèn)定為區(qū)分力弱整形無效的項(xiàng)目。p這里,確定項(xiàng)目區(qū)分度的標(biāo)準(zhǔn)就是測驗(yàn)總分,要考察總分高的被

6、試在該項(xiàng)目上是否也得高分,總分低的被試在該項(xiàng)目上是否也得低分。顯然,這種標(biāo)準(zhǔn)就是測驗(yàn)內(nèi)部而非測驗(yàn)外部標(biāo)準(zhǔn)。假定有30名被試在兩個項(xiàng)目上的題分以及全卷總分情況如下表,請計(jì)算項(xiàng)目與項(xiàng)目的區(qū)分度項(xiàng)目p計(jì)算項(xiàng)目的區(qū)分度指數(shù),也就是計(jì)算被試在該項(xiàng)目上的得分與總分的相關(guān)系數(shù)。p項(xiàng)目為二分稱名變量,總分為連續(xù)變量,該用哪種相關(guān)法?pqSXXrxqppb需要用點(diǎn)雙列相關(guān),點(diǎn)雙列相關(guān)公式為:p答對被試的比率為:p=18/300.6p答錯被試的比率為:q=0.4p答對被試的總分平均成績:(100+100+98+) 18=69.94p答錯被試的總分平均成績:(90+79+89+0) 12=59.42p所有被試總分標(biāo)

7、準(zhǔn)差:29.2318. 04 . 06 . 023.2942.5994.69pbrD項(xiàng)目p項(xiàng)目2與總分都為連續(xù)變量,應(yīng)該采用哪種相關(guān)方法呢?p積差相關(guān)的公式為:22YYXXYYXXriiiixyp采用軟件分析,得到結(jié)果為79. 0 xyrD高低分組法p求取項(xiàng)目區(qū)分度指數(shù)的主要辦法,是求題分與總分的相關(guān)系數(shù)。但是,還有一種“高低分組求得分率差”的辦法。p方法:將全體被試按總分寡加以排隊(duì),然后取得分最多的27%的被試作為“高分組”,得分最少的27%的被試作為“低分組”,最后求這兩個組上項(xiàng)目得分率(通過率)的差來作為區(qū)分度指數(shù)的取值。pDPH PL以上面的30名被試為例p先將30名被試的總分從高至低

8、排序p30人的27%:30*27%8.18(人)p計(jì)算高分組8人的得分率PH:PH10.63; PH2 4.44/5=0.89p計(jì)算低分組8人的得分率PL: PL10.50; Pl2 2.06/5=0.41pD1PH1 PL1 0.13; D2PH2 PL2 0.48p用高低分組法丟棄了中部的數(shù)據(jù),因此只能是較為粗糙的估計(jì)值,當(dāng)被試總?cè)藬?shù)夠多,高分組與低分組容量都相當(dāng)大時(shí),這種估計(jì)值還是可以滿足實(shí)用要求的。所以高、低分組法,是一種常用的項(xiàng)目區(qū)分度指數(shù)求取方法。p項(xiàng)目區(qū)分度指數(shù)的取值范圍,跟一般的相關(guān)系數(shù)的取值范圍一樣,在-1.00至+1.00之間。p如果項(xiàng)目區(qū)分度指數(shù)D0.20,項(xiàng)目應(yīng)該被淘汰

9、p如果0.2D 0.3,需要修改p如果0.3D 0.4,合格p如果 0.4D ,性能優(yōu)良測驗(yàn)效度p測驗(yàn)效度,就是測驗(yàn)實(shí)際上測到它打算要測的東西的程度。p真正測到了要測的東西,就是有效、效度高;否則,就是無效或不十分有效,就是效度低。顯然,測驗(yàn)只有真正測到了要測的特性、特質(zhì)、結(jié)構(gòu),測驗(yàn)結(jié)果即測驗(yàn)分?jǐn)?shù)的應(yīng)用與解釋,才能起到它應(yīng)起的作用,才能發(fā)揮出有效性。p因此,測驗(yàn)效度就是測驗(yàn)工具的正確性問題,是測驗(yàn)分?jǐn)?shù)的真實(shí)有效性問題,是測驗(yàn)質(zhì)量高低的根本表現(xiàn)所在,是測驗(yàn)性能的最重要的指標(biāo)。p心理與教育測量具有間接性特點(diǎn),所測對象是被試的內(nèi)部心理特性、特質(zhì)或結(jié)構(gòu),測量工具是否真正測到了它,絕非一目了然,而且,這

10、種特性、特質(zhì)、結(jié)構(gòu)本身到底什么樣,許多都沒有公認(rèn)的定義,甚至還存在嚴(yán)重的分歧。p如語言能力和水平,就是一個不很清楚概念,它的內(nèi)涵與外延是什么,存在著分歧,那測量語言能力就存在著很大的困難。也許目的是測量語言能力但是實(shí)際測到的是語言知識。效度的種類p根據(jù)驗(yàn)證測驗(yàn)效度的角度與方法的差異,可以把效度驗(yàn)證工作大體分為三類,即內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度和結(jié)構(gòu)效度。三種效度說明的都是測驗(yàn)的正確性,不過是從三個不同的方面來說明而已。p內(nèi)容效度通過對測所含項(xiàng)目作內(nèi)容的系統(tǒng)考察,以確定由這些項(xiàng)目所構(gòu)成的測驗(yàn),是否是測驗(yàn)應(yīng)測特質(zhì)行為領(lǐng)域的代表性樣本。n代表性程度高,就是內(nèi)容效度好;代表性程度低,就是內(nèi)容效度差;根本不

11、具任何代表性,就是全無內(nèi)容效度。內(nèi)容效度p內(nèi)容效度的分析首先就要求測驗(yàn)所測特質(zhì)涵蓋的整個行為領(lǐng)域有明確的范圍,有比較清楚的組織結(jié)構(gòu)。但許多心理特質(zhì),如“智力”、“創(chuàng)造力”等,都是外延范圍不明、內(nèi)部結(jié)構(gòu)復(fù)雜,人們對其看法很不統(tǒng)一、無法滿足上述要求的測量對象。所以,內(nèi)容效度主要適應(yīng)于對學(xué)業(yè)成就測驗(yàn)的正確有效性的分析。主要分析測驗(yàn)項(xiàng)目所考核的知識技能覆蓋面、能力水平的考核情況、以及各部分內(nèi)容的深度廣度與結(jié)構(gòu)比例等。p分析的辦法一般是請學(xué)科專家作出系統(tǒng)評判;側(cè)重定性分析,也輔之以定量評價(jià);還可以采用恰當(dāng)辦法把不同遙意見綜合起來。p有一個跟內(nèi)容效度有關(guān)的概念叫表面效度,指的是從被試或非專業(yè)人員看來,測驗(yàn)

12、表現(xiàn)得是否在有效地測驗(yàn)著應(yīng)測的東西。p在那些需要被試盡其所能對所測問題正確作答的測驗(yàn)中,比如學(xué)業(yè)成就與智力測驗(yàn)中,它有改善與被試合作關(guān)系的作用。由于合作改進(jìn),測驗(yàn)質(zhì)量也就更有保證。這樣的測驗(yàn),應(yīng)力爭有高的表面效度。而人格測驗(yàn)和態(tài)度測量等,有時(shí)被試并不愿意直陳自己內(nèi)心想法,所以就不必明白在測查什么,不必追求高的表面效度。效標(biāo)關(guān)聯(lián)效度p效標(biāo)關(guān)聯(lián)效度就是指測驗(yàn)預(yù)測個體在類似或某種特定情境下行為表現(xiàn)的有效性。這里的“預(yù)測”既指同時(shí)性的類似情境下的行為的“預(yù)測”,也指間隔一段時(shí)間特定情境下的行為的“預(yù)測”。p因此,效標(biāo)關(guān)聯(lián)效度又包含“并存”效度和“預(yù)測”效度這兩個小類別。p效標(biāo)關(guān)聯(lián)效度是可以測量的,可以

13、通過求取有待驗(yàn)證的測驗(yàn)的測值與效標(biāo)測驗(yàn)所得的測值之間的相關(guān)系數(shù)獲得。得到的相關(guān)系數(shù),就叫效度系數(shù)結(jié)構(gòu)效度p結(jié)構(gòu)效度指的是測驗(yàn)測行心理學(xué)理論所定義的某一心理結(jié)構(gòu)或特質(zhì)的程度。這種結(jié)構(gòu)或特質(zhì)的例子有智力、學(xué)術(shù)能力傾向、人格結(jié)構(gòu)以及焦慮等。p這種結(jié)構(gòu)或特質(zhì)都是理論上定義的,其內(nèi)涵與外延并不十分確定,人們之間的看法也可能有分歧;但又的確反映了客觀存在著的心理現(xiàn)象與事實(shí),所以又是可測的。通過分析這些結(jié)構(gòu)與特質(zhì)的性質(zhì),可以推論出一些假設(shè),然后使用測驗(yàn)來檢驗(yàn)這些假設(shè)。倘若測驗(yàn)結(jié)果能證實(shí)這些假設(shè),那么這就從一個方面驗(yàn)證了測驗(yàn)的結(jié)構(gòu)效度。p比如,我們知道,智力在人們兒童和青少年時(shí)期,會隨年齡增長而發(fā)展提高,因此,智力測驗(yàn)的分?jǐn)?shù)也應(yīng)隨年齡增大而增加,直到個人成熟為止。如果所編出的智力測驗(yàn),施測結(jié)果說明情況果真如此,能證實(shí)這種看法,我們就說從發(fā)展成熟的角度看,所編智力測驗(yàn)確具有較好的結(jié)構(gòu)效度。提高測驗(yàn)信、效度的方法n測驗(yàn)中題目的數(shù)量應(yīng)適當(dāng),不能太少。n緊密圍繞教學(xué)大綱和教學(xué)目標(biāo)命題。n考核內(nèi)容應(yīng)全面,并能有效代表學(xué)生應(yīng)掌握的知識領(lǐng)域。n測驗(yàn)的整體難度適當(dāng),不同類型、不同難度的題目應(yīng)保持恰當(dāng)比例。n少出偏題、怪題,一般應(yīng)以考察基礎(chǔ)知識和基本能力為主。練習(xí)1p某測驗(yàn)上,16名被試某題得分與測驗(yàn)總分情況如下表,試求該試

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論