教育測量與評價——測量指標(biāo)_第1頁
教育測量與評價——測量指標(biāo)_第2頁
教育測量與評價——測量指標(biāo)_第3頁
教育測量與評價——測量指標(biāo)_第4頁
教育測量與評價——測量指標(biāo)_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、教育測量與評價測量的質(zhì)量指標(biāo)教育測量的質(zhì)量指標(biāo)衡量教育測量的質(zhì)量,可采用四個指標(biāo): 信度 主要對整個測量而言。 效度 難度 主要對測量的項目而言。 區(qū)分度 一、信度概述(一)什么是信度信度是指測量結(jié)果的穩(wěn)定性或可靠性程度。一般地說,一個好的測量必須具有較高的信度,也就是說,一個好的測量工具,只要遵守操作規(guī)則,其結(jié)果就不應(yīng)隨工具的使用者或使用時間等方面的變化而發(fā)生較大的變化。必須從以下兩個方面去理解測量的信度:信度指實測值(x)和真值(t)相差的程度;信度指兩次重復(fù)測量或等值測量之間的關(guān)聯(lián)程度。(二)信度的估計方法1、重復(fù)信度(再測信度)指的是同一個量表對同一組被試施測兩次所得結(jié)果的一致性程度。

2、其大小等于同一組被試在兩次測驗上所得分?jǐn)?shù)的相關(guān)系數(shù),一般采用皮爾遜積差相關(guān)的公式來計算。例一 用一個算術(shù)四則的速度測驗12個小學(xué)生,得分記為x,為了考察測量結(jié)果的可靠性,于3個月后再測一次,得分記為y,問測驗結(jié)果是否可靠? 學(xué)生序號 1 2 3 4 5 6 7 8 9 10 11 12 x 20 20 21 22 23 23 23 24 25 26 26 27 y 20 21 21 20 23 23 25 25 26 26 27 29在使用重測法計算穩(wěn)定性系數(shù)時,應(yīng)注意以下問題:1、信度的取值范圍為0,1,當(dāng)信度值較大時,說明前后兩次測量結(jié)果比較一致;2、兩次測驗之間的時間間隔要適宜。應(yīng)由測驗

3、的性質(zhì)、測題類型、測題數(shù)量和被試特點所決定;3、重測法適用于速度測驗而不適用于難度測驗;4、應(yīng)注意提高被試者的積極性。2、復(fù)本信度 指的是兩個平等的測驗測量同一批被試所得結(jié)果的一致性程度。 其大小等于同一批被試在兩個復(fù)本測驗上所得分?jǐn)?shù)的相關(guān)系數(shù)。 所謂復(fù)本測驗是指在性質(zhì)、內(nèi)容、題型、題數(shù)、難度等方面都一致(或相等)的兩份或多份測驗。例二 以a、b兩型英語復(fù)本測驗對初中三年級10個學(xué)生施測,為避免由測驗施測順序所造成的誤差,其中5個學(xué)生先做a型測驗,休息15分鐘后,再做b型測驗;而另5個學(xué)生先做b型測驗,休息15分鐘后,再做a型測驗。10個學(xué)生a型測驗結(jié)果記為x,b型測驗結(jié)果記為y,其測驗的復(fù)本

4、信度如何? 學(xué)生序號 1 2 3 4 5 6 7 8 9 10 x 19 19 18 17 16 15 15 14 13 12 y 20 17 18 18 17 15 13 15 12 12復(fù)本信度的優(yōu)缺點表現(xiàn): 優(yōu)點: 1、測驗的兩個復(fù)本,如果在不同的時間使用,其信度既可以反映在不同時間的穩(wěn)定性,又可以反映對于不同測題的一致性; 2、兩個復(fù)本在同時使用時,可以避免再測信息的一些缺點,如首測時再測在記憶、練習(xí)、效果的影響,間隔期間獲得新知識的影響,兩次施測的環(huán)境不同和被試主觀狀態(tài)不同的影響,以及為了應(yīng)付測驗所作訓(xùn)練的影響等。缺點: 1、編制兩個完全相等的測驗是很困難的,如果兩個復(fù)本過分相似,則

5、變成再測形式,而過分不相似,又使等值的條件不存在; 2、兩個復(fù)本測驗有可能在某種程度上測量了不同的性質(zhì),這就會低估測驗的信度; 3、被試同時接受性質(zhì)相似的兩個測驗,可能減少完成測驗的積極性; 4、雖然兩個復(fù)本測驗的題目材料不同,但被試一旦掌握了解題的某一模式,就能觸類旁通,有可能失去復(fù)本的意義。3、折半信度(分半信度) 就是將測驗分半,再求被試在每一半測驗上所得分?jǐn)?shù)的相關(guān)系數(shù)。 首先根據(jù)內(nèi)容、形式、題數(shù)、平均數(shù)、標(biāo)準(zhǔn)差、難度、測題間相關(guān)以及分布形態(tài)相等的原則,將試題分成兩半,或者將從易到難排列的測題,按照測題序號,奇數(shù)測題為一組,偶數(shù)測題為一組,分成兩半; 然后計算每個被試在兩個分半測驗分?jǐn)?shù)的

6、積差相關(guān)系數(shù),再用斯皮爾曼布朗公式加以校正。 斯皮爾曼布朗公式為例三對初中一年級學(xué)生進行地理成績測驗,每答對1題得1分,答錯1題得0分,其測驗結(jié)果如下表,試估計該測驗的折半信度?學(xué)生序號 題 序 1 2 3 4 5 61 1 0 0 0 0 02 0 0 0 1 0 03 1 0 1 0 0 04 1 1 0 0 1 05 1 0 0 1 0 06 1 1 1 0 1 17 1 1 1 1 0 18 1 1 0 1 1 09 0 1 1 0 0 110 1 1 1 1 1 1(三)提高信度的方法1、影響測量信度的主要因素(1)被試方面(2)主試方面(3)施測情境方面(4)測量工具方面(5)兩次

7、施測的間隔時間方面2、提高測量信度的常用方法(1)適當(dāng)增加測驗的長度(2)測驗的難度要適中(3)測驗的內(nèi)容應(yīng)盡量同質(zhì)(4)測驗的程序應(yīng)統(tǒng)一(5)測驗的時間要充分(6)測驗的評分要盡量做到客觀化,減少評分誤差二、效度的概念(一)什么是效度效度是指測量結(jié)果的準(zhǔn)確性和有效性的程度。也可以說是測量是否達到了預(yù)期的目的。1、效度是一個相對的概念。(1)測量的效度是相對一定的測量目的而言的(2)測量的效度是相對測量的結(jié)果而言的2、一種測量的效度只是高或低的問題測量結(jié)果總是有一定效度的,只是效度高低不同罷了。(二)效度的估計效度估計就是多方尋找證據(jù)來證明一個測驗的有效性程度的過程。1、內(nèi)容效度就是指測驗內(nèi)容

8、對所要測量的內(nèi)容的代表性程度。也就是說,測驗的內(nèi)容范圍、材料與所要測量的內(nèi)容范圍、教育目標(biāo)是否相符合;測驗中測題所引起的行為是否是所要測量的屬性的明確反應(yīng);測驗的結(jié)果是否是一個有代表性的行為樣本。為了使測驗的內(nèi)容具有有效性,成為所欲測量內(nèi)容的一個具有代表性的行為樣本,在編制測驗時,就要考慮建立內(nèi)容效度的問題。2、內(nèi)容效度的估計 (1)邏輯分析法 其工作思路是請有關(guān)專家對測驗題目與原定內(nèi)容范圍的吻合程度作出判斷。 (2)統(tǒng)計分析法 從同一個教學(xué)內(nèi)容總體中抽取兩套獨立的平行測驗,用這兩個測驗來測同一批被試,求其相關(guān)。若相關(guān)高,表明測驗內(nèi)容效度較高;若相關(guān)低,表示測驗的內(nèi)容效度較低。 采用求統(tǒng)計量的

9、公式進行計算,其公式有以下三種形式:例一在社會發(fā)展史某一單元教學(xué)之前,對學(xué)生進行有關(guān)這一單元內(nèi)容的測驗。教學(xué)之后,再以復(fù)本測驗施測,兩次測驗分?jǐn)?shù)如下,試檢定測驗的內(nèi)容效度?學(xué)生序號 1 2 3 4 5 6 7 8 9 10教學(xué)前x 34 40 32 30 31 35 44 33 42 36教學(xué)后y 52 64 50 54 58 63 72 62 62 50結(jié)論然后根據(jù)自由度df=n-1=9,查t值表,尋得0.01顯著性水平t的雙側(cè)臨界值為t(9)0.01=4.781,而實際計算出的t=13.974.781=t(9)0.01,于是可以說,教學(xué)前后學(xué)生在兩個復(fù)本測驗上得分的平均數(shù)有極顯著性差異,從

10、而可以作出判斷,社會發(fā)展史中該單元測驗的內(nèi)容具有有效性,或內(nèi)容效度較高。內(nèi)容效度主要應(yīng)用于成就測驗、學(xué)科測驗、選拔和分類職業(yè)測驗。內(nèi)容效度不適合用于能力傾向和人格測驗。2、結(jié)構(gòu)效度是指測驗對于人的心理特性或理論概念測量到的程度。通常用某種操作來定義,并用測驗來測量。例如:人的創(chuàng)造力可以分解為人的思維流暢性、靈活性和創(chuàng)造性三大特性,并根據(jù)這三大特性編制測驗,若有足夠的證據(jù)來證明該測驗確實可以測到這些特性,則認(rèn)為該測驗是個結(jié)構(gòu)效度較高的創(chuàng)造力測驗。(1)結(jié)構(gòu)效度的特點結(jié)構(gòu)效度的大小完全取決于事先假定的心理特質(zhì)理論,一旦人們對同一種心理特質(zhì)有著不同的定義或假設(shè),則會使得關(guān)于特質(zhì)測驗的結(jié)構(gòu)效度的研究結(jié)

11、果無法比較。當(dāng)實際測量的資料無法證實我們的理論假設(shè)時,并不一定就表明該測驗結(jié)構(gòu)效度高。因為還有可能出現(xiàn)理論假設(shè)不成立,或者該實驗設(shè)計不能對該假設(shè)作適當(dāng)?shù)臋z查等情況,這就使得結(jié)構(gòu)效度的獲取更為困難。(2)建立結(jié)構(gòu)效度的步驟a、提出理論假設(shè);b、根據(jù)假定結(jié)構(gòu)擬定測題,編制測驗;c、以測驗結(jié)果為根據(jù)來驗證假設(shè)結(jié)構(gòu)中的各種因素是否成立。(3)結(jié)構(gòu)效度的估計a、因素分析法其目的是把一些具有錯綜復(fù)雜關(guān)系的因素歸結(jié)為數(shù)量較少的幾個綜合因素或稱共同因素,并以此測驗所測之特質(zhì)對測驗分?jǐn)?shù)作出解釋。b、多元特質(zhì)多重方法矩陣法是由肯貝爾和菲斯克1959年提出的最受歡迎的一種結(jié)構(gòu)效度的評估方法。這種方法的設(shè)想:若采用兩

12、種方法以上的方法去測量兩種以上的特質(zhì),那么這些測量結(jié)果之間可以形成一個多元特質(zhì)多重方法矩陣。從理論上說,以不同方法測量同一特質(zhì)的相關(guān)應(yīng)當(dāng)為最高;以相同方法測量不同特質(zhì)的相關(guān)次之;以不同方法測量特質(zhì)的相關(guān)為最低。與內(nèi)容效度不同,結(jié)構(gòu)效度主要用于智力測驗、人格測驗等一些心理測驗方面。3、效標(biāo)關(guān)聯(lián)效度是以測驗分?jǐn)?shù)和效標(biāo)之間的相關(guān)系數(shù)來表示測驗效度高低的方法。例如:某年全國高考物理學(xué)科的測驗效度,可用大學(xué)一年級物理學(xué)科的測驗分?jǐn)?shù)為效標(biāo),然后求同一組學(xué)生高考物理得分與大一物理得分之間的相關(guān),此相關(guān)系數(shù)就是該年高考物理測驗的效標(biāo)關(guān)聯(lián)效度系數(shù)。當(dāng)這個相關(guān)系數(shù)與總體零相關(guān)有顯著性差異時,相關(guān)系數(shù)的值(正值)越

13、大,效度就越高;相關(guān)系數(shù)的值越小,效度就越低。效標(biāo)不僅隨測驗的種類不同而不同,而且可能隨時間而改變,現(xiàn)在是一個好的成功的效標(biāo),將來就不一定是。所以,為某個測驗選擇一個最有效的效標(biāo),這是最重要的事情。教育測驗的效標(biāo),可采用各學(xué)科成績和教師評定的結(jié)果;智力測驗的效標(biāo),可采用學(xué)科成績、教師評判的結(jié)果、學(xué)生總成績、受教育年限、年齡以及其他事物;能力傾向測驗的效標(biāo),可采用特殊課程或特殊訓(xùn)練的成績;職業(yè)興趣測驗的效標(biāo),可采用從業(yè)人員實際服務(wù)成績或記錄;人格測驗的效標(biāo),可采用編制者的主觀標(biāo)準(zhǔn),或以被試以后行為或臨床資料。效標(biāo)關(guān)聯(lián)效度的估計方法(1)相關(guān)法由于測驗分?jǐn)?shù)和效標(biāo)分?jǐn)?shù)這兩個變量的類型不同,二者相關(guān)系

14、數(shù)的計算方法也就不同。a、積差相關(guān)法:適用于兩個變量為連續(xù)變量進行顯著性檢驗:自由度df=n-2,檢驗的是兩個變量,都減去2;置信度取0.05,查相關(guān)系數(shù)界值表,尋找臨界值;結(jié)論:r臨界值,說明顯著相關(guān),效度高;r0為正區(qū)分,d0為負(fù)區(qū)分,d=0為零區(qū)分(二)區(qū)分度的計算1、極端分組法(1)客觀性試題d=ph-pl例6:有道試題,高分組有70%學(xué)生通過,低分組有30%的學(xué)生通過;而另一道題,高分組有40%學(xué)生通過,低分組有70%學(xué)生通過,求兩題的各自區(qū)分度?(2)主觀題d=(xh-xl)/n(h-l)xh為高分組得分總數(shù)xl為低分組得分總數(shù)h為該道題的最高分l為該道題的最低分n為應(yīng)試總?cè)藬?shù)的2

15、7%。例7 高分組 低分組得分x 人次f 得分x 人次f 5 4 5 0 4 3 4 1 3 2 3 1 2 1 2 3 1 0 1 4 0 0 0 42、相關(guān)法點二列相關(guān)法例8:15個學(xué)生在數(shù)學(xué)測驗中得分記錄如下,計算數(shù)學(xué)測驗中第一題的區(qū)分度?學(xué)生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15測驗 65 70 31 49 80 50 35 10 81 69 78 55 77 90 42第一題 0 1 0 1 1 0 1 0 0 1 1 0 1 1 0二列相關(guān)例9:已知一測驗中某選擇題的通過率為0.5,答對者的測驗總分平均為76分,答錯者的測驗總分平均為63分,全體被

16、試20人總分的標(biāo)準(zhǔn)差為16,求該題的區(qū)分度?(三)提高區(qū)分度的方法1、使題目的難度適中,使整個考試難度適中題目的難度適中可使區(qū)分度達到最大值,因此,使難度適中是提高區(qū)分度的重要方法。2、著重考察復(fù)雜的學(xué)習(xí)結(jié)果使高能學(xué)生得高分或低能學(xué)生得低分,使分?jǐn)?shù)盡量分布在整個分?jǐn)?shù)量尺上。3、掌握區(qū)分度的評價標(biāo)準(zhǔn)。第三章教育測驗的編制與實施一、教育測驗編制的一般程序(一)確定測驗?zāi)繕?biāo)1、什么是測驗?zāi)繕?biāo)測驗?zāi)繕?biāo)是測驗編制者所編制的測驗所要達到的某種具體的目的。它明確規(guī)定測驗所要達到的預(yù)期結(jié)果或標(biāo)準(zhǔn)。確定測驗?zāi)繕?biāo)是編制測驗的首要前提。2、測驗?zāi)繕?biāo)與教育目標(biāo)分類測驗?zāi)繕?biāo)的確定是以教育目標(biāo)分類理論為基礎(chǔ)的。(1)布魯

17、姆的認(rèn)知目標(biāo)領(lǐng)域知識:這是最低等級的認(rèn)知目標(biāo)。主要指記憶知識。對學(xué)過的知識和有關(guān)材料的識別和再現(xiàn)。理解:這是最低層次的理解。主要是對知識的掌握,其特點是脫離了“死記硬背”。應(yīng)用:指的是將學(xué)過的材料(知識)應(yīng)用到新的具體情景中去。分析:指能將知識進行分解,找出組成要素,并分析其相互關(guān)系及組成原理。綜合:與分析相反,指把各個元素或部分組成新的整體。評價:指根據(jù)一定的標(biāo)準(zhǔn)對事物給予價值判斷。 布氏上述六類目標(biāo)是有層次、有順序的,知識是最低層次,是最基本的要求。其余依次是理解、應(yīng)用、分析、綜合、評價。評價為認(rèn)知領(lǐng)域的最高層次,是前面五種目標(biāo)的綜合并增加了價值標(biāo)準(zhǔn)。這六類目標(biāo),由簡單到復(fù)雜,由低級到高級

18、依次排列,組成層次結(jié)構(gòu)。(2)我國認(rèn)知目標(biāo)的分類 a、五分法 知識 理解 應(yīng)用 分析綜合 創(chuàng)造 b、四分法 識記 理解 簡單運用 綜合運用(二)確定測驗內(nèi)容 測驗內(nèi)容的確定,實際上也就是內(nèi)容抽樣的決定和測驗?zāi)繕?biāo)的確立相結(jié)合而成。 這一結(jié)合過程必須通過命題雙向細目表來確定。 命題雙向細目表由3個要素構(gòu)成: 測驗?zāi)繕?biāo) 測驗內(nèi)容 測驗?zāi)繕?biāo)和測驗內(nèi)容的比例比例確定標(biāo)準(zhǔn) 每一內(nèi)容范圍的比例應(yīng)與該內(nèi)容項目在整個教學(xué)領(lǐng)域里的相對重要性相符合,這種相對重要性可由該內(nèi)容項目的教學(xué)課時的多少來體現(xiàn); 每一目標(biāo)層次所要求的比例應(yīng)當(dāng)與測驗編制者認(rèn)為這個目標(biāo)對所受測學(xué)生的水平所具有的重要性相符。 測驗雙向細目表,是編制

19、測驗的藍圖,它詳細說明了測驗的內(nèi)容、測驗?zāi)繕?biāo),對試題數(shù)量、考試時間安排、測驗分?jǐn)?shù)分配等,都起著重要作用,因此,它是編制測驗必不可少的一環(huán)。測驗材料的收集必須遵循的原則:1、測驗材料要適合測驗?zāi)康?、測驗材料要能夠代表該教材的全部內(nèi)容3、測驗材料要有普遍性4、測驗材料要適合學(xué)生程度并能鑒別學(xué)生的學(xué)習(xí)水平5、測驗材料要能激發(fā)學(xué)生的進取心(三)測驗設(shè)計1、測驗形式的確定2、測驗題目形式的確定3、測驗具體題型的確定與題目編制4、測驗題目量的確定5、測驗時間的確定6、測驗題目的編制先按試題的形式及內(nèi)容分類從易到難排列二、測驗題目編制技術(shù)1、客觀性測驗題目的編制(約占60%左右)試題應(yīng)反映教學(xué)內(nèi)容的重點或

20、教學(xué)過程中要求學(xué)生掌握的有意義的內(nèi)容和知識點;務(wù)必使每道試題自成一體,不可互相牽扯;試題文字力求淺顯易懂,題意明確;試題的答案應(yīng)該是明確且唯一的;試題應(yīng)按教育目標(biāo)的要求,內(nèi)容不能超過受測者的知識和能力。2、主觀性測驗題目的編制(大約占40%左右)試題應(yīng)考查教育內(nèi)容中的重要問題;把問題和實際情景結(jié)合起來,強調(diào)知識的應(yīng)用;要給被試發(fā)揮自己創(chuàng)造力的余地;要使答案的復(fù)雜程度與被試的成熟程度相符。三、教育測量分?jǐn)?shù)的整理和分析編制頻數(shù)分布表求組中值求全矩求組數(shù)求組限畫頻數(shù)分布曲線圖分析頻數(shù)曲線圖1、常態(tài)分布即成績中等的多,優(yōu)秀和差的少,俗稱“中間大,兩頭小”。學(xué)生的學(xué)業(yè)成績呈常態(tài)分布,表明能正確、客觀地反映學(xué)生真實的知識程度和能力水平。這是因為學(xué)生智力及其差異,一般是呈常態(tài)分配的;另外,教學(xué)大綱的制定、教材的編寫、考試命題都是從大多數(shù)中等程度學(xué)生的實際出發(fā),為大多數(shù)中等

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論