教育測量與評價 第三次課ppt_第1頁
教育測量與評價 第三次課ppt_第2頁
教育測量與評價 第三次課ppt_第3頁
教育測量與評價 第三次課ppt_第4頁
教育測量與評價 第三次課ppt_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

教育測量與評價的質(zhì)量特性工欲善其事,必先利其器。測量與評價的成效在很大程度上取決于評價自身的質(zhì)量!評價是一把雙刃劍??茖W(xué)的評價能對教育產(chǎn)生良好的促進(jìn)作用,而低劣的評價不僅耗費(fèi)了寶貴的教育資源,還會導(dǎo)致種種不良的后果。屬于教育評價再評價返回問題一:教育測量的結(jié)果是否真實、客觀的反映了考生的實際水平?教育測量與評價的信度信度的理論定義實際值和測量值之間相差的程度測量分?jǐn)?shù)=真分?jǐn)?shù)+測量誤差真分?jǐn)?shù)如何獲得?多次測量?返回教育測量與評價的信度信度的理論公式:獲得分?jǐn)?shù)方差=真分?jǐn)?shù)方差+誤差方差假設(shè):誤差是隨機(jī)的,誤差的平均數(shù)等于零誤差與真分?jǐn)?shù)之間無相關(guān)存在返回教育測量與評價的信度測量誤差的來源:測驗本身測驗的實施被試本身返回教育測量與評價的信度決定系數(shù):定義:存在相關(guān)的兩個變量,在因變量的方差中由自變量方差所造成的比率值:兩個變量相關(guān)系數(shù)的平方信度系數(shù)=決定系數(shù)?返回教育測量與評價的信度信度的操作性定義同一測驗對同一測試施測兩次或多次,所得結(jié)果的一致性程度。每次的測量結(jié)果實際包含被測的實際水平和測量誤差兩部分。物理測量:皮尺、鋼尺、臺秤、天平;教育和心理測量:各種測驗量表;測量的一致性程度越高說明測量結(jié)果越穩(wěn)定,由此人們在使用所得測值時就會感覺其可靠性越高。返回

教育測量與評價的信度信度的計算

在教育測量學(xué)中對信度的估計或計算,一般采用相關(guān)分析的方法,即計算出兩種變量的相關(guān)系數(shù)(例如:計算兩次測驗同一對象的分?jǐn)?shù)的相關(guān)系數(shù)),用相關(guān)系數(shù)的大小來表示一致性程度的高低??筛鶕?jù)測試結(jié)果分?jǐn)?shù)的形式,是連續(xù)變量還是二分變量等,可采用不同的相關(guān)系數(shù)計算公式。

根據(jù)信度計算的不同方法,可將信度分為重測信度、復(fù)本信度、同質(zhì)性信度、評分者信度。返回教育測量與評價的信度重測信度指用同一量表(測驗或評價表)對同一組被試施測兩次所得結(jié)果的一致性程度。其大小等于同一組被試在兩次測驗上所得分?jǐn)?shù)的相關(guān)系數(shù)。重測信度的基本假設(shè):假設(shè)某測驗所要測量的潛在特質(zhì),短期內(nèi)不會隨時間推移而改變。故重測信度的高低和測量時間間隔長短密切相關(guān)。間隔多久恰當(dāng)呢?無固定標(biāo)準(zhǔn),一般來說,在間隔時間內(nèi),被試的遺忘和練習(xí)的效果基本上相互抵消,即為適度的時間間隔。返回再測信度的計算公式用原始數(shù)據(jù)計算再測信度的計算公式用平均值、標(biāo)準(zhǔn)差計算再測信度的計算公式用平均值和總體標(biāo)準(zhǔn)差計算再測信度的特點(diǎn)簡單內(nèi)容重復(fù)時間間隔被試積極性測試環(huán)境被試主觀狀態(tài)再測信度的適用范圍適用異質(zhì)性測驗適用速度測驗不適用難度測驗適用于運(yùn)動技能測驗

教育測量與評價的信度復(fù)本信度有些測驗不適合施測兩次,這時我們可以編制兩份等值但并不相同的量表對被試施測(其時距盡量短,可短到兩次測驗接著進(jìn)行),兩個平行測驗測量同一批被試所得結(jié)果的一致性程度稱為復(fù)本信度,其大小等于同一批被試在兩個復(fù)本測驗上所得分?jǐn)?shù)的相關(guān)系數(shù)。所謂測驗的等值(或平行)是指:

&試題題型、題數(shù)、難度、指導(dǎo)語說明、施測要求等方面都相當(dāng)

&用來測量相同潛在特質(zhì)或?qū)傩?/p>

&試題不相同。兩種方式:同一時間連續(xù)施測;間隔一段較短的時間后施測。返回復(fù)本信度的計算公式用原始數(shù)據(jù)計算復(fù)本信度的計算公式用平均值、標(biāo)準(zhǔn)差計算復(fù)本信度的計算公式用平均值和總體標(biāo)準(zhǔn)差計算復(fù)本信度的特點(diǎn)題目多,準(zhǔn)確性高即反映不同時間的穩(wěn)定性又反映不同試題的一致性避免再測信度的記憶性效應(yīng)完全相同的試題比較難相似的兩套測試可能影響積極性復(fù)本信度的適用范圍適用于難度測驗適用于速度測驗教育測量與評價的信度重測信度和復(fù)本信度在使用的方法上分別屬于跨時間和跨類型的,實際操作中存在困難,均需測驗兩次,復(fù)本不易做到等值,很難用同一測驗對同一組被試重復(fù)進(jìn)行測驗等,于是引入內(nèi)部一致性信度來計算測驗的信度。內(nèi)部一致性信度也叫同質(zhì)性信度,是指測驗內(nèi)部所有題目間的一致性程度。題目間的一致性含有兩層意思:其一是指所有題目測的是同一種心理特質(zhì);其二是指所有題目得分之間都具有較高的正相關(guān)。

同質(zhì)性信度基于的假設(shè)是:當(dāng)一個測驗具有較高的同質(zhì)性信度時,說明測驗主要測的是某一單個心理特質(zhì),由于眾多的題目測試了同一心理特質(zhì),那么實測結(jié)果就是該特質(zhì)水平的反映。估計同質(zhì)性信度的方法主要有:分半信度、庫德-理查遜信度、克龍巴赫α系數(shù)、荷伊特信度。返回教育測量與評價的信度分半信度指的是將一個測驗分成對等的兩半后,所有被試在這兩半上所得分?jǐn)?shù)的一致性程度。計算不難,把對等的兩半測驗看成是在最短時間距離內(nèi)施測的兩個平行測驗。難的是,如何將測驗分成相等的兩半。

按題號的奇偶分半、按題目的難易程度分半、按題目的內(nèi)容分半等等。實際應(yīng)用中,由于題目一般依據(jù)難度大小排列,采用奇偶分半可使兩半測驗的題目在難度上基本相等,因此常被采納。

如果一個測驗無法分成對等的兩半,則不宜使用分半信度。返回分半信度的估計方法一相關(guān)系數(shù)斯皮爾曼-布朗公式校正分半信度的估計方法二盧農(nóng)公式估計每個被試兩半測驗分?jǐn)?shù)之差的方差測驗總分的方差分半信度的估計方法三弗拉南根公式估計法兩個分半測驗分?jǐn)?shù)的方差同質(zhì)性信度庫德-理查深公式正誤率內(nèi)在一致性信度的特點(diǎn)避免再測同時性、同質(zhì)性好分半困難分半方法不同信度不同教育測量與評價的信度評分者信度含義:指多個評分者給同一批人的答卷進(jìn)行評分的一致性程度。教育與心理測量工作中,客觀題無所謂,主觀題常常存在誤差,有時誤差甚至較大。評分者信度的計算當(dāng)評分者人數(shù)為兩人時,評分者信度等于兩個評分者給同一批被試的答卷所評分?jǐn)?shù)的相關(guān)系數(shù),依據(jù)數(shù)據(jù)形式,采用不同的相關(guān)系數(shù)計算方法。返回影響信度的因素測量的長度測試的難度測試內(nèi)容的同質(zhì)性程度測試程序的統(tǒng)一測試時間充分評分標(biāo)準(zhǔn)統(tǒng)一

教育測量與評價的效度返回效度的概念測量的有效程度一個測驗或量表實際能測出其所要測量的特性或功能的程度任何測量都存在效度的問題效度是針對一定測量目的而言的效度是針對測量結(jié)果而言的效度只有程度上的差異評價一個測量是否有效要多角度、多方面地收集證據(jù)效度與信度的關(guān)系觀察分?jǐn)?shù)的方差表示信度的統(tǒng)計定義:效度的統(tǒng)計定義:效度系數(shù)不會大于信度系數(shù)的平方根信度高是效度高的必要條件

效度的類別效度的種類內(nèi)容效度結(jié)構(gòu)效度效標(biāo)關(guān)聯(lián)效度測驗題目樣本對于應(yīng)測內(nèi)容與行為領(lǐng)域的代表性程度側(cè)重于測驗題目取樣的代表性,考查這些題目對所欲測量的內(nèi)容和行為反應(yīng)測量的有效程度結(jié)構(gòu):心理學(xué)或社會學(xué)上的一種理論構(gòu)想或特質(zhì)側(cè)重于一個測驗?zāi)軌驕y量到心理學(xué)和教學(xué)理論上的抽象概念或特質(zhì)的程度效標(biāo):檢驗測驗效度的參照標(biāo)準(zhǔn),實際上是本測驗所想測量或要預(yù)測的特性或功能測驗分?jǐn)?shù)與作為效標(biāo)的另一獨(dú)立測驗結(jié)果之間的一致性程度LOOP內(nèi)容效度及其驗證方法內(nèi)容效度的概念內(nèi)容效度:測驗內(nèi)容對所要測量的特性、功能等的代表性程度也就是說:測驗的內(nèi)容范圍、材料與所要測量的內(nèi)容范圍、教育目標(biāo)是否相符合,測驗中測題所引起的行為是不是所要測量的屬性的明確反映,測驗的結(jié)果是不是一個具有代表性的行為樣本內(nèi)容效度多用于學(xué)科成績測驗之中因為學(xué)科測驗的主要目的在于測量學(xué)生對于某門學(xué)科知識、技能的掌握程度內(nèi)容效度及其驗證方法邏輯分析法(定性的方法)依靠有關(guān)專家對測驗題目與應(yīng)測內(nèi)容范圍的吻合程度作出判斷依據(jù)教材內(nèi)容、教學(xué)大綱的范圍以及教學(xué)目標(biāo)分析測驗內(nèi)容,檢查測驗內(nèi)容究竟在體現(xiàn)教材內(nèi)容和教學(xué)目標(biāo)方面達(dá)到多大程度對每一道題目逐一進(jìn)行審查,以此形成“題目雙向細(xì)目表”與“命題雙向細(xì)目表”加以對照,以確定試卷的效度內(nèi)容效度及其驗證方法量化分析方法將專家的判斷綜合為一個內(nèi)容效度系數(shù)的統(tǒng)計方法專家在仔細(xì)審閱測驗?zāi)繕?biāo)的基礎(chǔ)上,獨(dú)立地對測驗每個題目作出判斷:該題目實際測到的內(nèi)容與其欲測量的目標(biāo)內(nèi)容之間相關(guān)程度如何,并用四點(diǎn)量來表示如:1:完全無關(guān);2:有點(diǎn)相關(guān);……結(jié)構(gòu)效度及其驗證方法結(jié)構(gòu)效度的概念測驗對于人的假設(shè)屬性或理論概念測量到的程度這些假設(shè)屬性或理論概念是決定人們外部行為的內(nèi)隱或潛在的特性但這種特性不能予以操作性的定義,它所支配的行為也不能直接觀察到結(jié)構(gòu)效度及其驗證方法結(jié)構(gòu)效度建立的示例建立理論框架從理論框架出發(fā),提出各種假設(shè)根據(jù)假設(shè)編制測驗以邏輯及實證的方法,檢驗結(jié)果是否符合心理學(xué)的理論框架及其假設(shè)比如:中學(xué)生數(shù)學(xué)能力的研究數(shù)學(xué)能力由分析能力、綜合能力、歸納和演繹能力、運(yùn)算能力、空間想象能力構(gòu)成;數(shù)學(xué)能力與早期教育有關(guān);數(shù)學(xué)能力與智力正相關(guān)。編制測驗,施測并收集測驗結(jié)果分析測驗結(jié)果,考查測試的結(jié)構(gòu)效度,考查測驗結(jié)果是否支持理論構(gòu)想結(jié)構(gòu)效度及其驗證方法結(jié)構(gòu)效度的驗證方法(1)測驗內(nèi)部尋找證據(jù)法①內(nèi)容效度:有些測驗對所測內(nèi)容或行為范圍的定義或解釋類似于理論構(gòu)想的解釋。②作答過程分析:對被試作答過程進(jìn)行分析,如果作答過程中有非目標(biāo)因素的影響,那么測驗的結(jié)構(gòu)效度就不高。(2)測驗之間尋找證據(jù)法①相容效度:考察新編測驗與某個能有效測量相同特質(zhì)的舊測驗之間的相關(guān),若二者相關(guān)較高,則說明新測驗有較高的效度。②聚合效度:即求同效度,兩個測驗如果是測量同一特質(zhì)的,即使采用不同的方法進(jìn)行測量,它們之間的相關(guān)應(yīng)該也是高的③區(qū)分效度:即求異效度,兩個測驗如果是測量不同特質(zhì)的,即使采用相同的方法進(jìn)行測量,它們之間的相關(guān)應(yīng)該也是低的效標(biāo)關(guān)聯(lián)效度及其驗證方法效標(biāo)關(guān)聯(lián)效度的驗證方法效標(biāo):檢驗測驗效度的外在的、客觀的標(biāo)準(zhǔn),即效度的標(biāo)準(zhǔn)效標(biāo)效度,也稱為效標(biāo)關(guān)聯(lián)效度,也稱為實證效度驗證方法是指一個測驗對處于特定情境中的個體行為進(jìn)行預(yù)測時的有效性例:高考成績預(yù)測大學(xué)學(xué)習(xí)成績能力傾向測驗預(yù)測工作成效分類:同時效度:測驗分?jǐn)?shù)與效標(biāo)資料的取得約在同一時間內(nèi)連續(xù)完成,這兩種資料的相關(guān)系數(shù)即為同時效度目的:診斷現(xiàn)狀預(yù)測效度:測驗分?jǐn)?shù)取得一段時間后才獲得效標(biāo)資料,計算這兩種資料間的相關(guān)系數(shù)目的:預(yù)測某個個體將來的行為效標(biāo)關(guān)聯(lián)效度的估計方法相關(guān)法直接計算測驗分?jǐn)?shù)與效標(biāo)分?jǐn)?shù)的相關(guān)系數(shù)積差相關(guān)、等級相關(guān)、二列相關(guān)等顯著差異法根據(jù)效標(biāo)測量將被試分為兩個極端組,檢驗這兩個組測驗分?jǐn)?shù)是否具有統(tǒng)計學(xué)上的差異顯著性命中率當(dāng)測驗用作取舍決策時,常使用命中率相關(guān)概念:總命中率、正命中率、負(fù)命中率總命中率高,則測試的效度高例:70人參加的考試,通過測驗選取了50人,淘汰了20人;選出的人中有40人合格,淘汰的人中有8人不合格。該測驗的總命中率、正命中率和負(fù)命中率分別是多少?教育測量與評價中題目(項目)的難度一、難度的含義難度是指測驗項目的難易程度刻畫被試作答一個題目所遇到的困難程度的量數(shù),叫做題目的難度系數(shù),用符號P表示在教育測量中,P=正確回答試題的人數(shù)/參加測驗的總?cè)藬?shù)二、難度的計算客觀試題(二分法記分):P=R/NR:答對該題的人數(shù);N:參加測驗的總?cè)藬?shù)對選擇題的解答,因被試可猜測,故需對難度系數(shù)加以校正CP:校正后的難度值;P:實際得到的通過率;K:選項數(shù)目教育測量與評價中題目(項目)的難度難度的計算主觀題的平均數(shù)法主觀題的極端分組法公式:步驟按測驗總分依次排序,確定比例各為25%的高分組和低分組為高分組、低分組分別編制每題得分的分析表(試題分析表)用上述難度公式計算難度值教育測量與評價中題目(項目)的難度公式的含義:XH:高分組所得總分;XL:低分組所得總分;H:該題最高分;L:該題最低分;N:考生總?cè)藬?shù)的25%難度的轉(zhuǎn)換難度指出的僅僅是題目的相對難度,不能客觀地指出題目難度之間差異大小一般情況下,測驗分?jǐn)?shù)呈正態(tài)分布利用正態(tài)分布表,可將P轉(zhuǎn)換成具有相等單位的等距變量P向Z的轉(zhuǎn)換假定每個試題所要測量地潛在特質(zhì)或能力是呈正態(tài)分布的,可將P值作為正態(tài)曲線下的概率面積,以此轉(zhuǎn)換成Z分?jǐn)?shù)。教育測量與評價中題目(項目)的難度難度對測驗的影響難度對測驗分?jǐn)?shù)分布的影響過易、過難會造成測驗分?jǐn)?shù)偏離正態(tài)分布,使測驗分?jǐn)?shù)離散程度變小難度對測驗鑒別力的影響測驗的主要功效是鑒別考生實際水平的高低適宜難度可以加大考生得分的差異,從而提高測驗的鑒別力項目難度的適宜值為0.5左右時,測驗得分的方差才可達(dá)最大值難度與測驗?zāi)康牡年P(guān)系項目難度應(yīng)根據(jù)測驗?zāi)康膩泶_定常模參照評價:區(qū)分學(xué)生能力或成就的高低標(biāo)準(zhǔn)參照評價:了解學(xué)生達(dá)到教學(xué)目標(biāo)規(guī)定的掌握程度教育測量與評價中題目(項目)的區(qū)分度一、區(qū)分度的概念區(qū)分度是測驗對被試實際水平的區(qū)分程度是測驗項目分析的重要內(nèi)容是作為評價項目質(zhì)量、篩選項目的主要指標(biāo)與依據(jù)通常用D表示,取值范圍為+1.00至-1.00D越高時,試題的質(zhì)量越好D為正時,試題積極區(qū)分高分組通過率高,低分組通過率低D為負(fù)時,試題消極區(qū)分高分組通過率低,低分組通過率高教育測量與評價中題目(項目)的區(qū)分度二、區(qū)分度計算方法極端分組法客觀性試題區(qū)分度的計算公式:D=PH-PL按測驗總分從高到低排序確定測驗總分最高的27%的被試作為高分組,最低的27%的被試為低分組分別求出這兩組被試通過試題的百分比將算得的有關(guān)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論