教育測量學02段-PPT幻燈片_第1頁
教育測量學02段-PPT幻燈片_第2頁
教育測量學02段-PPT幻燈片_第3頁
教育測量學02段-PPT幻燈片_第4頁
教育測量學02段-PPT幻燈片_第5頁
已閱讀5頁,還剩99頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

內容提要第一節(jié)、信度的意義一、信度及其統(tǒng)計學原理二、信度對于教育測量的意義第二節(jié)、信度系數的計算一、穩(wěn)定性系數二、等值(穩(wěn)定性)性系數三、內部一致性系數四、論文測驗的信度系數五、閱卷者評分的信度系數六、目標參照測驗的信度系數七、速度測驗的信度系數第三節(jié)、提高測驗信度的方法一、影響測驗信度的因素二、提高測驗信度的方法第一節(jié)信度的意義

一、信度及其統(tǒng)計學原理

(一)信度:指測驗的一致性(可靠性)或可靠的程度;

信度是一被試團體的真分數方差與實得分數方差之比(操作定義)

()也即()(三)實得分數、真分數和測量誤差的關系

1、測量分數=真分數+誤差分數2、測量分數的方差等于真分數的方差與誤差方差之和(四)測量誤差的含義及種類

測量誤差:

與測量目的無關的因素造成的測驗結果的不一致或不準確

絕對誤差:

相對誤差:

最大相對誤差:SE=Sx√1-rxx(五)測量的標準誤

測量標準誤可以通過一次測驗結果及信度估計得到,公式如下:

SE=Sx√1-rxx

式中,SE為測量標準誤,Sx為所得分數的標準差,rxx

為測驗的信度。第二節(jié)、信度系數的計算一、穩(wěn)定性系數(重測信度)跨時間的一致性)

用同一種測驗在不同時間對同一組受測者前后施測兩次,再計算兩次測驗分數之間的相關系數,即得到重測信度。所得信度系數稱為穩(wěn)定性系數。

測驗A1適當時距測驗A2

公式:測驗被試123456789101112131415x1161513131311101010998876x2161516141211131210111191087測驗∑x

∑x

2S∑x1x2x1158178410.532.831946x2199214711.672.65統(tǒng)計值采用重測信度需注意之處兩次測驗的時間應該是合理的,即既不能太長又不能太短。相隔太長的時間被試在所測量的特征上可能會發(fā)生變化,相隔太短有記憶的效應。重測信度的使用局限性1.被試在這期間自身發(fā)生了變化2.第一次測驗的經驗對第二次測驗產生影響(如第一次測驗產生了焦慮就會影響第二次測驗)3.記憶的作用4.耗時耗精力,被試不好找5.適用于人格測驗、社會態(tài)度調查等,不適合學績測驗二、等值性系數(復本信度)

用一種測驗有A、B兩個等值版本施測于同一組受測者,再計算兩個復本得分之間的相關系數

兩個版本連續(xù)施測稱為等值性系數

測驗A1

最短時距

測驗B1如果兩個版本間隔一段時間施測稱為穩(wěn)定性等值系數.測驗A2

適當時距

測驗B1

適合于學績測驗,人格測驗(沒有平行測驗)的復本難以編制。三、內部一致性信度

內部一致性信度是指測驗內部的同質性程度。

1、分半信度2、同質性信度

適合于既無復本可用,又不能重測,只測了一次的情況。1、分半信度(1)斯皮爾曼—布朗公式

rxx=2rhh/(1+rhh)

其中,rhh為兩半分數的相關系數,rxx為測驗在原長度時的信度估計。

此法假設:兩半測驗分數的變異性相等,但實際資料未必符合此假設。當兩半不等值時,即上述假設不滿足時,可采用下面兩公式之一:2、同質性信度

所謂同質性指的是測驗內部題目的一致性。即測驗里各題得分為正相關(測驗里各題得分相關為零叫異質)。題目內部的一致性主要受兩方面變異的影響:

1.內容的一致性;2.所研究的行為的同質性。同質性信度的計算

1.庫德—理查遜公式:

(1)K-R20公式:

rkk=[K/(K-1)][(Sx2-∑piqi)/Sx2)]

式中K表示整個測驗的題數,pi為項目通過率,qi為項目未通過率,Sx2表示測驗總分的變異數(方差)。(2)K-R21公式,適用于各題難度相近的情況:

rkk=[K/(K-1)][(Sx2-Kpiqi)/Sx2]

pi為題目的平均通過率,qi為1-pi。

K-R21公式計算較為簡單,但求得的信度系數有低估的傾向,當題目難度相差大時偏差更大。公式K-R20和K-R21只適用于0,1記分的測驗。四、論文式測驗的信度系數(克倫巴赫α系數)

適用于非0,1記分的一種內在一致性系數。其公式如下:

α=[K/(K-1)][1-(∑Si2/Sx2)]

其中Si2為每一項目分數的變異數,其他字母意義與K-R20相同。上面這些公式均不適用于速度測驗,因為只有每個人都做完全部題目時,題目的變異數才是準確的。五、評分者信度

考察評分者信度的方法是:隨機抽取相當份數的試卷,由兩位或多位評分者按記分規(guī)則分別給分,然后根據每份試卷的分數計算其相關系數,即得評分者信度。一般要求在成對的受過訓練的評分者之間平均一致性達到0.90以上,才認為評分是客觀的。1.評分者為兩個人時若是連續(xù)變量的評分,且分布是正態(tài)則計算皮爾遜積差相關系數(可用計算機直接計算),若是等級評定或雖是等距或等比的數據但分布非正態(tài),則計算斯皮爾曼等級相關。斯皮爾曼等級相關公式:

2、當多個評分者評多個對象,并以等級法記分時,可用肯德爾和諧系數作為評分者信度的估計:

W=[∑Ri2-(∑Ri)2/N]/[(1/12)K2(N3-N)]

其中,K是評分者人數,N是被評的對象數,Ri是每一個對象被評等級的總和。假設有三位專家給六篇論文評等級,結果如表所示,試計算此次評分的評分者信度。三位專家給6篇論文的評定專家123456

124156223415523341462六、目標參照測驗的信度系數p0=(a+d)/N,式中,N=a+b+c+d大到一個民族(日本、德國、我國)小到個人,都可以歸為這幾種人?,F在社會是崇尚年輕人張揚個性,因為只有張揚個性才能被劃分為前者,才有50%的概率成為英雄。。。。。。關鍵是看如何引導人的教育七、速度測驗的信度系數速度測驗:指測量應試者反應速度和測量速度的測驗。速度變異量比率:第三節(jié)、信度系數的應用一、信度系數以多大為宜當rxx﹤0.70時,測驗不能用于對個人作出評價或預測,而且不能做團體比較;當0.70≤rxx<0.85時,可用于團體比較;當rxx≥0.85時,才能用來鑒別或預測個人成就或作為。系統(tǒng)誤差隨機誤差BC二、影響信度的因素

誤差種類三、提高信度的方法(一)樣本特征

1、樣本團體異質性的影響(增加樣本之間的差異)2、樣本團體平均能力水平的影響圖中大方框顯示的是一個較大的異質團體在兩次施測中的分數分布,顯然有很高的正相關.在小方框中顯示的是一個高度同質的亞團體,兩次分數幾乎呈隨機變化,相關接近于零.(二)測驗長度

1、測驗越長測題取樣或內容取樣越有代表性2、測驗越長被試的猜測因素影響就越小。(三)測驗難度

洛德(Lord)提出在學績測驗中,為了保證其可靠性,各類選擇題的理想平均難度為:五擇一測題,0.70;四擇一測題,0.74;三擇一測題,0.77;是非題,0.85。

(四)時間間隔兩次測驗相隔時間越短,其信度系數越大(五)測驗程序要統(tǒng)一(六)評分要客觀何為信度?考察一個測驗信度的意義。何為信度系數?試比較信度估計的不同方法。指出各種信度系數的誤差來源。影響信度的因素包括哪些方面。為什么使用同一測驗先后向同一被試施測,所得分數會不完全一致。思考題第三節(jié)測驗的效度

一、效度的意義

:指所測量的與所要測量的心理特點之間符合的程度

測驗達到測量的目的,即測到了要想測量的對象。效度反應了測驗的準確性。效度與目的有關的真分數在實測分數中所占的比例(在實測分數中有效真分數所占的比率)

實測分數=真分數+誤差(隨機誤差)

與目的與目的有關無關(系統(tǒng)誤差)理解一個穩(wěn)定但無效的智力測驗1.你出生在幾月份?2.你母親姓什么?3.1+1=?4.一個星期有幾天?5.下面哪個是三角形?A.□B.○C.▲

信度與效度的關系1、信度高是效度高的必要條件,但不是充分條件;2、要想一個測驗的效度高,其信度必須得高;3、但信度高,效度未必高。二、效標效度(效標關聯(lián)效度)

效標效度又稱實證效度(統(tǒng)計效度),反映的是測驗預測個體在某種情境下行為表現的有效性程度。

定義:理想效標的四大條件1.有效性2.可靠性3.可操作性4.實用性根據效標資料是否與測驗分數同時獲得,又可分為同時效度和預測效度兩類。

預測性效度:測驗分數和以后的某個效標之間的相關同時性效度:同時獲得測驗分數和某個效標之間的相關效標效度的計算方法1.相關法

求取測驗分數與效標變量之間的相關程度,即效度系數。

1)積差相關在兩組數據都是連續(xù)變量,且兩者存在線性關系時使用公式:被試12345678910測驗(x)20343247202427252216銷售額(y)2.53.8340.712.23.52.81.22)二列相關

在測驗分數和效標這兩個變量中一個是連續(xù)變量,另一個是二分變量時使用.公式:例:智商與性別的關系p男生被試百分比66/352=0.1875q女生被試百分比286/352=0.8125男生被試智商均數114女生被試智商均數96St總體標準差14.53y常態(tài)曲線下,p所對應的縱軸高度0.2685

3)等級相關(spearman`srho)在兩組變量都是等級時使用

用斯皮爾曼等級相關系數.

4)四格相關在兩組變量都是二分變量且都是人為的時使用。

用皮爾遜余弦法.

如兩組變量都是二分變量,但至少其中的一組是真實的二分法時用phi相關

二.區(qū)分法

以被試在效標上的表現分組,然后再對兩組被試在測驗中的成績用t值進行顯著性差異的檢驗。公式:1.以稱職組的平均數為指標,看兩組中超過這一平均數的人次百分比.比例越低說明差異越大,如稱職組的平均數為6.05,不稱職組超過此分數的有7人,稱職組超過這一分數的有38人,人次比為7/38,重疊的部分為18%,差異很大。2.統(tǒng)計稱職組中分數低于不稱職組平均數的人數,和不稱職組中分數高于稱職組平均數的人數.然后兩數相加,再除以總人數.如:稱職組20人,不稱職組20人,不稱職組中分數超過稱職組平均數的有7人,稱職組中分數低于不稱職組平均數的有3人,那么

有25%的重疊部分。3.算出兩組人分數分布共同區(qū)域的百分率,即重疊的區(qū)域,如重疊區(qū)域越大,說明差異越小,而重疊小說明測驗有效。3.命中率測驗有效性的指標之一就是作出正確決定的比率,即決策的命中率.效標成績測驗預測失敗成功成功(A)失誤(B)命中失敗(C)命中(D)失誤三、內容效度

:指的是測驗題目對有關內容或行為取樣的適用性,測驗題目對所要測量的內容范圍的代表性程度??简烆}目樣本是否代表了內容總體。定義:內容效度與表面效度的區(qū)別表面效度是由外行對測驗作表面上的檢查確定的,它不反映測驗實際測量的東西,只是指測驗表面上看來好像是測量所要測的東西;內容效度是由夠資格的判斷者(專家)詳盡地、系統(tǒng)地對測驗作評價而建立的。表面效度能間接影響測驗的效度,所以測驗編制時也要適當關注表面效度.表面效度與內容效度并不總是一致的.內容效度的兩個要點測題對測量對象的有效性全部測題對測量對象的涵蓋程度例子

對一個優(yōu)秀籃球運動員技能的測量測量目的:一個優(yōu)秀籃球運動員需要具備的技能對內容領域的描述:投藍,運球,搶籃板。測驗A:在各個位置上投藍40次;測驗B:各種情景下的運球30次.確定內容效度的方法專家判斷

請某領域里的專家來評判測驗的內容是否編排的合理.缺點:1)沒有量化指標;2)對內容效度的判斷不一致;3)教育思想或心理學觀點不同,所以對內容范圍的理解也不同.內容效度比(CVR)=

CVR表示內容效度比

ni表示專家中認為某項目具有代表性的程度

N表示參加評定的專家的總人數

內容效度比低的題目就應該被淘汰.然后計算全部測題的內容效度比的平均數,作為內容效度的指標.其他輔助的方法2.統(tǒng)計分析法3.再測法4.經驗法5.內在一致性提高內容效度的有效方法:

編制命題的雙向細目表記憶了解應用分析綜合評價合計第一章8210第二章12621030第三章4422618第四章2101284642合計6262814206100四、結構效度測驗能夠測量到理論上的結構或特質的程度.定義:某一智力理論的四項假設:1.智力隨年齡而增長;2.智商是穩(wěn)定的;3.智力與學業(yè)成績有密切關系;4.智力受遺傳的影響.某注意力的理論,注意有如下特征:1.穩(wěn)定性2.集中性3.轉移性4.分配5.范圍收集結構效度資料的方法1.測驗內方法

研究測驗的內部構造來界定所測量的結構范圍.1)內容效度2)內在一致性3)因素分析2.測驗間方法研究幾個同類測驗間的相互關系來考察它們是否測量相同的心理結構.

1)相容效度2)會聚效度和區(qū)分效度3.發(fā)展變化4.實驗操作5.結構方程建模五、影響效度的因素一、測驗本身的因素測驗取材的代表性、測驗長度、試題類型、難度、區(qū)分度以及編排方式等都會影響效度。二、測驗實施中的干擾因素㈠主試的影響因素㈡被試的影響因素三、樣本團體的性質㈠樣本團體的異質性㈡干涉變量四、效標的性質第四節(jié)測驗的項目分析表2-1測題的鑒別指數與優(yōu)劣評鑒鑒別力D測題評鑒0.40以上優(yōu)良0.30-0.39良好,如能修改則更好0.20-0.29尚可,仍需修改0.19以下劣,必須淘汰一、項目的難度定義:測題的難易程度(能力測驗)測題的“通俗性”或“流行性”的程度(人格測驗)難度估計的方法1.通過率

A.用于二值記分的測題

B.用于非二值記分的測題C.用于多重選擇題時還要作校正校正難度的作用檢驗實際難度

例:某題通過率為75%,是一個五選一的題目.比較兩個不同選項數題目的難度例:有二道題,一題的難度為0.50,有五個選項,另一題的難度為0.53,有四個選項.D.分組法用于樣本很大的測題

測題難度的確定

一個測題難度的確定要取決于測驗的目的,如果測驗是為了篩選少數人,那難度要比較高或比較低,如要篩選出天才兒童,那難度就要高,如要篩選出學習困難的兒童,那難度就要低.如果測驗用于選拔和錄用人員,那難度最好與錄取率比較接近.如果要想通過測驗對被試作最大程度的區(qū)分,題目的難度以中等程度為最佳.這也是大多數標準化心理測驗的目的.

選擇題的難度確定還與其選項數有關.選擇題有猜測答對的可能性,選項數多則猜對的可能性就小,而選項數少則猜對的可能性就大,所以選擇題的難度確定也要根據選項數來確定.選項數與最佳難度值_____________________________

選項數(K)最佳難度值(P)20.8530.7740.7450.69--------------------------------------------測驗難度的計算1.計算所有題目難度的平均值2.計算測驗總分平均分與滿分的比值第二節(jié)項目的區(qū)分度(鑒別力)定義:測題對不同水平被試反應的區(qū)分程度和鑒別能力.例:鑒別指數與測題的評價_____________________________

D測題評價--------------------------------------------0.40以上非常優(yōu)良0.30-0.39良好,如能修改更好0.20-0.29尚可,但必須修改0.20以下劣,淘汰----------------------------------------------2.測題和總分的相關1)點二列相關公式:=答對該題的被試在總分上的平均分=答錯該題的被試在總分上的平均分p=該題的難度q=1-pSt=全體被試的總分標準差15個學生某測題的得分與總分情況學生123456789101112131415總分908180787770696555504942353110某題101111100010100對所得到的相關系數再作顯著性檢驗.常用的是t檢驗,即檢驗通過該項目與未通過該項目的兩組被試在測驗總分平均分上是否存在顯著差異.

2)因素分析

分析測題在一個因素上的負荷,負荷越大說明越有區(qū)分度,一般在0.30以上才是可以接受的。3.方差法

方差大說明離散程度越高,那就具有鑒別力.公式:難度與鑒別力的關系

---------------------------------------

PD------------------------------------------1.000.000.900.200.700.600.600.800.50

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論