測量信度與隨機(jī)誤差控制心理測量_第1頁
測量信度與隨機(jī)誤差控制心理測量_第2頁
測量信度與隨機(jī)誤差控制心理測量_第3頁
測量信度與隨機(jī)誤差控制心理測量_第4頁
測量信度與隨機(jī)誤差控制心理測量_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

測量信度與隨機(jī)誤差控制心理測量第1頁,課件共61頁,創(chuàng)作于2023年2月學(xué)習(xí)目標(biāo):1.什么是信度?信度與測量隨機(jī)誤差的關(guān)系?2.信度的統(tǒng)計定義?3.描述信度的指標(biāo)有哪些?4.分析測驗(yàn)信度應(yīng)注意哪些問題?5.信度的標(biāo)準(zhǔn)與作用?6.經(jīng)典測量理論信度系數(shù)的估計方法。7.提高測量信度的主要方法有哪些?第2頁,課件共61頁,創(chuàng)作于2023年2月第一節(jié)信度概述解答本章學(xué)習(xí)目標(biāo)中的第1-5個目標(biāo)。第3頁,課件共61頁,創(chuàng)作于2023年2月一、信度與測量誤差1.經(jīng)典測量理論的假設(shè)式中,X為觀察分?jǐn)?shù),T為一般真分?jǐn)?shù),E為隨機(jī)誤差分?jǐn)?shù),V為目標(biāo)真分?jǐn)?shù),I為非目標(biāo)真分?jǐn)?shù)(系統(tǒng)誤差)。

第一節(jié)信度的概述第4頁,課件共61頁,創(chuàng)作于2023年2月一、信度與測量誤差2.信度的定義測量追求的初步目標(biāo):T占X的比例越大越好。測量追求的終極目標(biāo):V占X的比例越大越好。第一節(jié)信度的概述當(dāng)T占X的比例很大時,那么測值就會是穩(wěn)定的。一般來說,穩(wěn)定的測值是可靠的、可信的,因此,信度可被認(rèn)為是測量結(jié)果的穩(wěn)定性程度。第5頁,課件共61頁,創(chuàng)作于2023年2月一、信度與測量誤差2.信度的定義第一節(jié)信度的概述信度(reliability)是指在不同時間,使用同一測驗(yàn),或者使用兩個不同項(xiàng)目的等值測驗(yàn),抑或在其他不同的測試條件下,對同一組被試實(shí)施兩次或多次測試所得分?jǐn)?shù)的一致性。測驗(yàn)信度表示測驗(yàn)分?jǐn)?shù)中個體差異可歸因于所測特質(zhì)中“真實(shí)”差異的程度,以及可歸因于隨機(jī)誤差的程度。第6頁,課件共61頁,創(chuàng)作于2023年2月二、信度的統(tǒng)計定義1.經(jīng)典測量理論假設(shè)的推論第一節(jié)信度的概述第7頁,課件共61頁,創(chuàng)作于2023年2月二、信度的統(tǒng)計定義2.信度的統(tǒng)計定義定義1:信度是被試團(tuán)體真分?jǐn)?shù)方差與實(shí)得分?jǐn)?shù)方差之比定義2:信度是被試團(tuán)體真分?jǐn)?shù)與實(shí)得分?jǐn)?shù)相關(guān)系數(shù)的平方定義3:信度是一個測驗(yàn)X(A卷)與它的任意一個平行測驗(yàn)(B卷)的相關(guān)系數(shù)第一節(jié)信度的概述第8頁,課件共61頁,創(chuàng)作于2023年2月三、描述信度的指標(biāo)1.經(jīng)典測量理論的信度系數(shù)信度系數(shù)是表示測量結(jié)果的穩(wěn)定性程度的指標(biāo)。記為:第一節(jié)信度的概述信度系數(shù)的值域:[0,1]沒有百分之百可靠的測量,因此,rXX=1只是理論上的值,實(shí)際當(dāng)中是不會存在的。?相關(guān)系數(shù)的值域是[-1,+1],信度系數(shù)的值域:[0,1],為什么?第9頁,課件共61頁,創(chuàng)作于2023年2月三、描述信度的指標(biāo)1.經(jīng)典測量理論的信度系數(shù)(1)重測信度(test-retestcoefficients),是指用同一個量表對同一組被試施測兩次所得結(jié)果的一致性程度,其大小等于同一組被試在兩次測驗(yàn)上所得分?jǐn)?shù)的相關(guān)系數(shù)。(2)復(fù)本信度(alternative--formcoefficients),是指兩個平行的測驗(yàn)測量同一批被試所得結(jié)果的一致性程度,其大小等于同一批被試在兩個復(fù)本測驗(yàn)上所得分?jǐn)?shù)的相關(guān)系數(shù)。(3)內(nèi)部一致性系數(shù)(internalconsistencycoefficients)也叫同質(zhì)性信度(homogeneityreliability),是指測驗(yàn)內(nèi)部所有題目間的一致性程度,主要的計算方法有KR20公式、KR21公式、克龍巴赫α系數(shù),以及荷伊特信度等。第一節(jié)信度的概述第10頁,課件共61頁,創(chuàng)作于2023年2月三、描述信度的指標(biāo)

(4)分半信度(split-halfreliability)指的是將一個測驗(yàn)分成對等的兩半后,所有被試在這兩半上所得分?jǐn)?shù)的一致性程。(5)評分者信度(scorerreliability)指的是多個評分者給同一批人的答卷進(jìn)行評分的一致性程度。第11頁,課件共61頁,創(chuàng)作于2023年2月三、描述信度的指標(biāo)2.經(jīng)典測量理論的測量標(biāo)準(zhǔn)誤測量標(biāo)準(zhǔn)誤差(standarderrorofmeasurement)是測量誤差的假設(shè)分布的標(biāo)準(zhǔn)差。用下列公式能夠容易地計算測量標(biāo)準(zhǔn)誤差:第一節(jié)信度的概述式中,SDt表示測驗(yàn)分?jǐn)?shù)的標(biāo)準(zhǔn)差,rXX表示信度系數(shù)。3.概化理論的概化系數(shù)(generaliabilitycoefficients)4.IRT的測驗(yàn)信息函數(shù)(testinformationfunction)第12頁,課件共61頁,創(chuàng)作于2023年2月四、分析測驗(yàn)信度應(yīng)注意的問題1.針對測驗(yàn)類型選用恰當(dāng)指標(biāo)(1)傳統(tǒng)的信度概念適合于常模參照測驗(yàn),這種測驗(yàn)的主要目的是為了區(qū)分個體在特定特征上所表現(xiàn)出的差異性。個體在測驗(yàn)分?jǐn)?shù)中表現(xiàn)出的差異范圍越大,該測驗(yàn)的信度也就越高。第一節(jié)信度的概述第13頁,課件共61頁,創(chuàng)作于2023年2月四、分析測驗(yàn)信度應(yīng)注意的問題1.針對測驗(yàn)類型選用恰當(dāng)指標(biāo)(2)標(biāo)準(zhǔn)參照測驗(yàn)(內(nèi)容參照或領(lǐng)域參照測驗(yàn))的目標(biāo)是要確定被試是否達(dá)到或未達(dá)到某個標(biāo)準(zhǔn),從而將個體分到不同的組別:“達(dá)標(biāo)”和“未達(dá)標(biāo)”。這種情況下,傳統(tǒng)的重測信度、復(fù)本信度以及內(nèi)部一致性系數(shù)就不再適用。標(biāo)準(zhǔn)參照測驗(yàn)可根據(jù)具體情況分別采用如下指標(biāo):適用于簡單的掌握與否的兩分決策,即所有的分類誤差都被認(rèn)為同樣嚴(yán)重而不管它們離開臨界分?jǐn)?shù)的距離。在這種情況下,可以使用平行型式進(jìn)行再測,以便得出在兩次測驗(yàn)上得到相同決策的個體的百分比,進(jìn)一步可算得分類一致性系數(shù)(coefficientofagreement)。

第一節(jié)信度的概述第14頁,課件共61頁,創(chuàng)作于2023年2月四、分析測驗(yàn)信度應(yīng)注意的問題1.針對測驗(yàn)類型選用恰當(dāng)指標(biāo)不僅僅關(guān)心對掌握者和未掌握者的質(zhì)的區(qū)分,同時也在分?jǐn)?shù)連續(xù)體上描述了關(guān)于掌握和未掌握的量的差異。這類信度主要采用K2(X,T)指標(biāo):

第一節(jié)信度的概述式中,、分別為被試總體在測驗(yàn)上的真分?jǐn)?shù)方差和觀測分?jǐn)?shù)方差;、分別為真分?jǐn)?shù)和觀測分?jǐn)?shù)的平均值;ng為測驗(yàn)題目數(shù),c是以做對題目百分比表示的區(qū)分標(biāo)準(zhǔn)。第15頁,課件共61頁,創(chuàng)作于2023年2月四、分析測驗(yàn)信度應(yīng)注意的問題1.針對測驗(yàn)類型選用恰當(dāng)指標(biāo)K2(X,T)值越大,說明觀測分與區(qū)分標(biāo)準(zhǔn)分?jǐn)?shù)(劃界分?jǐn)?shù))之間的差異代表真分?jǐn)?shù)的對應(yīng)差異量的可能性越大,因而觀測分與劃界分?jǐn)?shù)的差異就越能反映真實(shí)能力上的差異。換言之,測驗(yàn)就更可信。就單個測驗(yàn)的結(jié)果而言,K2(X,T)的計算公式如下:第一節(jié)信度的概述式中,是由庫德-理查德KR20公式求出的信度系數(shù),其余符號意義同前。第16頁,課件共61頁,創(chuàng)作于2023年2月四、分析測驗(yàn)信度應(yīng)注意的問題1.針對測驗(yàn)類型選用恰當(dāng)指標(biāo)(3)在純速度測驗(yàn)(speedtest)中,個體差異完全取決于速度,此時,就無法恰當(dāng)?shù)亟忉屖y一次測驗(yàn)的信度系數(shù)。如果條件許可,可采用重測法或是復(fù)本法,這是比較合適的。分半法也可以使用,但是此時的分半是按時間分半,而不是按照項(xiàng)目來分半。也就是,兩半分?jǐn)?shù)必須根據(jù)分別規(guī)定時間的兩個半測驗(yàn)。例如,可以把奇偶項(xiàng)目分別印制在兩張卷上,每組項(xiàng)目的用時為全測驗(yàn)的一半。這種方法等于在同一時間實(shí)施了兩個等值測驗(yàn)。

第一節(jié)信度的概述第17頁,課件共61頁,創(chuàng)作于2023年2月四、分析測驗(yàn)信度應(yīng)注意的問題1.針對測驗(yàn)類型選用恰當(dāng)指標(biāo)還有一種替代實(shí)施兩個半測驗(yàn)的方法,就是把總時間四等分,算出每段時間的分?jǐn)?shù)。這種方法簡便易行,施測時每當(dāng)主試發(fā)出事先安排的信號,就要測驗(yàn)參加者在他們正在做的項(xiàng)目上打個記號。然后,把第一段和第四段時間內(nèi)答對的項(xiàng)目數(shù)相加,得出一個半測驗(yàn)分?jǐn)?shù);把第二段和第三段時間內(nèi)答對的項(xiàng)目數(shù)相加,得出另一個半測驗(yàn)分?jǐn)?shù)。四段時間如此相加,往往可以平衡練習(xí)、疲勞和其他因素的累積效應(yīng)。特別是當(dāng)項(xiàng)目難度水平前后一致,而不是逐漸增加時,這種方法尤其令人滿意。第一節(jié)信度的概述第18頁,課件共61頁,創(chuàng)作于2023年2月四、分析測驗(yàn)信度應(yīng)注意的問題2.信度的報告(1)任何一個信度系數(shù)是針對引起測驗(yàn)誤差的特定因素而言的。有多少種影響測驗(yàn)分?jǐn)?shù)的條件,就有多少種測驗(yàn)信度,因此,報告信度時,應(yīng)該詳細(xì)說明測試樣本的特性和所報告的信度類型。在信度報告時只是報告信度系數(shù),而缺乏說明估算系數(shù)的方法細(xì)節(jié),推導(dǎo)系數(shù)時所用的被試群體的特征,以及獲取數(shù)據(jù)當(dāng)時的施測條件,等等,這種信度報告是不合格的。

第一節(jié)信度的概述第19頁,課件共61頁,創(chuàng)作于2023年2月四、分析測驗(yàn)信度應(yīng)注意的問題2.信度的報告(2)沒有一個單一的、最優(yōu)的方法來量化信度,沒有一個單獨(dú)的指數(shù)能恰當(dāng)?shù)乇磉_(dá)所有的相關(guān)事實(shí),沒有一個單獨(dú)的研究方法在所有的情形下都是最佳選擇,且測驗(yàn)編制者也不應(yīng)局限于將某一種方法運(yùn)用到任何一種測量手段上去。所以,測驗(yàn)編制者在報告測驗(yàn)信度時,可以從多方面予以報告。

第一節(jié)信度的概述第20頁,課件共61頁,創(chuàng)作于2023年2月四、分析測驗(yàn)信度應(yīng)注意的問題2.信度的報告(3)提供詳細(xì)的信度分析報告,讓了解相關(guān)知識的人能夠?qū)Y(jié)果進(jìn)行評定,并能夠重復(fù)信度分析的過程。

例如,簡單說一句“某測驗(yàn)的信度是0.92”是不能接受的。較恰當(dāng)?shù)恼f法是“某測驗(yàn)的信度系數(shù)為0.92,該數(shù)值是通過計算一份能力測驗(yàn)間隔兩周兩次測試成績的相關(guān)系數(shù)得出的。數(shù)據(jù)來源是從某市隨機(jī)抽取的500名小學(xué)5年級的學(xué)生施測……”。第一節(jié)信度的概述第21頁,課件共61頁,創(chuàng)作于2023年2月五、信度的標(biāo)準(zhǔn)與作用1.信度是評價測驗(yàn)質(zhì)量的重要指標(biāo)之一。測驗(yàn)類型

信度系數(shù)

低中高學(xué)業(yè)成就測驗(yàn)0.660.920.98學(xué)術(shù)能力測驗(yàn)0.560.900.97特殊能力傾向測驗(yàn)0.260.880.96人格測驗(yàn)0.460.850.97興趣測驗(yàn)0.420.840.93態(tài)度測驗(yàn)0.470.790.98注:表中數(shù)據(jù)來源,LewisR.Aiken:Psychologicaltestingandassessment(eighthedition),AllynandBacon,Inc,1994.第一節(jié)信度的概述第22頁,課件共61頁,創(chuàng)作于2023年2月五、信度的標(biāo)準(zhǔn)與作用2.信度是測量過程中所存在的隨機(jī)誤差大小的反映。第一節(jié)信度的概述例如,我們已知高考文科試卷的總信度rXX

=0.965,文科考生總分的標(biāo)準(zhǔn)差為53.42,那么,文科考試成績的標(biāo)準(zhǔn)誤為:3.信度可以用來解釋個人測驗(yàn)分?jǐn)?shù)的意義——測量標(biāo)準(zhǔn)誤。如果某生的考試成績?yōu)?95分,在置信度為0.95時,其真分?jǐn)?shù)的置信區(qū)間為:第23頁,課件共61頁,創(chuàng)作于2023年2月五、信度的標(biāo)準(zhǔn)與作用4.信度可以幫助進(jìn)行不同測驗(yàn)分?jǐn)?shù)的比較。第一節(jié)信度的概述考察兩個分?jǐn)?shù)的差異是否可靠,是否真有差異的問題。比如,某人的物理成績是否真的優(yōu)于化學(xué)?某人的數(shù)學(xué)技能本學(xué)期是否真有進(jìn)步?某人在韋氏智力量表上操作智商與言語智商的差異是否真有顯著意義等。

當(dāng)兩測驗(yàn)的方差相等時,差異分?jǐn)?shù)的信度系數(shù)可用如下公式求出:式中,rXXdiff是差異分?jǐn)?shù)的信度系數(shù);rXX和rYY是兩個測驗(yàn)各自的信度系數(shù);rXY是兩測驗(yàn)間的相關(guān)系數(shù)。第24頁,課件共61頁,創(chuàng)作于2023年2月五、信度的標(biāo)準(zhǔn)與作用4.信度可以幫助進(jìn)行不同測驗(yàn)分?jǐn)?shù)的比較。第一節(jié)信度的概述差異分?jǐn)?shù)的測量標(biāo)準(zhǔn)誤可用如下公式求出:式中,SEdiff是差異分?jǐn)?shù)的測量標(biāo)準(zhǔn)誤;rXX和rYY是兩個測驗(yàn)各自的信度系數(shù);SD是兩測驗(yàn)間使用的相同的標(biāo)準(zhǔn)差。在比較分?jǐn)?shù)之前,必須將兩個測驗(yàn)分?jǐn)?shù)轉(zhuǎn)為具有相同量表的標(biāo)準(zhǔn)分?jǐn)?shù)。第25頁,課件共61頁,創(chuàng)作于2023年2月五、信度的標(biāo)準(zhǔn)與作用4.信度可以幫助進(jìn)行不同測驗(yàn)分?jǐn)?shù)的比較。第一節(jié)信度的概述例如,在韋氏成人智力量表中,言語和操作分測驗(yàn)的信度為0.97和0.93,而它們的智商的平均數(shù)為100,標(biāo)準(zhǔn)差為15,故言語和操作智商差數(shù)的標(biāo)準(zhǔn)誤為:因?yàn)?.74×1.96=9.29,因此,言語和操作智商相差10分時,在0.05水平上,我們說存在顯著差異。若要在0.01水平上作出差異顯著的結(jié)論,就要相差13分。第26頁,課件共61頁,創(chuàng)作于2023年2月第二節(jié)信度的種類

與評估方法詳細(xì)介紹第一節(jié)中提出的各種信度估計方法的計算。第27頁,課件共61頁,創(chuàng)作于2023年2月一、重測信度1.含義同一個測量工具在兩個不同時間對同一組被試施測所得結(jié)果的一致性程度。重測信度主要考察了一個測量工具是否能夠保證在不同時間測量結(jié)果的一致性,他反映了測量工具的結(jié)果受到時間間隔因素影響的大小。一般來說,重測的時間間隔越短,那么各種施測情境的變化就越小,重測信度系數(shù)就會越大。重測信度系數(shù)較大時,說明該測量工具前、后兩次的測量結(jié)果比較一致。結(jié)果具有較好的跨時間上的穩(wěn)定性。第二節(jié)測驗(yàn)信度的種類與評估方法第28頁,課件共61頁,創(chuàng)作于2023年2月一、重測信度2.評估方法重測信度的大小可以通過計算測量工具的重測系數(shù)(test-retestcoefficient)或叫穩(wěn)定性系數(shù)(coefficientofstability)來標(biāo)志。具體來說,就是求取同一組被試在兩個不同時間施測同一個測量工具所得結(jié)果分?jǐn)?shù)的相關(guān)系數(shù)。第二節(jié)測驗(yàn)信度的種類與評估方法第29頁,課件共61頁,創(chuàng)作于2023年2月一、重測信度3.應(yīng)用條件測量工具所測量的個體心理特質(zhì)在時間上應(yīng)該是相對穩(wěn)定的。測量工具所測量的個體心理特質(zhì)應(yīng)該不存在明顯的練習(xí)效應(yīng)和遺忘效應(yīng)。在兩次施測間隔期間不應(yīng)該進(jìn)行專門的訓(xùn)練和培訓(xùn),以保證重測信度反映的是隨機(jī)因素的影響效應(yīng)。第二節(jié)測驗(yàn)信度的種類與評估方法第30頁,課件共61頁,創(chuàng)作于2023年2月一、重測信度4.使用重測信度時需要注意的問題兩次施測時間間隔的長短會影響重測信度系數(shù)估計值的大小,因此,在報告重測信度系數(shù)時應(yīng)該報告間隔的時間長度。應(yīng)該根據(jù)已有的相關(guān)研究結(jié)論考慮所測心理特質(zhì)本身的穩(wěn)定性程度,以確定前后兩次施測時間的間隔究竟應(yīng)該多長比較合適時,不應(yīng)該隨便選擇間隔時間的長短。第二節(jié)測驗(yàn)信度的種類與評估方法第31頁,課件共61頁,創(chuàng)作于2023年2月二、復(fù)本信度1.含義兩個平行的測驗(yàn)(復(fù)本測驗(yàn))測量同一批被試所得結(jié)果的一致性程度。復(fù)本信度反映了由于題目的不同以及時間間隔所導(dǎo)致的測量誤差。平行測驗(yàn)或復(fù)本測驗(yàn)指的是兩個在題目內(nèi)容、數(shù)量、形式、難度、區(qū)分度、指導(dǎo)語、時限以及所用的例題、公式和測驗(yàn)等其他方面都相同或相似的測驗(yàn)。也就是用不同的題目測量同樣的內(nèi)容而且其測驗(yàn)結(jié)果的平均值和標(biāo)準(zhǔn)差都相同的兩個測驗(yàn)。第二節(jié)測驗(yàn)信度的種類與評估方法第32頁,課件共61頁,創(chuàng)作于2023年2月二、復(fù)本信度2.評估方法復(fù)本信度的估計過程就是計算同一批被試在兩個平行的復(fù)本測驗(yàn)上所得分?jǐn)?shù)的相關(guān)系數(shù),也叫作等價系數(shù)(coefficientofequivalence)。測試設(shè)計:同時測試和延時測試。同時測試是在同一個時間段內(nèi)進(jìn)行測試,而延時測試則是在兩個時間段進(jìn)行測試,同時測試可能會存在作答疲勞的效應(yīng),而延時測試則可能會存在學(xué)習(xí)或培訓(xùn)效應(yīng)。第二節(jié)測驗(yàn)信度的種類與評估方法第33頁,課件共61頁,創(chuàng)作于2023年2月二、復(fù)本信度3.應(yīng)用條件要構(gòu)造出兩份或兩份以上真正平行的測驗(yàn);計算復(fù)本信度需要對同一批被試測試兩份平行測驗(yàn),這就需要掌握一個合理的時間安排。應(yīng)該盡量在測試結(jié)果報告中,詳盡地說明兩次測試的時間間隔、測試順序安排、測試過程中被試的有關(guān)測驗(yàn)經(jīng)歷等。第二節(jié)測驗(yàn)信度的種類與評估方法第34頁,課件共61頁,創(chuàng)作于2023年2月三、內(nèi)部一致性信度1.含義內(nèi)部一致性信度主要評價了測驗(yàn)各隨機(jī)組成部分之間是否測量了相同的心理特質(zhì),因此,它反映的是題目內(nèi)容的抽樣一致性程度。具體估計方法主要包括分半信度評估法、庫德-理查森信度評估法、克龍巴赫Alpha系數(shù)評估法。與重測信度和復(fù)本信度不同,在估計測驗(yàn)的內(nèi)部一致性信度時,只要用同一個測驗(yàn)對一批被試測試一次。第二節(jié)測驗(yàn)信度的種類與評估方法第35頁,課件共61頁,創(chuàng)作于2023年2月三、內(nèi)部一致性信度2.分半信度含義我們總是可以把一個測驗(yàn)的所有題目隨機(jī)地劃分成對半的兩個部分,然后估計所有被試在這兩個部分題目上得分的一致性程度,這樣得到的測驗(yàn)一致性估計稱為分半信度。分半信度評價了測驗(yàn)兩個隨機(jī)組成部分的題目是否測量了相同的心理特質(zhì)。第二節(jié)測驗(yàn)信度的種類與評估方法第36頁,課件共61頁,創(chuàng)作于2023年2月三、內(nèi)部一致性信度2.分半信度評估方法計算出被試在測驗(yàn)兩個隨機(jī)組成部分的題目上得分之間的相關(guān)系數(shù)。由于在用分半測驗(yàn)得分計算相關(guān)系數(shù)時,測驗(yàn)題量被縮短,信度系數(shù)需要通過以下這個公式對分半相關(guān)系數(shù)進(jìn)行矯正而得到。為兩個分半測驗(yàn)之間的相關(guān)系數(shù),為完整長度測驗(yàn)的信度系數(shù)估計值。第二節(jié)測驗(yàn)信度的種類與評估方法第37頁,課件共61頁,創(chuàng)作于2023年2月三、內(nèi)部一致性信度2.分半信度評估方法另外一個估計分半信度系數(shù)的方法是Rulon公式,他只需要計算所有被試在兩部分測驗(yàn)上得分之差的方差以及總分方差:式中,為完整測驗(yàn)的信度估計值,為被試在兩部分測驗(yàn)上得分之差的方差,為完整測驗(yàn)總分方差。

Rulon公式中分子方差反映了由于題目不同等條件帶來的誤差方差,他與總方差之比反映了誤差方差在總方差中所占的比例。第二節(jié)測驗(yàn)信度的種類與評估方法第38頁,課件共61頁,創(chuàng)作于2023年2月三、內(nèi)部一致性信度2.分半信度使用時需注意的問題在估計測驗(yàn)的分半信度時,雖然要求把一個測驗(yàn)的所有題目隨機(jī)地劃分成對半的兩個部分,但是在實(shí)踐中對測驗(yàn)分半時,為了盡量減少無關(guān)因素的影響,通常需要考慮題型、題分、題目測試先后順序等因素的平衡問題,比如按照題目順序奇偶分半就是一個經(jīng)常選擇的方法第二節(jié)測驗(yàn)信度的種類與評估方法第39頁,課件共61頁,創(chuàng)作于2023年2月三、內(nèi)部一致性信度3.庫德-理查森信度含義在估計分半信度時,把一個測驗(yàn)的題目分成兩半的方式是非常多的。而每種分半方式得到的信度估計值總會存在一些差異,但我們無法知道究竟哪種分半結(jié)果所得到的信度估計值是最合適的。估計所有可能的分半信度系數(shù)的平均數(shù),作為完整測驗(yàn)的內(nèi)部一致性最佳估計值。第二節(jié)測驗(yàn)信度的種類與評估方法第40頁,課件共61頁,創(chuàng)作于2023年2月三、內(nèi)部一致性信度3.庫德-理查森信度評估方法:所有分半信度系數(shù)的平均數(shù)的估計方法。第二節(jié)測驗(yàn)信度的種類與評估方法第41頁,課件共61頁,創(chuàng)作于2023年2月三、內(nèi)部一致性信度3.庫德-理查森信度使用條件Kuder-Richardson信度系數(shù)的估計只能針對1、0記分題型,對于其他題型需要使用更加一般化的估計方法。K-R21公式假設(shè)測驗(yàn)中所有項(xiàng)目的難度是相同的。Kuder-Richardson信度反映的是項(xiàng)目間一致性程度,他會嚴(yán)重地受到測驗(yàn)所測行為特質(zhì)的同質(zhì)性程度的影響。第二節(jié)測驗(yàn)信度的種類與評估方法第42頁,課件共61頁,創(chuàng)作于2023年2月三、內(nèi)部一致性信度4.Cronbach’sAlpha系數(shù)含義是一種比Kuder-Richardson方法更加一般化的信度估計方法,它可以針對各種記分方式的題型進(jìn)行估計。第二節(jié)測驗(yàn)信度的種類與評估方法第43頁,課件共61頁,創(chuàng)作于2023年2月三、內(nèi)部一致性信度4.Cronbach’sAlpha系數(shù)評估方法第二節(jié)測驗(yàn)信度的種類與評估方法公式中,k是測驗(yàn)題目個數(shù),是被試在題目i上得分的方差,是被試測驗(yàn)總分方差。第44頁,課件共61頁,創(chuàng)作于2023年2月三、內(nèi)部一致性信度4.Cronbach’sAlpha系數(shù)使用條件可以估計各種記分方式的測驗(yàn)內(nèi)部一致性信度系數(shù),是更一般化的測驗(yàn)內(nèi)部一致性信度系數(shù)估計方法。第二節(jié)測驗(yàn)信度的種類與評估方法第45頁,課件共61頁,創(chuàng)作于2023年2月四、評分者信度1.含義在評價通過主觀評分方式得到的分?jǐn)?shù)時,我們必須了解不同的評分者在評價被試作答反應(yīng)時給的分?jǐn)?shù)值的一致性程度(信度)。一般的客觀型題目在評分時很少出現(xiàn)誤差,然而,對于諸如作文測驗(yàn)、語言類測驗(yàn)、以及其他的評價性測驗(yàn)(如人格特質(zhì)評級、投射測驗(yàn)評分等),這些測驗(yàn)類型的評分過程就顯得非常主觀。第二節(jié)測驗(yàn)信度的種類與評估方法第46頁,課件共61頁,創(chuàng)作于2023年2月四、評分者信度2.評估方法兩個評分者時:計算這兩個評分者評定分?jǐn)?shù)之間的相關(guān)系數(shù)。多個評價者評價同一批被試:計算和諧系數(shù)。第二節(jié)測驗(yàn)信度的種類與評估方法第47頁,課件共61頁,創(chuàng)作于2023年2月五、信度系數(shù)及其估計方法小結(jié)1.測試次數(shù)和測試卷份數(shù)與信度系數(shù)估計方法第二節(jié)測驗(yàn)信度的種類與評估方法測試次數(shù)測試卷份數(shù)1份2份1次分半信度Kuder-Richardson信度Alpha系數(shù)復(fù)本信度(同時測試)2次重測信度復(fù)本信度(延時測試)第48頁,課件共61頁,創(chuàng)作于2023年2月五、信度系數(shù)及其估計方法小結(jié)2.各種信度估計方法的誤差方差來源第二節(jié)測驗(yàn)信度的種類與評估方法復(fù)本信度(延時測試)復(fù)本信度(延時測試)重測信度復(fù)本信度(同時測試)復(fù)本信度(延時測試)分半信度Kuder-Richardson

和Alpha系數(shù)評分者信度時間間隔題目內(nèi)容時間間隔與題目內(nèi)容題目內(nèi)容題目內(nèi)容與心理行為特質(zhì)的同質(zhì)性評分者間差異第49頁,課件共61頁,創(chuàng)作于2023年2月第三節(jié)測量的隨機(jī)誤差控制第50頁,課件共61頁,創(chuàng)作于2023年2月一、影響測量信度的因素影響測量信度的因素施測間隔的時間被試主試施測情境測量工具第三節(jié)測量的隨機(jī)誤差控制第51頁,課件共61頁,創(chuàng)作于2023年2月二、提高測驗(yàn)信度的常用方法提高測驗(yàn)信度的常用方法規(guī)范施測程度、統(tǒng)一施測環(huán)境適當(dāng)增加測驗(yàn)的長度控制試題的難度分布努力提高每道題的區(qū)分度維持測驗(yàn)的同質(zhì)性努力提高測驗(yàn)在被試中各個同質(zhì)亞團(tuán)體上的信度保證被試有充裕的作答時間嚴(yán)格控制評分誤差第三節(jié)測量的隨機(jī)誤差控制第52頁,課件共61頁,創(chuàng)作于2023年2月第四節(jié)評分者信度及

評分誤差的控制第53頁,課件共61頁,創(chuàng)作于2023年2月一、評分誤差存在的嚴(yán)重性嚴(yán)重到什么程度?歷史教授的答案被評閱為“不及格”高考作文《一幅漫畫的啟示》,67位評閱者,6至25分都有,最高分與最低分相差19分1984年,高考作文評分調(diào)查,438位老師,4篇作文,。最高得分為41.25,最低分為20.75,標(biāo)準(zhǔn)差為2.98。1985年,對1984年的四篇作文再研究,347位老師(有部分年參加研究的老師),最高得分為42.5,最低分為24.75,標(biāo)準(zhǔn)差為3.3。第四節(jié)評分者信度及評分誤差控制第54頁,課件共61頁,創(chuàng)作于2023年2月二、評分者信度定義:多個評分者對同一批答卷評分結(jié)果的一致性程度。估計方法:①兩位評分者評同一批試卷;②三位或三位以上評分者評

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論