戴海崎舊版-心理與教育測(cè)量1-3課件

上傳人：m*** IP屬地：貴州上傳時(shí)間：2020-06-25 格式：PPT 頁(yè)數(shù)：94 大?。?.26MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩89頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1,第三章,經(jīng)典測(cè)驗(yàn)理論的基本假設(shè),2,第一節(jié) 心理特質(zhì)及其可測(cè)性假設(shè),心理特質(zhì) 表現(xiàn)在一個(gè)人身上所特有的相對(duì)穩(wěn)定的行為方式一組內(nèi)部相關(guān)的行為的概括，如善良、聰明；比較穩(wěn)定，對(duì)不同的刺激做相同的反應(yīng)；特質(zhì)可以分為多個(gè)層次，智力可以分語(yǔ)言和操作，語(yǔ)言可以分為詞匯和文法。通過特質(zhì)可以對(duì)人的行為作出預(yù)測(cè)；心理特質(zhì)的可測(cè)性 Thorndike“凡客觀存在的事物都有其數(shù)量。” McCall“凡有數(shù)量的東西都可以測(cè)量。”,3,第二節(jié) 測(cè)量誤差及其來源,測(cè)量誤差在測(cè)量過程中由那些與測(cè)量目的無關(guān)的變化因素所產(chǎn)生的一種不準(zhǔn)確或不一致的測(cè)量效應(yīng) 種類系統(tǒng)誤差：由與測(cè)量目的無關(guān)的變因引起的一種恒定而有

2、規(guī)律的效應(yīng) 隨機(jī)誤差：由與測(cè)量目的無關(guān)的、偶然因素引起而又不易控制的誤差,4,測(cè)量誤差的來源測(cè)量工具題目取樣指導(dǎo)語(yǔ) 難度時(shí)限測(cè)驗(yàn)復(fù)本不等值被測(cè)對(duì)象測(cè)驗(yàn)的經(jīng)驗(yàn) 練習(xí)因素應(yīng)試動(dòng)機(jī) 測(cè)驗(yàn)焦慮生理因素,5,施測(cè)過程物理環(huán)境主試者方面意外干擾評(píng)分計(jì)分,6,第三節(jié) 真分?jǐn)?shù)及其有關(guān)的假設(shè),真分?jǐn)?shù)的含義真分?jǐn)?shù)（True Score，T分?jǐn)?shù)）反映被試某種心理特質(zhì)真正水平的那個(gè)數(shù)值，一個(gè)測(cè)量工具在沒有測(cè)量誤差時(shí)，所得到的純正值。操作定義：經(jīng)過無數(shù)次測(cè)量所得到的平均值。觀測(cè)分?jǐn)?shù)（Observed Score）實(shí)測(cè)分?jǐn)?shù),7,二、數(shù)學(xué)模型及其假設(shè) X = T + E 觀測(cè)分?jǐn)?shù)=真分?jǐn)?shù)+隨

3、機(jī)誤差,8,測(cè)量誤差的假設(shè)： 1. 如果一個(gè)人的某種心理特質(zhì)可以用平行的測(cè)驗(yàn)反復(fù)測(cè)量足夠多次，則其觀測(cè)分?jǐn)?shù)的平均值會(huì)接近于真分?jǐn)?shù)。即（X）= T 或（E）= 0,9,2. 真分?jǐn)?shù)和誤差分?jǐn)?shù)之間的相關(guān)為零。即（T，E）= 0,10,3. 各平行測(cè)驗(yàn)上的誤差分?jǐn)?shù)之間的相關(guān)為零。即（E1，E2）= 0,11,第2.3條假設(shè)意在說明E是一個(gè)隨機(jī)誤差，沒有包含系統(tǒng)誤差在內(nèi)，第1條假設(shè)則在于說明E是個(gè)服從均值為零的正態(tài)分布的隨機(jī)變量。,12,對(duì)于經(jīng)典真分?jǐn)?shù)理論（CTT）的理解：（1）在問題的研究范圍之內(nèi)，反應(yīng)個(gè)體某種心理特質(zhì)水平的真分?jǐn)?shù)是假定不會(huì)變的，測(cè)量的任務(wù)就是估計(jì)這一真分?jǐn)?shù)的大小。

4、（2）觀測(cè)分?jǐn)?shù)被假定等于真分?jǐn)?shù)與誤差分?jǐn)?shù)之和，即假定觀測(cè)分?jǐn)?shù)與真分?jǐn)?shù)之間是線性關(guān)系，而不是其他關(guān)系。（3）測(cè)量誤差是完全隨機(jī)的，并服從均值為零的正態(tài)分布。,13,平行測(cè)驗(yàn)：如果兩個(gè)題目不同的測(cè)驗(yàn)測(cè)的是同一特質(zhì)，并且題目形式、數(shù)量、難度、區(qū)分度以及測(cè)查等值團(tuán)體后所得分?jǐn)?shù)的分布都是一致的，則這兩個(gè)測(cè)驗(yàn)稱作彼此平行的測(cè)驗(yàn)。,14,根據(jù)CTT模型和假設(shè)，推導(dǎo)如下關(guān)系：（1）在一次測(cè)量中，被試觀測(cè)分?jǐn)?shù)的方差等于其真分?jǐn)?shù)方差與誤差分?jǐn)?shù)方差之和即 SX2 = ST2 + SE2 （2）真分?jǐn)?shù)分為兩部分：與測(cè)量目的有關(guān)變異和與測(cè)驗(yàn)?zāi)康臒o關(guān)的變異即ST2 = SV2 + SI2 （3）由（2）帶入

5、（1）得 SX2 = SV2 + SI2 + SE2 在一次測(cè)驗(yàn)中，一個(gè)團(tuán)體的實(shí)測(cè)分?jǐn)?shù)之間的變異性是由與測(cè)驗(yàn)?zāi)康挠嘘P(guān)的變異數(shù)、穩(wěn)定的但出自無關(guān)來源的變異數(shù)和測(cè)量誤差的變異數(shù)所決定的。,15,第四章,測(cè)量信度,16,第一節(jié) 信度概述,什么是信度？信度（reliability）是指測(cè)量結(jié)果的穩(wěn)定性程度，也叫測(cè)量的可靠性。操作定義： rxx=ST2 / Sx2 rXX=TX2 rXX=XX 注意：信度指的是一組測(cè)驗(yàn)分?jǐn)?shù)或一系列測(cè)量的特性，而不是個(gè)人分?jǐn)?shù)的特性；真分?jǐn)?shù)的變異數(shù)是不能直接測(cè)量的，因此信度是一個(gè)理論上構(gòu)想的概念，只能根據(jù)一組實(shí)得分?jǐn)?shù)作出估計(jì)。,17,信度系數(shù)與信度指數(shù) 信度指數(shù)：相

6、關(guān)系數(shù) 信度系數(shù)：相關(guān)系數(shù)的平方注意：信度系數(shù)有多種。同一種信度系數(shù)也會(huì)因樣本、測(cè)查時(shí)間不同而有多個(gè)。信度系數(shù)只是對(duì)測(cè)量分?jǐn)?shù)一致性的估計(jì)，但并沒有指出不一致的原因。獲得較高的信度只是測(cè)驗(yàn)有效的必要條件。,18,三、信度的作用信度是測(cè)量過程中所存在的隨機(jī)誤差大小的反映信度可以用來解釋個(gè)人測(cè)驗(yàn)分?jǐn)?shù)的意義 SE=SX1 - rXX 真分?jǐn)?shù)的置信區(qū)間（95%）=X1.96SE 信度可以幫助進(jìn)行不同測(cè)驗(yàn)分?jǐn)?shù)的比較,19,假設(shè)在一個(gè)智力測(cè)驗(yàn)中，某個(gè)被試的IQ為100，這是否反映了他的真實(shí)水平？如果再測(cè)一次他的分?jǐn)?shù)將改變多少？已知該測(cè)驗(yàn)的標(biāo)準(zhǔn)差為15，信度系數(shù)為0.84、某被試在韋氏成人智力

7、測(cè)驗(yàn)中言語(yǔ)智商為102，操作智商為110.已知兩個(gè)分?jǐn)?shù)都是以100為平均數(shù)，15為標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)分?jǐn)?shù)。假設(shè)言語(yǔ)測(cè)驗(yàn)和操作測(cè)驗(yàn)的分半信度分別是0.87和0.88.問其操作智商是否顯著高于言語(yǔ)智商呢？,20,一個(gè)測(cè)驗(yàn)可以有多個(gè)信度估計(jì)值，因而其誤差估計(jì)值也會(huì)有多個(gè)，在實(shí)際工作者要注意選擇。本理論假定同一個(gè)團(tuán)體中所有人的測(cè)量誤差都是相同的，但實(shí)際上水平高的人與水平低的人在做測(cè)量時(shí)會(huì)有不同的隨機(jī)誤差。測(cè)量的結(jié)果不能僵硬地看成一個(gè)點(diǎn)，而應(yīng)看成是一個(gè)以該點(diǎn)為中心，以SE的某個(gè)倍數(shù)為半徑上下波動(dòng)的一個(gè)范圍（區(qū)間估計(jì)）,21,第二節(jié) 信度的估計(jì)方法,一、重測(cè)信度含義和計(jì)算重測(cè)信度（test-retest

8、 reliability）是指用同一量表對(duì)同一組被試施測(cè)兩次所得結(jié)果的一致性程度。皮爾遜積差相關(guān)系數(shù) (教材p48) 使用的前提條件所測(cè)量的心理特質(zhì)必須是穩(wěn)定的；練習(xí)和遺忘的效果基本上相互抵消；在兩次施測(cè)的間隔時(shí)期內(nèi)，被試在所要測(cè)查的心理特質(zhì)方面沒有獲得更多的學(xué)習(xí)和訓(xùn)練。,22,使用重測(cè)信度時(shí)應(yīng)注意兩次測(cè)驗(yàn)的時(shí)間間隔要適當(dāng)（研究報(bào)告中需要說明）。再測(cè)信度適用于速度測(cè)驗(yàn)或人格測(cè)驗(yàn)，不適用于難度測(cè)驗(yàn)。重測(cè)時(shí)應(yīng)注意提高被試的積極性。優(yōu)缺點(diǎn) 用再測(cè)法估計(jì)信度的優(yōu)點(diǎn)是能提供測(cè)驗(yàn)結(jié)果是否隨時(shí)間而變化的資料，可作為預(yù)測(cè)被試將來行為的依據(jù)。其缺點(diǎn)是易受練習(xí)和記憶的影響。,23,SPSS計(jì)算,

9、求出兩次測(cè)量的總分 Analyze-Correlate-Bivariate,24,二、復(fù)本信度 1含義和計(jì)算復(fù)本信度（Alternate-form reliability）指的是兩個(gè)平行的測(cè)驗(yàn)測(cè)量同一批被試所得結(jié)果的一致性程度，其值等于同一批被試在兩個(gè)復(fù)本測(cè)驗(yàn)上所得分?jǐn)?shù)的積差相關(guān)系數(shù)。復(fù)本信度又稱為等值性系數(shù)。測(cè)驗(yàn)實(shí)施的時(shí)間不同，復(fù)本信度所表達(dá)的含義略有不同。如果兩個(gè)復(fù)本測(cè)驗(yàn)是同時(shí)連續(xù)施測(cè)的，則稱這種復(fù)本信度為等值性系數(shù)。如果兩個(gè)復(fù)本測(cè)驗(yàn)是相距一段時(shí)間分兩次施測(cè)的，則稱這種復(fù)本信度為穩(wěn)定性與等值性系數(shù)。,25,使用的前提條件兩測(cè)驗(yàn)真正平行；被試要有條件接受兩個(gè)測(cè)驗(yàn)。優(yōu)點(diǎn) 避免記憶

10、效果和學(xué)習(xí)效應(yīng),26,復(fù)本信度的局限性如果所考慮的行為機(jī)能受到練習(xí)的影響很大，那么使用復(fù)本只能減少但不能消除這種影響。測(cè)驗(yàn)的性質(zhì)會(huì)由于重復(fù)而有所改變，比如遷移的影響編制真正的等值測(cè)驗(yàn)實(shí)際困難重重，因此許多測(cè)驗(yàn)沒有復(fù)本。,27,內(nèi)部一致性信度（1）,三、分半信度含義和計(jì)算分半信度（split-half reliability）是指將一個(gè)測(cè)驗(yàn)分成對(duì)等的兩半后，所有被試在這兩半上所得分?jǐn)?shù)的一致性程度。由于分半信度描述的是兩半題目間的一致性，所以有時(shí)也被稱作內(nèi)部一致性系數(shù)。計(jì)算方法：皮爾遜積差相關(guān) 校正公式：斯皮爾曼-布朗公式 rxx= 2 rhh /（1+ rhh）,28,斯布公式只有在

11、兩半測(cè)驗(yàn)分?jǐn)?shù)的方差相等時(shí)才能使用，否則，應(yīng)選擇下面兩個(gè)等價(jià)的公式之一：弗郎那根（Flanagan）公式： rxx = 2 1 -（Sa2 + Sb2）/ Sx2 ， Sa2 ，Sb2 ，Sx2 分別為分半測(cè)驗(yàn)的方差和總分的方差盧侖（Rulon）公式 rxx = 1 - Sd2 / Sx2 ， Sd2 是兩分半測(cè)驗(yàn)之差的方差,29,應(yīng)用前提及范圍分半信度通常是在只能施測(cè)一次或沒有復(fù)本的情況下使用。試卷存在任選題或試卷為速度測(cè)驗(yàn)時(shí)，不宜采用分半法。,30,常見的分半方法是按測(cè)題序號(hào)奇偶分半：測(cè)驗(yàn)題目按某種順序（如難度）排列；如果是隨機(jī)排列的題目，則必須是所有題目是平等的（要么難度相等，

12、要么性質(zhì)一致，是測(cè)同一個(gè)心理特質(zhì)的）；如果測(cè)驗(yàn)有多個(gè)分量表，應(yīng)在分量表內(nèi)部排好順序，再把各分量表的兩半組合起來求相關(guān)。,31,SPSS計(jì)算,第一種算法題目排序，分半求積差相關(guān) 進(jìn)行斯-布公式校正第二章算法直接求分半系數(shù),32,內(nèi)部一致性信度（2）,四、同質(zhì)性信度含義同質(zhì)性信度（homogeneity reliability）也叫內(nèi)部一致性系數(shù)，它是指測(cè)驗(yàn)內(nèi)部所有題目間的一致性程度。同質(zhì)性信度是指一個(gè)測(cè)驗(yàn)所測(cè)內(nèi)容或特質(zhì)的相同程度。,33,題目間的一致性含有兩層意思：其一是指所有題目都測(cè)的是同一種心理特質(zhì)，其二是指所有題目得分之間都具有較高的正相關(guān)。值得注意的是，一些表面上看起來

13、是測(cè)量同一種心理特質(zhì)的題目，如果其題目間不具有較高的正相關(guān)，則不能認(rèn)為它們具有同質(zhì)性。,34,計(jì)算及適用范圍 rxx = K rij / 1 +（K - 1）rij ，其中K為一個(gè)測(cè)驗(yàn)的題目個(gè)數(shù)， rij 為項(xiàng)目間相關(guān)系數(shù)的平均數(shù) （1）KR20公式： rxx = K /（K - 1） 1-（piqi）/ Sx2 pi為答對(duì)第i題的人數(shù)的比例；qi為答錯(cuò)第i題的人數(shù)的比例。 K為題目數(shù)， Sx2為測(cè)驗(yàn)總分的變異。僅適用于（0，1）記分的測(cè)驗(yàn)。（2）KR21公式： rxx = K /（K - 1） 1 -（K p q ）/ Sx2 只有當(dāng)所有題目的難度接近時(shí)才適用,35,（3）克龍巴赫系數(shù)：

14、 = K /（K - 1） 1 -（Si2）/ Sx2 克倫巴赫系數(shù)可以處理任何測(cè)驗(yàn)的內(nèi)部一致性系數(shù)的計(jì)算問題。實(shí)際上，K-R 20 和K-R 21 只是系數(shù)的特例。系數(shù)是所有可能的分半信度的平均值。是測(cè)量信度的下界的一個(gè)估計(jì)值。即值大，必有測(cè)量信度高，但值小時(shí)，卻不能斷定測(cè)量信度不高。,36,計(jì)算步驟：按一定要求抽取n個(gè)被試的試卷，計(jì)算幾個(gè)人測(cè)驗(yàn)總分的方差這幾個(gè)人在每一個(gè)題上都會(huì)有一個(gè)得分，分別求出這幾個(gè)人在每道題上得分的方差。代入公式，最后求出。,37,SPSS計(jì)算,Analyze-Scale-Reliability Analysis 單擊“Statistics”出現(xiàn)relia

15、bility Analysis：Statistics 在Descriptives for 方框中選取 “item”、“scale”、“scale if item deleted” 在“inter-item”，單擊“correlations”，單擊“continue”按鈕回到“reliability Analysis”對(duì)話框，單擊“ok”按鈕。,38,當(dāng)研究者采用試題的標(biāo)準(zhǔn)分?jǐn)?shù)總和作為量表分?jǐn)?shù)時(shí)，此情況應(yīng)該選用標(biāo)準(zhǔn)化系數(shù)；當(dāng)研究者采用試題的標(biāo)準(zhǔn)分?jǐn)?shù)總和作為量表分?jǐn)?shù)時(shí)，則不選用標(biāo)準(zhǔn)化系數(shù),39,（4）荷伊特信度測(cè)試分?jǐn)?shù)的總變異可分解為被試間變異、項(xiàng)目間變異和人與試題交互作用三部分。荷伊特認(rèn)為可

16、用MS人作為被試方差估計(jì)值，用MS人題作為誤差方差估計(jì)值。 Rxx=1-MS人題/MS人一般用于預(yù)測(cè)的測(cè)驗(yàn)或?qū)W績(jī)測(cè)驗(yàn)可不考慮同質(zhì)性。而驗(yàn)證理論構(gòu)想時(shí)必須考慮同質(zhì)性。因此，同質(zhì)性不但與信度有關(guān)，還與效度有關(guān)。,40,五、評(píng)分者信度含義評(píng)分者信度（scorer reliability）是指多個(gè)評(píng)分者給同一批人的答卷進(jìn)行評(píng)分的一致性程度。計(jì)算 2人時(shí)：相關(guān)系數(shù) 多人時(shí)：肯德爾和諧系數(shù) W=12 R i2 -（R i）2 / N / K2（N3 -N）（K=320；N=37時(shí)，查W表檢驗(yàn)） K是評(píng)分者人數(shù)，N是被評(píng)的對(duì)象數(shù)，R I為第i個(gè)被試被評(píng)的水平等級(jí)之和,41,將數(shù)據(jù)導(dǎo)入到SPSS中，

17、點(diǎn)擊：analyse-nonparametrics tests-K related samples 把所有變量選中（所有作品的列）再選中Kendalls W , Ok 結(jié)果出來了，主要看最下面一個(gè)表的數(shù)據(jù)，一個(gè)是Kendalls Wa , 這個(gè)數(shù)字應(yīng)該在0.7以上，另一個(gè)是Asymp ,這個(gè)數(shù)字應(yīng)該小于0.05,如果結(jié)果不是符合這兩個(gè)規(guī)則的話，一致辭性檢驗(yàn)不通過，成績(jī)要重新打分。,42,43,評(píng)判間一致性系數(shù) 給出一個(gè)評(píng)分說明，讓兩個(gè)或更多人來打分，分?jǐn)?shù)是順序或者稱名（等級(jí)或者是/否）公式 Cohens kappa 參考心理測(cè)量駱方孫曉敏譯中國(guó)輕工業(yè)出版社評(píng)分者內(nèi)部一致性系數(shù) 計(jì)算

18、一個(gè)評(píng)分者在給不同測(cè)驗(yàn)打分時(shí)分?jǐn)?shù)的一致性系數(shù)或KR-20,44,各種信度系數(shù)相應(yīng)誤差變異的來源,45,幾種心理測(cè)驗(yàn)的信度系數(shù),46,第三節(jié) 提高測(cè)量信度的方法,影響測(cè)量信度的主要因素被試方面被試團(tuán)體同質(zhì)性越高（個(gè)體差異越?。?，所得相關(guān)系數(shù)（信度）就越低。被試團(tuán)體異質(zhì)性越高（個(gè)體差異越大），所得相關(guān)系數(shù)（信度）就越高。主試方面指導(dǎo)語(yǔ)、態(tài)度、期望等施測(cè)情境,47,四）測(cè)量工具測(cè)驗(yàn)長(zhǎng)度：測(cè)驗(yàn)越長(zhǎng)，信度越高。測(cè)驗(yàn)難度：過難或過易都會(huì)使個(gè)體間得分差異減小，降低信度。顯然只有當(dāng)測(cè)驗(yàn)難度水平可以使測(cè)驗(yàn)分?jǐn)?shù)的分布范圍最大時(shí)，測(cè)驗(yàn)的信度才會(huì)最高。通常這個(gè)難度水平為0.50。測(cè)驗(yàn)內(nèi)容：試題取樣

19、不當(dāng)，內(nèi)部一致性低，題意模糊，信度則低。（五）兩次施測(cè)的間隔時(shí)間間隔時(shí)間越短，信度越高；間隔時(shí)間越長(zhǎng)，信度越低。,48,斯皮爾曼布郎公式,公式中，K為改變后長(zhǎng)度與原長(zhǎng)度之比 rxx為原測(cè)驗(yàn)的信度 rkk為測(cè)驗(yàn)長(zhǎng)度是原來K倍時(shí)的信度估計(jì),49,例：某一測(cè)驗(yàn)有10個(gè)項(xiàng)目，信度是0.60，問測(cè)驗(yàn)應(yīng)增加到多少個(gè)項(xiàng)目，才能使信度達(dá)到0.90？,50,解:,即，應(yīng)擴(kuò)大為原來的6倍，才能滿足要求。調(diào)整后的測(cè)驗(yàn)長(zhǎng)度應(yīng)是60個(gè)項(xiàng)目。,51,提高測(cè)量信度的常用方法適當(dāng)增加測(cè)驗(yàn)的長(zhǎng)度使測(cè)驗(yàn)中所有試題的難度接近正態(tài)分布，并控制在中等水平努力提高測(cè)驗(yàn)試題的區(qū)分度選取恰當(dāng)?shù)谋辉噲F(tuán)體，提高測(cè)驗(yàn)在各同質(zhì)性較強(qiáng)

20、的亞團(tuán)體上的信度主試者嚴(yán)格執(zhí)行施測(cè)規(guī)程，評(píng)分者嚴(yán)格按照標(biāo)準(zhǔn)給分，施測(cè)場(chǎng)地按測(cè)驗(yàn)手冊(cè)的要求進(jìn)行布置，減少無關(guān)因素的干擾,52,洛德（Lord）提出學(xué)績(jī)測(cè)驗(yàn)難度,53,幾點(diǎn)說明,提高測(cè)量信度的方法還有很多。本章所討論的各種信度計(jì)算方法僅適用于常模參照性測(cè)驗(yàn)。目標(biāo)參照性測(cè)驗(yàn)的信度必須以測(cè)量的概化理論為基礎(chǔ)才能進(jìn)行很好的處理。信度的標(biāo)準(zhǔn) 信度高低的標(biāo)準(zhǔn)：標(biāo)準(zhǔn)化能力或?qū)W績(jī)測(cè)驗(yàn)：0.90；人格測(cè)驗(yàn)：0.80；教師自編學(xué)績(jī)測(cè)驗(yàn)：0.60 測(cè)驗(yàn)解釋的標(biāo)準(zhǔn)：一般來說，當(dāng)信度0.70，測(cè)驗(yàn)不能用于對(duì)個(gè)人作出評(píng)價(jià)與預(yù)測(cè)，而且不能作團(tuán)體間比較；當(dāng)0.70信度0.85時(shí)，可用于團(tuán)體比較；當(dāng)信度0.85時(shí)，才能用

21、來鑒別或預(yù)測(cè)個(gè)人成績(jī)。,54,速度測(cè)驗(yàn)的信度,對(duì)于速度測(cè)驗(yàn)，不存在評(píng)分者信度，也無法計(jì)算同質(zhì)性信度，而重測(cè)信度和復(fù)本信度均可按傳統(tǒng)的方法求得，只有分半信度不能按傳統(tǒng)方法估計(jì) 要估計(jì)速度測(cè)驗(yàn)的分半信度，不能按題目的奇偶項(xiàng)來劃分測(cè)驗(yàn)，而應(yīng)按測(cè)驗(yàn)時(shí)間劃分相等的兩部分，再求出兩部分測(cè)驗(yàn)的相關(guān)，才是分半信度。將測(cè)驗(yàn)分成兩部分，然后以總測(cè)驗(yàn)的一半時(shí)間分別進(jìn)行施測(cè)，計(jì)算兩部分得分的相關(guān)系數(shù)。整個(gè)時(shí)限分為四部分，并求出在每個(gè)時(shí)限內(nèi)的得分。計(jì)算第一部分和第四部分的總分?jǐn)?shù)；第二部分和第三部分的總分?jǐn)?shù)，然后計(jì)算相關(guān)。,55,第五章,測(cè)量效度,56,效度效度（validity）是指一個(gè)測(cè)驗(yàn)或量表實(shí)際能測(cè)出其所要

22、測(cè)的心理特質(zhì)的程度。在測(cè)驗(yàn)的眾多質(zhì)量指標(biāo)中，效度是一個(gè)最重要的指標(biāo)。,57,效度是一個(gè)相對(duì)的概念：每個(gè)測(cè)量工具都有自己的目的；內(nèi)隱特質(zhì)是通過外顯行為間接測(cè)得的。效度是測(cè)量的隨機(jī)誤差和系統(tǒng)誤差的綜合反映。判斷一個(gè)測(cè)量是否有效要從多方面收集證據(jù),58,在測(cè)量理論中，效度被定義為：在一列測(cè)量中，與測(cè)量目的有關(guān)的真實(shí)變異數(shù)（由所要測(cè)量的變因引起的有效變異）與總變異數(shù)（實(shí)得變異數(shù)）的比率。即：公式中，rxy表示測(cè)量的效度系數(shù)； SV2表示有效變異數(shù)， SX2 表示總變異數(shù),59,效度與信度的關(guān)系信度高是效度高的必要而非充分的條件測(cè)驗(yàn)的效度受它的信度制約信度高，效度未必高，信度低，效度必然

23、低；效度高，信度必然高，效度低，信度未必低。,60,第二節(jié) 效度的估計(jì),測(cè)量效度是就測(cè)量結(jié)果達(dá)到測(cè)量目的的程度而言的，所以測(cè)量效度的估計(jì)在很大程度上取決于人們對(duì)測(cè)量目的的解釋。常見的解釋角度主要有三種：測(cè)驗(yàn)內(nèi)容內(nèi)容效度理論結(jié)構(gòu) 構(gòu)想效度工作實(shí)效實(shí)證效度,61,內(nèi)容效度,1. 含義及應(yīng)用范圍內(nèi)容效度（content validity）是指測(cè)驗(yàn)題目對(duì)有關(guān)內(nèi)容或行為取樣的適當(dāng)程度，即一個(gè)測(cè)驗(yàn)實(shí)際測(cè)到的內(nèi)容與所要測(cè)量的內(nèi)容之間的吻合程度。因此，一個(gè)測(cè)驗(yàn)要有內(nèi)容效度必須具備兩個(gè)條件：（1）要有定義完好的內(nèi)容范圍（2）測(cè)驗(yàn)題目應(yīng)是所界定的內(nèi)容范圍的代表性取樣。,62,內(nèi)容效度主要應(yīng)

24、用于成就測(cè)驗(yàn)。因?yàn)槌删蜏y(cè)驗(yàn)主要是測(cè)量被試掌握某種技能或?qū)W習(xí)某門課程所達(dá)到的程度。在這種測(cè)驗(yàn)中，題目取樣的代表性問題是內(nèi)容效度的主要考察方面。編制雙向細(xì)目表就是為了提高內(nèi)容效度。,63,內(nèi)容效度也適合于某些用于選拔和分類的職業(yè)測(cè)驗(yàn)。這種測(cè)驗(yàn)所要測(cè)的內(nèi)容就是實(shí)際工作中所需的知識(shí)和技能，編制這種測(cè)驗(yàn)應(yīng)首先對(duì)實(shí)際工作做較細(xì)的分析，否則，題目取樣的代表性就難以令人滿意。,64,內(nèi)容效度不適合用于能力傾向測(cè)驗(yàn)和人格測(cè)驗(yàn)。此外，在使用內(nèi)容效度時(shí)，要避免與表面效度（surface validity）相混淆。表面效度是外行人對(duì)某個(gè)測(cè)驗(yàn)從表面上看好像是測(cè)某種心理特質(zhì)的一種現(xiàn)象。表面效度可以取得被試者

25、的合作最佳行為測(cè)驗(yàn)往往表明效度高；典型行為測(cè)驗(yàn)表面效度低職業(yè)興趣測(cè)驗(yàn)；成就測(cè)驗(yàn) 人格測(cè)驗(yàn),65,2內(nèi)容效度的確定方法（1）邏輯分析法：專家判斷根據(jù)自己的知識(shí)經(jīng)驗(yàn)對(duì)量表的有效性（邏輯性）作出判斷，也稱邏輯效度。為使內(nèi)容效度的判斷過程更客觀，一般采用下列步驟：確定測(cè)驗(yàn)內(nèi)容的總體范圍；編制雙向細(xì)目表；編制評(píng)定量表，從測(cè)驗(yàn)內(nèi)容所測(cè)的技能、題目對(duì)所定義的范圍的覆蓋率、各種題目數(shù)量和分?jǐn)?shù)的比例以及題目形式的適當(dāng)性等方面，對(duì)測(cè)驗(yàn)作出總的評(píng)價(jià)。,66,（2）統(tǒng)計(jì)方法：用兩個(gè)測(cè)驗(yàn)復(fù)本來測(cè)同一批被試，若相關(guān)高，則內(nèi)容效度可能高，但若相關(guān)低，則說明必有一個(gè)測(cè)驗(yàn)缺乏內(nèi)容效度。（3）再測(cè)法：前測(cè)教學(xué)后

26、測(cè) 如果后測(cè)成績(jī)優(yōu)于前測(cè)成績(jī)，說明該測(cè)驗(yàn)具有一定的內(nèi)容效度。,67,內(nèi)容效度既具有一定的優(yōu)點(diǎn)，也有一定的局限。其主要缺點(diǎn)是缺乏可靠的數(shù)量指標(biāo)，因而妨礙了各測(cè)驗(yàn)間的相互比較。,68,結(jié)構(gòu)效度,含義、特點(diǎn)與應(yīng)用范圍結(jié)構(gòu)效度（structure validity）是指一個(gè)測(cè)驗(yàn)實(shí)際測(cè)到所要測(cè)量的理論結(jié)構(gòu)或特質(zhì)的程度，或者說測(cè)驗(yàn)分?jǐn)?shù)能夠說明心理學(xué)理論的某種結(jié)構(gòu)或特質(zhì)的程度。特點(diǎn)：構(gòu)想效度的大小首先取決于事先假定的心理特質(zhì)理論。當(dāng)實(shí)際測(cè)量的資料無法證實(shí)我們的理論假設(shè)時(shí)，并不一定就表明該測(cè)驗(yàn)構(gòu)想效度不高。不可能有單一的數(shù)量指標(biāo)來描述構(gòu)想效度。構(gòu)想效度主要用于智力測(cè)驗(yàn)、人格測(cè)驗(yàn)等。,69,結(jié)構(gòu)

27、效度的確定方法（1）提出理論框架；（2）依據(jù)理論框架推演出有關(guān)測(cè)驗(yàn)成績(jī)的假設(shè)；（3）用邏輯或?qū)嵶C的方法來證明假設(shè)。,70,確定構(gòu)想效度的基本方法（1）測(cè)驗(yàn)內(nèi)部尋找證據(jù)法分析測(cè)驗(yàn)的內(nèi)容效度：若內(nèi)容效度高，說明其結(jié)構(gòu)效度也高；分析被試對(duì)題目反應(yīng)的特點(diǎn)：有無社會(huì)稱許性的題目，如“當(dāng)事情不順我意時(shí)，我時(shí)常動(dòng)怒?！睂?duì)該題的回答，也許反映不了要測(cè)的性格。計(jì)算測(cè)驗(yàn)的同質(zhì)性信度：分半信度、系數(shù)、KR20、KR21,71,（2）測(cè)驗(yàn)之間尋找證據(jù)法相容效度：新老測(cè)驗(yàn)之間的相關(guān)（兩測(cè)驗(yàn)測(cè)的是同一心理特質(zhì)）。若相關(guān)高，則說明新測(cè)驗(yàn)可能有較高的效度。區(qū)分效度：新老測(cè)驗(yàn)之間的相關(guān)（兩測(cè)驗(yàn)測(cè)的不是同一心

28、理特質(zhì)），若相關(guān)低，則說明新測(cè)驗(yàn)可能有較高的效度。因素分析法：得出的因素符合理論的構(gòu)思，說明效度高。,72,（3）考察測(cè)驗(yàn)的實(shí)證效度法根據(jù)效標(biāo)把被試分組，考察其得分差異。根據(jù)測(cè)驗(yàn)得分差異把被試分組，考察其所測(cè)特質(zhì)（行為表現(xiàn)）的差異。成就測(cè)驗(yàn)：分為高分組和低分組人格測(cè)驗(yàn)：分為不同類型的效標(biāo)組,73,（4）多種特質(zhì)-多種方法矩陣法方法：1、2、3 特質(zhì)：A、B、C,74,75,（5）驗(yàn)證性因素分析（confirmatory factor analysis）驗(yàn)證性因素分析是目前心理學(xué)研究中應(yīng)用的一種重要統(tǒng)計(jì)分析方法，是在研究的范圍內(nèi)，對(duì)已有的理論結(jié)構(gòu)進(jìn)行驗(yàn)證性分析的方法。在研究中，

29、這一方法可以幫助我們討論測(cè)驗(yàn)研究是否具有構(gòu)想效度。,76,對(duì)構(gòu)想效度的評(píng)價(jià) 總的來說，構(gòu)想效度促使研究者把著眼點(diǎn)放在提出假設(shè)、檢驗(yàn)假設(shè)上，使得測(cè)驗(yàn)成為理論研究的重要工具，而不再只是實(shí)際決策的輔助工具，從而使測(cè)驗(yàn)有了更廣闊的發(fā)展前景。,77,三、實(shí)證效度 1含義、種類及作用實(shí)證效度是指一個(gè)測(cè)驗(yàn)對(duì)處于特定情境中的個(gè)體的行為進(jìn)行估計(jì)的有效性。被估計(jì)的行為是檢驗(yàn)測(cè)驗(yàn)效度的標(biāo)準(zhǔn)，簡(jiǎn)稱效標(biāo)。所以，實(shí)證效度又稱效標(biāo)關(guān)聯(lián)效度（criterion-related validity）。同時(shí)效度：測(cè)驗(yàn)分?jǐn)?shù)與效標(biāo)資料是同時(shí)收集的。預(yù)測(cè)效度：先獲得測(cè)驗(yàn)分?jǐn)?shù)，隔一段時(shí)間后，再收集效標(biāo)資料。,78,例：某大學(xué)研究

30、生入學(xué)考試要求達(dá)到一定的分?jǐn)?shù)線，但偶爾也會(huì)錄取一名沒有達(dá)到分?jǐn)?shù)線的學(xué)生，但要求這名學(xué)生在獲得學(xué)位之前必須達(dá)到研究生入學(xué)的最低分?jǐn)?shù)線。你怎樣看這個(gè)問題？,79,2效標(biāo) （1）效標(biāo)與效標(biāo)測(cè)量效標(biāo)（criterion）就是衡量一個(gè)測(cè)驗(yàn)是否有效的外在標(biāo)準(zhǔn)，獨(dú)立于測(cè)驗(yàn)并可以從實(shí)踐中直接獲得我們所感興趣的行為。常用的效標(biāo)：學(xué)業(yè)成就、臨床診斷、實(shí)際工作表現(xiàn)、特殊訓(xùn)練成績(jī)、不同團(tuán)體的總體表現(xiàn)、先前有效的測(cè)驗(yàn)、等級(jí)評(píng)定。觀念效標(biāo)：理論定義，如“大學(xué)的成功” 效標(biāo)測(cè)量：操作定義，如“大學(xué)成績(jī)”,80,（2）效標(biāo)的特性 a.多樣性：一個(gè)測(cè)驗(yàn)可能有不同的觀念效標(biāo)，同一個(gè)觀念效標(biāo)又可能有不同的效標(biāo)測(cè)量。 b.復(fù)雜性：幾乎每一種效標(biāo)行為都由多種特質(zhì)構(gòu)成，包含復(fù)雜的成分。 c.特殊性：即使一個(gè)普通的效標(biāo)，在應(yīng)用時(shí)也有特殊性。 d.時(shí)間性：近期效標(biāo)與最后效標(biāo),81,（3）效標(biāo)測(cè)量的條件 a.有效性：效標(biāo)測(cè)量能真正反映觀念效標(biāo)。 b.可靠性：有較高的信度 c.客觀性：效標(biāo)測(cè)量必須能真正反映觀念效標(biāo)，防止效

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

戴海崎舊版-心理與教育測(cè)量1-3課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

戴海崎舊版-心理與教育測(cè)量1-3課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔