測(cè)量的信效度_第1頁
測(cè)量的信效度_第2頁
測(cè)量的信效度_第3頁
測(cè)量的信效度_第4頁
測(cè)量的信效度_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

測(cè)量的信度和效度你如何解釋下述現(xiàn)象?

一個(gè)很聰明的孩子,測(cè)得智商是80分一個(gè)學(xué)習(xí)很好的學(xué)生,考試成績(jī)?yōu)?0分一個(gè)人緣很好的人,人際關(guān)系測(cè)量低于常模值誤差的含義在測(cè)量中與目的無關(guān)的因素所引起的不準(zhǔn)確或不一致效應(yīng)。不準(zhǔn)確、不一致不準(zhǔn)確、一致準(zhǔn)確、一致測(cè)量的誤差系統(tǒng)誤差(systemerror)由與測(cè)量無關(guān)的變量引起的一種恒定而有規(guī)律的誤差。測(cè)量誤差的種類

隨機(jī)誤差(randomerror)由與測(cè)量無關(guān)的變量引起的一種無規(guī)律的誤差,不易控制心理測(cè)量誤差的來源測(cè)驗(yàn)本身測(cè)驗(yàn)題目取樣不當(dāng);測(cè)驗(yàn)題目格式不妥;測(cè)題的難度過高或過低;測(cè)題的指導(dǎo)語用詞不當(dāng);測(cè)驗(yàn)時(shí)限過短。測(cè)驗(yàn)實(shí)施

物理環(huán)境;主試方面;意外干擾;評(píng)分不客觀,計(jì)算、登記分?jǐn)?shù)出錯(cuò)。被試應(yīng)試動(dòng)機(jī);焦慮;生理因素;學(xué)習(xí)、發(fā)展和教育;測(cè)驗(yàn)經(jīng)驗(yàn);反應(yīng)傾向;生理變因。兩種誤差的關(guān)系系統(tǒng)誤差只影響測(cè)值的準(zhǔn)確性,與效度有關(guān)隨機(jī)誤差既影響準(zhǔn)確性,又影響一致性。與效度和信度都有關(guān)。測(cè)量誤差的關(guān)系經(jīng)典測(cè)量理論:真分?jǐn)?shù)理論測(cè)驗(yàn)分?jǐn)?shù)=真分?jǐn)?shù)+誤差(X=T+E)

真分?jǐn)?shù)T:被試不受任何因素影響的條件下應(yīng)該得到的測(cè)驗(yàn)分?jǐn)?shù),不可直接測(cè)量;在統(tǒng)計(jì)上用無數(shù)次測(cè)量的平均值代替。誤差E:引起測(cè)量結(jié)果不一致的偶然誤差,可正可負(fù)。例:學(xué)績(jī)測(cè)驗(yàn)得分=真實(shí)掌握程度或能力+隨機(jī)誤差(猜測(cè)、身體狀況、動(dòng)機(jī)水平、考試焦慮、環(huán)境影響、手表看錯(cuò)等)信度的概念信度(可靠性):測(cè)量的一致性程度

一個(gè)好的測(cè)量工具必須穩(wěn)定可靠,即多次測(cè)量的結(jié)果要保持一致。信度只受隨機(jī)誤差影響,系統(tǒng)誤差產(chǎn)生恒定效應(yīng),不影響測(cè)量工具的信度。信度的操作性定義測(cè)量理論中,信度被定義為:一組測(cè)量分?jǐn)?shù)的真變異數(shù)與總變異數(shù)(實(shí)得變異數(shù))的比率,即:ST2:真分?jǐn)?shù)的變異數(shù);SX2:測(cè)驗(yàn)分?jǐn)?shù)的變異數(shù)。SX2=ST2+SE2

ST2=SV2+SI2

(與測(cè)量目的有關(guān)的變異,與測(cè)量目的無關(guān)的變異)

SX2=SV2+SI2+SE2SV2SI2SE2SX2ST2

信度的性質(zhì)信度:一組測(cè)驗(yàn)分?jǐn)?shù)或一列測(cè)量的特性,不是個(gè)人分?jǐn)?shù)的特性;真分?jǐn)?shù)的變異數(shù)不能直接測(cè)量,是理論上構(gòu)想的概念,只能根據(jù)一組實(shí)得分?jǐn)?shù)得出估計(jì)。估計(jì)信度的方法重測(cè)信度復(fù)本信度內(nèi)在一致性信度(同質(zhì)性信度)評(píng)分者信度重測(cè)信度(Test-RetestReliability)定義:同一量表,同一被試群體,在不同時(shí)間,兩次施測(cè),求其相關(guān)。實(shí)質(zhì):表示測(cè)驗(yàn)結(jié)果的穩(wěn)定性。故稱之為穩(wěn)定性系數(shù)(CoefficientofStability)

形式:施測(cè)—適當(dāng)時(shí)間—再施測(cè)時(shí)間間隔的把握間隔時(shí)間越長(zhǎng),穩(wěn)定性系數(shù)越低。適宜時(shí)間間隔依照測(cè)驗(yàn)?zāi)康?、性質(zhì)及被試特點(diǎn)而定。幾分鐘至幾年。年幼兒童,間隔要?。荒觊L(zhǎng)群體,間隔可大。智力測(cè)驗(yàn)的間隔不能太短,成就測(cè)驗(yàn)的間隔不能太長(zhǎng)。一般間隔時(shí)間不超過六個(gè)月。(即不能讓被試記住上一次測(cè)驗(yàn)的內(nèi)容,又不能讓其特質(zhì)發(fā)生變化,或?qū)λ鶎W(xué)知識(shí)產(chǎn)生遺忘)復(fù)本信度(Alternate-formraliability)因?yàn)槿魏螠y(cè)驗(yàn)只是所有可能題目中的一份取樣(行為樣本),所以可編制許多平行的等值測(cè)驗(yàn),叫做復(fù)本。復(fù)本等值要符合下列條件:各份測(cè)驗(yàn)測(cè)量的是同一種心理特性。各份測(cè)驗(yàn)具有相同的內(nèi)容和形式。各份測(cè)驗(yàn)的題目不應(yīng)重復(fù)。各份測(cè)驗(yàn)題目數(shù)量相等,難度和區(qū)分度大體相同。各份測(cè)驗(yàn)的分?jǐn)?shù)分布(平均數(shù)和標(biāo)準(zhǔn)差)大致相等。復(fù)本編好后,應(yīng)再測(cè)一次,以確保各份測(cè)驗(yàn)的等值。A卷:你是一個(gè)喜歡熱鬧的人嗎?1=絕對(duì)是2=是3=不一定4=不是5=絕對(duì)不是B卷:你是一個(gè)喜歡安靜的人嗎?1=絕對(duì)是2=是3=不一定4=不是5=絕對(duì)不是定義:兩個(gè)復(fù)本施測(cè)同一被試群體,求其相關(guān)。等值性系數(shù):同時(shí)連續(xù)施測(cè),反映內(nèi)容變異。形式:復(fù)本A—最短時(shí)間—復(fù)本B穩(wěn)定性與等值性系數(shù):時(shí)間間隔施測(cè),內(nèi)容變異+重測(cè)信度誤差形式:復(fù)本A—適當(dāng)時(shí)間—復(fù)本B

分半信度(Split-HalfReliability)定義:在測(cè)驗(yàn)沒有復(fù)本且只能實(shí)施一次的情況下,可將測(cè)驗(yàn)項(xiàng)目分成對(duì)等的兩半,根據(jù)被試在這兩半測(cè)驗(yàn)中所得的分?jǐn)?shù)計(jì)算相關(guān)系數(shù),即得分半信度。計(jì)算分半信度先要對(duì)測(cè)驗(yàn)分半。不同的分半法可能會(huì)得到不同的信度值。分半信度(Split-HalfReliability)為了使兩半基本等值,可將項(xiàng)目按由易到難的順序排列編號(hào),然后按奇數(shù)和偶數(shù)序號(hào)將項(xiàng)目分半。要注意使那些性質(zhì)相同、聯(lián)系緊密的項(xiàng)目分在相同的一半,否則會(huì)使信度值偏高。由于分半信度實(shí)際上只是半個(gè)測(cè)驗(yàn)的信度,測(cè)驗(yàn)越長(zhǎng)、項(xiàng)目越多,兩半分?jǐn)?shù)的相關(guān)就越高。因此,對(duì)長(zhǎng)度不同的測(cè)驗(yàn),要用校正公式。斯皮爾曼-布朗校正公式

rx1x2表示兩半測(cè)驗(yàn)分?jǐn)?shù)的相關(guān)系數(shù)分半信度的估計(jì)如果兩半測(cè)驗(yàn)不等值,亦即兩半測(cè)驗(yàn)分?jǐn)?shù)沒有相同的平均數(shù)和標(biāo)準(zhǔn)差弗朗那根公式:

Sa2

和Sb2

:兩個(gè)半測(cè)驗(yàn)分?jǐn)?shù)的變異數(shù);Sx2:測(cè)驗(yàn)總分的變異數(shù)。盧龍公式:

Sd2:兩半測(cè)驗(yàn)分?jǐn)?shù)之差的變異數(shù),

Sx2:測(cè)驗(yàn)總分的變異數(shù)。同質(zhì)性信度(HomogeneityReliability)同質(zhì)性指測(cè)驗(yàn)的所有題目測(cè)量的是同一種心理特質(zhì),表現(xiàn)為各個(gè)題目得分之間有較高的相關(guān),相關(guān)越高則同質(zhì)性越強(qiáng)。同質(zhì)性信度的估計(jì)(1)測(cè)量同質(zhì)性信度基本公式

K:構(gòu)成測(cè)驗(yàn)項(xiàng)目數(shù),:相關(guān)系數(shù)平均數(shù),

Rkk:同質(zhì)性信度值。同質(zhì)性信度的估計(jì)(2)庫德-理查遜公式(K-R20公式)

K:構(gòu)成測(cè)驗(yàn)的題目數(shù);

pi:通過第i題的人數(shù)比例;

qi:未通過第i題的人數(shù)比例;

Sx2:測(cè)驗(yàn)總分的方差。

同質(zhì)性信度的估計(jì)(3)庫德-理查遜公式(K-R21公式)K-R20/21公式僅適用于答對(duì)一題得一分、答錯(cuò)無分的測(cè)驗(yàn);

同質(zhì)性信度的估計(jì)(4)克倫巴赫系數(shù)對(duì)于多重記分的測(cè)驗(yàn),用Alpha系數(shù)估計(jì):

K:測(cè)驗(yàn)的題目數(shù);

Si2:某一題目分?jǐn)?shù)的變異數(shù);

Sx2:測(cè)驗(yàn)總分的變異數(shù)。

評(píng)分者信度(ScorerReliability)評(píng)分者信度是指不同評(píng)分者之間在測(cè)驗(yàn)結(jié)果計(jì)分上的一致性。在心理測(cè)驗(yàn)中,評(píng)分者信度的計(jì)算,通常是隨機(jī)抽取若干份試卷,由至少兩位受過訓(xùn)練的評(píng)分者按計(jì)分規(guī)則分別判分,然后計(jì)算它們的相關(guān)。幾個(gè)評(píng)分者的評(píng)分越一致,評(píng)分者信度越高。

評(píng)分者信度(ScorerReliability)最簡(jiǎn)單的估計(jì)方法就是隨機(jī)抽取若干份答卷,由兩個(gè)獨(dú)立的評(píng)分者打分,再求每份答卷兩個(gè)評(píng)判分?jǐn)?shù)的相關(guān)系數(shù)。這種相關(guān)系數(shù)的計(jì)算可以用積差相關(guān)方法,也可以采用斯皮爾曼等級(jí)相關(guān)方法。如果評(píng)分者在三人以上,而且又采用等級(jí)記分時(shí),就需要用肯德爾和諧系數(shù)來求評(píng)分者信度。評(píng)分者信度:K個(gè)評(píng)價(jià)者對(duì)N件被評(píng)價(jià)的事物評(píng)定一致性程度的度量(肯德爾W系數(shù)):Ri:每一件被評(píng)價(jià)事物的K個(gè)等級(jí)之和;N:被評(píng)價(jià)事物的件數(shù)即等級(jí)數(shù);K:評(píng)價(jià)者的數(shù)目或等級(jí)變量的列數(shù)。評(píng)分者信度(ScorerReliability)信度系數(shù)的類型誤差變異的來源計(jì)算公式施測(cè)次數(shù)所需復(fù)本數(shù)目重測(cè)信度時(shí)間取樣積差相關(guān)系數(shù)21復(fù)本信度(連續(xù)施測(cè))內(nèi)容取樣積差相關(guān)系數(shù)12復(fù)本信度(間隔施測(cè))時(shí)間取樣、內(nèi)容取樣積差相關(guān)系數(shù)22分半信度內(nèi)容取樣積差相關(guān)系數(shù)(需校正,常用斯-布公式)11同質(zhì)性信度內(nèi)容的異質(zhì)性α系數(shù)(非二分法)11評(píng)分者信度評(píng)分者間的差異積差相關(guān)系數(shù)斯皮爾曼等級(jí)相關(guān)系數(shù),肯德爾和諧系數(shù)11在一般情況下,間隔施測(cè)的復(fù)本信度最低,因?yàn)楹芏嘁蛩赜袡C(jī)會(huì)影響到分?jǐn)?shù)。相反,校正過的分半相關(guān),因?yàn)橛绊懙囊蛩厣?,所得的信度估?jì)為最高。樣本團(tuán)體的性質(zhì)相關(guān)系數(shù)受到團(tuán)體中分?jǐn)?shù)分布的影響信度系數(shù)受到團(tuán)體異質(zhì)性的影響不同團(tuán)體間能力水平的影響

測(cè)驗(yàn)的長(zhǎng)度測(cè)驗(yàn)越長(zhǎng),則試題取樣或內(nèi)容取樣越恰當(dāng)測(cè)驗(yàn)越長(zhǎng),測(cè)驗(yàn)結(jié)果越不易受猜測(cè)的影響測(cè)驗(yàn)的難度信度影響因素被試的同質(zhì)性信度系數(shù)的應(yīng)用信度系數(shù)主要用途:(一)評(píng)價(jià)測(cè)驗(yàn)

一般能力和學(xué)績(jī)測(cè)驗(yàn)0.9

個(gè)性、價(jià)值觀.75-.85<.7時(shí),不能用測(cè)驗(yàn)來對(duì)個(gè)人做評(píng)價(jià),也不能在團(tuán)體間做比較。

>.75時(shí),可用于團(tuán)體間的比較。

>.85時(shí),可用于鑒別個(gè)人。信度系數(shù)的應(yīng)用信度系數(shù)主要用途:(二)解釋分?jǐn)?shù)

1.解釋個(gè)人測(cè)驗(yàn)分?jǐn)?shù):謹(jǐn)防過分重視單一的數(shù)字分?jǐn)?shù)

SE為測(cè)量標(biāo)準(zhǔn)誤:一個(gè)人無數(shù)次重復(fù)施測(cè)一個(gè)測(cè)驗(yàn)所得到的標(biāo)準(zhǔn)差rXX為測(cè)驗(yàn)的信度,SX為測(cè)驗(yàn)分?jǐn)?shù)的方差信度系數(shù)的應(yīng)用若某智力測(cè)驗(yàn)信度為0.95,標(biāo)準(zhǔn)差為15,某兒童得分為120分,就可以估計(jì)其真分?jǐn)?shù)的范圍了。

SE=15×1-0.95=3.35

則他的真實(shí)智力測(cè)驗(yàn)分?jǐn)?shù)的95%的置信區(qū)間為(113.4T126.6)。即他的智力測(cè)驗(yàn)分?jǐn)?shù)有95%的可能是在113.4和126.6之間。如果要提高估計(jì)的把握度,則可求出99%的置信區(qū)間。效度的定義效度指的是測(cè)量的有效性,即一個(gè)測(cè)驗(yàn)對(duì)它所要測(cè)量特質(zhì)準(zhǔn)確測(cè)量的程度。在測(cè)量學(xué)中,效度被定義為與測(cè)量目的有關(guān)的變異(有效變異)與實(shí)測(cè)變異之比(Sv2/Sx2)。測(cè)量的效度除受隨機(jī)誤差影響外,還受系統(tǒng)誤差影響??尚诺臏y(cè)驗(yàn)未必有效,而有效測(cè)驗(yàn)必定可信。信度是效度的必要條件。SX2=ST2+SE2

ST2=SV2+SI2

(與測(cè)量目的有關(guān)的變異,與測(cè)量目的無關(guān)的變異)

SX2=SV2+SI2+SE2SV2SI2SE2SX2ST2

系統(tǒng)誤差的影響系統(tǒng)誤差可能是由以下幾方面原因造成的:1)所要測(cè)量的特質(zhì)有多方面的含義,而量表本身未能全部包含這些方面;2)測(cè)驗(yàn)題目中包含了與所測(cè)特質(zhì)無關(guān)的題目;3)計(jì)分方面的問題,如選擇題的備選答案是不全面的,即沒有完全體現(xiàn)被試情況的差異,因此答案就不是足夠準(zhǔn)確的,而且各題目得分是簡(jiǎn)單累加而未經(jīng)加權(quán)處理,不同題目的重要性程度就沒有得到區(qū)分。效度的分類弗蘭士和米希爾提出的分類方法:(1)內(nèi)容效度(2)構(gòu)想效度(3)效標(biāo)效度內(nèi)容效度(專家效度)-效度1定義內(nèi)容效度是指項(xiàng)目對(duì)欲測(cè)的內(nèi)容或行為范圍取樣的適當(dāng)程度。條件:(1)確定好內(nèi)容范圍,并使測(cè)驗(yàn)的全部項(xiàng)目均在此范圍內(nèi);(2)測(cè)驗(yàn)項(xiàng)目應(yīng)是已界定的內(nèi)容范圍的代表性樣本,即選出的項(xiàng)目能包含所測(cè)的內(nèi)容范圍的主要方面,并使各部分項(xiàng)目所占比例適當(dāng)。內(nèi)容效度-效度1內(nèi)容效度的應(yīng)用適合于測(cè)驗(yàn)所要測(cè)量的內(nèi)容總體能夠明確界定的情況:評(píng)價(jià)教育成就測(cè)驗(yàn)和職業(yè)選拔測(cè)驗(yàn)主要缺點(diǎn)缺乏可靠的數(shù)量指標(biāo)妨礙各測(cè)驗(yàn)間的相互比較構(gòu)想效度-效度2定義構(gòu)念:心理學(xué)家為更好地描述人的具有內(nèi)在一致性的行為和心理現(xiàn)象而構(gòu)想出的抽象概念。比如,智力、創(chuàng)造力、內(nèi)外向、成就動(dòng)機(jī)、抑郁、焦慮等心理學(xué)的構(gòu)念都是非常抽象的,但通過對(duì)一些外顯行為的觀察,將其擁有這種特質(zhì)的程度數(shù)量化。對(duì)同一心理構(gòu)念有不同有測(cè)量方法。但無論怎樣去測(cè)量,對(duì)一種特質(zhì)的測(cè)量結(jié)果必須與該特質(zhì)的理論解釋相符合。測(cè)驗(yàn)對(duì)理論上的構(gòu)想或特質(zhì)的測(cè)量程度;測(cè)驗(yàn)結(jié)果能夠反映所要測(cè)量的心理構(gòu)念的程度例子:智力測(cè)驗(yàn)的構(gòu)想效度檢驗(yàn)對(duì)智力的構(gòu)念,目前較為流行的觀點(diǎn)認(rèn)為智力代表了一個(gè)人獲得、保持知識(shí)的能力,推理能力及適應(yīng)環(huán)境的能力

根據(jù)智力的定義,可以推演出以下幾點(diǎn)假設(shè),1)智力不同于后天獲得的知識(shí),因此與遺傳因素有關(guān),且更為穩(wěn)定,2)智力會(huì)隨著人的生理變化而發(fā)展變化,3)智力會(huì)影響人的學(xué)習(xí)成績(jī)和事業(yè)成功。為驗(yàn)證以上假設(shè),可以從三方面著手:1)計(jì)算同卵雙生子、異卵雙生子、其他同胞、非同胞間智商的相關(guān),看相關(guān)系數(shù)是否依次降低;2)看智商與學(xué)業(yè)成績(jī)間是否有高相關(guān);3)智商是否隨著年齡的增長(zhǎng)而逐漸提高,在某一個(gè)階段又是相對(duì)穩(wěn)定的。如果以上假設(shè)都得到了證實(shí),則說明所編的智力測(cè)驗(yàn)是有效的,如果假設(shè)得不到證實(shí),則說明測(cè)驗(yàn)的效度不高。構(gòu)想效度的評(píng)價(jià)優(yōu)勢(shì):促使研究者把著眼點(diǎn)放在提出假設(shè)、檢驗(yàn)假設(shè)上,使得測(cè)驗(yàn)成為理論研究的重要工具;主要缺點(diǎn):有些構(gòu)想概念模糊,沒有一致的定義;確定效度時(shí)沒有明確的操作步驟;沒有單一的數(shù)量指標(biāo)來描述有效程度。效標(biāo)效度-效度3衡量測(cè)驗(yàn)有效性的一個(gè)重要方法:根據(jù)測(cè)驗(yàn)所作出的預(yù)測(cè)能否證實(shí)效標(biāo):被預(yù)測(cè)的行為,衡量測(cè)驗(yàn)是否有效的標(biāo)準(zhǔn)效標(biāo)效度:考察測(cè)驗(yàn)分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論