心理測量學教案全_第1頁
心理測量學教案全_第2頁
心理測量學教案全_第3頁
心理測量學教案全_第4頁
心理測量學教案全_第5頁
已閱讀5頁,還剩129頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第一章心理測驗總論

[教學目的與要求]

(1)識記并了解心理測驗的發(fā)展歷史

(2)掌握心理測驗的性質(zhì)

(3)了解心理測驗的種類

[教學重點與難點]心理測驗的性質(zhì)

第一節(jié)心理測驗的歷史

一、中國古代的心理測驗思想

1、孔子:把人分為中人、中人以上、中人以下三個類別,“中人以上,

可以語上也;中人以下,不可以語上也”。(相當于現(xiàn)代測量學中的命

名量表和次序量表)

2、孟子:“權(quán),然后知輕重;度,然后知長短。物皆然,心為甚?!泵?/p>

確指出了心理能力和心理特征與物理現(xiàn)象一樣,具有可測量的特性。

3、(南朝)劉勰:世界上最早的“分心測驗”,認為一心不能二用。

4、(南北朝)顏之推:周歲試兒,其是1925年格塞爾嬰兒發(fā)展量表的

前導。

5、“七巧板”又稱益智圖、唐圖(Tangram),為當代多數(shù)智力測驗和

創(chuàng)造力測驗所使用。

6、隋煬帝科舉制度的開端,被認為是世界上最早的心理測驗的實踐。

當時的考試方法:貼經(jīng)和對偶,類似于現(xiàn)代西方言語測驗中常見的填

字和類比。

7、、中國古代心理測驗的思想,包含著典型的東方文化特點:

A、他們都是描述性的,沒有定量的標準;

B、往往將心理特點與道德觀念聯(lián)系起來(局限性)

二、科學心理測驗產(chǎn)生的原因

(-)對智力落后著分類和訓練的早期關(guān)注

1、心理測驗產(chǎn)生的最初原因:對智力落后和精神病人治療的需要。

2、法國醫(yī)生埃斯克羅:1838年出版了兩卷本著作,第一次明確地對智

力落后與精神病人作出了區(qū)分,他認為精神病是以情緒障礙為標志。(發(fā)

現(xiàn)一個人的語言能力是他智力水平的最可靠的指標)

3、法國醫(yī)生塞國恩(E.Sequin):訓練智力落后者的先驅(qū)。1837年,

他創(chuàng)建了第一座教育智力落后兒童的學校,1846年出版了《白癡:用

生理方法進行診斷和治療》。其首創(chuàng)方法感官訓練(sense-training)、肌

肉訓練(muscle-training)至今仍在全世界范圍內(nèi)的智力落后兒童教育機

構(gòu)。其SequinFormBoard拼圖板被心理測驗的非語言測驗所采用,其

操作方法是要求受測者盡快地將不同形狀的圖片嵌入適當?shù)陌疾蹆?nèi)。

4、法國心理學家比奈開始致力于推動建立鑒別不能適應正常學校學習

但是可教育兒童的方法,鑒別出后安排接受一系列特殊教育課程。比

奈與“兒童心理學研究會”的同事們努力推動法國公共教育部開展一

項促進智能不足兒童學習能力計劃,并成立了專門的研究小組,這個

小組的成立是心理測驗發(fā)展史上一個極為重大的歷史事件。

(-)實驗心理學的發(fā)展

1、馮特:1879年他在德國萊比錫大學建立了心理學史上第一個實驗室,

引發(fā)了個別差異的研究。

2、實驗心理學的誕生和發(fā)展,給心理測驗帶來了另一個副產(chǎn)品:嚴格

的標準化程序。

三、心理測驗的發(fā)展(金瑜P7-9)

1、高爾頓:英國生物學家和心理學家高爾頓是倡導測驗運動的主要人

物。他設計了測量差異的方法,1884年,他在倫敦國際博覽會中專門

設立了個“人體測量學實驗室”六年中積累了9337人的資料,雖不是

正式的心理測驗,但可視為心理測驗的開端。他還是評定量表和問卷

法應用的先驅(qū),他的另一個重要貢獻是為心理測驗奠定了統(tǒng)計學基礎,

并第一個提出了相關(guān)的概念。(皮爾遜相關(guān))

2、卡特爾:美國心理學家,從師馮特。1890年,卡特爾在《心理》雜

志上發(fā)表“心理測驗與測量”,這是心理測驗第一次出現(xiàn)于心理學文獻

中。

3、世界上第一個智力測驗:比內(nèi)與助手西蒙在《心理學年報》上發(fā)表

了一篇文章,題為:“診斷異常兒童智力的新方法”,是世界上第一個

正式的心理測驗。比內(nèi)一西蒙量表自1905年發(fā)表后,在1908年修訂,

1908年量表題目總數(shù)達到了59個,所有測題按年齡分組,組別從3-13

歲,測驗的結(jié)果用“智力水平”表示,但其通常翻譯和提法為“智力

年齡”。后又經(jīng)1911年修訂一次。

4、心理測驗的蓬勃發(fā)展:

(1)操作測驗的發(fā)展:理論上的缺陷和實際上的需要,所以就有操作

測驗的問世和發(fā)展。

(2)團體智力測驗的發(fā)展:這是心理測驗方式的極大進步,也擴大了

測驗的應用范圍。

(3)能力傾向測驗的發(fā)展:韋克斯勒所編的學前兒童、學齡兒童、成

人智力量表。

(4)人格測驗的發(fā)展:心理測驗的另一領域是涉及情感或行為等非智

力方面的人格評估,通常包括對性格、氣質(zhì)、情緒狀態(tài)、人際關(guān)系、

動機、興趣和態(tài)度的測量。

(5)現(xiàn)代西方心理測驗的發(fā)展,受到計算機的產(chǎn)生和發(fā)展,以及統(tǒng)計

方法的改進的極大影響。

四、現(xiàn)代心理測驗在中國的發(fā)展:以1949年中華人民共和國成立為分

(-)中華人民共和國成立前心理測驗的發(fā)展

1、1916年,樊炳清先生首先介紹了比內(nèi)一西蒙智力量表;

2、1920年,廖世承和陳鶴琴在南京高等師范學校開設心理測驗課,

并用心理測驗試測投考該校的學生,這便是中國正式開始的科學心理

測驗;

3、1921年,他倆正式出版《心理測驗法》一書,成為中國最早的心理

測驗專著;

4、1922年,中華教育改進社聘請美國教育心理測驗專家麥考爾來華講

學,并主持編制心理測驗事宜;

5、1924年,陸志韋發(fā)表了《訂正比內(nèi)西蒙智力測驗說明書》,30年

代又與吳天敏再次做了修訂;

6、1931年,由艾偉、陸志韋、陳鶴琴、蕭孝嵯等倡議,組織并成立

了中國測驗學會;

7、1932年,《測驗》雜志創(chuàng)刊。

(-)中華人民共和國成立后心理測驗的發(fā)展

1、1979年,林傳鼎、張厚粲等以國外資料為參考,編制了少年兒童

學習能力測驗;

2、1989年,成立中國心理學會心理測驗專業(yè)委員會,標志著中國心

理測驗已進入了一個新的高速發(fā)展時期。

第二節(jié)心理測驗的性質(zhì)

一、測量的基本問題

(-)測量的定義

1、定義:測量就是根據(jù)一定的法則,用數(shù)字對事物加以確定。

a一定的法則:是指測量行為發(fā)生時采用的規(guī)則或方法。

b事物:是指我們要測量的感興趣的事物的屬性或特征。

c數(shù)字:可以表示數(shù)量,也可以不表示數(shù)量。

d通常人們所說的測量,指的是給事物確定出一種數(shù)量化的價值。

2、測量的要素:一是參照點,二是單位

a參照點:一種是絕對的零點;一種是相對參照點,是認為確定的。最

理想的參照點是絕對零點,心理測驗中所用的參照點都是相對的,因

而測量的結(jié)果常常不能以“倍數(shù)”的方式解釋。

b理想的單位的條件:有明確的意義和有相等的價值。

3、測量的量表:量表就是有參照點和單位的連續(xù)體。斯蒂文斯將量表

由低到高依次為:

a命名量表:是水平最低的一種測量量表,用數(shù)字來代替事物或?qū)κ?/p>

物進行分類;

b順序量表:不僅表明類別,還能表明不通類別的大小等級,或具有某

種屬性的程度;

c等距量表:不僅有大小關(guān)系,而且又有相等的單位,因此可以加減運

算,但沒有絕對零點,所以不能做乘除運算;

d比例量表:是最精確的測量,既有相等的單位,又有絕對零點。

二、心理測量的基本概念

1、定義:是根據(jù)一定的法則用數(shù)字對人的行為加以確定,即依據(jù)一定

的心理學理論,使用一定的操作程序,給人的行為和心理屬性確定出

一種數(shù)量化的價值。

2、特點:

(1)心理測量的間接性

(2)心理測量的相對性

3、心理測量的水平

心理測量,不論是對智力,還是對能力傾向或人格的測量,都只具有

等級量表的特征。測驗分數(shù)一般只能顯示個體智力、能力、人格上的

等級位次,而沒有一個相等的單位,故它不是一個等距量表。但由于

多數(shù)心理特征具有常態(tài)分布的特征,且沒有絕對零點,所以我們也可

以把測量后直接得到的原始分數(shù)轉(zhuǎn)化為常態(tài)分布下的標準分數(shù),把這

些量表當作等距量表來處理。

三、心理測驗的基本問題

(-)心理測驗和心理測量的的聯(lián)系和區(qū)別

心理測驗是了解人心理的工具,主要在名詞上使用。而心理測量則是

運用測驗為工具,達到了解人類心理的實踐活動,它主要是在“動詞”

意義上使用。因此,相對而言,心理測量的意義范圍更廣一些。能被

應用于實際心理測量的心理測驗才是真正有效的測驗工具才是真正有

效的測驗工具。

(二)心理測驗的定義

心理測驗就是通過觀察人的少數(shù)有代表性行為,對于貫穿在人的全部

行為活動中心理特點作出推論和數(shù)量化分析的一種科學手段。

心理測驗即是依據(jù)一定的心理學理論,使用一定的操作程序,給人的

行為確定出一種數(shù)量化的價值。

(三)心理測驗的要素

1、行為樣本:對少數(shù)經(jīng)過慎重選擇的樣本進行觀察,來間接推知被試

的心理特征。

2、標準化:是指測驗編制、實施、記分以及測驗分數(shù)解釋程序的一致

性,標準化的量一個重要步驟是建立有代表性的常模。

3、客觀性:在不受被試主觀判斷支配的范圍內(nèi),測驗的實施、評分、

解釋應是客觀的,要盡量減少主試和被試的隨意程度。客觀性另一個

主要方面是測題或整個測驗的難度水平的確定必須客觀。神經(jīng)心理測

驗客觀性最高,智力測驗較高,人格問卷次之,投射測驗的客觀性較

低。

(四)心理測驗的性質(zhì)

1、心理測驗的間接性;

2、心理測驗的相對性;

3、心理測驗的客觀性:心理測驗標準化包括:

①測驗用的項目或作業(yè)、實測說明、實測者的言語態(tài)度及實測時的物

理環(huán)境等,均經(jīng)過標準化。

②評分記分的原則和手續(xù)經(jīng)過了標準化,對反應的量化是客觀的。

③分數(shù)轉(zhuǎn)換和解釋經(jīng)過了標準化,對結(jié)果的推論是客觀的。

第三節(jié)心理測驗的種類

一、按測驗功能分類:

1、能力測驗:智力測驗:比內(nèi)一西蒙智力測驗、韋克斯勒兒童和成人

智力量表。特殊能力測驗:如音樂、繪畫等

2、成就測驗:用于測量個人(團體)經(jīng)過某種正式教育或訓練之后對

知識和技能掌握的程度。學科測驗

3、人格測驗:用于測量性格、氣質(zhì)、興趣、態(tài)度、品德、情緒、動機、

信念、價值觀等方面的個性心理特征,即個性中除能力以外的部分。

明尼蘇達多項人格調(diào)查表(MMPI)、16種人格因素問卷(16PF)、艾

森克人格問卷(EPQ)、羅夏墨跡測驗、主題統(tǒng)覺測驗(TAT)o

二、按測驗對象分類

1、個別測驗:優(yōu)點:主試可以仔細觀察被試的言語情緒,并有充分的

機會與被試合作,所以其結(jié)果正確可靠。缺點:時間不經(jīng)濟,不能在

短時間呢您收集到大量的資料。

2、團體測驗:優(yōu)點:時間經(jīng)濟,主試不必接受嚴格的專業(yè)訓練即可擔

任。缺點:主試對被試的行為不能作切實的控制,所得結(jié)果不及個別

測驗正確可靠。

三、按測驗方式分類:

1、紙筆測驗:言語作為刺激。MMPLEPQ、16PF及韋克斯勒兒童和

成人智力量表中的言語量表部分。

優(yōu)點:實施方便,團體測驗多用,有肢體殘疾而無言語困難的病人只

能用此。

缺點:受被試文化程度的影響。

2、操作測驗:也稱非文字測驗。羅夏墨跡測驗、主題統(tǒng)覺測驗、瑞文

測驗及韋克斯勒兒童和成人智力量表中的操作量表部分。

優(yōu)點:不受文化因素的限制。

3、口頭測驗

4、電腦測驗

四、按測驗目的分類:

1、描述性測驗:目的在于對個人或團體的能力、性格、興趣、知識水

平等進行描述。

2、診斷性測驗:目的在于對個人或團體的某種行為問題進行診斷。

3、預示性測驗:目的在于通過測驗分數(shù)預示一個人將來的表現(xiàn)和所能

達到的水平。

五、按測驗難度分類

1、速度測驗

2、難度測驗

六、按測驗要求分類

1、最高作為測驗

2、典型作為測驗

七、按測驗性質(zhì)分類

1、構(gòu)造性測驗:在此種測驗中,所呈現(xiàn)的刺激和被試的任務是明確的。

2、投射性測驗:在此種測驗中,刺激沒有明確意義,問題模糊,對被

試的反應也沒有明確規(guī)定。

八、按測驗解釋分類

1、常模參照測驗

2、標準參照測驗

九、按測驗應用分類

1、教育測驗

2、職業(yè)測驗

3、臨床測驗

第四節(jié)心理測驗的功能與應用

一、心理測驗的功能:最基本的功能是測量個體差異或行為反應。

(-)從實際應用角度看:

①人才選拔;

②崗位安置

③臨床診斷;

④教育評價;

⑤心理咨詢和治療

(-)從理論研究角度看:

①搜集材料:心理測驗是收集個體差異資料最快捷的辦法。

②提出和驗證假設

③實驗分組

二、測驗的應用

(-)錯誤的測驗觀

1、測驗萬能論

2、測驗無用論:

①某些人格測驗侵犯了個人隱私;

②測驗為宿命論和種族歧視提供了心理學依據(jù)。

3、心理測驗即智力測驗

(-)正確的測驗觀

1、重要的心理學研究方法和決策的輔助工具:心理測驗法的出現(xiàn)是心

理科學發(fā)展史上的一大進步,是心理學研究中不可缺少的研究方法之

O

2、作為研究方法和測量工具尚不完善:過分夸大心理測驗的科學性和

準確性是不對的。

3、科學地看待心理測驗,防止亂用測驗:

①測驗使用者必須具備一定的資格;

②慎重選擇測驗量表;

③與被試建立良好的協(xié)調(diào)關(guān)系;

④正確解釋測驗結(jié)果;

⑤注意測驗的保密。

第二章心理測驗的編制

[教學目的與要求]

(1)掌握心理測驗編制的一般程序

(2)心理測驗的難度與區(qū)分度的定義及

[教學重點與難點]心理測驗的項目分析

第一節(jié)編制測驗的一般程序

一、確定測驗目的

(-)心理測驗的對象:首先要明確測量的對象,也就是測驗編成后要

用于哪些團體。

A年齡

B教育水平:在編制兒童測驗時,要同時考慮教育水平和年齡的影響。

在承認測驗中,一般只考慮教育水平的影響。

C文化背景

(-)測驗的目標:是指編制的測驗是測什么的,即用來測量什么樣

的心理變量或行為特征。目標分析以測驗不同而異,一般分為三種情

況:

A工作分析:主要任務是對所預測的行為活動作具體分析,我們稱之

為任務分析或工作分析。

B對特定概念下定義:如果測驗是為了測量某種特殊的心理品質(zhì)或特

點,那么測驗編制者就必須給所要測量的心理或行為特質(zhì)下定義,然

后必須發(fā)現(xiàn)該特質(zhì)所包含的維量將通過什么行為表現(xiàn)出來或怎樣進行

測量。

C確定測驗的具體內(nèi)容:如果測驗是描述性的顯示測驗,它的目標分

析的主要任務則是確定顯示的內(nèi)容和技能。

(三)測驗用途:所編出的測驗是要對被試做描述,還是做診斷,抑

或是選拔和預示。

二、擬定編制計劃

編制計劃,實際上是對測驗的總體設計,指出測驗的內(nèi)容結(jié)構(gòu)和項目

形式等,以及對每個內(nèi)容、目標的相對重視程度。

根據(jù)布魯姆最早提出教育目標的分類問題。他把學習的心理活動分成

認知、精神運動和情感三個領域,又把認知領域具體分為知識、理解、

應用、分析和綜合、評價。

三、設計測試項目

(-)搜集有關(guān)資料

1、資料要豐富

2、資料要有普遍性

(-)選擇項目形式

1、測驗的目的和材料性質(zhì)

2、接受測驗的團體的特點

3、各種實際因素:時間,人數(shù)、經(jīng)費等

(三)編寫和修訂項目

1、項目的范圍要與測驗計劃相一致

2、項目的數(shù)量要比最后所需的數(shù)目多一倍至幾倍,以備篩選和編制復

3、項目的難度必須符合測驗目的需要

4、項目的說明必須清楚

四、項目的試測和分析

(-)試測

1、預測對象應取自將來正式測驗準備應用的群體

2、預測的實施過程與情境應力求與將來正式測試時的情況相近似

3、預測的時限可稍寬一些,最好使每個被試都能將項目做完,以搜集

較充分的反應資料-,使統(tǒng)計分析的結(jié)果更為可靠。

4、在預測過程中應隨時記錄被試的反應情形,如在不同時限內(nèi)一般被

試所完成的題數(shù)、題意不清之處及其他有關(guān)問題。

(-)項目分析

包括質(zhì)的分析和量的分析

質(zhì)的分析是從內(nèi)容取樣的適當性、題目的思想性以及表達是否清楚等

方面加以分析。

量的分析是對預測結(jié)果進行統(tǒng)計分析,確定項目的難度、區(qū)分度、備

選答案的適宜性等。

五、合成測驗

1、項目的選擇:要考慮測驗的目的、性質(zhì)與功能,區(qū)分度,難度

2、項目的編排:由易到難,有并列直進式,混合螺旋式

A一般原則:a測題的難度排列易逐步上升;b盡可能將同類型的測題

組合在一起;c各種類型測題本身的特點;

B常見試題排列方式:a并列直進式b混合螺旋式

3、編造復本

測驗的各份復本必須等值,所謂等值需符合下列幾個條件:

(1)各份測驗測量的是同一種心理特質(zhì);

(2)各份測驗包含相同的內(nèi)容范圍,但題目不應有重復;

(3)各份測驗題型相同,題目數(shù)量相等,并且有大體相同的難度分布。

六、測驗使用的標準化

1、施測過程標準化

2、評分計分標準化

3、分數(shù)解釋標準化

七、搜集信度、效度資料

(-)信度

指的是測量的可靠性或一致性。

(-)效度

指的是測量的有效性或正確性。

A搜集有關(guān)資料:題目的有關(guān)來源

a已出版的標準測驗

b理論和專家的經(jīng)驗

C臨床觀察和記錄

B命題的原則及編寫要領

a命題的原則(理解):

O1內(nèi)容方面:符合測驗的目的,取樣有代表性,相互獨立,互不牽掛;

02文字方面:準確,簡明扼要,少使用雙重否定句;

03理解方面:不要超出受測團體的知識水平和理解能力,不要有爭議

誤解;

04社會敏感性方面:應盡量避開社會敏感性問題,如涉及社會禁忌或

個人隱私的題目不應使用。

菲利普對于涉及社會敏感性問題,怎樣鼓勵被試作出真實回答的策略:

O1命題時假定被試具有某種行為,使他不得不在確實沒有該行為時才

否定,可避免否定過多的傾向。

?2命題時假定規(guī)范不一致。

?3指出該行為是常見的,雖然是違規(guī)的。

b測題的編制要領:根據(jù)被試的要求不同分為

O1提供型:要求被試給出正確答案。

02選擇題:要求被試在有限幾個答案中選擇正確的答案。由題干和選

項構(gòu)成。

題干:呈現(xiàn)一個問題的情境,一般由直接問句或不完全的陳述句構(gòu)成。

選項:問題的多種可能答案,常常是包含一個正確答案,若干(一般

是1?5個)錯誤答案,其中的錯誤的答案叫做“誘答”。

八、編寫測驗手冊

1、本測驗的目的和功用

2、測驗的理論背景以及選擇項目的根據(jù)

3、測驗的實施方法、時限及注意事項

4、測驗的標準答案和記分方法

5、常模表或其他有助于分數(shù)轉(zhuǎn)化與解釋的資料

6、測驗的信度、效度資料?,包括信度系數(shù)、效度系數(shù)以及這些數(shù)據(jù)是

在什么情境下得到的

第二節(jié)測驗的項目分析

一、項目的難度分析

(-)定義:

1、難度:是指項目的難易程度。P在能力測驗中通常需要一個反映難

度水平的指標,在非能力測驗中,類似的指標是“通俗性”,即取自相

同總體的樣本中,能在答案方向上回答該題的的人數(shù)。

P=&

2、難度的指標:N

以通過率表示難度時?,通過人數(shù)越多,即P值越大,難度就越低;P

值越小,難度越高。因為P值大小與難度高低成反比,有人將其稱

作易度。

(二)難度的計算

1、原始定義法

p=—

(1)客觀試題(二分法記分):N

R:答對該題的人數(shù);N:參加測驗的總?cè)藬?shù)

由于選擇題允許猜測,所以通過率可能因機遇作用而變大。備選答案

的數(shù)目越少,機遇的作用越大,越不能真正反映測驗的難度。為此,

…KP-l

CP=--------

吉爾福特提出了一個P值校正公式。K-1

CP:校正后的難度值;P:實際得到的通過率;K:選項數(shù)目

例題:假定某題有75%的被試通過,若該題有5個備選答案,則校正

后的通過率為:

當有4個備選答案時,CP=0.67;有3個,CP=0.63;有2個,CP=0.54)

b非二分記分:例題某一數(shù)學能力測驗題的滿分為20分,全體被試在

該題上的平均分數(shù)為15分,則該題的難度為:P=15/20=0.75

例:一個題目的難度值為0.75,分別計算此題有四個選項、三個選項、

兩個選項時大的難度值

p=X

(2)主觀題的平均數(shù)法

2、極端分組法

(1)客觀題的極端分組法

根據(jù)測驗分數(shù)按高低排序,用兩個極端組在某項目上的平均通過率表

p=「H'PL

示項目的難度—2PH、PL分別為高分組與低分組的通過率。

步驟:

A、按測驗總分由高到低排序

B、從高分段向下選出全部試卷的27%作為高分組

C、從低分段向上選出全部試卷的27%作為低分組

D、按照上述公式計算項目難度值

例:100人參加某測驗,高分組與低分組各取27人,其中第一題高分

組20人答對,低分組10人答對。這道題的難度系數(shù)是多少?

(2)主觀題的極端分組法

步驟:

A、按測驗總分由高到低排序

B、從高分段向下選出全部試卷的25%作為高分組

C、從低分段向上選出全部試卷的25%作為低分組

D、按照上述公式計算項目難度值

P;XH+X「2NL

2N(H-L)

XH:高分組所得總分;

XL:低分組所得總分;H:該題最高分;L:該題最低分;N:考生總

人數(shù)的25%

(三)難度對測驗的影響

1、難度對測驗分數(shù)分布的影響

(DP值越小一測驗項目越難一測驗分數(shù)集中在低分端一分數(shù)分布呈

正偏態(tài)分布。

(2)P值越大一測驗項目越易一測驗分數(shù)集中在高分端一分數(shù)分布呈

負偏態(tài)分布。

即:測驗項目過份容易或過份難,都會造成測驗分數(shù)偏離正態(tài)分

布,而使測驗分數(shù)的離散程度變小。

2、難度對測驗鑒別力的影響

測驗的主要功效之一就是鑒別考生實際水平的高低。自欺欺人適量難

度可以加大考生得分的差異,從而提高測驗的鑒別力。

P值越接近0.50,試題的鑒別能力就越高;相反,P值越接近1.00或0,

試題的鑒別能力就越低。

3、難度與測驗目的的關(guān)系

項目難度應根據(jù)測驗目的來確定,不能認為測驗項目都必須保持值等

于0.50最好。事實上,一方面,如果每個項目的難度都等于0.50,測

驗項目之間存在高度相關(guān),會使測驗分數(shù)的分布呈雙峰狀態(tài),即有5%

的人所有題目都答對,得滿分,另外5%的人全部答錯,得0分。

為此,難度水平的確定應根據(jù)測驗的目的,性質(zhì)及題目的形成。

(1)對于一般的常模、參照測驗而言,其目的在于測量個體差異,一

般只要求測驗題目的平均難度為0.50,而個題難度可在0.50+0.20之

間。

(2)當測驗用與選拔或診斷時,題目的難度值應更多地接近錄取率。

(3)就選擇題而言,P值應大于概率水平。P值若等于概率,說明被

試純粹憑猜測作答;P值若小于概率,說明題目很可能存在問題。

(4)整個測驗的難度水平取決于組成測驗的題目的難度。

(四)難度的轉(zhuǎn)換

難度指出的僅僅是題目的相對難度,不能客觀地指出題目難度之間差

異大小

P向Z的轉(zhuǎn)換

n假定每個試題所要測量地潛在特質(zhì)或能力是呈正態(tài)分布的,可將P

值作為正態(tài)曲線下的概率面積,以此轉(zhuǎn)換成Z分數(shù)

二、項目的區(qū)分度D

(-)區(qū)分度的概念

區(qū)分度是測驗對被試實際水平的區(qū)分程度。是測驗項目分析的重要內(nèi)

是作為評價項目質(zhì)量、篩選項目的主要指標與依據(jù)

通常用D表示,取值范圍為+1.00至-1.00

D越高時,試題的質(zhì)量越好,D值范圍在-1.00和+1.00之間,值越大,

試題的區(qū)分能力越強。當D為正值時,說明試題是積極區(qū)分,即高分

組通過率高,低分組通過率低。為D負值時,說明試題有消極區(qū)分,

高組通過率低,低組通過率高。D為0時,說明試題無區(qū)分用

(二)區(qū)分度對測驗的影響

1.區(qū)分度與難度的關(guān)系

1試題的區(qū)分度與難度有密切關(guān)系。試題難度過大或過小,其區(qū)分度都

較低。當難度值為1.00或0時,高分組和低分組或全部通過得滿分,

或全部未通過得0分,這時區(qū)分度都為0分。這兩種情況,都表示試

題沒有鑒別考生水平高低的能力。所以,調(diào)整試題難度是提高試題區(qū)

分度的重要方法。右表可說明難度與區(qū)分度的關(guān)系。

5?厘(P)

1.OOO.OO

O.QOO.20

O.-7OO.0O

O.501.OO

O.30O.do

0.10O.NO

O.OOO.OO

A、假如樣本中通過某一項目的人數(shù)比率為1.00或0,說明高分組與低

分組在通過率上不存在差異,因此D為0;假如項目的通過率為0.50,

則可能是高分組的所有人都通過了,而低分組卻無人通過,這樣D的

最大值可能達到l.OOo

B、為了使整個測驗項目的潛在區(qū)分度最大,似乎應該使每個項目的難

度處于0.50水平,但事實并非如此簡單。如果每一個項目的難度均處

于0.50,由于項目難度相同,有可能大多趨向于有關(guān)的內(nèi)容或技能,

結(jié)果造成項目同質(zhì)性提高。在極端情況下,有可能50%的被試全部通

過各項目得滿分,另外50%的被試全部為。分,形成U形分布,這樣

反而降低總分的區(qū)分能力。如果測驗的所有項目都是中等難度,只有

項目的內(nèi)在相關(guān)為0時,整個測驗才能產(chǎn)生常態(tài)分布??紤]到一般測

驗項目之間具有某種程度的相關(guān)難度的分布要廣一些,梯度多一些,

是合乎需要的。

2.區(qū)分度與信度的關(guān)系

O.1NN50.00

0.16OYN

0.20

0.30O.W夕

0.-^00.915

O.SOO.OV。

一個良好的測驗,信度必須要高。測驗的信度與項目的區(qū)分度有著密

切的關(guān)系,事實上,由試題的區(qū)分度還可以估計測驗的信度。整個測

驗中各試題的區(qū)分度值的平均數(shù)越高,測驗的信度就越高。值的平均

數(shù)與信度的關(guān)系如右表。

(三)區(qū)分度計算方法

1、極端分組法

(1)客觀性試題區(qū)分度的計算公式:D=PH-PL

按測驗總分從高到低排序

確定測驗總分最高的27%的被試作為高分組,最低的27%的被試為低

分別求出這兩組被試通過試題的百分比

(2)主觀性試題區(qū)分度的計算公式:N(H-L)

說明:XH:高分組所得總分;XL:低分組所得總分;H:該題最高

分;L:該題最低分;N:考生總?cè)藬?shù)的25%

步驟:

按測驗總分由高到低排序;分別確定測驗總分的25%、25%作為高低

分組;列出試題分析表;將數(shù)據(jù)帶入以上公式加以計算

2、相關(guān)法

考慮中間數(shù)據(jù)

以項目分數(shù)與效標分數(shù)(效標分數(shù)不易得到時,以測驗總分代替)的

相關(guān)作為項目區(qū)分度的指標

相關(guān)越高,區(qū)分能力越好

具體方法:

①點二列相關(guān):適用于一類變量為二分稱名變量,另一類變量為連續(xù)

變量的成對變量的相關(guān)計算。

②二列相關(guān):適用于兩個連續(xù)變量,但其中一個變量被人為分成兩類。

③相關(guān):適用于兩個變量均為二分稱名變量。

積差相關(guān)法,點二列相關(guān),二列相關(guān),牛相關(guān)

區(qū)分度許價

04。肚域弱

0.3H.39眠如微枷更隹

0.2H.29尚可,仍需赧1

0.19以下徽必衡微或加以赧

提高區(qū)分度的方法

使試題的難度適中,使整個考試難度適中

著重考察復雜的學習結(jié)果

區(qū)分度的評價標準

以上標準僅作參考,不是絕對的。事實上,項目區(qū)分度的要求應根據(jù)

測驗目的而定,若測驗目的在于選人,主要評判被試的個別差異,那

么區(qū)分度要求高些;若測驗只是考察被試對所學知識的掌握情況,可

不過多考慮區(qū)分度。

三、項目分析的特殊問題

(-)選擇題反應模式的分析

對于選擇題,除了分析其難度的區(qū)分度外,還要分析被試對每個備選

答案的反應情況。一般要做以下分析:

1、如果正確的備選答案被所有被試所選擇,則說明該題目太易或者題

目中可能提供了某種暗示;

2、如果某個錯誤答案沒有一個被試選擇,說明該選項不具迷惑性,錯

得過于明顯,一般說來,除非有2%以上的人選擇,否則這個備選答案

就應該修改。

3、如果所有被試的選擇了同一個錯誤答案,可能是編制測驗時把答案

定錯了,也可能是教學中發(fā)生了錯誤。

4、如果所有被試的選擇集中在兩個答案上,二者選擇率相近,,說明

該題可能有兩個正確答案或另一個答案也有一定道理。

5、如果高分組對正確答案的選擇與低分組相等或低于,說明所考察的

東西與水平無關(guān)。

6、如果一個題目被試未答人數(shù)過多或選擇各個備選答案人數(shù)相等則說

明題目過難或題意不清。

(二)標準參照測驗的項目分析

標準參照測驗主要用于判斷被試是否掌握了某些知識技能,是達到了

一個事先確定的標準,測驗結(jié)果只與既定標準比較而不在被試之間作

比較。因此測驗分數(shù)的變異性不是標準參照測驗的必要條件。所以,

常模參照測驗的項目分析方法不完全適用于標準參照測驗。

1、難度分析

標準參照測驗可以采用常模參照測驗的方法計算難度,但是在篩選項

目時,對難度水平的要求與常模參照測驗不同。

由于標準參照測驗的目的是為了考察被試對某方面的知識技能的掌握

情況,因此,只要能反映教育目標或教育者認為重要的內(nèi)容,無論其

難度為多少,都可以編入測驗。

2、區(qū)分度分析

標準參照測驗一般分數(shù)變異較小,不適合用相關(guān)法來計算區(qū)分度,但

是可以采用鑒別指數(shù)的方法計算,即比較兩組的通過率。

方法一

根據(jù)測驗分數(shù)將被試分為達標組與未達標組,然后分別計算它們在某

一項目上的通過率,兩組考生通過率之差,便是該項目的區(qū)分度,其

公式為:

D=ps-pn

式中ps、pn為達標組與未達標組在某一項目上的通過率。

這種方法主要的問題是分組標準不同,得到的區(qū)分度值不同。

方法二

用同一測驗對同一組被試在教學前后各施測一次,分別統(tǒng)計各項目前

后測的通過率,二者之差便是項目的區(qū)分度。其公式為:

D=ppost-ppre

D值越高,說明項目對教學效果越敏感,所以有人將其稱做教學效果

敏感指數(shù),其公式也可寫為

其中S為敏感指數(shù),RA、RB分別為前測、后測通過人數(shù),N為總?cè)?/p>

數(shù)。

此種方法的主要缺點是:(1)同一測驗施測兩次可能會產(chǎn)生練習效應,

成績的提高究竟是由教學引起的,還是由練習引起的難以分辨;(2)

只有等兩次施測后才能進行項目分析;(3)當D值低時,難于做出明

確的解釋,無法確定是由試題不良還是由教學不當所致。

式中ppost.ppre分別為項目在后測和前測中的通過率。

方法三

取兩組條件相近的考生,一組接受過同測驗有關(guān)的學科教學,另一組

沒有接受過此種教學。施測同一測驗后,分別統(tǒng)計每組考生答對某題

的人數(shù),兩組考生通過率之差便是該題的區(qū)分度。公式為D=pi-pu

式中pi、pu分別為教學組和未經(jīng)教學組對某題的通過率。

此方法的缺點是,兩組考生除在教學方面不同外在其他有關(guān)方面必須

同質(zhì),而這一點是難以做到的。

項目特征曲線:是項目特征函數(shù)或項目反應函數(shù)的圖解形式,它反映

了被試對某一測驗項目的正確反應概率與該項目所對應的能力或特質(zhì)

的水平之間的一種函數(shù)關(guān)系。這一方法不僅適用于項目分析,而且也

適用于某些測驗量表的編制。

A項目特征曲線可圖解測驗的鑒別力,項目鑒別力的高低主要在于其

曲線的傾斜度,曲線坡度越陡,鑒別能力越好,預測的誤差越小。

B項目特征曲線可以圖解項目難度。

C項目特征曲線還可以圖解選擇題的誘答反應。

第三章測量的誤差及其檢驗

[教學目的與要求]

(1)了解測量誤差的種類與來源

(2)掌握信度的定義、意義及其估計方法

(3)掌握效度的定義、意義及其估計方法

[教學重點與難點]信度與效度的估計

第一節(jié)測量的誤差

一、誤差的種類

(-)誤差的定義

誤差是在測量中與目的無關(guān)的因素所產(chǎn)生的不準確的或不一致的結(jié)

果。

(二)誤差的種類

1、隨機誤差:與測量目的無關(guān)的偶然因素引起的變化規(guī)律的誤差,使

得多次的測量結(jié)果不一致,這種誤差的大小和方向是隨機的。既影響

測量的準確性又影響一致性。

2、系統(tǒng)誤差:與測量目的無關(guān)的因素引起的恒定的有規(guī)律的誤差,它

穩(wěn)定地存在于每一次測量中。只影響測量的準確性。

二、誤差的來源

(-)測驗自身引起的誤差

主要來源于測驗的編制過程,其中項目取樣影響最大。

(-)施測過程引起的誤差

1、測試環(huán)境

2、測試時間

3、主試因素

4、意外干擾

5、評分記分

(三)被試引起的誤差

1、應試動機

2、測驗焦慮

3、測驗經(jīng)驗

4、練習效應

5、反應傾向

6、生理變因

三、真分數(shù)

(-)含義

真分數(shù)是指測量沒有誤差時所得到的真值。其操作定義是無數(shù)次測量

結(jié)果的平均值。

(-)數(shù)學模型及其假設

1、CTT模型——經(jīng)典測驗理論假定,觀察分數(shù)(X)與真分數(shù)(T)

之間是一種線性關(guān)系,并只相差下個隨機誤差(E),即乂=丁+£這里的

測量誤差E指的是引起測量不一致的變因所產(chǎn)生的效應,即指隨機誤

差,不包括系統(tǒng)誤差。

分析假設公理:

(1)若一具人的某種心理特質(zhì)可以用平行的測驗分數(shù)反復測量足夠多

次,則其觀察分數(shù)的平均值會接近于真分數(shù)。即E(X)=T或E(E)

=10

(2)真分數(shù)和誤差分數(shù)之間的相關(guān)為零。

即P(T,E)=0

(3)各平行測驗上的誤差分數(shù)之間的相關(guān)為零。

2、引申:

(1)在一次測量中,被試觀察分數(shù)的方差等于其真分數(shù)方差與誤差分

數(shù)方差之和。S2X=ST2+S2E

(2)真分數(shù)可以分成兩部分:與測量目的有關(guān)變異S2V和與測量目的

無關(guān)的變異S2L即:ST2=S2V+S2I

(3)一次測驗中,一個團體的實測分數(shù)之間的變異性是由與測量目的

有關(guān)的變異數(shù)SV2、穩(wěn)定的但出自無關(guān)來源的變異數(shù)SI2和測量誤差

的變異數(shù)SE2所決定的。

即:S2X=SV2+SI2+SE2

第二節(jié)信度(reliability)

一、什么是信度

定義:指的是測量結(jié)果的穩(wěn)定性程度(或叫可靠性)。也指同一被試在

不同時間內(nèi)用同一測驗(或用另一套相等的測驗)重復測量,所得結(jié)

果的一致程度。

1、理論定義:傳統(tǒng)的信度理論認為,每一個測驗的實得分數(shù)(X)總

是由真實分數(shù)(T)和誤差(E),兩個部份構(gòu)成的,公式為:

X=T+E

討論一組測驗分數(shù)的特性時,可用方差導標具體分數(shù),公式:

(測驗實得分數(shù)的方差)=(測驗真分數(shù)的方差)+(測驗誤差的方

差)

2、操作定義:

定義1:一組測量分數(shù)的真分數(shù)變異數(shù)(方差)與總變異數(shù)(總方差、

實得分數(shù)的方差)的比率,或者是真實分數(shù)方差占總方差的的百分比。

計算公式:

rxx=ST2/SX2

定義2:信度乃是一個被試團體的真分數(shù)與實得分數(shù)的相關(guān)系數(shù)的平

方。即

rxx=ptx2

定義3:信度乃是一個測驗X(A卷)與它的任意一個“平行測驗”

X/(B卷)的相關(guān)系數(shù)。即rxx=pXX'2

二、信度的指標

(一)信度系數(shù):大部分情況下,信度是信度系數(shù)為指標,它是一種

相關(guān)系數(shù)。理論上說就是真分數(shù)方差與實得分數(shù)的方差的比值,公式

是:rxx=ptx2

(-)信度指數(shù):是真分數(shù)標準差與實得分數(shù)的標準差的比值,公式

是:

信度指數(shù)的平方就是信度系數(shù)rxx=ST2/SX2

(三)標準誤:指出個人測驗分數(shù)的變異量。信度系數(shù)表示一組測量

的實得分數(shù)與真分數(shù)的符合程度,標注誤表示個人測驗分數(shù)的變異量。

用一組被試兩次測量結(jié)果來代替同一個人反復實測,有了信度的另一

個指標:

測量標準誤。測量的標準誤與信度之間呈反比關(guān)系:標準誤越小,信

度越;標準誤越大,信度越低。

三、信度與測驗分數(shù)的解釋

(-)解釋真實分數(shù)與實得分數(shù)的相關(guān)

(二)比較信度可以接受的水平

(三)解釋個人分數(shù)的意義:

(四)比較不同測驗分數(shù)的差異:

四、信度的類型及估計方法

(-)重測信度(再測信度):

1、含義與計算

又稱穩(wěn)定性系數(shù)。他的計算方法是采用重測法,即使用同一測驗,在

同樣條件下對同一組被試前后施測兩次測驗,求兩次得分間的相關(guān)系

_YXY-NXY

數(shù)?!耙籒w

2、使用的前提條件

(1)所測量的心理特性必須是穩(wěn)定的。

(2)遺忘和練習的效果基本上相互抵消。

(3)在時間間隔中沒有學習另外的與測驗有關(guān)的東西,或者說每人學

習其他東西的程度都一樣。

3、優(yōu)缺點:

優(yōu)點:

它最符合重復測驗的涵義,是重復測驗最簡單最明確的方式

(2)首測和再測只需要一套測驗題目,省時,省力

(3)同一套題目無論施測兒次,所測的屬性是完全相同的。

缺點:

(1)同一組被試對同一個測驗先后兩次作答相互之間是不獨立的。

(2)如果兩次施測時間間隔較長,在此期間被試的身心發(fā)展,新知識

的獲得,都會使兩次測驗結(jié)果不相同。

(3)同一個被試對現(xiàn)一個測驗先后兩次作答,對測驗的興趣不同,影

響測驗結(jié)果。

(4)兩次施測的環(huán)境不同,也是產(chǎn)生測量誤差的因素。

(二)復本信度(Alternate-formreliability)

1、含義與計算:

含義:又稱等值性系數(shù)。它是以兩個平行或復本的測驗(等值但題目

不同)來測量同一群體,然后求得被試在兩個測驗上得分的相關(guān)系數(shù),

這個相關(guān)系數(shù)就代表了復本信度的高低。復本信度反映的是測驗在內(nèi)

容上的等值性,故稱等值性系數(shù)。復本信度的高低關(guān)鍵取決于復本測

驗的選擇。

2、使用的前提條件:

(1)要兩份或兩份以上真正平行的測驗

(2)被試要有條件接受兩個測驗。主要取決于時間、經(jīng)費等幾方面。

3、優(yōu)缺點:

優(yōu)點:

(1)一個測驗的復本使得測驗數(shù)目的增加,對于所欲測量的屬性相聯(lián)

系的行為總體代表性強,因此,一個測驗的兩個復本在兩三天至一周

對同一組被試施測時,獲得的復本信度系數(shù)是相當準確的。

(2)測驗的兩個復本,如果在不同時間使用,其信度不僅可以反映在

不同時間的穩(wěn)定性,而且還可以反映對于不同測題的一致性。

(3)兩個復本在同時使用時,可以避免再測驗信度的缺點。

缺點:

(1)編制兩個完全相等的測驗是很困難的,

(2)復本法只能減少而不能完全排除練習和記憶的影響。

(3)被試同時接受性質(zhì)相似的兩個測驗可能減少完成測驗的積極性。

4、適用范圍

(1)如果兩個復本的施測相隔一段時間,則稱穩(wěn)定與等值系數(shù)。穩(wěn)定

與等值系數(shù)既考慮了測驗在時間上的穩(wěn)定性,也考慮了不同題目樣本

反應的一致性,因而是更為嚴格的信度考察方法,也是應用較為廣泛

的方法。

(2)在實際應用時,為了抵消施測順序的效應,應該有半數(shù)的被試先

作A本再作B本,另一半被試先作B本再作A本。

(3)復本測驗不僅適用于難度測驗,也是估計速度測驗信度的最好方

法。

(三)分半信度(split-halfreliability)

1、含義與計算

指采用分半法估計所得的信度系數(shù)。這種方法估計信度系數(shù)只需一種

測驗形式,實施一次測驗。通常是在測驗實施后將測驗按奇、偶數(shù)分

為等值的兩半,并分別計算每位被試在兩半測驗上的得分,求出這兩

半分數(shù)的相關(guān)系數(shù)。

常見的是將測題按其序列號的奇偶分,這種分法的前提是:測題并非

隨機排列,而是按某種順序(如難度)排列;如果隨機排列的題目,

則必須是所有題目平等的(要么難度相等,要么性質(zhì)一樣);如果測驗

有多個分量表,應該在分量表內(nèi)部排好順序,再把各分量表分兩半組

合起來求相關(guān)。

2、計算

(1)兩半測驗分數(shù)的變異數(shù)相等(方差齊性)

先計算兩半測驗的積差相關(guān)系數(shù),再進行校正。常用的修正公式是:

r=2%,

斯皮爾曼-布朗公式:“-1+如

(2)兩半測驗分數(shù)的變異數(shù)不等(方差不齊),可采用:

弗朗那根公式I工J

r=l-4

s.

或盧倫公式其中s;為兩半測驗分數(shù)之差的變異數(shù),s;為測驗總分的變異數(shù).中的

任----個。

例題:對初一年級學生進行地理成績測驗,每答對1題得1分,答錯1

題得0分,測題從易到難排列如表所示,試估計該測驗的分半信度。

學12345678910

奇1022132213

數(shù)

分X

偶0101123223

數(shù)

分Y

總1123255436

由計算器算得a=1.7,4=0.9468,7=1.5,<TV=1.08012

Sxy=30,<r,=1.75119

尸=4=-

3、使用條件及范圍

分半信度通常是在只能施測一次或沒有復本的情況下使用。而且,在

使用斯皮爾-布朗公式時要求全體被試在兩半測驗上得分的變異數(shù)要相

等。當一個測驗無法分成對等的兩半時,分半信度不宜使用。

(四)同質(zhì)性信度(homogeneityreliability)

1、含義:指測驗內(nèi)部所有題目間的一致性。

題目的一致性有兩層含義:其一是指所有題目都測的是同一種心理特

質(zhì);其二是指所有題目之間都具有較高的正相關(guān)??傊?,同質(zhì)性信度

就是一個測驗所測內(nèi)容或特質(zhì)的相同程度。

2、測量同質(zhì)性的基本公式:

%一

1+(1)虧

其中K為構(gòu)成測驗的項目數(shù),虧為項目間相關(guān)系數(shù)的平均數(shù),%為同質(zhì)性信度值.

3、庫德-理查遜公式:適用于客觀性試題(0、1記分)

K-ao公式:

K表示構(gòu)成測驗的題目數(shù),Pj為通過第i題的人數(shù)比例,q1為未通過第i題的人數(shù)比例為測驗總分的變異:

K-4I公式:

kS^-X(k-X)

二-d)s;-

K表示構(gòu)成測驗的題目數(shù),又為測驗總分的平均數(shù),s:為測驗總分的變異數(shù).

3、克倫巴赫系數(shù)(多重記分測驗)

其中K為測驗的題目數(shù),S:為某一題目分數(shù)的變異數(shù),S;為測驗總分的變異數(shù).

例題:某態(tài)度量表共7題,100個被試在各題上的得分方差分別是

0.81,0.82,0.79,0.83,0.85,0.76,0.77,測驗總分的方差為14.00,則此測量的

的信度為0.70.

4、注意:

當各個測題的得分有較高的正相關(guān)時,不論題目的內(nèi)容和形式如何,

測驗即為同質(zhì)的;若所有題目看起來好像測量的是同一特質(zhì),但相關(guān)

很低或為負相關(guān)時.,測驗即為異質(zhì)的。

對于一些復雜的、異質(zhì)的心理學變量,采用單一的同質(zhì)性測驗是不行

的,因而常常采用若干相對異質(zhì)的分測驗,并使每個分測驗內(nèi)容具有

同質(zhì)性,這樣每個分測驗就能用來預測異質(zhì)效標的某一方面。

(五)評分者信度(scorerreliability)

1、含義與計算:指的是多個評分者給同一批人的答卷進行評分的一致

性程度。是用于測量不同評分者之間所產(chǎn)生的誤差。

^K2(N3-N)

式中W為和諧系數(shù),K為評分者的人數(shù),N為被評對象數(shù),RI為每一

對象被評的等級總和。

例子:假設有三位專家給六篇論文評等級,結(jié)果如表所示,試計算此

次評分者的評分者信度。

C家123456

1241563

2341562

3351462

Ri813314187

解:分別求出各篇論文等級之各Ri,

則有ZR:=63,ZR:=811,k=3,n=6

LK2(N3-N

121

=0.95

2、注意的問題:為了衡量評分者之間的信度高低,可隨機抽取若干份

測驗卷,由兩位評分者按評分標準分別給分,然后再根據(jù)每份測驗卷

的兩個分數(shù)計算相關(guān),即得評分者信度。一般要求在成對的受過訓練

的評分者之間平均一致性達0.90以上,才認為評分是客觀的。當多個

評分者評定多個對象,并以等級法記分時,可采用肯德爾和諧系數(shù)作

為評分者信度的估計。

五、標準參照測驗的信度估計

1、對相關(guān)法信度系數(shù)進行校正

為了對標準參照測驗的信度做出較為準確的估計,利文斯頓提出了對

相關(guān)法信度系數(shù)的校正公式:

"+(、-Of

52+(X-C)2

式中公為標準參照測驗的信度,〃為任何一種相關(guān)法信度系數(shù),

S為分數(shù)的標準差,又為分數(shù)的均值,C為達標分數(shù)或分數(shù)線.

2、用決策的一致性作為信度指標

林德曼與梅倫達的一致性公式:

C=…

+v(n+/7+?)

C為一致性,n為在兩次施測中均未達到標的人數(shù),b為在兩次施測中

均已達標的人數(shù),f為只在第一次施測中達標的人數(shù),s為只在第二次

施測中達標的人數(shù),v為f或s中較小的值。

六、各種信度系數(shù)相應誤差方差的來源

信度系數(shù)類型誤差方差來源

重測信度時間取樣

復本信度(連續(xù)施測)內(nèi)容取樣

復本信度(間隔施測)時間和內(nèi)容取樣

分半信度內(nèi)容取樣

同質(zhì)性信度內(nèi)容的異質(zhì)性

評分者信度評分者之間的差異

七、影響信度的因素

(-)樣本的特征:信度常用信度系數(shù)來表示,信度系數(shù)就是相關(guān)系

數(shù),相關(guān)系數(shù)受樣本團體得分分布、樣本是否異質(zhì)及樣本團體平均能

力水平的影響。

1、樣本團體分數(shù)分布的影響:當分布范圍增大時,其信度估計就較高;

當分布范圍減小時,相關(guān)系數(shù)隨之下降,信度值則較低。

2、樣本團體異質(zhì)性的影響:若獲得信度的取樣團體較為異質(zhì)的話,往

往會高估測驗的信度,相反則會低估測驗的信度。

3、樣本團體平均能力水平的影響:對于不同水平的團體,題目具有不

同的難度,每個題目在難度上的微小差異累計起來便會影響信度。

(-)測驗的長度:

1、測驗越長,測驗的測題取樣或內(nèi)容取樣越有代表性。

2、測驗越長,被試的猜測因素影響就越小。

3、測驗的項目越多,在每個項目上的隨機誤差就可以相互抵消。

1+(1股

式中k為改變后長度與原長度之比,2為原測驗的信度,

%為測驗長度是原來的k倍時的信度估計.

(三)測驗的難度:難度對信度的影響只存在于某些測驗中,如智力

測驗、成就測驗、

能力傾向測驗等。如果一個測驗對某團體而言太容易,會使所得分數(shù)

都集中在高分端;當題目太困難時;得分就會集中在低分端。兩種情

況均會使信度樣本的分數(shù)范圍變窄,從而使測驗變得不夠可靠。從理

論上說,只有難度水平為50%時,才能使測驗分數(shù)分布范圍最大,求

得的信度也最IWJ。

(四)測驗的時間間隔:以再測法或復本法求信度,兩次測驗相隔時

間越短,其信度系數(shù)越大;間隔時間越久,其它變因介入的可能性越

大,受外界的影響越大,信度系數(shù)便越低。

第三節(jié)測驗的效度

在測量活動中,測量者對所使用的測量工具非常信任,他會采取復測

行為以判斷測量有無誤差;如果測量者對所使用的測量工具發(fā)生懷疑,

那他往往會去找一公認非常準確的測量工具對先前的測值進行檢驗。

這種在原測量工具之外尋求新的證據(jù)來肯定或否定某一測量工具準確

性的做法就是在研究測量的效度問題。心理測量是一種間接測量,心

理測量更重視測量的效度研究。

一、效度(validity)

(-)定義:效度是指所測量的與所要測量的心理特點之間符合的程

度,或者簡單地說是指一個心理測驗的準確性?;蚴侵敢粋€測驗或量

表實際能測出其所要測的心理特質(zhì)的程度。

1、關(guān)于效度的概念,我們要特別注意以下幾點:

(1)效度是一個相對的概念。這種相對性表現(xiàn)在兩個方面:

①效度是相對于一定的測量目的而言的。

②心理特質(zhì)是較隱蔽的特性,只能通過他的行為表現(xiàn)來進行推測,因

此,心理測量不可能達到百分之百的準確,而只能達到某種程度的準

確。

(2)效度是測量的隨機誤差和系統(tǒng)誤差的綜合反映。任一誤差的存在,

測量的效度都會受到影響

(3)判斷一個測量是否有效要從多方面收集證據(jù)

2、在測驗理論中,效度被定義為在一組測量中,與測量目標有關(guān)的真

實方差(或稱有效方差,由所要測量的變因引起的有效變異)與總方

差(實得變異數(shù))的比率,即

X),_2

?x

3、一組測驗分數(shù)的總方差等于真實方差與誤差方差之和,而真實方差

又可分為兩部分,即有關(guān)的方差和無關(guān)的但穩(wěn)定的方差,后者也就是

所謂系統(tǒng)誤差帶來的方差S2X=SV2+SI2+SE2

由于有效方差是一個理論值,無法測量,所以效度和信度一樣是一個

理論上的概念。

二、效度和信度的關(guān)系

(-)信度是效度的必要而非充分條件。

(-)效度是受信度制約的:信度系數(shù)的平方根是效度系數(shù)的最高限

度,

可見,一個測驗的效度總是受它的信度所制約。

三、效度的類型及評估方法

(一)內(nèi)容效度(ContentValidity)

1、定義:指的是項目對欲測的內(nèi)容或行為范圍的取樣的適當程度。也

即測驗題目對有關(guān)內(nèi)容或行為取樣的適用性,從而確定測驗是否是所

欲測量的行為領域的代表性取樣。

一個測驗要具備較好的內(nèi)容效度必須滿足兩個條件:

(1)要確定好內(nèi)容范圍,并使測驗的全部項目均在此范圍內(nèi)。所謂內(nèi)

容范圍可以是具體知識或技能,也可以是復雜的行為。要對所測量的

心理特性有個明確的概念,并劃定出哪些行為與這心理特性有關(guān)。

(2)測驗題目應是所界定的內(nèi)容范圍的代表性取樣。

2、內(nèi)容效度的評估方法:

(1)專家判斷法:

(2)統(tǒng)計分析法

(3)經(jīng)驗推測法:3、內(nèi)容效度的應用

(1)是編制任何測驗應加以考慮的基本方面。

(2)較適用于評價教育成就測驗和職業(yè)選拔測驗。

(3)對標準參照測驗更為重要,是因為在標準參照測驗中我們主要關(guān)

心的是被試對一定范圍的知識、技能掌握得如何。

(4)注意內(nèi)容效度與表面效度的關(guān)系(5)它缺乏可靠的數(shù)量指標,

因而妨礙了各測驗間的相互比較。

(二)構(gòu)想效度(constructValidity)

1954年提出,有人翻譯為構(gòu)思效度,也有叫結(jié)構(gòu)效度。它是指測驗能

夠測量到理論上的構(gòu)想和特質(zhì)的程度,即測驗的結(jié)果是否能證實或解

釋某一理論的假設、術(shù)語或構(gòu)想,解釋的程度如何。

1、構(gòu)想效度的特點:

(1)其大小首先取決于事先假定的心理特質(zhì)理論

(2)當實際測量的資料無法證實我們的理論假設時,并不一定就表明

該測驗結(jié)構(gòu)效不高,因為還有可能是理論假設不成立,或者該實驗設

計不能對該假設作適當?shù)臋z驗等情況,當然這就使得結(jié)構(gòu)效度的獲取

更為困難。

(3)結(jié)構(gòu)效度通過測量什么、不測量什么的證據(jù)累積起來給以確定,

因而不可能有單一的數(shù)量指標來描述結(jié)構(gòu)效度。

結(jié)構(gòu)效度主要應用于智力測驗、人格測驗等一些心理測驗方面。

2、結(jié)構(gòu)效度的確定方法:

(1)提出理論假設,并把這一假設分解成一些細小的綱目,以解釋被

試在測驗上的表現(xiàn)。

(2)依據(jù)理論框架,推演出有關(guān)測驗成績的假設。

(3)用邏輯和實證的方法來驗證假設。

3、構(gòu)想效度的估計方法:

(1)測驗內(nèi)法(對測驗本身的分析):

(2)測驗間的相互比較:

①相容效度

②區(qū)分效度是構(gòu)思效度的又一個證據(jù)。

③因素效度:(3)效標關(guān)聯(lián)法,效度的研究證明:一個測驗若效標度

理想,那么該測驗所預測的效標的性質(zhì)和種類就可以作為分析測驗構(gòu)

思效度的指標,另一種證實構(gòu)思效度的方法是心理特質(zhì)的發(fā)展變化。

(4)實驗法和觀察法證實:觀察實驗前和實驗后分數(shù)的差異是驗證構(gòu)

思效度的方法。

3、對構(gòu)想效度的評價

(1)構(gòu)想效度促使研究者把著眼點放在提出假設上、檢驗假設上,使

得測驗成為理論研究的重要工具,而不再只是實際決策的輔助工具,

從而使測驗有了更廣闊的發(fā)展情景。

(2)主要缺點是,有些構(gòu)想概論模糊,沒有一致的定義,確定效度時

沒有明確的操作步驟,沒有單一的數(shù)量指標來描述有效程度。

(三)效標效度

1、定義:又稱實證效度,反映的是測驗預測個體在某種情境下行為表

現(xiàn)的有效性程度。被預測的行為是檢驗效度的標準,簡稱效標。由于

這種效度是看測驗對效標預測如何,所以叫效標效度。這種效度需在

實踐中檢驗,所以又稱為實證效標。

2、分類:根據(jù)效標資料是否與測驗分數(shù)同時獲得,又可分為同時效度

和預測效度兩類。同時效度即測驗所得分數(shù)可與效標同時驗證,通常

與心理特征的評估及診斷有關(guān)。

3、效標和效標測量:效標,即衡量測驗有效性的參照標準,指的是可

以直接而且獨立測量的我們感興趣的行為。效標可以分為兩個層次,

其一是理論水平的觀念效標,其二是操作定義水平的效標測量。

4、常用的效標包括:

(1)學業(yè)成就;

(2)實際工作表現(xiàn)

(3)特殊訓練成績

(4)精神病診斷

(5)等級評定

(6)效標團體的比較

(7)先前有效的測驗

5、效標效度的表示方法

(1)相關(guān)法:效度系數(shù)是最常用的效度指標,尤其是效標效度。它是

以皮爾遜積差相關(guān)系數(shù)來表示的,主要反映測驗分數(shù)與效標測量的相

關(guān)。當測驗成績是連續(xù)變量,而效標資料是二分變量時,計算效度系

數(shù)可用點二列相關(guān)公式或二列相關(guān)公式;當測驗分數(shù)為連續(xù)變量,效

標資料為等級評定時,可用賈斯朋多系列相關(guān)公式計算。

(2)區(qū)分法:是檢驗測驗分數(shù)能否有效地區(qū)分由效標所定義的團體的

一種方法。算出t值后,便可知道分數(shù)的差異是否顯著。若差異顯著,

說明該測驗能夠有效地區(qū)分由效標定義的團體,否則,測驗是無效的。

重疊百分比可以通過計算每一組內(nèi)得分超過(或低于)另一組平均數(shù)

的人數(shù)百分比得出;另外,還可以計算兩組分布的共同區(qū)的百分比。

重疊量越大,說明兩組分數(shù)差異越小,即測驗的效度越差。

(3)命中率法:是當測驗用來做取舍的依據(jù)時,用其正確決定的比例

作為效度指標的一種方法。命中率的計算有兩種方法,一是計算總命

中率,另一種是計算正命中率。

命中表

失?。?)成功(+)

成功(+)A(失誤)B(命中)

失敗(-)C(命中)D(失誤)

總命中率:p=-命中—〃x100%=―5^—X100%

命中+失誤A+B+C+D

正命中率黑管'1°°%=焉-°°%

(4)預期表法:是一種雙向表格,預測分數(shù)排在表的左邊,效標排在

表的頂端。從左下至右上對角線上各百分數(shù)字越大,而其它的百分數(shù)

字越小,表示測驗的效標效度越高;反之,數(shù)字越分散,則效度越低。

(5)功利率法:使用測驗所花掉的費用與得到的利益進行比較,此種

效度指標叫功利率。

四章測驗分數(shù)的合成與解釋

[教學目的與要求]

(1)了解分數(shù)合成的方法

(2)掌握分數(shù)解釋要注意的問題

[教學重點與難點]常模及其意義

第一節(jié)分數(shù)的合成

分數(shù)的組合可以在不同層面上進行,一般情況下有以下幾種方法:

項目的組合:不同項目可以組合成量表或分測驗,所有項目可以合成

一個測驗總分。

分測驗或量表的組合:幾個分測驗可量表的分數(shù)組合到一起得到一個

合成分數(shù)。

測驗或預測源的組合:幾個測驗或預測源同時使用。

一、組合變量的方法

(―)臨床判斷MMPI

根據(jù)直覺經(jīng)驗,主觀地將各種因素組合以得出結(jié)論或預測的方法叫臨

床判斷。

優(yōu)點:

1、能從整體上對各個因素加以綜合考慮

2、每個判斷都是針對特定的個人做出的,能考慮到每個人具體情況。

缺點:

1、主觀加權(quán)可能受判斷者的偏見的影響,不夠客觀;

2、沒有精確的數(shù)量指標;

3、判斷者需要受過訓練并具有豐富經(jīng)驗

(―)推理方法

不考慮各個變量的經(jīng)驗關(guān)系,而是根據(jù)某種先驗的理想程序來作推理

性加權(quán)。

1、單位加權(quán):將各個變量直接相加而得一個合成分數(shù)

2、等量加權(quán):將所有分數(shù)轉(zhuǎn)換成標準分數(shù),然后再把它們加以組合。

(三)多重分段:假設預測源間不具互償性。

把人分成達到最低標準(接受)與未達到最低標準(拒絕)兩類,而

不在這兩組人內(nèi)部作進一步區(qū)分。

1、綜合分段

把風個預測源與效標的關(guān)系綜合起來考慮,在保證合成體的預測效度

最高的前提下,分別確定出每個預測源的最佳分數(shù)線。

2、連續(xù)柵欄

當預測源分數(shù)只能陸續(xù)得到,而每個變量又具有自己特定的閾限時,

不必讓每個申請者都在所有預測源上嘗試,只有通過第一項,才能進

行下一項。

(四)多重回歸

當同時采用幾個預測源來預測一個效標,而這些預測源變量之間又具

有互償性時,采用多重回歸。

(五)合成分數(shù)

1、完形記分

將各個變量看做一個整體,不是孤立地看第一個反應結(jié)果,而是看總

的反應模式。

2、輪廓分析

考慮被試在各個測驗或量表上所得分數(shù)的輪廓,而不是將各個變量作

簡單的線性組合。

二、各種組合方法的比較

(一)應用范圍

1、選人:以多重分段或多重回歸方法來組合預測分數(shù)

2、安置:多重回歸

3、描述:所有方法均可

(-)資料特征

1、輸入資料的種類

2、輸出資料的方式

(三)效度

1、合成體的效度

2、元素的效度

3、效度的比較

(1)推理法與實證法的比較

(2)分段法與回歸法的比較

(3)臨床法與統(tǒng)計法的比較

第二節(jié)分數(shù)的解釋

一、常模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論