第九章-人員測評理論與方法(蕭鳴政)測評質(zhì)量檢驗(yàn).ppt_第1頁
第九章-人員測評理論與方法(蕭鳴政)測評質(zhì)量檢驗(yàn).ppt_第2頁
第九章-人員測評理論與方法(蕭鳴政)測評質(zhì)量檢驗(yàn).ppt_第3頁
第九章-人員測評理論與方法(蕭鳴政)測評質(zhì)量檢驗(yàn).ppt_第4頁
第九章-人員測評理論與方法(蕭鳴政)測評質(zhì)量檢驗(yàn).ppt_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、測評質(zhì)量檢驗(yàn),一項(xiàng)測評是否可靠、可信? 一項(xiàng)測評是否準(zhǔn)確、有用? 一項(xiàng)測評是否公正、公平? 一項(xiàng)測評是否經(jīng)濟(jì)、合理?,測評質(zhì)量檢驗(yàn),測評質(zhì)量的檢測,其內(nèi)容主要有兩個(gè)方面:一是分項(xiàng)素質(zhì)測評結(jié)果分析; 二是各項(xiàng)素質(zhì)的綜合結(jié)果分析。 分析的指標(biāo)主要有效度、信度、區(qū)分度、獨(dú)立性,第一節(jié) 效度,所謂的效度是指測評結(jié)果對所測素質(zhì)反映的真實(shí)程度。 考評人員素質(zhì)測評的效度的方法有三種: 一是從內(nèi)容性質(zhì)方面分析其內(nèi)容效度; 二是從實(shí)證方面分析其結(jié)構(gòu)效度; 三是從校標(biāo)相關(guān)性方面分析其關(guān)聯(lián)效度。,1、內(nèi)容效度content validity,效度即測評結(jié)果的有效性程度。 內(nèi)容效度是指實(shí)際測評到的內(nèi)容與我們所想測評內(nèi)

2、容的一致性程度。 當(dāng)實(shí)際測評到的內(nèi)容與我們事先所相測評的內(nèi)容越一致時(shí),則說明測評結(jié)果的內(nèi)容效度越高,測評結(jié)果就越有效。 比如,要測驗(yàn)學(xué)生的學(xué)習(xí)能力,學(xué)習(xí)能力包括識記、理解、應(yīng)用、分析、綜合以及評價(jià)等方面的能力。檢測內(nèi)容效度就可以看測驗(yàn)內(nèi)容是否反映了這些方面的能力。,內(nèi)容效度主要是分析被包括在測評范圍之內(nèi)的所有被測行為樣本是否具有代表,代表程度如何。其分析具體為兩個(gè)方面的檢查: 1.是否包括了欲測素質(zhì)中的各種成分; 2.包括在測評范圍內(nèi)的行為樣本的比例結(jié)構(gòu)是否與工作分析的結(jié)果相一致。,確定內(nèi)容效度的方法(定性方法),藍(lán)圖對照分析法: 年全國碩士研究生入學(xué)考試英語試卷結(jié)構(gòu)框架 專家比較判斷法:C(

3、nN2)N2(N為專家總數(shù),n為肯定人數(shù)),1999年全國碩士研究生入學(xué)考試英語試卷結(jié)構(gòu)基本框架,2、結(jié)構(gòu)效度construct validity,結(jié)構(gòu)效度也稱構(gòu)想效度、建構(gòu)效度,是指實(shí)際所測評的結(jié)果與我們所想測評素質(zhì)的同構(gòu)程度,是測驗(yàn)?zāi)軌驕y量到理論上的構(gòu)想或特質(zhì)的程度,它表明了在多大程度上,實(shí)際的測評結(jié)果能夠被看作是所要測評的素質(zhì)在結(jié)構(gòu)上的替代物,2、結(jié)構(gòu)效度construct validity,構(gòu)想,通常指一些抽象的、假設(shè)性的概念或特質(zhì),如智力、創(chuàng)造力、能力傾向、行為習(xí)慣、焦慮等。這些構(gòu)想無法直接測量,具有抽象性。但是每個(gè)構(gòu)想都有其心理上的理論基礎(chǔ)和客觀現(xiàn)實(shí)性,都和具體的可觀察的事件相聯(lián)系

4、,可以通過各種可觀察的材料加以確定。 例如言語流暢性可以通過語速、語句間的邏輯性、口誤的數(shù)量等可觀察的指標(biāo)進(jìn)行確定。 適用范圍:適用于智力測驗(yàn)、人格測驗(yàn)等。,3、關(guān)聯(lián)效度criterion-related validity,關(guān)聯(lián)效度是指測評結(jié)果與某種標(biāo)準(zhǔn)結(jié)果的一致性程度。反映的是測驗(yàn)分?jǐn)?shù)與外在標(biāo)準(zhǔn)(效標(biāo))的相關(guān)程度,即測驗(yàn)分?jǐn)?shù)對個(gè)體的效標(biāo)行為表現(xiàn)進(jìn)行預(yù)測的有效性程度。(效標(biāo)是用來衡量測評有效性的參照標(biāo)準(zhǔn)。) 例如一個(gè)機(jī)械能力傾向測驗(yàn),其標(biāo)準(zhǔn)(效標(biāo))可以是成為機(jī)械師之后的表現(xiàn); 對于一個(gè)管理能力測驗(yàn)而言,其效標(biāo)可以是將來從事管理工作的績效。 效標(biāo)關(guān)聯(lián)效度往往用于預(yù)測性測驗(yàn)。,常見效標(biāo)種類,學(xué)術(shù)成

5、就前提是“智力高的人,學(xué)術(shù)成就應(yīng)該越大” 。如:在校成績、學(xué)歷、研究成果等。 特殊訓(xùn)練成績能力傾向測驗(yàn)成績常用某種特殊訓(xùn)練中取得的成績做效標(biāo)。如:言語智商用語文成績做效標(biāo);機(jī)械能力用技術(shù)培訓(xùn)成績做效標(biāo)等。 實(shí)際工作表現(xiàn)與成績。如產(chǎn)品量、晉升速度、勞模表揚(yáng)情況等。 團(tuán)體特征用兩個(gè)在效標(biāo)表現(xiàn)上有差別的團(tuán)體比較他們在預(yù)測源分?jǐn)?shù)上的差別。如:一個(gè)音樂傾向測驗(yàn)的效度,可以由比較音樂學(xué)院學(xué)生的分?jǐn)?shù)與一般大學(xué)生分?jǐn)?shù)獲得。 等級評定結(jié)果必須是由權(quán)威的專家或主管人員作出的,或者是廣大群眾作出的。 先前被證明是有效的測評結(jié)果。如用明尼蘇打機(jī)械性向測驗(yàn)得到的結(jié)果。,第二節(jié) 信度,信度是標(biāo)準(zhǔn)化素質(zhì)測評的基本要求之一,

6、如果測評工具的信度不理想,測量結(jié)果就無法被認(rèn)為能代表應(yīng)試者的一致、穩(wěn)定和可靠的行為表現(xiàn),就可能誤導(dǎo)對應(yīng)試者的評價(jià)。,信度及其影響因素,如果我們用一個(gè)游標(biāo)卡尺來測量一個(gè)鋼管的外直徑,每次測量時(shí)都難免會有一定的誤差。 首先,游標(biāo)卡尺作為一種測量工具是有一定精度限制的,也就是說,測量工具本身存在誤差。當(dāng)然這種誤差是必然存在的,而且誤差是在一定范圍中有規(guī)律的變動的,這種誤差在測量工作中被稱之為系統(tǒng)誤差(systematic error)。 其次,我們每一次測量都可能出現(xiàn)操作上的差異,或者由于不可預(yù)見的外界因素的影響,產(chǎn)生測量誤差。這些誤差是很難控制的,而且無規(guī)律可循,有時(shí)大有時(shí)小,這種誤差被稱為隨機(jī)誤

7、差(random error)。 前者在一定程度上可以控制,而后者很難控制,一個(gè)好的測量工具應(yīng)該不僅要有盡可能高的精確度(與系統(tǒng)誤差相關(guān)),還能夠把誤差控制在一個(gè)有規(guī)律的范圍以內(nèi),這樣才能夠得到穩(wěn)定可信的測量結(jié)果。信度實(shí)際上就是對隨機(jī)誤差的一種度量。,1、信度的概念,信度(reliability)是指是指測評結(jié)果反映所測素質(zhì)的準(zhǔn)確性。 通常任何測驗(yàn)都存在某種程度的不一致性(同一受試者在不同時(shí)間或在不同的測驗(yàn)條件下做同一測驗(yàn)) 因?yàn)檎`差的存在,我們永遠(yuǎn)不可能完全揭示人的心理特點(diǎn),只能無限接近真實(shí)分?jǐn)?shù)。,例如: 所有測驗(yàn)都有誤差,心理測驗(yàn)分?jǐn)?shù)也不例外。如果一個(gè)人連續(xù)兩天接受同一測驗(yàn),或者完成同一測

8、驗(yàn)被認(rèn)為是等值的兩個(gè)版本,如果得分相同會讓人感到驚訝,如果分?jǐn)?shù)有相當(dāng)大的變化可能讓人吃驚,但是有一點(diǎn)可以肯定,這是由于偶然或隨機(jī)因素影響了每次測驗(yàn)的成績。 然而,對于兒童,如果同一測驗(yàn)在半年或一年之后測第二遍,分?jǐn)?shù)有很大的差異是不足為奇的,因?yàn)樗麄兊某砷L導(dǎo)致測驗(yàn)成績的變化非常自然。問題將是確定有多少變化是由于成績的隨機(jī)變化引起的,又有多少可以歸因于個(gè)人在這段時(shí)間內(nèi)所發(fā)生的變化。,信度的評估方法,針對不同的誤差來源,信度可以有不同的確定方法。,1、再測信度(test-retest reliability),是指測評結(jié)果以同樣的測評工具、測評方式與測評對象再次獲得的變異程度。 也即是同一測驗(yàn)在不同

9、時(shí)間對同一對象施測兩次,兩次測量分?jǐn)?shù)的相關(guān)系數(shù)即為再測系數(shù)。,r 越接近1,則說明測評結(jié)果(x)越準(zhǔn)確可靠,否則就說明測評結(jié)果越不準(zhǔn)確、不可信。,人員測量所測查的特質(zhì)中,有相當(dāng)多的內(nèi)容具有一定的穩(wěn)定性,如人格、能力傾向等,因此,對于這些內(nèi)容而言,再測信度對于衡量測量工具的質(zhì)量是很重要的指標(biāo)。 例如:如果用一個(gè)智力測驗(yàn)測量某人的智力,第一天測量得到100分,表示智力中等;第二天測量卻變成了150分,這個(gè)分?jǐn)?shù)意味著這個(gè)人在一夜之間變成了天才,如果沒有特殊原因,這種事絕對是小概率事件,不太可能發(fā)生,可信度極低。不能用這個(gè)結(jié)果幫助決策。,在日常生活中,你也許常常到市場上去買東西。如果你買了5斤瘦肉后覺

10、得比上次少了點(diǎn),沒有那么重,那么你可以自己再用秤稱一下。如果也是5斤,那么你可能就會覺得確實(shí)有5斤。這是因?yàn)閮纱畏Q得的結(jié)果完全一致,變異度為0。 人的素質(zhì)測評沒有這么簡單,因?yàn)樗刭|(zhì)本身又是無法精確定義,因而我們常常把對個(gè)體測評結(jié)果的準(zhǔn)確性檢驗(yàn),置于群體測評結(jié)果的相互關(guān)系之中,轉(zhuǎn)化為兩次位置關(guān)系的一致性分析。當(dāng)同一對象的測評結(jié)果以同樣的測評方式再次獲得后,其順序位置關(guān)系變異很小時(shí),則說明測評結(jié)果比較準(zhǔn)確。 例如:在技能測評中A分?jǐn)?shù)88,在全體被測者中排名第一。這是否可靠可信?我們可以再測一次,結(jié)果A分?jǐn)?shù)105,還是排名第一,而且其他被測的位置順序變化很小。這時(shí)我們可以說第一次的技能測評結(jié)果是可靠

11、的(信度高)。,2、復(fù)本信度(alternative-form reliability),復(fù)本信度是指測評結(jié)果相對另一個(gè)非常相同的測評結(jié)果的變異程度。它是以兩個(gè)測驗(yàn)復(fù)本(功能等值但題目內(nèi)容不同)來測量同一對象,然后求得被測者在這兩個(gè)測驗(yàn)上得分的相關(guān)系數(shù)。復(fù)本信度反映了兩個(gè)測驗(yàn)復(fù)本在內(nèi)容上的等值性程度。,復(fù)本信度考慮的是內(nèi)容取樣誤差的影響問題,計(jì)算復(fù)本信度的主要目的在于考察兩個(gè)測驗(yàn)復(fù)本的題目取樣或內(nèi)容取樣是否等值。 例如同樣是測量數(shù)學(xué)運(yùn)算能力的測驗(yàn),如果一個(gè)測驗(yàn)復(fù)本側(cè)重于考核加減法的運(yùn)算,而另一個(gè)復(fù)本側(cè)重乘除法的運(yùn)算,兩者之間的相關(guān)必定不會太高,即復(fù)本信度低,說明必定有一項(xiàng)測驗(yàn)復(fù)本的取樣有問題。

12、,3、一致性信度Consistency Reliability,一致性信度是指相同素質(zhì)測評項(xiàng)目分?jǐn)?shù)間的一致性程度。 如果被測者在第一個(gè)項(xiàng)目上比其他人分?jǐn)?shù)高,在第二個(gè)項(xiàng)目上又比其他人高,在第三個(gè)項(xiàng)目上也比其他人高相反另一個(gè)人在第一個(gè)項(xiàng)目上比其他人分?jǐn)?shù)低,在第二個(gè)項(xiàng)目上又比其他人分?jǐn)?shù)低,在第三個(gè)項(xiàng)目上也比其他人分?jǐn)?shù)低那么毫無疑問,我們會認(rèn)為測評結(jié)果比較可靠。,一致性信度的作用,再測信度和復(fù)本信度分別注重考慮測量跨時(shí)間的一致性(穩(wěn)定性)和跨形式的一致性(等值性),而內(nèi)部一致性信度用內(nèi)部一致性系數(shù)表示,主要反映的是測驗(yàn)內(nèi)部題目之間的關(guān)系,考察測驗(yàn)的各個(gè)題目是否測量了相同的內(nèi)容或特質(zhì)。,一致性信度應(yīng)用實(shí)

13、例,例如:在人格測評中,樂觀情緒特質(zhì)和外向特質(zhì)是兩個(gè)容易混淆的內(nèi)容,這就要求測評設(shè)計(jì)時(shí)能夠找到相應(yīng)的題目把二者區(qū)分開來。 在設(shè)計(jì)測評題目時(shí),所有測評題目都要保證只測量一種特質(zhì)或內(nèi)容,如果需要在一個(gè)測評中測量不同內(nèi)容,就應(yīng)該將測評設(shè)計(jì)為幾個(gè)分測評進(jìn)行分別測評。例如16PF人格測評就包括16個(gè)分測評,每個(gè)分測評量表只對一種人格特質(zhì)進(jìn)行測評。,一致性信度的計(jì)算方法,分半信度項(xiàng)目折半分析,是通過將測驗(yàn)分成兩半,計(jì)算這兩半測驗(yàn)之間的相關(guān)性而獲得的信度系數(shù)。通常的方法是在測驗(yàn)實(shí)施后將測驗(yàn)分為等值的兩半,并分別計(jì)算每位被測者在兩半測驗(yàn)上的得分,再求出這兩個(gè)分?jǐn)?shù)的相關(guān)系數(shù)。這個(gè)相關(guān)系數(shù)就代表了兩半側(cè)眼內(nèi)容取樣

14、的一致性程度。 同質(zhì)性信度系數(shù)分析,是指測驗(yàn)內(nèi)部的各題目在多大程度上考察了同一內(nèi)容,即所有測驗(yàn)題目測量的只是單一特質(zhì)或內(nèi)容,表現(xiàn)為所有測驗(yàn)題目得分的一致性。,信度可以接受的水平,一般的能力測驗(yàn)和成就測驗(yàn)的信度系數(shù)在0.90以上,有時(shí)可以達(dá)到0.95; 人格測驗(yàn)、興趣、態(tài)度、價(jià)值觀等測驗(yàn)的信度一般在0.80-0.85或更高些; 一般信度系數(shù)rt0.85時(shí),才可以用來鑒別或預(yù)測個(gè)人成績,4、評分者信度(raters reliability),在有些測量情形中,評分者的評判也是誤差的來源之一。例如投射測驗(yàn)、創(chuàng)造力測驗(yàn)、無領(lǐng)導(dǎo)小組討論、管理者情境模擬等,都依賴于評分者的判斷,這種判斷的主觀性往往造成不

15、同評分者的評分很不一致,因此有必要考慮評分者信度。 評分者信度是指不同評分者對同一對象進(jìn)行評定時(shí)的一致性。 信度的度量是以后者作為依據(jù),測評者及其測評的無關(guān)差異越小,說明測評結(jié)果就越可靠。,如何提高測評結(jié)果的可靠性?,一、要選擇高質(zhì)量的測評工具 二、要控制測評過程及其組織的誤差 三、要訓(xùn)練與提高測評者的操作水平,信度小結(jié):,各種信度評估的適用情景: 再測信度評估側(cè)重考察測評跨時(shí)間的一致性和穩(wěn)定性; 復(fù)本信度評估側(cè)重考察測評跨形式的一致性和等值性; 內(nèi)部一致性信度評估主要反映的是一個(gè)測評內(nèi)部題目之間的關(guān)系,揭示測評的各個(gè)題目是否測量了相同的內(nèi)容或特質(zhì)。 評分者信度評估主要是考察評分者的主觀誤差。

16、,第三節(jié) 項(xiàng)目分析,項(xiàng)目適合度 在素質(zhì)測評中,項(xiàng)目不僅僅是試題,更多的是一些咨詢問題或觀察評定點(diǎn)(指標(biāo)),它們無難易之分。因此提出“適合度”一詞。 適合度指的是被測者行為符合項(xiàng)目測評標(biāo)準(zhǔn)的程度。 當(dāng)項(xiàng)目為試題時(shí),適合度即難度; 當(dāng)項(xiàng)目是問卷中的問題時(shí),適合度即所有選對的被測者人數(shù)與總?cè)藬?shù)之比; 當(dāng)項(xiàng)目為觀察評定量表中的指標(biāo)時(shí),適合度即所有被測得分平均值與指標(biāo)滿分值之比。,當(dāng)項(xiàng)目為試題時(shí),適合度即難度計(jì)算公式為:,難度的計(jì)算: 二分法計(jì)分項(xiàng)目的難度計(jì)算(只有答對或答錯(cuò)兩種情況),項(xiàng)目區(qū)分度 又稱鑒別力,指項(xiàng)目得分對被試實(shí)際能力或心理特質(zhì)水平的區(qū)分能力或鑒別力,也即項(xiàng)目得分的高低與被試實(shí)際能力或心

17、理特質(zhì)水平高低的一致性程度。 在項(xiàng)目分析中,項(xiàng)目得分與總分的相關(guān)系數(shù)揭示了項(xiàng)目區(qū)分度的大小,相關(guān)系數(shù)越大則說明項(xiàng)目區(qū)分度越高,項(xiàng)目獨(dú)立性 在能力測評中,常常需要項(xiàng)目之間有一定的獨(dú)立性。所謂獨(dú)立性即非相關(guān)性或低相關(guān)性。獨(dú)立性的分析一般采用項(xiàng)目間分?jǐn)?shù)的相關(guān)系數(shù)揭示,根據(jù)實(shí)際得分分布是否均勻,可以分別采用r系數(shù)法和列聯(lián)表檢驗(yàn)法。,第四節(jié) 其他指標(biāo)的分析,客觀性 測評的客觀性由測評方法的客觀性與測評者的客觀性兩方面構(gòu)成 測評方法的客觀性指它對測評者主觀影響的控制程度。如檢核表就比一般評定量表更客觀一些,誤差 誤差是指通過測評結(jié)果的定性定量分析,判斷測評結(jié)果是否受到心理效應(yīng)的嚴(yán)重影響。分析的主要內(nèi)容是心

18、理誤差、標(biāo)準(zhǔn)誤差以及單個(gè)測評結(jié)果的致信區(qū)間。,誤差 心理誤差 哈羅效應(yīng)誤差 哈羅效應(yīng)又稱暈輪效應(yīng),是指測評者往往會因?yàn)閷Ρ粶y評者整體印象的好壞從而影響他對每個(gè)素質(zhì)的測評。例如因看到一個(gè)人相貌端莊、嚴(yán)肅,就容易產(chǎn)生此人責(zé)任感很強(qiáng)的看法。由哈羅效應(yīng)引起的誤差叫哈羅效應(yīng)誤差。 哈羅效應(yīng)還表現(xiàn)為因?qū)δ硞€(gè)重要因素的印象好壞而對整體評價(jià)產(chǎn)生影響,所謂一好百好,一丑白丑。雖然這是一種泛化影響,而前者是一種演繹影響。,趨中心理誤差 趨中心理誤差是指因?yàn)闇y評者既不愿把被測評的過好,也不愿把被測評的過差而過于集中在中間段而產(chǎn)生的誤差。這種誤差使有差異的被測得到相同或相近的分?jǐn)?shù),缺乏區(qū)分性??梢酝ㄟ^測量結(jié)果的分布及差異量分析來揭示這種誤差的情況。,寬大心理誤差 寬大心理誤差指因測評者不堅(jiān)持測評的標(biāo)準(zhǔn)要求就高不就低的測評而產(chǎn)生的誤差。這種誤差表現(xiàn)為皆大歡喜,高分低能。另一種負(fù)向?qū)挻笮睦碚`差,則是過于嚴(yán)格,以一些脫離實(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論