第九章-人員測評理論與方法(蕭鳴政)測評質(zhì)量檢驗(yàn).ppt

上傳人：1*** IP屬地：浙江上傳時(shí)間：2020-08-01 格式：PPT 頁數(shù)：39 大?。?14.01KB 積分：20 舉報(bào) 版權(quán)申訴

第九章-人員測評理論與方法(蕭鳴政)測評質(zhì)量檢驗(yàn).ppt_第2頁

第九章-人員測評理論與方法(蕭鳴政)測評質(zhì)量檢驗(yàn).ppt_第3頁

第九章-人員測評理論與方法(蕭鳴政)測評質(zhì)量檢驗(yàn).ppt_第4頁

第九章-人員測評理論與方法(蕭鳴政)測評質(zhì)量檢驗(yàn).ppt_第5頁

已閱讀5頁，還剩34頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、測評質(zhì)量檢驗(yàn),一項(xiàng)測評是否可靠、可信？一項(xiàng)測評是否準(zhǔn)確、有用？一項(xiàng)測評是否公正、公平？一項(xiàng)測評是否經(jīng)濟(jì)、合理？,測評質(zhì)量檢驗(yàn),測評質(zhì)量的檢測，其內(nèi)容主要有兩個(gè)方面：一是分項(xiàng)素質(zhì)測評結(jié)果分析；二是各項(xiàng)素質(zhì)的綜合結(jié)果分析。分析的指標(biāo)主要有效度、信度、區(qū)分度、獨(dú)立性,第一節(jié) 效度,所謂的效度是指測評結(jié)果對所測素質(zhì)反映的真實(shí)程度。考評人員素質(zhì)測評的效度的方法有三種：一是從內(nèi)容性質(zhì)方面分析其內(nèi)容效度；二是從實(shí)證方面分析其結(jié)構(gòu)效度；三是從校標(biāo)相關(guān)性方面分析其關(guān)聯(lián)效度。,1、內(nèi)容效度content validity,效度即測評結(jié)果的有效性程度。內(nèi)容效度是指實(shí)際測評到的內(nèi)容與我們所想測評內(nèi)

2、容的一致性程度。當(dāng)實(shí)際測評到的內(nèi)容與我們事先所相測評的內(nèi)容越一致時(shí)，則說明測評結(jié)果的內(nèi)容效度越高，測評結(jié)果就越有效。比如，要測驗(yàn)學(xué)生的學(xué)習(xí)能力，學(xué)習(xí)能力包括識記、理解、應(yīng)用、分析、綜合以及評價(jià)等方面的能力。檢測內(nèi)容效度就可以看測驗(yàn)內(nèi)容是否反映了這些方面的能力。,內(nèi)容效度主要是分析被包括在測評范圍之內(nèi)的所有被測行為樣本是否具有代表，代表程度如何。其分析具體為兩個(gè)方面的檢查： 1.是否包括了欲測素質(zhì)中的各種成分； 2.包括在測評范圍內(nèi)的行為樣本的比例結(jié)構(gòu)是否與工作分析的結(jié)果相一致。,確定內(nèi)容效度的方法（定性方法）,藍(lán)圖對照分析法：年全國碩士研究生入學(xué)考試英語試卷結(jié)構(gòu)框架專家比較判斷法：C(

3、nN2)N2（N為專家總數(shù)，n為肯定人數(shù)）,1999年全國碩士研究生入學(xué)考試英語試卷結(jié)構(gòu)基本框架,2、結(jié)構(gòu)效度construct validity,結(jié)構(gòu)效度也稱構(gòu)想效度、建構(gòu)效度，是指實(shí)際所測評的結(jié)果與我們所想測評素質(zhì)的同構(gòu)程度，是測驗(yàn)?zāi)軌驕y量到理論上的構(gòu)想或特質(zhì)的程度，它表明了在多大程度上，實(shí)際的測評結(jié)果能夠被看作是所要測評的素質(zhì)在結(jié)構(gòu)上的替代物,2、結(jié)構(gòu)效度construct validity,構(gòu)想，通常指一些抽象的、假設(shè)性的概念或特質(zhì)，如智力、創(chuàng)造力、能力傾向、行為習(xí)慣、焦慮等。這些構(gòu)想無法直接測量，具有抽象性。但是每個(gè)構(gòu)想都有其心理上的理論基礎(chǔ)和客觀現(xiàn)實(shí)性，都和具體的可觀察的事件相聯(lián)系

4、，可以通過各種可觀察的材料加以確定。例如言語流暢性可以通過語速、語句間的邏輯性、口誤的數(shù)量等可觀察的指標(biāo)進(jìn)行確定。適用范圍：適用于智力測驗(yàn)、人格測驗(yàn)等。,3、關(guān)聯(lián)效度criterion-related validity,關(guān)聯(lián)效度是指測評結(jié)果與某種標(biāo)準(zhǔn)結(jié)果的一致性程度。反映的是測驗(yàn)分?jǐn)?shù)與外在標(biāo)準(zhǔn)（效標(biāo)）的相關(guān)程度，即測驗(yàn)分?jǐn)?shù)對個(gè)體的效標(biāo)行為表現(xiàn)進(jìn)行預(yù)測的有效性程度。（效標(biāo)是用來衡量測評有效性的參照標(biāo)準(zhǔn)。）例如一個(gè)機(jī)械能力傾向測驗(yàn)，其標(biāo)準(zhǔn)（效標(biāo)）可以是成為機(jī)械師之后的表現(xiàn)；對于一個(gè)管理能力測驗(yàn)而言，其效標(biāo)可以是將來從事管理工作的績效。效標(biāo)關(guān)聯(lián)效度往往用于預(yù)測性測驗(yàn)。,常見效標(biāo)種類,學(xué)術(shù)成

5、就前提是“智力高的人，學(xué)術(shù)成就應(yīng)該越大” 。如：在校成績、學(xué)歷、研究成果等。特殊訓(xùn)練成績能力傾向測驗(yàn)成績常用某種特殊訓(xùn)練中取得的成績做效標(biāo)。如：言語智商用語文成績做效標(biāo)；機(jī)械能力用技術(shù)培訓(xùn)成績做效標(biāo)等。實(shí)際工作表現(xiàn)與成績。如產(chǎn)品量、晉升速度、勞模表揚(yáng)情況等。團(tuán)體特征用兩個(gè)在效標(biāo)表現(xiàn)上有差別的團(tuán)體比較他們在預(yù)測源分?jǐn)?shù)上的差別。如：一個(gè)音樂傾向測驗(yàn)的效度，可以由比較音樂學(xué)院學(xué)生的分?jǐn)?shù)與一般大學(xué)生分?jǐn)?shù)獲得。等級評定結(jié)果必須是由權(quán)威的專家或主管人員作出的，或者是廣大群眾作出的。先前被證明是有效的測評結(jié)果。如用明尼蘇打機(jī)械性向測驗(yàn)得到的結(jié)果。,第二節(jié) 信度,信度是標(biāo)準(zhǔn)化素質(zhì)測評的基本要求之一，

6、如果測評工具的信度不理想，測量結(jié)果就無法被認(rèn)為能代表應(yīng)試者的一致、穩(wěn)定和可靠的行為表現(xiàn)，就可能誤導(dǎo)對應(yīng)試者的評價(jià)。,信度及其影響因素,如果我們用一個(gè)游標(biāo)卡尺來測量一個(gè)鋼管的外直徑，每次測量時(shí)都難免會有一定的誤差。首先，游標(biāo)卡尺作為一種測量工具是有一定精度限制的，也就是說，測量工具本身存在誤差。當(dāng)然這種誤差是必然存在的，而且誤差是在一定范圍中有規(guī)律的變動的，這種誤差在測量工作中被稱之為系統(tǒng)誤差（systematic error）。其次，我們每一次測量都可能出現(xiàn)操作上的差異，或者由于不可預(yù)見的外界因素的影響，產(chǎn)生測量誤差。這些誤差是很難控制的，而且無規(guī)律可循，有時(shí)大有時(shí)小，這種誤差被稱為隨機(jī)誤

7、差（random error）。前者在一定程度上可以控制，而后者很難控制，一個(gè)好的測量工具應(yīng)該不僅要有盡可能高的精確度（與系統(tǒng)誤差相關(guān)），還能夠把誤差控制在一個(gè)有規(guī)律的范圍以內(nèi)，這樣才能夠得到穩(wěn)定可信的測量結(jié)果。信度實(shí)際上就是對隨機(jī)誤差的一種度量。,1、信度的概念,信度（reliability）是指是指測評結(jié)果反映所測素質(zhì)的準(zhǔn)確性。通常任何測驗(yàn)都存在某種程度的不一致性（同一受試者在不同時(shí)間或在不同的測驗(yàn)條件下做同一測驗(yàn)）因?yàn)檎`差的存在，我們永遠(yuǎn)不可能完全揭示人的心理特點(diǎn)，只能無限接近真實(shí)分?jǐn)?shù)。,例如：所有測驗(yàn)都有誤差，心理測驗(yàn)分?jǐn)?shù)也不例外。如果一個(gè)人連續(xù)兩天接受同一測驗(yàn)，或者完成同一測

8、驗(yàn)被認(rèn)為是等值的兩個(gè)版本，如果得分相同會讓人感到驚訝，如果分?jǐn)?shù)有相當(dāng)大的變化可能讓人吃驚，但是有一點(diǎn)可以肯定，這是由于偶然或隨機(jī)因素影響了每次測驗(yàn)的成績。然而，對于兒童，如果同一測驗(yàn)在半年或一年之后測第二遍，分?jǐn)?shù)有很大的差異是不足為奇的，因?yàn)樗麄兊某砷L導(dǎo)致測驗(yàn)成績的變化非常自然。問題將是確定有多少變化是由于成績的隨機(jī)變化引起的，又有多少可以歸因于個(gè)人在這段時(shí)間內(nèi)所發(fā)生的變化。,信度的評估方法,針對不同的誤差來源，信度可以有不同的確定方法。,1、再測信度(test-retest reliability),是指測評結(jié)果以同樣的測評工具、測評方式與測評對象再次獲得的變異程度。也即是同一測驗(yàn)在不同

9、時(shí)間對同一對象施測兩次，兩次測量分?jǐn)?shù)的相關(guān)系數(shù)即為再測系數(shù)。,r 越接近1，則說明測評結(jié)果（x）越準(zhǔn)確可靠，否則就說明測評結(jié)果越不準(zhǔn)確、不可信。,人員測量所測查的特質(zhì)中，有相當(dāng)多的內(nèi)容具有一定的穩(wěn)定性，如人格、能力傾向等，因此，對于這些內(nèi)容而言，再測信度對于衡量測量工具的質(zhì)量是很重要的指標(biāo)。例如：如果用一個(gè)智力測驗(yàn)測量某人的智力，第一天測量得到100分，表示智力中等；第二天測量卻變成了150分，這個(gè)分?jǐn)?shù)意味著這個(gè)人在一夜之間變成了天才，如果沒有特殊原因，這種事絕對是小概率事件，不太可能發(fā)生，可信度極低。不能用這個(gè)結(jié)果幫助決策。,在日常生活中，你也許常常到市場上去買東西。如果你買了5斤瘦肉后覺

10、得比上次少了點(diǎn)，沒有那么重，那么你可以自己再用秤稱一下。如果也是5斤，那么你可能就會覺得確實(shí)有5斤。這是因?yàn)閮纱畏Q得的結(jié)果完全一致，變異度為0。人的素質(zhì)測評沒有這么簡單，因?yàn)樗刭|(zhì)本身又是無法精確定義，因而我們常常把對個(gè)體測評結(jié)果的準(zhǔn)確性檢驗(yàn)，置于群體測評結(jié)果的相互關(guān)系之中，轉(zhuǎn)化為兩次位置關(guān)系的一致性分析。當(dāng)同一對象的測評結(jié)果以同樣的測評方式再次獲得后，其順序位置關(guān)系變異很小時(shí)，則說明測評結(jié)果比較準(zhǔn)確。例如：在技能測評中A分?jǐn)?shù)88，在全體被測者中排名第一。這是否可靠可信？我們可以再測一次，結(jié)果A分?jǐn)?shù)105，還是排名第一，而且其他被測的位置順序變化很小。這時(shí)我們可以說第一次的技能測評結(jié)果是可靠

11、的（信度高）。,2、復(fù)本信度(alternative-form reliability),復(fù)本信度是指測評結(jié)果相對另一個(gè)非常相同的測評結(jié)果的變異程度。它是以兩個(gè)測驗(yàn)復(fù)本（功能等值但題目內(nèi)容不同）來測量同一對象，然后求得被測者在這兩個(gè)測驗(yàn)上得分的相關(guān)系數(shù)。復(fù)本信度反映了兩個(gè)測驗(yàn)復(fù)本在內(nèi)容上的等值性程度。,復(fù)本信度考慮的是內(nèi)容取樣誤差的影響問題，計(jì)算復(fù)本信度的主要目的在于考察兩個(gè)測驗(yàn)復(fù)本的題目取樣或內(nèi)容取樣是否等值。例如同樣是測量數(shù)學(xué)運(yùn)算能力的測驗(yàn)，如果一個(gè)測驗(yàn)復(fù)本側(cè)重于考核加減法的運(yùn)算，而另一個(gè)復(fù)本側(cè)重乘除法的運(yùn)算，兩者之間的相關(guān)必定不會太高，即復(fù)本信度低，說明必定有一項(xiàng)測驗(yàn)復(fù)本的取樣有問題。

12、,3、一致性信度Consistency Reliability,一致性信度是指相同素質(zhì)測評項(xiàng)目分?jǐn)?shù)間的一致性程度。如果被測者在第一個(gè)項(xiàng)目上比其他人分?jǐn)?shù)高，在第二個(gè)項(xiàng)目上又比其他人高，在第三個(gè)項(xiàng)目上也比其他人高相反另一個(gè)人在第一個(gè)項(xiàng)目上比其他人分?jǐn)?shù)低，在第二個(gè)項(xiàng)目上又比其他人分?jǐn)?shù)低，在第三個(gè)項(xiàng)目上也比其他人分?jǐn)?shù)低那么毫無疑問，我們會認(rèn)為測評結(jié)果比較可靠。,一致性信度的作用,再測信度和復(fù)本信度分別注重考慮測量跨時(shí)間的一致性（穩(wěn)定性）和跨形式的一致性（等值性），而內(nèi)部一致性信度用內(nèi)部一致性系數(shù)表示，主要反映的是測驗(yàn)內(nèi)部題目之間的關(guān)系，考察測驗(yàn)的各個(gè)題目是否測量了相同的內(nèi)容或特質(zhì)。,一致性信度應(yīng)用實(shí)

13、例,例如：在人格測評中，樂觀情緒特質(zhì)和外向特質(zhì)是兩個(gè)容易混淆的內(nèi)容，這就要求測評設(shè)計(jì)時(shí)能夠找到相應(yīng)的題目把二者區(qū)分開來。在設(shè)計(jì)測評題目時(shí)，所有測評題目都要保證只測量一種特質(zhì)或內(nèi)容，如果需要在一個(gè)測評中測量不同內(nèi)容，就應(yīng)該將測評設(shè)計(jì)為幾個(gè)分測評進(jìn)行分別測評。例如16PF人格測評就包括16個(gè)分測評，每個(gè)分測評量表只對一種人格特質(zhì)進(jìn)行測評。,一致性信度的計(jì)算方法,分半信度項(xiàng)目折半分析，是通過將測驗(yàn)分成兩半，計(jì)算這兩半測驗(yàn)之間的相關(guān)性而獲得的信度系數(shù)。通常的方法是在測驗(yàn)實(shí)施后將測驗(yàn)分為等值的兩半，并分別計(jì)算每位被測者在兩半測驗(yàn)上的得分，再求出這兩個(gè)分?jǐn)?shù)的相關(guān)系數(shù)。這個(gè)相關(guān)系數(shù)就代表了兩半側(cè)眼內(nèi)容取樣

14、的一致性程度。同質(zhì)性信度系數(shù)分析，是指測驗(yàn)內(nèi)部的各題目在多大程度上考察了同一內(nèi)容，即所有測驗(yàn)題目測量的只是單一特質(zhì)或內(nèi)容，表現(xiàn)為所有測驗(yàn)題目得分的一致性。,信度可以接受的水平,一般的能力測驗(yàn)和成就測驗(yàn)的信度系數(shù)在0.90以上，有時(shí)可以達(dá)到0.95；人格測驗(yàn)、興趣、態(tài)度、價(jià)值觀等測驗(yàn)的信度一般在0.80-0.85或更高些；一般信度系數(shù)rt0.85時(shí)，才可以用來鑒別或預(yù)測個(gè)人成績,4、評分者信度（raters reliability）,在有些測量情形中，評分者的評判也是誤差的來源之一。例如投射測驗(yàn)、創(chuàng)造力測驗(yàn)、無領(lǐng)導(dǎo)小組討論、管理者情境模擬等，都依賴于評分者的判斷，這種判斷的主觀性往往造成不

15、同評分者的評分很不一致，因此有必要考慮評分者信度。評分者信度是指不同評分者對同一對象進(jìn)行評定時(shí)的一致性。信度的度量是以后者作為依據(jù)，測評者及其測評的無關(guān)差異越小，說明測評結(jié)果就越可靠。,如何提高測評結(jié)果的可靠性？,一、要選擇高質(zhì)量的測評工具二、要控制測評過程及其組織的誤差三、要訓(xùn)練與提高測評者的操作水平,信度小結(jié)：,各種信度評估的適用情景：再測信度評估側(cè)重考察測評跨時(shí)間的一致性和穩(wěn)定性；復(fù)本信度評估側(cè)重考察測評跨形式的一致性和等值性；內(nèi)部一致性信度評估主要反映的是一個(gè)測評內(nèi)部題目之間的關(guān)系，揭示測評的各個(gè)題目是否測量了相同的內(nèi)容或特質(zhì)。評分者信度評估主要是考察評分者的主觀誤差。

16、,第三節(jié) 項(xiàng)目分析,項(xiàng)目適合度在素質(zhì)測評中，項(xiàng)目不僅僅是試題，更多的是一些咨詢問題或觀察評定點(diǎn)（指標(biāo)），它們無難易之分。因此提出“適合度”一詞。適合度指的是被測者行為符合項(xiàng)目測評標(biāo)準(zhǔn)的程度。當(dāng)項(xiàng)目為試題時(shí)，適合度即難度；當(dāng)項(xiàng)目是問卷中的問題時(shí)，適合度即所有選對的被測者人數(shù)與總?cè)藬?shù)之比；當(dāng)項(xiàng)目為觀察評定量表中的指標(biāo)時(shí)，適合度即所有被測得分平均值與指標(biāo)滿分值之比。,當(dāng)項(xiàng)目為試題時(shí)，適合度即難度計(jì)算公式為：,難度的計(jì)算：二分法計(jì)分項(xiàng)目的難度計(jì)算（只有答對或答錯(cuò)兩種情況）,項(xiàng)目區(qū)分度又稱鑒別力，指項(xiàng)目得分對被試實(shí)際能力或心理特質(zhì)水平的區(qū)分能力或鑒別力，也即項(xiàng)目得分的高低與被試實(shí)際能力或心

17、理特質(zhì)水平高低的一致性程度。在項(xiàng)目分析中，項(xiàng)目得分與總分的相關(guān)系數(shù)揭示了項(xiàng)目區(qū)分度的大小，相關(guān)系數(shù)越大則說明項(xiàng)目區(qū)分度越高,項(xiàng)目獨(dú)立性在能力測評中，常常需要項(xiàng)目之間有一定的獨(dú)立性。所謂獨(dú)立性即非相關(guān)性或低相關(guān)性。獨(dú)立性的分析一般采用項(xiàng)目間分?jǐn)?shù)的相關(guān)系數(shù)揭示，根據(jù)實(shí)際得分分布是否均勻，可以分別采用r系數(shù)法和列聯(lián)表檢驗(yàn)法。,第四節(jié) 其他指標(biāo)的分析,客觀性測評的客觀性由測評方法的客觀性與測評者的客觀性兩方面構(gòu)成測評方法的客觀性指它對測評者主觀影響的控制程度。如檢核表就比一般評定量表更客觀一些,誤差誤差是指通過測評結(jié)果的定性定量分析，判斷測評結(jié)果是否受到心理效應(yīng)的嚴(yán)重影響。分析的主要內(nèi)容是心

18、理誤差、標(biāo)準(zhǔn)誤差以及單個(gè)測評結(jié)果的致信區(qū)間。,誤差心理誤差哈羅效應(yīng)誤差哈羅效應(yīng)又稱暈輪效應(yīng)，是指測評者往往會因?yàn)閷Ρ粶y評者整體印象的好壞從而影響他對每個(gè)素質(zhì)的測評。例如因看到一個(gè)人相貌端莊、嚴(yán)肅，就容易產(chǎn)生此人責(zé)任感很強(qiáng)的看法。由哈羅效應(yīng)引起的誤差叫哈羅效應(yīng)誤差。哈羅效應(yīng)還表現(xiàn)為因?qū)δ硞€(gè)重要因素的印象好壞而對整體評價(jià)產(chǎn)生影響，所謂一好百好，一丑白丑。雖然這是一種泛化影響，而前者是一種演繹影響。,趨中心理誤差趨中心理誤差是指因?yàn)闇y評者既不愿把被測評的過好，也不愿把被測評的過差而過于集中在中間段而產(chǎn)生的誤差。這種誤差使有差異的被測得到相同或相近的分?jǐn)?shù)，缺乏區(qū)分性?？梢酝ㄟ^測量結(jié)果的分布及差異量分析來揭示這種誤差的情況。,寬大心理誤差寬大心理誤差指因測評者不堅(jiān)持測評的標(biāo)準(zhǔn)要求就高不就低的測評而產(chǎn)生的誤差。這種誤差表現(xiàn)為皆大歡喜，高分低能。另一種負(fù)向?qū)挻笮睦碚`差，則是過于嚴(yán)格，以一些脫離實(shí)

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第九章-人員測評理論與方法(蕭鳴政)測評質(zhì)量檢驗(yàn).ppt

文檔簡介

溫馨提示

最新文檔

評論

第九章-人員測評理論與方法(蕭鳴政)測評質(zhì)量檢驗(yàn).ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔