度量的可靠性評價

上傳人：g*** IP屬地：廣東上傳時間：2025-05-28 格式：PPTX 頁數(shù)：91 大小：1.83MB 積分：30 舉報 版權申訴

已閱讀5頁，還剩86頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

度量的可靠性評價一、概念的度量

管理研究涉及各種抽象的概念(Constructs)。做管理研究，首先要對研究中涉及到的概念有準確而全面的把握和認識。為了正確地度量概念，首先必須明確概念域，在概念的定義中精確描述概念包含了什么以及要排除什么。然后通過操作化用可觀測變量來反映概念。尺度一個變量的取值范圍或取值類別的集合稱為“尺度”（Scale），給描述對象賦值的過程稱為“度量”（Scaling），度量既基于理論又基于經(jīng)驗。操作性描述就是在理論框架的基礎上選擇合適的變量與尺度反映抽象概念。概念度量面臨的困難操作性描述必須具有客觀性，在給定條件下要可以重復操作并能得出相同或相近的結果。要找到一種尺度去度量某個抽象概念往往是困難的，很難找到合適的可測度變量充分反映一個理論概念所包含的意思。操作性描述永遠不會是完全恰當?shù)?。（如診?。└拍疃攘棵媾R的困難由于變量受環(huán)境及測試方法等各種因素的影響，使得每個測量都有偏差。強調度量的可重復性和客觀性并不能保證度量的真實性，每個測量結果都只是對真實狀況的一種逼近。操作性描述具有不充分性，不存在十全十美的度量抽象概念的方法。只靠改進測度方法本身難以解決度量的有效性問題。概念度量與理論的關系理論與具體的度量操作是兩個不同的層次，理論概念是一切度量的起點。理論概念通常是從一組相關原理派生出來的，需要用抽象的、理論上的相關概念來描述。在進行操作性描述之前，首先要構造一個邏輯框架，即先假設一個命題，作為研究的出發(fā)點。變量與概念之間的關系單一變量不能包含概念的所有相關方面。同時，變量會涉及一些與擬測度概念無關的方面。單一變量通常不能提供唯一正確的度量。變量與抽象概念可能是線性關系，也可能是非線性關系。例如：“年薪”與“激勵強度”之間的關系。關于概念的相關知識可以用來指導我們對度量方法和變量的選擇。比如，在黑夜用一把夜光尺去測量一頭大象的身體。根據(jù)測量去描畫這頭大象，圖中的一部分是來自我們已有的有關大象形狀和大小的知識。二、指標與尺度指標和尺度都用于對變量的測度，對變量的度量一般包括一個以上的指標和尺度。一個指標反映所測度變量的某一個方面的內容，指標的取值是由尺度來表示的。在被測度內容上的值域范圍或取值的類別集稱為尺度（scale）。尺度被用來反映事物現(xiàn)象在性質、規(guī)模方面的差異。指標與尺度舉例企業(yè)盈利能力是一個反映企業(yè)這一分析單位屬性的一個變量；反映這一變量的指標可以有凈資產(chǎn)收益率、總資產(chǎn)報酬率、銷售利潤率、利潤總額、凈利潤等。這些指標多度量分別使用比率尺度和貨幣尺度。用不同尺度表示的指標取值表明被測企業(yè)相對于其它企業(yè)在盈利能力方面的優(yōu)劣程度。智商是一個反映個人這一分析單位屬性的一個變量，智商得分是度量智商的一種尺度，智商得分是根據(jù)受試者對大量問題的回答給出的。尺度的表示不同的指標常使用不同的尺度度量。為了對度量結果進行匯總、整理、計算、分析，常常要用數(shù)字來表示尺度。對某些抽象概念（如技術能力、競爭優(yōu)勢等）可以通過打分來度量。“有”、“無”或“高”、“低”是最簡單的打分，可以用分別數(shù)字“1”和“2”來表示。這些數(shù)字在不同情況下具體含義是不同的。度量的客觀性不應被誤解為定量化，并非所有量度都必須使用定量尺度，文字表述也可能是有效的。尺度的類別按度量目的劃分，管理研究中常用的尺度有評價尺度和態(tài)度尺度。按尺度的賦值是否需要與參照對象比較劃分，尺度可分為比較式尺度和非比較式尺度。按尺度的賦值是否涉及受試者的偏好劃分，尺度可分為偏好度量尺度和非偏好度量尺度。分類尺度指用數(shù)字來反映現(xiàn)象的性質和類別的尺度。例如對性別進行分類，可用“1”和“2”分別代表男和女。這類尺度的數(shù)字之間不能進行任何數(shù)學運算。次序尺度指用數(shù)字來反映現(xiàn)象之間的等級和順序的尺度。如文化程度，可分別用1、2、3、4、5、6來表示文盲、小學、初中、高中、大學、大學以上；這類尺度不僅能反映現(xiàn)象性質或類別上的差異，而且還能反映現(xiàn)象在高低、大小、強弱、先后等順序上的差別。這類尺度的數(shù)字可用來比較大小，但還不能反映不同等級間的差異程度，不能進行加、減、乘、除等數(shù)學運算。

差距尺度指用數(shù)字定量反映現(xiàn)象之間差異程度的尺度。如用溫度計的刻度來反映環(huán)境溫度的高低。這類尺度的數(shù)字不僅能反映現(xiàn)象性質或類別上的等級和順序差異，而且還能反映差異的數(shù)量化程度。這類尺度的數(shù)字之間可以進行加、減運算但不能進行乘、除運算。

比率尺度指用數(shù)字反映現(xiàn)象之間存在的比例或比率關系。如出生率、工資增長率等概念就使用這類尺度。這類尺度一般用百分比來表示。尺度的數(shù)字之間不僅可以進行加、減運算而且可以進行乘、除運算。用比率尺度度量的現(xiàn)象特性中必須有絕對的或真實的“0”值存在，例如，人口增長率為“0”，就是真實的“0”值。在使用比率尺度時，必須加以分析和識別。如數(shù)學考試中成績?yōu)椤?”并不表示受試者數(shù)學能力一點沒有，不存在真實的“0”值。使用不同度量尺度的變量依不同的度量尺度，變量可分為定名變量、定序變量、定距變量和定比變量。定名變量：

指用分類尺度度量的變量，變量的取值只包括有限的和互不包容的屬性，如性別。定序變量：

指用次序尺度度量的變量，取值可以按某種邏輯進行順序排列，但不能區(qū)分不同取值間的差距。

使用不同度量尺度的變量定距變量：指用差距尺度度量的變量，取值間的距離具有的實際意義。

定比變量：

指用比率尺度度量的變量，定比變量除具有上述三種變量的全部性質之外，還有一個具有實際意義的“0”點。直接判定式尺度設置比較簡單的尺度設置方法是直接判定式尺度設置，即測試時直接從所設尺度中選擇一個值（答案）作為測試結果。上面所舉的測試家庭經(jīng)濟水平的例子就是直接判定式尺度設置。尺度設置常用的具體方法有：圖示尺度、條目化尺度、比較尺度圖示尺度將尺度用圖示的辦法表示出來，稱圖示尺度。例如，考察管理者的人際關系情況，可設計如下的圖示尺度測試企業(yè)員工對管理者喜歡的程度。圖示尺度圖中有尺度含義的提示，圖上刻度的功能是作為對尺度等級位置的判斷標準，而不是給出離散的類別。受試者根據(jù)自己的判斷選擇一個最能代表自己意見的尺度值。圖示尺度是最廣泛使用的方法之一。這種方法的優(yōu)點是使用起來比較方便，但測試結果的有效性較差，這是由于各人對“喜歡”的理解不同，或者說各人在判斷時使用的“參照系”不同而造成的。使用圖示尺度要避免過于極端的結論。條目化尺度條目化尺度是選擇一定數(shù)量的反映屬性類別和屬性強度的條目作為尺度的值。條目的設置數(shù)量以5～11個為適宜。每一尺度值都被賦以或簡略或詳細的文字說明，受試者根據(jù)自己的理解選出合乎意愿的尺度值。尺度形式要根據(jù)擬研究問題和所需判斷的類型決定。比如要測試員工對領導風格的看法，可以設置如下的尺度：（1）非常民主；（2）民主；（3）中庸；（4）獨斷；（5）非常獨斷。條目化尺度使用方便，但受到受試者所用“參照系”的影響，有效性較差。比較尺度比較尺度明確地要求通過與參照對象的的已知特征進行比較來做出判斷。比如，要測試某人的領導才能?？梢栽O置這樣一個尺度：（1）與A（領導才能）最相近；（2）與B最相近；（3）與C最相近。在這種情況下，要求測試者對A、B、C三人的情況了解得比較清楚。又如，要測試某項技術的先進程度。尺度值可以設置為（1）國際先進水平；（2）國內先進水平；（3）國內一般水平。比較尺度舉例你選擇目前工作的理由是：

工作有意義；

待遇較高；

有機會做創(chuàng)造性工作；

有利于個人成長。對上述理由從1到4排序，1代表最有解釋力。請對以下品牌的汽車從1到4排序，1代表你最想購買，4代表最不想購買。請將給以下電視機品牌打分，分數(shù)越高表示質量越好，滿分為100分。多項目（multi-item）度量由于概念通常具有多維性，而抽象概念的真實值無法直接測度，在概念已明確定義，概念域已確定的情況下，研究者要生成符合概念域的用來度量概念每個維度的項目集合。與概念域對應的項目集合稱為項目域。理論上，如果項目域中的項目與擬度量的概念維度和元素相對應，并且用項目域中的所有項目來度量概念，那么項目的度量值即為概念的真實值。這是不可能做到的。實際上，要從項目域中抽取項目樣本，用樣本項目的度量值估計概念的真實值。多項目（multi-item）度量使用某種方式進行多次度量（比如要求回答多個相關的問題），再把這些度量或回答組合成變量的單一值的方法稱為多項目度量。多項目度量可以對多維性概念進行測度和分析。在管理研究中，對復雜概念的度量，應盡量避免依靠單一的測度指標和測度方法，盡量使用多維的操作性描述，設計組合的指標和度量尺度，采取多種不同方法和度量項目來度量概念。多項目度量的必要性實際研究工作中，很難用單一的標準來度量復雜的變量，特別是觀點和傾向這類復雜的變量。單一的標準只能提供某變量的大概情況，幾種數(shù)據(jù)的組合則可以提供更全面更準確的情況。使用問卷調查時，沒有任何一個問題可以單獨描述一個變量。應當設計若干問題，每個問題代表變量的一部分。如果用定序尺度處理變量，單一的標準很難提供足夠的類別，而由幾項內容組成的指標和尺度卻可以做到這一點。多項目度量的必要性不同的度量方法可以相互驗證，由于通常不同方法的偏差來源不相同，多項目度量有利于減少測量偏差，提高量度的可靠性和有效性。通過對采用不同指標和方法的度量結果進行對比分析，可以發(fā)現(xiàn)導致偏差的因素，進而有目的、有重點地選擇和改進測試方法。多項目尺度設置內容的選擇組合指標是用來度量變量的。選擇指標內容的首要標準是邏輯上的正確性。例如要度量企業(yè)競爭力，選擇的每項內容都應與企業(yè)競爭力有關。在選擇內容時還要注意差異程度。如果就某項內容而言，企業(yè)之間沒有明顯差異，這項內容在組合指標時就不宜采用。多項目尺度設置舉例例如，要研究商學院教授中“理論型”的教授與“實踐型”的教授面向不同教學對象時的教學效果。需要對“理論型”和“實踐型”的概念加以定義和度量。度量“理論型”和“實踐型”的指標由三個問題組成。每個問題有兩個選項，對每一問題的回答，選擇第二選項的比選擇第一選項的更重視理論。度量“理論型”和“實踐型”的項目①“作為商學院的教授你認為哪種能力對教學更重要：管理實踐能力還是管理研究能力？” 這一問題反映受試者對“最佳教學身份”的認識。②“在提高業(yè)務能力方面，你的主要興趣在于管理實踐還是在于對基本管理理論的理解？” 這一問題反映受試者對“主要興趣”的認識。③“在管理研究領域你對案例研究的文章更感興趣還是對探索管理理論的文章更感興趣？” 這一問題反映受試者對“閱讀興趣”的認識。度量項目之間的兩兩相關關系度量項目之間的兩兩相關關系數(shù)據(jù)表明，87％選擇“研究者”作為最佳教學身份的受試者選擇了“管理理論”作為業(yè)務興趣。只有51％選擇“管理者”作為最佳教學身份的受試者選擇了“管理理論”作為業(yè)務興趣。這兩項內容的差異為36％。同樣，閱讀興趣和業(yè)務興趣之間關系的差異為38％（70％∶32％），閱讀興趣與最佳教學身份之間關系的差異為21％（36％∶15％）。最初這三個問題是由于邏輯上的正確性被選中的。通過對每對問題之間關系的檢驗，證明它們確實可以成為同一變量的度量尺度。三項度量項目之間的關系研究對象按照最佳教學身份和閱讀興趣被分為四組，括號里的數(shù)字是各組人數(shù)。每個組的百分數(shù)表明最終興趣在于管理理論的人所占的比例。表的左上角是理論傾向最弱的，表的右下角是理論傾向最強的。上市公司財務指標相關性分析多項目度量中要注意的問題第一，項目必須根據(jù)經(jīng)驗與被測量的概念有關。第二，項目必須把對所測量維度持有不同觀點的人區(qū)別開。第三，要避免雙關的或含糊的項目。第四，項目既要包括積極的也要包括消極的方向，使“同意”或“是”大致和“反對”和“不”各半，這樣防止測量中的默許回答型（acquiescentresponsestyle）。指標分數(shù)的評定當選定測度內容之后，接著要為不同的答案評定分數(shù)。評定分數(shù)過程中要做出兩個決定：第一，決定指標取值的范圍。例如，領導風格的取值范圍可以從“非常民主”到“非常獨斷”。要注意平衡指標各個取值點之間的距離，使每一個點上有足夠的個案。第二，決定每個問題的具體分數(shù)。一種作法是每個問題分數(shù)相等，另一種作法是對問題做加權處理。未詳數(shù)據(jù)的處理處理未詳數(shù)據(jù)（如填“不知道”）的方法有：第一，如果未詳數(shù)據(jù)不多，可以把它們刪去。原則是保證還有足夠的數(shù)據(jù)供分析用，同時要保證無系統(tǒng)偏差。第二，可以假定未詳數(shù)據(jù)為某一種答案。如某問卷要求研究對象回答是否參加過某幾項活動。有人只填寫參加過的活動，沒參加過的就空在那里。在這種情況下，可以假定空白處是“沒有參加”。未詳數(shù)據(jù)的處理第三，仔細分析未詳數(shù)據(jù)有可能發(fā)現(xiàn)它們所代表的意義。如在某些研究中，人們對某種觀點填“不了解”實際上是“不同意”。要具體情況具體分析。第四，設中間數(shù)值為未詳數(shù)據(jù)的數(shù)值，如在某指標數(shù)值為0、1、2、3時，可設未詳數(shù)據(jù)為2；對連續(xù)型變量可用平均數(shù)為未詳數(shù)據(jù)的數(shù)值。第五，可用隨機數(shù)字作為未詳數(shù)據(jù)的數(shù)值。指標的證實衡量對某一變量的度量成功與否的方法是對指標的證實。證實組合指標可用下列方法：

（1）內部證實

證實指標首先是內部證實。方法是作一個表，以指標總得分為自變量，各項內容的得分為因變量，看其變化是否一致。如果某項內容得分與指標總得分相關系數(shù)很低則應刪去。

（2）外部證實

再以關于商學院教授的研究為例?！袄碚撔汀敝笜烁叩氖茉囌咴谄渌麊栴}上也應顯示較強的理論傾向；“理論型”指標低的研究對象在其他問題上也應顯示較低的理論傾向。內容的相對重要性組合指標中，并非所有的內容都同等重要。例如，反映企業(yè)償債能力的指標可以包括利息保障倍數(shù)、資產(chǎn)負債率、流動比率、速動比率、強制性現(xiàn)金支出比率、到期債務支出比率、現(xiàn)金流動負債比率、現(xiàn)金總債務比率等，這些指標的重要程度是不同的，對兩個企業(yè)進行比較時，在8項指標中有5項指標較好的企業(yè)不一定償債能力比另一個企業(yè)強。解決這一問題的辦法是給指標加權或設置單項控制指標。根據(jù)組合指標對研究對象分類當對研究對象進行二維或多維量度時，可以根據(jù)組合指標的量度結果對研究對象分類。例如，美國管理學家羅伯特·布萊克和簡·穆頓在對領導行為的研究中根據(jù)“以任務為中心”和“以人員為中心”這兩種領導風格的組合設計了著名的“管理方格圖”，總結出5種典型的組合狀態(tài)，反映出五種典型的領導方式。分類往往能夠幫助我們理解數(shù)據(jù)，但應當注意最好以分類變量為自變量而不是因變量。

管理方格圖常用的多項目尺度設置方法里克特（Likert）尺度迦特曼（Guttman）尺度保迦德斯（Bogardus）社會距離尺度瑟斯滕（Thurstone）尺度里克特（Likert）尺度里克特尺度是現(xiàn)代調查問卷中普遍采用的提問格式。它的基本形式是給出一個陳述，按照同意的程度進行項目排列。要求調查對象表明他“強烈贊成”、“贊成”、“反對”、“強烈反對”、或“未決定”。（也可不用“贊成”而用“同意”）。這種格式的特殊價值在于答案具有明確的順序，且容易評定分數(shù)。有五種答案則評分為0－4或1－5。要注意評分的方向，對正面問題給“強烈贊成”者評5分；對反面問題給“強烈反對”者評5分。里克特尺度設置方式舉例上表是超市對顧客滿意度的調查，里克特尺度的明顯特征是，為避免產(chǎn)生偏差，所有題目都按“正向提問”和“反向提問”分成數(shù)目相等的兩類，并分別以（＋）和（－）號標識兩種提問，最后分別統(tǒng)計（＋）項題目得分及（一）項題目得分。使用里克特尺度度量的步驟使用里克特尺度度量某一概念包括以下幾步：明確要測量的態(tài)度涉及的基本理論概念；總結歸納出與態(tài)度有關的項目；要求被調查者作回答；計算分值；分析哪個項目對測量的可靠性和價值貢獻最大。里克特尺度的優(yōu)點和不足里克特尺度制作簡單，用途廣泛，結論可靠，調查內容有一定深度，可以用來測試具有多維尺度的內容，是一種應用范圍比較廣的方法。學校里讓學生對教師的教學效果進行評估所用的調查問卷，往往也包括一組采用里克特尺度度量的問題。里克特尺度的不足是，沒有給出關于主題接受范圍的信息；當考慮多維的概念時，相同分數(shù)可能會由不同的觀點組合產(chǎn)生的，即得分一樣的結果，每道題的得分可能是不同或相反的（這不一定是一個缺點）。里克特尺度的變通形式里克特尺度有許多變通形式，如“語義差異法”，它的題目是由兩個詞義相反的詞組成，然后由測試者給出自己的認同程度分。使用里克特尺度有時會設置一些掩飾項目。項目的內容不一定要明顯地與概念有關，掩飾項目的作用是掩飾研究者的目的。但掩飾項目有其缺點：一是尋找相關性好又沒有明顯聯(lián)系的微妙項目比較難；二是對結果會有干擾。除非有必要掩飾目的，最好不要用掩飾項目。語義差異度量語義差異度量是里克特度量的一種變通形式，語義差異度量是通過對一個主題進行多角度回答來進行度量。語義差異度量要求人們在兩個反義詞中做選擇，然后運用統(tǒng)計技術包括因子分析進行打分。消費者對某超市態(tài)度的語義差異度量語義差異度量很有實用價值，其最普遍的應用是建立直觀的圖形輪廓。三維語義差異度量語義差異判斷也可以將一個概念分成三個維度。如，評價某一個人或組織的行為，可以用社會價值評價、力量強度、主動性等三個維度度量。X軸反映社會價值評價的好壞，Y軸反映力量的強弱，Z軸反映積極和被動。用一個三維圖像來反映各個項目程度。迦特曼（Guttman）尺度迦特曼尺度又稱累積度量。其特點是單調的，對調查對象的贊成與否是清楚的。與里克特尺度一樣，迦特曼尺度也注重度量變量指標的強度。迦特曼尺度由一系列題目構成，每一題都有明確的文字說明，對每道題的內容受試者只能用“會”、“同意”或“不會”、“不同意”等來回答。迦特曼尺度是“累積”模式，每題具有一個尺度值（得分），題目之間具有高分題內容包含低分題內容的的關系，滿足數(shù)值大的項目時，同時也滿足小數(shù)值項目。迦特曼尺度舉例比如數(shù)學能力測試中，可以設（1）加減法一題，（2）乘除法一題，（3）四則運算一題。這樣受試者對每道題的回答結果只能是“會”或“不會”。而且會四則運算一般也會前兩道題，這就是題目之間的包含關系。迦特曼尺度要求題目的設置是一維尺度，也就是說題目的內容都是反映單一內涵，而不具有多層含義。迦特曼尺度的優(yōu)點迦特曼尺度的優(yōu)點是：測試結果具有單調性，對每一個測試項目的回答都反映了對所有項目回答的完整信息，知道一個人的測試得分情況，就可以推知該人對每一個問題的態(tài)度；測試結果也是對題目設置是否符合一維性的復核。如果排除隨機誤差后，測試結果不具有包含性，則說明題目設置不是迦特曼尺度。迦特曼尺度適用的答案模式答案模式分為兩種。反映了指標的趨強結構的答案模式稱為“尺度型”答案模式未反映指標的趨強結構的答案模式稱為“混合型”答案模式。迦特曼尺度適用于“尺度型”答案模式“指標得分”與“尺度得分”前例中對商學院教授理論傾向的度量，可以有兩種評分方式。一種方式是每個問題分數(shù)相等，對選擇“理論型”答案的給1分，選擇“實踐型”答案的給0分。所有得分加起來為總得分，這里稱“指標得分”；另一種方式是按指標的趨強結構計分，在最強指標最佳教學身份上選擇“理論型”答案的給3分，在次強指標業(yè)務興趣上選擇“理論型”答案的給2分，在最弱指標閱讀興趣上選擇“理論型”答案的給1分，對各個問題的得分不相加，只計最高分，這里稱“尺度得分”。不同答案模式的指標得分和尺度得分尺度型的答案模式指標得分和尺度得分一致，適合于采用迦特曼尺度?；旌闲偷拇鸢改Ｊ街笜说梅趾统叨鹊梅植煌耆恢拢贿m合于采用迦特曼尺度。答案的再現(xiàn)系數(shù)混合型答案是有偏差的答案，混合型答案的個數(shù)占答案總個數(shù)的比例反映了測度偏差的大小。我們把尺度型的答案個數(shù)占答案總個數(shù)的比例稱為再現(xiàn)系數(shù)，再現(xiàn)系數(shù)越高，度量的偏差越小。瑟斯滕（Thurstone）尺度與迦特曼尺度類似，瑟斯滕尺度的形式是：給受試者提供與同一內容相關的一系列題目選項，每一題都有明確的文字說明，并且每一題都根據(jù)對有關事物所持傾向的程度不同，被賦予不同的得分值。每道題目的得分都是經(jīng)專家事先評估給定的。受試者選擇其中與自己觀點相近的幾個題目選項，相應的也就有了幾個得分值，把這幾個分值平均后，最后就得出反映受試者觀點的得分值。

構建瑟斯滕尺度的過程構建瑟斯滕尺度是一個復雜的多步過程:首先要設計一系列代表不同觀點的陳述，對這些陳述進行分類、賦值，第一類包括判斷人認為最贊成的陳述，以此類推。含糊的、無關的陳述應舍棄。然后將各類陳述打亂讓被調查者選擇，最后計算他們所同意的項目得分的平均值。瑟斯滕尺度的基本形式瑟斯滕尺度的基本形式是“間距相等”。反映變量把多項內容交給一組專家裁判，請他們評定每項內容適于做某變量指標的程度。比如，將“員工士氣”作為變量，分數(shù)從1到13，如果裁判認為某項內容很弱，則評1分，某項內容很強，則評13分，余類推。所有裁判評定完之后，研究者要查看某項內容上所有裁判評分的一致程度。評分很不一致的內容應刪去。瑟斯滕尺度的優(yōu)點和缺點瑟斯滕尺度的優(yōu)點是，尺度項目可以劃分得較細；可以計算被調查者的接受程度；測試結果是對題目設置合理性的一種復核。瑟斯滕尺度缺點是，尺度設置比較復雜和困難，剔除含糊的和無意義的題目需要花較多時間；題目設置及判斷賦值受主觀影響比較大，其結果的有效性不強。瑟斯滕尺度如今較少被采用，原因在于每位裁判評分的質量取決于其自身的經(jīng)驗與知識，而且變量的重要性也會隨時間而改變。幾種典型度量尺度的基本差別里克特尺度、迦特曼尺度和瑟斯滕尺度的基本差別在于關于人的觀點和對個別項目給出的答案之間關系的假設不同。瑟斯滕（Thurstone）尺度（也稱差別度量）基于這樣的假設：持有特定態(tài)度的人只同意所表達的觀點與他們的自己的觀點相近似的項目，只反對所表達的觀點與他們的自己的觀點不相一致的項目。幾種典型度量尺度的基本差別迦特曼（Guttman）尺度（也稱累積度量）包含這樣的假設：持有特定觀點的人將同意在某一維度與其觀點同一方向的項目，反對與其觀點不同方向的項目；里克特（Likert）尺度（也稱求和度量）基于這樣的假設：同意每一個項目的概率的增加或減少，決定于對觀點的個人態(tài)度。四、概念度量的可靠性可靠性是指在何種程度上度量避免了隨機誤差成分。隨機誤差小，可靠性就強，反之就差。可靠性是有效性的必要非充分條件?？煽啃耘c概念建構有效性之間，一般有下述四種關系：

（1）有效的度量一定是可靠的度量。

（2）無效的度量可能可靠，也可能不可靠。

（3）可靠的度量，既可能有效，也可能無效。

（4）不可靠的度量一定是無效的。精確和準確的關系可靠并不意味著正確?？煽慷粶蚀_屬于系統(tǒng)誤差；準確而不可靠則屬于隨機誤差。不應混淆精確和準確這兩個概念。精確程度反映度量的可靠性，而準確程度反映度量的有效性。精確和準確都是衡量度量成敗的重要標準。一般來說，精確的度量優(yōu)于不精確的度量，然而精確并不一定總是必要的。精確度與準確性之間存在著某種程度的相克關系。概念的操作化應當對精確度作出規(guī)定。如果不能確定精確到什么程度合適，則盡量精確一些。影響有效性與可靠性的因素一旦大量的主觀判斷元素用于分析，系統(tǒng)誤差和隨機誤差都會影響測量。在度量過程中，常見的導致系統(tǒng)誤差的因素有:分布誤差（distributionalerror）光暈偏差（halobias）參照系偏差（referenceframebias）自我中心效應（egoecentricerror）循序效應（sequentialerror）評估者偏差（evaluatorbias）這些因素導致的系統(tǒng)誤差會降低度量的有效性。分布誤差分布誤差可分為仁慈誤差（errorofleniency）嚴峻誤差（errorofseverity）中間傾向誤差（errorofcentraltendency）光暈偏差和參照系偏差光暈偏差指的是評價者將對評價對象在某一特定維度的積極或消極的評價推廣到到另一維度的評價中的傾向。參照系偏差指的是被調查者的主觀印象與某個特定的度量值不能準確對應造成的偏差。被調查者用于分析判斷的參照系會影響他所選擇的度量值。在某些情況下，被調查者會將他人的判斷作為參照系，傾向于迎合社會價值判斷而規(guī)避極端的回答。自我中心效應導致的偏差自我中心效應自我中心效應的產(chǎn)生源于評價者以自我知覺作為評價標準，可分為“對比效應”和“類比效應”。對比效應（contrasteffect）受自我知覺的影響，評價者將評價對象評得與自我知覺完全相反。類比效應（similarityeffect）受自我知覺的影響，評價者將評價對象評得與自我知覺完全一致。循序效應偏差和評價者偏差循序效應評價可能涉及若干層面，先做的評價影響后做的評價。評價者對評價對象的前一個層面評價較高，在后一個層面會故意壓低評價。這常見于上司對部屬的評價中。評估者偏差評價者在評價中受評價對象的身份及其它屬性的影響，有意無意（通常是無意的）造成偏差。根據(jù)不同測試的結果判斷可靠性可靠性評價所關心的隨機錯誤成分不是一成不變的，不同情形下會有所不同。這樣，在不同情況下的度量結果的相關性（重復測試相關性）就為評價可靠性提供了基礎?？煽啃耘c多次度量結果的穩(wěn)定性有關，如果多次度量所得結果相同或相近，則說明度量結果受隨機誤差的影響較小，可靠性好，反之則差。根據(jù)重復進行的度量之間的關系，可靠性又可分為反復測試可靠性（Test-RetestReliability）和平行測試可靠性（Parallel-FormReliability）。根據(jù)一次測試的結果判斷可靠性隨機誤差成分不僅隨時間變化，而且在同一次測試過程中在不同的問題或測試項目之間也會變化。測試內影響因素就是指在一次測試中，在測試的不同問題或項目之間發(fā)生的隨機干擾。這類干擾主要是通過評價項目間的內部一致性而加以評定的。運用內部一致性的原理，我們可以通過檢查不同題目的測試結果是否一致，從而據(jù)此判斷隨機誤差的影響程度，并評估測試結果的可靠性。評價測試結果可靠性的假設采用這種方法評價可靠性的關鍵假設是在沒有隨機誤差發(fā)生的情況下，所有的度量項目（items）所度量的都是同一個基本屬性（trait），具體項目之間的度量差異就可以作為評價隨機誤差影響的基礎。如果隨機誤差對度量影響很大，在個別項目上的得分就會有高有低，從而降低了項目之間的相關性。與此相應，如果隨機誤差很小，則意味著每個項目度量的是同一個屬性，從而在一個項目上得分高，在另一個項目上得分也會高，即項目間相關程度高。五、度量可靠性評價度量可靠性的評價分為1．與度量穩(wěn)定性有關的可靠性評定（1）反復測試可靠性（Test-RetestReliability）（2）平行測試可靠性（Parallel-FormReliability）2．基于度量的內部一致性的可靠性評定

反復測試可靠性在兩次不同的時間，對完全相同的測試對象進行完全相同的度量。兩次度量結果之間的相關程度可以解釋為度量隨時間變化的穩(wěn)定性。由于受試對象是人，兩次測試的時間間隔應足夠長，否則受試人對上次測試的記憶會影響第二次測試的回答，使兩次測試獲得不真實的高相關性。兩次測試的時間間隔也應足夠近，否則待測的屬性可能在這期間受某些影響而發(fā)生變化，這樣兩次測試的真實值可能變化。實際研究中這一時間間隔通常取兩個星期?；趦炔恳恢滦缘目煽啃栽u定度量項目間缺乏內部一致性的原因來自兩方面：一是項目間本身缺乏公共核，這是表面有效性和內容有效性的問題；二是度量過程中不同項目間受到隨機因素干擾，引起度量結果不可靠。假設沒有隨機誤差發(fā)生，所有的度量項目（items）所度量的都是同一個基本屬性，因此，具體項目之間的差異可以作為評價隨機誤差影響的基礎。二分法（Split-HalfReliability）二分法是將一次度量中的項目分為兩部分，以這兩部分度量結果的相關程度作為評價可靠性的基礎。二分法存在的問題是，評價的準確與否依賴于項目如何劃分。這一因素一定程度上把不希望有的主觀性引入了可靠性的評價過程。若有2n個度量項目，可能的劃分方式有種，對于有10個項目的量表就有126種項目分半劃分的可能，選擇項目劃分方式會引入主觀性。α參數(shù)法（Cronbachα）α參數(shù)法是對每一個項目與其他所有項目作相關度計算，從而避免了在二分法中把項目分為兩半所引入的主觀性。一般認為，α參數(shù)法優(yōu)于二分法。事實上，α在數(shù)量上與所有可能的二分法測得的可靠性平均值相等。α的取值從0到1，取值為0表示完全不可靠，取值為1表示完全可靠。α參數(shù)法（Cronbachα）α的計算公式如下：其中： k=量表中項目的個數(shù)；項目i的方差；量表的總方差。α參數(shù)法示例用α參數(shù)法可以衡量度量的內部一致性，在具有較高α參數(shù)的情況下，可以同時得到滿意的內容有效性和可靠性。我們設想用一個量表對實行CIMS工程可能帶來目標效益的概率進行評估。量表由6個項目組成，分別是財務收益提高，市場應變能力增強，企業(yè)信譽提高，管理水平提高，技術能力提高，對外合作能力增強。每個項目的得分從1分（不可能）到7分（可能）。用這個量表對不同的專家和技術、管理人員進行測試。下表是測試結果的協(xié)方差矩陣。測試

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

度量的可靠性評價

文檔簡介

溫馨提示

最新文檔

評論

度量的可靠性評價

文檔簡介

溫馨提示

最新文檔

評論

相關文檔