信度與效度分析(qiang)課件_第1頁
信度與效度分析(qiang)課件_第2頁
信度與效度分析(qiang)課件_第3頁
信度與效度分析(qiang)課件_第4頁
信度與效度分析(qiang)課件_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第十七章 信度與效度分析 第十七章 信度與效度分析 在科學研究中采用的主要方法有調查研究(survey)和實驗研究(experimental study),尤其是調查研究被廣泛用于公共衛(wèi)生、臨床醫(yī)學、社會學、教育學等領域。調查研究的重要內容之一就是制定調查表或問卷。 在科學研究中采用的主要方法有調查研究(survey)和實驗研 問卷以及調查質量反映在調查結果的真實性和可靠性兩個方面,應采用一定的統(tǒng)計指標和方法加以定量考評。本章主要介紹信度(reliability)和效度(validity)分析方法,特別適合于各項目均為線性方式或等級方式的問卷或量表,如心理測量、教育測量、態(tài)度測量、生命質量測量

2、等的標準化測定量表。 問卷以及調查質量反映在調查結果的真實性和可靠第一節(jié) 信度及其評價方法第一節(jié) 信度及其評價方法一、信度的概念一、信度的概念 信度,指量表測量某種特質(屬性)或概念的結果的可靠性(dependability)、穩(wěn)定性(stability)和一致性(consistency)。關于信度尚無公認的定義,一般認為信度是指測量結果反映出系統(tǒng)中偶然誤差引起的變異程度,也就是多次重復測量中結果的重現性, 換言之,隨機誤差的變異。 信度,指量表測量某種特質(屬性)或概念的結信度的大小用信度系數(reliability coefficient)來衡量。信度的大小用信度系數(reliabilit

3、y coeffic二、信度的數學模型二、信度的數學模型 在經典測量理論中,Spearman 分數模型起著重要的作用。該模型指出任何測量所得的分數(X)都是由反映對象穩(wěn)定特質的真分數(T)和由隨機因素造成的誤差分數(e)構成,即: (17.1) 并假定:(1) e 滿足標準正態(tài)分布; (2) T,e相互獨立; (3) T,e 以簡單的線性可加性結合。 在經典測量理論中,Spearman 分數模型起著重 這樣,實測分數的方差可分解為真實分數的方差與誤差分數的方差之和,即: (17.2) 于是,信度可定義為真實方差與實測方差的比值,也就是總方差中真實方差所占的比例: (17.3) 這樣,實測分數的方

4、差可分解為真實分數的方差與 顯然,r越大,說明隨機誤差的作用越小,測定結果越可靠。 由于真實分數的方差無法得到,因此上式可轉化為: (17.4) 顯然,r越大,說明隨機誤差的作用越小,測定結三、信度的評價方法三、信度的評價方法 (一) 重測信度 重測信度(test-retest reliability)是在一定時間間隔(所測定的特質或概念尚未發(fā)生改變)中運用同一量表作重復測量所得的信度系數,也稱為穩(wěn)定系數,因為它說明了使用同一測量工具重復測量時個體分數的穩(wěn)定性。 (一) 重測信度 重測信度(test- 重測信度一般用兩次測定間的相關系數來衡量。根據所測定的特質的數據表現方式可采用積矩相關系數、

5、等級相關系數、列聯系數等來表示(參見相關分析有關章節(jié))。對于標準化的測定量表,所測定的特質均以量化分的方式給出,而且多半服從正態(tài)分布,因此可直接計算積矩相關系數。 重測信度一般用兩次測定間的相關系數來衡量。根值得注意的是,重測信度考評中,不同種類的受試者重測間隔期限不盡相同,原則上應在其特質無變化的期間內進行。 值得注意的是,重測信度考評中,不同種類的受試者重測間隔期限不 (二) 復本信度 復本信度(equivalent-form reliability )也稱替代信度(alternative-form reliability)或平行信度(parallel-form reliability),

6、是以兩份等效量表分別做出測量來評價信度系數。即使用相同難度、內容和形式而具體條目不同的兩份量表(互為復本)來評價信度。 (二) 復本信度 復本信度(equivalent- 兩量表測定結果的相關系數即為復本信度系數。該法彌補了重測信度采用完全相同的測量所帶來的一些弊端。但對于量表的設計要求較高,實際中很難得到兩份等價的量表,使其應用大受限制。 兩量表測定結果的相關系數即為復本信度系數。該(三) 分半信度 前述的重測信度或復本信度,要對每個個體進行兩次測定,這較麻煩,而且要求受測者參加兩次內容相似的測量也比較困難。為此,人們更愿意采用一次性測定的評價方法,分半信度(split-half relia

7、bility)正是如此。(三) 分半信度 前述的重測信度或復本信度,要 分半信度是在一次測量后將條目分為相等的兩部分,分別計算兩部分的得分并以其相關系數作為信度指標。這實際上考察的是指標的一致性,但因測量同一特征的指標間應關系密切,故具有一致性則說明結果可信。 分半信度是在一次測量后將條目分為相等的兩部分 顯然,k個條目的量表分半方法可有k!/(k/2)!(k/2)! 種,如10個條目的量表有252種分法。那么,采用哪種分法呢? 實際上各種分法得到的結果應很接近,因此可隨機地抽取一種分法。通常采用奇數條目為一組,偶數條目為一組的分法。 顯然,k個條目的量表分半方法可有k!/(k此外,兩部分直接

8、算出的相關系數( )只表明一半條目的信度,需用Spearman-Brown公式來確定整個量表的信度(r): (17.5)此外,兩部分直接算出的相關系數( )只表明一半條目的信度 值得注意的是,評價分半信度時,需要奇偶項的條目在難度、內容、得分變異等方面相似。否則可用下面的公式來計算: (17.6) 式中, 分別為第一,二部分條目得分總和的方差, 為全部條目得分之和的方差。實際上,該式是下面的 系數公式在分半法中的應用(取K=2)。 式中, 分別為第一,二部分條目得 (四) 內部一致性信度 內部一致性信度(internal consistent reliability)是目前比較流行的信度評價方

9、法,是分半信度的推廣。它無需將條目分為兩個部分,而是從量表的構思層次入手,以內部結構的一致性程度對信度作出估計。 (四) 內部一致性信度 內部一致性信度(inte內部一致性信度主要有Kuder-Richardson公式和克朗巴赫系數(Cronbachs alpha) 。其中,Kuder-Richardson公式是克朗巴赫系數的的特殊情況,僅適用于兩分類條目。克朗巴赫系數 為:內部一致性信度主要有Kuder-Richardson公式和克 (17.7) 式中,K為整個量表或子量表的條目數, 為第i個條目的方差, 為整個量表或子量表得分的方差。 (17.7) 系數根據一次測定即可計算,使用簡便,利用

10、的信息也充分,因此,在實際工作中廣為采用。 系數根據一次測定即可計算,使用簡便, 因此, 系數最好用于量表的低層結構(如領域、方面等子量表)的信度考察,通過每個子量表的考察結果再來綜合反映整個量表的情況,而不宜僅計算一個總量表的 系數。原因是低層結構中的條目都是反映同一方面的特征,相關性較高,而總量表要考慮一定的“覆蓋面”,因而具有一定的“異質性”。如在生命質量測定中可以分別計算心理功能、軀體功能等領域的 系數,在心理測量中可以分別計算焦慮、抑郁、孤獨等方面的 系數。 因此, 系數最好用于量表的低層結構(如領域、方面等子量表(五) 評價者信度 如果量表是他評而不是自評,則還要計算評價者間的一致

11、性,此即評價者信度(inter-rater reliability),也稱評分者信度(inter-scorer reliability)。一致性的考察有多種方法,如常用的kappa系數(參見有關章節(jié))、Kendall和諧系數W等。其中,kappa系數用于定性資料,和諧系數W用于等級資料。 (五) 評價者信度 如果量表是他評而不是自評,則還要計信度與效度分析(qiang) 在標準化測量中,不論條目形式如何,一般均轉化為計量的得分值來處理,因此可用方差分析的辦法來計算評價者信度,也即用組內相關系數ICC (intra-class correlation coefficient)來評價。 在標準化測

12、量中,不論條目形式如何,一般均轉化為計量的信度與效度分析(qiang)此外,前述的 系數也可用于考察評價者信度,不過式(17.7)中符號的意義應重新確定。其中的K不再是量表的條目數,而是評價者人數, 為第i個評價者的評分方差, 為被測者在所有評價者上所得總分的方差。 此外,前述的 系數也可用于考察評價者信度,不過式(17.四、影響信度的因素四、影響信度的因素 前已述及,信度分析在理論基礎上來源于經典測驗理論,特定于測定樣本和條目特征。因此,樣本的特點(如同質性)和條目的特點(如難度等)都影響著測定的信度。 此外,信度還受以下因素影響: 前已述及,信度分析在理論基礎上來源于經典測驗理論,特 (一

13、) 測定的具體方式和程序 比如采用測試者與被測者面對面的一一測定方式還是采用發(fā)放以后一定時間再收回的方式、指導語是否清楚易懂、測定的場地及環(huán)境等都影響著測量的信度。 (一) 測定的具體方式和程序 (二) 測定條目數的多少 憑經驗,只有一個條目的測驗不如有10個條目的測驗可靠。研究表明,在一定限度內,測驗的條目越多信度越高。前述的分半信度需要進行校正就是因為由一半條目構成的量表條目數減少,低估了信度。 (二) 測定條目數的多少 (三) 測定者與被測者 測定者的身份和態(tài)度不同,常能影響測定的信度,如在我們進行的生命質量評定中,測定者以研究人員的身份和以醫(yī)生的身份出現是不一樣的,后者給被測者的感覺是

14、為了了解其健康情況,是為他們著想。受測者的特征(如文化程度、對測定的認識等)也都影響著測定的信度。 (三) 測定者與被測者 (四) 分數分布范圍的影響 信度是用相關系數來進行評價,而相關系數受變量的取值范圍(全距)影響。測驗得分的分布范圍越大,信度越高。因此,在測驗中往往要選取不同層次的被試者,一方面增加樣本的代表性,另一方面也增加測驗的信度。 (四) 分數分布范圍的影響第二節(jié) 效度及其評價方法第二節(jié) 效度及其評價方法一、效度的概念一、效度的概念 效度即測量工具(如量表)的有效性和正確性, 亦即準確度(accuracy)。意指量表測定了它打算(所要)測定的特質或功能(而不是其它特質或功能)以及

15、測定的程度。它包含兩層意思:(1) 測量了什么; (2) 測的程度。比如量表是否測量了生命質量,軀體功能分量表是否測量了軀體功能,其程度怎樣。 效度即測量工具(如量表)的有效性和正確性, 效度具有特殊性和相對性,即每個測量工具只對某特殊目的有效,僅能對其特定項目作正確的度量,或者說測驗的效度總是針對著要解決的問題來說的,亦即針對著打算作出的應用來建立的。 效度具有特殊性和相對性,即每個測量工具只對某特殊目的 收集大量資料和證據來檢驗測驗效度的過程稱為效度驗證(validation)。嚴格地說,任何測驗在正式實施以前都應做出效度驗證。 收集大量資料和證據來檢驗測驗效度的過程稱為效二、效度的數學模

16、型二、效度的數學模型 式(17.2)中的真值方差可進一步分解為共同性質所造成的方差(共性方差, )和個別性質所造成的方差(個性方差, )。前者反映所測量的特質引起的變異,后者反映其它特質引起的變異。即: (17.11) 式(17.2)中的真值方差可進一步分解為共于是,效度(V)可定義為與測量特質有關的真分數方差與總方差的比值: (17.12)于是,效度(V)可定義為與測量特質有關的真分數方差與總方差的 與測量特質有關的變異往往要通過與外部標準的比較才能判斷,因此,效度是指某測量與外部標準之間關系的程度。 與測量特質有關的變異往往要通過與外部標準的比三、效度的評價方法三、效度的評價方法 效度的評

17、價一般較信度復雜,按評價目的和用途不同可分為以下幾種類型。 效度的評價一般較信度復雜,按評價目的和用途 (一) 內容效度 內容效度(content validity)也稱內在效度(intrinsic validity)或循環(huán)效度(circular validity), 有時也稱貼切性(relevance)或代表性 (representativeness),是指量表在多大程度上表示了所測特質的范疇。換言之,量表是否包含足夠的條目來反映所測內容。 (一) 內容效度 內容效度的評價主要通過經驗判斷進行,通常要考慮三方面的問題:第一,項目所測量的是否真屬于應測量的領域;第二,測驗所包含的的項目是否覆蓋

18、了應測領域的各個方面;第三,測驗項目的構成比例是否恰當。如量表的條目包含了所測概念的各具體方面而且有一定的比例,則可認為有好的內容效度。 內容效度的評價主要通過經驗判斷進行,通常要 也可請一些熟悉該測量內容的有關人員來評判,必要時用內容效度比(content validity ratio, CVR)這一指標來衡量: (17.13) 也可請一些熟悉該測量內容的有關人員來評判,必要時用其中,n為評判者中認為條目很好地反映了測定內容的人數, N為評判者總數。其中,n為評判者中認為條目很好地反映了測定內容的人數, N為 (二) 結構效度 結構效度(construct validity),也稱構思效度或

19、特征效度(trait validity),說明量表的構造是否符合有關的理論構想和框架,也就是檢驗量表是否真正測量了所提出的理論構思。因而結構效度是最重要的效度指標之一。 (二) 結構效度 結構效度的評價較復雜,可用各條目與各領域(或小方面)的相關分析和因子分析方法來反映。其中,因子分析除可說明結構的相合性外,尚可用共性變異(共性方差) 與總變異之比作為結構效度的衡量指標。此外,結構效度的分析最好用證實性因子分析,它較探索性因子分析更能說明問題。 結構效度的評價較復雜,可用各條目與各領域( (三) 準則關聯效度 準則關聯效度(criterion- related validity),也稱效標效度

20、(criterion validity)、經驗效度(empirical validity)或統(tǒng)計效度 (statistical validity)。 是說明量表得分與某種外部準則(效標)間的關聯程度,用測量得分與效度準則之間的相關系數表示。 (三) 準則關聯效度 外部準則指不通過該量表,而是通過一些客觀指標或某些總體評價性項目來間接反映該測定特質。 根據效標的不同,可分為兩種: 外部準則指不通過該量表,而是通過一些客觀指標 1. 同時效度(concurrent validity) 量表得分與當前效標間的相關。比如用脫毒的快慢來反映戒毒者生命質量高低,用運動速度反映軀體功能的高低等。 1. 同時

21、效度(concurrent validity) 2. 預測效度(predictive validity) 量表得分與將來的效標(某種結果)間的相關。比如量表得分與將來的疾病復發(fā)、惡化、死亡等結果的聯系。 2. 預測效度(predictive validity) 在心理、教育和生命質量測量中大部分僅考察同時效度。此外,如果缺乏金標準,可用一種較流行的量表得分為效標。如生命質量測定中可用著名的測定量表SF-36或FLIC的測定結果為效標,也可讓受測者自己對其總的健康狀況作一個評估(比如按百分制打分),以此權且作為效標,這常稱為自我報告的生命質量或總體健康狀況。 在心理、教育和生命質量測量中大部分僅

22、考察同時 (四) 判別效度和聚合效度 判別效度(discriminant validity),也稱辨別效度,是指運用相同測量方法測定不同特質或構思時,辨別不同特質的程度,也就是說不同特質和內涵的測量結果之間不應有太大的相關性。 (四) 判別效度和聚合效度 聚合效度(convergent validity),也稱收斂效度,是指運用不同測量方法測定同一特質或構思時所得結果的相似程度,即不同的測量方式應在同一特質的測定中聚合在一起(收斂)。也就是說,對同一特質的兩種或多種測定方法間應有較高的相關性。 聚合效度(convergent validi 使用判別效度和聚合效度主要基于以下兩個原因: 1. 任

23、何測量分數的變異中都有一部分應歸因于特定的方法,而不僅是測量的特質本身。有時候,即便是不同的特質,也可能因用了相同的測定方法而出現高相關。 使用判別效度和聚合效度主要基于以下兩個原因: 2. 只有通過相似性和差異性的綜合分析,才能準確地描述和解釋測定結果。換言之,必須說明測到了什么,沒有測到什么。 2. 只有通過相似性和差異性的綜合分析,才能準確地描述和解 對判別效度和聚合效度的評定,通常采用Campbell和 Fiske所提出的多特征多方法(multitrait-multimethod, M-M)矩陣法分析。該法要求用多種(至少兩種)方法分別測定了多個(至少兩個)特質,從而可計算同一特質的任

24、兩種測定方法得分間的相關系數以及同一方法的任兩種不同特質得分間的相關系數,還可計算同特質同方法間的相關以及不同特質不同方法間的相關。 將這些結果按矩陣式的表格排出即得到M-M分析。 對判別效度和聚合效度的評定,通常采用Camp 那么,如何判斷判別效度與聚合效度的好壞呢,通常認為具有好的判別效度與聚合效度需達到下面四條標準: 1. M-M矩陣中的效度系數均有統(tǒng)計學意義的顯著性。 那么,如何判斷判別效度與聚合效度的好壞呢,通常認為 2. M-M矩陣中的效度系數大于同行或列鄰近的“異特質異方法”三角中的元素。 3. M-M矩陣中的效度系數大于“異特質同方法”三角中的元素。 4. 所有異特質三角,包括

25、“異特質異方法”和“異特質同方法”三角中的元素模式相同。 2. M-M矩陣中的效度系數大于同行或列鄰近的“ 此外,尚有表面效度(face validity)、因子效度(factorial validity)、增量效度(incremental validity)等。 此外,尚有表面效度(face validit 效度的評價是較復雜的,實際應用時可結合各情況進行判斷。Spitzer認為如果滿足以下五個條件, 即可認為量表是有效的: 效度的評價是較復雜的,實際應用時可結合各情況 (1) 說明有內容效度和結構效度;(2) 在量表的制定階段應讓病人、醫(yī)務人員、 一般公民提出意見,供修正和提高內容效度;(

26、3) 量表經重復使用證明其可靠性;(4) 如果有金標準存在, 應以金標準為準, 對觀察對象在相似的條件下進行觀察, 確定結構效度;(5) 如果無金標準, 結構效度由判別效度和收斂效度代替。 (1) 說明有內容效度和結構效度;(2) 在四、影響效度的因素四、影響效度的因素 一般說來,前述影響信度的因素也都能影響效度。對于結構效度還受測定的條目構成的影響,效標效度還受所選用的效標的特征所影響。 一般說來,前述影響信度的因素也都能影響效度。第三節(jié) 信度與效度分析的應用第三節(jié) 信度與效度分析的應用一、應用中的幾個問題一、應用中的幾個問題 (一) 應用范圍 信度與效度分析被廣泛地用于調查表(尤其是標準化

27、測定量表)、實驗研究和考試(測驗)等的評價。一般說來,凡是通過測量工具得到的結果,無論是通過測定儀器得到的硬數據(如物理測定),還是通過測定量表、考卷等得到的軟數據(如心理測定、考試等),均需進行信度與效度分析。 (一) 應用范圍 除了用于評價和比較測驗的優(yōu)劣外,還可以用于預測和決策方面,如憑高考成績預測學生以后是否能順利完成學業(yè),在人才選拔上采用效度好的能力測驗來進行篩選等。 除了用于評價和比較測驗的優(yōu)劣外,還可以用于預 (二) 考評對象 信度與效度評價的對象可以是整個測定量表(對整個量表評價),也可以是各個方面或領域(對領域評價),也可以是具體的條目(對條目評價)。一般說來,如果是標準化測定量表,通常分別進行總量表和各個領域的評價;對于包括各種條目的一般調查問卷,很難進行整個調查表的考評,一般就對某些條目或領域進行考評,并以此間接說明整個調查表的好壞。 (二) 考評對象 (三) 信度與效度的關系 從前面的內容可以看出效度更重要,一個無效或效度很低的測驗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論