SPSS統(tǒng)計方法體系與案例實驗進階課件第11-14章生存分析-聚類分析與判別分析

上傳人：h*** IP屬地：山東上傳時間：2024-04-10 格式：PPT 頁數(shù)：102 大?。?.75MB 積分：20 舉報 版權申訴

SPSS統(tǒng)計方法體系與案例實驗進階課件第11-14章生存分析-聚類分析與判別分析_第2頁

SPSS統(tǒng)計方法體系與案例實驗進階課件第11-14章生存分析-聚類分析與判別分析_第3頁

SPSS統(tǒng)計方法體系與案例實驗進階課件第11-14章生存分析-聚類分析與判別分析_第4頁

SPSS統(tǒng)計方法體系與案例實驗進階課件第11-14章生存分析-聚類分析與判別分析_第5頁

已閱讀5頁，還剩97頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

《SPSS統(tǒng)計方法體系與案例實驗進階》學習目標：1、掌握壽命表法和LM法2、掌握COX回歸分析重點：1、COX回歸分析第11章生存分析1.基本原理壽命表法采用與編制生命表相似的原理計算生存率,通過計數(shù)落入?yún)^(qū)間[t,t+k]內(nèi)的失效和截尾的觀察例數(shù)來估計該區(qū)間死亡概率,然后根據(jù)概率的乘法原則,將不同時期的生存概率相乘,得到自觀察開始到指定某一時刻的生存率.2.應用條件(1)壽命表法適用于區(qū)間數(shù)據(jù):當資料是按照固定時間間隔收集,隨訪結果是該年或該月期間若干觀察人數(shù)、出現(xiàn)預期觀察結果數(shù)和截尾數(shù)(刪失數(shù)),數(shù)據(jù)總結成若干個時段頻數(shù)表形式,每位患者確切生存時間未知,應當用壽命表法進行研究;(2)壽命表法適用于觀察例數(shù)較多而分組的大樣本生存資料.

3.適用范圍與對象(1)估計某生存時間的生存率,以及生存時間中位數(shù);(2)繪制各種曲線:如生存函數(shù)、風險函數(shù)曲線等;(3)對某一研究因素不同水平的生存時間分布的比較;(4)控制另一個因素后對研究因素不同水平的生存時間分布的比較;(5)對多組生存時間分布進行兩兩比較.【實例1】[問題敘述]現(xiàn)有450例肺癌患者的隨訪資料,請對其生存情況進行描述.表11-1450例肺癌患者的隨訪資料術后年數(shù)012345678910期間死亡人數(shù)9082655240302015842期間刪失人數(shù)324108542121[實驗目的]理解壽命表基本思想、應用條件及適用范圍,掌握SPSS操作方法和結果解讀.[操作步驟]變量要求:將資料整理成頻數(shù)表形式,時間變量,類型為數(shù)值型;頻數(shù)變量,類型為數(shù)值型,加權;結局變量,類型為數(shù)值型;還可以有分組變量,類型為數(shù)值型.隨訪時間數(shù)據(jù)是時間變量取值;隨訪期間的死亡和刪失人數(shù)是頻數(shù)變量取值;結局變量取值為1和0:若頻數(shù)為死亡則賦值1,若頻數(shù)為刪失(截尾)則賦值0.定義一個時間變量“術后年數(shù)”,一個頻數(shù)變量“人數(shù)”,一個結局變量“結局”,并設置其“值(Value)”為“1=死亡,0=刪失”.將術后年數(shù)錄入時間變量,將期間死亡人數(shù)和期間刪失人數(shù)錄入頻數(shù)變量,將頻數(shù)變量對應的兩類數(shù)據(jù)分別錄入1、0至結局變量.菜單選擇:(1)變量加權:主菜單“數(shù)據(jù)(Data)”→“加權個案(WeightCases)”→“加權個案(Weightcasesby)”;選頻數(shù)變量“人數(shù)”到“頻率變量(FrequencyVariable)”框,點擊“確定(OK)”按鈕.(2)生命表分析:主菜單“分析(Analyze)”→“生存函數(shù)(Survival)”→“壽命表(LifeTables)”.界面設置:將“術后年數(shù)”選入“時間(Time)”欄;在“顯示時間間隔(Displaytimeintervals)”區(qū)域,在“0到(0through)”框填入最大生存時間的上限10;在“步長(by)”框填入生存時間的組距1;在“狀態(tài)(Status)”框選入結局變量“結局”,點擊“定義事件(DefineEvents)”按鈕,在“單值(SingleValue)”框填入1.在主界面中,單擊“選項(Option)”按鈕,在“圖形(Plot)”區(qū)域,勾選“生存函數(shù)(Survival)”,點擊“繼續(xù)(Continue)”,其它按默認值,點擊“確定(OK)”按鈕.經(jīng)分析,中位數(shù)生存時間為2.78年,表明術后死亡人數(shù)達到一半時間為2.78年.其他指標:☆終結比例,即死亡概率;☆生存比例,即生存概率;☆期末的累積生存比例,即截止本段上限的累積生存概率;☆概率密度指所有個體在時點t后單位時間內(nèi)死亡概率估計值;☆風險率,表示活過時點t后、單位時間內(nèi)死亡概率估計值;☆風險率的標準誤等.期初時間期初記入數(shù)期內(nèi)退出數(shù)歷險數(shù)期間終結數(shù)終結比例生存比例期末累積生存比例概率密度風險率04503448.50090.20.80.80.201.2213572356.00082.23.77.62.184.2622734271.00065.24.76.47.148.27320410199.00052.26.74.35.122.3041428138.00040.29.71.25.100.34594591.50030.33.67.16.080.39659457.00020.35.65.11.058.43735234.00015.44.56.06.047.57818117.5008.46.54.03.027.599928.0004.50.50.02.016.6710312.5002.80.20.00.000.00表11-2肺癌患者術后壽命表圖11-2為累積生存率曲線圖,橫坐標為生存的時間,而縱坐標是生存函數(shù)的大小.顯然,隨著時間流逝,生存的概率遞減,曲線呈下降趨勢.11.2Kaplan-Meier分析一、核心知識Kaplan-Meier法利用條件概率及概率乘法原理計算生存率及標準誤,又稱乘積極限法(Product-LimitMethod,P-L法).1.1生存率計算:(1)生存時間由小到大排列;(2)生存時間t對應的死亡人數(shù);(3)期初觀察人數(shù);(4)計算條件死亡率及條件生存率;(5)計算活過t時點的生存率.生存率的標準誤計算:1.2生存曲線:以生存時間為橫軸,生存率為縱軸繪制生存曲線并描述生存過程,又稱K—M曲線,分析時應注意曲線高度和下降坡度.1.3中位生存時間（生存時間中位數(shù)）:50%個體存貨期大于該時間.2.應用條件Kaplan-Meier分析適用于小樣本或者大樣本未分組資料的生存率的估計和組間生存率的比較,主要用于樣本含量較小的資料分析.3.適用范圍與對象(1)估計各生存時間的生存率和中位生存時間;(2)繪制曲線:如生存函數(shù)、風險函數(shù)曲線等;(3)某因素不同水平的生存時間有無差異比較;(4)控制某個分層因素后對研究因素不同水平的生存時間分布比較;(5)多組生存時間分布兩兩比較;(6)各總體分布比較采用Log-rank等非參數(shù)方法.【實例2】[問題敘述]中藥加化療(中藥組)和化療(對照組)療法治療白血病,隨訪記錄患者生存時間,不帶“+”號者表示已死亡,即完全數(shù)據(jù);帶“+”號者表示尚存活,即截尾數(shù)據(jù),請作生存分析.表11-3兩組療法治療白血病隨訪資料(單位:月)中藥組102+12+13186+19+269+8+6+43+943124對照組2+137+11+61113177[實驗目的]理解Kaplan-Meier法基本思想、應用條件及適用范圍,掌握SPSS操作方法和結果解讀.[操作步驟]變量要求:時間變量,類型為數(shù)值型;結局變量,類型為數(shù)值型;還可以有分組變量,類型為數(shù)值型或字符型.隨訪時間數(shù)據(jù)是時間變量取值;結局變量取值為1和0(死亡為1,截尾為0).定義時間變量“生存時間”;結局變量“結局”,并設置其“值(Value)”為“1=死亡,0=截尾”;分組變量,設置其“值(Value)”為“1=中藥組,2=對照組”.將生存時間錄入時間變量,將死亡和截尾數(shù)據(jù)分別對應錄入1、0至結局變量,將組別分別對應錄入1、2至分組變量.菜單選擇:“分析(Analyze)”→“生存函數(shù)(Survival)”→“Kaplan-Meier…”.界面設置:將“生存時間”選入“時間(Time)”欄;將“結局”選入“狀態(tài)(Status)”欄,點擊“定義事件(DefineEvents)”按鈕,在“單值(SingleValue)”框填入1;將分組變量“組別”選入“因子(Factor)”框.在主界面中,單擊“選項(Option)”按鈕,在“圖(Plot)”區(qū)域,勾選“生存函數(shù)(Survival)”,點擊“繼續(xù)(Continue)”;單擊“比較因子(CompareFactor)”按鈕,勾選“對數(shù)秩(Log-rank)”,用于檢驗時間分布是否相同,點擊“繼續(xù)(Continue)”;其它按默認值,點擊“確定(OK)”按鈕.[結果分析]分組總數(shù)事件數(shù)刪失N百分比對照組107330.0%中藥組168850.0%整體26151142.3%表11-4兩組人群生存率估計表分組時間狀態(tài)此時生存的累積比例累積事件數(shù)剩余個案數(shù)估計標準誤對照組11.000死亡.900.0951922.000存活..1833.000死亡.788.1342746.000死亡.675.1553657.000死亡.563.1654567.000存活..44711.000死亡.422.17453811.000存活..52913.000死亡.211.173611017.000死亡.000.00070分組時間狀態(tài)此時生存的累積比例累積事件數(shù)剩余個案數(shù)估計標準誤中藥組14.000死亡.933.06411426.000存活..11336.000存活..11248.000存活..11159.000死亡.848.10021069.000存活..29710.000死亡.754.12638812.000存活..37913.000死亡.646.147461018.000死亡.539.157551119.000存活..541224.000死亡.404.166631326.000死亡.269.156721431.000死亡.135.123811543.000存活..80生存率估計表中“此時生存的累積比例估計值”表示該時點的生存率估計值.兩組的平均生存時間中,中位數(shù)平均時間、標準誤及95%置信區(qū)間等信息.中藥組生存時間均值為22.013個月,中位數(shù)為24個月;對照組生存時間均值為9.775個月,中位數(shù)為11個月.分組均值中位數(shù)估計標準誤95%置信區(qū)間估計標準誤95%置信區(qū)間下限上限下限上限對照組9.7751.9745.90513.64511.0004.9401.31820.682中藥組22.0133.66314.83429.19324.0007.5199.26238.738整體17.5392.79312.06523.01213.0003.4816.17719.823兩組及多組生存曲線的比較采用Log-rank檢驗,即以生存時間對數(shù)為基礎推導.表11-6兩組生存率LogRank比較卡方dfSig.LogRank(Mantel-Cox)6.5791.010為分組的不同水平檢驗生存分布等同性.經(jīng)分析,兩組比較LogRank檢驗結果(對應的概率值P=0.010),檢驗結果表明兩組生存率差異有統(tǒng)計學意義.經(jīng)分析,兩組生存曲線的大致分布規(guī)律,并可以進行兩組生存率比較,看出中藥組(組別1)預后效果比對照組(組別2)好.11.3Cox回歸分析一、核心知識Cox回歸模型是1972年由英國統(tǒng)計學家Cox提出,主要用來研究各種因素(稱為協(xié)變量或伴隨變量等)對于生存期長短的關系.生存資料同時考慮生存結局和生存時間,生存時間不服從正態(tài)分布,可能含有刪失,面對這些特點,傳統(tǒng)多因素分析方法無能為力.因此傳統(tǒng)分析方法不能同時處理生存結局和生存時間,也不能處理刪失時間.(1)Logistic回歸以生存結局為因變量,僅考慮結局好壞(死亡或生存),而未考慮出現(xiàn)該結局的時間長短,無論死亡在隨訪早期或晚期,處理均相同.(2)多重線性回歸以生存時間為因變量,雖能考慮生存時間,但生存時間一般不服從正態(tài)分布,而且傳統(tǒng)線性回歸不能有效利用刪失時間.☆Cox回歸以生存結局和生存時間為因變量,同時分析眾多因素對生存期的影響,分析帶有刪失生存時間的資料,且不要求資料服從特定的分布.其中是協(xié)變量;是回歸系數(shù),由樣本估計而得.系數(shù)含義:在其他協(xié)變量不變情況下,協(xié)變量Xi每改變一個單位引起相對危險度/風險比的自然對數(shù)的該變量.>0表示協(xié)變量是危險因素,越大生存時間越短;<0表示協(xié)變量是保護因素,越大生存時間越長.1.基本原理(詳見醫(yī)學統(tǒng)計學教材)Cox回歸模型基本形式為:2.應用條件Cox回歸模型假定預后因素對其死亡風險作用強度在所有時間上都保持一致.3.適用范圍與對象(1)因素分析:分析哪些因素(協(xié)變量)影響生存期的長短;(2)計算各因素在排除其它因素影響后,對于死亡的相對危險度;如某因素xi的偏回歸系數(shù)為bi,則該因素xi對于死亡的比數(shù)比為exp(bi).(3)比較各因素對于生存期長短的相對重要性;比較標準化偏回歸系數(shù)bi絕對值大小,越大對生存期長短作用也大.COX模型分析時的樣本含量不宜太小;自變量較多時,要進行多元共線性診斷;【實例3】[問題敘述]為探討某惡性腫瘤的預后,收集了25例患者的生存時間、生存結局及影響因素.影響因素包括病人年齡、性別、組織學類型、治療方式、淋巴結轉(zhuǎn)移,生存時間以月計算,變量的賦值和所收集的資料.請用Cox回歸模型進行分析.因素變量名賦值說明年齡X1單位(歲)性別X2女=0、男=1組織學類型X3高分化=0、低分化=1治療方法X4傳統(tǒng)療法=0、新療法=1淋巴結轉(zhuǎn)移X5否=0、是=1生存時間t單位(月)生存結局Y刪失=0、死亡=1表11-8收集的25例惡性腫瘤患者生存時間(月)NOX1X2X3X4X5tY15401115202570000510358010135144310111030548010071640000060074400005808360101291939101070010420000670……………………[實驗目的]理解Cox回歸模型基本思想、應用條件及適用范圍,掌握SPSS操作方法和結果解讀.[操作步驟]變量要求:一個時間變量,類型為數(shù)值型;一個結局變量,類型為數(shù)值型;多個影響因素變量(定類、定序、定距及定比數(shù)據(jù)變量),類型為數(shù)值或字符型.隨訪時間數(shù)據(jù)是時間變量取值;結局變量取值為1和0(死亡為1,截尾為0).定義因素變量“年齡”、“性別”、“組織學類型”、“治療方式”、“淋巴結轉(zhuǎn)移”,時間變量“生存時間”,結局變量“生存結局”,設置“值(Value)”“1=死亡,0=截尾”.將影響因素X1~X5數(shù)據(jù)分別錄入影響因素變量,將生存時間錄入時間變量,將死亡和截尾兩類數(shù)據(jù)分別對應錄入1、0至結局變量.菜單選擇:主菜單“分析(Analyze)”→“生存函數(shù)(Survival)”→“Cox回歸(CoxRegression)”.界面設置:將時間變量“生存時間”選入“時間(Time)”框;把結局變量“生存結局”選入“狀態(tài)(Status)”框,點擊“定義事件(DefineEvent)”按鈕,“單值(Singlevalue)”中輸入1;把影響因素變量“年齡、性別、組織學類型、治療方式、淋巴結轉(zhuǎn)移”選入“協(xié)變量(Covariates)”框;方法選擇“條件:向前(ForwardConditional)”.點擊“分類(Categorical)”按鈕,一般將多分類無序變量選入“分類協(xié)變量(CategoricalCovariates)”框,系統(tǒng)將作為啞變量處理.將“治療方式”和“組織學類型”選入,“參考類別(ReferenceCategory)”選“第一個(First)”,一定點擊“更改(Change)”;點擊“選項(Options)”按鈕,在“模型統(tǒng)計量(ModelStatistics)”區(qū)域選擇“CI用于exp(B)95%(CIforexp(B)95%)”;點擊“繪圖(Plots)”按鈕,勾選“生存函數(shù)(Survival)”,將“協(xié)變量值的位置”框中的“治療方式”選入“單線(SeparateLinesfor)”框.點擊“繼續(xù)(Continue)”,點擊“確定(OK)”.[結果分析]表11-9Cox回歸模型整體性檢驗步驟-2倍對數(shù)似然值整體(得分)從上一步驟開始更改從上一塊開始更改卡方dfSig.卡方dfSig.卡方dfSig.1a30.7986.0771.0145.9541.0155.9541.0152b22.16813.2292.0018.6311.00314.5842.0013c18.70914.7303.0023.4581.06318.0433.000經(jīng)Cox回歸模型整體性檢驗,三種Cox回歸模型整體都有統(tǒng)計學意義.表11-10Cox回歸模型參數(shù)檢驗BSEWalddfSig.Exp(B)95%CI用于Exp(B)下部上部步驟1治療方法-2.2671.1104.1761.041.104.012.912步驟2組織學類型3.0011.2815.4901.01920.1121.633247.639治療方法-3.2641.3755.6321.018.038.003.567步驟3組織學類型14.648169.105.0081.9312299699.0002.015E150治療方法-3.1151.3984.9671.026.044.003.687淋巴結轉(zhuǎn)移-11.796169.101.0051.944.000.0006.553E138B為偏回歸系數(shù),Wald為檢驗偏回歸系數(shù)的統(tǒng)計量,顯然第二個模型(步驟2)中兩個變量系數(shù)都有統(tǒng)計學意義(對應的概率值P<0.05),說明生存結局主要受“治療方法”和“組織學類型”兩種因素影響.步驟2中,“治療方法”的OR=0.038,說明新治療方法對生存結局有重要影響,是死亡率的保護因素,從傳統(tǒng)治療方法變成新療法后,術后死亡風險降低為原來3.8%;“組織學類型”的OR=20.112,說明“組織學類型”是死亡率的危險因素,說明“低分化”比“高分化”,術后死亡風險提高20.112倍;步驟2的Cox回歸模型:累積生存函數(shù)曲線圖可以分析總體人群總的生存率隨著時間的變化趨勢.比較兩種治療方法總體人群的生存率變化趨勢,圖中看出新療法的生存率較高,說明新療法的預后效果較好.【練習1】[問題敘述]收集心梗病人的生存數(shù)據(jù),計算生存率及其標準誤、估計中位生存時間.術后年數(shù)012345678910期間死亡人數(shù)823027222625201114135期間刪失人數(shù)08877283124272218【練習2】[問題敘述]為探討傳統(tǒng)手術(A)和改進手術(B)治療某種惡性腫瘤的預后效果,隨機選取了病情基本一致的患者進行手術,術后隨訪記錄各患者生存時間(月),不帶"+"號者表示已死亡,即完全數(shù)據(jù);帶"+"號者表示尚存活,即截尾數(shù)據(jù),請作生存分析.A391520202664+64135365450596+680+900+B1070+70+120225366390+18+647+776+800+852+900+920+【練習3】[問題敘述]探討惡性腫瘤患者的預后與各影響因素X1-X6之間的關系,請進行Cox回歸分析判斷各因素對惡性腫瘤預后有無影響,并分析影響程度大小及方向.表11-13各影響因素賦值情況變量名標簽編碼X1年齡歲X2性別1=男、2=女X3組織學類型1=高分化、2=低分化X4治療方式1=傳統(tǒng)、2=新方法X5淋巴節(jié)是否轉(zhuǎn)移1=是、2=否X6腫瘤浸潤程度1=突破漿膜、2=無突破漿膜Y結局0=死亡、1=截尾t生存時間單位:月表11-14惡性腫瘤患者的生存時間(t,月)與預后因素患者編號X1X2X3X4X5X6ty1540001052125701100511358001113504431101010315450001032164201011321745001105218621000052195210101410105101000521………………………學習目標：1、掌握因子分析法的提出思想、適用條件和案例實現(xiàn)重點：1、因子分析的應用實現(xiàn)第12章因子分析一、核心知識因子分析法(FactorAnalysis)是從研究指標相關矩陣內(nèi)部依賴關系出發(fā),把信息重疊、錯綜復雜關系變量歸結為少數(shù)不相關綜合因子的多元統(tǒng)計方法.基本思想是根據(jù)相關性大小把變量分組,使得同組內(nèi)的變量之間相關性較高,但不同組的變量不相關或相關性較低,每組變量用公共因子描述,也稱潛在變量,它是不能直接測度的.設p個可能存在相關關系的原始觀測變量含有q個獨立的公共因子原始觀測變量除受公共因子影響外,還受特殊因子影響.二、幾個重要概念（見教材）三、因子分析法的主要步驟(1)對數(shù)據(jù)樣本標準化處理.(2)計算相關系數(shù)矩陣,若相關性太差,則不適合因子分析.(3)求相關矩陣特征根和特征向量.(4)根據(jù)特征值大小(一般>1)、方差累計貢獻率多少(一般>80%),以及碎石圖形態(tài),確定公共因子的個數(shù).(5)計算公共因子的載荷矩陣.(6)確定因子模型.(7)對公共因子命名解釋.用途:簡化數(shù)據(jù),探求數(shù)據(jù)潛在結構;公共因子得分;問卷結構效度等.【實例1】[問題敘述]現(xiàn)有北京18個區(qū)縣職業(yè)教育發(fā)展水平的9個指標x1~x9,x1“在校生數(shù)”、x2“招生數(shù)”、x3“畢業(yè)生數(shù)”、x4“責任教師數(shù)”、x5“本科教師比例”、x6“高級教師比例”、x7“學校平均在校生數(shù)”、x8“經(jīng)費比例”、x9“生均教育經(jīng)費”.根據(jù)該數(shù)據(jù)資料,分析北京區(qū)縣職業(yè)教育發(fā)展水平主要受哪些潛在因的影響.表12-1北京18個區(qū)縣職業(yè)教育發(fā)展水平數(shù)據(jù)指標區(qū)縣x1x2x3x4x5x6x7x8x9朝陽2217745170.4990.2545532.286625崇文2027257160.5660.1936331.685357大興2057667160.5970.1296161.074990昌平2328066190.5310.1064910.725089宣武1765731170.6300.2345841.556432石景山1926152190.5240.0855351.585695東城1565345150.5070.2457011.095356海淀1696442130.5730.1835730.485840豐臺1666648150.4440.1424651.125532西城1194231130.5020.3315520.636449房山1153825100.5710.1276180.617020門頭溝1275333300.1430.0263760.753904懷柔1215227120.2230.0766370.234149通縣98402570.5330.1074740.315559…………………………[實驗目的]理解因子分析的原理、作用和適用對象,掌握SPSS操作方法.[操作步驟]變量要求:需要多個實際觀測變量,變量類型為數(shù)值型.菜單選擇:主菜單“分析(Analyze)”→“降維(DimensionReduction)”→“因子分析(Factor)”.界面設置:將變量“x1”~“x9”選入變量窗口(Variable(s)).點擊“描述(Descriptives)”按鈕,主要作因子相關性檢驗設置:在“相關矩陣(CorrelationMatrix)”區(qū)域,選“系數(shù)(Coefficients)”、“顯著性水平(Significancelevels)”、“KMO和Bartlett球形度檢驗”.點擊“抽取(Extraction)”按鈕,主要用于因子提取和因子載荷矩陣的求解:“方法(Method)”默認“主成分分析法(Principalcomponents)”,“抽取(Extract)”默認“基于特征值大于1”,有時選“因子的固定數(shù)量”;在“輸出(Display)”區(qū)域,選碎石圖(Screeplot).點擊“旋轉(zhuǎn)(Rotation)”按鈕,主要用于因子命名、旋轉(zhuǎn):在“方法(Method)”區(qū)域,選“最大方差法(Varimax)”.點擊“得分(Scores)”按鈕,計算因子得分:選“保存為變量(Saveasvariables)”,選“顯示因子得分系數(shù)矩陣”.點擊“確定(OK)”.[結果分析]表12-2原始觀測變量相關系數(shù)矩陣(略)表12-3巴特利特球度檢驗和KMO檢驗取樣足夠度的Kaiser-Meyer-Olkin度量.763Bartlett的球形度檢驗近似卡方131.051df36Sig..000經(jīng)分析,大部分相關系數(shù)都較高,可以提取公共因子;巴特利特球形檢驗,對應的概率值P=0.000<0.001,說明與單位矩陣差異有統(tǒng)計學意義,KMO為0.763,說明適合作因子分析.表12-5各階段公共因子的累計方差貢獻率成份初始特征值提取平方和載入旋轉(zhuǎn)平方和載入合計方差%累積%合計方差%累積%合計方差%累積%14.97555.27555.2754.97555.27555.2753.75441.70841.70821.87120.79376.0691.87120.79376.0693.09234.36176.0693.7568.39784.4664.6096.77091.2365.2973.29994.535圖12-2顯示特征值與公共因子個數(shù)關系的碎石圖經(jīng)分析,利用主成分分析的方法,提取公共因子后因子方差的均值都較高,說明提取的公共因子能很好的解釋原始觀測變量.每組的各列含義:特征值、方差貢獻率、累計方差貢獻率.第二組表示提取兩個因子,可以共同解釋76.069%,丟失的信息較少.縱坐標為特征值,橫坐標為因子個數(shù),特征值越小,則原有變量的貢獻越小.特征值大于1的因子有兩個,所以提取兩個因子是合適的.表12-6原始因子載荷成份12在校生數(shù)x1.946-.270招生數(shù)x2.860-.413畢業(yè)生數(shù)x3.834-.369專任教師數(shù)x4.585-.610本科教師比例x5.657.558高級教師比例x6.628.579學校平均在校生數(shù)x7.516.446經(jīng)費比例x8.848-.058生均教育經(jīng)費x9.701.520經(jīng)分析,第一個因子與所有變量的相關性程度高,第二個因子與大部分變量相關性也較高,所以兩個因子含義模糊,不利于命名,接下來要對其進行因子旋轉(zhuǎn).成份12在校生數(shù)x1.906.383招生數(shù)x2.929.217畢業(yè)生數(shù)x3.881.236專任教師數(shù)x4.838-.108本科教師比例x5.161.847高級教師比例x6.126.845學校平均在校生數(shù)x7.123.671經(jīng)費比例x8.697.487生均教育經(jīng)費x9.220.845經(jīng)因子旋轉(zhuǎn)后,第一個因子與“在校生數(shù)”、“招生數(shù)”、“畢業(yè)生數(shù)”、“專任教師數(shù)”及“經(jīng)費比例”等變量相關性程度較高,第二個因子與“本科教師比例”、“高級教師比例”、“學校平均在校生數(shù)”、“生均教育經(jīng)費”等變量相關性較高.因此將第一個公共因子命名為“辦學的規(guī)模數(shù)量因素”,將第二個公共因子命名為“辦學的質(zhì)量保證因素”,北京區(qū)縣職業(yè)教育發(fā)展水平主要這兩個潛在因素的影響.原始變量與公共因子的結構模型:表12-8公共因子與原始變量系數(shù)矩陣公共因子(主成份)12在校生數(shù)x1.239.007招生數(shù)x2.273-.064畢業(yè)生數(shù)x3.254-.048專任教師數(shù)x4.296-.180本科教師比例x5-.084.315高級教師比例x6-.096.320學校平均在校生數(shù)x7-.069.251經(jīng)費比例x8.152.083生均教育經(jīng)費x9-.065.305表12-9公共因子間關系矩陣成份1211.000.0002.0001.000表12-8給出公共因子的得分函數(shù)關系式:由表12-9可見,兩個公共因子的相關程度很低,說明因子間獨立性很好.表12-10中,FAC1_1和FAC2_1是各區(qū)縣公共因子得分結果,進行比較分析.表12-10各區(qū)縣的兩個公共因子的得分結果【練習1】[問題敘述]為了研究省市的科技創(chuàng)新力問題,現(xiàn)有2005年8個省市15個指標數(shù)據(jù),請根據(jù)該數(shù)據(jù)資料,分析一個省市的科技創(chuàng)新能力主要受哪些潛在因素的影響.表12-11八省市科技創(chuàng)新力指標數(shù)據(jù)指標北京天津遼寧上海江蘇浙江山東廣東X1229874410450533035X280.2667.4865.6974.0660.7963.4864.5969.64X348.536.8235.9435.9834.0731.0833.2237.27X424.4914.088.3417.846.85.424.445.81X53.552.622.324.782.133.951.813.66X65.551.961.562.281.471.221.051.09………………………第13章信度分析與效度分析學習目標：1、掌握信度分析2、掌握效度分析重點：1、信度分析2、效度分析13.1信度分析信度（Reliability）即可靠性,它是指采用同樣的方法對同一對象重復測量時所得結果的一致性、穩(wěn)定性及可靠性程度;主要評價量表或問卷精確性、穩(wěn)定性和一致性,即測量過程中隨機誤差造成的測定值變異程度的大小.常用信度指標:(1)重測信度(Test-retestreliability):對同一組被訪者進行兩次相同的問卷調(diào)查,分析兩次結果之間的簡單相關系數(shù)r,一般要求達到0.7以上.(2)折半信度(Split-halfreliability):在實踐中重復測量兩次在實現(xiàn)中往往受條件限制.為此,將評估項目拆分為兩半,計算兩部分得分簡單相關系數(shù)r.(3)克朗巴赫

系數(shù)(Cronbach’salphacoefficient):評價調(diào)查項目和諧水平,一般認為克朗巴赫系數(shù)應達到0.7以上.【實例1】[問題敘述]驗證在國外有較好信度和效度的Spielberger特質(zhì)焦慮量表(部分)的國內(nèi)大學生信度.隨機選取25名大學生進行測驗,量表共有20個條目組成,Sum1與Sum2分別是反向賦分后的兩次量表調(diào)查總得分.表15-1Spielberger特質(zhì)焦慮量表(部分)測量結果(見教材)[實驗目的]理解信度分析的作用及常用的信度指標;掌握各種信度檢驗方法的SPSS操作方法和結果解讀.[操作步驟]定義20個條目變量“X1”~“X20”;2個分析變量“Sum1”和“Sum2”,數(shù)值型;1個序號變量,類型為數(shù)值型或字符型.菜單選擇:對常用的三種信度檢驗方法分別進行闡述.(1)重測信度分析:主菜單“分析(Analyze)”→“相關(Correlate)”→“雙變量(Bivariate)”,打開雙變量相關分析主界面.界面設置:變量“Sum1”與“Sum2”選入“變量(Variables)”框.點擊“確定(OK)”.[結果分析]表13-2雙變量相關分析表Sum1Sum2Sum1Pearson相關性1.972**顯著性(雙側).000N2525Sum2Pearson相關性.972**1顯著性(雙側).000N2525經(jīng)分析,兩次測量量表總得分的Pearson相關系數(shù)為0.972>0.7,對應概率值P<0.001,相關有統(tǒng)計學意義,表明兩次測量具有較好的重測信度.(2)克朗巴赫

系數(shù)和分半信度分析:主菜單“分析(Analyze)”→“度量(Scale)”→“可靠性分析(ReliabilityAnalysis)”,打開信度分析主界面.界面設置:將20個條目“X1”~“X20”選入“項目(Items)”框;點擊“統(tǒng)計量(Statistics)”按鈕.點擊“模型(Model)”下拉框.信度系數(shù):“克朗巴赫

系數(shù)(Alpha)”、“分半信度系數(shù)(Split-half)”及“Guttman分半信度(GuttmanSplit-half)”等,前者為系統(tǒng)默認.[結果分析]表13-3克朗巴赫

系數(shù)檢驗統(tǒng)計量

可靠性統(tǒng)計量Cronbach'sAlpha項數(shù).75020表13-3為克朗巴赫

系數(shù)檢驗結果,克朗巴赫系數(shù)為0.750>0.7,信度較好.表13-4分半信度檢驗統(tǒng)計量Spearman-Brown系數(shù)等長.679不等長.679GuttmanSplit-Half系數(shù).677表13-4為分半信度結果,本量表在國內(nèi)大學生中Spearman-Brown分半信度為0.679,Guttman分半信度為0.677,兩者均接近但是略小于0.7,分半信度欠佳.13.2效度分析一、核心知識1.基本原理效度分析(ValidityAnalysis)用于評價量表或問卷的準確度、有效性和正確性,即測定值與目標真實值的偏差大小,效度意在反映測量工具或手段準確有效地測出所需測量的事物的程度,即實際測定結果與考察內(nèi)容預想結果的符合程度.信度是效度的必要條件,效度須建立在信度的基礎上.(1)內(nèi)容效度(Contentvalidity):指量表或問卷的各條目是否測定其希望測量的內(nèi)容,即測定對象對問題的理解和回答是否與條目設計者希望詢問的內(nèi)容一致.內(nèi)容效度一般通過專家評議打分進行主觀評定.(2)標準關聯(lián)效度(Criterion-relatedvalidity):又稱標準效度,是以一個公認有效的量表作為標準,檢驗問卷與標準量表測定結果的相關性,以兩者測定得分的相關系數(shù)評判標準效度,若問卷與標準量表相關系數(shù)較大,則認為問卷具有較好的標準效度.(3)結構效度(Contractvalidity):又稱構想效度,說明量表或問卷的結構是否與制表的理論設想相符,測量結果的各內(nèi)在成分是否與設計者打算一致.結構效度用于評價量表穩(wěn)定性,常用方法是因子分析.當公因子累積方差貢獻率為≥60％時,且各條目在某個公因子載荷均≥0.4,而在其他公因子中的載荷較低時,則認為該量表具有較好的結構效度,此時還須對公因子命名.

【實例2】[問題敘述]利用實例13.1的數(shù)據(jù),分析Spielberger特質(zhì)焦慮量表的結構效度.[實驗目的]理解效度分析的作用、常用類型、探索性因子分析基本思想和適用條件,掌握利用因子分析進行效度分析的SPSS操作方法和結果解讀.[操作步驟]

變量要求:要求分析變量及條目變量均為數(shù)值型變量.定義條目變量“X1”~“X20”,類型為數(shù)值型;分析變量“Sum1”和“Sum2”,類型為數(shù)值型;1個序號變量,類型為數(shù)值型或字符型.菜單選擇:主界面“分析(Analyze)”→“降維(DimensionReduction)”→“因子分析(Factor)”命令,進入探索性因子分析主界面.界面設置:將變量“X1”~“X20”選入“變量(Variables)”框.

點擊“描述(Discriptives)”按鈕,在“相關矩陣(CorrelationMatrix)”區(qū)域,勾選“顯著性水平(Significancelevels)”和“KMO和Bartlett球形度檢驗(KMOandBartlett`stestofsphericity)”,點擊“繼續(xù)(Continue)”.點擊“抽取(Extraction)”按鈕,“方法(Method)”的默認選項“主成分分析法(Principalcomponents)”,默認基于特征值大于1提取公因子;點擊“繼續(xù)(Continue)”.點擊“旋轉(zhuǎn)(Rotation)”按鈕,勾選“最大方差法(Varimax)”;點擊“得分(Scores)”按鈕,勾選“保存為變量(Saveasvariables)”;勾選“顯示因子得分系數(shù)矩陣(Displayfactorscorecoefficientsmatrix)”.點擊“確定(OK)”.[結果分析]表13-5KMO和Bartlett球形檢驗

Kaiser-Meyer-OlkinMeasureofSamplingAdequacy..350Bartlett'sTestofSphericityApprox.Chi-Square318.398df190Sig..000Bartlett球形檢驗在于檢驗相關陣是否為單位陣,檢驗各個變量是否各自獨立.KMO值越接近于1,意味著變量間的相關性越強,越適合作因子分析;Bartlett球形檢驗對應的概率值P=0.000<0.001,相關性有統(tǒng)計學意義,說明適合進行因子分析,但KMO=0.350,較1小很多,說明不適合進行因子分析.本例與選取樣本較小及條目不全有關,為了課堂講解需要,仍作如下步驟演示.

表13-8公共因子累積方差貢獻率成份初始特征值提取平方和載入合計方差的%累積%合計方差的%累積%15.51227.55927.5595.51227.55927.55923.54517.72345.2833.54517.72345.28332.16410.81856.1002.16410.81856.10041.7018.50364.6041.7018.50364.60451.3616.80671.4101.3616.80671.41061.1535.76777.1771.1535.76777.1777.9414.70581.881旋轉(zhuǎn)后6個公共因子的累積方差貢獻率達到77.177%,說明問卷的問題變量對問卷的總體累計有效程度較好.【練習1】[問題敘述]編制問卷并調(diào)查高校學生健康狀況,預調(diào)查收集20例資料.X1健康狀況滿意程度、X2是否需要調(diào)理身體、X3身體有不舒服感覺、X4感覺自己生病、X5有緊張情緒或壓力感、X6晚間休息不好、X7胃口不好.請進行信度分析.【練習2】[問題敘述]考試焦慮量表共由10個題目組成,選項包括“非常符合、比較符合、說不準、不很符合、很不符合”,采用里克特五級評分方式,按照編碼規(guī)則將選項依次賦值為5、4、3、2、1,此處隨機抽樣調(diào)查40名學生,建立如下數(shù)據(jù)庫.請對量表結構效度進行分析.學習目標：1、掌握聚類分析2、掌握判別分析重點：1、聚類分析2、判別分析第14章聚類分析與判別分析14.1聚類分析(ClusterAnalysis)一、核心知識根據(jù)同類事物應有相近特性,不同事物在這些特性上差異較大的假定,將所研究的事物進行分類,這種研究方法稱為聚類(Cluster).在SPSS中,常用兩種聚類分析方法:一種是快速樣本聚類分析指給定用于聚類分析的變量和類數(shù)后進行的聚類;另一種是系統(tǒng)聚類分析(或稱分層聚類分析)指不事先給定類數(shù),按個案性質(zhì)接近程度,將所有個案不斷相聚,最終聚為一類,結論將在聚類過程中找到.1.快速樣本聚類分析快速樣本聚類分析事先要確定最終聚類數(shù),聚類發(fā)生到該指定類數(shù)后就停止.快速聚類過程遵照所有樣本空間點與這幾個類中心的距離取最小值原則,反復迭代計算,最終將各個個案分配到各個類中心所在的類,迭代停止.另外,系統(tǒng)還提供了更簡單方法,即用戶指定初始類中心后,系統(tǒng)只負責分類,而不再更改這些初始類中心位置,最終將各個個案點歸類到各個初始類中心.快速聚類效率較高,比較適合樣本量較大的聚類分析.

2.系統(tǒng)聚類系統(tǒng)聚類是按個案性質(zhì)的接近程度分析,個案性質(zhì)通過個案測量變量來描述,如果以n個數(shù)值型變量(n維空間)描述某類個案,則個案就是n維空間中一個點.接近程度的測度方法:(1)個案間的相似程度,應用簡單相關系數(shù)和等級相關系數(shù)測度;(2)個案間的差異程度,通過“距離”來測度:點之間距離和類之間距離.系統(tǒng)聚類就是通過對變量的測量,將比較接近的個案找出來歸為一類,進一步再將比較接近的類合并成為新的類,逐層合并直到最后合并成為一類.

兩種類型:Q型聚類,也可稱為樣本聚類,在聚類過程中發(fā)現(xiàn)具有共同屬性的樣本;R型聚類,也可稱為變量聚類,在某些變量中選擇出具有代表性的變量.系統(tǒng)聚類結果不僅有聚類步驟,而且有直觀圖形表達,如樹狀圖和冰柱圖.【實例1】[問題敘述]已知某省17所醫(yī)院人力利用和醫(yī)院任務的數(shù)據(jù)資料,現(xiàn)需要根據(jù)該數(shù)據(jù)資料,將這17所醫(yī)院劃分為三個等級,請作聚類分析.表14-117所醫(yī)院人力利用和醫(yī)院任務數(shù)據(jù)表

表14-117所醫(yī)院人力利用和醫(yī)院任務數(shù)據(jù)表

醫(yī)院編號日均住院人數(shù)月均X光攝片人數(shù)月均占病床天數(shù)服務范圍人口數(shù)患者人均住院天數(shù)每月使用人力115.672463472.9218.004.45566.52244.0220481339.759.506.92596.82320.423940620.2512.804.281033.15418.746505560.3036.703.901603.62549.2067231497.6035.705.501611.37644.92115201365.6324.004.601613.27755.4857791687.0043.305.631854.17850.2859691639.9246.705.152160.55994.3984612872.3378.706.18230.58…………………[實驗目的]理解快速樣本聚類分析適用條件,掌握SPSS操作實現(xiàn)方法.[操作步驟]變量要求:一個個案標識變量,變量類型無要求;多個聚類分析變量,變量類型為數(shù)值型.界面設置:將標識變量“醫(yī)院編號”選入“個案標識依據(jù)(LabelCasesby)”框,其它變量選入“變量(Variable)”框;“聚類數(shù)(NumberofCases)”設為3.

定義標識變量“醫(yī)院編號”聚類分析變量:“日均住院人數(shù)”、“月均X光攝片人數(shù)”、“月均占病床天數(shù)”、“服務范圍人口數(shù)”、“患者人均住院天數(shù)”及“每月使用人力”.菜單選擇:“分析(Analyze)”→“分類(Classify)”→“K均值聚類(K-meanscluster)”點擊“保存(Save)”按鈕,選“聚類成員(Clustermembership)”,點擊“確定(OK)”.[結果分析]表14-2最終不同聚類中心變量的平均值聚類123日均住院人數(shù)375.2767.37510.21月均X光攝片人數(shù)36700.338703.1586533.00月均占病床天數(shù)11409.611962.2715524.00服務范圍人口數(shù)219.5059.79371.60患者人均住院天數(shù)9.525.316.35每月使用人力12496.972008.9118854.45第1、2、3類中包含有3、13、1個個案,得到各類中心變量平均值結果“最終聚類中心”.表14-4各醫(yī)院所在聚類的結果

經(jīng)分析,各醫(yī)院分類結果:編號為14-16第1類;編號為1-13第2類;編號為17第3類.【實例2】[問題敘述]根據(jù)表14-52006年全國各省市醫(yī)療衛(wèi)生服務條件及服務效果的評價指標數(shù)據(jù),分別對各省市醫(yī)療衛(wèi)生服務水平進行省市系統(tǒng)聚類和各指標的系統(tǒng)聚類.表14-52006年各省市醫(yī)療衛(wèi)生服務條件及服務效果的指標數(shù)據(jù)省市萬人擁有醫(yī)務人員數(shù)萬人擁有病人床位數(shù)門診病人人均醫(yī)療費住院病人人均醫(yī)療費嬰兒死亡率孕產(chǎn)婦死亡率平均預期壽命北京108.1151.41259.512551.78.87.976.10天津75.3939.80170.37849.910.76.674.91河北40.8223.66116.93427.09.223.372.54山西53.3532.18127.73934.419.239.371.65內(nèi)蒙古50.5328.94103.63669.92938.669.87遼寧64.7742.06133.04623.518.719.373.34吉林59.4432.14102.23758.324.430.373.10……………………[實驗目的]理解系統(tǒng)聚類適用條件,掌握個案系統(tǒng)聚類和變量系統(tǒng)聚類分析的SPSS操作實現(xiàn)方法及結果解讀.(一)個案的系統(tǒng)聚類[操作步驟]變量要求:一個個案標識變量,變量類型無要求;多個聚類分析變量,類型為數(shù)值型.定義標識變量“省市”;定義七個聚類變量:“萬人擁有醫(yī)務人員數(shù)”、“萬人擁有病人床位數(shù)”、“門診病人人均醫(yī)療費”、“住院病人人均醫(yī)療費”、“嬰兒死亡率”、“孕產(chǎn)婦死亡率”及“平均預期壽命”.菜單選擇:“分析(Analyze)”→“分類(Classify)”→“系統(tǒng)聚類”.界面設置:變量“省市”選入“標注個案(LabelCasesby)”框,其它選入“變量窗口”.

點擊“繪制(Plots)”,選“樹狀圖(Dendrogram)”;點擊“保存(Save)”,選“單一方案(SingleSolution)”,設置“聚類數(shù)(Clusters)”為5,點擊“確定(OK)”.[結果分析]樹狀圖展現(xiàn)了每次類合并情況.SPSS自動將各類間距離映射到0-25間.每條橫線所包括的個案是一個聚類,繪制垂線、對應三個聚類.第一類:北京;第二類:上海、浙江、天津、廣東;第三類:其它省市.在系統(tǒng)聚類冰柱(掛)圖中,縱軸數(shù)字為聚類數(shù),縱向的各長條類似倒掛的冰柱,在聚類數(shù)對應水平橫線上,中間沒有冰柱相連,即為不同聚類.綜合圖14-4和圖14-5結果,并結合實際,將31個省市按醫(yī)療衛(wèi)生服務水平分為3個類比較適當,其聚類結果為:第一類:北京;第二類:上海、浙江、天津、廣東;第三類:其它省市.(二)變量的系統(tǒng)聚類[操作步驟]變量要求:多個聚類分析變量,變量類型為數(shù)值型.“萬人擁有醫(yī)務人員數(shù)”、“萬人擁有病人床位數(shù)”、“門診病人人均醫(yī)療費”、“住院病人人均醫(yī)療費”、“嬰兒死亡率”、“孕產(chǎn)婦死亡率”及“平均預期壽命”.菜單選擇:主菜單“分析(Analyze)”→“分類(Classify)”→“系統(tǒng)聚類(HierarchicalCluster)”.界面設置:將除“省市”以外的變量選入“變量窗口(Variable)”;在“分群(Cluster)”區(qū)域,選“變量(Variables)”;點擊“繪制(Plots)”,選“樹狀圖(Dendrogram)”,點擊“確定(OK)”.[結果分析]若各指

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

SPSS統(tǒng)計方法體系與案例實驗進階課件第11-14章生存分析-聚類分析與判別分析

文檔簡介

溫馨提示

最新文檔

評論

SPSS統(tǒng)計方法體系與案例實驗進階 課件 第11-14章 生存分析-聚類分析與判別分析

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

SPSS統(tǒng)計方法體系與案例實驗進階課件第11-14章生存分析-聚類分析與判別分析