用SAS和SPSS軟件進(jìn)行主成分分析_第1頁
用SAS和SPSS軟件進(jìn)行主成分分析_第2頁
用SAS和SPSS軟件進(jìn)行主成分分析_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、Chinese Journal of Health StatisticsMpr 20Q9, Vo). 261No. 2 213 用SAS和SPSS軟件進(jìn)行主成分分析Chinese Journal of Health StatisticsMpr 20Q9, Vo). 261No. 2 213 Chinese Journal of Health StatisticsMpr 20Q9, Vo). 261No. 2 213 安徽醫(yī)科大學(xué)生物醫(yī)學(xué)研究所(230032)楊中榮毛廣運臧桐華徐希平°Chinese Journal of Health StatisticsMpr 20Q9, Vo).

2、261No. 2 213 Chinese Journal of Health StatisticsMpr 20Q9, Vo). 261No. 2 213 通訊作者:徐希平,xipingxul8 126. comVSaving asVariable主成分分析,又稱主分量分析,是指將原始的多個 變量,通過線性組合,提煉出較少幾個彼此獨立的新變 量的一種多元統(tǒng)計分析方法。在醫(yī)學(xué)科研和預(yù)防的工 作中遇到的一些問題,由于每個變量都在不同程度上 反映這個問題的某些信息,為了全面分析這個問題,往 往提出很多與此有關(guān)的變就(或因素)。但是,在用統(tǒng) 計分析方法研究這個多變量的問題時,由于變量個數(shù) 太多會增加解決

3、該問題的復(fù)雜性。在大多情況下,變 量之間存在一定的相關(guān)性,可以解釋為這兩個變量在 反映此問題的信息時有一定的重疊。人們希望變量個 數(shù)較少而得到的信息較多,主成分分析就是對于原先 提岀的所有變量,建立盡可能少的新變量,使得這些新 變量是兩兩不相關(guān)的,而且這些新變量在反映問題的 信息方面盡可能多地保留原有的信息。SAS和SPSS都能對多變量資料進(jìn)行較完善的主 成分分析,但它們所提供的主成分分析過程不盡相同, 過程下的選項和相應(yīng)的輸岀結(jié)果也各有不同“,因 此有必要對兩個軟件的主成分分析功能做一個比較系 統(tǒng)的介紹。例 對某小學(xué)10名9歲男學(xué)生六個項目的智力 測量的得分如表1。我們習(xí)慣用各項目得分之總和

4、 (合計)來表示學(xué)生的智力,這種做法實際上是將各變 量等同地看待,各變量賦予相同的權(quán)重。表1某小學(xué)10名男學(xué)生六個項目智力測員計分表被測試者編號常識x.算術(shù)理解Xj填圖X.財Xs譯碼X&合計114132814223913021014151434351223111219132439118477792023735131224122638125619142216233713172016262138691908910149314611999815131446105109912102346109一、幾個相關(guān)的名詞術(shù)語及統(tǒng)計疑1. 特征根:Var(CJ =A»各主成分所提供的信息最多少,

5、常用其方差的大 ?。刺卣鞲耄﹣砗饬?,入愈大,該主成分提供的信息 童就愈大,可見:入i >&> > AbO2. 貢獻(xiàn)率及累積貢獻(xiàn)率皿個主成分的特征根入之和為m,則:某主成分C: 的特征根入,在m中所占的比例,被稱為G的貢獻(xiàn)率。 顯然,第一主成分G是貢獻(xiàn)率最大的主成分,如果它 的貢獻(xiàn)率越大,則表明G綜合原始指標(biāo)的能力越強。 前k個主成分的貢獻(xiàn)率之和為前k個主成分的累積貢 獻(xiàn)率。3. 特征向量及因子載荷特征向就是指主成分的線性組合中各系數(shù)勺; 因子載荷即第i主成分C,特征根的平方根與叫的 乘積即為= SQRT(入)實際上,因子載荷是G與原始指標(biāo)X.之間的相關(guān) 系數(shù),反映

6、了兩者之間聯(lián)系的密切程度。4. 主成分得分根據(jù)線性組合中各特征向量和各原始指標(biāo)標(biāo)化值 Z,的大小,可以求得各主成分得分大小,利用主成分 得分大小可以對研究對象的個體進(jìn)行推斷和評價。但是SPSS軟件中得到的是各主成分C/SQRT (入J的值大小,以默認(rèn)變星名FAC1 _ 1等來保存。二、主成分個數(shù)的確定1. 均數(shù)法:計算特征根的均數(shù)A(因為全部尬個待 征根之和為叫所以入=1),則取入大于1的主成分;2. 經(jīng)驗法:當(dāng)前k個主成分的累積貢獻(xiàn)率達(dá)到 80%以上,則取前k個主成分進(jìn)行分析。三、SPSS中的程序及結(jié)果程序:Analyze*Data ReductionFactor AnalysisVaria

7、bles 框:Xj、x? Nx3 x4 Ax5 x6| Descriptive :VCoefficientsVKMO 的 Bartletts test of sphericityContinue |Extraction:/Scree plot;VNumber of factors:3Continue| Scores:VDisplay factor score coefficient matrixContinueOK結(jié)果見表2。由表2可知,六個變量之間的相關(guān)性很高,如果直 接用于分析,可能會帶來嚴(yán)重的共線性問題。由表3可知,第一主成分的特征根為4. 147,它解 釋了總變異的69.116% ;第

8、二主成分的特征根為 0862,它解釋了總變異的14. 368% ;第三主成分的特 征根為0.602,它解釋了總變異的10.035% o從特征 根來看,前三個主成分已經(jīng)基本上反映了原資料的信 息,這六個變就只需要提取三個主成分即可。表2六個變就的相關(guān)系數(shù)矩陣可£心*61.0000. 8340.8120. 8730.4050.530X20. 8341.0000. 7820. 8300.6940.450£0.8120. 7821.0000. 7090.2780. 445£0. 8730. 8300. 7091.0000.4560.6370.4050.6940. 2780

9、.4561.0000. 5000. 5300.4500.4450.6370.5001.000Chinese Journal of Health StatisticsMpr 20Q9, Vo). 261No. 2 213 表3各主成分解釋總變異的程度主成分相關(guān)矩陣的待征值捉取的因于載備的平方和各成分的符征值4丫成分所解釋的方差占總方差的百分比累計百分比各因子的待征值頁獻(xiàn)累計貢獻(xiàn)I4.14769.11669.1164.14769.11669.11620.86214.36883.4850.86214.36883.48530.60210.03593.5190.60210.03593.51940.257

10、4.28197.80050.10?1.77999.58060.0250.420100.000Chinese Journal of Health StatisticsMpr 20Q9, Vo). 261No. 2 213 四、SAS中的程序及結(jié)果SAS中用于主成分分析的過程為princomp。 程序:Data namcl ;input x, x2 x3 x4 x6;cards;14 13 28 14 22 39proc princomp ;run; 運行結(jié)果見表4。前三個主成分可表示為:C = 0. 450428Z, + 0.458403% + 0.408183Z)+0. 452656乙 +0.

11、31 5012Z5 +0. 340937Z6C2 = -0. 28870121Z, + 0. 004602 -0. 448122-0. 118657乙 +0.1747036爲(wèi) +0. 379046Z6C3 = -0.000116Z -0.4235lOZj -0.043682為 +0. 149879乙-0403637Zs +0. 795829Z6表4相關(guān)矩陣的主成分特征向歛特征向鐵1特征向特征向債3特征向債4特征向員5待征向童60.450128-O.2S87OI-0.0001160.265691 0.8019280.009Z760.45W03O.OM6Q2-0.423510-0.11701 -a

12、 251201-0.7W610.408183-0.448122-O.M36820.710153 -0.1S89950.317913&0.452656-0.1186570.149S79-O.6Q5624 -0.5019230.373969a 3150120.747036-0.4036370.1214M a 1277260.385636O.iW70.30160.7W90.208376 a 017019-0.251061從主成分來看:第一主成分的各分斌之大小大致相當(dāng). 說明第一主成分是一個綜合指標(biāo);第二主成分在扯上 有較大的系數(shù),說明第二主成分反映的是動手操作能 力;第三主成分在X&

13、上有較大的負(fù)荷,說明第三主成 分反映的是歸納演繹能力。討 論信息化時代的今天,隨著計算機的普及和統(tǒng)計軟 件的不斷開發(fā)應(yīng)用,要求統(tǒng)計方面的知識越來越高了, 但是醫(yī)學(xué)領(lǐng)域的統(tǒng)計方法濫用現(xiàn)象仍比較嚴(yán)重,特 別是涉及到多因素的統(tǒng)計方法方面的知識需要重點加 強。如果忽略了不同統(tǒng)計方法應(yīng)用的前提條件,則必 然會導(dǎo)致錯誤的結(jié)論。如主成分分析的應(yīng)用條件是要 求變董間存在較大的相關(guān)性,當(dāng)相關(guān)較小時,應(yīng)用主成 分分析是沒有意義的。目前,國際上應(yīng)用較廣的統(tǒng)計軟件如SPSS、SAS 和STATA等有其各自的優(yōu)缺點,它們?yōu)榻y(tǒng)計分析提 供了方便、快捷的方法,絕大部份的醫(yī)學(xué)科研數(shù)據(jù)都可 用統(tǒng)計軟件分析。特別是SPSS統(tǒng)計軟件包,以界面 窗口、操作簡單和簡便易學(xué)而著稱。即使是SAS和 STATA等統(tǒng)計軟件,對常見統(tǒng)計量的編程分析主要涉 及與數(shù)據(jù)庫類似的變量、函數(shù)、以及一些簡單的條件和 循環(huán)語句,稍加學(xué)習(xí)即可掌握。作為一名醫(yī)務(wù)工作者, 應(yīng)當(dāng)熟悉和掌握常用統(tǒng)計軟件的常見統(tǒng)計分析的基本 操作,這將給醫(yī)學(xué)科研和醫(yī)學(xué)工作中帶來很大的幫助。參考文獻(xiàn)1朱道元帑編多元統(tǒng)計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論