主成分分析和典型相關(guān)分析課件_第1頁(yè)
主成分分析和典型相關(guān)分析課件_第2頁(yè)
主成分分析和典型相關(guān)分析課件_第3頁(yè)
主成分分析和典型相關(guān)分析課件_第4頁(yè)
主成分分析和典型相關(guān)分析課件_第5頁(yè)
已閱讀5頁(yè),還剩247頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

引言變量太多會(huì)增加計(jì)算的復(fù)雜性變量太多給分析問(wèn)題和解釋問(wèn)題帶來(lái)困難變量提供的信息在一定程度上會(huì)有所重疊用為數(shù)較少的互不相關(guān)的新變量來(lái)反映原變量所提供的絕大部分信息,降維的思想來(lái)處理高維數(shù)據(jù)。第1頁(yè)/共126頁(yè)引言變量太多會(huì)增加計(jì)算的復(fù)雜性第1頁(yè)/共126頁(yè)14.1主成分分析主要目的:對(duì)原變量加以“改造”,在不致?lián)p失原變量太多信息的條件下盡可能地降低變量的維數(shù),即用較少的“新變量”代替原來(lái)的各變量。第2頁(yè)/共126頁(yè)4.1主成分分析主要目的:第2頁(yè)/共126頁(yè)2第3頁(yè)/共126頁(yè)第3頁(yè)/共126頁(yè)34.1.2總體主成分設(shè)為某實(shí)際問(wèn)題所涉及的個(gè)隨機(jī)變量。記,其協(xié)方差矩陣為它是一個(gè)階非負(fù)定矩陣。設(shè)為個(gè)常數(shù)向量,考慮如下線性組合:第4頁(yè)/共126頁(yè)4.1.2總體主成分設(shè)為某實(shí)際問(wèn)題所涉及4總體主成分易知有我們希望用代替原來(lái)個(gè)變量,這就要求盡可能地反映原來(lái)個(gè)變量的信息。這里用方差來(lái)度量。即要求達(dá)到最大。對(duì)任意常數(shù),若取,則。

第5頁(yè)/共126頁(yè)總體主成分易知有第5頁(yè)/共126頁(yè)5總體主成分

因此,必須對(duì)加以限制,否則無(wú)界。最方便的限制是要求具有單位長(zhǎng)度,即我們?cè)诩s束條件之下,求使達(dá)到最大,由此所確定的隨機(jī)變量稱為的第一主成分。第6頁(yè)/共126頁(yè)總體主成分因此,必須對(duì)加以限制,否則6總體主成分如果第一主成分還不足以反映原變量的信息,進(jìn)一步求。為了使和反映原變量的信息不相重疊,要求二者不相關(guān),在約束條件求使達(dá)到最大。

第二主成分:

依次類推……

第7頁(yè)/共126頁(yè)總體主成分如果第一主成分還不足以反映原變量的信息,進(jìn)7總體主成分一般地,在約束條件及

下,求使達(dá)到最大,由此所確定的稱為的第個(gè)主成分。第8頁(yè)/共126頁(yè)總體主成分一般地,在約束條件及8總體主成分的求法設(shè)是的協(xié)方差矩陣,的特征值及相應(yīng)的正交單位化特征向量分別為及,則的第個(gè)主成分為

其中。易見:事實(shí)上,令,則為一正交矩陣,且第9頁(yè)/共126頁(yè)總體主成分的求法設(shè)是9總體主成分的求法設(shè)為X的第一主成分,其中。令則并且當(dāng)時(shí),等號(hào)成立。這時(shí)第10頁(yè)/共126頁(yè)總體主成分的求法設(shè)為X的第一主成分,其10總體主成分的求法在約束條件下,當(dāng)時(shí),達(dá)到最大,且設(shè)為X的第二主成分,則有

即有且第11頁(yè)/共126頁(yè)總體主成分的求法在約束條件下,當(dāng)時(shí),11總體主成分的求法令

則有從而并且當(dāng),即時(shí),。由此知,當(dāng)時(shí),滿足,且使達(dá)到最大。依此類推….

第12頁(yè)/共126頁(yè)總體主成分的求法令第12頁(yè)/共126頁(yè)12總體主成分的求法以上結(jié)果告訴我們,求X的各主成分,等價(jià)于求它的協(xié)方差矩陣∑的各特征值及相應(yīng)的正交單位化特征向量。按特征值由大到小所對(duì)應(yīng)的正交單位化特征向量為組合系數(shù)的的線性組合分別為X的第一、第二、直至第p個(gè)主成分,而各主成分的方差等于相應(yīng)的特征值。第13頁(yè)/共126頁(yè)總體主成分的求法以上結(jié)果告訴我們,求X的各主成分,等價(jià)于求它13總體主成分的性質(zhì)主成分的協(xié)方差矩陣及總方差記為主成分向量,則,其中,Y的協(xié)方差矩陣為由此得主成分的總方差為第14頁(yè)/共126頁(yè)總體主成分的性質(zhì)主成分的協(xié)方差矩陣及總方差第14頁(yè)/共12614總體主成分的性質(zhì)主成分分析是把p個(gè)原始變量的總方差分解成p個(gè)不相關(guān)變量的方差之和。

第個(gè)主成分的貢獻(xiàn)率:描述了第k個(gè)主成分提取的信息占總信息的份額。第15頁(yè)/共126頁(yè)總體主成分的性質(zhì)第15頁(yè)/共126頁(yè)15總體主成分的性質(zhì)前個(gè)主成分的累計(jì)貢獻(xiàn)率:表明前m個(gè)主成分綜合提供信息的能力。

實(shí)際應(yīng)用中,通常選取m<p,使前m個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到較高的比例(如80%到90%)。這樣用前m個(gè)主成分代替原始變量不但是變量維數(shù)降低,而且也不致于損失原始變量中的太多信息。第16頁(yè)/共126頁(yè)總體主成分的性質(zhì)前個(gè)主成分的累計(jì)貢獻(xiàn)率:第16頁(yè)/共16總體主成分的性質(zhì)主成分與變量的相關(guān)系數(shù)由于,故,從而

由此可得與的相關(guān)系數(shù)為它給出了主成分與原始變量的關(guān)聯(lián)性的度量。第17頁(yè)/共126頁(yè)總體主成分的性質(zhì)主成分與變量的相關(guān)系數(shù)第17頁(yè)17各主成分與原始變量間的相關(guān)系數(shù)原變量主成分第18頁(yè)/共126頁(yè)各主成分與原始變量間的相關(guān)系數(shù)原變量主成分第18頁(yè)/共12618實(shí)際應(yīng)用中,一般只對(duì)前m個(gè)主成分感興趣,因此只關(guān)心與的相關(guān)系數(shù),即表中前m行的各個(gè)值。第19頁(yè)/共126頁(yè)實(shí)際應(yīng)用中,一般只對(duì)前m個(gè)主成分感興趣,因此只關(guān)心19例4.1設(shè)隨機(jī)變量的協(xié)方差矩陣為求的各主成分。

解易求得的特征值及相應(yīng)的正交單位化特征向量分別為第20頁(yè)/共126頁(yè)例4.1設(shè)隨機(jī)變量的協(xié)20例4.1因此的主成分為如果我們只取第一主成分,則貢獻(xiàn)率為

若取前兩個(gè)主成分,則累計(jì)貢獻(xiàn)率為第21頁(yè)/共126頁(yè)例4.1因此的主成分為第21頁(yè)/共126頁(yè)21例4.1進(jìn)一步可求得前兩個(gè)主成分與各原始變量的相關(guān)系數(shù)同理,可求得即與,高度相關(guān)而與不相關(guān);與以概率1呈完全線性關(guān)系。第22頁(yè)/共126頁(yè)例4.1進(jìn)一步可求得前兩個(gè)主成分與各原始變量的相關(guān)系數(shù)第222標(biāo)準(zhǔn)化變量的主成分在實(shí)際問(wèn)題中,不同的變量往往有不同的量綱,由于不同的量綱會(huì)引起各變量取值的分散程度差異較大,這時(shí)總體方差則主要受方差較大的變量的控制。若用求主成分,則優(yōu)先照顧了方差大的變量,有時(shí)會(huì)造成很不合理的結(jié)果。為了消除由于量綱的不同帶來(lái)的影響,常采用變量標(biāo)準(zhǔn)化的方法,即令其中。第23頁(yè)/共126頁(yè)標(biāo)準(zhǔn)化變量的主成分在實(shí)際問(wèn)題中,不同的變量往往有不同的量綱,23標(biāo)準(zhǔn)化變量的主成分這時(shí),的協(xié)方差矩陣便是的相關(guān)矩陣,其中利用的相關(guān)矩陣作主成分分析,可以得到如下結(jié)論:第24頁(yè)/共126頁(yè)標(biāo)準(zhǔn)化變量的主成分這時(shí),的協(xié)24標(biāo)準(zhǔn)化變量的主成分設(shè)為標(biāo)準(zhǔn)化的隨機(jī)向量,其協(xié)方差矩陣(即的相關(guān)矩陣)為,則的第個(gè)主成分為并且其中為的特征值,為相應(yīng)于特征值的正交單位化特征向量。這時(shí),第個(gè)主成分的貢獻(xiàn)率為,前個(gè)主成分的累計(jì)貢獻(xiàn)率為,與的相關(guān)系數(shù)為第25頁(yè)/共126頁(yè)標(biāo)準(zhǔn)化變量的主成分設(shè)25例4.2設(shè)的協(xié)方差矩陣為相應(yīng)的相關(guān)矩陣為分別從和出發(fā),作主成分分析。第26頁(yè)/共126頁(yè)例4.2設(shè)的協(xié)方差矩陣為第226例4.2解如果從出發(fā)作主成分分析,易求得其特征值和相應(yīng)的正交單位化特征向量為的兩個(gè)主成分分別為第一主成分的貢獻(xiàn)率為第27頁(yè)/共126頁(yè)例4.2解如果從出發(fā)作主成分分析,易求得其特征值27例4.2

與,的相關(guān)系數(shù)分別是我們可以看到,由于的方差很大,它完全控制了提取信息量占99.2%的第一主成分(在中的系數(shù)為0.999),淹沒了變量的作用。如果從出發(fā)求主成分,可求得其特征值和相應(yīng)的正交單位化特征向量為第28頁(yè)/共126頁(yè)例4.2與,的相關(guān)系數(shù)分別是第28頁(yè)/共12628例4.2

的兩個(gè)主成分分別為此時(shí),第一個(gè)主成分的貢獻(xiàn)率有所下降,為

注:當(dāng)涉及的各變量的變化范圍差異較大時(shí),從出發(fā)求主成分比較合理。

第29頁(yè)/共126頁(yè)例4.2的兩個(gè)主成分分別為第29頁(yè)/共126頁(yè)294.1.3樣本主成分設(shè)為取自的一個(gè)容量為的簡(jiǎn)單隨機(jī)樣本,則樣本協(xié)方差矩陣及樣本相關(guān)矩陣分別為其中第30頁(yè)/共126頁(yè)4.1.3樣本主成分設(shè)第30頁(yè)/30樣本主成分設(shè)是樣本協(xié)方差矩陣,其特征值為相應(yīng)的正交單位化特征向量這里,則第個(gè)樣本主成分為其中為X的任一觀測(cè)值。當(dāng)依次代入X的n個(gè)觀測(cè)值時(shí),便得到第i個(gè)樣本主成分的n個(gè)觀測(cè)值,我們稱為第i個(gè)主成分的得分。第31頁(yè)/共126頁(yè)樣本主成分設(shè)是樣本協(xié)方差矩陣,其特31樣本主成分第個(gè)樣本主成分的貢獻(xiàn)率為,前個(gè)樣本主成分的累計(jì)貢獻(xiàn)率為。第32頁(yè)/共126頁(yè)樣本主成分第32頁(yè)/共126頁(yè)32樣本主成分同樣,為了消除量綱的影響,我們可以對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化,即令則標(biāo)準(zhǔn)化數(shù)據(jù)的樣本協(xié)方差矩陣即為原數(shù)據(jù)的樣本相關(guān)矩陣。由出發(fā)所求得的樣本主成分稱為標(biāo)準(zhǔn)化樣本主成分。只要求出的特征值及相應(yīng)的正交單位化特征向量,類似上述結(jié)果可求得標(biāo)準(zhǔn)化樣本主成分。這時(shí)標(biāo)準(zhǔn)化樣本總方差為。第33頁(yè)/共126頁(yè)樣本主成分同樣,為了消除量綱的影響,我們可以對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化33樣本主成分實(shí)際應(yīng)用中,將樣本代入各主成分中,可得到各樣本主成分的觀測(cè)值

原變量主成分12序號(hào)

第34頁(yè)/共126頁(yè)樣本主成分實(shí)際應(yīng)用中,將樣本代入各主34樣本主成分實(shí)際應(yīng)用中,選取前m(m<p)個(gè)樣本主成分,使其累計(jì)貢獻(xiàn)率達(dá)到一定的要求(如80%到90%),以前m個(gè)主成分的得分代替原始數(shù)據(jù),這樣便可以達(dá)到降低原始數(shù)據(jù)維數(shù)的目的,同時(shí)也不致?lián)p失原始數(shù)據(jù)的太多信息。第35頁(yè)/共126頁(yè)樣本主成分實(shí)際應(yīng)用中,選取前m(m<p)個(gè)樣本主成分,使其累35PRINCOMP過(guò)程可對(duì)輸入資料文件做主成分分析輸入資料文件可以是原始數(shù)據(jù)、相關(guān)系數(shù)矩陣或樣本協(xié)方差矩陣等輸出包括相關(guān)矩陣或協(xié)方差矩陣、特征值、特征向量及標(biāo)準(zhǔn)化的主成分值等第36頁(yè)/共126頁(yè)P(yáng)RINCOMP過(guò)程可對(duì)輸入資料文件做主成分分析第36頁(yè)/共36主要語(yǔ)句Procprincomp選項(xiàng)串;

var變量名稱串;

partial變量名稱串;

freq變量名稱串;

weight變量名稱串;

by變量名稱串;

run;第37頁(yè)/共126頁(yè)主要語(yǔ)句Procprincomp選項(xiàng)串;第37頁(yè)/共1237PROCPRINCOMPProcprincompoptions;data=sasdataset:指出要分析的sas數(shù)據(jù)集名稱。這個(gè)數(shù)據(jù)集可以是原始觀測(cè)值的sas數(shù)據(jù)集,也可以是相關(guān)矩陣(在數(shù)據(jù)集名稱后加上type=corr)或協(xié)方差矩陣(在數(shù)據(jù)集名稱后加上type=cov)。若省略數(shù)據(jù)集選項(xiàng),則自動(dòng)使用最新建立的sas數(shù)據(jù)集。第38頁(yè)/共126頁(yè)P(yáng)ROCPRINCOMPProcprincompopt38PROCPRINCOMPProcprincompoptions;out=sasdataset:命名一個(gè)輸出的sas數(shù)據(jù)集,其中包含原始數(shù)據(jù)以及各主成分的得分(即各主成分的觀測(cè)值)。

outstat=sasdataset:命名一個(gè)包含各變量的均值、標(biāo)準(zhǔn)差、相關(guān)矩陣或協(xié)方差矩陣、特征值和特征向量的輸出sas數(shù)據(jù)集。第39頁(yè)/共126頁(yè)P(yáng)ROCPRINCOMPProcprincompopt39PROCPRINCOMPProcprincompoptions;covariance(或COV):要求從協(xié)方差矩陣出發(fā)作主成分分析。若省略此選項(xiàng),則從相關(guān)矩陣出發(fā)進(jìn)行分析。除非各變量的度量單位是可比較的或已經(jīng)過(guò)某種方式的標(biāo)準(zhǔn)化,否則不宜使用此選項(xiàng),應(yīng)從相關(guān)矩陣出發(fā)作主成分分析。

N=n:指定要計(jì)算的主成分個(gè)數(shù)“n”。其默認(rèn)值為參與分析的變量個(gè)數(shù)。第40頁(yè)/共126頁(yè)P(yáng)ROCPRINCOMPProcprincompopt40PROCPRINCOMPProcprincompoptions;prefix=name:規(guī)定各主成分的名稱的前綴。省略此句則sas系統(tǒng)自動(dòng)賦予各主成分名稱分別為prin1,prin2,…。若“name=A”,則各主成分名稱分別為A1,A2,…。前綴的字符個(gè)數(shù)加上后面數(shù)字位數(shù)應(yīng)不超過(guò)8個(gè)字符。第41頁(yè)/共126頁(yè)P(yáng)ROCPRINCOMPProcprincompopt41例4.3對(duì)10名男中學(xué)生的身高()、胸圍()和體重()進(jìn)行測(cè)量,得數(shù)據(jù)如表。對(duì)其作主成分分析。序號(hào)身高(cm)胸圍(cm)體重(kg)1149.569.538.52162.577.055.53162.778.550.84162.287.565.55156.574.549.06156.174.545.57172.076.551.08173.281.559.59159.574.543.510157.779.053.5第42頁(yè)/共126頁(yè)例4.3對(duì)10名男中學(xué)生的身高()、胸圍()和體重(42例4.3Datastudents;inputx1x2x3;cards;149.569.538.5……157.779.053.5;procprincompcov;varx1-x3;run;第43頁(yè)/共126頁(yè)例4.3Datastudents;第43頁(yè)/共126頁(yè)43第44頁(yè)/共126頁(yè)第44頁(yè)/共126頁(yè)44第45頁(yè)/共126頁(yè)第45頁(yè)/共126頁(yè)45例4.3由上面的sasprocprincomp過(guò)程,可以算得樣本協(xié)方差矩陣為S的特征值與單位正交化特征向量分別為第46頁(yè)/共126頁(yè)例4.3由上面的sasprocprincomp過(guò)程,可以46例4.3各樣本主成分的貢獻(xiàn)率分別為:前兩個(gè)主成分的累計(jì)貢獻(xiàn)率已達(dá)98.855%,實(shí)際應(yīng)用中可只取前兩個(gè)主成分,即第47頁(yè)/共126頁(yè)例4.3各樣本主成分的貢獻(xiàn)率分別為:第47頁(yè)/共126頁(yè)47例4.3如果從相關(guān)矩陣出發(fā)第48頁(yè)/共126頁(yè)例4.3如果從相關(guān)矩陣出發(fā)第48頁(yè)/共126頁(yè)48SPSS第49頁(yè)/共126頁(yè)SPSS第49頁(yè)/共126頁(yè)49SPSS1.Analyze→DataReduction→FactorAnalysis,彈出FactorAnalysis對(duì)話框;2.把變量選入Variables框;3.Descriptives:CorrelationMatrix框組中選中Coefficients,然后點(diǎn)擊Continue,返回FactorAnalysis對(duì)話框;4.點(diǎn)擊“OK”第50頁(yè)/共126頁(yè)SPSS1.Analyze→DataReduction50因子分析主成分分析的推廣和發(fā)展,多元統(tǒng)計(jì)分析方法中降維的一種方法,是研究相關(guān)陣或協(xié)方差陣的內(nèi)在的依賴關(guān)系,將多個(gè)變量進(jìn)行綜合,并用少數(shù)幾個(gè)因子來(lái)再現(xiàn)原始變量和因子之間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法。第51頁(yè)/共126頁(yè)因子分析主成分分析的推廣和發(fā)展,多元統(tǒng)計(jì)分析方法中降維的一種51例4.4某市為了全面分析機(jī)械類各企業(yè)的經(jīng)濟(jì)效益,選擇了8個(gè)不同的利潤(rùn)指標(biāo),14家企業(yè)關(guān)于這8個(gè)指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)如表。試進(jìn)行主成分分析。第52頁(yè)/共126頁(yè)例4.4某市為了全面分析機(jī)械類各企業(yè)的經(jīng)濟(jì)效益,選擇了8個(gè)52例4.4datalirun;inputx1-x8;cards;40.424.77.26.18.38.72.44220.0……38.59.111.39.512.216.41.32711.6;proc

princompcov;varx1-x8;run;第53頁(yè)/共126頁(yè)例4.4datalirun;第53頁(yè)/共126頁(yè)53第54頁(yè)/共126頁(yè)第54頁(yè)/共126頁(yè)54第55頁(yè)/共126頁(yè)第55頁(yè)/共126頁(yè)55第56頁(yè)/共126頁(yè)第56頁(yè)/共126頁(yè)56第57頁(yè)/共126頁(yè)第57頁(yè)/共126頁(yè)57例4.5某醫(yī)學(xué)院測(cè)得20例肝癌患者的4項(xiàng)肝功能指標(biāo):SGPT(轉(zhuǎn)氨酶),肝大指數(shù),ZnT(鋅濁度)和AFP(胎甲球),依次用X1~X4表示,觀察數(shù)據(jù)如表。試進(jìn)行主成分分析。第58頁(yè)/共126頁(yè)例4.5某醫(yī)學(xué)院測(cè)得20例肝癌患者的4項(xiàng)肝功能指標(biāo):SGPT58例4.5datap1;inputx1-x4;cards;402520101.5530120313502504.51801203.5950101.512504011940270413602803.5116017039601803.51440130230502201.517201601.535602202.51430140220202202141040110020112601202200;proc

princompout=pcprefix=y;varx1-x4;run;第59頁(yè)/共126頁(yè)例4.5datap1;13023050第59頁(yè)/共159第60頁(yè)/共126頁(yè)第60頁(yè)/共126頁(yè)60例4.6一月和七月平均氣溫的主成分分析在數(shù)據(jù)集TEMPERAT中存放有美國(guó)一些城市一月和七月的平均氣溫。我們希望對(duì)這兩個(gè)氣溫進(jìn)行主成分分析,希望用一個(gè)統(tǒng)一的溫度來(lái)作為總的可比的溫度,所以進(jìn)行主分量分析。

第61頁(yè)/共126頁(yè)例4.6一月和七月平均氣溫的主成分分析第61頁(yè)/共126頁(yè)61例4.6DATATEMPERAT;INPUTCITY$1-15JANUARYJULY;CARDS;MOBILE51.281.6PHOENIX51.291.2LITTLEROCK39.581.4SACRAMENTO45.175.2DENVER29.973.0HARTFORD24.872.7WILMINGTON32.075.8WASHINGTONDC35.678.7JACKSONVILLE54.681.0MIAMI67.282.3ATLANTA42.478.0BOISE29.074.5CHICAGO22.971.9PEORIA23.875.1DESMOINES19.475.1INDIANAPOLIS27.975.0WICHITA31.380.7LOUISVILLE33.376.9NEWORLEANS52.981.9PORTLAND,MAINE21.568.0BALTIMORE33.476.6BOSTON29.273.3DETROIT25.573.3SAULTSTEMARIE14.263.8DULUTH8.565.6MINNEAPOLIS12.271.9JACKSON47.181.7KANSASCITY27.878.8STLOUIS31.378.6GREATFALLS20.569.3OMAHA22.677.2RENO31.969.3CONCORD20.669.7ATLANTICCITY32.775.1ALBUQUERQUE35.278.7第62頁(yè)/共126頁(yè)例4.6DATATEMPERAT;WICHITA62例4.6ALBANY21.572.0BUFFALO23.770.1NEWYORK32.276.6CHARLOTTE42.178.5RALEIGH40.577.5BISMARCK8.270.8CINCINNATI31.175.6CLEVELAND26.971.4COLUMBUS28.473.6OKLAHOMACITY36.881.5PORTLAND,OREG38.167.1PHILADELPHIA32.376.8PITTSBURGH28.171.9PROVIDENCE28.472.1COLUMBIA45.481.2SIOUXFALLS14.273.3MEMPHIS40.579.6NASHVILLE38.379.6DALLAS44.884.8ELPASO43.682.3HOUSTON52.183.3SALTLAKECITY28.076.7BURLINGTON16.869.8NORFOLK40.578.3RICHMOND37.577.9SPOKANE25.469.7CHARLESTON,WV34.575.0MILWAUKEE19.469.9CHEYENNE26.669.1;PROC

PRINCOMPCOVOUT=PRIN;VARJULYJANUARY;RUN;第63頁(yè)/共126頁(yè)例4.6ALBANY21.572.0D63第64頁(yè)/共126頁(yè)第64頁(yè)/共126頁(yè)64例4.6輸出中,第一部分為簡(jiǎn)單統(tǒng)計(jì)量(均值和標(biāo)準(zhǔn)差),第二部分為協(xié)方差的特征值(注意我們?cè)谶^(guò)程中用了COV選項(xiàng),無(wú)此選項(xiàng)用相關(guān)陣),從這里可以看到貢獻(xiàn)率(Proportion)和累計(jì)貢獻(xiàn)率(Cumulative),第三部分為特征向量。第65頁(yè)/共126頁(yè)例4.6第65頁(yè)/共126頁(yè)65例4.6按本結(jié)果的特征向量值及用COV選項(xiàng)規(guī)定使用協(xié)方差陣,我們可以知道兩個(gè)主分量如此計(jì)算:

PRIN1=0.326866*JULY+0.945071*JANUARYPRIN2=0.945071*JULY+(-0.326866)*JANUARY第66頁(yè)/共126頁(yè)例4.6按本結(jié)果的特征向量值及用COV選項(xiàng)規(guī)定使用協(xié)方差陣66例4.6如果沒有用COV選項(xiàng),原始變量還需要除以標(biāo)準(zhǔn)差。由系數(shù)可見,第一主分量是兩個(gè)月份的加權(quán)平均,代表了一個(gè)地方的氣溫水平,第二主分量系數(shù)一正一負(fù),反應(yīng)了冬季和夏季的氣溫差別。

請(qǐng)注意:此時(shí)的特征向量是與上不同的,而主成分公式也應(yīng)用標(biāo)準(zhǔn)化后的值。第67頁(yè)/共126頁(yè)例4.6如果沒有用COV選項(xiàng),原始變量還需要除以標(biāo)準(zhǔn)差。由67備注關(guān)于主成分的實(shí)際意義,要結(jié)合具體問(wèn)題和有關(guān)專業(yè)知識(shí)才能給出合理的解釋。雖然利用主成分本身可對(duì)所研究的問(wèn)題在一定程度上作分析,但主成分分析本身往往并不是最終目的,更重要的是利用主成分綜合原始變量的信息,達(dá)到降低原始變量維數(shù)的目的,進(jìn)而利用前幾個(gè)主成分的得分的低維數(shù)據(jù)作進(jìn)一步分析,如主成分回歸分析、聚類分析等等。第68頁(yè)/共126頁(yè)備注關(guān)于主成分的實(shí)際意義,要結(jié)合具體問(wèn)題和有關(guān)專業(yè)知識(shí)才能給684.2典型相關(guān)分析典型相關(guān)分析是研究?jī)山M變量之間相關(guān)性的一種統(tǒng)計(jì)分析方法,也是一種降維技術(shù)。由Hotelling(1935,1936)最早提出,CooleyandLohnes(1971)、Kshirsagar(1972)和Mardia,Kent,andBibby(1979)推動(dòng)了它的應(yīng)用。第69頁(yè)/共126頁(yè)4.2典型相關(guān)分析典型相關(guān)分析是研究?jī)山M變量之間相關(guān)性的一69引言何時(shí)采用典型相關(guān)分析??jī)蓚€(gè)隨機(jī)變量Y與X--->簡(jiǎn)單相關(guān)系數(shù)一個(gè)隨機(jī)變量Y與一組隨機(jī)變量X1,X2,…,Xp;--->多重相關(guān)(復(fù)相關(guān)系數(shù))一組隨機(jī)變量Y1,Y2,…,Yq與另一組隨機(jī)變量X1,X2,…,Xp;--->典型相關(guān)系數(shù)

第70頁(yè)/共126頁(yè)引言何時(shí)采用典型相關(guān)分析?第70頁(yè)/共126頁(yè)70CCA典型相關(guān)是簡(jiǎn)單相關(guān)、多重相關(guān)的推廣;或者說(shuō)簡(jiǎn)單相關(guān)系數(shù)、復(fù)相關(guān)系數(shù)是典型相關(guān)系數(shù)的特例。著眼于識(shí)別和量化兩組隨機(jī)變量之間的相關(guān)性,是兩個(gè)隨機(jī)變量之間的相關(guān)性在兩組變量之下的推廣。第71頁(yè)/共126頁(yè)CCA典型相關(guān)是簡(jiǎn)單相關(guān)、多重相關(guān)的推廣;或者說(shuō)簡(jiǎn)單相關(guān)系數(shù)71簡(jiǎn)單相關(guān)系數(shù)

描述兩組變量的相關(guān)關(guān)系的缺點(diǎn)只是孤立考慮單個(gè)X與單個(gè)Y間的相關(guān),沒有考慮X、Y變量組內(nèi)部各變量間的相關(guān)。兩組間有許多簡(jiǎn)單相關(guān)系數(shù),使問(wèn)題顯得復(fù)雜,難以從整體描述。(復(fù)相關(guān)系數(shù)也如此)第72頁(yè)/共126頁(yè)簡(jiǎn)單相關(guān)系數(shù)

描述兩組變量的相關(guān)關(guān)系的缺點(diǎn)只是孤立考慮單個(gè)X72典型相關(guān)分析的思想采用主成分思想尋找第i對(duì)典型(相關(guān))變量(Ui,Vi):第73頁(yè)/共126頁(yè)典型相關(guān)分析的思想采用主成分思想尋找第i對(duì)典型(相關(guān))變量(73典型相關(guān)分析的思想X1Y1Y2Y3Y4…X2X3X4X5…U1U2U3U4…V1V2V3V4…將兩組變量間的相關(guān)性凝結(jié)為少數(shù)幾對(duì)典型變量間的相關(guān)性,通過(guò)對(duì)相關(guān)性較大的少數(shù)幾對(duì)典型變量的研究來(lái)了解原來(lái)的兩組變量相關(guān)性。第74頁(yè)/共126頁(yè)典型相關(guān)分析的思想X1Y1Y2Y3Y4…X2X3X4X5…U744.2.2總體的典型變量與典型相關(guān)總體的典型變量的定義

第75頁(yè)/共126頁(yè)4.2.2總體的典型變量與典型相關(guān)總體的典型變量的定義第775第一對(duì)典型變量第76頁(yè)/共126頁(yè)第一對(duì)典型變量第76頁(yè)/共126頁(yè)76第二對(duì)典型變量第77頁(yè)/共126頁(yè)第二對(duì)典型變量第77頁(yè)/共126頁(yè)77一般情況第78頁(yè)/共126頁(yè)一般情況第78頁(yè)/共126頁(yè)78求法總體典型相關(guān)變量與典型相關(guān)系數(shù)的求法第79頁(yè)/共126頁(yè)求法總體典型相關(guān)變量與典型相關(guān)系數(shù)的求法第79頁(yè)/共126頁(yè)79第80頁(yè)/共126頁(yè)第80頁(yè)/共126頁(yè)80第81頁(yè)/共126頁(yè)第81頁(yè)/共126頁(yè)81第82頁(yè)/共126頁(yè)第82頁(yè)/共126頁(yè)82從標(biāo)準(zhǔn)化變量出發(fā)第83頁(yè)/共126頁(yè)從標(biāo)準(zhǔn)化變量出發(fā)第83頁(yè)/共126頁(yè)83第84頁(yè)/共126頁(yè)第84頁(yè)/共126頁(yè)84備注第85頁(yè)/共126頁(yè)備注第85頁(yè)/共126頁(yè)85例4.7第86頁(yè)/共126頁(yè)例4.7第86頁(yè)/共126頁(yè)86例4.7第87頁(yè)/共126頁(yè)例4.7第87頁(yè)/共126頁(yè)874.2.3樣本的典型變量與典型相關(guān)第88頁(yè)/共126頁(yè)4.2.3樣本的典型變量與典型相關(guān)第88頁(yè)/共126頁(yè)884.2.3樣本典型變量

第89頁(yè)/共126頁(yè)4.2.3樣本典型變量第89頁(yè)/共126頁(yè)89第90頁(yè)/共126頁(yè)第90頁(yè)/共126頁(yè)90同樣可以求標(biāo)準(zhǔn)化樣本的樣本典型變量與樣本典型相關(guān)系數(shù)。這等價(jià)于從觀測(cè)數(shù)據(jù)的樣本相關(guān)系數(shù)R出發(fā)作典型相關(guān)分析。在實(shí)際應(yīng)用中,通常從R出發(fā)進(jìn)行典型相關(guān)分析,選擇樣本典型相關(guān)系數(shù)較大的少數(shù)幾對(duì)典型變量,以反映原來(lái)兩組變量間的相關(guān)性。第91頁(yè)/共126頁(yè)同樣可以求標(biāo)準(zhǔn)化樣本的樣本典型變量與樣本典型相關(guān)系數(shù)。這等價(jià)914.2.4典型相關(guān)系數(shù)的顯著性檢驗(yàn)第92頁(yè)/共126頁(yè)4.2.4典型相關(guān)系數(shù)的顯著性檢驗(yàn)第92頁(yè)/共126頁(yè)92第93頁(yè)/共126頁(yè)第93頁(yè)/共126頁(yè)93檢驗(yàn)統(tǒng)計(jì)量第94頁(yè)/共126頁(yè)檢驗(yàn)統(tǒng)計(jì)量第94頁(yè)/共126頁(yè)94第95頁(yè)/共126頁(yè)第95頁(yè)/共126頁(yè)95第96頁(yè)/共126頁(yè)第96頁(yè)/共126頁(yè)96例4.8第97頁(yè)/共126頁(yè)例4.8第97頁(yè)/共126頁(yè)97例4.8第98頁(yè)/共126頁(yè)例4.8第98頁(yè)/共126頁(yè)98例4.8第99頁(yè)/共126頁(yè)例4.8第99頁(yè)/共126頁(yè)99例4.8第100頁(yè)/共126頁(yè)例4.8第100頁(yè)/共126頁(yè)100PROCCANCORR過(guò)程PROCCANCORR選項(xiàng);VAR變量名稱串;WITH變量名稱串;RUN;第101頁(yè)/共126頁(yè)P(yáng)ROCCANCORR過(guò)程PROCCANCORR選項(xiàng)101VAR語(yǔ)句列出要進(jìn)行典型相關(guān)分析的第一組變量,變量必須是數(shù)值型的。WITH語(yǔ)句列舉第二組變量,變量必須是數(shù)值型的。第102頁(yè)/共126頁(yè)第102頁(yè)/共126頁(yè)102應(yīng)用舉例例1.現(xiàn)有某地區(qū)春播面積(X1)、化肥施用量(X2)、水稻抽穗花期降水量(X3)、肥豬頭數(shù)(Y1)、春糧產(chǎn)量(Y2)的觀測(cè)數(shù)據(jù)。試分析投入因素X和產(chǎn)出因素Y之間的關(guān)系。第103頁(yè)/共126頁(yè)應(yīng)用舉例例1.現(xiàn)有某地區(qū)春播面積(X1)、化肥施用量(X2)103第104頁(yè)/共126頁(yè)第104頁(yè)/共126頁(yè)104第105頁(yè)/共126頁(yè)第105頁(yè)/共126頁(yè)105第106頁(yè)/共126頁(yè)第106頁(yè)/共126頁(yè)106第107頁(yè)/共126頁(yè)第107頁(yè)/共126頁(yè)107第108頁(yè)/共126頁(yè)第108頁(yè)/共126頁(yè)108第109頁(yè)/共126頁(yè)第109頁(yè)/共126頁(yè)109第110頁(yè)/共126頁(yè)第110頁(yè)/共126頁(yè)110第111頁(yè)/共126頁(yè)第111頁(yè)/共126頁(yè)111主成分分析和典型相關(guān)分析課件112第113頁(yè)/共126頁(yè)第113頁(yè)/共126頁(yè)113第114頁(yè)/共126頁(yè)第114頁(yè)/共126頁(yè)114專業(yè)結(jié)論第115頁(yè)/共126頁(yè)專業(yè)結(jié)論第115頁(yè)/共126頁(yè)115應(yīng)用舉例例2.對(duì)172個(gè)兒童測(cè)試8項(xiàng)感情指標(biāo)得到相關(guān)矩陣,X1為合群性,X2為憂郁性,X3為溫柔性,X4為友誼,X5為驚訝,X6為憎惡,X7為焦慮,X8為恐懼。第一組(X1,X2,X3,X4);第二組(X5,X6,X7,X8),對(duì)這兩組變量進(jìn)行典型相關(guān)分析。第116頁(yè)/共126頁(yè)應(yīng)用舉例例2.對(duì)172個(gè)兒童測(cè)試8項(xiàng)感情指標(biāo)得到相關(guān)矩陣,X116第117頁(yè)/共126頁(yè)第117頁(yè)/共126頁(yè)117第118頁(yè)/共126頁(yè)第118頁(yè)/共126頁(yè)118典型相關(guān)系數(shù)與顯著性檢驗(yàn)第119頁(yè)/共126頁(yè)典型相關(guān)系數(shù)與顯著性檢驗(yàn)第119頁(yè)/共126頁(yè)119典型變量的系數(shù)矩陣第120頁(yè)/共126頁(yè)典型變量的系數(shù)矩陣第120頁(yè)/共126頁(yè)120標(biāo)準(zhǔn)化指標(biāo)第121頁(yè)/共126頁(yè)標(biāo)準(zhǔn)化指標(biāo)第121頁(yè)/共126頁(yè)121第122頁(yè)/共126頁(yè)第122頁(yè)/共126頁(yè)122典型結(jié)構(gòu)矩陣第123頁(yè)/共126頁(yè)典型結(jié)構(gòu)矩陣第123頁(yè)/共126頁(yè)123第124頁(yè)/共126頁(yè)第124頁(yè)/共126頁(yè)124備注

對(duì)典型變量的合理解釋同樣需要具體問(wèn)題的實(shí)際背景和相關(guān)的專業(yè)知識(shí)。一般說(shuō)來(lái),典型變量的意義主要由那些系數(shù)絕對(duì)值較大的變量來(lái)決定。第125頁(yè)/共126頁(yè)備注對(duì)典型變量的合理解釋同樣需要具體問(wèn)題的實(shí)際背景和相125作業(yè)P137.練習(xí)4.4P140.練習(xí)4.8第126頁(yè)/共126頁(yè)作業(yè)P137.練習(xí)4.4第126頁(yè)/共126頁(yè)126引言變量太多會(huì)增加計(jì)算的復(fù)雜性變量太多給分析問(wèn)題和解釋問(wèn)題帶來(lái)困難變量提供的信息在一定程度上會(huì)有所重疊用為數(shù)較少的互不相關(guān)的新變量來(lái)反映原變量所提供的絕大部分信息,降維的思想來(lái)處理高維數(shù)據(jù)。第1頁(yè)/共126頁(yè)引言變量太多會(huì)增加計(jì)算的復(fù)雜性第1頁(yè)/共126頁(yè)1274.1主成分分析主要目的:對(duì)原變量加以“改造”,在不致?lián)p失原變量太多信息的條件下盡可能地降低變量的維數(shù),即用較少的“新變量”代替原來(lái)的各變量。第2頁(yè)/共126頁(yè)4.1主成分分析主要目的:第2頁(yè)/共126頁(yè)128第3頁(yè)/共126頁(yè)第3頁(yè)/共126頁(yè)1294.1.2總體主成分設(shè)為某實(shí)際問(wèn)題所涉及的個(gè)隨機(jī)變量。記,其協(xié)方差矩陣為它是一個(gè)階非負(fù)定矩陣。設(shè)為個(gè)常數(shù)向量,考慮如下線性組合:第4頁(yè)/共126頁(yè)4.1.2總體主成分設(shè)為某實(shí)際問(wèn)題所涉及130總體主成分易知有我們希望用代替原來(lái)個(gè)變量,這就要求盡可能地反映原來(lái)個(gè)變量的信息。這里用方差來(lái)度量。即要求達(dá)到最大。對(duì)任意常數(shù),若取,則。

第5頁(yè)/共126頁(yè)總體主成分易知有第5頁(yè)/共126頁(yè)131總體主成分

因此,必須對(duì)加以限制,否則無(wú)界。最方便的限制是要求具有單位長(zhǎng)度,即我們?cè)诩s束條件之下,求使達(dá)到最大,由此所確定的隨機(jī)變量稱為的第一主成分。第6頁(yè)/共126頁(yè)總體主成分因此,必須對(duì)加以限制,否則132總體主成分如果第一主成分還不足以反映原變量的信息,進(jìn)一步求。為了使和反映原變量的信息不相重疊,要求二者不相關(guān),在約束條件求使達(dá)到最大。

第二主成分:

依次類推……

第7頁(yè)/共126頁(yè)總體主成分如果第一主成分還不足以反映原變量的信息,進(jìn)133總體主成分一般地,在約束條件及

下,求使達(dá)到最大,由此所確定的稱為的第個(gè)主成分。第8頁(yè)/共126頁(yè)總體主成分一般地,在約束條件及134總體主成分的求法設(shè)是的協(xié)方差矩陣,的特征值及相應(yīng)的正交單位化特征向量分別為及,則的第個(gè)主成分為

其中。易見:事實(shí)上,令,則為一正交矩陣,且第9頁(yè)/共126頁(yè)總體主成分的求法設(shè)是135總體主成分的求法設(shè)為X的第一主成分,其中。令則并且當(dāng)時(shí),等號(hào)成立。這時(shí)第10頁(yè)/共126頁(yè)總體主成分的求法設(shè)為X的第一主成分,其136總體主成分的求法在約束條件下,當(dāng)時(shí),達(dá)到最大,且設(shè)為X的第二主成分,則有

即有且第11頁(yè)/共126頁(yè)總體主成分的求法在約束條件下,當(dāng)時(shí),137總體主成分的求法令

則有從而并且當(dāng),即時(shí),。由此知,當(dāng)時(shí),滿足,且使達(dá)到最大。依此類推….

第12頁(yè)/共126頁(yè)總體主成分的求法令第12頁(yè)/共126頁(yè)138總體主成分的求法以上結(jié)果告訴我們,求X的各主成分,等價(jià)于求它的協(xié)方差矩陣∑的各特征值及相應(yīng)的正交單位化特征向量。按特征值由大到小所對(duì)應(yīng)的正交單位化特征向量為組合系數(shù)的的線性組合分別為X的第一、第二、直至第p個(gè)主成分,而各主成分的方差等于相應(yīng)的特征值。第13頁(yè)/共126頁(yè)總體主成分的求法以上結(jié)果告訴我們,求X的各主成分,等價(jià)于求它139總體主成分的性質(zhì)主成分的協(xié)方差矩陣及總方差記為主成分向量,則,其中,Y的協(xié)方差矩陣為由此得主成分的總方差為第14頁(yè)/共126頁(yè)總體主成分的性質(zhì)主成分的協(xié)方差矩陣及總方差第14頁(yè)/共126140總體主成分的性質(zhì)主成分分析是把p個(gè)原始變量的總方差分解成p個(gè)不相關(guān)變量的方差之和。

第個(gè)主成分的貢獻(xiàn)率:描述了第k個(gè)主成分提取的信息占總信息的份額。第15頁(yè)/共126頁(yè)總體主成分的性質(zhì)第15頁(yè)/共126頁(yè)141總體主成分的性質(zhì)前個(gè)主成分的累計(jì)貢獻(xiàn)率:表明前m個(gè)主成分綜合提供信息的能力。

實(shí)際應(yīng)用中,通常選取m<p,使前m個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到較高的比例(如80%到90%)。這樣用前m個(gè)主成分代替原始變量不但是變量維數(shù)降低,而且也不致于損失原始變量中的太多信息。第16頁(yè)/共126頁(yè)總體主成分的性質(zhì)前個(gè)主成分的累計(jì)貢獻(xiàn)率:第16頁(yè)/共142總體主成分的性質(zhì)主成分與變量的相關(guān)系數(shù)由于,故,從而

由此可得與的相關(guān)系數(shù)為它給出了主成分與原始變量的關(guān)聯(lián)性的度量。第17頁(yè)/共126頁(yè)總體主成分的性質(zhì)主成分與變量的相關(guān)系數(shù)第17頁(yè)143各主成分與原始變量間的相關(guān)系數(shù)原變量主成分第18頁(yè)/共126頁(yè)各主成分與原始變量間的相關(guān)系數(shù)原變量主成分第18頁(yè)/共126144實(shí)際應(yīng)用中,一般只對(duì)前m個(gè)主成分感興趣,因此只關(guān)心與的相關(guān)系數(shù),即表中前m行的各個(gè)值。第19頁(yè)/共126頁(yè)實(shí)際應(yīng)用中,一般只對(duì)前m個(gè)主成分感興趣,因此只關(guān)心145例4.1設(shè)隨機(jī)變量的協(xié)方差矩陣為求的各主成分。

解易求得的特征值及相應(yīng)的正交單位化特征向量分別為第20頁(yè)/共126頁(yè)例4.1設(shè)隨機(jī)變量的協(xié)146例4.1因此的主成分為如果我們只取第一主成分,則貢獻(xiàn)率為

若取前兩個(gè)主成分,則累計(jì)貢獻(xiàn)率為第21頁(yè)/共126頁(yè)例4.1因此的主成分為第21頁(yè)/共126頁(yè)147例4.1進(jìn)一步可求得前兩個(gè)主成分與各原始變量的相關(guān)系數(shù)同理,可求得即與,高度相關(guān)而與不相關(guān);與以概率1呈完全線性關(guān)系。第22頁(yè)/共126頁(yè)例4.1進(jìn)一步可求得前兩個(gè)主成分與各原始變量的相關(guān)系數(shù)第2148標(biāo)準(zhǔn)化變量的主成分在實(shí)際問(wèn)題中,不同的變量往往有不同的量綱,由于不同的量綱會(huì)引起各變量取值的分散程度差異較大,這時(shí)總體方差則主要受方差較大的變量的控制。若用求主成分,則優(yōu)先照顧了方差大的變量,有時(shí)會(huì)造成很不合理的結(jié)果。為了消除由于量綱的不同帶來(lái)的影響,常采用變量標(biāo)準(zhǔn)化的方法,即令其中。第23頁(yè)/共126頁(yè)標(biāo)準(zhǔn)化變量的主成分在實(shí)際問(wèn)題中,不同的變量往往有不同的量綱,149標(biāo)準(zhǔn)化變量的主成分這時(shí),的協(xié)方差矩陣便是的相關(guān)矩陣,其中利用的相關(guān)矩陣作主成分分析,可以得到如下結(jié)論:第24頁(yè)/共126頁(yè)標(biāo)準(zhǔn)化變量的主成分這時(shí),的協(xié)150標(biāo)準(zhǔn)化變量的主成分設(shè)為標(biāo)準(zhǔn)化的隨機(jī)向量,其協(xié)方差矩陣(即的相關(guān)矩陣)為,則的第個(gè)主成分為并且其中為的特征值,為相應(yīng)于特征值的正交單位化特征向量。這時(shí),第個(gè)主成分的貢獻(xiàn)率為,前個(gè)主成分的累計(jì)貢獻(xiàn)率為,與的相關(guān)系數(shù)為第25頁(yè)/共126頁(yè)標(biāo)準(zhǔn)化變量的主成分設(shè)151例4.2設(shè)的協(xié)方差矩陣為相應(yīng)的相關(guān)矩陣為分別從和出發(fā),作主成分分析。第26頁(yè)/共126頁(yè)例4.2設(shè)的協(xié)方差矩陣為第2152例4.2解如果從出發(fā)作主成分分析,易求得其特征值和相應(yīng)的正交單位化特征向量為的兩個(gè)主成分分別為第一主成分的貢獻(xiàn)率為第27頁(yè)/共126頁(yè)例4.2解如果從出發(fā)作主成分分析,易求得其特征值153例4.2

與,的相關(guān)系數(shù)分別是我們可以看到,由于的方差很大,它完全控制了提取信息量占99.2%的第一主成分(在中的系數(shù)為0.999),淹沒了變量的作用。如果從出發(fā)求主成分,可求得其特征值和相應(yīng)的正交單位化特征向量為第28頁(yè)/共126頁(yè)例4.2與,的相關(guān)系數(shù)分別是第28頁(yè)/共126154例4.2

的兩個(gè)主成分分別為此時(shí),第一個(gè)主成分的貢獻(xiàn)率有所下降,為

注:當(dāng)涉及的各變量的變化范圍差異較大時(shí),從出發(fā)求主成分比較合理。

第29頁(yè)/共126頁(yè)例4.2的兩個(gè)主成分分別為第29頁(yè)/共126頁(yè)1554.1.3樣本主成分設(shè)為取自的一個(gè)容量為的簡(jiǎn)單隨機(jī)樣本,則樣本協(xié)方差矩陣及樣本相關(guān)矩陣分別為其中第30頁(yè)/共126頁(yè)4.1.3樣本主成分設(shè)第30頁(yè)/156樣本主成分設(shè)是樣本協(xié)方差矩陣,其特征值為相應(yīng)的正交單位化特征向量這里,則第個(gè)樣本主成分為其中為X的任一觀測(cè)值。當(dāng)依次代入X的n個(gè)觀測(cè)值時(shí),便得到第i個(gè)樣本主成分的n個(gè)觀測(cè)值,我們稱為第i個(gè)主成分的得分。第31頁(yè)/共126頁(yè)樣本主成分設(shè)是樣本協(xié)方差矩陣,其特157樣本主成分第個(gè)樣本主成分的貢獻(xiàn)率為,前個(gè)樣本主成分的累計(jì)貢獻(xiàn)率為。第32頁(yè)/共126頁(yè)樣本主成分第32頁(yè)/共126頁(yè)158樣本主成分同樣,為了消除量綱的影響,我們可以對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化,即令則標(biāo)準(zhǔn)化數(shù)據(jù)的樣本協(xié)方差矩陣即為原數(shù)據(jù)的樣本相關(guān)矩陣。由出發(fā)所求得的樣本主成分稱為標(biāo)準(zhǔn)化樣本主成分。只要求出的特征值及相應(yīng)的正交單位化特征向量,類似上述結(jié)果可求得標(biāo)準(zhǔn)化樣本主成分。這時(shí)標(biāo)準(zhǔn)化樣本總方差為。第33頁(yè)/共126頁(yè)樣本主成分同樣,為了消除量綱的影響,我們可以對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化159樣本主成分實(shí)際應(yīng)用中,將樣本代入各主成分中,可得到各樣本主成分的觀測(cè)值

原變量主成分12序號(hào)

第34頁(yè)/共126頁(yè)樣本主成分實(shí)際應(yīng)用中,將樣本代入各主160樣本主成分實(shí)際應(yīng)用中,選取前m(m<p)個(gè)樣本主成分,使其累計(jì)貢獻(xiàn)率達(dá)到一定的要求(如80%到90%),以前m個(gè)主成分的得分代替原始數(shù)據(jù),這樣便可以達(dá)到降低原始數(shù)據(jù)維數(shù)的目的,同時(shí)也不致?lián)p失原始數(shù)據(jù)的太多信息。第35頁(yè)/共126頁(yè)樣本主成分實(shí)際應(yīng)用中,選取前m(m<p)個(gè)樣本主成分,使其累161PRINCOMP過(guò)程可對(duì)輸入資料文件做主成分分析輸入資料文件可以是原始數(shù)據(jù)、相關(guān)系數(shù)矩陣或樣本協(xié)方差矩陣等輸出包括相關(guān)矩陣或協(xié)方差矩陣、特征值、特征向量及標(biāo)準(zhǔn)化的主成分值等第36頁(yè)/共126頁(yè)P(yáng)RINCOMP過(guò)程可對(duì)輸入資料文件做主成分分析第36頁(yè)/共162主要語(yǔ)句Procprincomp選項(xiàng)串;

var變量名稱串;

partial變量名稱串;

freq變量名稱串;

weight變量名稱串;

by變量名稱串;

run;第37頁(yè)/共126頁(yè)主要語(yǔ)句Procprincomp選項(xiàng)串;第37頁(yè)/共12163PROCPRINCOMPProcprincompoptions;data=sasdataset:指出要分析的sas數(shù)據(jù)集名稱。這個(gè)數(shù)據(jù)集可以是原始觀測(cè)值的sas數(shù)據(jù)集,也可以是相關(guān)矩陣(在數(shù)據(jù)集名稱后加上type=corr)或協(xié)方差矩陣(在數(shù)據(jù)集名稱后加上type=cov)。若省略數(shù)據(jù)集選項(xiàng),則自動(dòng)使用最新建立的sas數(shù)據(jù)集。第38頁(yè)/共126頁(yè)P(yáng)ROCPRINCOMPProcprincompopt164PROCPRINCOMPProcprincompoptions;out=sasdataset:命名一個(gè)輸出的sas數(shù)據(jù)集,其中包含原始數(shù)據(jù)以及各主成分的得分(即各主成分的觀測(cè)值)。

outstat=sasdataset:命名一個(gè)包含各變量的均值、標(biāo)準(zhǔn)差、相關(guān)矩陣或協(xié)方差矩陣、特征值和特征向量的輸出sas數(shù)據(jù)集。第39頁(yè)/共126頁(yè)P(yáng)ROCPRINCOMPProcprincompopt165PROCPRINCOMPProcprincompoptions;covariance(或COV):要求從協(xié)方差矩陣出發(fā)作主成分分析。若省略此選項(xiàng),則從相關(guān)矩陣出發(fā)進(jìn)行分析。除非各變量的度量單位是可比較的或已經(jīng)過(guò)某種方式的標(biāo)準(zhǔn)化,否則不宜使用此選項(xiàng),應(yīng)從相關(guān)矩陣出發(fā)作主成分分析。

N=n:指定要計(jì)算的主成分個(gè)數(shù)“n”。其默認(rèn)值為參與分析的變量個(gè)數(shù)。第40頁(yè)/共126頁(yè)P(yáng)ROCPRINCOMPProcprincompopt166PROCPRINCOMPProcprincompoptions;prefix=name:規(guī)定各主成分的名稱的前綴。省略此句則sas系統(tǒng)自動(dòng)賦予各主成分名稱分別為prin1,prin2,…。若“name=A”,則各主成分名稱分別為A1,A2,…。前綴的字符個(gè)數(shù)加上后面數(shù)字位數(shù)應(yīng)不超過(guò)8個(gè)字符。第41頁(yè)/共126頁(yè)P(yáng)ROCPRINCOMPProcprincompopt167例4.3對(duì)10名男中學(xué)生的身高()、胸圍()和體重()進(jìn)行測(cè)量,得數(shù)據(jù)如表。對(duì)其作主成分分析。序號(hào)身高(cm)胸圍(cm)體重(kg)1149.569.538.52162.577.055.53162.778.550.84162.287.565.55156.574.549.06156.174.545.57172.076.551.08173.281.559.59159.574.543.510157.779.053.5第42頁(yè)/共126頁(yè)例4.3對(duì)10名男中學(xué)生的身高()、胸圍()和體重(168例4.3Datastudents;inputx1x2x3;cards;149.569.538.5……157.779.053.5;procprincompcov;varx1-x3;run;第43頁(yè)/共126頁(yè)例4.3Datastudents;第43頁(yè)/共126頁(yè)169第44頁(yè)/共126頁(yè)第44頁(yè)/共126頁(yè)170第45頁(yè)/共126頁(yè)第45頁(yè)/共126頁(yè)171例4.3由上面的sasprocprincomp過(guò)程,可以算得樣本協(xié)方差矩陣為S的特征值與單位正交化特征向量分別為第46頁(yè)/共126頁(yè)例4.3由上面的sasprocprincomp過(guò)程,可以172例4.3各樣本主成分的貢獻(xiàn)率分別為:前兩個(gè)主成分的累計(jì)貢獻(xiàn)率已達(dá)98.855%,實(shí)際應(yīng)用中可只取前兩個(gè)主成分,即第47頁(yè)/共126頁(yè)例4.3各樣本主成分的貢獻(xiàn)率分別為:第47頁(yè)/共126頁(yè)173例4.3如果從相關(guān)矩陣出發(fā)第48頁(yè)/共126頁(yè)例4.3如果從相關(guān)矩陣出發(fā)第48頁(yè)/共126頁(yè)174SPSS第49頁(yè)/共126頁(yè)SPSS第49頁(yè)/共126頁(yè)175SPSS1.Analyze→DataReduction→FactorAnalysis,彈出FactorAnalysis對(duì)話框;2.把變量選入Variables框;3.Descriptives:CorrelationMatrix框組中選中Coefficients,然后點(diǎn)擊Continue,返回FactorAnalysis對(duì)話框;4.點(diǎn)擊“OK”第50頁(yè)/共126頁(yè)SPSS1.Analyze→DataReduction176因子分析主成分分析的推廣和發(fā)展,多元統(tǒng)計(jì)分析方法中降維的一種方法,是研究相關(guān)陣或協(xié)方差陣的內(nèi)在的依賴關(guān)系,將多個(gè)變量進(jìn)行綜合,并用少數(shù)幾個(gè)因子來(lái)再現(xiàn)原始變量和因子之間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法。第51頁(yè)/共126頁(yè)因子分析主成分分析的推廣和發(fā)展,多元統(tǒng)計(jì)分析方法中降維的一種177例4.4某市為了全面分析機(jī)械類各企業(yè)的經(jīng)濟(jì)效益,選擇了8個(gè)不同的利潤(rùn)指標(biāo),14家企業(yè)關(guān)于這8個(gè)指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)如表。試進(jìn)行主成分分析。第52頁(yè)/共126頁(yè)例4.4某市為了全面分析機(jī)械類各企業(yè)的經(jīng)濟(jì)效益,選擇了8個(gè)178例4.4datalirun;inputx1-x8;cards;40.424.77.26.18.38.72.44220.0……38.59.111.39.512.216.41.32711.6;proc

princompcov;varx1-x8;run;第53頁(yè)/共126頁(yè)例4.4datalirun;第53頁(yè)/共126頁(yè)179第54頁(yè)/共126頁(yè)第54頁(yè)/共126頁(yè)180第55頁(yè)/共126頁(yè)第55頁(yè)/共126頁(yè)181第56頁(yè)/共126頁(yè)第56頁(yè)/共126頁(yè)182第57頁(yè)/共126頁(yè)第57頁(yè)/共126頁(yè)183例4.5某醫(yī)學(xué)院測(cè)得20例肝癌患者的4項(xiàng)肝功能指標(biāo):SGPT(轉(zhuǎn)氨酶),肝大指數(shù),ZnT(鋅濁度)和AFP(胎甲球),依次用X1~X4表示,觀察數(shù)據(jù)如表。試進(jìn)行主成分分析。第58頁(yè)/共126頁(yè)例4.5某醫(yī)學(xué)院測(cè)得20例肝癌患者的4項(xiàng)肝功能指標(biāo):SGPT184例4.5datap1;inputx1-x4;cards;402520101.5530120313502504.51801203.5950101.512504011940270413602803.5116017039601803.51440130230502201.517201601.535602202.51430140220202202141040110020112601202200;proc

princompout=pcprefix=y;varx1-x4;run;第59頁(yè)/共126頁(yè)例4.5datap1;13023050第59頁(yè)/共1185第60頁(yè)/共126頁(yè)第60頁(yè)/共126頁(yè)186例4.6一月和七月平均氣溫的主成分分析在數(shù)據(jù)集TEMPERAT中存放有美國(guó)一些城市一月和七月的平均氣溫。我們希望對(duì)這兩個(gè)氣溫進(jìn)行主成分分析,希望用一個(gè)統(tǒng)一的溫度來(lái)作為總的可比的溫度,所以進(jìn)行主分量分析。

第61頁(yè)/共126頁(yè)例4.6一月和七月平均氣溫的主成分分析第61頁(yè)/共126頁(yè)187例4.6DATATEMPERAT;INPUTCITY$1-15JANUARYJULY;CARDS;MOBILE51.281.6PHOENIX51.291.2LITTLEROCK39.581.4SACRAMENTO45.175.2DENVER29.973.0HARTFORD24.872.7WILMINGTON32.075.8WASHINGTONDC35.678.7JACKSONVILLE54.681.0MIAMI67.282.3ATLANTA42.478.0BOISE29.074.5CHICAGO22.971.9PEORIA23.875.1DESMOINES19.475.1INDIANAPOLIS27.975.0WICHITA31.380.7LOUISVILLE33.376.9NEWORLEANS52.981.9PORTLAND,MAINE21.568.0BALTIMORE33.476.6BOSTON29.273.3DETROIT25.573.3SAULTSTEMARIE14.263.8D

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論