第04章主成分分析和典型相關(guān)分析_第1頁(yè)
第04章主成分分析和典型相關(guān)分析_第2頁(yè)
第04章主成分分析和典型相關(guān)分析_第3頁(yè)
第04章主成分分析和典型相關(guān)分析_第4頁(yè)
第04章主成分分析和典型相關(guān)分析_第5頁(yè)
已閱讀5頁(yè),還剩122頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主成分分析和典型相關(guān)分析第4章引言變量太多會(huì)增加計(jì)算的復(fù)雜性變量太多給分析問(wèn)題和解釋問(wèn)題帶來(lái)困難變量提供的信息在一定程度上會(huì)有所重疊用為數(shù)較少的互不相關(guān)的新變量來(lái)反映原變量所提供的絕大部分信息,降維的思想來(lái)處理高維數(shù)據(jù)。4.1主成分分析主要目的:對(duì)原變量加以“改造”,在不致?lián)p失原變量太多信息的條件下盡可能地降低變量的維數(shù),即用較少的“新變量”代替原來(lái)的各變量。4.1.2總體主成分設(shè)為某實(shí)際問(wèn)題所涉及的個(gè)隨機(jī)變量。記,其協(xié)方差矩陣為它是一個(gè)階非負(fù)定矩陣。設(shè)為個(gè)常數(shù)向量,考慮如下線性組合:總體主成分易知有我們希望用代替原來(lái)個(gè)變量,這就要求盡可能地反映原來(lái)個(gè)變量的信息。這里用方差來(lái)度量。即要求達(dá)到最大。對(duì)任意常數(shù),若取,則。

總體主成分因此,必須對(duì)加以限制,否則無(wú)界。最方便的限制是要求具有單位長(zhǎng)度,即我們?cè)诩s束條件之下,求使達(dá)到最大,由此所確定的隨機(jī)變量稱為的第一主成分。總體主成分如果第一主成分還不足以反映原變量的信息,進(jìn)一步求。為了使和反映原變量的信息不相重疊,要求二者不相關(guān),在約束條件求使達(dá)到最大。

第二主成分:

依次類推……

總體主成分一般地,在約束條件及

下,求使達(dá)到最大,由此所確定的稱為的第個(gè)主成分??傮w主成分的求法設(shè)是的協(xié)方差矩陣,的特征值及相應(yīng)的正交單位化特征向量分別為及,則的第個(gè)主成分為

其中。易見(jiàn):事實(shí)上,令,則為一正交矩陣,且總體主成分的求法設(shè)為X的第一主成分,其中。令則并且當(dāng)時(shí),等號(hào)成立。這時(shí)總體主成分的求法在約束條件下,當(dāng)時(shí),達(dá)到最大,且設(shè)為X的第二主成分,則有

即有且總體主成分的求法令

則有從而并且當(dāng),即時(shí),。由此知,當(dāng)時(shí),滿足,且使達(dá)到最大。依此類推….

總體主成分的求法以上結(jié)果告訴我們,求X的各主成分,等價(jià)于求它的協(xié)方差矩陣∑的各特征值及相應(yīng)的正交單位化特征向量。按特征值由大到小所對(duì)應(yīng)的正交單位化特征向量為組合系數(shù)的的線性組合分別為X的第一、第二、直至第p個(gè)主成分,而各主成分的方差等于相應(yīng)的特征值??傮w主成分的性質(zhì)主成分的協(xié)方差矩陣及總方差記為主成分向量,則,其中,Y的協(xié)方差矩陣為由此得主成分的總方差為總體主成分的性質(zhì)主成分分析是把p個(gè)原始變量的總方差分解成p個(gè)不相關(guān)變量的方差之和。

第個(gè)主成分的貢獻(xiàn)率:描述了第k個(gè)主成分提取的信息占總信息的份額??傮w主成分的性質(zhì)前個(gè)主成分的累計(jì)貢獻(xiàn)率:表明前m個(gè)主成分綜合提供信息的能力。

實(shí)際應(yīng)用中,通常選取m<p,使前m個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到較高的比例(如80%到90%)。這樣用前m個(gè)主成分代替原始變量不但是變量維數(shù)降低,而且也不致于損失原始變量中的太多信息??傮w主成分的性質(zhì)主成分與變量的相關(guān)系數(shù)由于,故,從而

由此可得與的相關(guān)系數(shù)為它給出了主成分與原始變量的關(guān)聯(lián)性的度量。各主成分與原始變量間的相關(guān)系數(shù)原變量主成分實(shí)際應(yīng)用中,一般只對(duì)前m個(gè)主成分感興趣,因此只關(guān)心與的相關(guān)系數(shù),即表中前m行的各個(gè)值。例4.1設(shè)隨機(jī)變量的協(xié)方差矩陣為求的各主成分。

解易求得的特征值及相應(yīng)的正交單位化特征向量分別為例4.1因此的主成分為如果我們只取第一主成分,則貢獻(xiàn)率為

若取前兩個(gè)主成分,則累計(jì)貢獻(xiàn)率為例4.1進(jìn)一步可求得前兩個(gè)主成分與各原始變量的相關(guān)系數(shù)同理,可求得即與,高度相關(guān)而與不相關(guān);與以概率1呈完全線性關(guān)系。標(biāo)準(zhǔn)化變量的主成分在實(shí)際問(wèn)題中,不同的變量往往有不同的量綱,由于不同的量綱會(huì)引起各變量取值的分散程度差異較大,這時(shí)總體方差則主要受方差較大的變量的控制。若用求主成分,則優(yōu)先照顧了方差大的變量,有時(shí)會(huì)造成很不合理的結(jié)果。為了消除由于量綱的不同帶來(lái)的影響,常采用變量標(biāo)準(zhǔn)化的方法,即令其中。標(biāo)準(zhǔn)化變量的主成分這時(shí),的協(xié)方差矩陣便是的相關(guān)矩陣,其中利用的相關(guān)矩陣作主成分分析,可以得到如下結(jié)論:標(biāo)準(zhǔn)化變量的主成分設(shè)為標(biāo)準(zhǔn)化的隨機(jī)向量,其協(xié)方差矩陣(即的相關(guān)矩陣)為,則的第個(gè)主成分為并且其中為的特征值,為相應(yīng)于特征值的正交單位化特征向量。這時(shí),第個(gè)主成分的貢獻(xiàn)率為,前個(gè)主成分的累計(jì)貢獻(xiàn)率為,與的相關(guān)系數(shù)為例4.2設(shè)的協(xié)方差矩陣為相應(yīng)的相關(guān)矩陣為分別從和出發(fā),作主成分分析。例4.2解如果從出發(fā)作主成分分析,易求得其特征值和相應(yīng)的正交單位化特征向量為的兩個(gè)主成分分別為第一主成分的貢獻(xiàn)率為例4.2

與,的相關(guān)系數(shù)分別是我們可以看到,由于的方差很大,它完全控制了提取信息量占99.2%的第一主成分(在中的系數(shù)為0.999),淹沒(méi)了變量的作用。如果從出發(fā)求主成分,可求得其特征值和相應(yīng)的正交單位化特征向量為例4.2

的兩個(gè)主成分分別為此時(shí),第一個(gè)主成分的貢獻(xiàn)率有所下降,為

注:當(dāng)涉及的各變量的變化范圍差異較大時(shí),從出發(fā)求主成分比較合理。

4.1.3樣本主成分設(shè)為取自的一個(gè)容量為的簡(jiǎn)單隨機(jī)樣本,則樣本協(xié)方差矩陣及樣本相關(guān)矩陣分別為其中樣本主成分設(shè)是樣本協(xié)方差矩陣,其特征值為相應(yīng)的正交單位化特征向量這里,則第個(gè)樣本主成分為其中為X的任一觀測(cè)值。當(dāng)依次代入X的n個(gè)觀測(cè)值時(shí),便得到第i個(gè)樣本主成分的n個(gè)觀測(cè)值,我們稱為第i個(gè)主成分的得分。樣本主成分第個(gè)樣本主成分的貢獻(xiàn)率為,前個(gè)樣本主成分的累計(jì)貢獻(xiàn)率為。樣本主成分同樣,為了消除量綱的影響,我們可以對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化,即令則標(biāo)準(zhǔn)化數(shù)據(jù)的樣本協(xié)方差矩陣即為原數(shù)據(jù)的樣本相關(guān)矩陣。由出發(fā)所求得的樣本主成分稱為標(biāo)準(zhǔn)化樣本主成分。只要求出的特征值及相應(yīng)的正交單位化特征向量,類似上述結(jié)果可求得標(biāo)準(zhǔn)化樣本主成分。這時(shí)標(biāo)準(zhǔn)化樣本總方差為。樣本主成分實(shí)際應(yīng)用中,將樣本代入各主成分中,可得到各樣本主成分的觀測(cè)值

原變量主成分12序號(hào)

樣本主成分實(shí)際應(yīng)用中,選取前m(m<p)個(gè)樣本主成分,使其累計(jì)貢獻(xiàn)率達(dá)到一定的要求(如80%到90%),以前m個(gè)主成分的得分代替原始數(shù)據(jù),這樣便可以達(dá)到降低原始數(shù)據(jù)維數(shù)的目的,同時(shí)也不致?lián)p失原始數(shù)據(jù)的太多信息。PRINCOMP過(guò)程可對(duì)輸入資料文件做主成分分析輸入資料文件可以是原始數(shù)據(jù)、相關(guān)系數(shù)矩陣或樣本協(xié)方差矩陣等輸出包括相關(guān)矩陣或協(xié)方差矩陣、特征值、特征向量及標(biāo)準(zhǔn)化的主成分值等主要語(yǔ)句Procprincomp選項(xiàng)串;var變量名稱串;partial變量名稱串;freq變量名稱串;weight變量名稱串;by變量名稱串;run;PROCPRINCOMPProcprincompoptions;data=sasdataset:指出要分析的sas數(shù)據(jù)集名稱。這個(gè)數(shù)據(jù)集可以是原始觀測(cè)值的sas數(shù)據(jù)集,也可以是相關(guān)矩陣(在數(shù)據(jù)集名稱后加上type=corr)或協(xié)方差矩陣(在數(shù)據(jù)集名稱后加上type=cov)。若省略數(shù)據(jù)集選項(xiàng),則自動(dòng)使用最新建立的sas數(shù)據(jù)集。PROCPRINCOMPProcprincompoptions;out=sasdataset:命名一個(gè)輸出的sas數(shù)據(jù)集,其中包含原始數(shù)據(jù)以及各主成分的得分(即各主成分的觀測(cè)值)。outstat=sasdataset:命名一個(gè)包含各變量的均值、標(biāo)準(zhǔn)差、相關(guān)矩陣或協(xié)方差矩陣、特征值和特征向量的輸出sas數(shù)據(jù)集。PROCPRINCOMPProcprincompoptions;covariance(或COV):要求從協(xié)方差矩陣出發(fā)作主成分分析。若省略此選項(xiàng),則從相關(guān)矩陣出發(fā)進(jìn)行分析。除非各變量的度量單位是可比較的或已經(jīng)過(guò)某種方式的標(biāo)準(zhǔn)化,否則不宜使用此選項(xiàng),應(yīng)從相關(guān)矩陣出發(fā)作主成分分析。N=n:指定要計(jì)算的主成分個(gè)數(shù)“n”。其默認(rèn)值為參與分析的變量個(gè)數(shù)。PROCPRINCOMPProcprincompoptions;prefix=name:規(guī)定各主成分的名稱的前綴。省略此句則sas系統(tǒng)自動(dòng)賦予各主成分名稱分別為prin1,prin2,…。若“name=A”,則各主成分名稱分別為A1,A2,…。前綴的字符個(gè)數(shù)加上后面數(shù)字位數(shù)應(yīng)不超過(guò)8個(gè)字符。例4.3對(duì)10名男中學(xué)生的身高()、胸圍()和體重()進(jìn)行測(cè)量,得數(shù)據(jù)如表。對(duì)其作主成分分析。序號(hào)身高(cm)胸圍(cm)體重(kg)1149.569.538.52162.577.055.53162.778.550.84162.287.565.55156.574.549.06156.174.545.57172.076.551.08173.281.559.59159.574.543.510157.779.053.5例4.3Datastudents;inputx1x2x3;cards;149.569.538.5……157.779.053.5;procprincompcov;varx1-x3;run;例4.3由上面的sasprocprincomp過(guò)程,可以算得樣本協(xié)方差矩陣為S的特征值與單位正交化特征向量分別為例4.3各樣本主成分的貢獻(xiàn)率分別為:前兩個(gè)主成分的累計(jì)貢獻(xiàn)率已達(dá)98.855%,實(shí)際應(yīng)用中可只取前兩個(gè)主成分,即例4.3如果從相關(guān)矩陣出發(fā)SPSSSPSS1.Analyze→DataReduction→FactorAnalysis,彈出FactorAnalysis對(duì)話框;2.把變量選入Variables框;3.Descriptives:CorrelationMatrix框組中選中Coefficients,然后點(diǎn)擊Continue,返回FactorAnalysis對(duì)話框;4.點(diǎn)擊“OK”因子分析主成分分析的推廣和發(fā)展,多元統(tǒng)計(jì)分析方法中降維的一種方法,是研究相關(guān)陣或協(xié)方差陣的內(nèi)在的依賴關(guān)系,將多個(gè)變量進(jìn)行綜合,并用少數(shù)幾個(gè)因子來(lái)再現(xiàn)原始變量和因子之間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法。例4.4某市為了全面分析機(jī)械類各企業(yè)的經(jīng)濟(jì)效益,選擇了8個(gè)不同的利潤(rùn)指標(biāo),14家企業(yè)關(guān)于這8個(gè)指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)如表。試進(jìn)行主成分分析。例4.4datalirun;inputx1-x8;cards;40.424.77.26.18.38.72.44220.0……38.59.111.39.512.216.41.32711.6;proc

princompcov;varx1-x8;run;例4.5某醫(yī)學(xué)院測(cè)得20例肝癌患者的4項(xiàng)肝功能指標(biāo):SGPT(轉(zhuǎn)氨酶),肝大指數(shù),ZnT(鋅濁度)和AFP(胎甲球),依次用X1~X4表示,觀察數(shù)據(jù)如表。試進(jìn)行主成分分析。例4.5datap1;inputx1-x4;cards;402520101.5530120313502504.51801203.5950101.512504011940270413602803.5116017039601803.51440130230502201.517201601.535602202.51430140220202202141040110020112601202200;proc

princompout=pcprefix=y;varx1-x4;run;例4.6一月和七月平均氣溫的主成分分析在數(shù)據(jù)集TEMPERAT中存放有美國(guó)一些城市一月和七月的平均氣溫。我們希望對(duì)這兩個(gè)氣溫進(jìn)行主成分分析,希望用一個(gè)統(tǒng)一的溫度來(lái)作為總的可比的溫度,所以進(jìn)行主分量分析。

例4.6DATATEMPERAT;INPUTCITY$1-15JANUARYJULY;CARDS;MOBILE51.281.6PHOENIX51.291.2LITTLEROCK39.581.4SACRAMENTO45.175.2DENVER29.973.0HARTFORD24.872.7WILMINGTON32.075.8WASHINGTONDC35.678.7JACKSONVILLE54.681.0MIAMI67.282.3ATLANTA42.478.0BOISE29.074.5CHICAGO22.971.9PEORIA23.875.1DESMOINES19.475.1INDIANAPOLIS27.975.0WICHITA31.380.7LOUISVILLE33.376.9NEWORLEANS52.981.9PORTLAND,MAINE21.568.0BALTIMORE33.476.6BOSTON29.273.3DETROIT25.573.3SAULTSTEMARIE14.263.8DULUTH8.565.6MINNEAPOLIS12.271.9JACKSON47.181.7KANSASCITY27.878.8STLOUIS31.378.6GREATFALLS20.569.3OMAHA22.677.2RENO31.969.3CONCORD20.669.7ATLANTICCITY32.775.1ALBUQUERQUE35.278.7例4.6ALBANY21.572.0BUFFALO23.770.1NEWYORK32.276.6CHARLOTTE42.178.5RALEIGH40.577.5BISMARCK8.270.8CINCINNATI31.175.6CLEVELAND26.971.4COLUMBUS28.473.6OKLAHOMACITY36.881.5PORTLAND,OREG38.167.1PHILADELPHIA32.376.8PITTSBURGH28.171.9PROVIDENCE28.472.1COLUMBIA45.481.2SIOUXFALLS14.273.3MEMPHIS40.579.6NASHVILLE38.379.6DALLAS44.884.8ELPASO43.682.3HOUSTON52.183.3SALTLAKECITY28.076.7BURLINGTON16.869.8NORFOLK40.578.3RICHMOND37.577.9SPOKANE25.469.7CHARLESTON,WV34.575.0MILWAUKEE19.469.9CHEYENNE26.669.1;PROC

PRINCOMPCOVOUT=PRIN;VARJULYJANUARY;RUN;例4.6輸出中,第一部分為簡(jiǎn)單統(tǒng)計(jì)量(均值和標(biāo)準(zhǔn)差),第二部分為協(xié)方差的特征值(注意我們?cè)谶^(guò)程中用了COV選項(xiàng),無(wú)此選項(xiàng)用相關(guān)陣),從這里可以看到貢獻(xiàn)率(Proportion)和累計(jì)貢獻(xiàn)率(Cumulative),第三部分為特征向量。例4.6按本結(jié)果的特征向量值及用COV選項(xiàng)規(guī)定使用協(xié)方差陣,我們可以知道兩個(gè)主分量如此計(jì)算:PRIN1=0.326866*JULY+0.945071*JANUARYPRIN2=0.945071*JULY+(-0.326866)*JANUARY例4.6如果沒(méi)有用COV選項(xiàng),原始變量還需要除以標(biāo)準(zhǔn)差。由系數(shù)可見(jiàn),第一主分量是兩個(gè)月份的加權(quán)平均,代表了一個(gè)地方的氣溫水平,第二主分量系數(shù)一正一負(fù),反應(yīng)了冬季和夏季的氣溫差別。

請(qǐng)注意:此時(shí)的特征向量是與上不同的,而主成分公式也應(yīng)用標(biāo)準(zhǔn)化后的值。備注關(guān)于主成分的實(shí)際意義,要結(jié)合具體問(wèn)題和有關(guān)專業(yè)知識(shí)才能給出合理的解釋。雖然利用主成分本身可對(duì)所研究的問(wèn)題在一定程度上作分析,但主成分分析本身往往并不是最終目的,更重要的是利用主成分綜合原始變量的信息,達(dá)到降低原始變量維數(shù)的目的,進(jìn)而利用前幾個(gè)主成分的得分的低維數(shù)據(jù)作進(jìn)一步分析,如主成分回歸分析、聚類分析等等。4.2典型相關(guān)分析典型相關(guān)分析是研究?jī)山M變量之間相關(guān)性的一種統(tǒng)計(jì)分析方法,也是一種降維技術(shù)。由Hotelling(1935,1936)最早提出,CooleyandLohnes(1971)、Kshirsagar(1972)和Mardia,Kent,andBibby(1979)推動(dòng)了它的應(yīng)用。引言何時(shí)采用典型相關(guān)分析??jī)蓚€(gè)隨機(jī)變量Y與X--->簡(jiǎn)單相關(guān)系數(shù)一個(gè)隨機(jī)變量Y與一組隨機(jī)變量X1,X2,…,Xp;--->多重相關(guān)(復(fù)相關(guān)系數(shù))一組隨機(jī)變量Y1,Y2,…,Yq與另一組隨機(jī)變量X1,X2,…,Xp;--->典型相關(guān)系數(shù)

CCA典型相關(guān)是簡(jiǎn)單相關(guān)、多重相關(guān)的推廣;或者說(shuō)簡(jiǎn)單相關(guān)系數(shù)、復(fù)相關(guān)系數(shù)是典型相關(guān)系數(shù)的特例。著眼于識(shí)別和量化兩組隨機(jī)變量之間的相關(guān)性,是兩個(gè)隨機(jī)變量之間的相關(guān)性在兩組變量之下的推廣。簡(jiǎn)單相關(guān)系數(shù)

描述兩組變量的相關(guān)關(guān)系的缺點(diǎn)只是孤立考慮單個(gè)X與單個(gè)Y間的相關(guān),沒(méi)有考慮X

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論