版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
主成分分析和典型相關(guān)分析第4章引言變量太多會(huì)增加計(jì)算的復(fù)雜性變量太多給分析問題和解釋問題帶來困難變量提供的信息在一定程度上會(huì)有所重疊用為數(shù)較少的互不相關(guān)的新變量來反映原變量所提供的絕大部分信息,降維的思想來處理高維數(shù)據(jù)。4.1主成分分析主要目的:對(duì)原變量加以“改造”,在不致?lián)p失原變量太多信息的條件下盡可能地降低變量的維數(shù),即用較少的“新變量”代替原來的各變量。4.1.2總體主成分設(shè)為某實(shí)際問題所涉及的個(gè)隨機(jī)變量。記,其協(xié)方差矩陣為它是一個(gè)階非負(fù)定矩陣。設(shè)為個(gè)常數(shù)向量,考慮如下線性組合:總體主成分易知有我們希望用代替原來個(gè)變量,這就要求盡可能地反映原來個(gè)變量的信息。這里用方差來度量。即要求達(dá)到最大。對(duì)任意常數(shù),若取,則。
總體主成分因此,必須對(duì)加以限制,否則無界。最方便的限制是要求具有單位長(zhǎng)度,即我們?cè)诩s束條件之下,求使達(dá)到最大,由此所確定的隨機(jī)變量稱為的第一主成分??傮w主成分如果第一主成分還不足以反映原變量的信息,進(jìn)一步求。為了使和反映原變量的信息不相重疊,要求二者不相關(guān),在約束條件求使達(dá)到最大。
第二主成分:
依次類推……
總體主成分一般地,在約束條件及
下,求使達(dá)到最大,由此所確定的稱為的第個(gè)主成分??傮w主成分的求法設(shè)是的協(xié)方差矩陣,的特征值及相應(yīng)的正交單位化特征向量分別為及,則的第個(gè)主成分為
其中。易見:事實(shí)上,令,則為一正交矩陣,且總體主成分的求法設(shè)為X的第一主成分,其中。令則并且當(dāng)時(shí),等號(hào)成立。這時(shí)總體主成分的求法在約束條件下,當(dāng)時(shí),達(dá)到最大,且設(shè)為X的第二主成分,則有
即有且總體主成分的求法令
則有從而并且當(dāng),即時(shí),。由此知,當(dāng)時(shí),滿足,且使達(dá)到最大。依此類推….
總體主成分的求法以上結(jié)果告訴我們,求X的各主成分,等價(jià)于求它的協(xié)方差矩陣∑的各特征值及相應(yīng)的正交單位化特征向量。按特征值由大到小所對(duì)應(yīng)的正交單位化特征向量為組合系數(shù)的的線性組合分別為X的第一、第二、直至第p個(gè)主成分,而各主成分的方差等于相應(yīng)的特征值??傮w主成分的性質(zhì)主成分的協(xié)方差矩陣及總方差記為主成分向量,則,其中,Y的協(xié)方差矩陣為由此得主成分的總方差為總體主成分的性質(zhì)主成分分析是把p個(gè)原始變量的總方差分解成p個(gè)不相關(guān)變量的方差之和。
第個(gè)主成分的貢獻(xiàn)率:描述了第k個(gè)主成分提取的信息占總信息的份額。總體主成分的性質(zhì)前個(gè)主成分的累計(jì)貢獻(xiàn)率:表明前m個(gè)主成分綜合提供信息的能力。
實(shí)際應(yīng)用中,通常選取m<p,使前m個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到較高的比例(如80%到90%)。這樣用前m個(gè)主成分代替原始變量不但是變量維數(shù)降低,而且也不致于損失原始變量中的太多信息??傮w主成分的性質(zhì)主成分與變量的相關(guān)系數(shù)由于,故,從而
由此可得與的相關(guān)系數(shù)為它給出了主成分與原始變量的關(guān)聯(lián)性的度量。各主成分與原始變量間的相關(guān)系數(shù)原變量主成分實(shí)際應(yīng)用中,一般只對(duì)前m個(gè)主成分感興趣,因此只關(guān)心與的相關(guān)系數(shù),即表中前m行的各個(gè)值。例4.1設(shè)隨機(jī)變量的協(xié)方差矩陣為求的各主成分。
解易求得的特征值及相應(yīng)的正交單位化特征向量分別為例4.1因此的主成分為如果我們只取第一主成分,則貢獻(xiàn)率為
若取前兩個(gè)主成分,則累計(jì)貢獻(xiàn)率為例4.1進(jìn)一步可求得前兩個(gè)主成分與各原始變量的相關(guān)系數(shù)同理,可求得即與,高度相關(guān)而與不相關(guān);與以概率1呈完全線性關(guān)系。標(biāo)準(zhǔn)化變量的主成分在實(shí)際問題中,不同的變量往往有不同的量綱,由于不同的量綱會(huì)引起各變量取值的分散程度差異較大,這時(shí)總體方差則主要受方差較大的變量的控制。若用求主成分,則優(yōu)先照顧了方差大的變量,有時(shí)會(huì)造成很不合理的結(jié)果。為了消除由于量綱的不同帶來的影響,常采用變量標(biāo)準(zhǔn)化的方法,即令其中。標(biāo)準(zhǔn)化變量的主成分這時(shí),的協(xié)方差矩陣便是的相關(guān)矩陣,其中利用的相關(guān)矩陣作主成分分析,可以得到如下結(jié)論:標(biāo)準(zhǔn)化變量的主成分設(shè)為標(biāo)準(zhǔn)化的隨機(jī)向量,其協(xié)方差矩陣(即的相關(guān)矩陣)為,則的第個(gè)主成分為并且其中為的特征值,為相應(yīng)于特征值的正交單位化特征向量。這時(shí),第個(gè)主成分的貢獻(xiàn)率為,前個(gè)主成分的累計(jì)貢獻(xiàn)率為,與的相關(guān)系數(shù)為例4.2設(shè)的協(xié)方差矩陣為相應(yīng)的相關(guān)矩陣為分別從和出發(fā),作主成分分析。例4.2解如果從出發(fā)作主成分分析,易求得其特征值和相應(yīng)的正交單位化特征向量為的兩個(gè)主成分分別為第一主成分的貢獻(xiàn)率為例4.2
與,的相關(guān)系數(shù)分別是我們可以看到,由于的方差很大,它完全控制了提取信息量占99.2%的第一主成分(在中的系數(shù)為0.999),淹沒了變量的作用。如果從出發(fā)求主成分,可求得其特征值和相應(yīng)的正交單位化特征向量為例4.2
的兩個(gè)主成分分別為此時(shí),第一個(gè)主成分的貢獻(xiàn)率有所下降,為
注:當(dāng)涉及的各變量的變化范圍差異較大時(shí),從出發(fā)求主成分比較合理。
4.1.3樣本主成分設(shè)為取自的一個(gè)容量為的簡(jiǎn)單隨機(jī)樣本,則樣本協(xié)方差矩陣及樣本相關(guān)矩陣分別為其中樣本主成分設(shè)是樣本協(xié)方差矩陣,其特征值為相應(yīng)的正交單位化特征向量這里,則第個(gè)樣本主成分為其中為X的任一觀測(cè)值。當(dāng)依次代入X的n個(gè)觀測(cè)值時(shí),便得到第i個(gè)樣本主成分的n個(gè)觀測(cè)值,我們稱為第i個(gè)主成分的得分。樣本主成分第個(gè)樣本主成分的貢獻(xiàn)率為,前個(gè)樣本主成分的累計(jì)貢獻(xiàn)率為。樣本主成分同樣,為了消除量綱的影響,我們可以對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化,即令則標(biāo)準(zhǔn)化數(shù)據(jù)的樣本協(xié)方差矩陣即為原數(shù)據(jù)的樣本相關(guān)矩陣。由出發(fā)所求得的樣本主成分稱為標(biāo)準(zhǔn)化樣本主成分。只要求出的特征值及相應(yīng)的正交單位化特征向量,類似上述結(jié)果可求得標(biāo)準(zhǔn)化樣本主成分。這時(shí)標(biāo)準(zhǔn)化樣本總方差為。樣本主成分實(shí)際應(yīng)用中,將樣本代入各主成分中,可得到各樣本主成分的觀測(cè)值
原變量主成分12序號(hào)
樣本主成分實(shí)際應(yīng)用中,選取前m(m<p)個(gè)樣本主成分,使其累計(jì)貢獻(xiàn)率達(dá)到一定的要求(如80%到90%),以前m個(gè)主成分的得分代替原始數(shù)據(jù),這樣便可以達(dá)到降低原始數(shù)據(jù)維數(shù)的目的,同時(shí)也不致?lián)p失原始數(shù)據(jù)的太多信息。PRINCOMP過程可對(duì)輸入資料文件做主成分分析輸入資料文件可以是原始數(shù)據(jù)、相關(guān)系數(shù)矩陣或樣本協(xié)方差矩陣等輸出包括相關(guān)矩陣或協(xié)方差矩陣、特征值、特征向量及標(biāo)準(zhǔn)化的主成分值等主要語句Procprincomp選項(xiàng)串;var變量名稱串;partial變量名稱串;freq變量名稱串;weight變量名稱串;by變量名稱串;run;PROCPRINCOMPProcprincompoptions;data=sasdataset:指出要分析的sas數(shù)據(jù)集名稱。這個(gè)數(shù)據(jù)集可以是原始觀測(cè)值的sas數(shù)據(jù)集,也可以是相關(guān)矩陣(在數(shù)據(jù)集名稱后加上type=corr)或協(xié)方差矩陣(在數(shù)據(jù)集名稱后加上type=cov)。若省略數(shù)據(jù)集選項(xiàng),則自動(dòng)使用最新建立的sas數(shù)據(jù)集。PROCPRINCOMPProcprincompoptions;out=sasdataset:命名一個(gè)輸出的sas數(shù)據(jù)集,其中包含原始數(shù)據(jù)以及各主成分的得分(即各主成分的觀測(cè)值)。outstat=sasdataset:命名一個(gè)包含各變量的均值、標(biāo)準(zhǔn)差、相關(guān)矩陣或協(xié)方差矩陣、特征值和特征向量的輸出sas數(shù)據(jù)集。PROCPRINCOMPProcprincompoptions;covariance(或COV):要求從協(xié)方差矩陣出發(fā)作主成分分析。若省略此選項(xiàng),則從相關(guān)矩陣出發(fā)進(jìn)行分析。除非各變量的度量單位是可比較的或已經(jīng)過某種方式的標(biāo)準(zhǔn)化,否則不宜使用此選項(xiàng),應(yīng)從相關(guān)矩陣出發(fā)作主成分分析。N=n:指定要計(jì)算的主成分個(gè)數(shù)“n”。其默認(rèn)值為參與分析的變量個(gè)數(shù)。PROCPRINCOMPProcprincompoptions;prefix=name:規(guī)定各主成分的名稱的前綴。省略此句則sas系統(tǒng)自動(dòng)賦予各主成分名稱分別為prin1,prin2,…。若“name=A”,則各主成分名稱分別為A1,A2,…。前綴的字符個(gè)數(shù)加上后面數(shù)字位數(shù)應(yīng)不超過8個(gè)字符。例4.3對(duì)10名男中學(xué)生的身高()、胸圍()和體重()進(jìn)行測(cè)量,得數(shù)據(jù)如表。對(duì)其作主成分分析。序號(hào)身高(cm)胸圍(cm)體重(kg)1149.569.538.52162.577.055.53162.778.550.84162.287.565.55156.574.549.06156.174.545.57172.076.551.08173.281.559.59159.574.543.510157.779.053.5例4.3Datastudents;inputx1x2x3;cards;149.569.538.5……157.779.053.5;procprincompcov;varx1-x3;run;例4.3由上面的sasprocprincomp過程,可以算得樣本協(xié)方差矩陣為S的特征值與單位正交化特征向量分別為例4.3各樣本主成分的貢獻(xiàn)率分別為:前兩個(gè)主成分的累計(jì)貢獻(xiàn)率已達(dá)98.855%,實(shí)際應(yīng)用中可只取前兩個(gè)主成分,即例4.3如果從相關(guān)矩陣出發(fā)SPSSSPSS1.Analyze→DataReduction→FactorAnalysis,彈出FactorAnalysis對(duì)話框;2.把變量選入Variables框;3.Descriptives:CorrelationMatrix框組中選中Coefficients,然后點(diǎn)擊Continue,返回FactorAnalysis對(duì)話框;4.點(diǎn)擊“OK”因子分析主成分分析的推廣和發(fā)展,多元統(tǒng)計(jì)分析方法中降維的一種方法,是研究相關(guān)陣或協(xié)方差陣的內(nèi)在的依賴關(guān)系,將多個(gè)變量進(jìn)行綜合,并用少數(shù)幾個(gè)因子來再現(xiàn)原始變量和因子之間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法。例4.4某市為了全面分析機(jī)械類各企業(yè)的經(jīng)濟(jì)效益,選擇了8個(gè)不同的利潤指標(biāo),14家企業(yè)關(guān)于這8個(gè)指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)如表。試進(jìn)行主成分分析。例4.4datalirun;inputx1-x8;cards;40.424.77.26.18.38.72.44220.0……38.59.111.39.512.216.41.32711.6;proc
princompcov;varx1-x8;run;例4.5某醫(yī)學(xué)院測(cè)得20例肝癌患者的4項(xiàng)肝功能指標(biāo):SGPT(轉(zhuǎn)氨酶),肝大指數(shù),ZnT(鋅濁度)和AFP(胎甲球),依次用X1~X4表示,觀察數(shù)據(jù)如表。試進(jìn)行主成分分析。例4.5datap1;inputx1-x4;cards;402520101.5530120313502504.51801203.5950101.512504011940270413602803.5116017039601803.51440130230502201.517201601.535602202.51430140220202202141040110020112601202200;proc
princompout=pcprefix=y;varx1-x4;run;例4.6一月和七月平均氣溫的主成分分析在數(shù)據(jù)集TEMPERAT中存放有美國一些城市一月和七月的平均氣溫。我們希望對(duì)這兩個(gè)氣溫進(jìn)行主成分分析,希望用一個(gè)統(tǒng)一的溫度來作為總的可比的溫度,所以進(jìn)行主分量分析。
例4.6DATATEMPERAT;INPUTCITY$1-15JANUARYJULY;CARDS;MOBILE51.281.6PHOENIX51.291.2LITTLEROCK39.581.4SACRAMENTO45.175.2DENVER29.973.0HARTFORD24.872.7WILMINGTON32.075.8WASHINGTONDC35.678.7JACKSONVILLE54.681.0MIAMI67.282.3ATLANTA42.478.0BOISE29.074.5CHICAGO22.971.9PEORIA23.875.1DESMOINES19.475.1INDIANAPOLIS27.975.0WICHITA31.380.7LOUISVILLE33.376.9NEWORLEANS52.981.9PORTLAND,MAINE21.568.0BALTIMORE33.476.6BOSTON29.273.3DETROIT25.573.3SAULTSTEMARIE14.263.8DULUTH8.565.6MINNEAPOLIS12.271.9JACKSON47.181.7KANSASCITY27.878.8STLOUIS31.378.6GREATFALLS20.569.3OMAHA22.677.2RENO31.969.3CONCORD20.669.7ATLANTICCITY32.775.1ALBUQUERQUE35.278.7例4.6ALBANY21.572.0BUFFALO23.770.1NEWYORK32.276.6CHARLOTTE42.178.5RALEIGH40.577.5BISMARCK8.270.8CINCINNATI31.175.6CLEVELAND26.971.4COLUMBUS28.473.6OKLAHOMACITY36.881.5PORTLAND,OREG38.167.1PHILADELPHIA32.376.8PITTSBURGH28.171.9PROVIDENCE28.472.1COLUMBIA45.481.2SIOUXFALLS14.273.3MEMPHIS40.579.6NASHVILLE38.379.6DALLAS44.884.8ELPASO43.682.3HOUSTON52.183.3SALTLAKECITY28.076.7BURLINGTON16.869.8NORFOLK40.578.3RICHMOND37.577.9SPOKANE25.469.7CHARLESTON,WV34.575.0MILWAUKEE19.469.9CHEYENNE26.669.1;PROC
PRINCOMPCOVOUT=PRIN;VARJULYJANUARY;RUN;例4.6輸出中,第一部分為簡(jiǎn)單統(tǒng)計(jì)量(均值和標(biāo)準(zhǔn)差),第二部分為協(xié)方差的特征值(注意我們?cè)谶^程中用了COV選項(xiàng),無此選項(xiàng)用相關(guān)陣),從這里可以看到貢獻(xiàn)率(Proportion)和累計(jì)貢獻(xiàn)率(Cumulative),第三部分為特征向量。例4.6按本結(jié)果的特征向量值及用COV選項(xiàng)規(guī)定使用協(xié)方差陣,我們可以知道兩個(gè)主分量如此計(jì)算:PRIN1=0.326866*JULY+0.945071*JANUARYPRIN2=0.945071*JULY+(-0.326866)*JANUARY例4.6如果沒有用COV選項(xiàng),原始變量還需要除以標(biāo)準(zhǔn)差。由系數(shù)可見,第一主分量是兩個(gè)月份的加權(quán)平均,代表了一個(gè)地方的氣溫水平,第二主分量系數(shù)一正一負(fù),反應(yīng)了冬季和夏季的氣溫差別。
請(qǐng)注意:此時(shí)的特征向量是與上不同的,而主成分公式也應(yīng)用標(biāo)準(zhǔn)化后的值。備注關(guān)于主成分的實(shí)際意義,要結(jié)合具體問題和有關(guān)專業(yè)知識(shí)才能給出合理的解釋。雖然利用主成分本身可對(duì)所研究的問題在一定程度上作分析,但主成分分析本身往往并不是最終目的,更重要的是利用主成分綜合原始變量的信息,達(dá)到降低原始變量維數(shù)的目的,進(jìn)而利用前幾個(gè)主成分的得分的低維數(shù)據(jù)作進(jìn)一步分析,如主成分回歸分析、聚類分析等等。4.2典型相關(guān)分析典型相關(guān)分析是研究?jī)山M變量之間相關(guān)性的一種統(tǒng)計(jì)分析方法,也是一種降維技術(shù)。由Hotelling(1935,1936)最早提出,CooleyandLohnes(1971)、Kshirsagar(1972)和Mardia,Kent,andBibby(1979)推動(dòng)了它的應(yīng)用。引言何時(shí)采用典型相關(guān)分析??jī)蓚€(gè)隨機(jī)變量Y與X--->簡(jiǎn)單相關(guān)系數(shù)一個(gè)隨機(jī)變量Y與一組隨機(jī)變量X1,X2,…,Xp;--->多重相關(guān)(復(fù)相關(guān)系數(shù))一組隨機(jī)變量Y1,Y2,…,Yq與另一組隨機(jī)變量X1,X2,…,Xp;--->典型相關(guān)系數(shù)
CCA典型相關(guān)是簡(jiǎn)單相關(guān)、多重相關(guān)的推廣;或者說簡(jiǎn)單相關(guān)系數(shù)、復(fù)相關(guān)系數(shù)是典型相關(guān)系數(shù)的特例。著眼于識(shí)別和量化兩組隨機(jī)變量之間的相關(guān)性,是兩個(gè)隨機(jī)變量之間的相關(guān)性在兩組變量之下的推廣。簡(jiǎn)單相關(guān)系數(shù)
描述兩組變量的相關(guān)關(guān)系的缺點(diǎn)只是孤立考慮單個(gè)X與單個(gè)Y間的相關(guān),沒有考慮X
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 律師年度工作計(jì)劃
- 律師事務(wù)所的實(shí)習(xí)報(bào)告范文10篇
- 客服主管工作計(jì)劃15篇
- 高老頭讀后感1000字
- 初一教師教學(xué)工作計(jì)劃5篇范文
- 乒乓球比賽作文600字錦集八篇
- 班長(zhǎng)的辭職報(bào)告模板集合9篇
- (一)制定招聘戰(zhàn)略-案例導(dǎo)入-江西人力資源網(wǎng)
- 2025年油炸類制品項(xiàng)目發(fā)展計(jì)劃
- 健康管理咨詢服務(wù)合同(2篇)
- 2022-2023小學(xué)二年級(jí)體育上冊(cè)期末考試試卷及答案
- 2023年運(yùn)維主管年終業(yè)務(wù)工作總結(jié)
- 電氣設(shè)備火災(zāi)現(xiàn)場(chǎng)處理措施
- 《格林童話》課外閱讀試題及答案
- “銷售技巧課件-讓你掌握銷售技巧”
- 2019北師大版高中英語選修一UNIT 2 單詞短語句子復(fù)習(xí)默寫單
- 房地產(chǎn)項(xiàng)目保密協(xié)議
- 2023年云南省初中學(xué)業(yè)水平考試 物理
- 【安吉物流股份有限公司倉儲(chǔ)管理現(xiàn)狀及問題和優(yōu)化研究15000字(論文)】
- 中國成人血脂異常防治指南課件
- 《S7-1500PLC應(yīng)用技術(shù)》 課件 第1、2章 PLC概述、S7-1500 PLC硬件系統(tǒng)
評(píng)論
0/150
提交評(píng)論