主成分分析訓(xùn)練題_第1頁
主成分分析訓(xùn)練題_第2頁
主成分分析訓(xùn)練題_第3頁
主成分分析訓(xùn)練題_第4頁
主成分分析訓(xùn)練題_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

主成分分析訓(xùn)練題鴛林啦號(hào)科歿女學(xué)GUILINUNIVERSITYOFELECTRONICTECHNOLOGY主成分分析在數(shù)學(xué)建模

中的應(yīng)用2012年11月13日第一講主成分分析在數(shù)學(xué)建模中的應(yīng)用學(xué)習(xí)目的理解主成分分析的基本思想;會(huì)用SAS軟件編寫相關(guān)程序,對(duì)相關(guān)數(shù)據(jù)進(jìn)行主成分分析;會(huì)用SAS軟件編程結(jié)合主成分分析方法解決實(shí)際問題。學(xué)習(xí)要求理解主成分分析的基本原理,掌握主成分分析的基本步驟;會(huì)用SAS軟件編寫相關(guān)程序,對(duì)相關(guān)數(shù)據(jù)進(jìn)行分析處理和假設(shè)檢驗(yàn);撰寫不少于3000字的小論文;精讀一篇優(yōu)秀論文。理論基礎(chǔ)3.1基本思想在實(shí)際問題的研究中,往往會(huì)涉及眾多的變量。但是,變量太多不但會(huì)增加計(jì)算的復(fù)雜性,而且也給合理地分析問題和解釋問題帶來困難。一般來說,雖然每個(gè)變量提供了一定的信息,但其重要性有所不同,而在很多情況下,變量間有一定的相關(guān)性,從而使得這些變量所提供的信息在一定程度上有所重疊。因而人們希望對(duì)這些變量加以“改造”,用為數(shù)較少的互不相關(guān)的新變量來反映原來變量所提供的絕大部分信息,通過對(duì)新變量的分析達(dá)到解決問題的目的。主成分分析就是在這種降維的思想下產(chǎn)生的處理高維數(shù)據(jù)的方法。3.2基本原理(1).總體的主成分定義1?設(shè)X=(耳X2,..,Xpj為P維隨機(jī)向量,稱乙=訂為X的第i主成分(i=l,2,???P),如果:(1)也=1(Z=1,2,…,P);⑵當(dāng)i>1時(shí),

a'工a=0(j=1,2,…i-1);ij(3)(3)Var(Z)= max Var(a'X)' aa=1,a'工a.=0(j=1,???i-l)定理1?設(shè)x=(x,x,…,x)'是P維隨機(jī)向量,且1 2 pD(X)=Z,丫的特征值為—…—0,a,a,…,a為相應(yīng)1 2 p 1 2 p的單位正交特征向量,則X的第i主成分為Z=a'X (i=1,2,…,p).ii九/kii=1定義2.我們稱九/丫九為主成分Z九/kii=1k稱N必為主成分Z,…,Z(m<p)的累計(jì)貢獻(xiàn)率。記TOC\o"1-5"\h\zk i 1k=1 i=1Z=(q),A=diag(九九,…九)9 I特征值,aa…a是相應(yīng)的單位正交特征向量,記正交矩陣aaa1 2 p\o"CurrentDocument"主成分 ,其中 則A=(a,a,…,a). Z=(Z,…Z)' Z=a'(/=1,2,…,p)/1 2 p 1 p ii總體主成分有如下的性質(zhì):性質(zhì)1.D(z)=A,即P個(gè)主成分的方差為:Var(Z)“(i=1,2,…,p),且它們是互不相關(guān)的。ii性質(zhì)2.丫◎上九,通常稱乙為原總體X的總ii i iii=1 i=1 i=1方差(或稱總慣量)。性質(zhì)3.主成分Z與原始變量X的相關(guān)系數(shù)為p(Z,X)kip(Z,X)=?a/JQ (k,i=1,2,…卩)k i Fkik琴ii并把主成分Z與原始變量x的相關(guān)系數(shù)稱為因子ki負(fù)荷量。性質(zhì)4a2―ik-ick=1 ii性質(zhì)Yp2(Z,X)=2L性質(zhì)4a2―ik-ick=1 ii性質(zhì)Yp2(Z,X)=2L么!=1(i=1,2,…,p)°k=152Lcp2(Z,X)=X(k=1,2,…,p).ii ki k若記E(X)二卩,Var(X)二ci i ii=1即令2iX—E(X)X—卩X*=―i i=—iii Var(X) ci i這時(shí)標(biāo)準(zhǔn)化后的隨機(jī)向量X*=(X*,X*,…x*)'的協(xié)方差陣£*就是原隨機(jī)向量X的相關(guān)陣Ro從相關(guān)陣R出發(fā)求主成分,記主成分向量為Z*=(Z*,...,Z*)',則1p(i二1,2,…,p)Z*有與總體主成分相應(yīng)的性質(zhì):Z*性質(zhì)】? D(Z*)=A*=diag(X*,X*,…,X*),其中X*.1*.…X*為p 1 2 p相關(guān)矩陣R的特征值。12性質(zhì)2.遲九*=pii=1性質(zhì)3.主成分Z*與標(biāo)準(zhǔn)化變量X*的相關(guān)系數(shù)為p(Z*,X*)kkp(Z*,X*)=X*a* (k,i=1,2,…p)'kk 說kik其中a*=(a*,…,a*)'是R對(duì)應(yīng)于X*的單位正交特征k 1k pk k向量。pk性質(zhì)4Yp2(Z*,X*)=Xx*(a*)2=1 (i=1,2,…,p)kk kikk=1 k=1性質(zhì)5Yp2(Z*,X*)=刀九*(a*)2=X* (k=1,2,…,p)°kk kik k2.樣本的主成分定義1.設(shè)變量X,X,…,X的n次觀測數(shù)據(jù)陣X已標(biāo)準(zhǔn)化,這時(shí)樣本的協(xié)方差陣就是樣本相關(guān)陣R=丄n-1 ijpxR=丄n-1 ijpxpX'X=(r)ijpxPR的特征值為入林,...林,0,其相應(yīng)標(biāo)準(zhǔn)化特征向量為,樣本主成分為a,a,.,a1 2 pZ=a'X (j=1,2,…,p)類似總體主成分,樣本主成分也具有如下的性質(zhì):性質(zhì)1?Z=11Lz=(?,??")'=0(因?yàn)閄=0),而n (t) 1 pt=1Z'Z=<ij0, Z'Z=<ij(n-1)九.…當(dāng)i=j.i上式說明當(dāng)i豐.時(shí),第i個(gè)主成分得分向量Z與第j個(gè)主成分得分向量Z是相互正交的。性質(zhì)2.另入=p。稱乂為樣本主成分Z的貢獻(xiàn)率;i p k又稱二為樣本主成分Z,…,Z(m<P)的累計(jì)貢獻(xiàn)p 1m率。性質(zhì)3.樣本主成分具有是殘差平方和最小的優(yōu)良性。3.3基本步驟

(1)數(shù)據(jù)標(biāo)準(zhǔn)化x_Xj-XjjSjjS為第j列的方差;Sj⑵計(jì)算協(xié)方差矩陣R(i——1,2,…,n(i——1,2,…,n;j——1,2…p)其中,用特征方程—R——°求出按大小排列特征值九以及相應(yīng)的特征向量; 'e⑷選擇前幾個(gè)特征向量,確定主成分;3.4基本命令使用procprincomp過程進(jìn)行主成分分析,其主要語句格式如下:Procprincomp<選項(xiàng)列表>;Var變量列表;Run;其中:(1)Procprincomp語句用來規(guī)定輸入、輸出和一些運(yùn)行選項(xiàng),其選項(xiàng)及功能如下:4鼻蝕=數(shù)據(jù)集名1:指明所要分析的數(shù)據(jù)集,若省略則表示分析最新生成的數(shù)據(jù)集。0皿=數(shù)據(jù)集名2:命名一個(gè)輸出SAS數(shù)據(jù)集,其中包含原始數(shù)據(jù)以及各主成分得分(即各主成分的觀測值)。??陲嵎詳?shù)據(jù)集名3:命名一個(gè)包含各變量的均值、標(biāo)準(zhǔn)差、相關(guān)矩陣或協(xié)方差矩陣、特征值和特征向量的SAS數(shù)據(jù)集。covariance(cov):要求從協(xié)方差矩陣出發(fā)作主成分分析,若省略此選項(xiàng),則從相關(guān)矩陣出發(fā)進(jìn)行分析;除非各變量的度量單位是可比較的或已經(jīng)過某種方式的標(biāo)準(zhǔn)化,否則不宜使用此選項(xiàng),應(yīng)從相關(guān)矩陣出發(fā)作主成分分析。N=n:指定要計(jì)算的主成分的個(gè)數(shù),其默認(rèn)值為參與分析的變量的個(gè)數(shù)。prefix=name:規(guī)定各主成分名稱的前綴。省略此句則SAS系統(tǒng)自動(dòng)賦予各主成分名稱分別為prin1,prin2, ;若“name=A”,則各主成分名稱分別為A1,A2,……,前綴的字符個(gè)數(shù)加上后面數(shù)字位數(shù)應(yīng)不超過8個(gè)字符。(2)VARvariables;此句中的“variables”部分列出數(shù)據(jù)集中參與主成分分析的變量名稱。若省略此句,則被分析數(shù)據(jù)集中所有數(shù)值變量均參與分析。4.舉例【例1】(中學(xué)生身體四項(xiàng)指標(biāo)的主成分分析)在某中學(xué)隨機(jī)抽取某年級(jí)30名學(xué)生,測量其身高(X1)、體重(X2)、胸圍(X3)和坐高(X4),(數(shù)據(jù)見教材P277的表7?4)。試對(duì)這30名學(xué)生體四項(xiàng)指標(biāo)數(shù)據(jù)做主成分分析。datad721;inputnumberx1-x4@@;cards;114841727821393471763160497786414936677951594580866142316676715343768381504377799151427780101393168741114029647412161477884131584978831414033677715137316673161523573791714947827918145357077191604774872015644788521151427382221473873782315739688024147306575251574880882615136748027144366876281413067762913932687330148387078procprincompdata=d721prefix=zout=o721;varx1-x4;run;optionsps=32ls=85;procplotdata=o721;plotz2*z1$number='*'/href=-1href=2vref=0;run;procsortdata=o721;byz1;run;procprintdata=o721;varnumberz1z2x1-x4;run;quit;由PRINCOMP過程由相關(guān)陣出發(fā)進(jìn)行主成分分析。由下面的相關(guān)陣來看,指標(biāo)之間存在著嚴(yán)重的共線關(guān)系,就要用主成分的方法進(jìn)行降維(也就是說用較少的指標(biāo)就能很好衡量學(xué)生的身體基本情況。從相關(guān)陣的特征直來看,第一主成分的貢獻(xiàn)率已高達(dá)88?53%,且前兩個(gè)主成分的累計(jì)貢獻(xiàn)率已高達(dá)96.36%,因此只需用兩個(gè)主成分就能很好地概括這組數(shù)據(jù)。另由第四個(gè)特征值近似為0,可以看出這4個(gè)標(biāo)準(zhǔn)化后的身體指標(biāo)變量有近似的共線性。由最大的兩個(gè)特征值對(duì)應(yīng)的特征向量可以寫出第一和第二主成分:Z二0.496966X*+0.514571X*+0.480901X*+0.506928X*112 3 4Z=—0.543213X*+0.210246X*+0.724621X*-0.368294X*2 12 3 4利用特征向量的值對(duì)各個(gè)主成分進(jìn)行分析。第一主成分特征值對(duì)應(yīng)的第一個(gè)特征向量的各個(gè)分量均在0?5附近,而且都是正值,它反映學(xué)生的魁梧程度。身體高大的學(xué)生,他的4個(gè)部位的尺度都比較大;而身體矮小的學(xué)生,他的4個(gè)部位的尺寸都比較小。因此我們可以稱第一主成分為大小因子。第二大特征值對(duì)應(yīng)的特征向量中第一和第四個(gè)分量均為負(fù)值,其它的都為正值,它反映學(xué)生的胖瘦情況,可稱為形態(tài)因子。從第二主成分得分對(duì)第一主成分得分的散布圖看,很直觀地看出,按學(xué)生的身體指標(biāo)尺寸,這30名學(xué)生大約分三組(以第一主成分得分值為-1和2為分界點(diǎn))。每一組包括哪幾名學(xué)生可由每一給散點(diǎn)旁邊的序號(hào)可以得知。ObservationsVarieibles304SimpleStsitisticsx3Mean149.000000038.7000000072.23333333StD7.31554796.460223125.15071685TheSASSystemThePRIMCOMPProcedurex479.366666674.27085821CorrelatiorHatrlxxlx3占41.00000.56320.73210.92050.86321.0000Q.89660.8827k30.73210.88651.00000.78290.92050.88270.78291.0000EigenvaluesoftheCorreiatiunMatrixEigenvalueDifferenceProporticinCumulative3.H109SOD8.227714840.88530.88530.318383160.233374200.07830.96360.079405950.013299060.019^0.9S350.068103830.0165I.OQOOEigenvectors7lz2z3z4xl0.496966-.543213-.4496270.505747x20.E145710.21024S-.482880-.890844x30.4809010.7246210.1751770.46US8x40.506928-.36S2940.743903-.282343111口c-h<-口y■□■■.c:iii10:59Sunday,itDecember25)2005Plot口fz2:+=z1:inijniber. Synibc1usedis'2?■■:■i??1:■申17■:■;■1■Qi1??■:'? 水2i屮8■;■22? 29?m9?申15啊10?*22Qi27 ? 來1? *13 250血惓惓蟻悽惓惓蟻??4傻笊惓??3傻懺傻傻傻懺褲6傻懺傻悽傻懺忻悽傻惶忻d傻僂椚種? 泉28'-1 !!!:=llj!!!16*21'? !4!12? Hi11 Hi6:' i+i3?QQ? 水24?it:4■7-1?■j'? !!!1!j??*£8?QQQ?7'?QQQ-2?■7■7蚱覽慢傻悽傻慢僵悽傻慢傻悽傻覽傻悽傻慢傻僅傻慢傻矮傻慢地矮傻慢傻矮惶慢傻矮傻慢傻說-3 -2-1012 35■訓(xùn)練題5?1用主成分分析方法探討城市工業(yè)主體結(jié)構(gòu)。表1是某市工業(yè)部門13個(gè)行業(yè)8項(xiàng)指標(biāo)的數(shù)據(jù)。表1 某市工業(yè)部門13個(gè)行業(yè)8項(xiàng)指標(biāo)的數(shù)據(jù)年末固定資產(chǎn)凈值(萬元)職工人數(shù)(人)工業(yè)總產(chǎn)值(萬元)全員勞動(dòng)產(chǎn)率(元/人年)百元固定原資產(chǎn)值實(shí)現(xiàn)產(chǎn)值(元)資金利稅率(%)標(biāo)準(zhǔn)燃料消費(fèi)量(噸)能源利用效果(萬元/噸)1(冶金)90342524551010911927282.00016.1001974350.1722(電力)4903197320351031334.2007.1005920770.0033(煤炭)6735211393767178036.1008.2007263960.0034(化學(xué))4945436241815572250498.10025.9003482260.9855(機(jī)械)1391902035052158981060993.20012.6001395720.628

6(建材)122151621910351638262.5008.7001458180.0667(森工)23726572810312329184.40022.200209210.1528(食品)11062230785493523804370.40041.000654860.2639(紡織)17111239075210821796221.50021.500638060.27610(縫紉)12063930612615586330.40029.50018400.43711(皮革)21505704620010870184.20012.00089130.27412(造紙)525161551038316875146.40027.500787960.15113(文教藝術(shù)用品)1434113203193961469194.60017.80063541.574(1)試用主成分分析方法確定8項(xiàng)指標(biāo)的樣本主成分(綜合變量);若要求損失信息不超過15%,應(yīng)取幾個(gè)主成分;并對(duì)這幾個(gè)主成分進(jìn)行解釋;(2)利用主成分得分對(duì)13個(gè)行業(yè)進(jìn)行排序和分類。5.2某市為了全面分析機(jī)械類各企業(yè)的經(jīng)濟(jì)效益,選擇了8個(gè)不同的利潤指標(biāo),14家企業(yè)關(guān)于這8個(gè)指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)如表3所示。試進(jìn)行主成分分析,并對(duì)所選取的主成分作出解釋。表214家企業(yè)的利潤指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)凈產(chǎn)值利潤率定資產(chǎn)利潤率總產(chǎn)值利潤率銷售收入利潤率產(chǎn)品成本利潤率物耗利潤率人均利潤率流動(dòng)資金利潤率140.424.77.26.18.38.72.44220.0

225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.6模型一】美國各種類型犯罪的主成分模型根據(jù)美國各個(gè)州的各種類型犯罪的犯罪率數(shù)據(jù)(見表1)。希望對(duì)這些犯罪率數(shù)據(jù)進(jìn)行主成分分析,并分析犯罪特征。表1:美國各個(gè)州的各種類型犯罪率數(shù)據(jù)MurderRapeRobberyAssaultBurglaryLarcenyAutoALABAMA14.225.296.8278.31135.51881.9280.7ALASKA10.851.696.8284.01331.73369.8753.3ARIZONA9.534.2138.2312.32346.14467.4439.5ARKANSAS8.827.683.2203.4972.61862.1183.4

CALIFORNIA11.549.4287.0358.02139.43499.8663.5COLORADO6.342.0170.7292.91935.23903.2477.1CONNECTICUT4.216.8129.5131.81346.02620.7593.2DELAWARE6.024.9157.0194.21682.63678.4467.0FLORIDA10.239.6187.9449.11859.93840.5351.4GEORGIA11.731.1140.5256.51351.12170.2297.9HAWAII7.225.5128.064.11911.53920.4489.4IDAHO5.519.439.6172.51050.82599.6237.6ILLINOIS9.921.8211.3209.01085.02828.5528.6INDIANA7.426.5123.2153.51086.22498.7377.4IOWA2.310.641.289.8812.52685.1219.9KANSAS6.622.0100.7180.51270.42739.3244.3KENTUCKY10.119.181.1123.3872.21662.1245.4LOUISIANA15.530.9142.9335.51165.52469.9337.7MAINE2.413.538.7170.01253.12350.7246.9MARYLAND8.034.8292.1358.91400.03177.7428.5MASSACHUSETTS3.120.8169.1231.61532.22311.31140.1MICHIGAN9.338.9261.9274.61522.73159.0545.5MINNESOTA2.719.585.985.81134.72559.3343.1MISSISSIPPI14.319.665.7189.1915.61239.9144.4MISSOURI9.628.3189.0233.51318.32424.2378.4MONTANA5.416.739.2156.8804.92773.2309.2NEBRASKA3.918.164.7112.7760.02316.1249.1NEVADA15.849.1323.1355.02453.14212.6559.2NEWHAMPSHIRE3.210.723.276.01041.72343.9293.4NEWJERSEY5.621.0180.4185.11435.82774.5511.5NEWMEXICO8.839.1109.6343.41418.73008.6259.5NEWYORK10.729.4472.6319.11728.02782.0745.8NORTHAROLINA10.617.061.3318.31154.12037.8192.1NORTHDAKOTA0.99.013.343.8446.11843.0144.7OHIO7.827.3190.5181.11216.02696.8400.4OKLAHOMA8.629.273.8205.01288.22228.1326.8OREGON4.939.9124.1286.91636.43506.1388.9PENNSYLVANIA5.619.0130.3128.0877.51624.1333.2RHODEISLAND3.610.586.5201.01489.52844.1791.4OUTHCAROLINA11.933.0105.9485.31613.62342.4245.1SOUTHDAKOTA2.013.517.9155.7570.51704.4147.5TENNESSEE10.129.7145.8203.91259.71776.5314.0TEXAS13.333.8152.4208.2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論