7個(gè)徑賽項(xiàng)目上的女子紀(jì)錄的主成分分析處理_第1頁(yè)
7個(gè)徑賽項(xiàng)目上的女子紀(jì)錄的主成分分析處理_第2頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、7個(gè)徑賽項(xiàng)目上的女子紀(jì)錄的主成分分析處理(總11頁(yè))-CAL-FENGHAI.-(YICAI)-CompanyOnel-CAL-本頁(yè)僅作為文檔封面,使用請(qǐng)直接刪除7個(gè)徑賽項(xiàng)目上的女子紀(jì)錄的主成分分析處理摘要本文通過主成分分析的相關(guān)方法,建立了評(píng)價(jià)55個(gè)國(guó)家和地區(qū)1984年前在7個(gè)徑賽項(xiàng)目上的女子紀(jì)錄的數(shù)學(xué)模型。針對(duì)前兩個(gè)問題,通過求解樣本相關(guān)矩陣,再根據(jù)主成分分析的相關(guān)方法,利用MATLAB軟件求得樣本相關(guān)矩陣的特征值和相應(yīng)正交單位化特征向量。針對(duì)第三個(gè)問題,由第二個(gè)的求解結(jié)果進(jìn)行相關(guān)的分析,確定兩個(gè)主成分的具體意義。第一主成分反應(yīng)了各國(guó)家和地區(qū)的運(yùn)動(dòng)員的優(yōu)秀程度;第二主成分反映了各國(guó)家和地區(qū)

2、在短跑和長(zhǎng)跑項(xiàng)目上的相對(duì)實(shí)力。針對(duì)第四個(gè)問題,由前兩個(gè)問題的求解結(jié)果,然后基于第一樣本主成分的得分對(duì)各國(guó)家和地區(qū)排序,得出的結(jié)果與從原始數(shù)據(jù)中得到的直觀看法基本吻合。最后本文針對(duì)兩種不同方式得出結(jié)果的差異性進(jìn)行了分析。關(guān)鍵詞主成分分析;相關(guān)矩陣;貢獻(xiàn)率;第一樣本主成分15一、問題重述在實(shí)際問題的研究中,往往會(huì)涉及眾多有關(guān)的變量。但是變量太多不但會(huì)增加計(jì)算的復(fù)雜性,而且也給合理的分析問題和解釋問題帶來了困難,一般來說每個(gè)變量所提供的信息在一定程度上有所重疊,因而人們希望用為數(shù)較少的互不相關(guān)的新變量來反映原變量所提供的絕大部分信息,通過對(duì)新變量的分析達(dá)到解決問題的目的,主成分分析便是在這種降維的思

3、想下產(chǎn)生的處理高維數(shù)據(jù)的方法(1)?,F(xiàn)請(qǐng)分析下表有關(guān)世界上55個(gè)國(guó)家和地區(qū)1984年前在7個(gè)徑賽項(xiàng)目上的女子紀(jì)錄數(shù)據(jù)(見附錄),解決如下問題:(1) 求其樣本相關(guān)矩陣R及它的特征值和相應(yīng)正交單位化特征向量。(2) 求前兩個(gè)標(biāo)準(zhǔn)化樣本主成分及其累計(jì)貢獻(xiàn)率。(3) 解釋(2)中的兩個(gè)主成分的意義。(4) 基于第一樣本主成分的得分對(duì)各國(guó)家和地區(qū)排序,這與你從原始數(shù)據(jù)中得到的直觀看法是否基本吻合?二、問題分析分析問題可知,文中所給數(shù)據(jù)較多,首先要合理使用MATLAB軟件對(duì)數(shù)據(jù)進(jìn)行處理;要求解文中問題,主要基于主成分分析法的相關(guān)方法。由文中數(shù)據(jù)可知,所給的七個(gè)變量有著不同的量綱,這會(huì)引起各變量取值的分散

4、程度差異較大。若用協(xié)方差矩陣求主成分,則優(yōu)先照顧了方差大的變量,會(huì)造成很不合理的結(jié)果,為了消除由于量綱的不同可能帶來的影響,故采用變量標(biāo)準(zhǔn)化的方法,即用相關(guān)矩陣求解。對(duì)于前兩個(gè)問題,可直接使用MATLAB中的相關(guān)函數(shù)進(jìn)行求解。求解結(jié)果可用表格表示。對(duì)于第三個(gè)問題,需要利用第二個(gè)問題求解出的第一主成分和第二主成分的表達(dá)式進(jìn)行具體分析。對(duì)于第四個(gè)問題,要先求各國(guó)家和地區(qū)的第一樣本主成分的得分,然后再根據(jù)得分的高低具體分析。最后針對(duì)文中的求解過程與求解結(jié)果,討論模型的不足之處與需要改進(jìn)的方法。三、模型假設(shè)假設(shè)題中所給數(shù)據(jù)均準(zhǔn)確有效。四、符號(hào)表示符號(hào)SRyi八九ieihi含義樣本協(xié)方差矩陣樣本相關(guān)矩陣

5、主成分(i=1,2,37)特征值(i=1,2,37)標(biāo)準(zhǔn)化特征向量(i=1,2,37)第i個(gè)主成分的貢獻(xiàn)率(=1,2,37)五、模型建立與求解本文運(yùn)用主成分分析法對(duì)高維數(shù)據(jù)進(jìn)行了降維處理,其間通過求解樣本的協(xié)方差矩陣與相關(guān)矩陣來分析主成分,期望通過較少的變量來反映樣本數(shù)據(jù)的絕大部分信息,假設(shè)當(dāng)主成分的累計(jì)貢獻(xiàn)率達(dá)到80時(shí),即視為滿足了提取原數(shù)據(jù)中絕大部分信息的要求。模型建立與求解如下:模型建立設(shè)(X,X12是p元總體,從中取得樣本數(shù)據(jù):(x,Q11121p(x,x,x)T21222p(x,x,x)Tn1n2np第i個(gè)觀測(cè)數(shù)據(jù)記作(、x二H,x,,x,人,(i=1,2,n)ii1i2ip稱為樣品

6、,引進(jìn)樣本數(shù)據(jù)觀測(cè)矩陣'xx1121xxX=1222n1xn2Ixxx丿1p2pnp它是pXn矩陣,它的n個(gè)列即是n個(gè)樣品x,x,x,它們組成來自p元總體12n&,X,,X人的樣本。觀測(cè)矩陣X的p個(gè)行變量分別是p個(gè)變量12pX,X,,X1p在n次試驗(yàn)中所取得的值。樣本協(xié)方差矩陣及相關(guān)矩陣分別為S=(s)ijpXpR=(r)ijpXp1£(x一x)(x一x)Tn一1kki=1(s,ij一';ssXiijj丿其中1y1x=_乙x,jniji=1s=-y(x-x)(x-x)ti.j=1,2,,pijn1kiikji=1利用S和R求得的樣本組成分有下述結(jié)論:設(shè)s=(s

7、)是樣本協(xié)方差矩陣,其特征值為無1無0,相應(yīng)的ijpxp12p正交單位化向量為e,e,e,這里e=(e,e,e)t,則第i個(gè)樣本主成分為12ptt1t2tpy=eTx=ex+exHFex,i=1,2,piii11i22ipp其中x=V,兀2,x»為的X的任一觀測(cè)值。當(dāng)依次代入X的n個(gè)觀測(cè)值x=C,x,,x)(k=1,2,n)時(shí),便得到第i個(gè)樣本主成分y.的n個(gè)觀測(cè)值kk1k2kpiy(k=1,2,n),此即為第i個(gè)主成分的得分。ki為消除量綱的影響,我們可以對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化,即令xxx元xx-1,2-,,i"p卞丿pp丿JsJsI51122T,i=1,2,nx*=i則標(biāo)準(zhǔn)化

8、數(shù)據(jù)的樣本協(xié)方差矩陣即為原數(shù)據(jù)的樣本相關(guān)矩陣R。由R出發(fā)所求得的樣本主成分稱為標(biāo)準(zhǔn)化祥本主成分。只要求出R的特征值及相應(yīng)的正交單位化特征向量,類似上述結(jié)果可求得標(biāo)準(zhǔn)化樣本主成分.這時(shí)標(biāo)準(zhǔn)化樣本的樣本總方差為p。實(shí)際應(yīng)用中,將樣本x(i=1,2,,n)代人各主成分中,可得到各樣本主成分的觀測(cè)值y(k=1,2,n;i=1,2,n)。ki模型求解本文通過求解樣本相關(guān)矩陣,根據(jù)累計(jì)貢獻(xiàn)率提取主成分,并對(duì)主成分的含義給出了合理解釋,最后對(duì)各國(guó)家的綜合成績(jī)進(jìn)行排名。求解相關(guān)矩陣由題中所給數(shù)據(jù),利用matlab求解,可得協(xié)方差矩陣S為(0.20470.49381.01120.49381.31982.6289

9、1.01122.62897.17340.03560.08950.26040.10920.26220.69680.27650.66561.7206、9.446923.855157.5015相關(guān)矩陣R為0.03560.10920.27659.4469、0.08950.26220.665623.85510.26040.69681.720657.50150.01170.03220.07732.56650.03220.11000.26518.84250.07730.26510.682422.58992.56658.842522.5899925.9861丿'1.00000.94990.83440.

10、72740.72800.73980.6861、0.94991.00000.85440.71990.68840.70130.68240.83440.85441.00000.89840.78460.77770.70550.72740.71990.89841.00000.89660.86450.77930.72800.68840.78460.89661.00000.96780.87630.73980.70130.77770.86450.96781.00000.8987、0.68610.68240.70550.77930.87630.89871.0000丿R的特征值及其正交單位化特征向量見表1和表2:

11、表1特征值及其貢獻(xiàn)率八九1八九2八九3八九4八九5八九6八九7特征值貢獻(xiàn)率/(%)累計(jì)貢獻(xiàn)率表2特征值對(duì)應(yīng)的正交單位化特征向量標(biāo)準(zhǔn)化ee八ee八e八e八e變量123456x*1x*2x*3x*4x*5x*6x*7樣本主成分分析由表1知前兩個(gè)標(biāo)準(zhǔn)化樣本主成分為y=0.3688x*-0.3641x*-0.3821x*-0.3849x*-0.3886x*1 12345-0.3890x*6-0.3674x*7y=-0.4855x*-0.5435x*-0.2451x*+0.1594x*+0.3618x*c2 12345+0.3489x*+0.3616x*67解出兩個(gè)主成分的累計(jì)貢獻(xiàn)率為,遠(yuǎn)遠(yuǎn)滿足要求。分

12、析上述數(shù)據(jù)兩個(gè)主成分的意義:第一主成分近似于各變量的等權(quán)重之和,它反應(yīng)了各國(guó)家和地區(qū)的運(yùn)動(dòng)員的優(yōu)秀程度。第一主成分各標(biāo)準(zhǔn)化變量前的系數(shù)全部帶負(fù)號(hào),說明各個(gè)國(guó)家或地區(qū)的徑賽項(xiàng)目上的女子紀(jì)錄越高,則該項(xiàng)紀(jì)錄上相應(yīng)的數(shù)值越低,第一主成分y越大。y的貢獻(xiàn)率達(dá)%,已能大致反映出一個(gè)國(guó)家或地區(qū)的女子運(yùn)動(dòng)員的優(yōu)11秀程度。所以對(duì)某一國(guó)家或地區(qū)而言,如果由徑賽項(xiàng)目上的女子紀(jì)錄所算出的第一主成分大,則說明這個(gè)國(guó)家或地區(qū)1984年前在7個(gè)徑賽項(xiàng)目上的女子成績(jī)高,7個(gè)徑賽項(xiàng)目上的女子運(yùn)動(dòng)員十分優(yōu)秀;反之,則說明這個(gè)國(guó)家或地區(qū)的女子運(yùn)動(dòng)員表現(xiàn)一般。第二主成分可用以度量各國(guó)家和地區(qū)在短跑和長(zhǎng)跑項(xiàng)目上的相對(duì)實(shí)力。第二組成

13、分前三個(gè)標(biāo)準(zhǔn)化變量前的系數(shù)帶負(fù)號(hào),后四個(gè)標(biāo)準(zhǔn)化變量前的系數(shù)帶正號(hào)。這說明在100米,200米,400米項(xiàng)目上的成績(jī)?cè)讲?在800米,1500米,3000米,馬拉松項(xiàng)目上的成績(jī)?cè)胶?,第二主成分y越大。因此y反映了一個(gè)國(guó)家或地區(qū)的短跑項(xiàng)目與長(zhǎng)跑項(xiàng)目的相對(duì)優(yōu)勢(shì)。所以2對(duì)某一國(guó)家或2地區(qū)而言,如果由徑賽項(xiàng)目上的女子紀(jì)錄所算出的第二主成分大,則說明這個(gè)國(guó)家或地區(qū)1984年前在短跑項(xiàng)目上的女子成績(jī)較差或在長(zhǎng)跑項(xiàng)目上的成績(jī)較好或是短跑項(xiàng)目成績(jī)較差并且長(zhǎng)跑項(xiàng)目成績(jī)較好;反之,第二主成分小,則說明這個(gè)國(guó)家或地區(qū)的女子運(yùn)動(dòng)員在短跑項(xiàng)目上的女子成績(jī)較好或在長(zhǎng)跑項(xiàng)目上的成績(jī)較差或是短跑項(xiàng)目成績(jī)較好并且長(zhǎng)跑項(xiàng)目成績(jī)較差

14、。此外,第一主成分y和第二主成分y的累計(jì)貢獻(xiàn)率大,已能反映出大部分12信息。根據(jù)這兩個(gè)量的大小,可大體判斷出一個(gè)國(guó)家或地區(qū)徑賽項(xiàng)目上的女子運(yùn)動(dòng)員的優(yōu)秀程度和徑賽上的優(yōu)勢(shì)與劣勢(shì)。各國(guó)家地區(qū)成績(jī)排名利用公式:x-xx-xj,i2.2.JsF22可先求出七個(gè)標(biāo)準(zhǔn)化變量,x.,7Js丿pp丿再利用中求第一主成分的公式y(tǒng)=-0.3688x*-0.3641x*-0.3821x*-0.3849x*-0.3886x*112345-0.3890x*6-0.3674x*7可依次得出每一個(gè)國(guó)家所對(duì)應(yīng)的y值,并按y的大小從大到小排序,得11下表3所示,并根據(jù)表中數(shù)據(jù)對(duì)主成分進(jìn)行分析:名次1國(guó)家美國(guó)y值1名次29國(guó)家y

15、值哥倫比亞2原西德30巴西3新西蘭31韓國(guó)4加拿大32百慕大5俄羅斯33中國(guó)6英國(guó)34泰國(guó)7挪威35智利8澳大利亞36中國(guó)臺(tái)北9愛爾蘭37朝鮮10意大利38盧森堡11原東德39哥斯達(dá)黎加12芬蘭40阿根廷13荷蘭41肯尼亞14捷克斯洛伐克42希臘15瑞典43馬蘭西亞16丹麥44新加坡17日本45印度18法國(guó)46緬甸19瑞士47菲律賓20葡萄牙48印度尼西亞21匈牙利49土耳其22波蘭50多米尼加23比利時(shí)51危地馬拉24奧地利52巴布亞新幾內(nèi)亞25墨西哥53庫(kù)克島26羅馬尼亞54毛里求斯27以色列55西薩摩亞28西班牙分析上表可知美國(guó)的y值最大,1為;其次為原西德,為,與美國(guó)相比,有表3基于第

16、一樣本主成分的得分對(duì)各國(guó)家和地區(qū)的排序較大差距;最小為西薩摩亞,為。名次靠前的十幾個(gè)國(guó)家,y主要集中分布在124,20,28,17這幾個(gè)數(shù)值左右;名次中等或靠后的國(guó)家,y值之間大差距大致1呈階梯狀下降。由上述分析結(jié)論可知,基于第一樣本主成分的得分對(duì)各國(guó)家和地區(qū)排序,與從原始數(shù)據(jù)中得到的直觀看法基本吻合。但從基于第一樣本主成分的得分對(duì)各國(guó)家和地區(qū)的排序表中,可以很方便地看出各個(gè)國(guó)家或地區(qū)的七個(gè)徑賽項(xiàng)目上的女子運(yùn)動(dòng)員的整體水平。而從原始數(shù)據(jù)中要得到一些結(jié)論是比較困難的。由于原始數(shù)據(jù)內(nèi)容較多,信息量龐大,難以直接有效地讀出有用的數(shù)據(jù)。轉(zhuǎn)化為基于第一樣本主成分的得分排序表后,能夠直觀的得到大部分需要的

17、信息。六、模型評(píng)價(jià)與推廣采用樣本協(xié)方差矩陣與樣本相關(guān)矩陣處理數(shù)據(jù)稱為主成分分析法,其使用簡(jiǎn)單方便,可快速對(duì)高維數(shù)據(jù)進(jìn)行降維處理,且降維后的主成分可反映原數(shù)據(jù)中絕大部分信息,也就是說能夠找到一組最佳的基于緊湊的方式來表達(dá)數(shù)據(jù)。在主成分分析法中,提取了方差較大的主成分來代表原變量,從而大大減少了數(shù)據(jù)處理的工作量。在綜合評(píng)價(jià)函數(shù)中,各主成分的權(quán)數(shù)為其貢獻(xiàn)率,它反映了該主成分包含原始數(shù)據(jù)的信息量占全部信息量的比重,這樣確定的權(quán)數(shù)較為客觀、合理(2)。但用主成分分析法處理數(shù)據(jù)時(shí),有時(shí)對(duì)提取變量的并不能給出合理的解釋,其變量不能像原始數(shù)據(jù)那樣具有準(zhǔn)確的意義,且在提取主成分時(shí)必須使主成分的累計(jì)貢獻(xiàn)率達(dá)到一個(gè)

18、較高的水平,才能得出一個(gè)較為準(zhǔn)確的結(jié)果,這就使模型本身具有局限性。主成分分析法雖然使用簡(jiǎn)單,但卻是很多領(lǐng)域里非常有利的工具,可應(yīng)用于物理中近紅外光譜的分析以及核磁共振光譜數(shù)據(jù)的分析,化學(xué)中滴定實(shí)驗(yàn)分析,以及對(duì)食品功能特性的評(píng)價(jià)。參考文獻(xiàn)1范金城,梅長(zhǎng)林.數(shù)據(jù)分析.北京:科學(xué)出版社,2002.附錄矩陣Y1=111211'Y2=24232425'Y3=5255'Y4=2222'Y5='Y6='Y7=233306'Y=Y1Y2Y3Y4Y5Y6Y7;樣本協(xié)方差矩陣>>S=cov(Y)樣本協(xié)方差矩陣的正交單位化特征向量V3和特征值U3V1,U1=eig(S)S的貢獻(xiàn)率Mz=;c=sum(z)M=z/c樣本相關(guān)矩陣>>R1=corrcoef(Y)樣本相關(guān)矩陣的正交單位化特征向量V2和特征值U2V2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論