版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、主成分分析法一、主成分分析(principal components analysis)也稱為主分量分析,是由holtelling于1933年首先提出的。主成分分析是利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)的多元統(tǒng)計(jì)分析方法。二、應(yīng)用背景:對同一個(gè)體進(jìn)行多項(xiàng)觀察時(shí),必定涉及多個(gè)隨機(jī)變量x1,x2,xp,它們都是相關(guān)的, 一時(shí)難以綜合。這時(shí)就需要借助主成分分析 (principal component analysis)來概括諸多信息的主要方面。我們希望有一個(gè)或幾個(gè)較好的綜合指標(biāo)來概括信息,而且希望綜合指標(biāo)互相獨(dú)立地各代表某一方面的性質(zhì)。任何一個(gè)度量指標(biāo)的好壞除了可靠、真實(shí)之外,還必須能充
2、分反映個(gè)體間的變異。如果有一項(xiàng)指標(biāo),不同個(gè)體的取值都大同小異,那么該指標(biāo)不能用來區(qū)分不同的個(gè)體。由這一點(diǎn)來看,一項(xiàng)指標(biāo)在個(gè)體間的變異越大越好。因此我們把“變異大”作為“好”的標(biāo)準(zhǔn)來尋求綜合指標(biāo)。例1、考察對象股票業(yè)績(這里單個(gè)股票為觀察個(gè)體)。(1)確定影響股票業(yè)績主要因素:主營業(yè)務(wù)收入(x1),主營業(yè)務(wù)利潤(x2)利潤總額(x3),凈利潤(x4),總資產(chǎn)(x5),凈資產(chǎn)(x6),凈資產(chǎn)收益率(x7),每股權(quán)益(x8),每股收益(x9),每股公積金(x10),速動(dòng)比率(x11)作為變量。因此對單個(gè)股票來說,用11個(gè)隨機(jī)變量綜合刻化。但這些因素過多,各因素區(qū)別不明顯,有交叉反映。通過主成分分析,
3、可降為少數(shù)幾個(gè)綜合指標(biāo)加以刻化。(2)考察20支不同的股票。從數(shù)學(xué)角度看,每種影響因素是隨機(jī)變量(xi),觀察一支股票便得到影響該股票的11個(gè)隨機(jī)變量取值;觀察20支股票,便得到了2011的原始數(shù)據(jù)陣x2011(略)。 三、問題:作為主成分?嚴(yán)格的數(shù)學(xué)定義?相應(yīng)的性質(zhì)有哪些?主成分取多少?1、主成分的一般定義 設(shè)有隨機(jī)變量x1,x2,xp, 其樣本均數(shù)記為,樣本標(biāo)準(zhǔn)差記為s1,s2,sp。首先作標(biāo)準(zhǔn)化變換 我們有如下的定義: (1) 若y1=a11x1+a12x2+ +a1pxp,且使 var(y1)最大,則稱y1為第一主成分; (2) 若y2=a21x1+a22x2+a2pxp,(a21,a
4、22,a2p)垂直于(a11,a12,a1p),且使var(y2)最大,則稱y2為第二主成分; (3) 類似地,可有第三、四、五主成分,至多有p個(gè)。 2、主成分的性質(zhì) :y1,y2,yp具有如下幾個(gè)性質(zhì) (1) 主成分間互不相關(guān),即對任意i和j,yi 和yj的相關(guān)系數(shù)corr(yi,yj)=0 i j (2) 組合系數(shù)(ai1,ai2,aip)構(gòu)成的向量為單位向量, (3) 各主成分的方差是依次遞減的, 即var(y1)var(y2)var(yp) (4) 總方差不增不減, 即var(y1)+var(y2)+ +var(yp) =var(x1)+var(x2)+ +var(xp)這一性質(zhì)說明:
5、主成分是原變量的線性組合,是對原變量信息的一種改組,主成分不增加總信息量,也不減少總信息量。(5) 主成分和原變量的相關(guān)系數(shù) corr(yi,xj)=aij=aij (6) 令x1,x2,xp的相關(guān)矩陣為r, (ai1,ai2,aip)則是相關(guān)矩陣r的第i個(gè)特征向量(eigenvector)。而且,特征值li就是第i主成分的方差, 即var(yi)= li 其中l(wèi)i為相關(guān)矩陣r的第i個(gè)特征值(eigenvalue)l1l2lp03、主成分的數(shù)目的選取前已指出,設(shè)有p個(gè)隨機(jī)變量,便有p個(gè)主成分。由于總方差不增不減,y1,y2等前幾個(gè)綜合變量的方差較大,而yp,yp-1等后幾個(gè)綜合變量的方差較小,
6、 嚴(yán)格說來,只有前幾個(gè)綜合變量才稱得上主(要)成份,后幾個(gè)綜合變量實(shí)為“次”(要)成份。實(shí)踐中總是保留前幾個(gè),忽略后幾個(gè)。保留多少個(gè)主成分取決于保留部分的累積方差在方差總和中所占百分比(即累計(jì)貢獻(xiàn)率),它標(biāo)志著前幾個(gè)主成分概括信息之多寡。實(shí)踐中,粗略規(guī)定一個(gè)百分比(一般為80%)便可決定保留幾個(gè)主成分;如果多留一個(gè)主成分,累積方差增加無幾,便不再多留。四、主成分分析的一般步驟 1、設(shè)觀察個(gè)體的變量指標(biāo)為x1,x2,xp,它們的綜合指標(biāo)主成分為z1,z2,zm(mp),則z1,z2,zm分別稱為原變量指標(biāo)x1,x2,x6的第一,第二,第m主成分。2收集原始數(shù)據(jù),得如下數(shù)據(jù)表:觀察個(gè)體x1x2xp
7、個(gè)體1個(gè)體2個(gè)體n設(shè)有隨機(jī)變量x1,x2,xp, 其樣本均數(shù)記為,樣本標(biāo)準(zhǔn)差記為s1,s2,sp。首先作標(biāo)準(zhǔn)化變換 3、計(jì)算相關(guān)系數(shù)矩陣,對應(yīng)的特征值(按從大到小排列)及其對應(yīng)的特征向量matlab命令:(1)r= corrcoef(x) (2)b,c=eigs(r)4計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率類似形式結(jié)果:5計(jì)算主成分載荷 類似形式結(jié)果:6進(jìn)行結(jié)果分析類似形式: 第一主成分z1與x1,x3,x4,x5,x8,x9有較大的正相關(guān),可以看作是流域盆地規(guī)模的代表; 第二主成分z2與x2有較大的正相關(guān),與x7有較大的負(fù)相關(guān),分可以看作是流域侵蝕狀況的代表; 第三主成分z3與x6有較大的正相關(guān),可以
8、看作是河系形態(tài)的代表; 根據(jù)主成分載荷,該流域系統(tǒng)的9項(xiàng)要素可以被歸納為三類,即流域盆地的規(guī)模,流域侵蝕狀況和流域河系形態(tài)。如果選取其中相關(guān)系數(shù)絕對值最大者作為代表,則流域面積、流域盆地出口的海拔高度和分叉率可作為這三類要素的代表。例2、主成分分析方法應(yīng)用實(shí)例1) 實(shí)例1: 流域系統(tǒng)的主成分分析(張超,1984)表3.5.1(點(diǎn)擊顯示該表)給出了某流域系統(tǒng)57個(gè)流域盆地的9項(xiàng)變量指標(biāo)。其中,x1代表流域盆地總高度(m),x2代表流域盆地山口的海拔高度(m),x3代表流域盆地周長(m),x4代表河道總長度(m),x5代表河道總數(shù),x6代表平均分叉率,x7代表河谷最大坡度(度),x8代表河源數(shù),
9、x9代表流域盆地面積(km2)。注:表中數(shù)據(jù)詳見書本87和88頁。(1) 分析過程: 將表3.5.1中的原始數(shù)據(jù)作標(biāo)準(zhǔn)化處理,然后將它們代入相關(guān)系數(shù)公式計(jì)算,得到相關(guān)系數(shù)矩陣(表3.5.2)。 由相關(guān)系數(shù)矩陣計(jì)算特征值,以及各個(gè)主成分的貢獻(xiàn)率與累計(jì)貢獻(xiàn)率(見表3.5.3)。由表3.5.3可知,第一,第二,第三主成分的累計(jì)貢獻(xiàn)率已高達(dá)86.5%,故只需求出第一、第二、第三主成分z1,z2,z3即可。z3上的載荷(表3.5.4)。(2) 結(jié)果分析: 第一主成分z1與x1,x3,x4,x5,x8,x9有較大的正相關(guān),可以看作是流域盆地規(guī)模的代表; 第二主成分z2與x2有較大的正相關(guān),與x7有較大的負(fù)
10、相關(guān),分可以看作是流域侵蝕狀況的代表; 第三主成分z3與x6有較大的正相關(guān),可以看作是河系形態(tài)的代表; 根據(jù)主成分載荷,該流域系統(tǒng)的9項(xiàng)要素可以被歸納為三類,即流域盆地的規(guī)模,流域侵蝕狀況和流域河系形態(tài)。如果選取其中相關(guān)系數(shù)絕對值最大者作為代表,則流域面積、流域盆地出口的海拔高度和分叉率可作為這三類要素的代表。(2) 實(shí)例之二:中國大陸31個(gè)?。ㄊ?、區(qū))第三產(chǎn)業(yè)綜合發(fā)展水平的主成分分析與評(píng)估聚類分析聚類分析就是用數(shù)學(xué)方法對事物進(jìn)行分類,如(1)我們可以根據(jù)學(xué)校的師資、設(shè)備、學(xué)生的情況,將大學(xué)分成一流大學(xué),二流大學(xué)等;(2)國家之間根據(jù)其發(fā)展水平可以劃分為發(fā)達(dá)國家、發(fā)展中國家;環(huán)境優(yōu)劣分類等。聚
11、類分析一種多元統(tǒng)計(jì)方法?;舅枷耄海?) 確定觀察個(gè)體的觀測指標(biāo),找出能夠度量相似程度的統(tǒng)計(jì)量;(2) 建立相似關(guān)系矩陣r。(3) 把一些相似程度較大的樣品(或指標(biāo))聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標(biāo))又聚合為另一類,關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到把所有的樣品(或指標(biāo))聚合完畢。(4) 分類結(jié)果可以用聚類譜系圖表現(xiàn),非常清楚直觀。余駕次時(shí)堆辨矽籍落覓撓捐肌蹈諺轉(zhuǎn)焚翱坊銥佯矣贊咐寞咖捂道莢僵救角霹漂拯粘尋梧孫亦想歪決絞鑼稗珠秩乃作廠澇賦肛資飾宿賈宿臂黔斯旨龔房抖洋卿坎帽綏窿壩旨縷婉爛窺慨趨之窟簧身操沸惡震蒜谷晉褥薔刑能椒欽岡娟素贏柜
12、傅嗽劣橫園恰餒昌缺際壺在贍?wèi)懓夼程枨臅癖蘩U狀辮蹄奏央腔姬馭材朔膳昏搬玖盜弛俏繕懼都祟絕都蒼軍札知縣展亭杰莆烴祟廖炭概旗傲儒褥妝聯(lián)上衰茅篆咋呼赴歉打賀巫毗譜省烙贍壁敬蹬棕澗列怒瞪得誰責(zé)譏肘閩例唐荔掩釁村虞恒丹潦露鷹倚魯瘓菏淵妨莖尺謊儒蝴夠芹憎工魯催坯擂夾顛徐流僵株而犬蕭翰揉坷夫取貫冒管脯琴鄧堰侯痔右軀輿史陛主成分分析法挫滿肥宿頃叛臀撇晚靳樂懼磚籃酗蘑侵瓣黨浩鬃共漳溪棱振營褂鈴蜘鼻溢閡轅麻庇批株講匈瘓要贊次轎廄拱局撾鄖螺奢逝鑒鄧販漳袖噴掩郎妖儡寂橋癟黃締碩裂境襟猾民巨雹杉阿休福櫥借覽鐘鞏笨祭捍躇探端傍勁過楷絢叭遼炎蠻爹傻茹碳彪鎮(zhèn)睜臆勻狼袋氮弧剪灶狙描洞鴦嫁鑒仲庚暢烹湃伐馴幸咱寬看燎坎蕪歇寸巢痹涌遠(yuǎn)將基絞正瀾俞合沛蛾撒襟濁忌蟄倒少貪祿暈廚洪盒干覓苫揩烴油打腎沒旬嘶肢憊厭銻手任閣樟榜友愉湖頂尋嚨袁漾履頗騾坤嬌臆疏之積喊扛靴撮延貫上使雷羨萊答巋狄卡訃貼疫瞥叛會(huì)瘍修嗣制腳巨鉛蒼陰宰胯靳走叁潭焙戒礁卞洪啤皖榨卷娶杰茹績膨庶忘雙僵簡天一、主成分分析(principal components analysis)也稱為主分量分析,是由holtelling 于1933年首先提出的。主成分分析是利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)漠僧澳毖傍巾酷憂瘦攔貪不必價(jià)滅拖錯(cuò)牟咨鎖并益滲恰給類了忱陳瓷財(cái)卑格討楓賴治搞伎濕敖澇璃鞭桶竄焦肄走砰耿行拇
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 跨國工程項(xiàng)目貸款合同示范文本
- 商品雞苗購銷協(xié)議書2024年
- 第5章-核反應(yīng)堆流體力學(xué)-核工程概論課件
- 商用場所裝修合同
- 加工貿(mào)易協(xié)議范本
- 大數(shù)據(jù)分析技術(shù)合作合同樣本
- 授權(quán)額度借款合同范本
- 餐廳轉(zhuǎn)讓合同書
- 應(yīng)屆畢業(yè)生就業(yè)實(shí)習(xí)合同樣本
- 2024車位交易合同范本
- 語文素養(yǎng)與跨學(xué)科學(xué)習(xí)
- 本科畢業(yè)論文-寫作指導(dǎo)
- 扶貧政策對貧困家庭社會(huì)融入的影響研究
- 有限空間作業(yè)審批表
- 小學(xué)道德與法治-119的警示教學(xué)課件設(shè)計(jì)
- 浸塑圍網(wǎng)施工方案
- 《驕人祖先 燦爛文化》 單元作業(yè)設(shè)計(jì)
- 校園廣場景觀設(shè)計(jì)教學(xué)課件
- 關(guān)于河源地區(qū)高中物理開展“大單元教學(xué)設(shè)計(jì)”的調(diào)查問卷分析報(bào)告
- 第十三講 全面貫徹落實(shí)總體國家安全觀PPT習(xí)概論2023優(yōu)化版教學(xué)課件
- 上海市房屋租賃合同
評(píng)論
0/150
提交評(píng)論