![主成分分析-2課件_第1頁](http://file4.renrendoc.com/view/9a2b81ce544aa625fdec577d6f0881f9/9a2b81ce544aa625fdec577d6f0881f91.gif)
![主成分分析-2課件_第2頁](http://file4.renrendoc.com/view/9a2b81ce544aa625fdec577d6f0881f9/9a2b81ce544aa625fdec577d6f0881f92.gif)
![主成分分析-2課件_第3頁](http://file4.renrendoc.com/view/9a2b81ce544aa625fdec577d6f0881f9/9a2b81ce544aa625fdec577d6f0881f93.gif)
![主成分分析-2課件_第4頁](http://file4.renrendoc.com/view/9a2b81ce544aa625fdec577d6f0881f9/9a2b81ce544aa625fdec577d6f0881f94.gif)
![主成分分析-2課件_第5頁](http://file4.renrendoc.com/view/9a2b81ce544aa625fdec577d6f0881f9/9a2b81ce544aa625fdec577d6f0881f95.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第五章主成分分析(principal component analysis)主成分分析主成分回歸本章內(nèi)容問題來源 在處理多變量問題時,由于變量太多,變量之間往往存在著一定的相關(guān)性,。一種解決的思想:降低變量個數(shù),即用少數(shù)綜合變量代替原來變量的信息,綜合變量之間互不相關(guān)。將多個指標化為少數(shù)互相無關(guān)的綜合指標的統(tǒng)計方法叫做主成分分析或者主分量分析.1 主成分分析一 什么是主成分分析是將原來p個指標線性組合,作為新的綜合指標,分別記為F1,F2,而這些新的線性組合必須滿足:F1盡可能的反映原來指標的信息(經(jīng)典的方法是用方差來表達信息,即選取使var(F1)最大的線性組合)稱F1為第一主成分.如果F1
2、不足以代表原來p個指標的信息,再選取第二個線性組合即F2,同時要求F1已包含的信息不需要再出現(xiàn)在F2中(數(shù)學上表示為cov(F1, F2)=0). 稱F2為第二主成分.二 基本思想依次類推,可構(gòu)造出第三,第四個主成分.三 數(shù)學模型數(shù)學上的處理:將原來p個指標看作p個隨機變量:記X1,X2,Xp.再尋求這p個變量的線性組合F1,F(xiàn)2,F(xiàn)k(kp)四 幾何解釋P個變量的線性組合從幾何上看是把由X1,Xp構(gòu)成的坐標系經(jīng)旋轉(zhuǎn)產(chǎn)生的新坐標系,而新坐標軸的方向具有最大的方差.舉例說明:P=2, 有n個樣本點.在變量xl和x2 所確定的二維平面中,n個樣本點的散布情況如橢圓狀(見圖).由圖可以看出n個樣本點
3、無論是沿著xl 軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl 的方差和x2 的方差表示。如果只考慮xl和x2 中的任何一個,那么包含在原始數(shù)據(jù)中的經(jīng)濟信息將會有較大的損失。從圖上可看出:n個樣本點的波動大部分可以歸結(jié)為在Fl方向上的波動,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大部分信息,F(xiàn)2方向的波動不大.Fl,F(xiàn)2具有不相關(guān)的性質(zhì).如果橢圓是相當扁平的(x1,x2相關(guān)性越強),可以只考慮Fl方向上的波動,F(xiàn)2可以忽略不計.平移、旋轉(zhuǎn)坐標軸平移、旋轉(zhuǎn)坐標軸五 主成分的推導及性質(zhì)設(shè)X的協(xié)方差陣為由于x為非負定的對稱陣,則必存在正交陣U,使1. 第一主成分設(shè)有P維
4、正交向量 當且僅當a1 =u1時,即 時, Var(F1)=U1xU1=1.即F1有最大方差.(即第一主成分是以特征向量為系數(shù)的組合,其方差就是對應的特征值). 2. 第二主成分在約束條件 下,尋找第二主成分 事實上, 則對p維向量 ,有即取線性變換 時 的方差次大。 類推可以得到第三,第四主成分: 寫為矩陣形式:主成分的性質(zhì)1. 均值2. 方差為所有特征根之和說明主成分分析把P個隨機變量的總方差分解成為P個不相關(guān)的隨機變量的方差之和。協(xié)方差矩陣的對角線上的元素之和等于特征根之和。3.精度分析 貢獻率 第i個主成分的方差在全部方差中所占比重, 稱為貢獻率. 累積貢獻率 前k個主成分的方差和在全
5、部方差中所占 比重在實際工作中,主成分個數(shù)取決于能夠反映原來變量80%以上的信息量為依據(jù),即當累積貢獻率80%時的主成分的個數(shù)就足夠了。最常見的情況是主成分為2到3個。 可見, 和 相關(guān)的密切程度取決于對應線性組合系數(shù)的大小。 如果有m個主成分,則第i 原始變量信息的被提取率為:是Fj 能說明的第i 原始變量的方差是Fj 提取的第i 原始變量信息的比重 例 設(shè) 的協(xié)方差矩陣為 解得特征根為 , , 第一個主成分的貢獻率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻率并不小,但在本題中第一主成分不含第三個原始變量的信息,所以應該取兩個主成分。Xi與F1的相關(guān)
6、系數(shù)平方Xi與F2的相關(guān)系數(shù)平方信息提取率xi10.9250.855000.8552-0.9980.996000.996300111 定義:如果一個主成分僅僅對某一個原始變量有作用,則稱為特殊成分。 如果一個主成分對所有的原始變量都起作用稱為公共成分。 (該題無公共因子)載荷矩陣六 主成分分析的步驟在處理實際問題時,X的協(xié)方差通常是未知的,樣品有 第一步:計算X的協(xié)方差陣x的特征根,即解方程, 得特征根1. 基于協(xié)方差矩陣 第二步:求出分別所對應的特征向量U1,U2,Up, 第三步:計算累積貢獻率,給出恰當?shù)闹鞒煞謧€數(shù)。 第四步:計算所選出的k個主成分的得分。將原始數(shù)據(jù) 代入前k個主成分的表達
7、式,分別計算出各單位k個主 成分的得分,并按得分值的大小排隊。 2.基于相關(guān)系數(shù)矩陣(標準化變量的主成分) 如果變量有不同的量綱,則必須基于相關(guān)系數(shù)矩陣進行主成分分析。不同的是計算得分時應采用標準化后的數(shù)據(jù)。(標準化變量的協(xié)方差矩陣就是原始變量的相關(guān)系數(shù)矩陣) 例一 應收賬款是指企業(yè)因?qū)ν怃N售產(chǎn)品、材料、提供勞務(wù)及其它原因,應向購貨單位或接受勞務(wù)的單位收取的款項,包括應收銷貨款、其它應收款和應收票據(jù)等。出于擴大銷售的競爭需要,企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款的時間差,于是產(chǎn)生了應收款項。應收款賒銷的效果的好壞,不僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,評價
8、顧客的信用等級,了解顧客的綜合信用程度,做到“知己知彼,百戰(zhàn)不殆”,對加強企業(yè)的應收賬款管理大有幫助。某企業(yè)為了了解其客戶的信用程度,采用西方銀行信用評估常用的5C方法,5C的目的是說明顧客違約的可能性。 1、品格(用X1表示),指顧客的信譽,履行償還義務(wù)的可能性。企業(yè)可以通過過去的付款記錄得到此項。 2、能力(用X2表示),指顧客的償還能力。即其流動資產(chǎn)的數(shù)量和質(zhì)量以及流動負載的比率。顧客的流動資產(chǎn)越多,其轉(zhuǎn)化為現(xiàn)金支付款項的能力越強。同時,還應注意顧客流動資產(chǎn)的質(zhì)量,看其是否會出現(xiàn)存貨過多過時質(zhì)量下降,影響其變現(xiàn)能力和支付能力。 3、資本(用X3表示),指顧客的財務(wù)勢力和財務(wù)狀況,表明顧客
9、可能償還債務(wù)的背景。 4、附帶的擔保品(用X4表示),指借款人以容易出售的資產(chǎn)做抵押。 5、環(huán)境條件(用X5表示),指企業(yè)的外部因素,即指非企業(yè)本身能控制或操縱的因素。 首先并抽取了10家具有可比性的同類企業(yè)作為樣本,又請8位專家分別給10個企業(yè)的5個指標打分,然后分別計算企業(yè)5個指標的平均值,如表。 76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668
10、.57062.276.57069.271.764.968.9; Total Variance = 485.31477778 Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative PRIN1 410.506 367.242 0.845854 0.84585 PRIN2 43.264 22.594 0.089146 0.93500 PRIN3 20.670 12.599 0.042591 0.97759 PRIN4 8.071 5.266 0.016630 0.99422 PRIN5 2.8
11、05 . 0.005779 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.468814 -.830612 0.021406 0.254654 -.158081 X2 0.484876 0.329916 0.014801 -.287720 -.757000 X3 0.472744 -.021174 -.412719 -.588582 0.509213 X4 0.461747 0.430904 -.240845 0.706283 0.210403 X5 0.329259 0.122930 0.878054 -.084286 0.31
12、3677 第一主成份的貢獻率為84.6%,第一主成份 Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5 的各項系數(shù)大致相等,且均為正數(shù),說明第一主成份對所有的信用評價指標都有近似的載荷,是對所有指標的一個綜合測度,可以作為綜合的信用等級指標。可以用來排序。將原始數(shù)據(jù)的值中心化后,代入第一主成份Z1的表示式,計算各企業(yè)的得分,并按分值大小排序: 在正確評估了顧客的信用等級后,就能正確制定出對其的信用期、收帳政策等,這對于加強應收帳款的管理大有幫助。序號12345678910得分3.1613.6-9.0135.925.1-10.3-4.36-33.8-6.41-
13、13.8排序43712851069例二 基于相關(guān)系數(shù)矩陣的主成分分析。對美國紐約上市的有關(guān)化學產(chǎn)業(yè)的三個證券和石油產(chǎn)業(yè)的2個證券做了100周的收益率調(diào)查。下表是其相關(guān)系數(shù)矩陣。 1)利用相關(guān)系數(shù)矩陣做主成分分析。 2)決定要保留的主成分個數(shù),并解釋意義。10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231 Eigenvalues of the Correlation Matrix Eigenvalue Difference Propor
14、tion Cumulative PRIN1 2.85671 2.04755 0.571342 0.57134 PRIN2 0.80916 0.26949 0.161833 0.73317 PRIN3 0.53968 0.08818 0.107935 0.84111 PRIN4 0.45150 0.10855 0.090300 0.93141 PRIN5 0.34295 . 0.068590 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.463605 -.240339 -.611705 0.386635 -.451262 X2 0
15、.457108 -.509305 0.178189 0.206474 0.676223 X3 0.470176 -.260448 0.335056 -.662445 -.400007 X4 0.421459 0.525665 0.540763 0.472006 -.175599 X5 0.421224 0.581970 -.435176 -.382439 0.385024概括起來說,主成分分析主要有以下幾方面的應用。 1主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(mp),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m1)時,
16、這個Yl仍是使用全部X變量(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數(shù)全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。七. 主成分分析主要有以下幾方面的應用 2有時可通過因子負荷aij的結(jié)構(gòu),弄清X變量間的某些關(guān)系。 3. 多維數(shù)據(jù)的一種圖形表示方法。我們知道當維數(shù)大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量
17、中的地位。 4由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。 5用主成分分析篩選回歸變量。回歸變量的選擇有著重的實際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預報,好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果。 一項十分著名的工作是美國的統(tǒng)計學家斯通(stone)在1947年關(guān)于國民經(jīng)濟的研究。利用美國1929一1938年各年的數(shù)據(jù),他得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等。 在進行主成
18、分分析后,竟以97.4的精度,用三新變量就取代了原17個變量。根據(jù)經(jīng)濟學知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟發(fā)展或衰退的趨勢F3。更有意思的是,這三個變量其實都是可以直接測量的。斯通將他得到的主成分與實際測量的總收入I、總收入變化率I以及時間t因素做相關(guān)分析,得到下表:F1F2F3iitF11F201F3001i0.995-0.0410.057li-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.1121要討論的問題是: (1) 基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。 當分析中所選擇的經(jīng)濟變量具有不
19、同的量綱,變量水平差異很大,應該選擇基于相關(guān)系數(shù)矩陣的主成分分析。 小結(jié):在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標體系的少數(shù)幾個線性組合,并且這幾個線性組合所構(gòu)成的綜合指標將盡可能多地保留原來指標變異方面的信息。 (2) 選擇幾個主成分。主成分分析的目的是簡化變量,一般情況下主成分的個數(shù)應該小于原始變量的個數(shù)。關(guān)于保留幾個主成分,應該權(quán)衡主成分個數(shù)和保留的信息。 (3)如何解釋主成分所包含的經(jīng)濟意義。主成分回歸介紹 國際旅游外匯收入是國民收入, 國民經(jīng)濟發(fā)展的重要組成部分,影響一個國家或地區(qū)旅游收入的因素包括自然、文化、社會、經(jīng)濟、交通等多方面的因素。中國統(tǒng)計年鑒把第三
20、次產(chǎn)業(yè)劃分為12個組成部分,分別為: 一、提出問題x1:農(nóng)林牧漁服務(wù)業(yè) x2:地質(zhì)勘查水利管理業(yè)x3:交通運輸倉儲和郵電通訊業(yè) x4:批發(fā)零售貿(mào)易和餐食業(yè)x5:金融保險業(yè) x6:房地產(chǎn)業(yè) x7:社會服務(wù)業(yè) x8:衛(wèi)生體育和社會福利業(yè) x9:教育文藝和廣播 x10:科學研究和綜合藝術(shù)x11:黨政機關(guān) x12:其他行業(yè) 選自1998年我國31個省、市、自治區(qū)的數(shù)據(jù)。以旅游外匯收入(百萬美圓)為因變量。自變量的單位為億元人民幣。數(shù)據(jù)略。 InterceptCoefficients -205.236116.8459-1.75646 0.096008標準誤差t StatP-valueX Variable
21、 1-1.4004522.8676-0.061240.951842X Variable 22.67500118.575080.144010.887092X Variable 33.3008772.4645561.3393390.197128X Variable 4-0.944021.296117-0.728340.475774X Variable 5-5.50164.508593-1.220250.238117X Variable 64.0544343.9537451.0254670.318728X Variable 74.1425.0699840.816965 0.42463X Variab
22、le 8-15.364910.82589-1.419270.172905X Variable 917.367668.353372.0791210.052178X Variable 109.07888310.147280.894711 0.38275X Variable 11-10.585.610696-1.885690.075582X Variable 121.3507095.0015040.270060.790186 這個模型是不理想的,一個最嚴重的問題是多重共線性的問題。線性回歸模型的方差分析表方差來源自由度離差平方和方差F統(tǒng)計量顯著性水平回歸分析1211690140 974178.3 1
23、0.51335 8.15025E-06 殘差181667899 92661.04 總計3113358039 利用主成分的互不相關(guān)性來建立因變量與主成分的回歸,在理論上可以達到消除多重共線性。 二、主成分回歸方法原始數(shù)據(jù)觀測矩陣主成分系數(shù)矩陣主成分得分矩陣 根據(jù)最小二乘估計,則基于協(xié)方差矩陣的主成分回歸基于相關(guān)系數(shù)矩陣的主成分回歸主成分回歸系數(shù)的協(xié)方差矩陣 1、經(jīng)濟分析數(shù)據(jù)Y:進口總額 X1:GDP X2:積累總額 X3:消費總額 求進口總額與GDP、積累總額和消費總額之間的回歸方程。 三、主成分回歸的實例Analysis of Variance Sum of Mean Source DF Sq
24、uares Square F Value Pr F Model 3 204.77614 68.25871 285.61 |t| Intercept 1 -10.12799 1.21216 -8.36 F Model 2 9.88278 4.94139 379.38 |t| F1 1 0.68998 0.02552 27.03 F Model 6 498504 83084 47.22 |t| Intercept 1 386505 122516 3.15 0.0116 x1 1 13.71162 11.68424 1.17 0.2707 x2 1 0.00846 0.00461 1.84 0.09
25、95 x3 1 0.09405 0.06720 1.40 0.1952 x4 1 0.20562 0.02948 6.97 .0001 x5 1 -0.00435 0.03111 -0.14 0.8918 x6 1 -199.20213 62.67100 -3.18 0.0112 Eigenvalues of the Correlation Matrix(相關(guān)系數(shù)矩陣的特征根) Eigenvalue Difference Proportion Cumulative (特征根) ( 差值) (貢獻率) (累計貢獻率) 1 4.60337745 3.42803711 0.7672 0.7672 2
26、 1.17534035 0.97191518 0.1959 0.9631 3 0.20342517 0.18849689 0.0339 0.9970 4 0.01492828 0.01237624 0.0025 0.9995 5 0.00255204 0.00217533 0.0004 0.9999 6 0.00037671 0.0001 1.0000 Eigenvectors(特征向量) Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 x1 0.461835 0.057843 -.149120 -.792874 0.337934 -.135193 x2 0.461504 0.053211 -.277681 0.121625 -.149550 0.818485 x3 0.321317 -.595513 0.728306 -.007645 0.009235 0.107451 x4 0.201510 0.798193 0.561607 0.077255 0.024253 0.017970 x5 0.462279 -.045544 -.195985 0.58
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度建筑工程施工安全責任保險合同
- 2025年度海洋工程勞務(wù)承包合同模板
- 2025年度新能源車用鋰電池研發(fā)借款保證合同
- 氣模鼓風機項目融資計劃書
- 金華浙江金華永康市信訪局編外工作人員招聘筆試歷年參考題庫附帶答案詳解
- 金華浙江金華市技師學院招聘編外工作人員8人筆試歷年參考題庫附帶答案詳解
- 貴州2025年貴州省工業(yè)和信息化廳所屬事業(yè)單位招聘1人筆試歷年參考題庫附帶答案詳解
- 舟山浙江舟山市普陀區(qū)檔案館(區(qū)史志研究室)招聘勞務(wù)派遣工作人員筆試歷年參考題庫附帶答案詳解
- 聊城2024年山東聊城陽谷縣第二批招聘教師70人筆試歷年參考題庫附帶答案詳解
- 湛江廣東湛江市清風苑管理中心招聘事業(yè)編制工作人員10人筆試歷年參考題庫附帶答案詳解
- 中央2025年交通運輸部所屬事業(yè)單位招聘261人筆試歷年參考題庫附帶答案詳解
- 2025年上半年上半年重慶三峽融資擔保集團股份限公司招聘6人易考易錯模擬試題(共500題)試卷后附參考答案
- 特殊教育學校2024-2025學年度第二學期教學工作計劃
- 2025年技術(shù)員個人工作計劃例文(四篇)
- 勞保穿戴要求培訓
- 2024年物聯(lián)網(wǎng)安裝調(diào)試員(初級工)職業(yè)資格鑒定考試題庫(含答案)
- 工業(yè)控制系統(tǒng)應用與安全防護技術(shù)(微課版)課件 第1章 緒論
- 《設(shè)備科安全培訓》課件
- 藍色插畫風徽州印象旅游景點景區(qū)文化宣傳
- 2024年形勢與政策課件及講稿合集
- 無人機運營方案
評論
0/150
提交評論