數(shù)據(jù)分析與軟件應(yīng)用-第九講-主成份分析_第1頁
數(shù)據(jù)分析與軟件應(yīng)用-第九講-主成份分析_第2頁
數(shù)據(jù)分析與軟件應(yīng)用-第九講-主成份分析_第3頁
數(shù)據(jù)分析與軟件應(yīng)用-第九講-主成份分析_第4頁
數(shù)據(jù)分析與軟件應(yīng)用-第九講-主成份分析_第5頁
已閱讀5頁,還剩55頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第九講主成份分析主成分分析立體數(shù)據(jù)表的主成分分析2/5/20232主成分概念首先由KarlParson在1901年引進,當時只對非隨機變量來討論的。1933年Hotelling將這個概念推廣到隨機變量。在多數(shù)實際問題中,不同指標之間是有一定相關(guān)性。由于指標較多及指標間有一定的相關(guān)性,勢必增加分析問題的復雜性。主成分分析就是設(shè)法將原來指標重新組合成一組新的互相無關(guān)的幾個綜合指標來代替原來指標。同時根據(jù)實際需要從中可取幾個較少的綜合指標盡可能多地反映原來的指標的信息。2/5/20233一項十分著名的工作是美國的統(tǒng)計學家斯通(stone)在1947年關(guān)于國民經(jīng)濟的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等?!?

基本思想2/5/20234在進行主成分分析后,竟以97.4%的精度,用三新變量就取代了原17個變量。根據(jù)經(jīng)濟學知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟發(fā)展或衰退的趨勢F3。更有意思的是,這三個變量其實都是可以直接測量的。斯通將他得到的主成分與實際測量的總收入I、總收入變化率I以及時間t因素做相關(guān)分析,得到下表:2/5/20235

F1F2F3iitF11

F201

F3001

i0.995-0.0410.057l

i-0.0560.948-0.124-0.102l

t-0.369-0.282-0.836-0.414-0.11212/5/20236主成分分析是把各變量之間互相關(guān)聯(lián)的復雜關(guān)系進行簡化分析的方法。在社會經(jīng)濟的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟指標,這些指標能從不同的側(cè)面反映我們所研究的對象的特征,但在某種程度上存在信息的重疊,具有一定的相關(guān)性。

2/5/20237

主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的截面數(shù)據(jù)表進行最佳綜合簡化,也就是說,對高維變量空間進行降維處理。很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。2/5/20238(1)基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。當分析中所選擇的經(jīng)濟變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。

在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標體系的少數(shù)幾個線性組合,并且這幾個線性組合所構(gòu)成的綜合指標將盡可能多地保留原來指標變異方面的信息。這些綜合指標就稱為主成分。要討論的問題是:2/5/20239(2)選擇幾個主成分。主成分分析的目的是簡化變量,一般情況下主成分的個數(shù)應(yīng)該小于原始變量的個數(shù)。關(guān)于保留幾個主成分,應(yīng)該權(quán)衡主成分個數(shù)和保留的信息。(3)如何解釋主成分所包含的經(jīng)濟意義。2/5/202310§2數(shù)學模型與幾何解釋假設(shè)我們所討論的實際問題中,有p個指標,我們把這p個指標看作p個隨機變量,記為X1,X2,…,Xp,主成分分析就是要把這p個指標的問題,轉(zhuǎn)變?yōu)橛懻損個指標的線性組合的問題,而這些新的指標F1,F(xiàn)2,…,F(xiàn)k(k≤p),按照保留主要信息量的原則充分反映原指標的信息,并且相互獨立。2/5/202311這種由討論多個指標降為少數(shù)幾個綜合指標的過程在數(shù)學上就叫做降維。主成分分析通常的做法是,尋求原指標的線性組合Fi。2/5/202312滿足如下的條件:主成分之間相互獨立,即無重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即每個主成分的系數(shù)平方和為1。即2/5/202313?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸2/5/202314?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸?2/5/202315????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸?2/5/202316?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸???????????????????????????????????????????????????????????????2/5/202317為了方便,我們在二維空間中討論主成分的幾何意義。設(shè)有n個樣品,每個樣品有兩個觀測變量xl和x2,在由變量xl和x2所確定的二維平面中,n個樣本點所散布的情況如橢圓狀。由圖可以看出這n個樣本點無論是沿著xl軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl的方差和x2的方差定量地表示。顯然,如果只考慮xl和x2中的任何一個,那么包含在原始數(shù)據(jù)中的經(jīng)濟信息將會有較大的損失。2/5/202318如果我們將xl軸和x2軸先平移,再同時按逆時針方向旋轉(zhuǎn)角度,得到新坐標軸Fl和F2。Fl和F2是兩個新變量。2/5/202319根據(jù)旋轉(zhuǎn)變換的公式:2/5/202320旋轉(zhuǎn)變換的目的是為了使得n個樣品點在Fl軸方向上的離散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大部分信息,在研究某經(jīng)濟問題時,即使不考慮變量F2也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。2/5/202321Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的點的方差大部分都歸結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。2/5/202322§3主成分的推導及性質(zhì)

一、兩個線性代數(shù)的結(jié)論

1、若A是p階實對稱陣,則一定可以找到正交陣U,使其中是A的特征根。2/5/2023232、若上述矩陣的特征根所對應(yīng)的單位特征向量為則實對稱陣屬于不同特征根所對應(yīng)的特征向量是正交的,即有令2/5/202324

二、主成分的推導

(一)

第一主成分設(shè)X的協(xié)方差陣為由于Σx為非負定的對稱陣,則有利用線性代數(shù)的知識可得,必存在正交陣U,使得2/5/202325其中1,2,…,p為Σx的特征根,不妨假設(shè)12

…p。而U恰好是由特征根相對應(yīng)的特征向量所組成的正交陣。下面我們來看,是否由U的第一列元素所構(gòu)成為原始變量的線性組合是否有最大的方差。2/5/202326設(shè)有P維正交向量2/5/2023272/5/202328當且僅當a1=u1時,即時,有最大的方差1。因為Var(F1)=U’1xU1=1。

如果第一主成分的信息不夠,則需要尋找第二主成分。2/5/202329(二)

第二主成分在約束條件下,尋找第二主成分

因為所以則,對p維向量,有2/5/202330所以如果取線性變換:

則的方差次大。類推2/5/202331寫為矩陣形式:2/5/202332§4主成分的性質(zhì)一、均值二、方差為所有特征根之和說明主成分分析把P個隨機變量的總方差分解成為P個不相關(guān)的隨機變量的方差之和。協(xié)方差矩陣的對角線上的元素之和等于特征根之和。2/5/202333三、精度分析1)貢獻率:第i個主成分的方差在全部方差中所占比重,稱為貢獻率,反映了原來P個指標多大的信息,有多大的綜合能力。2)累積貢獻率:前k個主成分共有多大的綜合能力,用這k個主成分的方差和在全部方差中所占比重來描述,稱為累積貢獻率。2/5/202334我們進行主成分分析的目的之一是希望用盡可能少的主成分F1,F(xiàn)2,…,F(xiàn)k(k≤p)代替原來的P個指標。到底應(yīng)該選擇多少個主成分,在實際工作中,主成分個數(shù)的多少取決于能夠反映原來變量80%以上的信息量為依據(jù),即當累積貢獻率≥80%時的主成分的個數(shù)就足夠了。最常見的情況是主成分為2到3個。2/5/202335四、原始變量與主成分之間的相關(guān)系數(shù)

2/5/202336可見,和的相關(guān)的密切程度取決于對應(yīng)線性組合系數(shù)的大小。2/5/2023372/5/202338五、原始變量被主成分的提取率

前面我們討論了主成分的貢獻率和累計貢獻率,他度量了F1,F(xiàn)2,……,F(xiàn)m分別從原始變量X1,X2,……XP中提取了多少信息。那么X1,X2,……XP各有多少信息分別F1,F(xiàn)2,……,F(xiàn)m被提取了。應(yīng)該用什么指標來度量?我們考慮到當討論F1分別與X1,X2,……XP的關(guān)系時,可以討論F1分別與X1,X2,……XP的相關(guān)系數(shù),但是由于相關(guān)系數(shù)有正有負,所以只有考慮相關(guān)系數(shù)的平方。2/5/202339如果我們僅僅提出了m個主成分,則第i原始變量信息的被提取率為:是Fj能說明的第i原始變量的方差是Fj提取的第i原始變量信息的比重2/5/202340例

設(shè)的協(xié)方差矩陣為解得特征根為,,,,第一個主成分的貢獻率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻率并不小,但在本題中第一主成分不含第三個原始變量的信息,所以應(yīng)該取兩個主成分。2/5/202341Xi與F1的相關(guān)系數(shù)平方Xi與F2的相關(guān)系數(shù)平方信息提取率xi10.9250.855000.8552-0.9980.996000.9963001112/5/202342定義:如果一個主成分僅僅對某一個原始變量有作用,則稱為特殊成分。如果一個主成分所有的原始變量都起作用稱為公共成分。(該題無公共因子)2/5/202343六、載荷矩陣

2/5/202344§5主成分分析的步驟第一步:由X的協(xié)方差陣Σx,求出其特征根,即解方程,可得特征根。一、基于協(xié)方差矩陣2/5/202345第二步:求出分別所對應(yīng)的特征向量U1,U2,…,Up,第三步:計算累積貢獻率,給出恰當?shù)闹鞒煞謧€數(shù)。第四步:計算原數(shù)據(jù)在所選出的k個主成分上的得分。將原始數(shù)據(jù)的中心化值:

代入前k個主成分的表達式,分別計算出各單位k個主成分的得分,并按得分值的大小排隊。2/5/202346二、基于相關(guān)系數(shù)矩陣如果變量有不同的量綱,則必須基于相關(guān)系數(shù)矩陣進行主成分分析。不同的是計算得分時應(yīng)采用標準化后的數(shù)據(jù)。2/5/202347Spss實現(xiàn):1.analyze-descriptionstatistic-description-savestandardizedasvariables2.analyze-datareduction-factor3.指定參與分析的變量4.運行factor過程2/5/202348主成分分析在經(jīng)濟指標綜合評價中的應(yīng)用核心:通過主成分分析,選擇m個主成分y1,y2,…,ym,以每個主成分yi的方差貢獻率αi作為權(quán)數(shù),構(gòu)造綜合評價函數(shù),其中為第i個主成分的得分(求出主成分的表達式后,將標準化后的數(shù)據(jù)再代入yi中)當把m個主成分得分代入F函數(shù)后,即可得到每個樣本的綜合評價函數(shù)得分,以得分的大小排序,可排列出每個樣本的經(jīng)濟效益的名次。2/5/202349一、選用一個主成分的排序二、選用多個主成分的排序2/5/202350例一應(yīng)收賬款是指企業(yè)因?qū)ν怃N售產(chǎn)品、材料、提供勞務(wù)及其它原因,應(yīng)向購貨單位或接受勞務(wù)的單位收取的款項,包括應(yīng)收銷貨款、其它應(yīng)收款和應(yīng)收票據(jù)等。出于擴大銷售的競爭需要,企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款的時間差,于是產(chǎn)生了應(yīng)收款項。應(yīng)收款賒銷的效果的好壞,不僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,評價顧客的信用等級,了解顧客的綜合信用程度,做到“知己知彼,百戰(zhàn)不殆”,對加強企業(yè)的應(yīng)收賬款管理大有幫助。某企業(yè)為了了解其客戶的信用程度,采用西方銀行信用評估常用的5C方法,5C的目的是說明顧客違約的可能性。

2/5/2023511、品格(用X1表示),指顧客的信譽,履行償還義務(wù)的可能性。企業(yè)可以通過過去的付款記錄得到此項。2、能力(用X2表示),指顧客的償還能力。即其流動資產(chǎn)的數(shù)量和質(zhì)量以及流動負載的比率。顧客的流動資產(chǎn)越多,其轉(zhuǎn)化為現(xiàn)金支付款項的能力越強。同時,還應(yīng)注意顧客流動資產(chǎn)的質(zhì)量,看其是否會出現(xiàn)存貨過多過時質(zhì)量下降,影響其變現(xiàn)能力和支付能力。3、資本(用X3表示),指顧客的財務(wù)勢力和財務(wù)狀況,表明顧客可能償還債務(wù)的背景。4、附帶的擔保品(用X4表示),指借款人以容易出售的資產(chǎn)做抵押。5、環(huán)境條件(用X5表示),指企業(yè)的外部因素,即指非企業(yè)本身能控制或操縱的因素。

2/5/202352首先并抽取了10家具有可比性的同類企業(yè)作為樣本,又請8位專家分別給10個企業(yè)的5個指標打分,然后分別計算企業(yè)5個指標的平均值,如表。

76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9;2/5/202353TotalVariance=485.31477778EigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulativePRIN1410.506367.2420.8458540.84585PRIN243.26422.5940.0891460.93500PRIN320.67012.5990.0425910.97759PRIN48.0715.2660.0166300.99422PRIN52.805.0.0057791.00000

EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5X10.468814-.8306120.0214060.254654-.158081X20.4848760.3299160.014801-.287720-.757000X30.472744-.021174-.412719-.5885820.509213X40.4617470.430904-.2408450.7062830.210403X50.3292590.1229300.878054-.0842860.3136772/5/202354第一主成份的貢獻率為84.6%,第一主成份Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5

的各項系數(shù)大致相等,且均為正數(shù),說明第一主成份對所有的信用評價指標都有近似的載荷,是對所有指標的一個綜合測度,可以作為綜合的信用等級指標??梢杂脕砼判颉⒃紨?shù)據(jù)的值中心化后,代入第一主成份Z1的表示式,計算各企業(yè)的得分,并按分值大小排序:在正確評估了顧客的信用等級后,就能正確制定出對其的信用期、收帳政策等,這對于加強應(yīng)收帳款的管理大有幫助。序號12345678910得分3.1613.6-9.0135.925.1-10.3-4.36-33.8-6.41-13.8排序437128510692/5/202355例二基于相關(guān)系數(shù)矩陣的主成分分析。對美國紐約上市的有關(guān)化學產(chǎn)業(yè)的三個證券和石油產(chǎn)業(yè)的2個證券做了100周的收益率調(diào)查。下表是其相關(guān)系數(shù)矩陣。1)利用相關(guān)系數(shù)矩陣做主成分分析。2)決定要保留的主成分個數(shù),并解釋意義。10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.52312/5/202356EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN12.856712.047550.5713420.57134PRIN20.809160.269490.1618330.73317PRIN30.539680.088180.1079350.84111PRIN40.451500.108550.0903000.93141PRIN50.34295.0.0685901.00000EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5X10.463605-.240339-.6117050.386635-.451262X20.457108-.5093050.1781890.2064740.676223X30.470176-.2604480.335056-.662445

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論