數據挖掘主成分分析pca_第1頁
數據挖掘主成分分析pca_第2頁
數據挖掘主成分分析pca_第3頁
數據挖掘主成分分析pca_第4頁
數據挖掘主成分分析pca_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、主成分分析PCAPrincipal Component Analysis內容一、二、問題的提出三、主成分分析1.二維數據的例子2.PCA的幾何意義3.4.均值和協方差、 特征值和特征向量PCA的性質四、主成分分析的算法實例2五、具體實例六、 結論21.假定你是一個公司的財務經理,掌握了公司的所有數據,比如固定資產、資金、每一筆借貸的數額和期限、各種稅費、工資、原料消耗、產值、利潤、折舊、職工人數、職工的分工和教育程度等等。如果讓你介紹公司狀況,你能夠把這些指標和數字都原封不動地擺出去嗎?當然不能。實例1實例2你必須要把各個方面作出高度概括,用一兩個指標簡單明了地把情況說清楚。3PCA多特征/屬

2、性問題是經常會遇到的。特征太多,無疑會增加分析問題的難度與復雜性.在許多實際問題中,多個特征之間是具有一定的相關關系的。因此,能否在各個變量之間相關關系研究的基礎上,用較少的新特征代替原來較多的變量,而且使這些較少的新特征盡可能多地保留原來較多的特征所反映的信息?事實上,這種想法是可以實現的.主成分分析原理: 是把原來多個特征化為少數幾個特征指標的一種統計分析方法,從數學角度來看,這是一種降維處理技術。主成分分析方法就是綜合處理這種問題的一種強的方法。42.問題的提出在力求數據信息丟失最少的原則下,對高維的特征空間降維,即研究指標體系的少數幾個線性組合,并且這幾個線性組合所的綜合指標將盡可能多

3、地保留原來指標變異方面的信息。這些綜合指標就稱為主成分。要討論的問題是:(1)如何作主成分分析?當分析中所選擇的變量具有不同的量綱,變量水平差異很大,應該選擇基于相關系數矩陣的主成分分析。5各個變量之間差異很大6(2)如何確定主成分的數量。主成分分析的目的是簡化特征空間,一般情況下主成分的個數應該小于原始特征的個數。關于保留幾個主成分,應該權衡主成分個數和保留的信息。(3)如何解釋主成分所包含的幾何意義。7實例1:分析美國的統計學家斯通(Stone)在1947年關于的研究是一項十分著名的工作。他曾利用美國1929一1938年各年的數據,得到了17個反映收入與的屬性/特征要素,例如雇主補貼、消費

4、資料和生產資料、純公共息、外貿平衡等等。、凈增庫存、股息、利l 在進行主成分分析后,竟以97.4的精度,用三個新屬性就取代了原17個屬性。8根據學知識,斯通給這三個新屬性分別命名為總收入F1、總收入變化率F2和發(fā)展或的趨勢F3。更有意思的是,這三個屬性其實都是可以直接測量的。9主成分分析就是試圖在力保數據信息丟失最少的原則下,對這種多特征的數據表進行最佳綜合簡化,也就是說,對高維特征空間進行降維處理。很顯然,識辨系統在一個低要比在一個高容易得多。10實例2:成績數據100個學生的數學、物理、化學、語文、歷史、英語的成績如下表(部分)。11從本例可能提出的問題 目前的問題是,能不能把這個數據的6

5、 個屬性用12個綜合屬性來表示呢? 這一兩個綜合屬性包含有多少原來的信息呢? 能不能利用找到的綜合屬性來對學生排序呢?這一類數據所涉及的問題可以推廣到對企業(yè),對學校進行分析、排序、判別和分類等問題。123.1PCA:二維數據分析例中的的數據點是六維的;也就是說,每個觀測值是6 低中的一個點。我們希望把6 表示。用1314單科平均成績74.1747066.473.663.3平均成績73.769.861.372.577.272.36372.3701009590858075706560646668707274767880828415data M先假定數據只有二維,即只有兩個特征,它們由橫坐標和縱坐標

6、所代表; 因此每個觀測值都有相應于這兩個坐 標軸的兩個坐標值;如果這些數據形成一個橢圓形狀的點陣(這在特征的二維正態(tài)的假定下是可能的).16平移、旋轉坐標軸xF1232主成分分析的幾何解釋F2 x117.平移、旋轉坐標軸xF12主成分分析的幾何解釋F2 x1 18平移、旋轉坐標軸xF12主成分分析的幾何解釋F2 x1 19平移、旋x轉坐標軸F21F2主成分分析的幾何解釋 x1 203.2.PCA:進一步解釋橢圓有一個長軸和一個短軸。在短軸方向上,數據變化很少;在情況,短軸如果的成一-4-2024點,那只有在長軸的方向才能夠解釋這些點的變化了;這樣,由二維到一維的降維就自然完成了。21-4-20

7、24二維數據-4-202422-4-2024進一步解釋PCA當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數據的主要變化,而代表短軸的變量就描述了數據的次要變化。但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換, 使得新變量和橢圓的長短軸平行。如果長軸變量代表了數據包含的大部分信息, 就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。23進一步解釋PCA(續(xù))對于變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數數據信息的最長的幾個軸作為新變量

8、;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principal component)。24 正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。 選擇越少的主成分,降維就越好。什么是標準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議, 所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。253.3.均值和協方差、特征值和特征向量設有n個樣本,每個樣本觀測p個指標(變量):X1,X2

9、,Xn, 得到原始數據矩陣:ù1nú2n úX =êúúpn úû p´n­Xn­X1­X2-4-202426-4-20241.樣本均值MM = 1 (X + X+ X).-4-202412nn顯然,樣本均值是數據散列圖的中心.Xk= Xk- M于是 p*n 矩陣的列B具有零樣本均值,稱為平均偏差形式ùB =n û27-4-2024注意:協方差是對稱矩陣且半正定2.樣本協方差1S =BBTn -1協方差的大小在一定程度上反映了多特征之間的相關關系,但它還受

10、每種特征自身度量的影響.28·中·心····· · · ····中· 心······3.3特征值與特征向量定義若為階方陣,為數,X 為維非零向量,AX = l X則稱為的特征值,X稱為的特征向量特征向量X ¹ 0 ,特征值問題只l , X并不一定唯一;階方陣的特征值,就是使齊次線性方程組注 與方陣;(l I - A) x = 0 有非零解的值,即滿足的都是方陣的特征值l I - A =

11、0l I - A = 0稱以為未知數的一元次方程定義為的特征方程29 例1:從一個總體中隨機抽取4個樣本作三次測量,每一個樣本的觀測向量為:é1ùé 4 ùé7ùé8ù= ê8ú ,= ê4úXê úêë1úûê úêë5úû34êë1úûêë13úû計算樣本均值M和協方差矩陣S

12、以及S的特征值和特征向量.M = 1nn1åi=1SX = l XXS =BBn -1Ti30SyntaxC = cov(X)AlgorithmThe algorithm for cov is n,p = size(X);X = X - ones(n,1) * mean(X);Y = X'*X/(n-1);See Alsocorrcoef, mean, std, var31平移、旋轉坐標軸xF12F2 M x1 2014/10/1032為了方便,我們在二中討論主成分的幾何意義。設有n個樣本,每個樣本有兩個觀測特征xl和x2,在由特征xl和x2 所確定的二維平面中,n個樣本點所

13、散布的情況如橢圓狀。由圖可以看出這n個樣本點無論是沿著xl 軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl 的方差和x2 的方差定量地表示。顯然, 如果只考慮xl和x2 中的任何一個,那么包含在原始數據中的信息將會有較大的損失。2014/10/1033xl 軸和x2軸先平移,再同時如果按逆時針方向旋轉q角度,得到新坐標軸Fl和F2。Fl和F2是兩個新特征。2014/10/1034Fl,F2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關的性質,這就使得在研究復雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的個點的方差大部分都歸結在Fl軸上,而F2軸

14、上的方差很小。Fl和F2稱為原始變量x1和x2的綜合特征。F簡化了系統結構,抓住了主要。2014/10/1035§3.4PCA的性質一、兩個線性代數的結論1、若A是p階實對稱陣,則一定可以找到正交陣U,使él1ê 0LLOL00 ù0 úlU-1AU = êúM ú2ê Mê 0M0úlp ´ pëp û其中l(wèi)i ,i = 1.2.L p是A的特征根。362、若上述矩陣的特征根所對應的為 u1 ,L,up特征向量LLéu11êuu12u

15、1 p ùúuuU = (u ,L,u ) = ê2 p ú2122令1pêúMMMêuúLuuëpp ûp1p 2則實對稱陣 A 屬于不同特征根所對應的特征向量是正交的,即有U¢U = UU¢ = I37§3.4PCA的性質(續(xù))E(UT x) = UT M3、均值4、方差為所有特征根之和påVar(F ) =l + l + l= s+s+s+2222pi12p1i=1說明主成分分析把P個隨量的總方差分解成為P個不相關的隨量的方差之和。協方差矩陣S的對角

16、線上的元之和。和等于特征根383.4、精度分析1)貢獻率:第i個主成分的方差在全部方差中所占p比重,稱為貢獻率,反映了原來P個指標多大liå lii=1的信息,有多大的綜合能力。2)累積貢獻率:前k個主成分共有多大的綜合能力,用這k個主成分的方差和在全部方差中所占比重pkå liå lii=1i=1來描述,稱為累積貢獻率。39PCA常用統計量:.特征根iliåli.各成分貢獻率.前各成分累計貢獻率.特征向量各成分表達式中標準化原始變量的系數向量,就是各成分的特征向量。40我們進行主成分分析的目的之一是希望用盡可能少的主成分F1,F2,Fk(kp)代替 原

17、來的P個指標。到底應該選擇多少個主成分, 在實際工作中,主成分個數的多少取決于能夠反映原來變量80%以上的信息量為依據,即當累 積貢獻率80%時的主成分的個數就足夠了。最常見的情況是主成分為2到3個。41例 設é 13 的協方差矩陣為0ù- 250S = ê- 20úêêë 0ú2úû= 2.00 ,l3é0ù= 0.17é0.924ùl1 = 5.83,l2解得特征根為,é 0.383 ùU = ê- 0.924ú

18、= ê0ú= ê0.383úUUêúê úêë1úûêú123êë 0.000 úûêë0.000úû第一個主成分的貢獻率為5.83/ ( 5.83+2.00+0.17 )=72.875%,盡管第一個主成分的貢獻率并不小,但應該取兩個主成分。97.88%42§4主成分分析的步驟一、基于協方差矩陣)¢(l = 1,2,L,n)pl= (Xl) öS&

19、#247;jèø p´ p第一步:由X的協方差陣x,求出其特征根,即解方l1 ³ l2 ³L³ lp ³ 0。程 - lI,可得特征根= 043第二步:求出分別所對應的特征向量U1,U2,Up,U = (u ,u , ,u)Ti1i2ipi第三步:計算累積貢獻率,給出恰當的主成分個數。F = UTX,i = 1,2, ,k(k £ p)ii第四步:計算所選出的k個主成分的得分。將原始數據的中心化值:= ()T-2ip代入前k個主成分的表達式,分別計算出各成分的得分,并按得分值的大小排隊。k個主44§5PC

20、A的應用應收賬款是指企業(yè)因對外銷售、材料、提供勞務及收取的款項,包括應例其它,應向購貨或接受勞務的收銷貨款、其它應收款和應收票據等。出于擴大銷售的競爭需要,企業(yè)不得不以賒銷或其它的方式招攬顧客,由于銷售和收款的時間差,于是產生了應收款項。應收款賒銷的效果的好壞,不僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,評價顧客的信用等級,了解顧客的綜合信用程度,做到“知己知彼, 百戰(zhàn)不殆”,對加強企業(yè)的應收賬款管理大有幫助。某企業(yè)為了了解其客戶的信用程度,采用西方5C的目的是說明顧客違約的可能性。信用評估常用的5C方法,451、品格(用X1表示),指顧客的信譽,履行償還義務的可能性。企業(yè)可以通過

21、過去的付款項。得到此2、能力(用X2表示),指顧客的償還能力。即其流動資產的數量和質量以及負載的比率。顧客的資產越多,其轉化為現金支付款項的能力越強。同時,還應注意顧客資產的質量,看其是否會出現存貨過多過時質量下降,影響其變現能力和支 付能力。3、(用X3表示),指顧客的財務和財務狀況,表明顧客可能償還債務的背景。4、附帶的擔保品(用X4表示),指借款人以容易出 售的資產做抵押。5、環(huán)境條件(用X5表示),指企業(yè)的外部因素,即指非企業(yè)本身能或的因素。46首先并抽取了10家具有可比性的同類企業(yè)作為樣本,又請8位分別給10個企業(yè)的5個指標打分,然后分別計算企業(yè)5個指標的平均值,如表。4776.58

22、1.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9;Eigenvalues of the Covariance MatrixEigenvalue 410.50643.26420.6708.0712.805Difference 367.24222.59412.5995.2660. 0Proportion

23、0.8458540.0891460.0425910.0166300.005779Cumulative 0.845850.935000.977590.994221.00000PRIN1 PRIN2 PRIN3 PRIN4 PRIN5EigenvectorsPRIN10.4688140.4848760.4727440.4617470.329259PRIN2-.8306120.329916-.0211740.4309040.122930PRIN30.0214060.014801-.412719-.2408450.878054PRIN40.254654-.287720-.5885820.706283-

24、.084286PRIN5-.158081-.7570000.5092130.2104030.313677X1 X2 X3 X4 X548第一主成份的貢獻率為 84.6% , 第一主成份Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5的各項系數大致相等,且均為正數,說明第一主成份是對所有指標的一個綜合測度,可以作為 綜合的信用等級指標??梢杂脕砼判?。將原始數據的值中心化后,代入第一主成份Z1的表示式, 計算各企業(yè)的得分,并按分值大小排序:在正確評估了顧客的信用等級后,就能正確制定出對其的信用期、收帳政策等,這對于加強應收帳款的管理大有幫助。49序號123456

25、78910得分3.1613.6-9.0135.925.1-10.3- 4.36-33.8- 6.41-13.8排序43712851069例二基于相關系數矩陣的主成分分析。對美國紐約上市的有關化學產業(yè)的三個和石油產業(yè)的2個做了100周的收益率。下表是其相關系數矩陣。1) 利用相關系數矩陣做主成分分析。2) 決定要保留的主成分個數,并解釋意義。5010.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231Eigenvalues of the Correlation MatrixEigenvalue 2.856710.809160.539680.451500.34295Difference 2.047550.269490.088180.108550. 0Proportion 0.5713420.1618330.1079350.0903000.068590Cumulative 0.571340.733170.841110.931411.00000PRIN1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論