主成分分析課件資料_第1頁
主成分分析課件資料_第2頁
主成分分析課件資料_第3頁
主成分分析課件資料_第4頁
主成分分析課件資料_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、主成分分析基本思想 多元統(tǒng)計分析處理的是多變量(多指標(biāo))問題。由于變量較多,增加了分析問題的復(fù)雜性。但在實際問題中,變量之間可能存在一定的相關(guān)性。因此,多變量中可能存在信息的重疊。人們自然希望通過克服相關(guān)性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息,這實際上是一種“降維”的思想。 主成分分析也稱主分量分析,由于多個變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,從這些指標(biāo)中盡可能快地提取信息。當(dāng)?shù)谝粋€線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個快速提取的過程,直到所提取的信息與原指標(biāo)相差不多時為止。這就是主成分分析

2、的思想。一般說來,在主成分分析適用的場合,用較少的主成分就可以得到較多的信息量。以各個主成分為分量,就得到一個更低維的隨機(jī)向量;因此,通過主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。 我們知道,當(dāng)一個變量只取一個數(shù)據(jù)時,這個變量(數(shù)據(jù))提供的信息量是非常有限的,當(dāng)這個變量取一系列不同數(shù)據(jù)時,我們可以從中讀出最大值、最小值、平均數(shù)等信息。變量的變異性越大,說明它對各種場景的“遍歷性”越強(qiáng),提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指標(biāo)的變異性,用標(biāo)準(zhǔn)差或方差表示它。 主成分分析就是設(shè)法將原來指標(biāo)重新組合成一組新的互不相關(guān)的綜合指標(biāo)。同時根據(jù)實際需要從中可取幾個較少的

3、綜合指標(biāo)來代替原來指標(biāo),這些綜合指標(biāo)要盡可能多地反映原始指標(biāo)的信息,從而達(dá)到降維的目的。主成分分析實際上是一種降維的處理方法,其中的綜合指標(biāo)也稱為主成分。 為了方便,我們在二維空間中討論主成分的幾何意義。 設(shè)有n個樣品,每個樣品有兩個觀測變量xl和x2,在由變量xl和x2 所確定的二維平面中,n個樣本點所散布的情況如橢圓狀。由圖可以看出這n個樣本點無論是沿著xl 軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl 的方差和x2 的方差定量地表示。顯然,如果只考慮xl和x2 中的任何一個,那么包含在原始數(shù)據(jù)中的信息將會有較大的損失。 2 數(shù)學(xué)模型與幾何解釋 如果我們將xl

4、軸和x2軸,同時按逆時針方向旋轉(zhuǎn)角度,得到新坐標(biāo)軸Fl和F2。Fl和F2是兩個新變量。主成分分析的幾何解釋旋轉(zhuǎn)坐標(biāo)軸 旋轉(zhuǎn)變換的目的是為了使得n個樣品點在Fl軸方向上的離 散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大 部分信息,在研究某問題時,即使不考慮變量F2也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。 Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的各點的方差大部分都?xì)w結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始

5、變量x1和x2的綜合變量。主成分分析抓住了主要矛盾,有利于問題的分析和處理。 根據(jù)旋轉(zhuǎn)變換的公式: 假設(shè)我們所討論的實際問題中,有p個指標(biāo),我們把這p個指標(biāo)看作p個隨機(jī)變量,記為X1,X2,Xp,主成分分析就是要把這p個指標(biāo)的問題,轉(zhuǎn)變?yōu)橛懻損個指標(biāo)的線性組合的問題,而這些新的指標(biāo)F1,F(xiàn)2,F(xiàn)k(kp),按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨立。數(shù)學(xué)模型主成分分析通常的做法是,尋求原指標(biāo)的線性組合Fi。滿足如下的條件:主成分之間相互獨立,即無重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即每個主成分的系數(shù)平方和為1。即3 主成分的推導(dǎo)及性質(zhì) 一、兩個線性代數(shù)的結(jié)論 1

6、、若A是p階實對稱陣,則一定可以找到正交陣U,使其中 是A的特征根。 2、若上述矩陣的特征根所對應(yīng)的單位特征向量為 則實對稱陣 屬于不同特征根所對應(yīng)的特征向量是正交的,即有令 二、主成分的推導(dǎo) 設(shè)求主成分就是找X的線性函數(shù)使得其相應(yīng)的方差盡可能的大。設(shè)協(xié)差陣x的特征根為1 2 p0,相應(yīng)的單位特征向量為由前面的線性代數(shù)定理可知當(dāng)a =u1時有因此 a =u1使var(aX)達(dá)到最大值 說明X1,X2XP的主成分就是以其協(xié)差陣的特征向量為系數(shù)的線性組合,它們互不相關(guān),其方差為協(xié)差陣的特征根。寫為矩陣形式:4 主成分的性質(zhì)一、均值二、主成分的方差和為所有特征根之和 說明主成分分析把P個隨機(jī)變量的總

7、方差分解成為P個不相關(guān)的隨機(jī)變量的方差之和。 協(xié)方差矩陣的對角線上的元素之和等于特征根之和。 三、精度分析 1)貢獻(xiàn)率:第i個主成分的方差在全部方差中所占比重 ,稱為貢獻(xiàn)率 ,反映了原來P個指標(biāo)多大的信息,有多大的綜合能力 。 2)累積貢獻(xiàn)率:前k個主成分共有多大的綜合能力,用這k個主成分的方差和在全部方差中所占比重來描述,稱為累積貢獻(xiàn)率。 我們進(jìn)行主成分分析的目的之一是希望用盡可能少的主成分F1,F(xiàn)2,F(xiàn)k(kp)代替原來的P個指標(biāo)。到底應(yīng)該選擇多少個主成分,在實際工作中,主成分個數(shù)的多少取決于能夠反映原來變量80%(85%)以上的信息量為依據(jù),即當(dāng)累積貢獻(xiàn)率80%(85%)時的主成分的個數(shù)

8、就足夠了。最常見的情況是主成分為2到3個。四、原始變量與主成分之間的相關(guān)系數(shù) 可見, 和 的相關(guān)的密切程度取決于對應(yīng)線性組合系數(shù)的大小。因子載荷矩陣五、原始變量被主成分的提取率 前面我們討論了主成分的貢獻(xiàn)率和累計貢獻(xiàn)率,他度量了F1,F(xiàn)2,F(xiàn)m分別從原始變量X1,X2,XP中提取了多少信息。那么X1,X2,XP各有多少信息分別被F1,F(xiàn)2,F(xiàn)m提取了。應(yīng)該用什么指標(biāo)來度量?我們考慮到當(dāng)討論F1分別與X1,X2,XP的關(guān)系時,可以討論F1分別與X1,X2,XP的相關(guān)系數(shù),但是由于相關(guān)系數(shù)有正有負(fù),所以只有考慮相關(guān)系數(shù)的平方。 如果我們僅僅提出了m個主成分,則第i 原始變量信息的被提取率為:是Fj

9、 能說明的第i 原始變量的方差是Fj 提取的第i 原始變量信息的比重 例 設(shè) 的協(xié)方差矩陣為 解得特征根為 , , 第一個主成分的貢獻(xiàn)率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻(xiàn)率并不小,但在本題中第一主成分不含第三個原始變量的信息,所以應(yīng)該取兩個主成分。Xi與F1的相關(guān)系數(shù)平方Xi與F2的相關(guān)系數(shù)平方信息提取率xi10.9250.855000.8552-0.9980.996000.996300111 定義:如果一個主成分僅僅對某一個原始變量有作用,則稱為特殊成分。如果一個主成分所有的原始變量都起作用稱為公共成分。(該題無公共因子)5 主成分分析的步驟

10、在實際問題中,X的協(xié)方差通常是未知的 第一步:由X的協(xié)方差陣x,求出其特征根,即解方程 ,可得特征根 。一、基于協(xié)方差矩陣 第二步:求出分別所對應(yīng)的特征向量U1,U2,Up, 第三步:計算累積貢獻(xiàn)率,給出恰當(dāng)?shù)闹鞒煞謧€數(shù)。第四步:寫出各主成分,計算所選出的k個主成分的得分。 對各主成分進(jìn)行解釋。 二、基于相關(guān)系數(shù)矩陣 如果變量有不同的量綱,則必須基于相關(guān)系數(shù)矩陣進(jìn)行主成分分析。不同的是計算得分時應(yīng)采用標(biāo)準(zhǔn)化后的數(shù)據(jù)。X是標(biāo)準(zhǔn)化后的原始數(shù)據(jù)矩陣。因子載荷陣 例一 應(yīng)收賬款是指企業(yè)因?qū)ν怃N售產(chǎn)品、材料、提供勞務(wù)及其它原因,應(yīng)向購貨單位或接受勞務(wù)的單位收取的款項,包括應(yīng)收銷貨款、其它應(yīng)收款和應(yīng)收票據(jù)

11、等。出于擴(kuò)大銷售的競爭需要,企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款的時間差,于是產(chǎn)生了應(yīng)收款項。應(yīng)收款賒銷的效果的好壞,不僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,評價顧客的信用等級,了解顧客的綜合信用程度,做到“知己知彼,百戰(zhàn)不殆”,對加強(qiáng)企業(yè)的應(yīng)收賬款管理大有幫助。某企業(yè)為了了解其客戶的信用程度,采用西方銀行信用評估常用的5C方法,5C的目的是說明顧客違約的可能性。 1、品格(用X1表示),指顧客的信譽(yù),履行償還義務(wù)的可能性。企業(yè)可以通過過去的付款記錄得到此項。 2、能力(用X2表示),指顧客的償還能力。即其流動資產(chǎn)的數(shù)量和質(zhì)量以及流動負(fù)載的比率。顧客的流動資

12、產(chǎn)越多,其轉(zhuǎn)化為現(xiàn)金支付款項的能力越強(qiáng)。同時,還應(yīng)注意顧客流動資產(chǎn)的質(zhì)量,看其是否會出現(xiàn)存貨過多過時質(zhì)量下降,影響其變現(xiàn)能力和支付能力。 3、資本(用X3表示),指顧客的財務(wù)勢力和財務(wù)狀況,表明顧客可能償還債務(wù)的背景。 4、附帶的擔(dān)保品(用X4表示),指借款人以容易出售的資產(chǎn)做抵押。 5、環(huán)境條件(用X5表示),指企業(yè)的外部因素,即指非企業(yè)本身能控制或操縱的因素。 首先并抽取了10家具有可比性的同類企業(yè)作為樣本,又請8位專家分別給10個企業(yè)的5個指標(biāo)打分,然后分別計算企業(yè)5個指標(biāo)的平均值,如表。 76.581.57675.871.78579.280.384.476.570.67367.668.

13、178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9; Total Variance = 485.31477778 Eigenvalues of the Covariance Matrix(特征值) Eigenvalue Difference Proportion Cumulative PRIN1 410.506 367.242 0.845854 0.84585 PRIN2 43.264 2

14、2.594 0.089146 0.93500 PRIN3 20.670 12.599 0.042591 0.97759 PRIN4 8.071 5.266 0.016630 0.99422 PRIN5 2.805 . 0.005779 1.00000 Eigenvectors(特征向量) PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.468814 -.830612 0.021406 0.254654 -.158081 X2 0.484876 0.329916 0.014801 -.287720 -.757000 X3 0.472744 -.021174 -.412719

15、 -.588582 0.509213 X4 0.461747 0.430904 -.240845 0.706283 0.210403 X5 0.329259 0.122930 0.878054 -.084286 0.313677 第一主成份的貢獻(xiàn)率為84.6%,第一主成份 Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5 的各項系數(shù)大致相等,且均為正數(shù),說明第一主成份對所有的信用評價指標(biāo)都有近似的載荷,是對所有指標(biāo)的一個綜合測度,可以作為綜合的信用等級指標(biāo)??梢杂脕砼判?。將原始數(shù)據(jù)的值中心化后,代入第一主成份Z1的表示式,計算各企業(yè)的得分,并按分值大小排序:

16、 在正確評估了顧客的信用等級后,就能正確制定出對其的信用期、收帳政策等,這對于加強(qiáng)應(yīng)收帳款的管理大有幫助。序號12345678910得分3.1613.6-9.0135.925.1-10.3-4.36-33.8-6.41-13.8排序43712851069例二 基于相關(guān)系數(shù)矩陣的主成分分析。對美國紐約上市的有關(guān)化學(xué)產(chǎn)業(yè)的三個證券和石油產(chǎn)業(yè)的2個證券做了100周的收益率調(diào)查。下表是其相關(guān)系數(shù)矩陣。 1)利用相關(guān)系數(shù)矩陣做主成分分析。 2)決定要保留的主成分個數(shù),并解釋意義。10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.42

17、60.3870.3890.43610.5230.4620.3220.4260.5231 Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 2.85671 2.04755 0.571342 0.57134 PRIN2 0.80916 0.26949 0.161833 0.73317 PRIN3 0.53968 0.08818 0.107935 0.84111 PRIN4 0.45150 0.10855 0.090300 0.93141 PRIN5 0.34295 . 0.

18、068590 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.463605 -.240339 -.611705 0.386635 -.451262 X2 0.457108 -.509305 0.178189 0.206474 0.676223 X3 0.470176 -.260448 0.335056 -.662445 -.400007 X4 0.421459 0.525665 0.540763 0.472006 -.175599 X5 0.421224 0.581970 -.435176 -.382439 0.385024 根據(jù)

19、主成分分析的定義及性質(zhì),我們已大體上能看出主成分分析的一些應(yīng)用。概括起來說,主成分分析主要有以下幾方面的應(yīng)用。 1主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(mp),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m1)時,這個Yl仍是使用全部X變量(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數(shù)全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。6 主成分分析主要有以下幾方面的應(yīng)用 2有時可通過因子負(fù)荷aij的結(jié)構(gòu),弄清X變量間的某些關(guān)系。 3. 多維數(shù)據(jù)的

20、一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位。 4由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。 5用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報,好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得

21、選擇最佳變量子集合的效果。1.主成分分析在民族分化研究中的應(yīng)用 在醫(yī)學(xué)遺傳學(xué)研究中,主成分分析也有很多應(yīng)用,下面是其在群體遺傳學(xué)中用于數(shù)值分類的一個實例。實例:在一個東北地區(qū)染色體遺傳學(xué)研究中,采集了中國東北地區(qū)的漢族、朝鮮族、達(dá)翰爾族、鄂溫克、蒙古族、鄂倫春、赫哲族和西北地區(qū)的漢族、錫伯族、維吾爾族、哈薩克族及朝鮮半島的朝鮮族和日本人13個人群共454名男性個體染色體16個多態(tài)性位點進(jìn)行分析,共發(fā)現(xiàn)18種單體群中的12種,依據(jù)各單體群在不同人群的分布,得到13個人群的12種單體型的雙等位基因頻率,見下表以第一、第二主成分(僅占方差的45.5% )為坐標(biāo)軸在二維平面作散點圖(見圖2),結(jié)果能使

22、得日本,維吾爾族、新疆的漢族、朝鮮半島的朝鮮族、哈薩克族獨成一類,其它人群為一類,13個人群基本按地域分開,而以第一、第二、第三主成分(占總方差的58.5%)為坐標(biāo)軸作三維散點圖(見圖3),結(jié)果基本相同,但兩者都沒能把中國的朝鮮族和朝鮮半島的朝鮮族聚為一類,這與預(yù)期的結(jié)果有所不同,我們認(rèn)為這兩個民族應(yīng)有相同的起源。出現(xiàn)這種分類結(jié)果其原因可能是由于前三個主成分雖反映了原有變量的大部分信息,但其方差累積貢獻(xiàn)率不足60%,按文獻(xiàn)3的建議仍不足夠大,當(dāng)然也不能排除這樣的遺傳學(xué)解釋:這兩個人群可能分別與其他不同的人群有基因交流。這些都需要進(jìn)一步尋找證據(jù)支持。圖中11Japanese(日本人群) 12K

23、korean(朝鮮半島的朝鮮族) 8Uygur(維吾爾族) 10X Han(新疆的漢族) 4Kazark(哈薩克族)從結(jié)果可以看出13個人群能基本按地域分開:日本人群、維吾爾族、新疆的漢族、哈薩克族都自成一族,這與主成分分析結(jié)果相同,不同的是它把中國的朝鮮族與朝鮮半島的朝鮮族聚為一類,這說明中國的朝鮮族與朝鮮半島的朝鮮族人群之間有共同的起源;也說明分層聚類分析方法在分類分析過程中損失的信息少,而主成分分析因為我們只取前三個主成分(占總方差的58.5%)做分類可能丟失了一定比例的變異信息。從分類結(jié)果我們看出兩種分類方法都使得日本人群首先獨成一族,說明日本人的單體群可能存在獨立起源;隨著分類數(shù)目增加,逐步把維吾爾族、新疆的漢族、哈薩克族各自分為一類,同時我們也發(fā)現(xiàn),東北地區(qū)的漢族( M Han)與新疆的漢族( X Han)不在一類,東北地區(qū)的漢族與其鄰近的民族(如:蒙古族)距離較近,而新疆的漢族與維吾爾族距離相對較近,這提示漢族與其鄰近地域少數(shù)民族間的基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論