第五章 簡化數(shù)據(jù)結(jié)構(gòu)及樣本排序方法_第1頁
第五章 簡化數(shù)據(jù)結(jié)構(gòu)及樣本排序方法_第2頁
第五章 簡化數(shù)據(jù)結(jié)構(gòu)及樣本排序方法_第3頁
第五章 簡化數(shù)據(jù)結(jié)構(gòu)及樣本排序方法_第4頁
第五章 簡化數(shù)據(jù)結(jié)構(gòu)及樣本排序方法_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第五章第五章 簡化數(shù)據(jù)結(jié)構(gòu)及樣本排序方法簡化數(shù)據(jù)結(jié)構(gòu)及樣本排序方法 5.1 主成分分析的原理主成分分析的原理 主成分分析是一種把原來多個指標(biāo)化為少數(shù)幾個主成分分析是一種把原來多個指標(biāo)化為少數(shù)幾個相互獨立的綜合指標(biāo)的一種統(tǒng)計方法。相互獨立的綜合指標(biāo)的一種統(tǒng)計方法。 其目的為:其目的為:1.化簡數(shù)據(jù),化簡數(shù)據(jù), 2.揭示變量之間的關(guān)系。揭示變量之間的關(guān)系。 例如在研究土壤條件時,我們需要考慮土壤中的腐例如在研究土壤條件時,我們需要考慮土壤中的腐殖質(zhì)含量,殖質(zhì)含量,N、P、K含量等。這些指標(biāo)從不同角度說含量等。這些指標(biāo)從不同角度說明了土壤的肥力,因此希望能設(shè)計出一個綜合指標(biāo),明了土壤的肥力,因此希望

2、能設(shè)計出一個綜合指標(biāo),它一般地表示土壤的肥力,這樣既可以簡化數(shù)據(jù),又它一般地表示土壤的肥力,這樣既可以簡化數(shù)據(jù),又可以反映出土壤的內(nèi)在規(guī)律??梢苑从吵鐾寥赖膬?nèi)在規(guī)律。 實際的生產(chǎn)和科研工作中,往往存在這樣的情實際的生產(chǎn)和科研工作中,往往存在這樣的情況,況,p個變量的大部分變差能由比個變量的大部分變差能由比p小得多的小得多的k個主個主成分(特殊的線性組合)來概括。如果所考慮的問成分(特殊的線性組合)來概括。如果所考慮的問題是這種情況,那末包含在這題是這種情況,那末包含在這k個主成分中的信息個主成分中的信息與原來與原來p個變量幾乎一樣多,可以用這個變量幾乎一樣多,可以用這k個主成分代個主成分代替原

3、替原p個變量。這樣一來,由個變量。這樣一來,由p個變量的個變量的n次觀測組次觀測組成的數(shù)據(jù)就被化簡為成的數(shù)據(jù)就被化簡為k個主成分的個主成分的n次觀測數(shù)據(jù)。次觀測數(shù)據(jù)。 一、主成分分析的直觀想法一、主成分分析的直觀想法 事實上,在事實上,在p元總體中抽取了元總體中抽取了n個樣本單個樣本單元,就視為在元,就視為在p維空間中確定了維空間中確定了n個點,我個點,我們希望弄清楚這們希望弄清楚這n個點之間的關(guān)系。由于在個點之間的關(guān)系。由于在高維空間中點間關(guān)系不很直觀,如果能把高維空間中點間關(guān)系不很直觀,如果能把這些點這些點“近似地近似地”在較低的空間中表示出在較低的空間中表示出來,無疑對各種研究都有好處。

4、如何達(dá)到來,無疑對各種研究都有好處。如何達(dá)到這個目的?光就一個簡單的情況來說明思這個目的?光就一個簡單的情況來說明思路路 設(shè)在二元總體中測定了設(shè)在二元總體中測定了n個樣個樣本單元的觀測值,把此二元總體本單元的觀測值,把此二元總體的二變量記為的二變量記為x1,x2,在直角坐標(biāo)在直角坐標(biāo)系中把這系中把這n個點展成一個圖。如果個點展成一個圖。如果總體是二元正態(tài)總體,則這總體是二元正態(tài)總體,則這n個點個點y1y2x1x2圖5.1 主成分示意圖大致分布在一個橢圓內(nèi),見右圖。大致分布在一個橢圓內(nèi),見右圖。 我們將坐標(biāo)軸旋轉(zhuǎn)至我們將坐標(biāo)軸旋轉(zhuǎn)至 (y1,y2)位置位置,使使y1指向長軸方向指向長軸方向,y2

5、指向短軸方向。指向短軸方向。如果這個橢圓很扁則總的說來點之間的差異主要體現(xiàn)在如果這個橢圓很扁則總的說來點之間的差異主要體現(xiàn)在y1方向上,因此全部點在方向上,因此全部點在y坐標(biāo)系中的第一坐標(biāo),基本上代坐標(biāo)系中的第一坐標(biāo),基本上代表了這些點的分布情況。于是,我們就可以選表了這些點的分布情況。于是,我們就可以選y1為第一個為第一個綜合指標(biāo)。當(dāng)然綜合指標(biāo)。當(dāng)然y2也可以選作綜合指標(biāo),分別叫做第一主也可以選作綜合指標(biāo),分別叫做第一主分量和第二主分量分量和第二主分量 因為坐標(biāo)系(因為坐標(biāo)系(y1,y2),),或者說變量或者說變量y1,y2,是是由(由(x1,x2)經(jīng)坐標(biāo)旋轉(zhuǎn)得來,所以存在一個正交變經(jīng)坐標(biāo)旋

6、轉(zhuǎn)得來,所以存在一個正交變換換U,使使 要求要求y1,y2之間的協(xié)方差為之間的協(xié)方差為0。根據(jù)這個想法,下面給出主成分分析的數(shù)學(xué)內(nèi)容。根據(jù)這個想法,下面給出主成分分析的數(shù)學(xué)內(nèi)容。yUx y1u11x1u12x2u1pxp y2u21x1u22x2u2pxp ypup1x1up2x2uppxp 數(shù)學(xué)期望為數(shù)學(xué)期望為0的的p維變量維變量 的主成分(變量)的主成分(變量) 是指是指滿足下述二個條件的綜合變量:滿足下述二個條件的綜合變量: ) 是由是由 經(jīng)正交變換經(jīng)正交變換U得來的,即得來的,即 或者說或者說 的各分量的各分量y1,y2,yp是是 的各分量的線性組合,即的各分量的線性組合,即xyyxx

7、Uyyx二、主成分分析的數(shù)學(xué)提法二、主成分分析的數(shù)學(xué)提法)在所有的正交變換)在所有的正交變換U中,選取這樣的線性變換,中,選取這樣的線性變換, 使得使得y1具有最大方差,具有最大方差,y1與與y2獨立,且使所有與獨立,且使所有與 y1獨立的隨機(jī)變量中,獨立的隨機(jī)變量中,y2具有最大方差。具有最大方差。 y3與與y1,y2獨立,且在所有與獨立,且在所有與y1,y2獨立的隨機(jī)獨立的隨機(jī) 變量中,變量中,y3具有最大方差,如此等等。具有最大方差,如此等等。 這樣得到的這樣得到的 的各分量的各分量y1,y2,yp分別叫做分別叫做 的的第一,第二,第一,第二,第,第p主分量。主分量。 每個主分量都是每個

8、主分量都是 的各分量的線性組合,因此每個的各分量的線性組合,因此每個主分量都是一個綜合變量。主分量都是一個綜合變量。yxx下面來求這個正交變換下面來求這個正交變換 根據(jù)要求根據(jù)要求 的第的第j分量分量yj和第和第k分量分量yk應(yīng)相互獨立,并應(yīng)相互獨立,并且若且若jk時,則時,則yj的方差應(yīng)大于或等于的方差應(yīng)大于或等于yk的方差。所以的方差。所以 ppppppuuuuuuuuuU212222111211ypyD000000)(21p21:其中但因但因所以所以這是將矩陣這是將矩陣 變?yōu)閷蔷仃嚨墓阶優(yōu)閷蔷仃嚨墓?所以所以 是是 的特征值,的特征值, 的第的第j列向量或列向量或U的第的第j行向

9、量是相應(yīng)行向量是相應(yīng)于于 的單位特征向量。的單位特征向量。 這樣找出的正交變換這樣找出的正交變換U滿足滿足 的各分量相互獨立的的各分量相互獨立的要求,并且可以證明這個變換要求,并且可以證明這個變換U使得使得y1具有最大方差具有最大方差,y2是所有與是所有與y1獨立的隨機(jī)變量中具有最大方差者,獨立的隨機(jī)變量中具有最大方差者,等等。即滿足條件的要求。等等。即滿足條件的要求。UxUDxUDyD)()()( UUxDUxUD)()(或)(xDp,21)(xDUjy 實際上,我們事先無法得到實際上,我們事先無法得到 ,而只能得到它,而只能得到它的樣本方差的樣本方差 。于是在應(yīng)用中,我們是從樣本方差矩。于

10、是在應(yīng)用中,我們是從樣本方差矩陣陣 出發(fā),求一個正交變換出發(fā),求一個正交變換U將將 變成對角矩陣,即變成對角矩陣,即U應(yīng)滿足:應(yīng)滿足: 對角矩陣對角矩陣的對角線元素為的對角線元素為12p 的第的第j列向量,即列向量,即U的第的第j行向量,就是行向量,就是 相應(yīng)于相應(yīng)于j的單的單位特征向量位特征向量 由樣本方差矩陣由樣本方差矩陣 出發(fā)求出的主分量,叫做樣本出發(fā)求出的主分量,叫做樣本主分量。將各第主分量。將各第i個樣本點個樣本點 的坐標(biāo)代入到正交變換式的坐標(biāo)代入到正交變換式就可以得到各樣本點的主分量樣本點坐標(biāo)。就可以得到各樣本點的主分量樣本點坐標(biāo)。 )(xDxSxSxSUUSxUxSxxSix),

11、 2 , 1(nixUyii 注意:按數(shù)學(xué)期望為零的要求,這里注意:按數(shù)學(xué)期望為零的要求,這里 應(yīng)該是已經(jīng)應(yīng)該是已經(jīng)中心化了的數(shù)據(jù)。中心化了的數(shù)據(jù)。 按前面所說,若將按前面所說,若將n個樣本點的主坐標(biāo)組成一個樣個樣本點的主坐標(biāo)組成一個樣本資料矩陣本資料矩陣 ,則它的各分量,則它的各分量 相互相互獨立且獨立且 的樣本方差為的樣本方差為1, 的樣本方差為的樣本方差為2,yp的的樣本方差為樣本方差為p等等。等等。ix),(21nyyyYpyyy,211y2y 因為因為j是樣本點在第是樣本點在第j個主分量方向上的方差,它代個主分量方向上的方差,它代表樣本點在這個主分量方向上的分散程度。如果表樣本點在這

12、個主分量方向上的分散程度。如果j的的值很小,說明樣本點在坐標(biāo)值很小,說明樣本點在坐標(biāo)yj方向上分散程度很小這方向上分散程度很小這個主分量在分析樣本數(shù)據(jù)時所起作用不大,因而可以個主分量在分析樣本數(shù)據(jù)時所起作用不大,因而可以忽略不計。忽略不計。 j小到什么程度才算很小呢?為此定義小到什么程度才算很小呢?為此定義 為第為第j個主分量的貢獻(xiàn)率,或個主分量的貢獻(xiàn)率,或三、貢獻(xiàn)率與累積貢獻(xiàn)率三、貢獻(xiàn)率與累積貢獻(xiàn)率ppjjsss2211pjpjj, 2 , 121 因為因為j是按大小排列的是按大小排列的,所以只要前所以只要前m個個(mp)主主分量的累積貢獻(xiàn)率分量的累積貢獻(xiàn)率 接近接近1,就可將余下的,就可將

13、余下的pm個個主分量舍去。這樣一來,樣本主分量就只余下主分量舍去。這樣一來,樣本主分量就只余下m個了個了,從而達(dá)到在較低維空間中來表示本點的目的。,從而達(dá)到在較低維空間中來表示本點的目的。 一般經(jīng)驗指出,累積貢獻(xiàn)率大于一般經(jīng)驗指出,累積貢獻(xiàn)率大于0.8或或0.85即可即可mjj1四、小四、小 結(jié)結(jié) 至此,我們已經(jīng)解決了主分量的計算與選取,并且至此,我們已經(jīng)解決了主分量的計算與選取,并且達(dá)到了下述目的:達(dá)到了下述目的: )可以設(shè)計)可以設(shè)計m個綜合指標(biāo)個綜合指標(biāo)y1,y2,ym(mP)使使它們互不相關(guān);它們互不相關(guān); )原來)原來p個變量的總方差個變量的總方差s11s22spp近似等近似等于這于

14、這m個主分量的總方差個主分量的總方差12m,并使舍去的并使舍去的方差較小。在此方差較小。在此m維空間中樣本點的相對位置發(fā)生畸維空間中樣本點的相對位置發(fā)生畸變(在此變(在此m維空間中)較小。維空間中)較小。五、因子負(fù)荷量五、因子負(fù)荷量 通常取通常取m,使得累積貢獻(xiàn)率大于使得累積貢獻(xiàn)率大于0.80或或0.85,累積,累積貢獻(xiàn)率是表達(dá)貢獻(xiàn)率是表達(dá)m個主成分提取了個主成分提取了x1,x2,xp的多少的多少信息,但它沒有表達(dá)某個變量信息,但它沒有表達(dá)某個變量xi提取了多少信息,為此提取了多少信息,為此還需要另一個概念,即還需要另一個概念,即因子負(fù)荷量因子負(fù)荷量的概念:的概念: 主成分主成分yk與原分量與

15、原分量xj的相關(guān)系數(shù)的相關(guān)系數(shù)(yk,xj)稱為稱為第第j因子在第因子在第k個主成分上的負(fù)荷量,也稱因子個主成分上的負(fù)荷量,也稱因子負(fù)荷量,它反映了原變量與主分量之間的關(guān)系負(fù)荷量,它反映了原變量與主分量之間的關(guān)系 可以算出它的樣本估計值為:可以算出它的樣本估計值為: jjkjkjksuxy),( m個主成分個主成分y1,y2,ym對原變量對原變量xi的貢獻(xiàn)率的貢獻(xiàn)率vi是是xi與與y1,y2,ym相關(guān)系數(shù)相關(guān)系數(shù)(因子負(fù)荷量因子負(fù)荷量)的平方和,的平方和,即即mkiikikmkikisuxy1212),(例例5.1 設(shè)設(shè) 的協(xié)方差矩陣為的協(xié)方差矩陣為現(xiàn)求得它的特征根與相應(yīng)的特征向量為:現(xiàn)求得它

16、的特征根與相應(yīng)的特征向量為: 15.83 22.00 30.17; ; ),(321xxxx 200052021000. 0924. 0383. 011002000. 0383. 0924. 03如果我們?nèi)∫粋€主成分,貢獻(xiàn)率可達(dá)如果我們?nèi)∫粋€主成分,貢獻(xiàn)率可達(dá)5.83/(5.832.000.17)0.7287572.875%這似乎已很理想了,但如果進(jìn)一步計算每個變量的貢這似乎已很理想了,但如果進(jìn)一步計算每個變量的貢獻(xiàn)率,獻(xiàn)率, y1=0.383x1-0.924x2i(y1,Xi)10.9252-0.99830我們看到,我們看到,y1對第三個變對第三個變量的貢獻(xiàn)率為零,這是因量的貢獻(xiàn)率為零,這是

17、因為為x3與與x1,x2都不相關(guān),都不相關(guān),在在y1中一點沒有包含中一點沒有包含x3的的信息,這時僅取一個主成信息,這時僅取一個主成分就不夠了,故需再取分就不夠了,故需再取y2y2=x3 取兩個主成分取兩個主成分y1,y2,此時累積貢獻(xiàn)率達(dá)此時累積貢獻(xiàn)率達(dá) (5.832.00)/897.875%;(y1,y2)對第對第i個變量個變量xi的貢獻(xiàn)的貢獻(xiàn)vii(y1,xi)(y2,xi)vi10.9250.0000.8552-0.9980.0000.99630.0001.0001.000 在實際問題中,不同的變量往往有不同的量綱,在實際問題中,不同的變量往往有不同的量綱,而通過而通過來求主成分,首先

18、應(yīng)優(yōu)先照顧方差大的變量,來求主成分,首先應(yīng)優(yōu)先照顧方差大的變量,有時會造成很不合理的結(jié)果。有時會造成很不合理的結(jié)果。 為了消除由于量為了消除由于量 綱的不同可能帶來的一些不合理綱的不同可能帶來的一些不合理的影響,常采用將變量標(biāo)準(zhǔn)化的辦法,即的影響,常采用將變量標(biāo)準(zhǔn)化的辦法,即這時,這時, 的標(biāo)準(zhǔn)化數(shù)據(jù)的協(xié)方差陣就是的標(biāo)準(zhǔn)化數(shù)據(jù)的協(xié)方差陣就是 的的相關(guān)系數(shù)矩陣相關(guān)系數(shù)矩陣R。pixExxiiii, 2 , 1,)(),(21pxxxxx 從標(biāo)準(zhǔn)化數(shù)據(jù)出發(fā),或者說從相關(guān)矩陣從標(biāo)準(zhǔn)化數(shù)據(jù)出發(fā),或者說從相關(guān)矩陣R出發(fā)的主出發(fā)的主分量分析,在許多文獻(xiàn)中稱為分量分析,在許多文獻(xiàn)中稱為R分析。分析。 因為相

19、關(guān)矩陣因為相關(guān)矩陣R的主對角元素都是的主對角元素都是1,相,相 應(yīng)地:應(yīng)地: 所以貢獻(xiàn)率公式變成所以貢獻(xiàn)率公式變成 因子負(fù)荷公式變成因子負(fù)荷公式變成prrrppp221121pjjkjkjkuxy),(5.2 主成分分析的計算步驟及應(yīng)用主成分分析的計算步驟及應(yīng)用 根據(jù)研究目的不同,主成分分析的計算步驟和內(nèi)根據(jù)研究目的不同,主成分分析的計算步驟和內(nèi)容可以有所不同?,F(xiàn)以容可以有所不同?,F(xiàn)以R分析為例,將主要計算步驟總分析為例,將主要計算步驟總結(jié)如下,并配以數(shù)字例子:結(jié)如下,并配以數(shù)字例子: )列出觀測資料矩陣)列出觀測資料矩陣X )計算樣本相關(guān)矩陣計算樣本相關(guān)矩陣R )計算計算R的特征根和特征向量

20、的特征根和特征向量求出正交變換求出正交變換U )計算貢獻(xiàn)率及累積貢獻(xiàn)率,確定使用的主成計算貢獻(xiàn)率及累積貢獻(xiàn)率,確定使用的主成分?jǐn)?shù),建立主成分方程分?jǐn)?shù),建立主成分方程 )解釋各主成分的意義)解釋各主成分的意義 )計算各樣本的主成分坐標(biāo)計算各樣本的主成分坐標(biāo)y )計算負(fù)荷量表計算負(fù)荷量表實例實例作為研究楊樹性狀的一部分,測定作為研究楊樹性狀的一部分,測定20 株楊樹樹葉,每個葉片測定了四個變株楊樹樹葉,每個葉片測定了四個變 量量,變量名稱及測量值列于下表變量名稱及測量值列于下表 變量樣本號葉長x12/3處寬x21/3處寬x31/2處寬x4110895118110290951171103130951

21、4012541148511310851138712111061209012211478767978889466888691158411810610907510396111176084761213473104921315073110961414064958715126759690161184359521713655897518145639784191616411294201556010083平均數(shù)122.1573.45104.1590.10方差Sjj457.93205.75290.83265.79標(biāo)準(zhǔn)差sj21.39914.34417.05416.303計算樣本相關(guān)系數(shù)矩陣計算樣本相關(guān)系數(shù)矩陣R

22、,見下表見下表變量x1x2x3x4x11-0.33550.0143-0.1733x2-0.335510.08660.9577x30.01430.086610.9707x4-0.17330.95770.97071R的全部特征向量和特征根列于表中的全部特征向量和特征根列于表中主成分主成分 變量變量y1y2y3y4x10.14850.95440.2516-0.0612x2-0.5735-0.09840.77330.2519x3-0.55770.2695-0.55890.5513x4-0.58140.0824-0.1624-0.7930特征根特征根2.9201.0240.0490.007貢獻(xiàn)率貢獻(xiàn)率0

23、.7300.2560.0120.002累積貢獻(xiàn)率累積貢獻(xiàn)率0.7300.9860.9981.000得主成分方程:得主成分方程: 即即: y10.006940 x10.03998x20.03270 x3 0.03566x48.850 y20.04460 x10.00686x20.01580 x3 0.00505x47.065432115814. 05577. 05735. 01485. 0 xxxxy432120824. 02695. 00984. 09544. 0 xxxxy第一主成分是表示第一主成分是表示“葉寬葉寬”的綜合因子。的綜合因子。第二主成分主要由第二主成分主要由x1決定,它是表示決

24、定,它是表示“葉長葉長”的綜合因子。的綜合因子。第三、第四主成分是舍去的,可不作解釋。第三、第四主成分是舍去的,可不作解釋??傊?,葉片之間的主要差異為葉寬,其次為葉長總之,葉片之間的主要差異為葉寬,其次為葉長 下面計算各樣本的主成分坐標(biāo)下面計算各樣本的主成分坐標(biāo)y,只需將各樣本的只需將各樣本的觀測值代入主成分方程即得各樣本的主成分坐標(biāo)?,F(xiàn)觀測值代入主成分方程即得各樣本的主成分坐標(biāo)。現(xiàn)將其結(jié)果列入下表。將其結(jié)果列入下表。表表 樣本號樣本號主成份主成份12345678910y1-1.98-2.07-3.08-1.30-1.72-1.970.960.92-1.35-0.32y2-0.84-1.300

25、.92-0.23-0.15 0.17-1.67-1.50-0.11-1.45樣本號樣本號主成份主成份11121314151617181920y1 1.80 0.18-0.05 1.05 0.38 4.16 2.01 1.17 0.39 1.30y20.550.521.350.670.010.900.410.931.921.44 主分量主分量變量變量y1y2x10.2500.996x2-0.980-0.100 x3-0.9530.273x4-0.9930.083 按主成分坐標(biāo)把各樣點位置展在主成分坐標(biāo)圖上,就能直觀按主成分坐標(biāo)把各樣點位置展在主成分坐標(biāo)圖上,就能直觀地表現(xiàn)出樣本間的相互關(guān)系,這種圖也叫樣本排序圖。地表現(xiàn)出樣本間的相互關(guān)系,這種圖也叫樣本排序圖。 前二個主成分的負(fù)荷量,記入下面的表中。前二個主成分的負(fù)荷量,記入下面的表中。 例如,表中例如,表中980. 0)5735. 0(920. 2),(12121uxyr因子負(fù)荷量表因子

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論