




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第六章第六章 主成分分析主成分分析第一節(jié)第一節(jié) 引言引言 第二節(jié)第二節(jié) 主成分的幾何意義及數(shù)學主成分的幾何意義及數(shù)學 推導推導 第三節(jié)第三節(jié) 主成分的性質(zhì)主成分的性質(zhì) 第四節(jié)第四節(jié) 主成分方法應(yīng)用中應(yīng)注意主成分方法應(yīng)用中應(yīng)注意 的問題的問題 第五節(jié)第五節(jié) 實例分析與計算機實現(xiàn)實例分析與計算機實現(xiàn)第一節(jié)第一節(jié) 引言引言n多元統(tǒng)計分析處理的是多變量(多指標)問題。由于變量較多元統(tǒng)計分析處理的是多變量(多指標)問題。由于變量較多,增加了分析問題的復雜性。但在實際問題中,變量之間多,增加了分析問題的復雜性。但在實際問題中,變量之間可能存在一定的相關(guān)性,因此,多變量中可能存在信息的重可能存在一定的相關(guān)性
2、,因此,多變量中可能存在信息的重疊。人們自然希望通過克服相關(guān)性、重疊性,用較少的變量疊。人們自然希望通過克服相關(guān)性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息,這實際上是一種的大部分信息,這實際上是一種“降維降維”的思想。的思想。n主成分分析也稱主分量分析,是由主成分分析也稱主分量分析,是由hotelling于于1933年首先提年首先提出的。由于多個變量之間往往存在著一定程度的相關(guān)性。人出的。由于多個變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,從這些指標中盡可能快地們自然希望通
3、過線性組合的方式,從這些指標中盡可能快地提取信息。當?shù)谝粋€線性組合不能提取更多的信息時,再考提取信息。當?shù)谝粋€線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個快速提取的過程,慮用第二個線性組合繼續(xù)這個快速提取的過程,直到,直到所提取的信息與原指標相差不多時為止。這就是主成分分析所提取的信息與原指標相差不多時為止。這就是主成分分析的思想。一般說來,在主成分分析適用的場合,用較少的主的思想。一般說來,在主成分分析適用的場合,用較少的主成分就可以得到較多的信息量。以各個主成分為分量,就得成分就可以得到較多的信息量。以各個主成分為分量,就得到一個更低維的隨機向量;因此,通過主成分既可以降低
4、數(shù)到一個更低維的隨機向量;因此,通過主成分既可以降低數(shù)據(jù)據(jù)“維數(shù)維數(shù)”又保留了原數(shù)據(jù)的大部分信息。又保留了原數(shù)據(jù)的大部分信息。n我們知道,當一個變量只取一個數(shù)據(jù)時,這個變量(數(shù)據(jù))我們知道,當一個變量只取一個數(shù)據(jù)時,這個變量(數(shù)據(jù))提供的信息量是非常有限的,當這個變量取一系列不同數(shù)據(jù)提供的信息量是非常有限的,當這個變量取一系列不同數(shù)據(jù)時,我們可以從中讀出最大值、最小值、平均數(shù)等信息。變時,我們可以從中讀出最大值、最小值、平均數(shù)等信息。變量的變異性越大,說明它對各種場景的量的變異性越大,說明它對各種場景的“遍歷性遍歷性”越強,提越強,提供的信息就更加充分,信息量就越大。主成分分析中的信息,供的信
5、息就更加充分,信息量就越大。主成分分析中的信息,就是指標的變異性,用標準差或方差表示它。就是指標的變異性,用標準差或方差表示它。n主成分分析的數(shù)學模型是,設(shè)主成分分析的數(shù)學模型是,設(shè)p個變量構(gòu)成的個變量構(gòu)成的p維隨機向量為維隨機向量為x = (x1,xp)。對。對x作正交變換,令作正交變換,令y = tx,其中,其中t為正交陣,要求為正交陣,要求y的各分量是不相關(guān)的,并且的各分量是不相關(guān)的,并且y的第一個分的第一個分量的方差是最大的,第二個分量的方差次之,量的方差是最大的,第二個分量的方差次之,等等。,等等。為了保持信息不丟失,為了保持信息不丟失,y的各分量方差和與的各分量方差和與x的各分量方
6、差的各分量方差和相等。和相等。第二節(jié)第二節(jié) 主成分的幾何意義及數(shù)主成分的幾何意義及數(shù) 學推導學推導 一一 主成分的幾何意義主成分的幾何意義 二二 主成分的數(shù)學推導主成分的數(shù)學推導 一、主成分的幾何意義一、主成分的幾何意義n主成分分析數(shù)學模型中的正交變換,在幾何上就是作一個坐主成分分析數(shù)學模型中的正交變換,在幾何上就是作一個坐標旋轉(zhuǎn)。因此,主成分分析在二維空間中有明顯的幾何意義。標旋轉(zhuǎn)。因此,主成分分析在二維空間中有明顯的幾何意義。假設(shè)共有假設(shè)共有n個樣品,每個樣品都測量了兩個指標(個樣品,每個樣品都測量了兩個指標(x1,x2),它們大致分布在一個橢圓內(nèi)如圖),它們大致分布在一個橢圓內(nèi)如圖6.1
7、所示。事實上,所示。事實上,散點的分布總有可能沿著某一個方向略顯擴張,這個方向就散點的分布總有可能沿著某一個方向略顯擴張,這個方向就把它看作橢圓的長軸方向。顯然,在坐標系把它看作橢圓的長軸方向。顯然,在坐標系x1ox2中,單獨中,單獨看這看這n個點的分量個點的分量x1和和x2,它們沿著,它們沿著x1方向和方向和x2方向都具有方向都具有較大的離散性,其離散的程度可以分別用的較大的離散性,其離散的程度可以分別用的x1方差和方差和x2的方的方差測定。如果僅考慮差測定。如果僅考慮x1或或x2中的任何一個分量,那么包含在中的任何一個分量,那么包含在另一分量中的信息將會損失,因此,直接舍棄某個分量不是另一
8、分量中的信息將會損失,因此,直接舍棄某個分量不是“降維降維”的有效辦法。的有效辦法。圖圖6.1 主成分的幾何意義主成分的幾何意義 n n易見,易見,n個點在新坐標系下的坐標個點在新坐標系下的坐標y1和和y2幾乎不相關(guān)。稱它幾乎不相關(guān)。稱它們?yōu)樵甲兞總優(yōu)樵甲兞縳1和和x2的綜合變量,的綜合變量,n個點個點y1在軸上的方差達在軸上的方差達到最大,即在此方向上包含了有關(guān)到最大,即在此方向上包含了有關(guān)n個樣品的最大量信息。個樣品的最大量信息。因此,欲將二維空間的點投影到某個一維方向上,則選擇因此,欲將二維空間的點投影到某個一維方向上,則選擇y1軸方向能使信息的損失最小。我們稱軸方向能使信息的損失最
9、小。我們稱y1為第一主成分,稱為第一主成分,稱y2為第二主成分。第一主成分的效果與橢圓的形狀有很大的關(guān)為第二主成分。第一主成分的效果與橢圓的形狀有很大的關(guān)系,橢圓越是扁平,系,橢圓越是扁平,n個點在個點在y1軸上的方差就相對越大,在軸上的方差就相對越大,在y2軸上的方差就相對越小,用第一主成分代替所有樣品所造成軸上的方差就相對越小,用第一主成分代替所有樣品所造成的信息損失也就越小。的信息損失也就越小。 n考慮兩種極端的情形:考慮兩種極端的情形:一種是橢圓的長軸與短軸的長度相等,即橢圓變成圓,第一主一種是橢圓的長軸與短軸的長度相等,即橢圓變成圓,第一主成分只含有二維空間點的約一半信息,若僅用這一
10、個綜合變量,成分只含有二維空間點的約一半信息,若僅用這一個綜合變量,則將損失約則將損失約50的信息,這顯然是不可取的。造成它的原因是,的信息,這顯然是不可取的。造成它的原因是,原始變量原始變量x1和和x2的相關(guān)程度幾乎為零,也就是說,它們所包含的相關(guān)程度幾乎為零,也就是說,它們所包含的信息幾乎不重迭,因此無法用一個一維的綜合變量來代替。的信息幾乎不重迭,因此無法用一個一維的綜合變量來代替。另一種是橢圓扁平到了極限,變成另一種是橢圓扁平到了極限,變成y1軸上的一條線,第一主成軸上的一條線,第一主成分包含有二維空間點的全部信息,僅用這一個綜合變量代替原分包含有二維空間點的全部信息,僅用這一個綜合變
11、量代替原始數(shù)據(jù)不會有任何的信息損失,此時的主成分分析效果是非常始數(shù)據(jù)不會有任何的信息損失,此時的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍棄它當然理想的,其原因是,第二主成分不包含任何信息,舍棄它當然沒有信息損失。沒有信息損失。二、主成分的數(shù)學推導二、主成分的數(shù)學推導n n n n n n n n n 第三節(jié)第三節(jié) 主成分的性質(zhì)主成分的性質(zhì) 一一 主成分的一般性質(zhì)主成分的一般性質(zhì) 二二 主成分的方差貢獻率主成分的方差貢獻率 一、主成分的一般性質(zhì)一、主成分的一般性質(zhì) n 二、主成分的方差貢獻率二、主成分的方差貢獻率n n 第四節(jié)第四節(jié) 主成分方法應(yīng)用中應(yīng)注主成分方法應(yīng)用中
12、應(yīng)注 意的問題意的問題 一一 實際應(yīng)用中主成分分析的出發(fā)點實際應(yīng)用中主成分分析的出發(fā)點 二二 如何利用主成分分析進行綜合評價如何利用主成分分析進行綜合評價 一、實際應(yīng)用中主成分分析的出發(fā)點一、實際應(yīng)用中主成分分析的出發(fā)點n n這里我們需要進一步強調(diào)的是,從相關(guān)陣求得的主成分與協(xié)這里我們需要進一步強調(diào)的是,從相關(guān)陣求得的主成分與協(xié)差陣求得的主成分一般情況是不相同的。實際表明,這種差差陣求得的主成分一般情況是不相同的。實際表明,這種差異有時很大。我們認為,如果各指標之間的數(shù)量級相差懸殊,異有時很大。我們認為,如果各指標之間的數(shù)量級相差懸殊,特別是各指標有不同的物理量綱的話,較為合理的做法是使特別是
13、各指標有不同的物理量綱的話,較為合理的做法是使用用r代替代替。對于研究經(jīng)濟問題所涉及的變量單位大都不統(tǒng)。對于研究經(jīng)濟問題所涉及的變量單位大都不統(tǒng)一,采用一,采用r代替代替后,可以看作是用標準化的數(shù)據(jù)做分析,后,可以看作是用標準化的數(shù)據(jù)做分析,這樣使得主成分有現(xiàn)實經(jīng)濟意義,不僅便于剖析實際問題,這樣使得主成分有現(xiàn)實經(jīng)濟意義,不僅便于剖析實際問題,又可以避免突出數(shù)值大的變量。又可以避免突出數(shù)值大的變量。n 二、如何利用主成分分析進行綜合二、如何利用主成分分析進行綜合 評價評價n人們在對某個單位或某個系統(tǒng)進行綜合評價時都會遇到如何人們在對某個單位或某個系統(tǒng)進行綜合評價時都會遇到如何選擇評價指標體系和
14、如何對這些指標進行綜合的困難。一般選擇評價指標體系和如何對這些指標進行綜合的困難。一般情況下,選擇評價指標體系后通過對各指標加權(quán)的辦法來進情況下,選擇評價指標體系后通過對各指標加權(quán)的辦法來進行綜合。但是,如何對指標加權(quán)是一項具有挑戰(zhàn)性的工作。行綜合。但是,如何對指標加權(quán)是一項具有挑戰(zhàn)性的工作。指標加權(quán)的依據(jù)是指標的重要性,指標在評價中的重要性判指標加權(quán)的依據(jù)是指標的重要性,指標在評價中的重要性判斷難免帶有一定的主觀性,這影響了綜合評價的客觀性和準斷難免帶有一定的主觀性,這影響了綜合評價的客觀性和準確性。由于主成分分析能從選定的指標體系中歸納出大部分確性。由于主成分分析能從選定的指標體系中歸納出
15、大部分信息,根據(jù)主成分提供的信息進行綜合評價,不失為一個可信息,根據(jù)主成分提供的信息進行綜合評價,不失為一個可行的選擇。這個方法是根據(jù)指標間的相對重要性進行客觀加行的選擇。這個方法是根據(jù)指標間的相對重要性進行客觀加權(quán),可以避免綜合評價者的主觀影響,在實際應(yīng)用中越來越權(quán),可以避免綜合評價者的主觀影響,在實際應(yīng)用中越來越受到人們的重視。受到人們的重視。n對主成分進行加權(quán)綜合。我們利用主成分進行綜合評價時,對主成分進行加權(quán)綜合。我們利用主成分進行綜合評價時,主要是將原有的信息進行綜合,因此,要充分的利用原始變主要是將原有的信息進行綜合,因此,要充分的利用原始變量提供的信息。將主成分的權(quán)數(shù)根據(jù)它們的方
16、差貢獻率來確量提供的信息。將主成分的權(quán)數(shù)根據(jù)它們的方差貢獻率來確定,因為方差貢獻率反映了各個主成分的信息含量多少。定,因為方差貢獻率反映了各個主成分的信息含量多少。 n 第五節(jié)第五節(jié) 實例分析與計算機實現(xiàn)實例分析與計算機實現(xiàn)一一 主成分分析實例主成分分析實例 二二 利用利用spss進行主成分分析進行主成分分析 一、主成分分析實例一、主成分分析實例 n表表6.1是某市工業(yè)部門是某市工業(yè)部門13個行業(yè)的個行業(yè)的8項重要經(jīng)濟指標的數(shù)據(jù),項重要經(jīng)濟指標的數(shù)據(jù),這這8項經(jīng)濟指標分別是:項經(jīng)濟指標分別是:x1:年末固定資產(chǎn)凈值,單位:萬元;:年末固定資產(chǎn)凈值,單位:萬元;x2:職工人數(shù)據(jù),單位:人;:職工
17、人數(shù)據(jù),單位:人;x3:工業(yè)總產(chǎn)值,單位:萬元;:工業(yè)總產(chǎn)值,單位:萬元;x4:全員勞動生產(chǎn)率,單位:元:全員勞動生產(chǎn)率,單位:元/人年;人年;x5:百元固定資產(chǎn)原值實現(xiàn)產(chǎn)值,單位:元;:百元固定資產(chǎn)原值實現(xiàn)產(chǎn)值,單位:元;x6:資金利稅率,單位:資金利稅率,單位:%;x7:標準燃料消費量,單位:噸;:標準燃料消費量,單位:噸;x8:能源利用效果,單位:萬元:能源利用效果,單位:萬元/噸。噸。表表6.1 某市工業(yè)部門某市工業(yè)部門13個行業(yè)個行業(yè)8項指標項指標n我們要考慮的是:如何從這些經(jīng)濟指標出發(fā),對各工業(yè)部門我們要考慮的是:如何從這些經(jīng)濟指標出發(fā),對各工業(yè)部門進行綜合評價與排序?進行綜合評價
18、與排序?n我們先計算這些指標的主成分,然后通過主成分的大小進行我們先計算這些指標的主成分,然后通過主成分的大小進行排序。表排序。表6.2和表和表6.3分別是特征根(累計貢獻率)和特征向分別是特征根(累計貢獻率)和特征向量的信息。量的信息。n利用主成分得分進行綜合評價時,從特征向量我們可以寫出利用主成分得分進行綜合評價時,從特征向量我們可以寫出所有所有8個主成分的具體形式:個主成分的具體形式:表表6.2 特征根和累計貢獻率特征根和累計貢獻率表表6.3 特征向量特征向量表表6.4 各行業(yè)主成分得分及排序各行業(yè)主成分得分及排序n我們以特征根為權(quán),對我們以特征根為權(quán),對8個主成分進行加權(quán)綜合,得出各工
19、個主成分進行加權(quán)綜合,得出各工業(yè)部門的綜合得分,具體數(shù)據(jù)見表業(yè)部門的綜合得分,具體數(shù)據(jù)見表6.4。n綜合得分的計算公式是:綜合得分的計算公式是:根據(jù)上式可計算出各工業(yè)部門的綜合得分,并可據(jù)此排序。根據(jù)上式可計算出各工業(yè)部門的綜合得分,并可據(jù)此排序。n從上表可以看出,機器行業(yè)在該地區(qū)的綜合評價排在第一,從上表可以看出,機器行業(yè)在該地區(qū)的綜合評價排在第一,原始數(shù)據(jù)也反映出機器行業(yè)存在明顯的規(guī)模優(yōu)勢,另外從前原始數(shù)據(jù)也反映出機器行業(yè)存在明顯的規(guī)模優(yōu)勢,另外從前兩個主成分得分上看,該行業(yè)也排在第一位,同樣存在效益兩個主成分得分上看,該行業(yè)也排在第一位,同樣存在效益優(yōu)勢;而排在最后三位的分別是皮革行業(yè)、
20、電力行業(yè)和煤炭優(yōu)勢;而排在最后三位的分別是皮革行業(yè)、電力行業(yè)和煤炭行業(yè)。行業(yè)。 812128888111iiiiiiyyyy二、利用二、利用spss進行主成分分析進行主成分分析nspss沒有提供主成分分析的專用功能,只有因子分析的功沒有提供主成分分析的專用功能,只有因子分析的功能。但是因子分析和主成分分析有著密切的聯(lián)系。因子分析能。但是因子分析和主成分分析有著密切的聯(lián)系。因子分析的重要步驟的重要步驟因子的提取最常用的方法就是因子的提取最常用的方法就是“主成分法主成分法”。利用因子分析的結(jié)果,可以很容易地實現(xiàn)主成分分析。具體利用因子分析的結(jié)果,可以很容易地實現(xiàn)主成分分析。具體來講,就是利用因子載
21、荷陣和相關(guān)系數(shù)矩陣的特征根來計算來講,就是利用因子載荷陣和相關(guān)系數(shù)矩陣的特征根來計算特征向量。即:特征向量。即:n其中,其中,zij為第為第j個特征向量的第個特征向量的第i個元素;個元素;aij為因子載荷陣第為因子載荷陣第i行第行第j列的元素;列的元素;j j為第為第j個因子對應(yīng)的特征根。然后再利用個因子對應(yīng)的特征根。然后再利用計算出的特征向量來計算主成分。計算出的特征向量來計算主成分。n以下是我國以下是我國2005年第年第1、2季度分地區(qū)城鎮(zhèn)居民家庭收支基本季度分地區(qū)城鎮(zhèn)居民家庭收支基本情況。通過這個例子,介紹如何利用情況。通過這個例子,介紹如何利用spss軟件實現(xiàn)主成分軟件實現(xiàn)主成分分析。
22、分析。 ijijjaz表表6.5 分地區(qū)城鎮(zhèn)居民家庭收支基本情況分地區(qū)城鎮(zhèn)居民家庭收支基本情況 表表6.5 分地區(qū)城鎮(zhèn)居民家庭收支基本情況分地區(qū)城鎮(zhèn)居民家庭收支基本情況 (一)利用(一)利用spss進行因子分析進行因子分析n將原始數(shù)據(jù)輸入將原始數(shù)據(jù)輸入spss數(shù)據(jù)編輯窗口,將數(shù)據(jù)編輯窗口,將5個變量分別命名為個變量分別命名為x1x5。在。在spss窗口中選擇窗口中選擇analyzedata reductionfactor菜單項,調(diào)出因子分析主界面,并將變量菜單項,調(diào)出因子分析主界面,并將變量x1x5移入移入variables框中,其他均保持系統(tǒng)默認選項,單擊框中,其他均保持系統(tǒng)默認選項,單擊ok按鈕,執(zhí)行因子分析過程(關(guān)于因子分子在按鈕,執(zhí)行因子分析過程(關(guān)于因子分子在spss中實現(xiàn)中實現(xiàn)的詳細過程,參見第的詳細過程,參見第7章實例)。得到如表章實例)。得到如表6.6所示的特征根所示的特征根和方差貢獻率表和表和方差貢獻率表和表6.7所示的因子載荷陣。所示的因子載荷陣。n表表6.6中中total列為各因子對應(yīng)的特征根,本例中共提取兩個列為各因子對應(yīng)的特征根,本例中共提取兩個公因子;公因子;% of variance列為各因子的方差貢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國銻摻雜二氧化錫氧化錫行業(yè)運行動態(tài)及發(fā)展前景分析報告
- 2025-2030年中國酸奶冰淇淋市場運行狀況與投資戰(zhàn)略研究報告
- 2025-2030年中國造船板市場運行動態(tài)規(guī)劃分析報告
- 2025-2030年中國軟體家具制造行業(yè)發(fā)展現(xiàn)狀及前景趨勢分析報告
- 2025-2030年中國超高分子量聚乙烯纖維行業(yè)競爭策略規(guī)劃研究報告
- 2025-2030年中國負載均衡器行業(yè)運行態(tài)勢及發(fā)展趨勢分析報告
- 2025-2030年中國航空飛行培訓行業(yè)十三五規(guī)劃與投資戰(zhàn)略研究報告
- 2025-2030年中國糖醇市場運營狀況及發(fā)展前景分析報告
- 2025-2030年中國米香型酒市場發(fā)展現(xiàn)狀及前景趨勢分析報告
- 2025-2030年中國磷石膏行業(yè)發(fā)展?jié)摿拔磥碲厔蓊A(yù)測報告
- 【中考真題】2024年河南省普通高中招生考試歷史試卷(含答案)
- 2024版年度經(jīng)濟法基礎(chǔ)完整全套課件
- JT-T-445-2021汽車底盤測功機
- 體育科學:田徑考試考試題(三)
- 2024年4月自考03200預(yù)防醫(yī)學(二)試題
- 《研學旅行市場營銷》課件-模塊八 研學旅行促銷策略
- 糖尿病孕婦護理:案例分析
- 《過華清宮絕句(其一)》-【中職專用】高一語文(高教版2023基礎(chǔ)模塊下冊)
- (2024年)新版藥品管理法培訓課件
- 2022年4月自考00808商法試題及答案含解析
- JGJT280-2012 中小學校體育設(shè)施技術(shù)規(guī)程
評論
0/150
提交評論