第八章地理系統(tǒng)要素關系的主成分分析_第1頁
第八章地理系統(tǒng)要素關系的主成分分析_第2頁
第八章地理系統(tǒng)要素關系的主成分分析_第3頁
第八章地理系統(tǒng)要素關系的主成分分析_第4頁
第八章地理系統(tǒng)要素關系的主成分分析_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、第八章 地理系統(tǒng)要素關系的主成分分析地理工作者在地理系統(tǒng)的區(qū)域構(gòu)成分析中,常常用多個指標來分析、比較各個地理區(qū)域的特征和“職能”,為地理區(qū)域類型的劃分和制定區(qū)域發(fā)展戰(zhàn)略提供依據(jù)。但由于指標多會增加分析問題的復雜性,能否通過某些線性組合,使原始變量減少為有代表意義的少數(shù)幾個新的變量,以少數(shù)幾個指標或“成分”來代表多數(shù)指標?這是對地理系統(tǒng)進行分析的關鍵問題。例如在環(huán)境研究中,需要對許多環(huán)境要素進行觀測;在土地資源研究中,需要對土壤樣品進行多指標的分析化驗。 而這些要素和指標之間,常存在密切關系,要考察全部要素和測試指標,常常要做大量重復的工作。例如有30測試指標,也許10多種指標即可代表。由此可見

2、減少研究的要素,使系統(tǒng)簡化,是地理學研究中的重要環(huán)節(jié)。事實上,如果復雜的地理系統(tǒng),不加以任何簡化,不抓住對地理系統(tǒng)影響的主要矛盾,要對之進行深入的研究,幾乎是不可能的。本章介紹主成分分析方法就是解決上述問題的數(shù)學方法。1 主成分分析方法原理主成分分析是把原來多個指標化為少數(shù)幾個綜合指標的一種統(tǒng)計方法,達到降維和去相關目的,既由多個變量變換為少數(shù)幾個相互獨立的綜合變量。主成分分析也稱K-L變換。因子分析不僅可以用來研究變量之間的相關關系,還可用來研究樣品之間的相關關系,通常將前者稱之為R型因子分析,后者稱之為Q型因子分析。假設有n個地理樣本,每個樣本觀測p個指標,如何從這么多指標的數(shù)據(jù)中抓住地理

3、事物的內(nèi)在規(guī)律性呢?如前所述,多數(shù)情況下,指標之間存在著相關關系,這時要弄清它們的規(guī)律須在p維空間中加以考察,這是比較麻煩的。為了克服這一困難,一個自然的想法是找比較少的綜合指標來代表原來較多的指標,而這些較少的綜合指標既能盡量多地反映原來較多指標的信息,它們彼此之間又是獨立的。綜合指標如何選取呢?通常是取原指標的線性組合,適當調(diào)它們的系數(shù),使綜合指標之間相互獨立且代表性最好。 記原來的變量指標為,綜合指標(新綜合變量)為() 即 可以要求 (單位向量)以限制取值大小,利于對比。系數(shù)由下列原則來決定: (1) 與 互相無關(獨立); (2)是的一切線性組合中方差最大者;為與不相關的的所有線性組

4、合中方差最大者; 為與都不相關的 的所有線性組合中方差最大者。 分別稱做原指標的第一,第二,第m個主成分。在總方差中占的比例最大,其余主成分所占方差比例依次遞減。 從幾何上看,找主成分的問題,就是找出p 維空間中橢球體的主軸問題,從數(shù)學上容易得到它們是的相關矩陣中m個較大特征值對應的特征向量。也就是說尋找這樣的坐標系旋轉(zhuǎn)角,使得樣本點在新坐標系中對主成分軸上的投影具有極大的方差。 主成分分析的實質(zhì)就是要求出方差協(xié)方差矩陣的特征向量及其對應的特征值,即要找出方差協(xié)方差矩陣所確定的橢球的主軸,并確定其長度。 由于提取主成分的主要原則是使方差最大,為了排除量綱、數(shù)量級的影響,對原始數(shù)據(jù)先進行標準化處

5、理(標準差標準化),這樣方差協(xié)方差矩陣即為相關系數(shù)矩陣。 計算步驟:(1) 計算相關系數(shù)矩陣R(原始數(shù)據(jù)已進行標準化處理變換,也就是方差協(xié)方差矩陣)(2) 計算特征值和特征向量 求出特征值,按大小排序然后,求出對應的特征向量 i=1,2,p(3) 計算主成分貢獻率和累積貢獻率 可以證明:的方差等于; 的方差等于; 的方差等于;主成分的貢獻率 i=1,2,p累積貢獻率 一般取累積貢獻率達85-90%的特征值 對應的主成分即可。(4) 計算主成分載荷 (i=1,2,.,p;k=1,2,m)是主成分與變量之間的相關系數(shù)(5) 計算主成分得分是標準差標準化后的數(shù)據(jù)得到主成分得分矩陣 主成分幾大性質(zhì):

6、性質(zhì)1:主成分的協(xié)方差矩陣對角陣性質(zhì)2:主成分的總方差等于原始變量的總方差: 性質(zhì)3: (i=1,2,.,p;k=1,2,m) 是主成分與變量之間的相關系數(shù)2 因子分析法對p個變量進行因子分析的目的是研究它們有哪些共同因素,哪些是特殊因素,這些因素在變量分析中起什么作用。為研究方便,設著p個變量已進行標準差標準化變換,記為,或表示為向量形式。 上述的p個因子(變量)會有一些共同因素,這些共同因素稱為公共因子,記為(公共因子數(shù)目m通常要比原因子個數(shù)p要少),也可記為向量形式。對每一因子,除了可以有一些公共因素的部分外,還有一些自身特殊因素,稱為特殊因子。因而因子模型可表示為下面形式:對第k個因子

7、有式中稱為m個公共因子的荷載,為第k個因子的特殊部分。U為特殊因子向量,記為因子模型的向量形式為 式中矩陣A為因子荷載,記為為求得矩陣A,對模型還要作些假定(樣本容量為n):(1)公共因子部分與特殊因子部分是無關的 (2) 公共因子是標準化變量,不同公共因子之間無關,即公共因子之間的協(xié)方差矩陣為單位陣 (3) 各特殊因子之間是無關的,第個特殊因子的方差為,它們的協(xié)方差陣為 在上述假定下,個變量之間的相關陣可表為由上述假定上述矩陣中的第行第列元素為 該式表明第個變量的方差可表示為公共性部分的方差和特殊性部分的方差之和。記公共性部分的方差為 稱為第個變量的公共性,它反映了第個變量被公共因子所解釋的

8、那部分方差。 從幾何意義上來說,因子模型中的因子荷載可看成為第個變量在個公共因子空間中第個因子軸上的投影,變量數(shù)據(jù)可看成為在該空間中的一個向量;可看成為第個變量在該空間中的向量長度的平方。作了標準化處理,與的協(xié)方差就是第個變量與第個公共因子之間的相關系數(shù)。即由以上假定得知經(jīng)常地,對F進行正交變換后,得到新矩陣的各分量仍然不相關,各自方差仍然為1(斜交變換后不能保證各分量獨立性,各自方差也不為1)。旋轉(zhuǎn)以后得到的因子,有時它的實際意義比較明顯。例如,可經(jīng)旋轉(zhuǎn)變換,使得荷載矩陣中的每一行的數(shù)值盡可能兩極化(接近1或0),這樣有利于發(fā)現(xiàn)公因子的實際意義。例子: 以各個城市第三產(chǎn)業(yè)發(fā)展水平評價為例:選

9、用20個指標:人口數(shù) :GDP :第三產(chǎn)業(yè)增加值 :貨用總量:批、零、貿(mào)商品銷售總額 :外貿(mào)收購總額 :年末銀行貸款總額 :社會零售的物價指數(shù) :實際利用外資 :萬名職工中科技人員的人數(shù):旅游外匯收入 :第三產(chǎn)業(yè)就業(yè)比例 :郵電業(yè)務總量:職工人均工資 :人口數(shù)人均居住面積 :用水普及率 :煤氣普及率:人均道路面積 :人均公共綠地面積 :政策體制對上述指標進行因子分析,從旋轉(zhuǎn)后因子荷載矩陣來看,五個因子意義比較明確,也就是將五個因子分成五大類:1、 第三產(chǎn)業(yè)的基本經(jīng)濟因子 2、 基礎環(huán)境因子 3、 政策性因子 4、 人員素質(zhì)因子 5、 補充因子3 典型相關分析典型相關分析是研究兩組變量之間相關關

10、系的一種多元統(tǒng)計方法。它能夠揭示出兩組變量之間的內(nèi)在聯(lián)系。一元統(tǒng)計分析中,(偏)相關系數(shù)來衡量兩個隨機變量的線性相關關系;用復相關系數(shù)來衡量一個隨機變量與多個隨機變量的線性相關關系。不能用于研究兩組變量之間相關關系。比如生理指標與訓練指標的關系、居民生活環(huán)境與健康狀況的關系、人口統(tǒng)計變量與消費變量之間的關系等。 典型相關分析由霍特林提出,其基本思想與主成分分析非常相似。首先在每組變量中找出變量的線性組合,使得兩組的線性組合之間具有最大的相關系數(shù)。然后選取和 最初挑選的這對線性組合不相關的線性組合,使其配對,并選取相關系數(shù)最大的一對,如此繼續(xù)下去,直到兩組變量之間的 相關性被提出完畢為止。被選取

11、的線性組合配對稱為典型變量,它們的相關系數(shù)稱為典型相關系數(shù)。典型相關系數(shù)度量了這兩組變量之間聯(lián)系的強度。 4 對應(相應)分析對應分析是R型因子分析與Q型因子分析的結(jié)合,它也是利用降維的思想以達到簡化數(shù)據(jù)結(jié)構(gòu)的目的,不過,與因子分析不同的是,它同時對數(shù)據(jù)表中的行與列進行處理,尋求以低維圖形表示數(shù)據(jù)表中行與列之間的關系。對應分析的思想首先由理查森(Richardson)和庫德(Kuder)在1933年提出,后來法國統(tǒng)計學家讓一保羅貝內(nèi)澤(JeanPaul Benzkcri)和日本統(tǒng)計學家林知己夫(HayashiChikio)對該方法進行了詳細的論述而使其得到了發(fā)展。對應分析方法廣泛用于對由屬性變

12、量構(gòu)成的列聯(lián)表數(shù)據(jù)的研究,利用對應分析可以在一張二維圖上同時畫出屬性變量不同取值的情況,列聯(lián)表的每一行及每一列均以二維圖上的一個點來表示,以直觀、簡潔的形式描述屬性變量各種狀態(tài)之間的相互關系及不同屬性變量之間的相互關系。 由于對應分析是在R型因子分析和Q型因子分析基礎上發(fā)展起來的一種多元統(tǒng)計分析方法,它把兩種因子分析結(jié)合起來,對變量和樣品統(tǒng)一進行分析研究,因而更有利于地質(zhì)學等一些領域解釋應用。 如前所述,兩種因子分析都可以用少數(shù)幾個公因子去提取研究對象的絕大部分信息,因而,不僅簡化了原有的觀測系統(tǒng),抓住了控制原有觀測數(shù)據(jù)的主要矛盾,而且通過研究公因子的特征,比較容易揭示研究對象在成因上或空間上

13、的聯(lián)系,也就便于直接進行地質(zhì)解釋和邏輯推斷。但是,R型因子分析與Q型因子分析把變量與樣品孤立起來分析,割斷了它們的聯(lián)系,這將會漏掉許多有用的地質(zhì)信息。事實上,對于同一個地質(zhì)問題,往往需要同時研究地質(zhì)成因和不同類型樣品的地質(zhì)特征,前者要通過對樣品的研究,而后者則是通過對變量的分析,才能得到合理的地質(zhì)解釋。這說明兩種因子分析是同一問題的不可分割的兩個部分。另外,樣品的數(shù)目一般遠遠大于變量的數(shù)目,在進行Q型因子分析時,樣品的相似矩陣占用大量的內(nèi)存,這對于一般的微型計算機來說是難以勝任的。還有一個問題就是不能對變量和樣品用同一種標準化方法進行處理,這就給尋找R型與Q型因子分析之間的聯(lián)系帶來了困難。鑒于

14、上述原因,在R型因子分析和Q型因子分析的基礎上產(chǎn)生了對應分析。它的主要優(yōu)點是可由R型因子分析的結(jié)果,很容易地導出Q型因子分析結(jié)果,從而克服了Q型因子分析受計算機內(nèi)存容量的限制并提高了計算速度,更重要的是把變量和樣品反映在同一個因子空間中,便于對變量與樣品統(tǒng)一進行地質(zhì)解釋和推斷。對應分析也叫相應分析,其特點是它所研究的變量可以是定性的。通常意義下的相應分析,是指對兩個定性變量(因素)的多種水平進行相應性研究。在社會、經(jīng)濟以及其他領域中,進行數(shù)據(jù)分析時經(jīng)常要處理因素與因素之間的關系,及因素內(nèi)部各個水平之間的相互關系。例如,評價某一行業(yè)所屬企業(yè)的經(jīng)濟效益,我們不僅要研究因素A,即企業(yè)按經(jīng)濟效益好壞的

15、分類情況,以及要研究因素B,即經(jīng)濟效益指標之間的關系,還要研究哪些企業(yè)與哪些經(jīng)濟效益指標更密切一些。這就需要用相應分析的方法,將經(jīng)濟效益指標和企業(yè)狀況放在一起進行分類、作圖,以便更好地描述兩者之間的關系,在經(jīng)濟意義上做出切合實際的解釋。 總之,對應分析是R型因子分析(主成分分析)與Q型因子分析(主因子分析)的結(jié)合,它也是利用降維的思想以達到簡化數(shù)據(jù)結(jié)構(gòu)的目的,不過,與因子分析不同的是,它同時對數(shù)據(jù)表中的行和列進行處理,尋求以低維圖形表示數(shù)據(jù)表中行與列之間的關系。對應分析的優(yōu)點:(1) 定性變量劃分的類別越多,這種方法的優(yōu)勢就越明顯(2) 揭示行變量類別間和列變量類別間的聯(lián)系(3) 將類別聯(lián)系直

16、觀地表現(xiàn)在圖中(4) 可以將名義變量或序次變量轉(zhuǎn)變?yōu)殚g距變量作業(yè)題:1證明主成分載荷 (i=1,2,.,p;k=1,2,m)是主成分與變量之間的相關系數(shù)2以兩個變量主成分為例證明主分量 和 是無關的(正交)。3. 論述一下主成分分析與因子分析的區(qū)別和聯(lián)系4某地區(qū)35個城市2004年的7項經(jīng)濟統(tǒng)計指標數(shù)據(jù)見下表。(1)試用最短距離聚類法對45個城市綜合實力進行系統(tǒng)聚類分析,并畫出聚類譜系圖;(2)試用主成分分析法對45個城市7項經(jīng)濟指標進行主成分分析,并分析其綜合實力;(3)以第一、二、三主成分為變量,進行聚類分析,結(jié)果又怎樣呢?習題8.3城市編號總?cè)丝?單位:104人)非農(nóng)業(yè)人口比例(單位:%

17、)農(nóng)業(yè)總產(chǎn)值(單位:108元)工業(yè)總產(chǎn)值(單位:108元)地方財政預算內(nèi)收入(單位:108元)城鄉(xiāng)居民年底儲蓄余額(單位:108元)在崗職工工資總額(單位:108元)11249.90 0.60 184.34 1999.97 279.09 2680.66 577.33 2910.17 0.58 150.11 2264.55 112.81 1130.19 225.43 3875.40 0.23 291.87 688.58 35.23 709.59 75.89 4299.92 0.66 23.60 273.78 20.33 394.31 65.40 5207.78 0.44 36.53 81.65

18、10.58 139.66 30.93 6677.08 0.63 129.54 582.67 56.79 901.70 115.28 7545.31 0.49 187.97 842.64 70.92 755.68 96.59 8691.23 0.41 185.32 596.63 35.71 480.37 88.44 9927.09 0.46 266.39 418.61 48.14 645.00 130.92 101313.12 0.74 206.90 5452.91 431.85 2597.12 560.54 11537.44 0.53 98.92 1307.27 66.43 568.05 13

19、5.79 12616.05 0.36 141.47 1200.08 44.96 742.60 118.09 13538.41 0.25 142.82 1062.29 50.17 524.64 82.40 14429.95 0.32 62.88 251.41 23.36 162.29 36.96 15583.13 0.27 215.23 655.54 46.75 503.02 68.06 16128.99 0.49 33.34 575.11 41.88 210.83 65.75 17424.20 0.40 68.83 230.59 16.77 264.05 47.96 18557.63 0.41 148.63 628.59 46.07 412.70 75.67 19702.97 0.37 238.23 1149.20 65.84 497.80 96.17 20615.36 0.34 67.74 528.76 38.73 513.53 69.68 21740.20 0.59 121.13 750.61 60.47 574.81 1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論