地理系統(tǒng)要素關(guān)系的主成分分析_第1頁(yè)
地理系統(tǒng)要素關(guān)系的主成分分析_第2頁(yè)
地理系統(tǒng)要素關(guān)系的主成分分析_第3頁(yè)
地理系統(tǒng)要素關(guān)系的主成分分析_第4頁(yè)
地理系統(tǒng)要素關(guān)系的主成分分析_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第八章 地理系統(tǒng)要素關(guān)系的主成分分析地理工作者在地理系統(tǒng)的區(qū)域構(gòu)成分析中,常常用多個(gè)指標(biāo)來(lái)分析、比較各個(gè)地理區(qū)域的特征和“職能”,為地理區(qū)域類(lèi)型的劃分和制定區(qū)域發(fā)展戰(zhàn)略提供依據(jù)。但由于指標(biāo)多會(huì)增加分析問(wèn)題的復(fù)雜性,能否通過(guò)某些線(xiàn)性組合,使原始變量減少為有代表意義的少數(shù)幾個(gè)新的變量,以少數(shù)幾個(gè)指標(biāo)或“成分”來(lái)代表多數(shù)指標(biāo)?這是對(duì)地理系統(tǒng)進(jìn)行分析的關(guān)鍵問(wèn)題。例如在環(huán)境研究中,需要對(duì)許多環(huán)境要素進(jìn)行觀測(cè);在土地資源研究中,需要對(duì)土壤樣品進(jìn)行多指標(biāo)的分析化驗(yàn)。 而這些要素和指標(biāo)之間,常存在密切關(guān)系,要考察全部要素和測(cè)試指標(biāo),常常要做大量重復(fù)的工作。例如有30測(cè)試指標(biāo),也許10多種指標(biāo)即可代表。由此可見(jiàn)

2、減少研究的要素,使系統(tǒng)簡(jiǎn)化,是地理學(xué)研究中的重要環(huán)節(jié)。事實(shí)上,如果復(fù)雜的地理系統(tǒng),不加以任何簡(jiǎn)化,不抓住對(duì)地理系統(tǒng)影響的主要矛盾,要對(duì)之進(jìn)行深入的研究,幾乎是不可能的。本章介紹主成分分析方法就是解決上述問(wèn)題的數(shù)學(xué)方法。§1 主成分分析方法原理主成分分析是把原來(lái)多個(gè)指標(biāo)化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)方法,達(dá)到降維和去相關(guān)目的,既由多個(gè)變量變換為少數(shù)幾個(gè)相互獨(dú)立的綜合變量。主成分分析也稱(chēng)K-L變換。因子分析不僅可以用來(lái)研究變量之間的相關(guān)關(guān)系,還可用來(lái)研究樣品之間的相關(guān)關(guān)系,通常將前者稱(chēng)之為R型因子分析,后者稱(chēng)之為Q型因子分析。假設(shè)有n個(gè)地理樣本,每個(gè)樣本觀測(cè)p個(gè)指標(biāo),如何從這么多指標(biāo)的數(shù)

3、據(jù)中抓住地理事物的內(nèi)在規(guī)律性呢?如前所述,多數(shù)情況下,指標(biāo)之間存在著相關(guān)關(guān)系,這時(shí)要弄清它們的規(guī)律須在p維空間中加以考察,這是比較麻煩的。為了克服這一困難,一個(gè)自然的想法是找比較少的綜合指標(biāo)來(lái)代表原來(lái)較多的指標(biāo),而這些較少的綜合指標(biāo)既能盡量多地反映原來(lái)較多指標(biāo)的信息,它們彼此之間又是獨(dú)立的。綜合指標(biāo)如何選取呢?通常是取原指標(biāo)的線(xiàn)性組合,適當(dāng)調(diào)它們的系數(shù),使綜合指標(biāo)之間相互獨(dú)立且代表性最好。 記原來(lái)的變量指標(biāo)為,綜合指標(biāo)(新綜合變量)為() 即 可以要求 (單位向量)以限制取值大小,利于對(duì)比。系數(shù)由下列原則來(lái)決定: (1) 與 互相無(wú)關(guān)(獨(dú)立); (2)是的一切線(xiàn)性組合中方差最大者;為與不相關(guān)的

4、的所有線(xiàn)性組合中方差最大者; 為與都不相關(guān)的 的所有線(xiàn)性組合中方差最大者。 分別稱(chēng)做原指標(biāo)的第一,第二,第m個(gè)主成分。在總方差中占的比例最大,其余主成分所占方差比例依次遞減。 從幾何上看,找主成分的問(wèn)題,就是找出p 維空間中橢球體的主軸問(wèn)題,從數(shù)學(xué)上容易得到它們是的相關(guān)矩陣中m個(gè)較大特征值對(duì)應(yīng)的特征向量。也就是說(shuō)尋找這樣的坐標(biāo)系旋轉(zhuǎn)角,使得樣本點(diǎn)在新坐標(biāo)系中對(duì)主成分軸上的投影具有極大的方差。 主成分分析的實(shí)質(zhì)就是要求出方差協(xié)方差矩陣的特征向量及其對(duì)應(yīng)的特征值,即要找出方差協(xié)方差矩陣所確定的橢球的主軸,并確定其長(zhǎng)度。 由于提取主成分的主要原則是使方差最大,為了排除量綱、數(shù)量級(jí)的影響,對(duì)原始數(shù)據(jù)先

5、進(jìn)行標(biāo)準(zhǔn)化處理(標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化),這樣方差協(xié)方差矩陣即為相關(guān)系數(shù)矩陣。 計(jì)算步驟:(1) 計(jì)算相關(guān)系數(shù)矩陣R(原始數(shù)據(jù)已進(jìn)行標(biāo)準(zhǔn)化處理變換,也就是方差協(xié)方差矩陣)(2) 計(jì)算特征值和特征向量 求出特征值,按大小排序然后,求出對(duì)應(yīng)的特征向量 i=1,2,p(3) 計(jì)算主成分貢獻(xiàn)率和累積貢獻(xiàn)率 可以證明:的方差等于; 的方差等于; 的方差等于;主成分的貢獻(xiàn)率 i=1,2,p累積貢獻(xiàn)率 一般取累積貢獻(xiàn)率達(dá)85-90%的特征值 對(duì)應(yīng)的主成分即可。(4) 計(jì)算主成分載荷 (i=1,2,.,p;k=1,2,m)是主成分與變量之間的相關(guān)系數(shù)(5) 計(jì)算主成分得分是標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化后的數(shù)據(jù)得到主成分得分矩陣 主成分

6、幾大性質(zhì): 性質(zhì)1:主成分的協(xié)方差矩陣對(duì)角陣性質(zhì)2:主成分的總方差等于原始變量的總方差: 性質(zhì)3: (i=1,2,.,p;k=1,2,m) 是主成分與變量之間的相關(guān)系數(shù)§2 因子分析法對(duì)p個(gè)變量進(jìn)行因子分析的目的是研究它們有哪些共同因素,哪些是特殊因素,這些因素在變量分析中起什么作用。為研究方便,設(shè)著p個(gè)變量已進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化變換,記為,或表示為向量形式。 上述的p個(gè)因子(變量)會(huì)有一些共同因素,這些共同因素稱(chēng)為公共因子,記為(公共因子數(shù)目m通常要比原因子個(gè)數(shù)p要少),也可記為向量形式。對(duì)每一因子,除了可以有一些公共因素的部分外,還有一些自身特殊因素,稱(chēng)為特殊因子。因而因子模型可表示

7、為下面形式:對(duì)第k個(gè)因子有式中稱(chēng)為m個(gè)公共因子的荷載,為第k個(gè)因子的特殊部分。U為特殊因子向量,記為因子模型的向量形式為 式中矩陣A為因子荷載,記為為求得矩陣A,對(duì)模型還要作些假定(樣本容量為n):(1)公共因子部分與特殊因子部分是無(wú)關(guān)的 (2) 公共因子是標(biāo)準(zhǔn)化變量,不同公共因子之間無(wú)關(guān),即公共因子之間的協(xié)方差矩陣為單位陣 (3) 各特殊因子之間是無(wú)關(guān)的,第個(gè)特殊因子的方差為,它們的協(xié)方差陣為 在上述假定下,個(gè)變量之間的相關(guān)陣可表為由上述假定上述矩陣中的第行第列元素為 該式表明第個(gè)變量的方差可表示為公共性部分的方差和特殊性部分的方差之和。記公共性部分的方差為 稱(chēng)為第個(gè)變量的公共性,它反映了第

8、個(gè)變量被公共因子所解釋的那部分方差。 從幾何意義上來(lái)說(shuō),因子模型中的因子荷載可看成為第個(gè)變量在個(gè)公共因子空間中第個(gè)因子軸上的投影,變量數(shù)據(jù)可看成為在該空間中的一個(gè)向量;可看成為第個(gè)變量在該空間中的向量長(zhǎng)度的平方。作了標(biāo)準(zhǔn)化處理,與的協(xié)方差就是第個(gè)變量與第個(gè)公共因子之間的相關(guān)系數(shù)。即由以上假定得知經(jīng)常地,對(duì)F進(jìn)行正交變換后,得到新矩陣的各分量仍然不相關(guān),各自方差仍然為1(斜交變換后不能保證各分量獨(dú)立性,各自方差也不為1)。旋轉(zhuǎn)以后得到的因子,有時(shí)它的實(shí)際意義比較明顯。例如,可經(jīng)旋轉(zhuǎn)變換,使得荷載矩陣中的每一行的數(shù)值盡可能兩極化(接近1或0),這樣有利于發(fā)現(xiàn)公因子的實(shí)際意義。例子: 以各個(gè)城市第三

9、產(chǎn)業(yè)發(fā)展水平評(píng)價(jià)為例:選用20個(gè)指標(biāo):人口數(shù) :GDP :第三產(chǎn)業(yè)增加值 :貨用總量:批、零、貿(mào)商品銷(xiāo)售總額 :外貿(mào)收購(gòu)總額 :年末銀行貸款總額 :社會(huì)零售的物價(jià)指數(shù) :實(shí)際利用外資 :萬(wàn)名職工中科技人員的人數(shù):旅游外匯收入 :第三產(chǎn)業(yè)就業(yè)比例 :郵電業(yè)務(wù)總量:職工人均工資 :人口數(shù)人均居住面積 :用水普及率 :煤氣普及率:人均道路面積 :人均公共綠地面積 :政策體制對(duì)上述指標(biāo)進(jìn)行因子分析,從旋轉(zhuǎn)后因子荷載矩陣來(lái)看,五個(gè)因子意義比較明確,也就是將五個(gè)因子分成五大類(lèi):1、 第三產(chǎn)業(yè)的基本經(jīng)濟(jì)因子 2、 基礎(chǔ)環(huán)境因子 3、 政策性因子 4、 人員素質(zhì)因子 5、 補(bǔ)充因子§3 典型相關(guān)分析

10、典型相關(guān)分析是研究?jī)山M變量之間相關(guān)關(guān)系的一種多元統(tǒng)計(jì)方法。它能夠揭示出兩組變量之間的內(nèi)在聯(lián)系。一元統(tǒng)計(jì)分析中,(偏)相關(guān)系數(shù)來(lái)衡量?jī)蓚€(gè)隨機(jī)變量的線(xiàn)性相關(guān)關(guān)系;用復(fù)相關(guān)系數(shù)來(lái)衡量一個(gè)隨機(jī)變量與多個(gè)隨機(jī)變量的線(xiàn)性相關(guān)關(guān)系。不能用于研究?jī)山M變量之間相關(guān)關(guān)系。比如生理指標(biāo)與訓(xùn)練指標(biāo)的關(guān)系、居民生活環(huán)境與健康狀況的關(guān)系、人口統(tǒng)計(jì)變量與消費(fèi)變量之間的關(guān)系等。 典型相關(guān)分析由霍特林提出,其基本思想與主成分分析非常相似。首先在每組變量中找出變量的線(xiàn)性組合,使得兩組的線(xiàn)性組合之間具有最大的相關(guān)系數(shù)。然后選取和 最初挑選的這對(duì)線(xiàn)性組合不相關(guān)的線(xiàn)性組合,使其配對(duì),并選取相關(guān)系數(shù)最大的一對(duì),如此繼續(xù)下去,直到兩組變量

11、之間的 相關(guān)性被提出完畢為止。被選取的線(xiàn)性組合配對(duì)稱(chēng)為典型變量,它們的相關(guān)系數(shù)稱(chēng)為典型相關(guān)系數(shù)。典型相關(guān)系數(shù)度量了這兩組變量之間聯(lián)系的強(qiáng)度。 §4 對(duì)應(yīng)(相應(yīng))分析對(duì)應(yīng)分析是R型因子分析與Q型因子分析的結(jié)合,它也是利用降維的思想以達(dá)到簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的目的,不過(guò),與因子分析不同的是,它同時(shí)對(duì)數(shù)據(jù)表中的行與列進(jìn)行處理,尋求以低維圖形表示數(shù)據(jù)表中行與列之間的關(guān)系。對(duì)應(yīng)分析的思想首先由理查森(Richardson)和庫(kù)德(Kuder)在1933年提出,后來(lái)法國(guó)統(tǒng)計(jì)學(xué)家讓一保羅·貝內(nèi)澤(JeanPaul Benzkcri)和日本統(tǒng)計(jì)學(xué)家林知己夫(HayashiChikio)對(duì)該方法進(jìn)行

12、了詳細(xì)的論述而使其得到了發(fā)展。對(duì)應(yīng)分析方法廣泛用于對(duì)由屬性變量構(gòu)成的列聯(lián)表數(shù)據(jù)的研究,利用對(duì)應(yīng)分析可以在一張二維圖上同時(shí)畫(huà)出屬性變量不同取值的情況,列聯(lián)表的每一行及每一列均以二維圖上的一個(gè)點(diǎn)來(lái)表示,以直觀、簡(jiǎn)潔的形式描述屬性變量各種狀態(tài)之間的相互關(guān)系及不同屬性變量之間的相互關(guān)系。 由于對(duì)應(yīng)分析是在R型因子分析和Q型因子分析基礎(chǔ)上發(fā)展起來(lái)的一種多元統(tǒng)計(jì)分析方法,它把兩種因子分析結(jié)合起來(lái),對(duì)變量和樣品統(tǒng)一進(jìn)行分析研究,因而更有利于地質(zhì)學(xué)等一些領(lǐng)域解釋?xiě)?yīng)用。 如前所述,兩種因子分析都可以用少數(shù)幾個(gè)公因子去提取研究對(duì)象的絕大部分信息,因而,不僅簡(jiǎn)化了原有的觀測(cè)系統(tǒng),抓住了控制原有觀測(cè)數(shù)據(jù)的主要矛盾,而

13、且通過(guò)研究公因子的特征,比較容易揭示研究對(duì)象在成因上或空間上的聯(lián)系,也就便于直接進(jìn)行地質(zhì)解釋和邏輯推斷。但是,R型因子分析與Q型因子分析把變量與樣品孤立起來(lái)分析,割斷了它們的聯(lián)系,這將會(huì)漏掉許多有用的地質(zhì)信息。事實(shí)上,對(duì)于同一個(gè)地質(zhì)問(wèn)題,往往需要同時(shí)研究地質(zhì)成因和不同類(lèi)型樣品的地質(zhì)特征,前者要通過(guò)對(duì)樣品的研究,而后者則是通過(guò)對(duì)變量的分析,才能得到合理的地質(zhì)解釋。這說(shuō)明兩種因子分析是同一問(wèn)題的不可分割的兩個(gè)部分。另外,樣品的數(shù)目一般遠(yuǎn)遠(yuǎn)大于變量的數(shù)目,在進(jìn)行Q型因子分析時(shí),樣品的相似矩陣占用大量的內(nèi)存,這對(duì)于一般的微型計(jì)算機(jī)來(lái)說(shuō)是難以勝任的。還有一個(gè)問(wèn)題就是不能對(duì)變量和樣品用同一種標(biāo)準(zhǔn)化方法進(jìn)行

14、處理,這就給尋找R型與Q型因子分析之間的聯(lián)系帶來(lái)了困難。鑒于上述原因,在R型因子分析和Q型因子分析的基礎(chǔ)上產(chǎn)生了對(duì)應(yīng)分析。它的主要優(yōu)點(diǎn)是可由R型因子分析的結(jié)果,很容易地導(dǎo)出Q型因子分析結(jié)果,從而克服了Q型因子分析受計(jì)算機(jī)內(nèi)存容量的限制并提高了計(jì)算速度,更重要的是把變量和樣品反映在同一個(gè)因子空間中,便于對(duì)變量與樣品統(tǒng)一進(jìn)行地質(zhì)解釋和推斷。對(duì)應(yīng)分析也叫相應(yīng)分析,其特點(diǎn)是它所研究的變量可以是定性的。通常意義下的相應(yīng)分析,是指對(duì)兩個(gè)定性變量(因素)的多種水平進(jìn)行相應(yīng)性研究。在社會(huì)、經(jīng)濟(jì)以及其他領(lǐng)域中,進(jìn)行數(shù)據(jù)分析時(shí)經(jīng)常要處理因素與因素之間的關(guān)系,及因素內(nèi)部各個(gè)水平之間的相互關(guān)系。例如,評(píng)價(jià)某一行業(yè)所屬

15、企業(yè)的經(jīng)濟(jì)效益,我們不僅要研究因素A,即企業(yè)按經(jīng)濟(jì)效益好壞的分類(lèi)情況,以及要研究因素B,即經(jīng)濟(jì)效益指標(biāo)之間的關(guān)系,還要研究哪些企業(yè)與哪些經(jīng)濟(jì)效益指標(biāo)更密切一些。這就需要用相應(yīng)分析的方法,將經(jīng)濟(jì)效益指標(biāo)和企業(yè)狀況放在一起進(jìn)行分類(lèi)、作圖,以便更好地描述兩者之間的關(guān)系,在經(jīng)濟(jì)意義上做出切合實(shí)際的解釋。 總之,對(duì)應(yīng)分析是R型因子分析(主成分分析)與Q型因子分析(主因子分析)的結(jié)合,它也是利用降維的思想以達(dá)到簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的目的,不過(guò),與因子分析不同的是,它同時(shí)對(duì)數(shù)據(jù)表中的行和列進(jìn)行處理,尋求以低維圖形表示數(shù)據(jù)表中行與列之間的關(guān)系。對(duì)應(yīng)分析的優(yōu)點(diǎn):(1) 定性變量劃分的類(lèi)別越多,這種方法的優(yōu)勢(shì)就越明顯(2

16、) 揭示行變量類(lèi)別間和列變量類(lèi)別間的聯(lián)系(3) 將類(lèi)別聯(lián)系直觀地表現(xiàn)在圖中(4) 可以將名義變量或序次變量轉(zhuǎn)變?yōu)殚g距變量作業(yè)題:1證明主成分載荷 (i=1,2,.,p;k=1,2,m)是主成分與變量之間的相關(guān)系數(shù)2以?xún)蓚€(gè)變量主成分為例證明主分量 和 是無(wú)關(guān)的(正交)。3. 論述一下主成分分析與因子分析的區(qū)別和聯(lián)系4某地區(qū)35個(gè)城市2004年的7項(xiàng)經(jīng)濟(jì)統(tǒng)計(jì)指標(biāo)數(shù)據(jù)見(jiàn)下表。(1)試用最短距離聚類(lèi)法對(duì)45個(gè)城市綜合實(shí)力進(jìn)行系統(tǒng)聚類(lèi)分析,并畫(huà)出聚類(lèi)譜系圖;(2)試用主成分分析法對(duì)45個(gè)城市7項(xiàng)經(jīng)濟(jì)指標(biāo)進(jìn)行主成分分析,并分析其綜合實(shí)力;(3)以第一、二、三主成分為變量,進(jìn)行聚類(lèi)分析,結(jié)果又怎樣呢?習(xí)題8

17、.3城市編號(hào)總?cè)丝?單位:104人)非農(nóng)業(yè)人口比例(單位:%)農(nóng)業(yè)總產(chǎn)值(單位:108元)工業(yè)總產(chǎn)值(單位:108元)地方財(cái)政預(yù)算內(nèi)收入(單位:108元)城鄉(xiāng)居民年底儲(chǔ)蓄余額(單位:108元)在崗職工工資總額(單位:108元)11249.90 0.60 184.34 1999.97 279.09 2680.66 577.33 2910.17 0.58 150.11 2264.55 112.81 1130.19 225.43 3875.40 0.23 291.87 688.58 35.23 709.59 75.89 4299.92 0.66 23.60 273.78 20.33 394.31 6

18、5.40 5207.78 0.44 36.53 81.65 10.58 139.66 30.93 6677.08 0.63 129.54 582.67 56.79 901.70 115.28 7545.31 0.49 187.97 842.64 70.92 755.68 96.59 8691.23 0.41 185.32 596.63 35.71 480.37 88.44 9927.09 0.46 266.39 418.61 48.14 645.00 130.92 101313.12 0.74 206.90 5452.91 431.85 2597.12 560.54 11537.44 0.53

19、 98.92 1307.27 66.43 568.05 135.79 12616.05 0.36 141.47 1200.08 44.96 742.60 118.09 13538.41 0.25 142.82 1062.29 50.17 524.64 82.40 14429.95 0.32 62.88 251.41 23.36 162.29 36.96 15583.13 0.27 215.23 655.54 46.75 503.02 68.06 16128.99 0.49 33.34 575.11 41.88 210.83 65.75 17424.20 0.40 68.83 230.59 16.77 264.05 47.96 18557.63 0.41 148.63 628.59 46.07 412.70 75.67 19702.97 0.37 238.23 1149.20 65.84 497.80 96.17 20615.36 0.34 67.74 528.76 38.73 513.53 69.68 21740.20 0.59 121.13 750.61 60.47 574.8

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論