環(huán)境統(tǒng)計學系統(tǒng)聚類_第1頁
環(huán)境統(tǒng)計學系統(tǒng)聚類_第2頁
環(huán)境統(tǒng)計學系統(tǒng)聚類_第3頁
環(huán)境統(tǒng)計學系統(tǒng)聚類_第4頁
環(huán)境統(tǒng)計學系統(tǒng)聚類_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、整理課件1環(huán)環(huán) 境境 統(tǒng)統(tǒng) 計計 學學(Environmental Statistics )整理課件2緒論緒論多元線性多元線性概率統(tǒng)計概率統(tǒng)計一元線性一元線性環(huán) 境 統(tǒng) 計 學整理課件3整理課件4聚類分析概述聚類分析概述聚類要素的數(shù)據(jù)處理聚類要素的數(shù)據(jù)處理距離的計算距離的計算系統(tǒng)聚類分析的常用方法系統(tǒng)聚類分析的常用方法SPSSSPSS計算方法計算方法 環(huán)境應用環(huán)境應用 整理課件5整理課件6俗話說:俗話說:“物以類聚,人以群分。物以類聚,人以群分?!?整理課件7聚類(聚類(Clustering)就是將數(shù)據(jù)分組成為多個類)就是將數(shù)據(jù)分組成為多個類(Cluster)。在同一個類內對象之間具有較高的)

2、。在同一個類內對象之間具有較高的相似度,不同類之間的對象差別較大。相似度,不同類之間的對象差別較大。整理課件8早在孩提時代,人就通過不斷改進下意識中的聚類模式來學會如何區(qū)分貓和狗,動物和植物,男人和女人。環(huán)境中如水質分類,污染類型,處理方法整理課件9聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫商趨于的相似性聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據(jù)住宅類型,價值,地理位置來鑒定一個城市的房產(chǎn)分組聚類分析在電子商務中網(wǎng)站建設數(shù)據(jù)挖掘中也是很重要的

3、一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務的用戶了解自己的客戶,向客戶提供更合適的服務。整理課件10環(huán)境問題如何歸類和分析已成為環(huán)境科學的一項重要課題。根據(jù)確定的標準對環(huán)境問題進行分級、分類,需要用到聚類分析。整理課件11根據(jù)對象間的相關程度進行類別的聚合。在進行聚類分析之前,這些類別是隱蔽的,能分為多少種類別事先也是不知道的。整理課件12聚類分析的原則是同一類中的個體有較大的相似性,不同類中的個差異很大。整理課件13 兒童生長發(fā)育研究兒童生長發(fā)育研究中,形態(tài)學為主指中,形態(tài)學為主指標歸為一類,機能標歸為一類,機能為主指標歸為另一為主指標歸為另

4、一類類聚類分析又分為樣本聚類和變量聚類聚類分析又分為樣本聚類和變量聚類解剖學上根據(jù)骨骼解剖學上根據(jù)骨骼大小形狀,以確定大小形狀,以確定樣本是人是猿,性樣本是人是猿,性別、年齡等別、年齡等整理課件14相似性Similar的度量(統(tǒng)計學角度)距離Q型聚類(主要討論)主要用于對樣本分類常用的距離有(只適用于具有間隔尺度變量的聚類):(包括:絕對距離、切比雪夫距離)蘭氏距離馬氏距離斜交空間距離此不詳述,有興趣可參考應用多元分析(第二版)王學民相似系數(shù)R型聚類用于對變量分類,可以用變量之間的相似系數(shù)的變形如1rij定義距離這里不詳細介紹這種聚類度量方法整理課件15整理課件16 在聚類分析中,聚類要素的選

5、擇是十分重在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結果的準確性和可靠性。要的,它直接影響分類結果的準確性和可靠性。 因此當分類要素的對象確定之后,在進行因此當分類要素的對象確定之后,在進行聚類分析之前,首先要對聚類要素進行數(shù)據(jù)處聚類分析之前,首先要對聚類要素進行數(shù)據(jù)處理。理。 整理課件17整理課件18整理課件19例例1 以長江流域水環(huán)境數(shù)據(jù)為例,以長江流域水環(huán)境數(shù)據(jù)為例,1993年年1月份月份6個站點水環(huán)境監(jiān)測指標實測值如下表所示。個站點水環(huán)境監(jiān)測指標實測值如下表所示。表1 1993年1月份各站點水環(huán)境監(jiān)測指標實測值(單位:mg/L)整理課件20分別求出各聚類要素所對應的數(shù)據(jù)的

6、總和,以各要素的數(shù)據(jù)除以該要素的數(shù)據(jù)的總和,即 這種標準化方法所得到的新數(shù)據(jù)滿足), 2 , 1;, 2 , 1(1njmixxxmiijijijmiijnjx1), 2 , 1(1整理課件21各站點各站點指標指標溶解氧溶解氧高錳酸鉀指數(shù)高錳酸鉀指數(shù)BOD5NH3-N揮發(fā)酚揮發(fā)酚攀枝花攀枝花10.0 0.8 2.0 0.10 0.003高場高場10.5 1.3 1.8 0.16 0.002津市津市10.4 1.9 1.2 0.16 0.003長沙長沙8.8 2.3 1.1 0.72 0.002中山橋中山橋13.0 3.5 2.9 0.30 0.019宣城宣城13.4 2.3 2.4 0.02

7、0.005各站點各站點指標指標溶解氧溶解氧高錳酸鉀指數(shù)高錳酸鉀指數(shù)BOD5NH3-N揮發(fā)酚揮發(fā)酚攀枝花攀枝花高場高場津市津市長沙長沙中山橋中山橋宣城宣城10.00.1513 0.0661 0.1754 0.0685 0.0882 0.1589 0.1074 0.1579 0.1096 0.0588 0.1573 0.1570 0.1053 0.1096 0.0882 0.1331 0.1901 0.0965 0.4932 0.0588 0.1967 0.2893 0.2544 0.2055 0.5588 0.2027 0.1901 0.2105 0.0137 0.1471 0.151366.1

8、整理課件22 ,即,即 由這種標準化方法所得到的新數(shù)據(jù),各要素由這種標準化方法所得到的新數(shù)據(jù),各要素的平均值為的平均值為0,標準差為,標準差為1,即有,即有),2, 1;,2, 1(njmisxxxjjijij1)(101121mijijjmiijjxxmsxmx整理課件23各站點各站點指標指標溶解氧溶解氧高錳酸鉀指數(shù)高錳酸鉀指數(shù)BOD5NH3-N揮發(fā)酚揮發(fā)酚攀枝花攀枝花10.0 0.8 2.0 0.10 0.003高場高場10.5 1.3 1.8 0.16 0.002津市津市10.4 1.9 1.2 0.16 0.003長沙長沙8.8 2.3 1.1 0.72 0.002中山橋中山橋13.0

9、 3.5 2.9 0.30 0.019宣城宣城13.4 2.3 2.4 0.02 0.005各站點各站點指標指標溶解氧溶解氧高錳酸鉀指數(shù)高錳酸鉀指數(shù)BOD5NH3-N揮發(fā)酚揮發(fā)酚攀枝花攀枝花高場高場津市津市長沙長沙中山橋中山橋宣城宣城10.0-0.6186 -1.4259 0.1581 -0.6257 -0.4411 -0.3144 -0.8400 -0.1581 -0.3637 -0.6065 -0.3752 -0.1368 -1.1068 -0.3637 -0.4411 -1.3487 0.3320 -1.2649 2.0814 -0.6065 1.2067 1.7384 1.5811 0

10、.2476 2.2053 1.4501 0.3320 0.7906 -0.9750 -0.1103 -1.0211.02平均值平均值標準差標準差1.644-0.6186=整理課件24), 2 , 1;, 2 , 1(maxnjmixxxijiijij整理課件25各站點各站點指標指標溶解氧溶解氧高錳酸鉀指數(shù)高錳酸鉀指數(shù)BOD5NH3-N揮發(fā)酚揮發(fā)酚攀枝花攀枝花10.0 0.8 2.0 0.10 0.003高場高場10.5 1.3 1.8 0.16 0.002津市津市10.4 1.9 1.2 0.16 0.003長沙長沙8.8 2.3 1.1 0.72 0.002中山橋中山橋13.0 3.5 2.

11、9 0.30 0.019宣城宣城13.4 2.3 2.4 0.02 0.005各站點各站點指標指標溶解氧溶解氧高錳酸鉀指數(shù)高錳酸鉀指數(shù)BOD5NH3-N揮發(fā)酚揮發(fā)酚攀枝花攀枝花高場高場津市津市長沙長沙中山橋中山橋宣城宣城10.00.7463 0.2286 0.6897 0.1389 0.1579 0.7836 0.3714 0.6207 0.2222 0.1053 0.7761 0.5429 0.4138 0.2222 0.1579 0.6567 0.6571 0.3793 1.0000 0.1053 0.9701 1.0000 1.0000 0.4167 1.0000 1.0000 0.65

12、71 0.8276 0.0278 0.2632 0.746313.4選選出出最最大大值值整理課件26 ), 2 , 1;, 2 , 1(minmaxminnjmixxxxxijiijiijiijij整理課件27各站點各站點指標指標溶解氧溶解氧高錳酸鉀指數(shù)高錳酸鉀指數(shù)BOD5NH3-N揮發(fā)酚揮發(fā)酚攀枝花攀枝花10.0 0.8 2.0 0.10 0.003高場高場10.5 1.3 1.8 0.16 0.002津市津市10.4 1.9 1.2 0.16 0.003長沙長沙8.8 2.3 1.1 0.72 0.002中山橋中山橋13.0 3.5 2.9 0.30 0.019宣城宣城13.4 2.3 2

13、.4 0.02 0.005各站點各站點指標指標溶解氧溶解氧高錳酸鉀指數(shù)高錳酸鉀指數(shù)BOD5NH3-N揮發(fā)酚揮發(fā)酚攀枝花攀枝花高場高場津市津市長沙長沙中山橋中山橋宣城宣城0.2609 0.0000 0.5000 0.1143 0.0588 0.3696 0.1852 -0.6111 0.2000 0.0000 0.3478 0.4074 -0.6667 0.2000 0.0588 0.0000 0.5556 -5.7222 1.0000 0.0000 0.9130 1.0000 1.6111 0.4000 1.0000 1.0000 0.5556 0.2778 0.0000 0.1765 0.2

14、6094.6相相減減1.2整理課件28整理課件29整理課件30樣品樣品1 1樣品樣品2 2樣品樣品n整理課件31 絕對值距離 歐氏距離 明科夫斯基距離 ), 2 , 1, (1mjixxdnijkikij), 2 , 1, ()(12mjixxdnkjkikij), 2 , 1, (11mjixxdpnkpjkikij整理課件32 切比雪夫距離。當明科夫斯基距切比雪夫距離。當明科夫斯基距 時,有時,有 ), 2 , 1,(maxmjixxdjkikkij(3.4.8) p整理課件33例例1 以長江流域水環(huán)境數(shù)據(jù)為例,以長江流域水環(huán)境數(shù)據(jù)為例,1993年年1月份月份6個站點水環(huán)境監(jiān)測指標實測值如

15、下表所示。個站點水環(huán)境監(jiān)測指標實測值如下表所示。表1 1993年1月份各站點水環(huán)境監(jiān)測指標實測值 (單位:mg/L)各站點各站點指標指標溶解氧溶解氧高錳酸鉀指數(shù)高錳酸鉀指數(shù)BOD5NH3-N揮發(fā)酚揮發(fā)酚攀枝花攀枝花10.0 0.8 2.0 0.10 0.003高場高場10.5 1.3 1.8 0.16 0.002津市津市10.4 1.9 1.2 0.16 0.003長沙長沙8.8 2.3 1.1 0.72 0.002中山橋中山橋13.0 3.5 2.9 0.30 0.019宣城宣城13.4 2.3 2.4 0.02 0.005整理課件34各站點各站點指標指標溶解氧溶解氧高錳酸鉀指數(shù)高錳酸鉀指數(shù)

16、BOD5NH3-N揮發(fā)酚揮發(fā)酚攀枝花攀枝花高場高場津市津市長沙長沙中山橋中山橋宣城宣城-0.6186 -1.4259 0.1581 -0.6257 -0.4411 -0.3144 -0.8400 -0.1581 -0.3637 -0.6065 -0.3752 -0.1368 -1.1068 -0.3637 -0.4411 -1.3487 0.3320 -1.2649 2.0814 -0.6065 1.2067 1.7384 1.5811 0.2476 2.2053 1.4501 0.3320 0.7906 -0.9750 -0.1103 ), 2 , 1,(1mjixxdnijkikij0.3

17、042 0.5860 0.3162 0.2620 0.1654 1.6338 ), 2 , 1, ()(12mjixxdnkjkikij0.0925 0.3434 0.1000 0.0686 0.0274 0.7949整理課件35各站點各站點指標指標溶解氧溶解氧高錳酸鉀指數(shù)高錳酸鉀指數(shù)BOD5NH3-N揮發(fā)酚揮發(fā)酚攀枝花攀枝花高場高場津市津市長沙長沙中山橋中山橋宣城宣城-0.6186 -1.4259 0.1581 -0.6257 -0.4411 -0.3144 -0.8400 -0.1581 -0.3637 -0.6065 -0.3752 -0.1368 -1.1068 -0.3637 -0.

18、4411 -1.3487 0.3320 -1.2649 2.0814 -0.6065 1.2067 1.7384 1.5811 0.2476 2.2053 1.4501 0.3320 0.7906 -0.9750 -0.1103 1.6338 0000. 09783. 54067. 81335. 59925. 41393. 50000. 04532.114026. 92616. 99322. 90000. 02108. 47582. 57834. 60000. 08780. 10594. 30000. 06338. 10000. 0)(661ijdD整理課件36整理課件37整理課件38原理原理

19、 先把各個分類對象單獨視為一類,然后根據(jù)距離最小的原則,依次選出一對分類對象,并成新類。如果其中一個分類對象已歸于一類,則把另一個也歸入該類;如果一對分類對象正好屬于已歸的兩類,則把這兩類并為一類。每一次歸并,都劃去該對象所在的列與列序相同的行。經(jīng)過m-1次就可以把全部分類對象歸為一類,這樣就可以根據(jù)歸并的先后順序作出聚類譜系圖。 整理課件39原理原理 最短距離聚類法,是在原來的mm距離矩陣的非對角元素中找出 ,把分類對象Gp和Gq歸并為一新類Gr,然后按計算公式 計算原來各類與新類之間的距離,這樣就得到一個新的(m1)階的距離矩陣; 再從新的距離矩陣中選出最小者dij,把Gi和Gj歸并成新類

20、;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。),(,minqpkdddqkpkrkminijpqdd整理課件40整理課件41區(qū)代號人均耕地X1勞動耕地X2水田比生X3復種指數(shù)X4糧食畝產(chǎn)X5人均糧食X6稻谷比重X7G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60

21、.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17區(qū)代號人均耕地X1勞動耕地X2水田比生X3復種指數(shù)X4糧食畝產(chǎn)X5人均糧食X6稻谷比重X7G10.9125 1.0000 0.0731 0.1528 0.1833 1.0000 0.1427 G21.0000 0.8662 0.0000 0.0024 0.0000 0.2362 0.0000 G30.2000 0.1480

22、 0.0682 0.4366 0.4391 0.0790 0.0709 G40.4333 0.3794 0.0000 0.1317 0.1778 0.1256 0.0009 G50.0250 0.0340 1.0000 1.0000 1.0000 0.4688 1.0000 G60.0292 0.0329 0.6056 0.6894 0.6543 0.1340 0.5950 G70.0000 0.0000 0.9038 0.8122 0.8354 0.1293 0.9974 G80.9083 0.5318 0.0692 0.0008 0.0956 0.4268 0.0874 G90.3833

23、0.2555 0.0350 0.0000 0.1539 0.0000 0.0040 整理課件42040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)(99ijdD29. 140. 1 ,29. 1min,min32. 332. 3 ,06. 4min,min99. 206

24、. 3 ,99. 2min,min77. 477. 4 ,84. 4min,min20. 120. 1 ,23. 1min,min47. 166. 1 ,47. 1min,min19. 262. 2 ,19. 2min,min9 , 84, 810, 89 ,74,710,79 , 64, 610, 69 , 54, 510, 59 , 34, 310, 39 , 24, 210, 29 , 14, 110, 1ddddddddddddddddddddd029. 132. 399. 277. 420. 147. 119. 2003. 596. 314. 524. 288. 032. 1007.

25、 183. 093. 253. 579. 5078. 186. 146. 472. 4064. 302. 686. 5070. 210. 3052. 10)(88ijd整理課件43 最遠距離聚類法與最短距離聚類法的區(qū)別在于計算原來的類與新類距離時采用的公式不同。 最遠距離聚類法的計算公式是),(,maxqpkdddqkpkrk(3.4.11) 整理課件44區(qū)代號區(qū)代號人均耕地人均耕地X1勞動耕地勞動耕地X2水田比生水田比生X3復種指數(shù)復種指數(shù)X4糧食畝產(chǎn)糧食畝產(chǎn)X5人均糧食人均糧食X6稻谷比重稻谷比重X7G10.2941.0935.63113.64510.51036.412.2G20.3150

26、.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17例例2 2 下表給出了某個地區(qū)九個農(nóng)業(yè)區(qū)的七項指標。下

27、表給出了某個地區(qū)九個農(nóng)業(yè)區(qū)的七項指標。請做聚類分析。請做聚類分析。某個地區(qū)九個農(nóng)業(yè)區(qū)的七項指標某個地區(qū)九個農(nóng)業(yè)區(qū)的七項指標整理課件45 例題例題:對于前面的例子,最遠距離聚類法的聚類過程如下: (1) 在99階距離矩陣中,非對角元素中最小者是d94=0.51,將第4區(qū)與第9區(qū)并為一類,記為G10,即G10=G4,G9。按照公式 分別計算G1,G2,G3,G5,G6,G7,G8與G10之間的距離,得到一個新的88階距離矩陣),(,maxqpkdddqkpkrk整理課件46040. 106. 406. 384. 423. 166. 162. 2003. 596. 314. 524. 288. 03

28、2. 1007. 183. 093. 253. 579. 5078. 186. 146. 472. 4064. 302. 686. 5070. 210. 3052. 10108765321108765321GGGGGGGGGGGGGGGG整理課件47 (2) 在第1步所得到的88階距離矩陣中,非對角線元素中最小者為d57=0.83,故將G5與G7歸并為一類,記為G11,即G11=G5,G7。按照公式(3.4.11)式分別計算G1,G2,G3,G6,G8,G10與G11之間的距離,得到一個新的77階距離矩陣如下 084. 414. 578. 164. 302. 686. 5040. 106. 3

29、23. 166. 162. 2096. 324. 288. 032. 1086. 146. 472. 4070. 210. 3052. 10111086321111086321GGGGGGGGGGGGGG整理課件48 (3) 在第2步所得到的77階距離矩陣中,非對角線元素中最小者為d28=0.88,故將G2與G8歸并為一類,記為G12,即G12=G2,G8。再按照公式(3.4.11)分別計算G1,G3,G6,G10,G11與G12之間的距離,得到一個新的66階距離矩陣如下 002. 666. 146. 470. 252. 1084. 478. 164. 386. 5006. 323. 162.

30、 2086. 172. 4010. 30121110631121110631GGGGGGGGGGGG整理課件49 (4)在第3步所得的66階距離矩陣中,非對角元素中最小者為d3,10=1.23,故將G3與G10歸并為一類,記為G13,即G13=G3,G10=G3,(G4,G9)。再按照公式(3.4.11)計算G1,G6,G11,G12與G13之間的距離,得到一個新的55階距離矩陣如下 070. 284. 406. 310. 3002. 646. 452. 1078. 186. 5072. 401312106113121061GGGGGGGGGG整理課件50 (5)在第4步所得的55階距離矩陣中

31、,非對角線元素中最小者為d1,12=1.52,故將G1與G12歸并為一類,記為G14,即G14=G1,G12=G1,(G2,G8)。再按照公式(3.4.11)分別計算G6,G11,G13與G14之間的距離,得到一個新的44階距離矩陣如下 010.320.672.4084.406.3078.1014131161413116GGGGGGGG整理課件51 (6)在第5步所得的44階距離矩陣中,非對角線元素中最小者為d6,11=1.78,故將G6與G11歸并為一類,記為G15,即G15=G6,G11=G6,(G5,G7)。再按照公式(3.4.11)分別計算G13,G14和G15之間的距離,得到一個新的

32、33階距離矩陣如下002.684.4010.30151413151413GGGGGG整理課件52 (7) 在第6步所得的33階距離矩陣中,非對角線元素中最小者為d13,14=3.10,故將G13與G14歸并為一類,記為G16,即G16=G13,G14=(G3,(G4,G9),(G1,(G2,G8)。再按照公式(3.4.11)計算G15與G16之間的距離,可得一個新的22階距離矩陣如下002. 6016151615GGGG整理課件53 (8)將G15與G16歸并為一類。此時,各個分類對象均已歸并為一類。 綜合上述聚類過程,可以作出最遠距離聚類譜系圖。 最遠距離聚類譜系圖G1G2G8G3G4G9G5G7G6整理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論