版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、聚類分析 Cluster Analysis,本章學習目標,掌握地球科學中大量觀測數據的樣品或變量的數學定量分類思想; 學會樣品或變量數據變換和分類標準的數學表示; 數據的聚類:譜系圖制作及其地質意義;,學習重點、難點,重點 不同應用目的聚類分析技術的正確選取和聚類分析矩陣的求法以及譜系圖的地質意義 難點 實際觀測數據的聚類分析矩陣的構建和程序開發(fā),深入理解譜系圖的地質意義,問題的提出,地球科學涉及眾多的分類問題,如地質學研究中巖石的分類、礦物礦床的分類、古生物的分類。油氣勘探、開發(fā)過程中,石油成因研究、油藏類型研究、地化資料等的分類與分級。針對上述問題,怎樣進行科學分類,分類結果有何啟示?,表
2、1-1,表1-2,第一節(jié) 聚類分析的思想,假設所研究的對象中的元素,存在著不同 程度的相似性(親疏關系)根據其各觀測指。 標,找出一些能夠度量樣品之間相似程度的統 計量,據此,把一些相似程度大的樣品聚為一 類,即關系密切的聚合到一個小的分類單位, 疏遠的聚合到一個大的分類單位,直到把所有 樣品都聚合完畢,形成一個由小到大的分類系 統,最后把分類系統直觀地用圖形表示出來。,聚類分析的依據及分類,聚類分析是根據樣本或變量之間的相似性(親疏關系),根據一批樣本的多個觀測指標(變量)具體找出一些能夠度量樣本或觀測指標(變量)之間相似程度的統計量相似系數、距離系數、相關系數,以這些統計量作為劃分類型的依
3、據 聚類分析根據研究對象和研究方法的不同可分為兩類:,1.對象分類 根據分類對象的不同,聚類分析分為二種,一種是對指標(即變量)進行分類,叫做 R 型聚類分析,另一種是對樣品進行分類,叫做 Q 型聚類分析。 2.方法分類 從聚類所采用的方法上看,又有聚合法、分裂法、圖論法等。,第二節(jié) 原始數據的處理,處理的目的: 消除變量之間單位、數量級的影響 使各個變量具有相等的權(一視同仁),處理的方法,一標準化變換 二規(guī)格化(或正規(guī)化、極差變換)變換 三其他規(guī)格化方法 (一)極大值規(guī)格化 (二)均值規(guī)格化 (三)標準差規(guī)格化,第三節(jié) 聚類分析中的統計量,假設有N個樣品,每個樣品測得m項指標(變量),于是
4、我們把每個樣品看成m維空間中的一個向量(點);Xi=(Xi1,Xi2,Xim)/ (i=1,2,m) 這樣,N個樣品可以排成一個矩陣,即 X1 X11 X12 X1m X2 X21 X22 X2m . . X = . = . . . XN XN1 XN2 XNm,其中,XIJ(i=1,2,N;j=1,2,m)為第i個樣品第j個指標的觀測數據。X即為原始資料矩陣,第i個樣品Xi為矩陣X的第i行所描述,第j個變量Xj為矩陣的第j列所描述。 任意兩個樣品Xi與Xk之間的相似性可以通過矩陣X中的第i行與第k行的相似程度來刻劃;任意兩個變量Xj與Xk之間的相似性可以通過矩陣X中的第j列與第k列的相似程度
5、來刻劃。 分類統計量的定義: 能夠表示樣品(或變量)間相似(或相關)程度的數量指標,這些數量指標叫分類統計量。 分類統計量的分類: 一.距離系數 二.相似系數夾角的余弦 三.相關系數,一.距離系數,如果把N個樣品看作是m X2 維空間中的N個點,則任意 Xj(X1J,X2J) 兩個樣品之間的相似程度可 用m維空間中的兩點間的距離 XK(X1K,X2K) 來度量。 先看平面上兩點Xj,Xk 間的距離。 0 X1,當變量標準化后,0djk1。 djk越小表示第j個樣品與 第k個樣品就越相似或關系密切;反之,相似性就越小。 d11 d12 d1N d21 d22 d2N D= . dN1 dN2 d
6、NN 其中,d11=d22=dNN=0,注意:,1.距離系數是建立在歐氏空間基礎上的。因此,若各變量之間都不相關,距離系數才能反映樣品間的關系。 2.若變量間有某種相關性,此時距離系數就不能準確地反映樣本之間的關系。解決辦法: (1)先通過因子(主成分)分析,把變量先變換為互不相關的新變量; (2)利用斜交距離計算距離系數,其公式為:,二.相似系數夾角的余弦,相似系數是描述樣品之間相似程度的一種度量。 方法:把任意兩個樣品xj與xk看成是m維空間的兩個向量,這兩個向量的夾角的余弦(相似系數)用cos jk 來表示,即 Xj=(x1j,x2j,,xmj)/ xk=(x1k,x2k,xmk)/,三
7、.相關系數,對于任意兩個變量xi與xj之間的親疏程度可用相關系數rij來表示:,第四節(jié) 聚類方法和步驟,一.聚類的原則 在已計算出相似性矩陣后,可以它為依據,對樣品(或指標)進行聚合歸類,最后形成譜系圖。其集合歸類一般應遵從下面四條原則: (1)若選出一對樣品在已經分好的組中都未出現過,則把它們形成一個獨立的新組; (2)若選出兩個樣品中,有一個是在已經分好的組中出現過,則把另一個樣品也加入到該組中; (3)若選出一對樣品,都分別出現在已經分好的兩組中,則把這兩個組聯結在一起; (4)若選出的一對樣品都出現在同一組中,則這對樣品就不用再分組了。 按上述四條原則反復進行,直到把所有樣品都分類聚合
8、完畢為止。,二.聚類的方法,(一)一次計算聯結法 例:對某地超基性巖的一批樣品,經光譜分析得與礦化有關的某些元素(指標),其資料數據如下表,試用R-型聚類分析研究各指標間的相關關系。,1 2 3 4 5 6 Ni Co Cu Cr S As 1Ni 1 2Co 0.8462 1 (2) 3Cu 0.7579 0.9802 1 (1) R= 4Cr 0.6431 0.2419 0.1811 1 (4) 5S 0.5039 0.7370 0.7210 -0.3075 1 6As 0.5603 0.4241 0.3930 0.1998 0.6802 1 (3),(3)在R的非對角線元素中,相關系數最
9、大的是r32=0.9802,于是將第2、第3兩元素即Co、Cu連結,劃去R中的第三行、第三列;在剩下的相關系數中最大的是r21=0.8462,z這時將第1元素Ni與已連結成組的(Co、Cu)連結,劃去第二行、第二列;接著最大的是r65=0.6802,就把第5、6元素即S與As連結,劃去第六行、第六列;緊接著最大的是r41=0.6431,而第1元素已經同第2、3元素連結成組,于是把這組與第4元素連結,劃去第四行、第四列;最后剩下r51=0.5039,這時就把(S、As)組與(Ni,Co,Cu,Cr)組連結。,一次計算連結法比較簡便,只要計算出相關矩陣后,一次就可形成譜系圖,顯示出變量的聚合情況。
10、但是,一次形成可能把不相關的變量都放到同一群里,以后也就不能剔除。 Cr因為與Ni的關系而被聚集在Co、Cu這一群里,但事實并非如此,比較準確的劃分常采用下面的逐步聚類法。,二.逐步聚類法,(一)步驟 現以計算相似系數的Q型分析為例,說明實施步驟: 1.計算N個樣品的相似系數矩陣,共計算N(N1)/2個數值,挑出相似系數最大的一對樣品; 2.把挑出的成對樣品(或樣品組)的相應變量加權平均,形成一個新樣品的數據。由單個樣品組成的成對樣品,求各樣品的算術平均值,由樣品組構成的成對樣品,求各變量的加權平均值,樣品組中的樣品數為權數; 3.把挑出的樣品對 或樣品組的代表性樣品的數據全部刪除,把新樣品的
11、數據放在序號最小的樣品數據位置上,重新計算新樣品與剩余樣品的相似系數,再從中挑出相似系數最大的樣品對或樣品組,重復2、3兩個步驟,共作N1次,直到把所有的樣品都歸類完畢為止。,(二)實例,例:以探討冀北坳陷東部震旦亞界原生油苗、煤和生油巖之間的關系為例,選取了9塊樣品,以紅外吸收光譜圖芳烴組分譜圖上的6個變量,介紹Q型聚類分析的具體內容。原始數據如下表:,原始數據正規(guī)化后得:,解:1.根據上表計算距離系數矩陣,0.000 0.119 0.000 0.807 0.813 0.000 0.768 0.764 0.411 0.000 D= 0.775 0.783 0.065 0.425 0.000
12、0.810 0.806 0.543 0.146 0.562 0.000 0.649 0.670 0.203 0.351 0.174 0.476 0.000 0.699 0.699 0.267 0.260 0.295 0.357 0.257 0.000 0.827 0.824 0.351 0.146 0.386 0.225 0.350 0.191 0.000,2.在D陣中非對角線元素中選出最小值d5、3=0.065,聯結樣品號為3、5,保留小序號3,去掉大序號5,將D陣中的第5行、第5 列劃去。把3 號與5 號樣品正規(guī)化后的數據合并,合并的方法是取各變量的平均值作為3、5號樣品的變量值(0.01
13、95,0.0197,0.0357,0.6373,0.9885,0.0843)重新計算組合樣品與其它樣品間的距離系數,用以替換D陣中的第3行、第3列元素,得新的距離系數矩陣D1,即:,0.000 0.119 0.000 0.791 0.797 0.000 0.768 0.764 0.417 0.000 D1= 0.810 0.806 0.552 0.146 0.000 0.649 0.670 0.186 0.351 0.476 0.000 0.699 0.699 0.279 0.260 0.357 0.257 0.000 0.827 0.824 0.367 0.146 0.225 0.350 0
14、.191 0.000,3.在D1陣非對角線元素中選出最小值d2、1=0.119,聯結樣品號為1、2,保留小序號1,去掉大序號2,在D1陣中劃去第2行、第2 列,合并1、2號樣品正規(guī)化后的數據,(0.8766,0.9678,0.9708,0.049,0.0385,0.0169),重新計算與其它樣品的距離系數,用以替換D1陣中的第1、第1 列的元素,得D2陣,即:,0.000 0.792 0.000 0.764 0.417 0.000 D2= 0.806 0.552 0.146 0.000 0.657 0.186 0.351 0.476 0.000 0.697 0.279 0.260 0.357
15、0.257 0.000 0.823 0.367 0.146 0.325 0.350 0.191 0.000,4.在D2陣中選出最小值d9、4=0.146,按上述過程在D2陣中劃去第9行、第9列(合并后數據為0.0195,0.0502,0.1169,0.8922,0.4154,0.7865),并以重新計算的距離系數取代原矩陣中的第4行、第4 列元素,得D3陣,即:,0.000 0.792 0.000 0.791 0.386 0.000 D3 = 0.806 0.552 0.175 0.000 0.657 0.186 0.343 0.476 0.000 0.697 0.279 0.216 0.35
16、7 0.257 0.000,5.重復上述過程。但應指出的是djk的最小值是0.175,即聯結的樣品號為6與4、9號,由于4 號與9號樣品已經合并,所以在求6 號與4、9號合并的各變量時,應按,0.000 (2) 0.792 0.000 0.791 0.441 0.000 D4= (1) (4) 0.657 0.186 0.384 0.000 0.697 0.279 0.258 0.257 0.000 (3),6.D4陣中的聯結樣品號為3、5號與7號,d7;3,5=0.186。重復上述過程得:,0.000 (2) 0.744 0.000 D5= 0.791 0.413 0.000 (1)(4)
17、(5) 0.697 0.257 0.258 0.000 (3),7.D5陣中最小的為d8;3,5,7=0.257,經變換后的矩陣為:,0.000 (2) 0.724 0.000 D6= 0.791 0.364 0.000 (1) (4) (5) (6) (3),8.D6中最小的d4,9,6;3,5,7,8=0.364,最后一個矩陣為D7中除只保留1、2號與3、5、7、8、4、9、6號兩組樣品的距離系數0.732外,其它均被劃掉,故不列出。,到此為止,已按距離系數由小到大的順序進行了逐步聚類,樣品間關系的親疏程度見下表:,9.最后以距離系數為橫坐標,按上表作出了9 個樣品的Q型聚類分析譜系圖如下
18、:,0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 距離系數 1 (1) 2 3 5 7 8 (2) 4 9 6,若以d=0.6為標準,則所有樣品分為兩群:,第一群:由1、2號樣品組成,即是上石炭統太原組的煤和碳質頁巖分為一類。 第二群:為與油氣有關的油苗和油源巖。第二群又可以分為兩個較小的類別,一類是4、9、6號樣品,另一類是3、5、7、8號樣品。前者表明震旦亞界鐵嶺組和下馬嶺組的油苗都可能來自下馬嶺組的黑色灰?guī)r;后者說明下寒武統府君山組和震旦亞界霧迷山組的油苗,都可能來自下馬嶺組的黑色頁巖,甚至鐵嶺組的油苗(8號樣)也來自下馬嶺組。 總之,從聚類分析譜系圖看,成煤成油環(huán)
19、境有很大差異,而各時代的油苗可能有相近的生油層。,為了便于比較,還用相似系數對同樣數據做了逐步Q型聚類分析,其譜系圖如下圖所示。與用距離系數的聚類結果基本一致。,1.0 0.8 0.6 0.4 0.2 相似系數 1 2 (1) 3 5 7 (2) 4 6 9 8,第五節(jié) 聚類分析在儲層分類和估算油氣儲量上的應用,一.利用聚類分析研究儲層分類 例:探討華北某地震旦系霧迷山組中的儲層分類,并剖析孔隙結構等18個參數之間的相關關系,對同樣的樣品作了R型和Q型聚類分析。分析結果及譜系圖如下:,華北某地霧迷山組儲層孔隙結構等18個參數的 R型聚類分析譜系圖 (孔隙單位為m),1.0 0.3 0 -1.0
20、相關系數 常大 煤油法孔隙度 規(guī)喉 觀測孔隙度 物道 0.75孔隙% 性有 滲透率 k 與關 分選 sp 儲主 1.250.75 孔隙% 滲要 0.750.5孔隙% 1 流孔 7.51.25孔隙% 體隙 0.50.3孔隙% 1 小喉 0.30.15 孔隙% 道 0.150.03孔隙% 微細 swi 喉道 sHgi 0.03孔隙% 1 6 DM 與 DM Pc50受 Pc50 細喉 0.050.03孔隙% 道制 0.0750.05孔隙% 約,根據均值DM、飽和度中值毛管壓力Pc50、滲透率K、孔隙度m和分選SP等5 個變量得到的46 個樣品的Q型聚類分析譜系圖。當取距離系數0.25為標準時,樣品
21、明顯分為三群: 第一群: 2、3、4、6、7 、10、11、12、13、15、16號共11個樣品。這些樣品全部屬于以溶蝕孔洞與構造縫為主的好儲層,與地質上定性分析(116號)分類的結果一致。 第二群:20、22、23、27、28、29、30、31、32、36、37、40、41、42、45、46號共16個樣品,地質分類1737(共21塊樣品)號樣品屬于以晶間隙為主的差儲層。 第三群:5、9、17、18、19、21、24、25、26、33、34、35、38、39、43、44等16 塊樣品,屬于基質微孔為主的非儲層。 此外,第1、8、14三個樣品是屬于特殊類型的儲層,它與第一、二、三類儲層關系均不密切,這可能是由于儲層高度非均質和取樣等原因而形成相對獨立的一類。 第二、三群有93%的樣品分類結果與地質上的定性分析一致,但從多變量的分類上修正了7%樣品的分類,使之更符合客觀實際,這體現了聚類分析的重要作用。,二.估算油氣遠景儲量,立足于整個含油氣盆地來估算油氣的遠景儲量,往往由于含油氣盆地之間的差異較大難于對比,其效果并不理想,原因在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中語文文言文復習課件
- 贛南衛(wèi)生健康職業(yè)學院《cinema4d》2023-2024學年第一學期期末試卷
- 贛東學院《物流學基礎》2023-2024學年第一學期期末試卷
- 2022年三月公務員考試公共基礎知識沖刺測試題
- 七年級生物上冊第三單元生物圈中的綠色植物第二章被子植物的一生第一節(jié)種子的萌發(fā)教案新版新人教版
- 《雨后教學》課件
- 三年級數學上冊一動物趣聞-克千克噸的認識噸的認識說課稿青島版六三制
- 2024-2025學年北京市豐臺區(qū)高三語文上學期期末試卷及答案解析
- 銀行網點數據分析-培訓課程
- 境外公共安全課件
- 《商務溝通與談判》配套教學課件
- IWE(國際焊接工程師)考試試題生產模塊
- 建筑施工安全生產責任保險承保機構考評辦法
- 客訴品質異常處理單
- 趙一鳴員工考核內容
- DL∕T 617-2019 氣體絕緣金屬封閉開關設備技術條件
- 危急值報告制度及處理流程培訓課件
- 班級管理(第3版)教學課件匯總全套電子教案(完整版)
- 新北師大版八年級下冊數學(全冊知識點考點梳理、重點題型分類鞏固練習)(基礎版)(家教、補習、復習用)
- 公司崗位權責劃分表
- 玻璃采光頂施工工藝
評論
0/150
提交評論