模糊聚類分析與模式識別_第1頁
模糊聚類分析與模式識別_第2頁
模糊聚類分析與模式識別_第3頁
模糊聚類分析與模式識別_第4頁
模糊聚類分析與模式識別_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

模糊聚類分析與模式識別1

模糊數(shù)學是用數(shù)學方法研究和處理具有“模糊性”現(xiàn)象的數(shù)學。所謂的模糊性主要是指客觀事物差異的中間過渡界線的“不分明性”。如儲層的含油氣性、油田規(guī)模的大小,成油地質(zhì)條件的優(yōu)劣,圈閉的形態(tài),巖石的顏色等。這些模糊變量的描述或定義是模糊的,各變量的內(nèi)部分級沒有明顯的界線。

1965年美國控制論專家L.A.Zadeh提出這一概念后,模糊數(shù)學得到迅速發(fā)展并應(yīng)用到各個領(lǐng)域。前言2聚類分析的基本概念“聚類”就是按照一定的要求和規(guī)律對事物進行區(qū)分和分類的過程,在這一過程中沒有任何關(guān)于分類的先驗知識,僅靠事物間的相似性作為類屬劃分的準則,屬于無監(jiān)督分類的范疇?!熬垲惙治觥笔侵赣脭?shù)學的方法研究和處理給定對象的分類?!叭艘匀悍?物以類聚”,聚類是一個古老的問題,它伴隨著人類社會的產(chǎn)生和發(fā)展而不斷深化,人類要認識世界就必須區(qū)別不同的事物并認識事物間的相似性。3聚類分析的基本概念聚類分析是多元統(tǒng)計分析的一種,它把一個沒有類別標記的樣本集按某種準則劃分成若干個子集(類),使相似的樣本盡可能歸為一類,而不相似的樣本盡量劃分到不同的類中。傳統(tǒng)的聚類分析是一種硬劃分,它把每個待辨識的對象嚴格地劃分到某類中,具有非此即彼的性質(zhì),因此這種類別劃分的界限是分明的。而實際上大多數(shù)對象并沒有嚴格的屬性,它們在性態(tài)和類屬方面存在著中介性,具有亦此亦彼的性質(zhì),因此適合進行軟劃分。4聚類分析的基本概念模糊集理論的提出為軟劃分提供了有力的分析工具,用模糊數(shù)學的方法來處理聚類問題,被稱之為模糊聚類分析。由于模糊聚類得到了樣本屬于各個類別的不確定性程度,表達了樣本類屬的中介性,更能客觀地反映現(xiàn)實世界,從而成為聚類分析研究的主流。模糊聚類已經(jīng)在諸多領(lǐng)域獲得了廣泛的應(yīng)用,如模式識別、圖像處理、信道均衡、矢量量化編碼、神經(jīng)網(wǎng)絡(luò)的訓練、參數(shù)估計、醫(yī)學診斷、天氣預(yù)報、食品分類、水質(zhì)分析等。5聚類分析的基本概念常用的模糊聚類分析方法大致可分為兩大類:其一是基于模糊關(guān)系(矩陣)的聚類分析方法,而作為其中核心步驟的模糊分類,有下述的主要方法:模糊傳遞閉包法、直接聚類法、最大樹法和編網(wǎng)法;其二是基于目標函數(shù)的聚類分析方法,稱為模糊C均值(FCM)聚類算法(或稱為模糊ISODATA聚類分析法)(IterativeSelf-OrganizingDataAnalysisTechniquesAlgorithm迭代自組織數(shù)據(jù)分析)。6§1模糊聚類分析

模糊聚類分析是在模糊相似矩陣的基礎(chǔ)上,對分類對象進行定量分類的方法。主要內(nèi)容數(shù)據(jù)標準化建立模糊相似矩陣動態(tài)聚類71、建立數(shù)據(jù)矩陣

一、數(shù)據(jù)標準化8(1)標準差標準化9(2)極差正規(guī)化(3)極差標準化(4)最大值規(guī)格化其中:10由上可知,對原始數(shù)據(jù)正規(guī)化處理以后,變量最大值為1,最小值為0,即新數(shù)據(jù)在區(qū)間[0,1]內(nèi)。二、模糊相似矩陣

模糊相似矩陣是進行模糊聚類的基礎(chǔ)。下面介紹建立模糊相似矩陣的常用方法。11(1)數(shù)量積法1.相似系數(shù)法顯然|rij|∈[0,1],若rij<0,令rij’=(rij+1)/2,則rij’∈[0,1]。其中矢量或點:Xj=(xj1

xj2…xjm)Xi=(xi1

xi2…xim)i=ji≠ji,j=1,2,…,n12相似系數(shù)法----(2)夾角余弦法13相似系數(shù)法----(3)相關(guān)系數(shù)法其中14符號∧和∨分別表示兩個元素取小和取大。(4)最大最小法例如:1516

(5)算術(shù)平均最小法17(6)幾何平均最小法

上述(4)、(5)、(6)三種方法要求xij≥0,否則,要進行適當變換。182距離法①Hamming距離②Euclid距離③Chebyshev距離19三、聚類1.模糊等價矩陣給定U上的一個模糊關(guān)系Rij=[rij]n×n,若它滿足:

(1)自反性(rij=1);

(2)對稱性(rij=rji

);

(3)傳遞性();則稱R是U上的一個模糊等價矩陣。傳遞性20式中“○”表示矩陣的合成運算,類似矩陣乘法運算,但要將元素的相乘改為求最小值、相加改為求最大值。例如:矩陣乘法運算矩陣○運算21相似性度量的相關(guān)、相似系數(shù)矩陣滿足自反性和對稱性,但不一定滿足傳遞性。對于傳遞性,可先計算R○R(記作R2),然后看其是否滿足傳遞性。若不滿足,經(jīng)過R○R=R2,R2○R2=R4…運算,可將R改造成滿足傳遞性的模糊等價矩陣。2.模糊等價矩陣的λ截矩陣

設(shè)R=[rij]n×n是模糊等價矩陣,對任意λ∈[0,1],稱Rλ=[rij(λ)]n×n為R=[rij]n×n的λ截矩陣,其中:221.000.890.420.410.270.220.891.000.460.450.300.250.420.461.000.770.680.560.410.450.771.000.620.590.270.300.680.621.000.690.220.250.560.590.691.00

R=將R中≥0.6的元素改為1,其它元素改為01.00

1.00

0.000.000.000.001.00

1.00

0.000.000.000.000.000.00

1.00

1.001.00

0.000.000.00

1.00

1.00

1.00

0.000.000.001.001.00

1.00

1.00

0.000.000.000.001.00

1.00RR=矩陣RR叫做R矩陣的截矩陣(λ≥0.6)23(1)模糊傳遞閉包法步驟:

3.分類由模糊等價矩陣的λ截矩陣可知,當rij=1時,i與j應(yīng)為同類,否則為異類。

讓λ由大到小變化,可形成動態(tài)聚類圖。2425例:設(shè)有模糊相似矩陣2627解:由題設(shè)知特性指標矩陣為采用最大值規(guī)格化法將數(shù)據(jù)規(guī)格化為28用最大最小法構(gòu)造模糊相似矩陣得到29用平方法合成傳遞閉包30取,得31取,得取,得32取,得取,得33畫出動態(tài)聚類圖如下:0.70.630.620.53134

對于不同的λ∈[0,1],可得不同的分類方案,從而形成一種動態(tài)聚類圖。這對全面了解對象的分類情況是比較形象和直觀的。但有的實際問題需要選擇某個閥值λ,確定一個具體的分類,這就是確定閥值λ的問題。二、最佳閥值λ的確定

在動態(tài)聚類過程中,調(diào)整λ的值以得到適當?shù)姆诸?。另外,也可由熟悉專業(yè)的專家確定閥值λ,得到閥值λ水平上的分類。1.按實際需要確定35設(shè)對應(yīng)于λ的分類數(shù)為r,第j類的樣品數(shù)為nj

,j類的樣本記為:

2.用F-統(tǒng)計量確定λ的最佳值第j類的聚類中心為向量:第j類中第k個變量的平均值:36定義F-統(tǒng)計量為:表征了類與類之間的距離表征類內(nèi)樣品間的距離F越大,表明類間的差異越大,分類效果就越好。為:與的距離。為第j類中樣品與的距離。37假設(shè)各類差異不明顯,對于給定的檢驗水平α,查Fα(r-1,n-r)分布表,得臨界值Fα,若F>Fα,則認為各類之間有明顯的差異。F服從自由度為r-1,n-r的F分布。38簡單講,模型識別就是根據(jù)研究對象具有的某些特征對其進行識別并歸類。如采集的植物標本識別它屬于哪個綱目;又如撥打電話號碼識別對應(yīng)的電話機。這種模型識別具有2個本質(zhì)的特征:§2模糊模型識別一、基本概念

①事先已知若干標準模型(稱為標準模型庫),模型具有明顯的界線;1.模型識別②有待識別歸類的對象,并且它所屬的類必然是若干標準模型之一。39

模糊模型識別是指標準模型庫中的模型是模糊的(模型間沒有明顯的界線)。如據(jù)電測或氣測資料,建立的儲層含油氣性(油層、油氣層、油水同層、氣層、含水油層、干層等)標準模型庫,又如由不同沉積相巖樣觀測值構(gòu)成的巖樣標準模型庫,它們中的模型都是模糊的。因此,根據(jù)測井信息或者巖樣的觀測值判斷鉆穿儲層的含油氣性、巖樣的沉積相是一個模糊集對標準模糊集的識別問題。對于這類模型識別問題,可據(jù)模型的界線對待識別對象進行歸類,是標準集對標準集的識別。2.模糊模型識別40為了解決模糊集的識別問題,需要一個度量模糊集與標準模糊集靠近程度的指標,這就是下面要介紹的隸屬度和貼近度。

(1)模糊向量及其內(nèi)外積若0≤ai≤1(i=1,2,…,n),則稱向量a=(a1,a2,…,an)為模糊向量。設(shè)a,b是模糊向量,則分別稱:二、隸屬度和貼近度1.隸屬度為向量a與b內(nèi)積和外積。符號∧和∨分別表示兩個元素取小和取大。表示和取大、小運算。41例如設(shè):0.10.500.60.200.70.30.20.50.70.6

取小→0.20.10.500.60.200.70.30.1000.3取大→0.3ab42(2)模糊向量集合族(3)隸屬度

設(shè)U上有n個模糊子集,其隸屬函數(shù)為:

當為模糊向量集合族,為普通向量時,則:為對的隸屬度。

設(shè)是論域U上的n個模糊子集,稱以模糊集為分量的模糊向量為模糊向量集合族,記為:43應(yīng)用模糊數(shù)學方法的關(guān)鍵是建立符合實際的隸屬函數(shù),但它是目前尚未完全解決的問題。我國的汪培莊教授提出的隨機集落影理論對于相當一部分模糊集的隸屬函數(shù)的客觀實在性給出了滿意的解釋,基于這一理論的模糊統(tǒng)計方法是確定一類模糊集隸屬度的有效方法?,F(xiàn)確定隸屬函數(shù)的方法有模糊統(tǒng)計法、指派法、借用已有尺度法等。

基于不同考慮,隸屬度也有其他的定義形式,如:44(4)最大隸屬度原則原則Ⅰ:

設(shè)論域

U={x1,x2,…,xn}上有m個模糊子集:

(m個模型)構(gòu)成一個標準模型庫,若對x0∈U,有i0∈{1,2,…,m}

使得則認為x0隸屬于。45則應(yīng)首先錄取xk。

原則Ⅱ:

設(shè)論域U上只有1個標準型,現(xiàn)有n個待識別對象x1,x2,…,xn∈U,若其中的xk

滿足:為便于理解,下面給出應(yīng)用的例子:46原則Ⅰ的例子。在論域U=[0,100](分數(shù))上確定三個代表學習成績的模集糊=“優(yōu)”,=“良”,=“差”。當某學生的數(shù)學成績?yōu)?8分時,該學生的數(shù)學成績該評為優(yōu)、良、還是差?

為此,要先建立模糊集隸屬函數(shù)。有人用指派法建立了論域U上模糊集的隸屬函數(shù)為:4748

把x=88分別代入上述三個隸屬函數(shù),得:

據(jù)原則Ⅰ,88分相對三個模型應(yīng)隸屬于,即可評為優(yōu)。49例細胞染色體形狀的模糊識別細胞染色體形狀的模糊識別就是幾何圖形的模糊識別,而幾何圖形常?;癁槿舾蓚€三角圖形,故設(shè)論域為三角形全體.即X={(A,B,C)|A+B+C=180,A≥B≥C}

標準模型庫={E(正三角形),R(直角三角形),I(等腰三角形),I∩R(等腰直角三角形),T(任意三角形)}.某人在實驗中觀察到一染色體的幾何形狀,測得其三個內(nèi)角分別為94,50,36,即待識別對象為x0=(94,50,36).問x0應(yīng)隸屬于哪一種三角形?50先建立標準模型庫中各種三角形的隸屬函數(shù).直角三角形的隸屬函數(shù)R(A,B,C)應(yīng)滿足條件:

(1)當A=90時,R(A,B,C)=1;(2)當A=180時,R(A,B,C)=0;(3)0≤R(A,B,C)≤1.因此,不妨定義R(A,B,C)=1-|A-90|/90.則R(x0)=0.955.

或者其中p=|A–90|則R(x0)=0.54.51正三角形的隸屬函數(shù)E(A,B,C)應(yīng)滿足:(1)當A=B=C=60時,E(A,B,C)=1;(2)當A=180,B=C=0時,E(A,B,C)=0;(3)0≤E(A,B,C)≤1.

因此,不妨定義E(A,B,C)=1–(A–

C)/180.則E(x0)=0.677.

或者其中p=A–C

則E(x0)=0.02.52等腰三角形的隸屬函數(shù)I(A,B,C)應(yīng)滿足:(1)當A=B或者B=C時,I(A,B,C)=1;(2)當A=180,B=60,C=0時,I(A,B,C)=0;(3)0≤I(A,B,C)≤1.

因此,不妨定義I(A,B,C)=1–[(A–

B)∧(B–

C)]/60.則I(x0)=0.766.

或者

p=(A–

B)∧(B–

C)則I(x0)=0.10.53等腰直角三角形的隸屬函數(shù)(I∩R)(A,B,C)=I(A,B,C)∧R(A,B,C);(I∩R)(x0)=0.766∧0.955=0.766.任意三角形的隸屬函數(shù)T(A,B,C)=Ic∩Rc∩Ec=(I∪R∪E)c.T(x0)=(0.766∨0.955∨0.677)c=(0.955)c=0.045.

通過以上計算,R(x0)=0.955最大,所以x0應(yīng)隸屬于直角三角形.或者(I∩R)(x0)=0.10;T(x0)=(0.54)c=0.46.仍然是R(x0)=0.54最大,所以x0應(yīng)隸屬于直角三角形.54

(2)擇近原則設(shè)論域U上有m個模糊子集構(gòu)成一個標準模型庫為待識別的對象。若存在i0∈{1,2,…,m}使得:

2.貼近度及其擇近原則

(1)貼近度貼近度是描述模糊集之間彼此靠近程度的指標,是我國學者汪培莊教授提出的,由于研究的問題不同,貼近度也有不同的定義形式,它的一般定義為:設(shè)A,B是論域U上的兩個模糊子集,則稱為A與B的貼近度。55待識別對象歸入Ai0類。

(3)實用貼近度實際工作中實用的幾個貼近度計算公式:56

例1茶葉的模型識別論域U={茶葉},其等級標準模型庫質(zhì)量指標模型樣品條索0.50.30.20.00.00.4色澤0.40.20.20.10.10.2凈度0.30.20.20.20.10.1湯色0.60.10.10.10.10.4香氣0.50.20.10.10.10.5滋味0.40.20.20.10.10.6三、應(yīng)用待識別的茶葉樣品為B,衡量茶葉質(zhì)量指標為:條索,色澤,凈度,湯色,香氣和滋味。模型庫與樣品的有關(guān)數(shù)據(jù)如右表。貼近度計算公式:57按擇近原則:58貼近度計算改用:上述兩種計算貼近度公式,計算數(shù)值不同,但歸類果一樣,那一種更好?茶葉樣品59

(1)建立標準模式庫在試油證實的油層、油水同層、含油水層、油氣層、干層等各取若干個樣品,每個以樣品都有相同的7項氣測指標,它們都是模糊變量

。各氣測指標的平均值構(gòu)成論域U={x1,x2,…,x7},xi是論域U上的模糊子集。例2識別儲層含油氣性論域U={儲層含油氣性},儲層含油氣性可分為油層、油水同層、含油水層、油氣層干層等,構(gòu)成標準模型庫為:X=(X1,X2,X3,X4)。待識別含油氣性的儲層為Y,試據(jù)貼近度判定Y的含油氣性。60

(2)對待識別儲層的識別計算待識別儲層Y與Xi(i=1,2,3,4)的貼近度:

σ0(Xi,Y)(i=1,2,3,4)

若σ0(Xk,Y)是其中最大者,則認為待識別儲層Y的含油性與Xk相同模糊模型庫油層油水同層含有水層干層0.01130.05030.09590.00540.01290.23140.10500.02710.01490.11940.26500.00680.20090.76510.59130.10183.14751.02791.02834.24300.05200.43610.17160.13220.10542.79140.00190.0476儲層含油氣性標準模型數(shù)據(jù)61某地區(qū)儲層含油氣性模式識別與試油結(jié)果井名深度/m識別結(jié)果試油結(jié)果Zh101cZh101c潛山潛山潛山Zh104Zh10Zh10Ch307Zh104潛山34273432406939843952321746504660381038873818油層油層油層油水同層油水同層干層含油水層含油水層干層干層干層油層油層油層油水同層油水同層含油水層含油水層含油水層干層干層油水同層62蠓的分類左圖給出了9只Af和6只Apf蠓的觸角長和翼長數(shù)據(jù),其中“●”表示Apf,“○”表示Af.根據(jù)觸角長和翼長來識別一個標本是Af還是Apf是重要的.

①給定一只Af族或Apf族的蠓,如何正確地區(qū)分它屬于哪一族?②將你的方法用于觸角長和翼長分別為(1.24,1.80),(1.28,1.84),(1.40,2.04)三個標本.6364模糊判別方法先將已知蠓重新進行分類.65當=0.919時,分為3類{1,2,3,6,4,5,7,8},{9},{10,11,12,13,14,15},三類的中心向量分別為(1.395,1.770),(1.560,2.080),(1.227,1.927).用平移極差變換將它們分別變?yōu)锳1=(0.200,0.637)(Af蠓),A2=(0.390,1.000)(Af

蠓),A3=(0.000,0.821)(Apf蠓),再將三只待識別的蠓用上述變換分別變?yōu)锽1=(0.015,0.672),B2=(0.062,0.719),B3=(0.203,0.953).66采用貼近度3(A,B)

=計算得:3(A1,B1)=0.89,3(A2,B1)=0.65,

3(A3,B1)=0.92.3(A1,B2)=0.89,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論