模糊聚類分析與模式識(shí)別_第1頁
模糊聚類分析與模式識(shí)別_第2頁
模糊聚類分析與模式識(shí)別_第3頁
模糊聚類分析與模式識(shí)別_第4頁
模糊聚類分析與模式識(shí)別_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

模糊聚類分析與模式識(shí)別1

模糊數(shù)學(xué)是用數(shù)學(xué)方法研究和處理具有“模糊性”現(xiàn)象的數(shù)學(xué)。所謂的模糊性主要是指客觀事物差異的中間過渡界線的“不分明性”。如儲(chǔ)層的含油氣性、油田規(guī)模的大小,成油地質(zhì)條件的優(yōu)劣,圈閉的形態(tài),巖石的顏色等。這些模糊變量的描述或定義是模糊的,各變量的內(nèi)部分級(jí)沒有明顯的界線。

1965年美國控制論專家L.A.Zadeh提出這一概念后,模糊數(shù)學(xué)得到迅速發(fā)展并應(yīng)用到各個(gè)領(lǐng)域。前言2聚類分析的基本概念“聚類”就是按照一定的要求和規(guī)律對(duì)事物進(jìn)行區(qū)分和分類的過程,在這一過程中沒有任何關(guān)于分類的先驗(yàn)知識(shí),僅靠事物間的相似性作為類屬劃分的準(zhǔn)則,屬于無監(jiān)督分類的范疇?!熬垲惙治觥笔侵赣脭?shù)學(xué)的方法研究和處理給定對(duì)象的分類?!叭艘匀悍?物以類聚”,聚類是一個(gè)古老的問題,它伴隨著人類社會(huì)的產(chǎn)生和發(fā)展而不斷深化,人類要認(rèn)識(shí)世界就必須區(qū)別不同的事物并認(rèn)識(shí)事物間的相似性。3聚類分析的基本概念聚類分析是多元統(tǒng)計(jì)分析的一種,它把一個(gè)沒有類別標(biāo)記的樣本集按某種準(zhǔn)則劃分成若干個(gè)子集(類),使相似的樣本盡可能歸為一類,而不相似的樣本盡量劃分到不同的類中。傳統(tǒng)的聚類分析是一種硬劃分,它把每個(gè)待辨識(shí)的對(duì)象嚴(yán)格地劃分到某類中,具有非此即彼的性質(zhì),因此這種類別劃分的界限是分明的。而實(shí)際上大多數(shù)對(duì)象并沒有嚴(yán)格的屬性,它們在性態(tài)和類屬方面存在著中介性,具有亦此亦彼的性質(zhì),因此適合進(jìn)行軟劃分。4聚類分析的基本概念模糊集理論的提出為軟劃分提供了有力的分析工具,用模糊數(shù)學(xué)的方法來處理聚類問題,被稱之為模糊聚類分析。由于模糊聚類得到了樣本屬于各個(gè)類別的不確定性程度,表達(dá)了樣本類屬的中介性,更能客觀地反映現(xiàn)實(shí)世界,從而成為聚類分析研究的主流。模糊聚類已經(jīng)在諸多領(lǐng)域獲得了廣泛的應(yīng)用,如模式識(shí)別、圖像處理、信道均衡、矢量量化編碼、神經(jīng)網(wǎng)絡(luò)的訓(xùn)練、參數(shù)估計(jì)、醫(yī)學(xué)診斷、天氣預(yù)報(bào)、食品分類、水質(zhì)分析等。5聚類分析的基本概念常用的模糊聚類分析方法大致可分為兩大類:其一是基于模糊關(guān)系(矩陣)的聚類分析方法,而作為其中核心步驟的模糊分類,有下述的主要方法:模糊傳遞閉包法、直接聚類法、最大樹法和編網(wǎng)法;其二是基于目標(biāo)函數(shù)的聚類分析方法,稱為模糊C均值(FCM)聚類算法(或稱為模糊ISODATA聚類分析法)(IterativeSelf-OrganizingDataAnalysisTechniquesAlgorithm迭代自組織數(shù)據(jù)分析)。6§1模糊聚類分析

模糊聚類分析是在模糊相似矩陣的基礎(chǔ)上,對(duì)分類對(duì)象進(jìn)行定量分類的方法。主要內(nèi)容數(shù)據(jù)標(biāo)準(zhǔn)化建立模糊相似矩陣動(dòng)態(tài)聚類71、建立數(shù)據(jù)矩陣

一、數(shù)據(jù)標(biāo)準(zhǔn)化8(1)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化9(2)極差正規(guī)化(3)極差標(biāo)準(zhǔn)化(4)最大值規(guī)格化其中:10由上可知,對(duì)原始數(shù)據(jù)正規(guī)化處理以后,變量最大值為1,最小值為0,即新數(shù)據(jù)在區(qū)間[0,1]內(nèi)。二、模糊相似矩陣

模糊相似矩陣是進(jìn)行模糊聚類的基礎(chǔ)。下面介紹建立模糊相似矩陣的常用方法。11(1)數(shù)量積法1.相似系數(shù)法顯然|rij|∈[0,1],若rij<0,令rij’=(rij+1)/2,則rij’∈[0,1]。其中矢量或點(diǎn):Xj=(xj1

xj2…xjm)Xi=(xi1

xi2…xim)i=ji≠ji,j=1,2,…,n12相似系數(shù)法----(2)夾角余弦法13相似系數(shù)法----(3)相關(guān)系數(shù)法其中14符號(hào)∧和∨分別表示兩個(gè)元素取小和取大。(4)最大最小法例如:1516

(5)算術(shù)平均最小法17(6)幾何平均最小法

上述(4)、(5)、(6)三種方法要求xij≥0,否則,要進(jìn)行適當(dāng)變換。182距離法①Hamming距離②Euclid距離③Chebyshev距離19三、聚類1.模糊等價(jià)矩陣給定U上的一個(gè)模糊關(guān)系Rij=[rij]n×n,若它滿足:

(1)自反性(rij=1);

(2)對(duì)稱性(rij=rji

);

(3)傳遞性();則稱R是U上的一個(gè)模糊等價(jià)矩陣。傳遞性20式中“○”表示矩陣的合成運(yùn)算,類似矩陣乘法運(yùn)算,但要將元素的相乘改為求最小值、相加改為求最大值。例如:矩陣乘法運(yùn)算矩陣○運(yùn)算21相似性度量的相關(guān)、相似系數(shù)矩陣滿足自反性和對(duì)稱性,但不一定滿足傳遞性。對(duì)于傳遞性,可先計(jì)算R○R(記作R2),然后看其是否滿足傳遞性。若不滿足,經(jīng)過R○R=R2,R2○R2=R4…運(yùn)算,可將R改造成滿足傳遞性的模糊等價(jià)矩陣。2.模糊等價(jià)矩陣的λ截矩陣

設(shè)R=[rij]n×n是模糊等價(jià)矩陣,對(duì)任意λ∈[0,1],稱Rλ=[rij(λ)]n×n為R=[rij]n×n的λ截矩陣,其中:221.000.890.420.410.270.220.891.000.460.450.300.250.420.461.000.770.680.560.410.450.771.000.620.590.270.300.680.621.000.690.220.250.560.590.691.00

R=將R中≥0.6的元素改為1,其它元素改為01.00

1.00

0.000.000.000.001.00

1.00

0.000.000.000.000.000.00

1.00

1.001.00

0.000.000.00

1.00

1.00

1.00

0.000.000.001.001.00

1.00

1.00

0.000.000.000.001.00

1.00RR=矩陣RR叫做R矩陣的截矩陣(λ≥0.6)23(1)模糊傳遞閉包法步驟:

3.分類由模糊等價(jià)矩陣的λ截矩陣可知,當(dāng)rij=1時(shí),i與j應(yīng)為同類,否則為異類。

讓?duì)擞纱蟮叫∽兓?,可形成?dòng)態(tài)聚類圖。2425例:設(shè)有模糊相似矩陣2627解:由題設(shè)知特性指標(biāo)矩陣為采用最大值規(guī)格化法將數(shù)據(jù)規(guī)格化為28用最大最小法構(gòu)造模糊相似矩陣得到29用平方法合成傳遞閉包30取,得31取,得取,得32取,得取,得33畫出動(dòng)態(tài)聚類圖如下:0.70.630.620.53134

對(duì)于不同的λ∈[0,1],可得不同的分類方案,從而形成一種動(dòng)態(tài)聚類圖。這對(duì)全面了解對(duì)象的分類情況是比較形象和直觀的。但有的實(shí)際問題需要選擇某個(gè)閥值λ,確定一個(gè)具體的分類,這就是確定閥值λ的問題。二、最佳閥值λ的確定

在動(dòng)態(tài)聚類過程中,調(diào)整λ的值以得到適當(dāng)?shù)姆诸?。另外,也可由熟悉專業(yè)的專家確定閥值λ,得到閥值λ水平上的分類。1.按實(shí)際需要確定35設(shè)對(duì)應(yīng)于λ的分類數(shù)為r,第j類的樣品數(shù)為nj

,j類的樣本記為:

2.用F-統(tǒng)計(jì)量確定λ的最佳值第j類的聚類中心為向量:第j類中第k個(gè)變量的平均值:36定義F-統(tǒng)計(jì)量為:表征了類與類之間的距離表征類內(nèi)樣品間的距離F越大,表明類間的差異越大,分類效果就越好。為:與的距離。為第j類中樣品與的距離。37假設(shè)各類差異不明顯,對(duì)于給定的檢驗(yàn)水平α,查Fα(r-1,n-r)分布表,得臨界值Fα,若F>Fα,則認(rèn)為各類之間有明顯的差異。F服從自由度為r-1,n-r的F分布。38簡單講,模型識(shí)別就是根據(jù)研究對(duì)象具有的某些特征對(duì)其進(jìn)行識(shí)別并歸類。如采集的植物標(biāo)本識(shí)別它屬于哪個(gè)綱目;又如撥打電話號(hào)碼識(shí)別對(duì)應(yīng)的電話機(jī)。這種模型識(shí)別具有2個(gè)本質(zhì)的特征:§2模糊模型識(shí)別一、基本概念

①事先已知若干標(biāo)準(zhǔn)模型(稱為標(biāo)準(zhǔn)模型庫),模型具有明顯的界線;1.模型識(shí)別②有待識(shí)別歸類的對(duì)象,并且它所屬的類必然是若干標(biāo)準(zhǔn)模型之一。39

模糊模型識(shí)別是指標(biāo)準(zhǔn)模型庫中的模型是模糊的(模型間沒有明顯的界線)。如據(jù)電測或氣測資料,建立的儲(chǔ)層含油氣性(油層、油氣層、油水同層、氣層、含水油層、干層等)標(biāo)準(zhǔn)模型庫,又如由不同沉積相巖樣觀測值構(gòu)成的巖樣標(biāo)準(zhǔn)模型庫,它們中的模型都是模糊的。因此,根據(jù)測井信息或者巖樣的觀測值判斷鉆穿儲(chǔ)層的含油氣性、巖樣的沉積相是一個(gè)模糊集對(duì)標(biāo)準(zhǔn)模糊集的識(shí)別問題。對(duì)于這類模型識(shí)別問題,可據(jù)模型的界線對(duì)待識(shí)別對(duì)象進(jìn)行歸類,是標(biāo)準(zhǔn)集對(duì)標(biāo)準(zhǔn)集的識(shí)別。2.模糊模型識(shí)別40為了解決模糊集的識(shí)別問題,需要一個(gè)度量模糊集與標(biāo)準(zhǔn)模糊集靠近程度的指標(biāo),這就是下面要介紹的隸屬度和貼近度。

(1)模糊向量及其內(nèi)外積若0≤ai≤1(i=1,2,…,n),則稱向量a=(a1,a2,…,an)為模糊向量。設(shè)a,b是模糊向量,則分別稱:二、隸屬度和貼近度1.隸屬度為向量a與b內(nèi)積和外積。符號(hào)∧和∨分別表示兩個(gè)元素取小和取大。表示和取大、小運(yùn)算。41例如設(shè):0.10.500.60.200.70.30.20.50.70.6

取小→0.20.10.500.60.200.70.30.1000.3取大→0.3ab42(2)模糊向量集合族(3)隸屬度

設(shè)U上有n個(gè)模糊子集,其隸屬函數(shù)為:

當(dāng)為模糊向量集合族,為普通向量時(shí),則:為對(duì)的隸屬度。

設(shè)是論域U上的n個(gè)模糊子集,稱以模糊集為分量的模糊向量為模糊向量集合族,記為:43應(yīng)用模糊數(shù)學(xué)方法的關(guān)鍵是建立符合實(shí)際的隸屬函數(shù),但它是目前尚未完全解決的問題。我國的汪培莊教授提出的隨機(jī)集落影理論對(duì)于相當(dāng)一部分模糊集的隸屬函數(shù)的客觀實(shí)在性給出了滿意的解釋,基于這一理論的模糊統(tǒng)計(jì)方法是確定一類模糊集隸屬度的有效方法?,F(xiàn)確定隸屬函數(shù)的方法有模糊統(tǒng)計(jì)法、指派法、借用已有尺度法等。

基于不同考慮,隸屬度也有其他的定義形式,如:44(4)最大隸屬度原則原則Ⅰ:

設(shè)論域

U={x1,x2,…,xn}上有m個(gè)模糊子集:

(m個(gè)模型)構(gòu)成一個(gè)標(biāo)準(zhǔn)模型庫,若對(duì)x0∈U,有i0∈{1,2,…,m}

使得則認(rèn)為x0隸屬于。45則應(yīng)首先錄取xk。

原則Ⅱ:

設(shè)論域U上只有1個(gè)標(biāo)準(zhǔn)型,現(xiàn)有n個(gè)待識(shí)別對(duì)象x1,x2,…,xn∈U,若其中的xk

滿足:為便于理解,下面給出應(yīng)用的例子:46原則Ⅰ的例子。在論域U=[0,100](分?jǐn)?shù))上確定三個(gè)代表學(xué)習(xí)成績的模集糊=“優(yōu)”,=“良”,=“差”。當(dāng)某學(xué)生的數(shù)學(xué)成績?yōu)?8分時(shí),該學(xué)生的數(shù)學(xué)成績該評(píng)為優(yōu)、良、還是差?

為此,要先建立模糊集隸屬函數(shù)。有人用指派法建立了論域U上模糊集的隸屬函數(shù)為:4748

把x=88分別代入上述三個(gè)隸屬函數(shù),得:

據(jù)原則Ⅰ,88分相對(duì)三個(gè)模型應(yīng)隸屬于,即可評(píng)為優(yōu)。49例細(xì)胞染色體形狀的模糊識(shí)別細(xì)胞染色體形狀的模糊識(shí)別就是幾何圖形的模糊識(shí)別,而幾何圖形常常化為若干個(gè)三角圖形,故設(shè)論域?yàn)槿切稳w.即X={(A,B,C)|A+B+C=180,A≥B≥C}

標(biāo)準(zhǔn)模型庫={E(正三角形),R(直角三角形),I(等腰三角形),I∩R(等腰直角三角形),T(任意三角形)}.某人在實(shí)驗(yàn)中觀察到一染色體的幾何形狀,測得其三個(gè)內(nèi)角分別為94,50,36,即待識(shí)別對(duì)象為x0=(94,50,36).問x0應(yīng)隸屬于哪一種三角形?50先建立標(biāo)準(zhǔn)模型庫中各種三角形的隸屬函數(shù).直角三角形的隸屬函數(shù)R(A,B,C)應(yīng)滿足條件:

(1)當(dāng)A=90時(shí),R(A,B,C)=1;(2)當(dāng)A=180時(shí),R(A,B,C)=0;(3)0≤R(A,B,C)≤1.因此,不妨定義R(A,B,C)=1-|A-90|/90.則R(x0)=0.955.

或者其中p=|A–90|則R(x0)=0.54.51正三角形的隸屬函數(shù)E(A,B,C)應(yīng)滿足:(1)當(dāng)A=B=C=60時(shí),E(A,B,C)=1;(2)當(dāng)A=180,B=C=0時(shí),E(A,B,C)=0;(3)0≤E(A,B,C)≤1.

因此,不妨定義E(A,B,C)=1–(A–

C)/180.則E(x0)=0.677.

或者其中p=A–C

則E(x0)=0.02.52等腰三角形的隸屬函數(shù)I(A,B,C)應(yīng)滿足:(1)當(dāng)A=B或者B=C時(shí),I(A,B,C)=1;(2)當(dāng)A=180,B=60,C=0時(shí),I(A,B,C)=0;(3)0≤I(A,B,C)≤1.

因此,不妨定義I(A,B,C)=1–[(A–

B)∧(B–

C)]/60.則I(x0)=0.766.

或者

p=(A–

B)∧(B–

C)則I(x0)=0.10.53等腰直角三角形的隸屬函數(shù)(I∩R)(A,B,C)=I(A,B,C)∧R(A,B,C);(I∩R)(x0)=0.766∧0.955=0.766.任意三角形的隸屬函數(shù)T(A,B,C)=Ic∩Rc∩Ec=(I∪R∪E)c.T(x0)=(0.766∨0.955∨0.677)c=(0.955)c=0.045.

通過以上計(jì)算,R(x0)=0.955最大,所以x0應(yīng)隸屬于直角三角形.或者(I∩R)(x0)=0.10;T(x0)=(0.54)c=0.46.仍然是R(x0)=0.54最大,所以x0應(yīng)隸屬于直角三角形.54

(2)擇近原則設(shè)論域U上有m個(gè)模糊子集構(gòu)成一個(gè)標(biāo)準(zhǔn)模型庫為待識(shí)別的對(duì)象。若存在i0∈{1,2,…,m}使得:

2.貼近度及其擇近原則

(1)貼近度貼近度是描述模糊集之間彼此靠近程度的指標(biāo),是我國學(xué)者汪培莊教授提出的,由于研究的問題不同,貼近度也有不同的定義形式,它的一般定義為:設(shè)A,B是論域U上的兩個(gè)模糊子集,則稱為A與B的貼近度。55待識(shí)別對(duì)象歸入Ai0類。

(3)實(shí)用貼近度實(shí)際工作中實(shí)用的幾個(gè)貼近度計(jì)算公式:56

例1茶葉的模型識(shí)別論域U={茶葉},其等級(jí)標(biāo)準(zhǔn)模型庫質(zhì)量指標(biāo)模型樣品條索0.50.30.20.00.00.4色澤0.40.20.20.10.10.2凈度0.30.20.20.20.10.1湯色0.60.10.10.10.10.4香氣0.50.20.10.10.10.5滋味0.40.20.20.10.10.6三、應(yīng)用待識(shí)別的茶葉樣品為B,衡量茶葉質(zhì)量指標(biāo)為:條索,色澤,凈度,湯色,香氣和滋味。模型庫與樣品的有關(guān)數(shù)據(jù)如右表。貼近度計(jì)算公式:57按擇近原則:58貼近度計(jì)算改用:上述兩種計(jì)算貼近度公式,計(jì)算數(shù)值不同,但歸類果一樣,那一種更好?茶葉樣品59

(1)建立標(biāo)準(zhǔn)模式庫在試油證實(shí)的油層、油水同層、含油水層、油氣層、干層等各取若干個(gè)樣品,每個(gè)以樣品都有相同的7項(xiàng)氣測指標(biāo),它們都是模糊變量

。各氣測指標(biāo)的平均值構(gòu)成論域U={x1,x2,…,x7},xi是論域U上的模糊子集。例2識(shí)別儲(chǔ)層含油氣性論域U={儲(chǔ)層含油氣性},儲(chǔ)層含油氣性可分為油層、油水同層、含油水層、油氣層干層等,構(gòu)成標(biāo)準(zhǔn)模型庫為:X=(X1,X2,X3,X4)。待識(shí)別含油氣性的儲(chǔ)層為Y,試據(jù)貼近度判定Y的含油氣性。60

(2)對(duì)待識(shí)別儲(chǔ)層的識(shí)別計(jì)算待識(shí)別儲(chǔ)層Y與Xi(i=1,2,3,4)的貼近度:

σ0(Xi,Y)(i=1,2,3,4)

若σ0(Xk,Y)是其中最大者,則認(rèn)為待識(shí)別儲(chǔ)層Y的含油性與Xk相同模糊模型庫油層油水同層含有水層干層0.01130.05030.09590.00540.01290.23140.10500.02710.01490.11940.26500.00680.20090.76510.59130.10183.14751.02791.02834.24300.05200.43610.17160.13220.10542.79140.00190.0476儲(chǔ)層含油氣性標(biāo)準(zhǔn)模型數(shù)據(jù)61某地區(qū)儲(chǔ)層含油氣性模式識(shí)別與試油結(jié)果井名深度/m識(shí)別結(jié)果試油結(jié)果Zh101cZh101c潛山潛山潛山Zh104Zh10Zh10Ch307Zh104潛山34273432406939843952321746504660381038873818油層油層油層油水同層油水同層干層含油水層含油水層干層干層干層油層油層油層油水同層油水同層含油水層含油水層含油水層干層干層油水同層62蠓的分類左圖給出了9只Af和6只Apf蠓的觸角長和翼長數(shù)據(jù),其中“●”表示Apf,“○”表示Af.根據(jù)觸角長和翼長來識(shí)別一個(gè)標(biāo)本是Af還是Apf是重要的.

①給定一只Af族或Apf族的蠓,如何正確地區(qū)分它屬于哪一族?②將你的方法用于觸角長和翼長分別為(1.24,1.80),(1.28,1.84),(1.40,2.04)三個(gè)標(biāo)本.6364模糊判別方法先將已知蠓重新進(jìn)行分類.65當(dāng)=0.919時(shí),分為3類{1,2,3,6,4,5,7,8},{9},{10,11,12,13,14,15},三類的中心向量分別為(1.395,1.770),(1.560,2.080),(1.227,1.927).用平移極差變換將它們分別變?yōu)锳1=(0.200,0.637)(Af蠓),A2=(0.390,1.000)(Af

蠓),A3=(0.000,0.821)(Apf蠓),再將三只待識(shí)別的蠓用上述變換分別變?yōu)锽1=(0.015,0.672),B2=(0.062,0.719),B3=(0.203,0.953).66采用貼近度3(A,B)

=計(jì)算得:3(A1,B1)=0.89,3(A2,B1)=0.65,

3(A3,B1)=0.92.3(A1,B2)=0.89,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論