模糊數(shù)學在數(shù)據(jù)挖掘中應用研究_第1頁
模糊數(shù)學在數(shù)據(jù)挖掘中應用研究_第2頁
模糊數(shù)學在數(shù)據(jù)挖掘中應用研究_第3頁
模糊數(shù)學在數(shù)據(jù)挖掘中應用研究_第4頁
模糊數(shù)學在數(shù)據(jù)挖掘中應用研究_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、模糊數(shù)學在數(shù)據(jù)挖掘中的應用研究作者:JSJ(浙江工業(yè)大學之江學院 信息與計算科學1202)摘要:二十世紀六十年代,產(chǎn)生了模糊數(shù)學這門新興學科。模糊數(shù)學作為一個新興的數(shù)學分支,使過去那些與數(shù)學毫不相關(guān)或關(guān)系不大的學科(如生物學、心理學、語言學、社會科學等)都有可能用定量化和數(shù)學化加以描述和處理,從而顯示了強大的生命力和滲透力,使數(shù)學的應用范圍大大擴展。模糊數(shù)學自身的理論研究進展迅速;模糊數(shù)學目前在自動控制技術(shù)領(lǐng)域仍然得到最廣泛的應用,并在計算機仿真技術(shù)、多媒體辨識等領(lǐng)域的應用取得突破性進展;模糊聚類分析理論和模糊綜合評判原理等更多地被應用于經(jīng)濟管理、環(huán)境科學以及醫(yī)藥、生物、農(nóng)業(yè)、文體等領(lǐng)域,并取

2、得很好效果。關(guān)鍵詞:模糊聚類分析 模糊數(shù)學 應用1.引言:模糊數(shù)學是運用數(shù)學方法研究和處理模糊性現(xiàn)象的一門數(shù)學新分支。它以“模糊集合”論為基礎(chǔ)。它提供了一種處理不肯定性和不精確性問題的新方法,是描述人腦思維處理模糊信息的有力工具。  模糊數(shù)學由美國控制論專家L.A.扎德(L.A.Zadeh,1921-)教授所創(chuàng)立。他于1965年發(fā)表了題為模糊集合論(FuzzySets)的論文,從而宣告模糊數(shù)學的誕生。L.A.扎德教授提出了“模糊集合論”。在此基礎(chǔ)上,現(xiàn)在已形成一個模糊數(shù)學體系。 模糊數(shù)學產(chǎn)生的直接動力,與系統(tǒng)科學的發(fā)展有著密切的關(guān)系。在多變量、非線性、時變的大系統(tǒng)

3、中,復雜性與精確性形成了尖銳的矛盾,它給描述模糊系統(tǒng)提供了有力的工具。L.A.扎德教授于1975年所發(fā)表的長篇連載論著語言變量的概念及其在近似推理中的應用,提出了語言變量的概念并探索了它的含義。模糊語言的概念是模糊集合理論中最重要的發(fā)展之一,語言變量的概念是模糊語言理論的重要方面。語言概率及其計算、模糊邏輯及近似推理則可以當作語言變量的應用來處理。人類語言表達主客觀模糊性的能力特別引人注目,或許從研究模糊語言入手就能把握住主客觀的模糊性、找出處理這些模糊性的方法。有人預言,這一理論和方法將對控制理論、人工智能等作出重要貢獻。模糊數(shù)學誕生至今僅有22年歷史,然而它發(fā)展迅速、應用廣泛。它涉及純粹數(shù)

4、學、應用數(shù)學、自然科學、人文科學和管理科學等方面。在圖象識別、人工智能、自動控制、信息處理、經(jīng)濟學、心理學、社會學、生態(tài)學、語言學、管理科學、醫(yī)療診斷、哲學研究等領(lǐng)域中,都得到廣泛應用。把模糊數(shù)學理論應用于決策研究,形成了模糊決策技術(shù)。只要經(jīng)過仔細深入研究就會發(fā)現(xiàn),在多數(shù)情況下,決策目標與約束條件均帶有一定的模糊性,對復雜大系統(tǒng)的決策過程尤其是如此。在這種情況下,運用模糊決策技術(shù),會顯得更加自然,也將會獲得更加良好的效果。 2.理論基礎(chǔ):一、模糊數(shù)學基本概念:1.模糊集(Fuzzy set)定義1 (1)設(shè)X是論域,稱映射A:X0,1為X上的模糊集合(Fuzzy set)簡稱F集,記

5、為A。稱A(x)為元素x相對于F集的隸屬度。稱A(·)為F集A的隸屬函數(shù)。(2)模糊集合的運算:,并集:,交集:,補集:,2.冪集定義2 稱論域X上的F集的全體集合為X上的F-冪集。3.模糊集的-截集定義3已知U上模糊子集對,則稱為模糊集的-截集;稱為模糊集的-強截集;稱為、的置信水平或閾值。4. 三角范數(shù)、反三角范數(shù)定義4稱二元函數(shù)T:0,1*0,1à0,1為三角?;蛉欠稊?shù),簡稱T-范數(shù),滿足以下條件:若a,b,c,d0,1,有:交換律:T(a,b)=T(b,a)結(jié)合律:T(T(a,b),c)=T(a,T(b,c)單調(diào)性:ac,bd時,T(a,b) T(c,d)邊界條件

6、:T(a,1)=a,T(0,a)=0二、模糊數(shù)學的基本定理:1. 模糊截積定義5已知U上模糊子集,對,也是U上模糊集,其隸屬函數(shù)為:;稱為為與的模糊截積。2. 分解定理1已知模糊子集,則。推論1:對。3. 分解定理2已知模糊子集,則。推論2:對。三、模糊關(guān)系:1.模糊關(guān)系與模糊關(guān)系的合成(1)模糊關(guān)系定義6從U到V 上的一個模糊關(guān)系:,表示具有的關(guān)系程度,。(滿足01)稱為U到V 上的一個模糊關(guān)系的模糊矩陣。模糊關(guān)系性質(zhì):xU,有R(x, x) = 0,則R滿足反自反性;x,yU,xy,有R(x, y)= R(y, x),則R具有對稱性;x,yU,有R(x, y)=R(y, x) = 0,則R

7、具有反對稱性;(x,y),(x,z),(y,z) U×V,有R(x, z)(R(x,y)R(y, z),則R滿足傳遞性。1)F相似關(guān)系:設(shè)R是論域U×V上的模糊關(guān)系,若R滿足自反性和對稱性,稱R為模糊相似關(guān)系。2)F等價關(guān)系:若R滿足自反性、對稱性和傳遞性,稱R為模糊等價關(guān)系。(2 )F集的內(nèi)積與外積定義7 設(shè)論域為X,A,BF(X),稱為F集A與B的內(nèi)積;稱為F集A與B的外積。(3 )格貼近度定義8 設(shè)論域為X,A,BF(X),稱(A·B) ()()為格貼近度。2.模糊等價矩陣及其矩陣定義9設(shè)方陣為以模糊矩陣,若滿足=則稱為模糊等價矩陣。模糊等價矩陣可以反映模糊

8、分類關(guān)系的傳遞性,即描述諸如“甲像乙,乙像丙,則甲像丙”這樣的關(guān)系。設(shè)為一個模糊等價陣,01為一個給定的數(shù),令 則稱矩陣為的截陣。例如,為一個模糊等價陣,取0.4<,則=;若取,則=。3.模糊聚類分析的在數(shù)據(jù)挖掘的應用實例:一.問題的提出:設(shè)某地區(qū)設(shè)置有11個雨量站,其分布圖見圖5-1,10年來各雨量站所測得的年降雨量列入表5-1中。現(xiàn)因經(jīng)費問題,希望撤銷幾個雨量站,問撤銷那些雨量站,而不會太多的減少降雨信息?圖5-1表5-1年降雨量列入年序號1276324159413292258311303175243320225128734934431045428545140230747031924

9、3329056347950222122032041123242462322432812673102733152853273525291311502388330410352267603290292646615822417816420350232024027835072583274324013613813014134021994218453365357452384420482228360316252915827141030828341020117943034218510324406235520442520358343251282371應該撤銷那些雨量站,涉及雨量站的分布,地形,地貌,人員,設(shè)備等眾

10、多因素。我們僅考慮盡可能地減少降雨信息問題。一個自然的想法是就10年來各雨量站所獲得的降雨信息之間的相似性,對全部雨量站進行分類,撤去“同類”(所獲降雨信息十分相似)的雨量站中“多余”的站。二.問題求解 :假設(shè)為使問題簡化,特作如下假設(shè)(1)每個觀測站具有同等規(guī)模及儀器設(shè)備;(2)每個觀測站的經(jīng)費開支均等;具有相同的被裁可能性。分析:對上述撤銷觀測站的問題用基于模糊等價矩陣的模糊聚類方法進行分析,原始數(shù)據(jù)如上。三.求解步驟:1.利用相關(guān)系數(shù)法,構(gòu)造模糊相似關(guān)系矩陣,其中 其中,1,2,,11, ,1,2,,11。用C#語言編程計算出模糊相似關(guān)系矩陣,得到模糊相似矩陣。R=對這個模糊相似矩陣用平

11、方法作傳遞閉包運算,求 即t()=。注:是對稱矩陣,故只寫出它的下三角矩陣。取,則=故第二行(列),第四行(列)完全一致,故同屬一類,所以此時可以將觀測站分為9類,,,,,,這表明,若只裁減一個觀測站,可以裁中的一個。若要裁掉更多的觀測站,則要降低置信水平,對不同的作同樣分析,得到0.995時,可分為8類,即,,,,,,;=0.994時,可分為7類,,, ,,,;=0.962時,可分為6類,,, ,, ,;0.719時,可分為5類,,, ,,,;圖5-2聚類譜系圖再具體分析圖5-1,我們可以看到雖然和,分為一類,但和,觀測點相距較遠,撤去是不太合適的,保留而撤去,就更不合適了。因此還是將其分為

12、6類,即,, ,,,依據(jù)每類最少保留一個站的原則,最多可撤去5個站。實際應該撤去哪幾個站就應該依據(jù)其他條件來確定了。由本例可以看出,當需要比較聚類的數(shù)據(jù)較多時,一般采用模糊聚類法進行分析,在分析過程中,復雜的數(shù)據(jù)運算都可以在計算機上實現(xiàn),從而減少繁瑣的手工操作。4.模糊聚類分析的優(yōu)缺點:優(yōu)點:聚類分析模型的優(yōu)點就是直觀,結(jié)論形式簡明。缺點:在樣本量較大時,要獲得聚類結(jié)論有一定困難。由于相似系數(shù)是根據(jù)被試的反映來建立反映被試間內(nèi)在聯(lián)系的指標,而實踐中有時盡管從被試反映所得出的數(shù)據(jù)中發(fā)現(xiàn)他們之間有緊密的關(guān)系,但事物之間卻無任何內(nèi)在聯(lián)系,此時,如果根據(jù)距離或相似系數(shù)得出聚類分析的結(jié)果,顯然是不適當?shù)?,但是,聚類分析模型本身卻無法識別這類錯誤。5.總 結(jié):本文主要介紹了模糊數(shù)學的基本概念和模糊聚類的一些基礎(chǔ)知識方法,并給出了實例分析,體現(xiàn)了模糊數(shù)學思想在數(shù)據(jù)挖掘領(lǐng)域的重要角色。 通過學習模糊數(shù)學這門課程,掌握了模糊數(shù)學的基本知識和思想,獲益匪淺。模糊數(shù)學的思想和自己所修方向(信計與計算科學)的結(jié)合,不失為一種解決該領(lǐng)域的難題的行之有效的方法。如果我在研究的領(lǐng)域遇見相關(guān)的問題,我們便可以結(jié)合模糊的思想,借助于模糊集、粗糙集等理論知識來深化研究。同時彰顯模糊數(shù)學的魅力,以及交叉學科相互滲透解決難題能力。參考文獻: 1.宋曉秋.模糊數(shù)學原理與方法(第二版).中國礦業(yè)大學出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論