數(shù)據(jù)挖掘概念與技術(shù)_第1頁
數(shù)據(jù)挖掘概念與技術(shù)_第2頁
數(shù)據(jù)挖掘概念與技術(shù)_第3頁
數(shù)據(jù)挖掘概念與技術(shù)_第4頁
數(shù)據(jù)挖掘概念與技術(shù)_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、12008年3月數(shù)據(jù)挖掘概念與技術(shù)2第1章 引言本章要點數(shù)據(jù)倉庫的發(fā)展數(shù)據(jù)挖掘數(shù)據(jù)挖掘的類型數(shù)據(jù)挖掘常用技術(shù)數(shù)據(jù)挖掘解決的典型商業(yè)問題3數(shù)據(jù)倉庫的發(fā)展自從NCR公司為Wal Mart建立了第一個數(shù)據(jù)倉庫。1996年,加拿大的IDC公司調(diào)查了62家實現(xiàn)了數(shù)據(jù)倉庫的歐美企業(yè),結(jié)果表明:數(shù)據(jù)倉庫為企業(yè)提供了巨大的收益。早期的數(shù)據(jù)倉庫:大都 客戶/服務(wù)器結(jié)構(gòu)。近年來:數(shù)據(jù)倉庫體系結(jié)構(gòu)從功能上劃分為若干個分布式對象,可以直接用于建立數(shù)據(jù)倉庫,還可以在應(yīng)用程序中向用戶提供調(diào)用的接口。IBM的實驗室在數(shù)據(jù)倉庫方面已經(jīng)進(jìn)行了10多年的研究,并將研究成果發(fā)展成為商用產(chǎn)品。其他數(shù)據(jù)庫廠商在數(shù)據(jù)倉庫領(lǐng)域也紛紛提出了

2、各自的解決方案。4數(shù)據(jù)倉庫的發(fā)展IBM: 在其DB2UDB發(fā)布一年后的1998年9月發(fā)布版,并于1998年12月推向中國市場,除了用于OLAP(聯(lián)機(jī)分析處理)的后臺服務(wù)器DB2 OLAP Server外,IBM還提供了一系列相關(guān)的產(chǎn)品,包括前端工具,形成一整套解決方案。Informix公司: 在其動態(tài)服務(wù)器IDS(Informix Dynamic Server)中提供一系列相關(guān)選件,如高級決策支持選件(Advanced Decision Support Option)、OLAP選件(MetaCube ROLAP Option)、擴(kuò)展并行選件(Extended Parallel Option)等

3、,這種體系結(jié)構(gòu)嚴(yán)謹(jǐn)、管理方便、索引機(jī)制完善,并行處理的效率更高,其中數(shù)據(jù)倉庫和數(shù)據(jù)庫查詢的SQL語句的一致性使得用戶開發(fā)更加簡便。5數(shù)據(jù)倉庫的發(fā)展微軟公司: 在其以及SQL Server2000中集成了代號為Plato的OLAP服務(wù)器。Sybase: 提供了專門的OLAP服務(wù)器Sybase IQ,并將其與數(shù)據(jù)倉庫相關(guān)工具打包成Warehouse Studio 。PLATINUM: 提出了由InfoPump(數(shù)據(jù)倉庫建模與數(shù)據(jù)加載工具)和Forest&Trees(前端報表工具)構(gòu)成的一套較有特色的整體方案。 ; Oracle公司: 則推出從數(shù)據(jù)倉庫構(gòu)建、OLAP到數(shù)據(jù)集市管理等一系列產(chǎn)品包(如O

4、racle Warehouse Builder、Oracle Express、DataMart Suit等)。 6數(shù)據(jù)倉庫的我國的發(fā)展現(xiàn)狀:數(shù)據(jù)倉庫的概念已經(jīng)被國內(nèi)用戶接受多年,但在應(yīng)用方面的收效不理想原因:現(xiàn)有的數(shù)據(jù)庫系統(tǒng)不健全,數(shù)據(jù)積累還不夠,無法提出決策支持需求;缺乏能夠擔(dān)負(fù)規(guī)劃、設(shè)計、構(gòu)建和維護(hù)數(shù)據(jù)倉庫的重任的復(fù)合型人才;沒很好使用數(shù)據(jù)倉庫前端工具(如OLAP工具、數(shù)據(jù)挖掘工具等)。7數(shù)據(jù)倉庫的我國的發(fā)展前景:隨著計算機(jī)技術(shù)的發(fā)展,尤其是分布式技術(shù)的發(fā)展, 數(shù)據(jù)倉庫在我國有著廣闊的發(fā)展空間和良好的發(fā)展前景。例如:由于銀行商業(yè)化的步伐正在加大,各大中型銀行在入世的機(jī)遇和挑戰(zhàn)下,開始重新考

5、慮自身的業(yè)務(wù),特別是信貸風(fēng)險管理方面特別注意,因而有關(guān)信貸風(fēng)險管理和風(fēng)險規(guī)章的基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的需求逐漸增多;由于電子商務(wù)的迅速發(fā)展,越來越多的電子商務(wù)網(wǎng)站,開始考慮如何將數(shù)據(jù)倉庫應(yīng)用于商品銷售分析、顧客的誠信度分析等,為客戶提供更進(jìn)一步的個性化服務(wù);如移動通信等各大型企業(yè)也開始考慮著手進(jìn)行決策支持以及數(shù)據(jù)倉庫規(guī)劃。8數(shù)據(jù)倉庫(Data Warehouse)的定義數(shù)據(jù)倉庫用來保存從多個數(shù)據(jù)庫或其它信息源選取的數(shù)據(jù), 并為上層應(yīng)用提供統(tǒng)一 用戶接口,完成數(shù)據(jù)查詢和分析。數(shù)據(jù)倉庫是作為DSS服務(wù)基礎(chǔ)的分析型DB,用來存放大容量的只讀數(shù)據(jù),為制定決策提供所需要的信息。數(shù)據(jù)倉庫是與操作型系統(tǒng)

6、相分離的、基于標(biāo)準(zhǔn)企業(yè)模型集成的、帶有時間屬性的、面向主題及不可更新的數(shù)據(jù)集合。對數(shù)據(jù)倉庫所下的定義:數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用以支持管理決策的過程。9數(shù)據(jù)倉庫的適用范圍信息源中的數(shù)據(jù)變化穩(wěn)定或可預(yù)測應(yīng)用不需要最新的數(shù)據(jù)或允許有延遲 應(yīng)用要求有較高的查詢性能 而降低精度要求10支持管理決策數(shù)據(jù)倉庫支持OLAP(聯(lián)機(jī)分析處理)、數(shù)據(jù)挖掘和決策分析。OLAP從數(shù)據(jù)倉庫中的綜合數(shù)據(jù)出發(fā),提供面向分析的多維模型,并使用多維分析的方法從多個角度、多個層次對多維數(shù)據(jù)進(jìn)行分析,使決策者能夠以更加自然的方式來分析數(shù)據(jù)。數(shù)據(jù)挖掘則以數(shù)據(jù)倉庫和多維數(shù)據(jù)庫中的數(shù)據(jù)為基礎(chǔ),發(fā)現(xiàn)數(shù)據(jù)

7、中的潛在模式和進(jìn)行預(yù)測。因此,數(shù)據(jù)倉庫的功能是支持管理層進(jìn)行科學(xué)決策,而不是事務(wù)處理。11數(shù)據(jù)倉庫的技術(shù)要求大量數(shù)據(jù)的組織和管理:包含了大量的歷史數(shù)據(jù),它是從數(shù)據(jù)庫中提取得來的,不必關(guān)心它的數(shù)據(jù)安全性和數(shù)據(jù)完整性。復(fù)雜分析的高性能體現(xiàn):涉及大量數(shù)據(jù)的聚集、綜合等,在進(jìn)行復(fù)雜查詢時經(jīng)常會使用多表的聯(lián)接、累計、分類、排序等操作。對提取出來的數(shù)據(jù)進(jìn)行集成:數(shù)據(jù)倉庫中的數(shù)據(jù)是從多個應(yīng)用領(lǐng)域中提取出來的,在不同的應(yīng)用領(lǐng)域和不同的數(shù)據(jù)庫系統(tǒng)中都有不同的結(jié)構(gòu)和形式,所以如何對數(shù)據(jù)進(jìn)行集成也是構(gòu)建數(shù)據(jù)倉庫的一個重要方面。對進(jìn)行高層決策的最終用戶的界面支持:提供各種分析應(yīng)用工具。12 隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展及

8、數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫中存儲的數(shù)據(jù)量急劇增大,在大量的數(shù)據(jù)背后隱藏著許多重要的信息。如何有效使用數(shù)據(jù)庫中存儲的海量數(shù)據(jù)?13如何有效使用數(shù)據(jù)庫中存儲的海量數(shù)據(jù)?數(shù)據(jù)挖掘就是從大量的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又可能有用的信息和知識的過程。數(shù)據(jù)挖掘的主要目的是提高市場決策能力,檢測異常模式,在過去的經(jīng)驗基礎(chǔ)上預(yù)言未來趨勢等。例如,通過對大量氣象資料和銷售資料的處理及分析,德國的啤酒商發(fā)現(xiàn),夏天氣溫每升高1,就會增加230萬瓶的啤酒銷量;而日本人則發(fā)現(xiàn),夏季30以上的天氣每增加一天,空調(diào)的銷量便增加4萬臺。14美國沃爾瑪超市“啤酒與尿布”的故事 沃爾瑪超市建立數(shù)據(jù)

9、倉庫,按周期統(tǒng)計產(chǎn)品的銷售信息,經(jīng)過科學(xué)建模后提煉決策層數(shù)據(jù)。發(fā)現(xiàn)每逢周末,位于某地區(qū)的沃爾瑪超市連鎖店的啤酒和尿布的銷售量很大,而且單張發(fā)票中同時購買尿布和啤酒的記錄非常普遍。分析人員認(rèn)為這并非偶然,經(jīng)過深入分析得知,通常周末購買尿布的是男士,他們在完成了太太交給的任務(wù)后,經(jīng)常會順便買一些啤酒。得出這樣的結(jié)果后,沃爾瑪超市的工作人員嘗試著將啤酒和尿布擺放在一起銷售,結(jié)果尿布與啤酒的銷售額雙雙增長。 從上面的例子不難看出,數(shù)據(jù)管理的主要目的是獲取信息和分析信息以指導(dǎo)我們的行動或幫助我們作決策。 15數(shù)據(jù)挖掘數(shù)據(jù)挖掘(ata Mining) :又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),是基于、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)等

10、技術(shù),高度自動化地分析原有的數(shù)據(jù),進(jìn)行歸納性推理,從數(shù)據(jù)倉庫或數(shù)據(jù)庫中提取可信的、新穎的、有效的、人們感興趣的、能別人理解的知識的高級處理過程。這些知識是隱含的、事先未知的有用信息,提取的知識表現(xiàn)為概念、規(guī)則、模式、規(guī)律等形式,以幫助管理者作出正確的決策。 模式:它給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是對數(shù)據(jù)所包含的信息更抽象的描述。模式按功能可以分為預(yù)測型模式和描述型模式。在實際應(yīng)用中,可以細(xì)分為關(guān)聯(lián)模式、分類模式、聚類模式和序列模式等。16數(shù)據(jù)挖掘數(shù)據(jù)挖掘和數(shù)據(jù)倉庫是作為兩種獨立的信息技術(shù)出現(xiàn)的。它們都可以完成對決策過程的支持,并且相互間有一定的內(nèi)在聯(lián)系。因此,將數(shù)據(jù)倉庫與數(shù)據(jù)挖掘集成到一個系

11、統(tǒng)中將能夠更有效地提高系統(tǒng)的決策支持能力。數(shù)據(jù)挖掘是一門交叉性學(xué)科,它涉及到機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、智能數(shù)據(jù)庫、知識獲取、數(shù)據(jù)可視化、高性能計算、專家系統(tǒng)等多個領(lǐng)域??蓮V泛地應(yīng)用于信息管理、過程控制、科學(xué)研究、決策支持等許多方面。 17數(shù)據(jù)挖掘的發(fā)展“從數(shù)據(jù)中發(fā)現(xiàn)有用模式”歷來有很多稱法,如:數(shù)據(jù)挖掘(data mining) 知識提取(knowledge extraction)信息發(fā)現(xiàn)(information discovery)信息收獲(information harvesting)數(shù)據(jù)考古(data archaeology)數(shù)據(jù)模式處理(data pattern processing

12、)“數(shù)據(jù)挖掘”的稱法大部分是由統(tǒng)計學(xué)家,數(shù)據(jù)分析學(xué)家和MIS團(tuán)體使用的,在數(shù)據(jù)庫領(lǐng)域也得到了廣泛接受。18數(shù)據(jù)挖掘的發(fā)展7080年代:知識發(fā)現(xiàn)與數(shù)據(jù)挖掘結(jié)合1989年6月:在美國底特律舉行了第一屆“從數(shù)據(jù)庫中知識發(fā)現(xiàn)”的國際學(xué)術(shù)會議,在這次會議中第一次使用了KDD 這個詞來強(qiáng)調(diào)“知識”是數(shù)據(jù)驅(qū)動(data-driven)發(fā)現(xiàn)的最終結(jié)果。 1995:加拿大召開第一屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會議19歷屆有關(guān)KDD的學(xué)術(shù)會議 時間 會議名稱 會議地點接受論文數(shù)提交論文數(shù)Jun.1989Workshop on KDDDetroit,Michigan,USA2969Jul.1991Workshop o

13、n KDDAnaheim,California,USA2546Jul.1993Workshop on KDDWashington,USA28401995KDD95Montreal,Canada40135Aug.1996KDD96Portland,Oregon,USA45220Feb.1997PAKDD97Singapore3597Aug.1997KDD97California,USAApr.1998PAKDD98Melbourne,AustraliaAug.1998KDD98New York,USA20數(shù)據(jù)挖掘的發(fā)展數(shù)據(jù)挖掘技術(shù)的應(yīng)用開發(fā)在國外已經(jīng)迅速發(fā)展,許多大公司(如Informix, O

14、racle, IBM等)都投入了巨資對其進(jìn)行研究,并開發(fā)出了一些產(chǎn)品和原型,如DBMiner、Quest、EXPLORA等。第一本關(guān)于數(shù)據(jù)挖掘的國際學(xué)術(shù)雜志Data Mining and Knowledge Discovery于1997年3月創(chuàng)刊。國內(nèi)在這方面的研究起步比較晚,早期研究的方向多集中于關(guān)聯(lián)規(guī)則的挖掘,近來關(guān)于時序模式、分類、聚類、WEB數(shù)據(jù)挖掘等的研究也日益受到重視,并取得了不少可喜的成果,一些原型系統(tǒng)或數(shù)據(jù)挖掘工具已經(jīng)研制成功并在不斷完善中。21DM系統(tǒng)的體系結(jié)構(gòu)(1)DW 的步驟:數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)集成數(shù)據(jù)選擇預(yù)分析挖掘表述評價(2)DW 系統(tǒng)的結(jié)構(gòu): 用戶界面結(jié)果輸出數(shù)據(jù)挖掘核

15、心知識庫數(shù)據(jù)倉庫數(shù)據(jù)庫文件系統(tǒng)其他數(shù)據(jù)源ODBC或其他專用數(shù)據(jù)庫接口22數(shù)據(jù)準(zhǔn)備階段:經(jīng)過處理過的數(shù)據(jù)一般存儲在數(shù)據(jù)倉庫中。數(shù)據(jù)準(zhǔn)備是否做得充分將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。包括:數(shù)據(jù)的選擇:選擇相關(guān)的數(shù)據(jù)數(shù)據(jù)的凈化:消除噪音、冗余數(shù)據(jù)數(shù)據(jù)的推測:推算缺失數(shù)據(jù)數(shù)據(jù)的轉(zhuǎn)化:離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換、數(shù)據(jù)值的分組分類、數(shù)據(jù)項之間的計算組合等數(shù)據(jù)的縮減:減少數(shù)據(jù)量數(shù)據(jù)挖掘的過程23數(shù)據(jù)挖掘的過程挖掘階段:該階段是數(shù)據(jù)挖掘的核心步驟,也是技術(shù)難點所在。根據(jù)數(shù)據(jù)挖掘的目標(biāo),采用人工智能、集合論、統(tǒng)計學(xué)等方法,應(yīng)用相應(yīng)的數(shù)據(jù)挖掘算法,分析數(shù)據(jù)并通過可視化工具表述所獲得的模

16、式或規(guī)則。24數(shù)據(jù)挖掘的過程評價階段:在數(shù)據(jù)挖掘中得到的模式可能是沒有實際意義或沒有使用價值的,也有可能不能準(zhǔn)確反映數(shù)據(jù)的真實意義,甚至在某些情況下是與事實相反的,因此需要評估,確定哪些是有效的、有用的模式。評估可以根據(jù)用戶多年的經(jīng)驗,有些模式也可以直接用數(shù)據(jù)來檢驗其準(zhǔn)確性。25數(shù)據(jù)挖掘的過程鞏固和運用階段:用戶理解的、并被認(rèn)為是符合實際和有價值的模式形成了知識。同時還要對知識進(jìn)行一致性檢查,解決與以前得到的知識互相沖突、矛盾的地方,使知識得到鞏固。運用知識有兩種方法:一種是只需看知識本身所描述的關(guān)系或結(jié)果,就可以對決策提供支持;另一種是要求運用知識對新的數(shù)據(jù)進(jìn)行分析,由此可能產(chǎn)生新的問題,而

17、需要對知識作進(jìn)一步的優(yōu)化。26數(shù)據(jù)挖掘的類型數(shù)據(jù)挖掘的任務(wù): 是從大量的數(shù)據(jù)中發(fā)現(xiàn)模式。比較典型的有:預(yù)測模型關(guān)聯(lián)分析分類分析聚類分析序列分析偏差檢測模式相似性挖掘Web數(shù)據(jù)挖掘27預(yù)測模型預(yù)測模型(Predictive Modeling): 即從數(shù)據(jù)庫或數(shù)據(jù)倉庫中已知的數(shù)據(jù)推測未知的數(shù)據(jù)或?qū)ο蠹心承傩缘闹捣植冀㈩A(yù)測模型的常用方法:回歸分析線性模型關(guān)聯(lián)規(guī)則決策樹預(yù)測遺傳算法神經(jīng)網(wǎng)絡(luò)28關(guān)聯(lián)分析關(guān)聯(lián)(Association)分析:關(guān)聯(lián)規(guī)則描述了一組數(shù)據(jù)項之間的密切度或關(guān)系。關(guān)聯(lián)分析用于發(fā)現(xiàn)項目集之間的關(guān)聯(lián)。 在關(guān)聯(lián)規(guī)則挖掘算法中,通常給出了置信度和支持度兩個概念,對于置信度和支持度均大于給

18、定閾值的規(guī)則稱為強(qiáng)規(guī)則,而關(guān)聯(lián)分析主要就是對強(qiáng)規(guī)則的挖掘。近幾年研究較多。現(xiàn)在,已經(jīng)從單一概念層次關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)發(fā)展到多概念層次的關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),并把研究的重點放在提高算法的效率和規(guī)??墒湛s性上。它廣泛地運用于幫助市場導(dǎo)向、商品目錄設(shè)計客戶關(guān)系管理)(CRM)和其他各種商業(yè)決策過程中。關(guān)聯(lián)分析算法:APRIORI算法、DHP算法、DIC算法、PARTITION算法及它們的各種改進(jìn)算法等。另外,對于大規(guī)模、分布在不同站點上的數(shù)據(jù)庫或數(shù)據(jù)倉庫,關(guān)聯(lián)規(guī)則的挖掘可以使用并行算法,如:Count分布算法、Data分布算法、Candidate 分布算法、智能Data分布算法(IDD)和DMA分布算法等。2

19、9分類分析分類(Classification)分析:根據(jù)數(shù)據(jù)的特征為每個類別建立一個模型,根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分配到不同的組中。 在實際應(yīng)用過程中,分類規(guī)則可以分析分組中數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,從而確定哪些數(shù)據(jù)屬于哪些組。這樣就可以利用該模型來分析已有數(shù)據(jù),并預(yù)測新數(shù)據(jù)將屬于哪一個組。類的描述可以是顯式的,如用一組特征概念描述;也可以是隱式的,如用一個數(shù)學(xué)公式或數(shù)學(xué)模型描述。分類分析已經(jīng)成功地用于顧客分類、疾病分類、商業(yè)建模和信用卡分析等。分類分析的常用方法:約略(Rough)集決策樹神經(jīng)網(wǎng)絡(luò)統(tǒng)計分析法30聚類分析聚類(Clustering)分析:聚類是指一組彼此間非常“相似”的

20、數(shù)據(jù)對象的集合。相似的程度可以通過距離函數(shù)來表示,由用戶或?qū)<抑付ā>垲惙治鍪前凑漳撤N相近程度度量方法將數(shù)據(jù)分成互不相同的一些分組。每一個分組中的數(shù)據(jù)相近,不同分組之間的數(shù)據(jù)相差較大。好的聚類方法可以產(chǎn)生高質(zhì)量的聚類,保證每一聚類內(nèi)部的相似性很高,而各聚類之間的相似性很低。聚類分析的核心是將某些定性的相近程度測量方法轉(zhuǎn)換成定量測試方法。采用聚類分析,系統(tǒng)可以根據(jù)部分?jǐn)?shù)據(jù)發(fā)現(xiàn)規(guī)律,找出對全體數(shù)據(jù)的描述。聚類分析的常用方法:隨機(jī)搜索聚類法特征聚類CF樹31序列分析序列(Sequence)分析:序列分析主要用于分析數(shù)據(jù)倉庫中的某類與時間相關(guān)的數(shù)據(jù),搜索類似的序列或子序列,并挖掘時序模式、周期性、趨勢

21、和偏離等。例如,它可以導(dǎo)出類似“若AT&T股票連續(xù)上漲兩天且DEC股票不下跌,則第三天IBM股票上漲的可能性為75%”的數(shù)據(jù)關(guān)系。序列模式可以看成是一種特定的關(guān)聯(lián)模型,它在關(guān)聯(lián)模型中增加了時間屬性。32偏差檢測與模式相似性挖掘偏差檢測(Deviation Detection):用于檢測并解釋數(shù)據(jù)分類的偏差,它有助于濾掉知識發(fā)現(xiàn)引擎所抽取的無關(guān)信息,也可濾掉那些不合適的數(shù)據(jù),同時可產(chǎn)生新的關(guān)注性事實。模式相似性挖掘:用于在時間數(shù)據(jù)庫或空間數(shù)據(jù)庫中搜索相似模式時,從所有對象中找出用戶定義范圍內(nèi)的對象;或找出所有元素對,元素對中兩者的距離小于用戶定義的距離范圍。模式相似性挖掘的方法有相似度測量法、遺

22、傳算法等。33Web數(shù)據(jù)挖掘Web數(shù)據(jù)挖掘:萬維網(wǎng)是一個巨大的、分布廣泛的和全球性的信息服務(wù)中心,其中包含了豐富的超鏈接信息,為數(shù)據(jù)挖掘提供了豐富的資源。Web使用模式挖掘:在Web環(huán)境中,文檔和對象一般都是通過鏈接來便于用戶訪問。捕捉用戶的存取模式或發(fā)現(xiàn)一個Web網(wǎng)站最頻繁的訪問路徑稱為Web使用模式挖掘或Web路徑挖掘。Web結(jié)構(gòu)挖掘:是挖掘Web的鏈接結(jié)構(gòu),并找出關(guān)于某一主題的權(quán)威網(wǎng)站。Web內(nèi)容挖掘:是指在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對象之間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息篩選,從而獲得指定內(nèi)容的信息?;赪eb的研究:搜索引擎的設(shè)計、文件自動分類技術(shù)、關(guān)鍵詞的自動提取、半結(jié)

23、構(gòu)化信息的提取及Web上新型應(yīng)用的研究34數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)數(shù)據(jù)挖掘系統(tǒng)可以采用三層的C/S結(jié)構(gòu):第一層:為圖形用戶界面,位于系統(tǒng)的客戶端;第二層:為數(shù)據(jù)挖掘引擎,它是數(shù)據(jù)挖掘系統(tǒng)的核心,位于系統(tǒng)的應(yīng)用服務(wù)器端;第三層:為數(shù)據(jù)庫與數(shù)據(jù)倉庫,位于數(shù)據(jù)服務(wù)器端。35數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)圖形用戶界面該模塊實現(xiàn)用戶與數(shù)據(jù)挖掘系統(tǒng)之間的通信,允許用戶與系統(tǒng)交互。用戶可以通過圖形化界面指定數(shù)據(jù)挖掘任務(wù)、輸入有關(guān)信息,根據(jù)系統(tǒng)以可視化形式輸出的數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式的數(shù)據(jù)挖掘。此外,該模塊還提供用戶瀏覽數(shù)據(jù)庫和數(shù)據(jù)倉庫模式或數(shù)據(jù)結(jié)構(gòu)、評價數(shù)據(jù)挖掘的模式等功能。36數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu) 數(shù)據(jù)挖掘引擎數(shù)據(jù)挖掘

24、引擎是數(shù)據(jù)挖掘系統(tǒng)最基本、最重要的部分,是數(shù)據(jù)挖掘系統(tǒng)的核心。該部分由一系列功能模塊組成,分別用于關(guān)聯(lián)規(guī)則挖掘、分類規(guī)則挖掘、聚類規(guī)則挖掘、時序與序列數(shù)據(jù)挖掘和WEB數(shù)據(jù)挖掘等。37數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)數(shù)據(jù)庫與數(shù)據(jù)倉庫該部分位于數(shù)據(jù)服務(wù)器端,包括數(shù)據(jù)庫、知識庫、文件系統(tǒng)、其他數(shù)據(jù)源以及存放經(jīng)過數(shù)據(jù)準(zhǔn)備提取和集成后數(shù)據(jù)的數(shù)據(jù)倉庫。在知識庫中存放領(lǐng)域知識,用于搜索和對模式進(jìn)行評價。數(shù)據(jù)庫與數(shù)據(jù)倉庫服務(wù)器的功能是根據(jù)用戶的數(shù)據(jù)挖掘請求,提取相應(yīng)的數(shù)據(jù)供數(shù)據(jù)挖掘引擎使用。38數(shù)據(jù)挖掘常用技術(shù)生物學(xué)方法人工神經(jīng)網(wǎng)絡(luò)遺傳算法信息論方法決策樹集合論方法約略集模糊集最鄰近技術(shù)統(tǒng)計學(xué)方法可視化技術(shù)39生物學(xué)方法神

25、經(jīng)網(wǎng)絡(luò)方法神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的一個重要的分支。采用神經(jīng)網(wǎng)絡(luò)設(shè)計的系統(tǒng)模擬人腦的結(jié)構(gòu),而與傳統(tǒng)的系統(tǒng)截然不同。由醫(yī)學(xué)可知,人的大腦中有幾十億個大腦細(xì)胞(稱為神經(jīng)元),這些神經(jīng)元通過神經(jīng)中樞的導(dǎo)電神經(jīng)纖維互相連接,從而形成一個復(fù)雜的腦神經(jīng)網(wǎng)絡(luò)。人在學(xué)習(xí)某一件事的時候,某些神經(jīng)元的連接得到強(qiáng)化。在人工神經(jīng)網(wǎng)絡(luò)中,用計算機(jī)處理單元來模擬人腦的神經(jīng)元,并將這些處理單元象人腦的神經(jīng)元那樣互相連接起來,構(gòu)成一個網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)并非使用編程的方式讓計算機(jī)去做某項工作,而是采用所謂“訓(xùn)練”的方法讓神經(jīng)網(wǎng)絡(luò)進(jìn)行“學(xué)習(xí)”。完成某項工作的正確動作,使得神經(jīng)網(wǎng)絡(luò)的某些連接或模式得到強(qiáng)化;而錯誤的動作則使神經(jīng)網(wǎng)絡(luò)的相應(yīng)

26、連接或模式不被強(qiáng)化。從而讓神經(jīng)網(wǎng)絡(luò)“學(xué)會”如何去做這項工作。40生物學(xué)方法神經(jīng)網(wǎng)絡(luò)方法神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)待分析數(shù)據(jù)中的模式來構(gòu)造模型,一般可對隱類型進(jìn)行分類,用于非線性的,復(fù)雜的數(shù)據(jù)。它通過模擬人腦神經(jīng)元結(jié)構(gòu)進(jìn)行數(shù)據(jù)挖掘。 以MP模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ),建立了三大類多種神經(jīng)網(wǎng)絡(luò)模型:前饋式網(wǎng)絡(luò):以感知機(jī)、反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表,可用于預(yù)測、模式識別等方面。反饋式網(wǎng)絡(luò):以Hopfield的離散模型和連續(xù)模型為代表,分別用于聯(lián)想記憶和優(yōu)化計算。自組織網(wǎng)絡(luò):以ART模型、Koholon模型為代表,用于聚類。41生物學(xué)方法遺傳算法遺傳算法(Genetic Algorithms,簡記為GI)

27、:是一種借鑒生物界自然選擇和進(jìn)化機(jī)制發(fā)展起來的高度并行、隨機(jī)、自適應(yīng)搜索算法。遺傳算法的研究歷史比較短,是從20世紀(jì)60年代末期到70年代初才開始的,當(dāng)時的一些學(xué)者從試圖解釋自然界中生物的復(fù)雜適應(yīng)過程入手,模擬生物進(jìn)化的機(jī)制來建立人工系統(tǒng)的模型。經(jīng)過近30的發(fā)展,現(xiàn)已取得了理論研究的進(jìn)展和豐碩的應(yīng)用成果。目前,以遺傳算法為核心的進(jìn)化算法已與模糊系統(tǒng)理論、人工神經(jīng)網(wǎng)絡(luò)等一起成為人工智能研究中的熱點,受到許多學(xué)科的共同關(guān)注。42生物學(xué)方法遺傳算法遺傳算法的研究與生物進(jìn)化理論和遺傳學(xué)密切相關(guān)。生命的基本特征包括生長、繁殖、新陳代謝和遺傳與變異。生命是進(jìn)化的產(chǎn)物,現(xiàn)代的生物是在長期的進(jìn)化過程中發(fā)展起來

28、的。達(dá)爾文提出了用自然選擇來解釋生物的進(jìn)化過程,該學(xué)說包括遺傳、變異、生存斗爭和適者生存三個方面。生物進(jìn)化是非常復(fù)雜的,它將涉及諸如染色體、脫氧核糖核酸、遺傳因子、種群、基因、進(jìn)化、選擇、復(fù)制、交叉、變異、編碼與解碼等許多名詞術(shù)語,而且許多現(xiàn)象尚無法用現(xiàn)有的進(jìn)化理論來解釋。43生物學(xué)方法遺傳算法遺傳算法的基本思想:從代表問題的可能潛在解集的一個種群開始,一個種群是由經(jīng)過基因編碼的一定數(shù)量的個體組成,每個個體是染色體帶有特征的實體,染色體是多個基因的集合,它決定了個體的形狀和外部表現(xiàn);通過模擬基因編碼形成初代種群,然后按照適者生存和優(yōu)勝劣汰的原則逐代演化產(chǎn)生出越來越好的近似解;在每一代,根據(jù)問題

29、域中個體的適應(yīng)度大小進(jìn)行選擇,并借助遺傳算子進(jìn)行組合交叉和變異,從而產(chǎn)生出代表新的解集的種群;以上過程將導(dǎo)致種群象自然進(jìn)化一樣的后代種群比前代種群更加適用于環(huán)境,末代種群中的最優(yōu)個體經(jīng)過解碼可以作為問題的最優(yōu)近似解。44生物學(xué)方法遺傳算法遺傳算法中的三個基本操作:選擇:即通過適應(yīng)度的計算確定重組或交叉的個體,并確定被選個體將產(chǎn)生多少個子代個體。交叉:又稱為基因重組,即結(jié)合來自父代種群中的信息產(chǎn)生新的個體。變異:即交叉之后子代的基因按小概率擾動所產(chǎn)生的變化。遺傳算法可起到產(chǎn)生優(yōu)良后代的作用。這些后代需滿足適應(yīng)值,經(jīng)過若干代的遺傳,將得到滿足要求的后代(問題的解)。遺傳算法提供了一種求解復(fù)雜系統(tǒng)優(yōu)

30、化問題的通用框架,它不依賴于問題的具體領(lǐng)域,因此可以應(yīng)用于函數(shù)優(yōu)化、組合優(yōu)化、生產(chǎn)調(diào)度、自動控制、機(jī)器人智能控制、圖像處理、模式識別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等眾多領(lǐng)域。45信息論方法信息論是研究信息的測度及其性質(zhì)、信息傳輸和信息處理系統(tǒng)的一般規(guī)律的學(xué)科分支。其研究內(nèi)容主要包括:以編碼理論為中心的所謂狹義信息論,它研究信息的測度、信息的容量、信源特性、信源編碼、信道和信息系統(tǒng)模型等;信號處理技術(shù),它研究信號和噪音分析、信號的過濾與檢測,以及有關(guān)理論;以計算機(jī)為中心的信息處理技術(shù)與理論,例如模式識別、自學(xué)習(xí)理論、自動機(jī)器翻譯等。在數(shù)據(jù)挖掘中,決策樹(decision tree)是一種廣泛使用的圖解法決

31、策分析工具,它把影響各行動的有關(guān)因素(自然狀態(tài)、概率、損益值等)用樹型圖表示,可直觀形象地表示出各條件和所允許的行動以及各種結(jié)果中間的關(guān)系。46決策樹方法決策樹:用樹結(jié)構(gòu)表示決策集,這些決策產(chǎn)生規(guī)則,用于對數(shù)據(jù)集進(jìn)行分類。決策樹的建立:利用訓(xùn)練集生成一個測試函數(shù),根據(jù)不同取值建立樹的分支,再在每個分支子集中重復(fù)建樹的分支的過程,即可建立決策樹。然后對決策樹進(jìn)行剪枝處理,即可得到規(guī)則。典型的決策樹方法:ID3、分類回歸樹(CART)、等。 47集合論方法約略集約略集(Rough Set)又稱為粗糙集和粗集,是由波蘭華沙理工大學(xué)Z . Pawlak教授等提出的研究不完整數(shù)據(jù)、不精確知識的表達(dá)、學(xué)習(xí)

32、和歸納的理論與方法。約略集方法與使用統(tǒng)計學(xué)方法或模糊集合論方法處理不精確數(shù)據(jù)的方法不同,它是以對觀察和測量所得數(shù)據(jù)進(jìn)行分類的能力為基礎(chǔ)的,為智能信息處理提供了有效的理論基礎(chǔ)和處理技術(shù)。48集合論方法約略集約略集理論是于1982年在計算機(jī)與信息科學(xué)國際雜志上發(fā)表的論文“Rough Sets”中首先提出的一個分析數(shù)據(jù)的數(shù)學(xué)理論。在分類的意義下,這個理論定義了模糊性與不確定性的概念,由于最初的研究大多是用波蘭文發(fā)表的,因此,這項研究在當(dāng)時并未引起國際計算機(jī)學(xué)界的重視,研究地域局限在東歐各國。到了80年代末,這個理論引起了世界各國學(xué)者的注意,人們對約略集理論的主要興趣在于它恰好反映了人們以不完全信息或

33、知識去處理一些不分明現(xiàn)象的能力,或依據(jù)觀察、度量到的某些不精確的結(jié)果而進(jìn)行分類數(shù)據(jù)的能力。如醫(yī)學(xué)、藥學(xué)、工業(yè)、工程技術(shù)、控制系統(tǒng)、社會科學(xué)、地球科學(xué)、開關(guān)電路、圖象處理和其他許多方面都已經(jīng)成功地實現(xiàn)了它的應(yīng)用。49集合論方法約略集國際上關(guān)于約略集理論和知識發(fā)現(xiàn)的會議:1993年在Banff, Alberta, Canada舉行的The Intl Workshop on Rough Sets and Knowledge Discovery1996年在University of Tokyo舉行的The Fourth Intl Workshop on Rough Sets, Fuzzy Sets,

34、and Machine Discovery研究集中在約略集理論的數(shù)學(xué)性質(zhì)、拓廣、與其他不確定方法的關(guān)系和互補(bǔ),以及有效算法等方面?;赗ough集方法的數(shù)據(jù)挖掘工具:如ProbRough、TRANCE、KDD-R、LERS、DataLogic/R等。50精確集與約略集令U是全域,XU,若X是任意基本集的并,則X是R(區(qū)分關(guān)系)可定義的,否則是R不可定義的;R可定義集也稱作R精確集(R Exact Sets),它在U的知識庫中可以被定義,而R不可定義集不能在該知識庫中定義,稱為R非精確集(R Inexact Sets)或R約略集(R Rough Sets)。51約略集上近似與下近似約略集的基本觀

35、點:用一個二元關(guān)系來建構(gòu)集合的近似。信息系統(tǒng)S =(U,T,V,)的不可區(qū)分集合RB(x)(在約略集理論中即等價類xB)是用來近似任何子集XU的基石。如果用屬性B不能精確地定義集合X,這時可以考慮用等價關(guān)系B導(dǎo)出的等價類近似地定義集合X,給出集合X的下近似和上近似的定義。根據(jù)X的上下近似,可以將U分為三個區(qū)域:正區(qū)域,負(fù)區(qū)域和邊界區(qū)域。 52概念X的上下近似圖解 53集合論方法約略集約略集理論用于分類規(guī)則挖掘:發(fā)現(xiàn)不精確數(shù)據(jù)或噪聲數(shù)據(jù)的內(nèi)在結(jié)構(gòu)聯(lián)系。其基本思想是建立樣本數(shù)據(jù)內(nèi)部的等價類,而這些等價類是按照下近似和上近似“約略地”定義的。對于每一個等價類可以產(chǎn)生相應(yīng)的判定規(guī)則,對于下近似可建立確定性規(guī)則,對于上近似可建立不確定性規(guī)則(含可信度),并用判定表表示這些規(guī)則。約略集理論用于特征歸約和相關(guān)分析:找出描述給定數(shù)據(jù)集中所有概念的最小屬性子集。約略集理論用于屬性化簡及其規(guī)則篩選:減少數(shù)據(jù)庫系統(tǒng)中的冗余屬性,提高數(shù)據(jù)庫中所隱含知識的可理解性。54集合論方法模糊集方法模糊性是客觀存在的,系統(tǒng)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論