數(shù)據(jù)挖掘技術(shù)綜述_第1頁
數(shù)據(jù)挖掘技術(shù)綜述_第2頁
數(shù)據(jù)挖掘技術(shù)綜述_第3頁
數(shù)據(jù)挖掘技術(shù)綜述_第4頁
數(shù)據(jù)挖掘技術(shù)綜述_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、0引言隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長,動輒以TB計,如何從海量的數(shù)據(jù)中提取有用的知識成為當務(wù)之急。由于這些資料十分的繁雜,僅僅依靠數(shù)據(jù)庫的查詢檢索機制和統(tǒng)計學(xué)方法已經(jīng)遠遠不能夠滿足現(xiàn)實需要了,因此人們提出了數(shù)據(jù)挖掘技術(shù)。人們通過數(shù)據(jù)挖掘技術(shù)自動地和智能地將待處理的數(shù)據(jù)轉(zhuǎn)化為有用的信息和知識,達到?jīng)Q策服務(wù)的目的。1數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘的定義很多,雖然表達方式不同,但本質(zhì)是一樣的。目前比較公認的定義是:數(shù)據(jù)挖掘(Data Mining是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。在此定義中,要求數(shù)據(jù)源是

2、大量的、真實的、含有噪音的;所發(fā)現(xiàn)的信息和知識是潛在的并隱藏在大量數(shù)據(jù)背后的,是用戶感興趣的、可理解、可運用的知識。所以數(shù)據(jù)挖掘有時候也被人們稱為知識挖掘、知識提取(Knowledge Extraction、知識發(fā)現(xiàn)(KDD,Knowledge Discovery in Databases等。數(shù)據(jù)挖掘是一門新興的交叉學(xué)科,把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢提升到從數(shù)據(jù)庫中挖掘知識,提供決策支持。2數(shù)據(jù)挖掘的方法數(shù)據(jù)挖掘方法通??梢苑譃閮纱箢?一類是統(tǒng)計分析型,常用的技術(shù)有概率分析、相關(guān)性、聚類分析和判別分析等;另一類是知識發(fā)現(xiàn)型,通過訓(xùn)練和學(xué)習(xí)大量的樣本集得到需要的模式和參數(shù)。常用的數(shù)據(jù)挖掘

3、方法有以下幾種:(1決策樹方法決策樹可用于分類,通常根據(jù)給定的訓(xùn)練樣本數(shù)據(jù)集來構(gòu)建分類模型,以樹的形式來表達模型。決策樹的算法通常分為兩個階段:決策樹的構(gòu)建和決策樹的修剪。模型建成后,對樹中的每一類別的描述形成分類規(guī)則。目前已形成了多種決策樹算法,如ID3、C4.5、CART、SLIQ、SPRINT等。(2遺傳算法遺傳算法模仿了生物進化的過程,通過進行選擇、交叉和變異遺傳操作,直至找到最優(yōu)解。在數(shù)據(jù)挖掘時,通常把任務(wù)表示成一種搜索問題,利用遺傳算法強大的搜索能力找到最優(yōu)解。遺傳算法已在優(yōu)化計算和分類機器學(xué)習(xí)方面顯示出了明顯的優(yōu)勢。(3粗糙集(RS粗糙集是一種研究含糊性和不確定性問題的數(shù)學(xué)工具。

4、這一方法在數(shù)據(jù)挖掘中能發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)的結(jié)構(gòu)聯(lián)系,也可以用于特征歸約和相關(guān)分析。其主要優(yōu)點在于不需要任何關(guān)于數(shù)據(jù)的初始的或附加的信息,因此廣泛應(yīng)數(shù)據(jù)挖掘技術(shù)綜述Review of Data Ming萬韻1,2劉建輝1Wan Yun Liu Jianhui(1.華東交通大學(xué)信息學(xué)院,江西南昌330013;2.江西農(nóng)業(yè)大學(xué)計算機與信息工程學(xué)院,江西南昌330045(1.School of Information Engineering,East China Jiaotong University,Jiangxi Nanchang330013;2.School of Computer an

5、dInforamtion Engineering,Jiangxi Argriculture University,Jiangxi Nanchang330045摘要:數(shù)據(jù)挖掘是目前信息領(lǐng)域和數(shù)據(jù)庫技術(shù)的前沿研究課題,本文介紹數(shù)據(jù)挖掘的定義、方法、過程及應(yīng)用,并對數(shù)據(jù)挖掘的發(fā)展趨勢進行了分析。關(guān)鍵詞:數(shù)據(jù)挖掘;知識發(fā)現(xiàn);關(guān)聯(lián)規(guī)則中圖分類號:TP311文獻標識碼:A文章編號:1671-4792-(20093-0243-02Abstract:Data Mining is a frontier area in information and database technology.This paper

6、firstly intro-duces the definition of data mining,methods,procedure and applications,then analysises its development trends.Keywords:Data Mining;KDD;Association Rule 數(shù)據(jù)挖掘技術(shù)綜述243科技廣場2009.3用于不確定、不完整信息分類和信息獲取。(4神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)模擬了人腦神經(jīng)元結(jié)構(gòu),旨在尋求開發(fā)和測試神經(jīng)的計算模擬,是最常用的數(shù)據(jù)挖掘技術(shù)之一。它類似于人腦重復(fù)學(xué)習(xí)的方法,先對給出的一系列樣本進行學(xué)習(xí)和訓(xùn)練,從而產(chǎn)生區(qū)別各種樣品

7、之間的不同特征的模式。神經(jīng)網(wǎng)絡(luò)可細分為前饋式、反饋式和自組織神經(jīng)網(wǎng)絡(luò),具有優(yōu)化計算、聚類和預(yù)測等功能,在商業(yè)界得到廣泛的應(yīng)用。3數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘是一個多階段的過程,一般需要經(jīng)歷確定挖掘?qū)ο?、準備?shù)據(jù)、建立模型、數(shù)據(jù)挖掘、結(jié)果分析與知識應(yīng)用這幾個階段(見圖一。(1確定挖掘?qū)ο?定義清晰的挖掘?qū)ο?認清數(shù)據(jù)挖掘的目標是數(shù)據(jù)挖掘的第一步。(2準備數(shù)據(jù):這一階段包括:選擇數(shù)據(jù)在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫目標中提取數(shù)據(jù)挖掘的目標數(shù)據(jù)集;數(shù)據(jù)預(yù)處理進行數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去噪聲,填補丟失的域,刪除無效數(shù)據(jù)等。(3挖掘模型的構(gòu)建:該階段實質(zhì)是將數(shù)據(jù)轉(zhuǎn)化成一個分析模型的階段,這個分

8、析模型是針對挖掘算法建立的。建立一個真正適合挖掘算法的分析模型,是數(shù)據(jù)挖掘成功的關(guān)鍵。(4數(shù)據(jù)挖掘:根據(jù)數(shù)據(jù)功能的類型和數(shù)據(jù)的特點選擇相應(yīng)的算法(如數(shù)據(jù)總結(jié)、分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進行數(shù)據(jù)挖掘。(5結(jié)果分析:對數(shù)據(jù)挖掘的結(jié)果進行解釋和評價,轉(zhuǎn)換成能夠最終被用戶理解的知識。(6知識的應(yīng)用:將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。4數(shù)據(jù)挖掘的發(fā)展趨勢隨著數(shù)據(jù)挖掘技術(shù)應(yīng)用的越來越廣泛,我們可以通過分析得出數(shù)據(jù)挖掘?qū)⒊韵聨讉€方面發(fā)展:(1應(yīng)用的探索:目前正探索擴大其應(yīng)用范圍,如生物醫(yī)學(xué)、電信等領(lǐng)域。(2可伸縮的數(shù)據(jù)挖掘方法:一個重要方向是基于

9、約束的挖掘,該方向致力于在增加用戶交互同時改進挖掘處理的總體效率。(3數(shù)據(jù)挖掘與數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)和Web數(shù)據(jù)庫系統(tǒng)的集成:數(shù)據(jù)挖掘系統(tǒng)的理想體系結(jié)構(gòu)是與數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng)的緊耦合方式。(4數(shù)據(jù)挖掘語言的標準化。(5可視化數(shù)據(jù)挖掘:可視化數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)現(xiàn)知識的有效途徑。(6復(fù)雜數(shù)據(jù)類型挖掘的新方法:復(fù)雜數(shù)據(jù)類型挖掘是數(shù)據(jù)挖掘中一項重要的前沿研究課題。(7Web挖掘:有關(guān)Web內(nèi)容挖掘、Web日志挖掘和因特網(wǎng)上的數(shù)據(jù)挖掘服務(wù),將成為數(shù)據(jù)挖掘中一個最為重要和繁榮的子領(lǐng)域。(8數(shù)據(jù)挖掘中的隱私保護與信息安全。數(shù)據(jù)挖掘技術(shù)是一個年輕且充滿希望的研究領(lǐng)域,商業(yè)利益的強大驅(qū)動力將會不停地促進它的發(fā)展。每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。盡管如此,數(shù)據(jù)挖掘技術(shù)仍然面臨著許多問題和挑戰(zhàn):如數(shù)據(jù)挖掘方法的效率亟待提高,尤其是超大規(guī)模數(shù)據(jù)集中數(shù)據(jù)挖掘的效率;開發(fā)適應(yīng)多數(shù)據(jù)類型、容噪的挖掘方法,以解決異質(zhì)數(shù)據(jù)集的數(shù)據(jù)挖掘問題;動態(tài)數(shù)據(jù)和知識的數(shù)據(jù)挖掘;網(wǎng)絡(luò)與分布式環(huán)境下的數(shù)據(jù)挖掘等。另外,近年來多媒體數(shù)據(jù)庫發(fā)展很快,面向多媒體數(shù)據(jù)庫的挖掘技術(shù)和軟件今后將成為研究開發(fā)的熱點。參考文獻1Jiawei Han,Micheline Kambe

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論