



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘與知識發(fā)現(xiàn)
1數(shù)據(jù)挖掘系統(tǒng)隨著現(xiàn)代科學(xué)技術(shù)的快速發(fā)展,數(shù)據(jù)庫規(guī)模不斷擴(kuò)大。無論是商業(yè)、公司、研究機(jī)構(gòu)和政府機(jī)構(gòu),我們過去在過去八年里積累了大量的、不同形式的數(shù)據(jù)。由于這些資料十分繁雜,要從中發(fā)現(xiàn)有價(jià)值的信息或知識,達(dá)到為決策服務(wù)的目的,成為非常艱巨的任務(wù)。人們需要有新的、更為有效的手段對各種信息資源進(jìn)行挖掘以發(fā)揮其應(yīng)有潛能。數(shù)據(jù)挖掘(Datamining)與知識發(fā)現(xiàn)(Knowledgediscovery)正是在這樣的應(yīng)用需求背景下產(chǎn)生并迅速發(fā)展起來的。數(shù)據(jù)挖掘指的是從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取人們感性趣的知識,這些知識是隱含的、事先未知的潛在有用信息目前國內(nèi)企業(yè)實(shí)現(xiàn)數(shù)據(jù)挖掘的困難在于缺少數(shù)據(jù)積累,所以還沒有關(guān)于國內(nèi)數(shù)據(jù)挖掘產(chǎn)品的報(bào)道!總之,我的研究項(xiàng)目不僅源于學(xué)術(shù)上的動機(jī),更是實(shí)際工作的需要。該項(xiàng)目在已有大量數(shù)據(jù)積累的商業(yè)信息管理系統(tǒng)的基礎(chǔ)上實(shí)現(xiàn)。數(shù)據(jù)挖掘系統(tǒng)所涉及的數(shù)據(jù)庫大多為大型數(shù)據(jù)庫,種類繁多,有關(guān)系型數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫、工程數(shù)據(jù)庫、多媒體數(shù)據(jù)庫等?,F(xiàn)在還不可能做出一種數(shù)據(jù)開采系統(tǒng),使它從各種數(shù)據(jù)庫中都能有效地提取知識,大多系統(tǒng)都是針對一種數(shù)據(jù)庫而設(shè)計(jì)。本文主要討論從關(guān)系數(shù)據(jù)庫中提取知識,因?yàn)殛P(guān)系數(shù)據(jù)庫是使用最廣泛的數(shù)據(jù)庫。2基于模型的分析數(shù)據(jù)挖掘的算法是對上述數(shù)據(jù)挖掘方法的具體實(shí)現(xiàn)。所有數(shù)據(jù)挖掘算法都含有以下三個(gè)構(gòu)件(文中的模型是指從數(shù)據(jù)庫中發(fā)現(xiàn)的模型)模型表示.用于描述要發(fā)現(xiàn)的模型的語言。如果語言的描述能力較強(qiáng),就有助于發(fā)現(xiàn)精確的數(shù)據(jù)模型。但要注意的是,能力過強(qiáng)的描述語言卻有可能導(dǎo)致所發(fā)現(xiàn)的模型的過分一般化,降低了預(yù)測的精確度。常用的模型表示方法有決策樹、非線性回歸、基于事例的推理、貝葉斯網(wǎng)絡(luò)和歸納邏輯程序設(shè)計(jì)等方法。模型評價(jià)標(biāo)準(zhǔn).對一個(gè)所發(fā)現(xiàn)的模型在大多程度上符合發(fā)現(xiàn)目的的要求作出定量評價(jià)。對預(yù)測的模型,可以利用一些測試數(shù)據(jù)評價(jià)其精確度。對描述類的模型,可以在精確度、新穎性、實(shí)用性、以及可以理解性等多方面進(jìn)行評價(jià)。發(fā)現(xiàn)方法.分為參量發(fā)現(xiàn)和模型發(fā)現(xiàn)。在上述模型表示和模型評價(jià)標(biāo)準(zhǔn)被確定后,數(shù)據(jù)挖掘就完全變成了一個(gè)優(yōu)化任務(wù),即從數(shù)據(jù)的描述中發(fā)現(xiàn)最適合評價(jià)標(biāo)準(zhǔn)的參量或模型。具體的說,參量發(fā)現(xiàn)就是在確定數(shù)據(jù)模型表示之后,尋找最適合模型評價(jià)標(biāo)準(zhǔn)的參量;模型發(fā)現(xiàn)是一個(gè)循環(huán)的試探過程,需要不斷更改模型表示,最后確定出恰當(dāng)數(shù)量的模型。數(shù)據(jù)挖掘的深度大體可分為兩個(gè)層次,在較淺的層次是利用現(xiàn)有數(shù)據(jù)庫管理系統(tǒng)的查詢/檢索、報(bào)表功能與多維分析、統(tǒng)計(jì)分析方法相結(jié)合,進(jìn)行所謂的在線分析處理(OLAP:On-LineAnalyticalProcessing),從而得出可供決策參考的統(tǒng)計(jì)分析數(shù)據(jù)。在較深層上,是要求從數(shù)據(jù)庫或大量數(shù)據(jù)記錄中發(fā)現(xiàn)隱含的前所未知的知識。嚴(yán)格來說,在線分析在數(shù)據(jù)挖掘這一新觀念產(chǎn)生之前及發(fā)展初期,不屬于數(shù)據(jù)挖掘的范疇,但是就決策支持的需要而言,二者可起到相輔相成的作用。3數(shù)據(jù)選擇和數(shù)據(jù)挖掘數(shù)據(jù)挖掘的過程一般由3個(gè)主要的階段組成:數(shù)據(jù)準(zhǔn)備、采掘操作、結(jié)果表達(dá)和解釋。知識的發(fā)現(xiàn)(KDD)可以描述為這3個(gè)階段的反復(fù)過程。數(shù)據(jù)準(zhǔn)備:這個(gè)階段又可以分成3個(gè)子步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理。數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行合并處理,解決語義模糊性、處理數(shù)據(jù)中的遺漏和清洗臟數(shù)據(jù)等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的質(zhì)量。預(yù)處理是為了克服目前挖掘工具的局限性。數(shù)據(jù)采掘:這個(gè)階段進(jìn)行實(shí)際的采掘操作。包括的要點(diǎn)有(1)先要決定如何產(chǎn)生假設(shè),是讓數(shù)據(jù)采掘?yàn)橛脩舢a(chǎn)生假設(shè),還是用戶自己對于數(shù)據(jù)庫中可能包含的知識提出假設(shè)。前一種為發(fā)現(xiàn)型的數(shù)據(jù)采掘;后一種為驗(yàn)證型的數(shù)據(jù)采掘;(2)選擇合適的工具;(3)采掘知識的操作;(4)正視發(fā)現(xiàn)的知識。結(jié)果表述和解釋:根據(jù)最終用戶的決策目的對提取的學(xué)信息進(jìn)行分析,把最有價(jià)值的信息區(qū)分出來,并且通過決策支持工具提交給決策者。因此,這一步驟的任務(wù)不僅是把結(jié)果表達(dá)出來(例如采用信息可視化方法),還要對信息進(jìn)行過慮處理,如果不能令決策者滿意,需要重復(fù)以上數(shù)據(jù)采掘的過程。數(shù)據(jù)采掘發(fā)現(xiàn)的知識通常是用以下形式表示:這些知識可以直接提供給決策者,用以輔助決策過程;或者提供給領(lǐng)域?qū)<遥拚龑<乙杂械闹R體系;也可以作為新的知識轉(zhuǎn)存到應(yīng)用系統(tǒng)的知識存儲機(jī)構(gòu)中,比如專家系統(tǒng)、規(guī)則庫等。4數(shù)據(jù)開采系統(tǒng)架構(gòu)數(shù)據(jù)挖掘的目的在于從大量數(shù)據(jù)中發(fā)現(xiàn)那些令人感興趣的規(guī)則,一般的講,這些規(guī)則在表現(xiàn)形式上應(yīng)比較簡潔,并且具有一定程度的概括性。本文提出的數(shù)據(jù)挖掘模型的思路是,給定目標(biāo)規(guī)則的置信度,從樣本數(shù)據(jù)出發(fā)找出結(jié)果集;通過機(jī)器學(xué)習(xí)形成決策系統(tǒng);依據(jù)粗糙集理論,發(fā)現(xiàn)決策系統(tǒng)在不同簡化層次上符合置信度要求的規(guī)則;應(yīng)用得到的規(guī)則進(jìn)行推理或決策,由于問題的信息不一定完備,所以根據(jù)現(xiàn)有的信息在模型上逐層匹配,再按照某種優(yōu)先級判定算法,給出問題的最優(yōu)解。領(lǐng)域知識和用戶輸入:有關(guān)的領(lǐng)域知識應(yīng)事先輸入知識庫,供數(shù)據(jù)開采方法使用。用戶輸入用于控制開采過程的進(jìn)行。文控制部分:控制其他部分的激活和給其他部分提供參數(shù),控制部分解釋這些信息并將其用于指導(dǎo)確定焦點(diǎn)、模式提取和評測部分。數(shù)據(jù)庫接口:產(chǎn)生和處理數(shù)據(jù)庫查詢。使用查詢從數(shù)據(jù)庫管理系統(tǒng)中取數(shù)據(jù)。數(shù)據(jù)庫管理系統(tǒng)接口是數(shù)據(jù)庫查詢產(chǎn)生的地方。本文將使用目前最先進(jìn)的數(shù)據(jù)庫開發(fā)工具Powerbuilder8.0作為前臺開發(fā)工具,后臺數(shù)據(jù)庫采用大型關(guān)系型數(shù)據(jù)庫Oracle8.0。確定焦點(diǎn):這要求指明需要訪問哪個(gè)數(shù)據(jù)庫,哪一個(gè)表,需檢索哪些記錄。提取模式:模式是指數(shù)據(jù)庫的元素即記錄、字段和值之間的任何關(guān)系。用于提取模式的算法組成數(shù)據(jù)開采系統(tǒng)的核心。數(shù)據(jù)開采系統(tǒng)可使用各種機(jī)器挖掘算法和統(tǒng)計(jì)分析方法,評測部分:如果一個(gè)模式是正確的、新的、就最終用戶的知識和目標(biāo)來說是有用的,則說這個(gè)模式是有意義的。決定一個(gè)模式有意義的關(guān)鍵是統(tǒng)計(jì)有效性。通用的全自動的數(shù)據(jù)開采的實(shí)現(xiàn)還不可能。一般來說,用戶必須提供一定的屬于系統(tǒng)的控制機(jī)制的交互式指導(dǎo):*選擇要展開工作的數(shù)據(jù)范圍;*鑒別相關(guān)的字段;*細(xì)化目標(biāo)。5數(shù)據(jù)復(fù)雜,易操作推動數(shù)據(jù)挖掘的研究不僅源于學(xué)術(shù)上的動機(jī),更是實(shí)際工作的需要。數(shù)據(jù)復(fù)雜性使得需要更多的領(lǐng)域知識,巨大的庫對算法的效率提出更高的要求,不斷變化的環(huán)境和信息種類(如多媒體信息)需要新的發(fā)現(xiàn)方法,復(fù)雜的問題可能需要多種發(fā)現(xiàn)策略協(xié)作。盡管人們對數(shù)據(jù)開采的一些方面,例如找到滿足科學(xué)數(shù)據(jù)的簡單公式或歸納分類的決策樹,已經(jīng)有了相當(dāng)?shù)难芯浚€有許多其他方面等待研究。這些研究工作不僅是出于學(xué)術(shù)上的考慮,而且從實(shí)際應(yīng)用方面來說,現(xiàn)在需要分析更多更復(fù)雜的數(shù)據(jù),包括面向?qū)ο蟮?,CAD-CAM,文本的和多媒體的數(shù)據(jù)庫。數(shù)據(jù)的復(fù)雜化使得有必
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 自然災(zāi)害概論知到課后答案智慧樹章節(jié)測試答案2025年春防災(zāi)科技學(xué)院
- 江西工商職業(yè)技術(shù)學(xué)院《地基處理新技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 甘肅省白銀市第九中學(xué)2025年高三下學(xué)期第一次月考物理試題含解析
- 公交車輛車身廣告對城市形象的影響
- 公共交通節(jié)能減排制度
- 美萊醫(yī)療美容機(jī)構(gòu)問卷調(diào)查表
- 管道標(biāo)識施工方案
- 噴漿護(hù)坡支護(hù)施工方案
- 河南省鄭州市中牟縣2024-2025學(xué)年高一上學(xué)期數(shù)學(xué)期末測評數(shù)學(xué)試卷(解析版)
- 人工清淤泥施工方案
- 人教鄂教版科學(xué)六年級下冊全冊教案
- 浙江四海氨綸纖維有限公司
- 畢業(yè)設(shè)計(jì)正文150TH循環(huán)流化床鍋爐爐膛本體設(shè)計(jì)
- 新蘇教版五年級科學(xué)下冊2.5《生物的啟示》教學(xué)課件
- 港股通開戶測評答案
- ISO9001質(zhì)量手冊
- 主機(jī)主冷油器切換操作票
- 屋面防水施工方案—自粘聚合物改性瀝青防水卷材
- 地球結(jié)構(gòu)示意圖.
- 三科變頻器SK說明書
- 兵團(tuán)科技管理信息系統(tǒng)PPT課件
評論
0/150
提交評論