下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)
1數(shù)據(jù)挖掘系統(tǒng)隨著現(xiàn)代科學(xué)技術(shù)的快速發(fā)展,數(shù)據(jù)庫(kù)規(guī)模不斷擴(kuò)大。無(wú)論是商業(yè)、公司、研究機(jī)構(gòu)和政府機(jī)構(gòu),我們過(guò)去在過(guò)去八年里積累了大量的、不同形式的數(shù)據(jù)。由于這些資料十分繁雜,要從中發(fā)現(xiàn)有價(jià)值的信息或知識(shí),達(dá)到為決策服務(wù)的目的,成為非常艱巨的任務(wù)。人們需要有新的、更為有效的手段對(duì)各種信息資源進(jìn)行挖掘以發(fā)揮其應(yīng)有潛能。數(shù)據(jù)挖掘(Datamining)與知識(shí)發(fā)現(xiàn)(Knowledgediscovery)正是在這樣的應(yīng)用需求背景下產(chǎn)生并迅速發(fā)展起來(lái)的。數(shù)據(jù)挖掘指的是從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取人們感性趣的知識(shí),這些知識(shí)是隱含的、事先未知的潛在有用信息目前國(guó)內(nèi)企業(yè)實(shí)現(xiàn)數(shù)據(jù)挖掘的困難在于缺少數(shù)據(jù)積累,所以還沒(méi)有關(guān)于國(guó)內(nèi)數(shù)據(jù)挖掘產(chǎn)品的報(bào)道!總之,我的研究項(xiàng)目不僅源于學(xué)術(shù)上的動(dòng)機(jī),更是實(shí)際工作的需要。該項(xiàng)目在已有大量數(shù)據(jù)積累的商業(yè)信息管理系統(tǒng)的基礎(chǔ)上實(shí)現(xiàn)。數(shù)據(jù)挖掘系統(tǒng)所涉及的數(shù)據(jù)庫(kù)大多為大型數(shù)據(jù)庫(kù),種類繁多,有關(guān)系型數(shù)據(jù)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)、工程數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)等?,F(xiàn)在還不可能做出一種數(shù)據(jù)開(kāi)采系統(tǒng),使它從各種數(shù)據(jù)庫(kù)中都能有效地提取知識(shí),大多系統(tǒng)都是針對(duì)一種數(shù)據(jù)庫(kù)而設(shè)計(jì)。本文主要討論從關(guān)系數(shù)據(jù)庫(kù)中提取知識(shí),因?yàn)殛P(guān)系數(shù)據(jù)庫(kù)是使用最廣泛的數(shù)據(jù)庫(kù)。2基于模型的分析數(shù)據(jù)挖掘的算法是對(duì)上述數(shù)據(jù)挖掘方法的具體實(shí)現(xiàn)。所有數(shù)據(jù)挖掘算法都含有以下三個(gè)構(gòu)件(文中的模型是指從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)的模型)模型表示.用于描述要發(fā)現(xiàn)的模型的語(yǔ)言。如果語(yǔ)言的描述能力較強(qiáng),就有助于發(fā)現(xiàn)精確的數(shù)據(jù)模型。但要注意的是,能力過(guò)強(qiáng)的描述語(yǔ)言卻有可能導(dǎo)致所發(fā)現(xiàn)的模型的過(guò)分一般化,降低了預(yù)測(cè)的精確度。常用的模型表示方法有決策樹(shù)、非線性回歸、基于事例的推理、貝葉斯網(wǎng)絡(luò)和歸納邏輯程序設(shè)計(jì)等方法。模型評(píng)價(jià)標(biāo)準(zhǔn).對(duì)一個(gè)所發(fā)現(xiàn)的模型在大多程度上符合發(fā)現(xiàn)目的的要求作出定量評(píng)價(jià)。對(duì)預(yù)測(cè)的模型,可以利用一些測(cè)試數(shù)據(jù)評(píng)價(jià)其精確度。對(duì)描述類的模型,可以在精確度、新穎性、實(shí)用性、以及可以理解性等多方面進(jìn)行評(píng)價(jià)。發(fā)現(xiàn)方法.分為參量發(fā)現(xiàn)和模型發(fā)現(xiàn)。在上述模型表示和模型評(píng)價(jià)標(biāo)準(zhǔn)被確定后,數(shù)據(jù)挖掘就完全變成了一個(gè)優(yōu)化任務(wù),即從數(shù)據(jù)的描述中發(fā)現(xiàn)最適合評(píng)價(jià)標(biāo)準(zhǔn)的參量或模型。具體的說(shuō),參量發(fā)現(xiàn)就是在確定數(shù)據(jù)模型表示之后,尋找最適合模型評(píng)價(jià)標(biāo)準(zhǔn)的參量;模型發(fā)現(xiàn)是一個(gè)循環(huán)的試探過(guò)程,需要不斷更改模型表示,最后確定出恰當(dāng)數(shù)量的模型。數(shù)據(jù)挖掘的深度大體可分為兩個(gè)層次,在較淺的層次是利用現(xiàn)有數(shù)據(jù)庫(kù)管理系統(tǒng)的查詢/檢索、報(bào)表功能與多維分析、統(tǒng)計(jì)分析方法相結(jié)合,進(jìn)行所謂的在線分析處理(OLAP:On-LineAnalyticalProcessing),從而得出可供決策參考的統(tǒng)計(jì)分析數(shù)據(jù)。在較深層上,是要求從數(shù)據(jù)庫(kù)或大量數(shù)據(jù)記錄中發(fā)現(xiàn)隱含的前所未知的知識(shí)。嚴(yán)格來(lái)說(shuō),在線分析在數(shù)據(jù)挖掘這一新觀念產(chǎn)生之前及發(fā)展初期,不屬于數(shù)據(jù)挖掘的范疇,但是就決策支持的需要而言,二者可起到相輔相成的作用。3數(shù)據(jù)選擇和數(shù)據(jù)挖掘數(shù)據(jù)挖掘的過(guò)程一般由3個(gè)主要的階段組成:數(shù)據(jù)準(zhǔn)備、采掘操作、結(jié)果表達(dá)和解釋。知識(shí)的發(fā)現(xiàn)(KDD)可以描述為這3個(gè)階段的反復(fù)過(guò)程。數(shù)據(jù)準(zhǔn)備:這個(gè)階段又可以分成3個(gè)子步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理。數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫(kù)運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行合并處理,解決語(yǔ)義模糊性、處理數(shù)據(jù)中的遺漏和清洗臟數(shù)據(jù)等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的質(zhì)量。預(yù)處理是為了克服目前挖掘工具的局限性。數(shù)據(jù)采掘:這個(gè)階段進(jìn)行實(shí)際的采掘操作。包括的要點(diǎn)有(1)先要決定如何產(chǎn)生假設(shè),是讓數(shù)據(jù)采掘?yàn)橛脩舢a(chǎn)生假設(shè),還是用戶自己對(duì)于數(shù)據(jù)庫(kù)中可能包含的知識(shí)提出假設(shè)。前一種為發(fā)現(xiàn)型的數(shù)據(jù)采掘;后一種為驗(yàn)證型的數(shù)據(jù)采掘;(2)選擇合適的工具;(3)采掘知識(shí)的操作;(4)正視發(fā)現(xiàn)的知識(shí)。結(jié)果表述和解釋:根據(jù)最終用戶的決策目的對(duì)提取的學(xué)信息進(jìn)行分析,把最有價(jià)值的信息區(qū)分出來(lái),并且通過(guò)決策支持工具提交給決策者。因此,這一步驟的任務(wù)不僅是把結(jié)果表達(dá)出來(lái)(例如采用信息可視化方法),還要對(duì)信息進(jìn)行過(guò)慮處理,如果不能令決策者滿意,需要重復(fù)以上數(shù)據(jù)采掘的過(guò)程。數(shù)據(jù)采掘發(fā)現(xiàn)的知識(shí)通常是用以下形式表示:這些知識(shí)可以直接提供給決策者,用以輔助決策過(guò)程;或者提供給領(lǐng)域?qū)<?,修正專家以有的知識(shí)體系;也可以作為新的知識(shí)轉(zhuǎn)存到應(yīng)用系統(tǒng)的知識(shí)存儲(chǔ)機(jī)構(gòu)中,比如專家系統(tǒng)、規(guī)則庫(kù)等。4數(shù)據(jù)開(kāi)采系統(tǒng)架構(gòu)數(shù)據(jù)挖掘的目的在于從大量數(shù)據(jù)中發(fā)現(xiàn)那些令人感興趣的規(guī)則,一般的講,這些規(guī)則在表現(xiàn)形式上應(yīng)比較簡(jiǎn)潔,并且具有一定程度的概括性。本文提出的數(shù)據(jù)挖掘模型的思路是,給定目標(biāo)規(guī)則的置信度,從樣本數(shù)據(jù)出發(fā)找出結(jié)果集;通過(guò)機(jī)器學(xué)習(xí)形成決策系統(tǒng);依據(jù)粗糙集理論,發(fā)現(xiàn)決策系統(tǒng)在不同簡(jiǎn)化層次上符合置信度要求的規(guī)則;應(yīng)用得到的規(guī)則進(jìn)行推理或決策,由于問(wèn)題的信息不一定完備,所以根據(jù)現(xiàn)有的信息在模型上逐層匹配,再按照某種優(yōu)先級(jí)判定算法,給出問(wèn)題的最優(yōu)解。領(lǐng)域知識(shí)和用戶輸入:有關(guān)的領(lǐng)域知識(shí)應(yīng)事先輸入知識(shí)庫(kù),供數(shù)據(jù)開(kāi)采方法使用。用戶輸入用于控制開(kāi)采過(guò)程的進(jìn)行。文控制部分:控制其他部分的激活和給其他部分提供參數(shù),控制部分解釋這些信息并將其用于指導(dǎo)確定焦點(diǎn)、模式提取和評(píng)測(cè)部分。數(shù)據(jù)庫(kù)接口:產(chǎn)生和處理數(shù)據(jù)庫(kù)查詢。使用查詢從數(shù)據(jù)庫(kù)管理系統(tǒng)中取數(shù)據(jù)。數(shù)據(jù)庫(kù)管理系統(tǒng)接口是數(shù)據(jù)庫(kù)查詢產(chǎn)生的地方。本文將使用目前最先進(jìn)的數(shù)據(jù)庫(kù)開(kāi)發(fā)工具Powerbuilder8.0作為前臺(tái)開(kāi)發(fā)工具,后臺(tái)數(shù)據(jù)庫(kù)采用大型關(guān)系型數(shù)據(jù)庫(kù)Oracle8.0。確定焦點(diǎn):這要求指明需要訪問(wèn)哪個(gè)數(shù)據(jù)庫(kù),哪一個(gè)表,需檢索哪些記錄。提取模式:模式是指數(shù)據(jù)庫(kù)的元素即記錄、字段和值之間的任何關(guān)系。用于提取模式的算法組成數(shù)據(jù)開(kāi)采系統(tǒng)的核心。數(shù)據(jù)開(kāi)采系統(tǒng)可使用各種機(jī)器挖掘算法和統(tǒng)計(jì)分析方法,評(píng)測(cè)部分:如果一個(gè)模式是正確的、新的、就最終用戶的知識(shí)和目標(biāo)來(lái)說(shuō)是有用的,則說(shuō)這個(gè)模式是有意義的。決定一個(gè)模式有意義的關(guān)鍵是統(tǒng)計(jì)有效性。通用的全自動(dòng)的數(shù)據(jù)開(kāi)采的實(shí)現(xiàn)還不可能。一般來(lái)說(shuō),用戶必須提供一定的屬于系統(tǒng)的控制機(jī)制的交互式指導(dǎo):*選擇要展開(kāi)工作的數(shù)據(jù)范圍;*鑒別相關(guān)的字段;*細(xì)化目標(biāo)。5數(shù)據(jù)復(fù)雜,易操作推動(dòng)數(shù)據(jù)挖掘的研究不僅源于學(xué)術(shù)上的動(dòng)機(jī),更是實(shí)際工作的需要。數(shù)據(jù)復(fù)雜性使得需要更多的領(lǐng)域知識(shí),巨大的庫(kù)對(duì)算法的效率提出更高的要求,不斷變化的環(huán)境和信息種類(如多媒體信息)需要新的發(fā)現(xiàn)方法,復(fù)雜的問(wèn)題可能需要多種發(fā)現(xiàn)策略協(xié)作。盡管人們對(duì)數(shù)據(jù)開(kāi)采的一些方面,例如找到滿足科學(xué)數(shù)據(jù)的簡(jiǎn)單公式或歸納分類的決策樹(shù),已經(jīng)有了相當(dāng)?shù)难芯?,但還有許多其他方面等待研究。這些研究工作不僅是出于學(xué)術(shù)上的考慮,而且從實(shí)際應(yīng)用方面來(lái)說(shuō),現(xiàn)在需要分析更多更復(fù)雜的數(shù)據(jù),包括面向?qū)ο蟮?,CAD-CAM,文本的和多媒體的數(shù)據(jù)庫(kù)。數(shù)據(jù)的復(fù)雜化使得有必
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024特崗教師聘用及教師團(tuán)隊(duì)協(xié)作能力提升服務(wù)合同3篇
- 2025年度新能源車(chē)輛采購(gòu)及維護(hù)服務(wù)合同范本2篇
- 2025年度智能家居系統(tǒng)代理商合作協(xié)議4篇
- 2025年度新能源汽車(chē)研發(fā)出資人合作協(xié)議4篇
- 2025年度旅游景區(qū)特色商品檔口租賃經(jīng)營(yíng)合同3篇
- 2025年度水電工程安全監(jiān)測(cè)系統(tǒng)安裝與維護(hù)服務(wù)合同3篇
- 2024版食堂承包合同協(xié)議范文
- 2025年度特殊崗位人員辭退及安置協(xié)議范本4篇
- 2025年度智能機(jī)器人研發(fā)股權(quán)合作協(xié)議4篇
- 2025年度文化產(chǎn)業(yè)園區(qū)運(yùn)營(yíng)管理合同3篇
- 小學(xué)數(shù)學(xué)六年級(jí)解方程練習(xí)300題及答案
- 電抗器噪聲控制與減振技術(shù)
- 中醫(yī)健康宣教手冊(cè)
- 2024年江蘇揚(yáng)州市高郵市國(guó)有企業(yè)招聘筆試參考題庫(kù)附帶答案詳解
- 消費(fèi)醫(yī)療行業(yè)報(bào)告
- 品學(xué)課堂新范式
- GB/T 1196-2023重熔用鋁錠
- 運(yùn)輸行業(yè)員工崗前安全培訓(xùn)
- 公路工程安全風(fēng)險(xiǎn)辨識(shí)與防控手冊(cè)
- 幼兒園教師培訓(xùn):計(jì)數(shù)(數(shù)數(shù))的核心經(jīng)驗(yàn)
- 如何撰寫(xiě)和發(fā)表高水平的科研論文-good ppt
評(píng)論
0/150
提交評(píng)論