




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
本文格式為Word版,下載可任意編輯——數(shù)據(jù)挖掘報告(模板)第一章:數(shù)據(jù)挖掘基本理論
數(shù)據(jù)挖掘的產(chǎn)生:
隨著計算機(jī)硬件和軟件的飛速發(fā)展,特別是數(shù)據(jù)庫技術(shù)與應(yīng)用的日益普及,人們面臨著快速擴(kuò)張的數(shù)據(jù)海洋,如何有效利用這一豐富數(shù)據(jù)海洋的寶藏為人類服務(wù)業(yè)已成為廣大信息技術(shù)工的所重點關(guān)注的焦點之一。與日趨成熟的數(shù)據(jù)管理技術(shù)與軟件工具相比,人們所依靠的數(shù)據(jù)分析工具功能,卻無法有效地為決策者提供其決策支持所需要的相關(guān)知識,從而形成了一種獨特的現(xiàn)象“豐富的數(shù)據(jù),貧乏的知識〞。
為有效解決這一問題,自二十世紀(jì)90年代開始,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來,數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展,得益于目前全世界所擁有的巨大數(shù)據(jù)資源以及對將這些數(shù)據(jù)資源轉(zhuǎn)換為信息和知識資源的巨大需求,對信息和知識的需求來自各行各業(yè),從商業(yè)管理、生產(chǎn)控制、市場分析到工程設(shè)計、科學(xué)摸索等。數(shù)據(jù)挖掘可以視為是數(shù)據(jù)管理與分析技術(shù)的自然進(jìn)化產(chǎn)物。自六十年代開始,數(shù)據(jù)庫及信息技術(shù)就逐步從基本的文件處理系統(tǒng)發(fā)展為更繁雜功能更強(qiáng)大的數(shù)據(jù)庫系統(tǒng);七十年代的數(shù)據(jù)庫系統(tǒng)的研究與發(fā)展,最終導(dǎo)致了關(guān)系數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)建模工具、索引與數(shù)據(jù)組織技術(shù)的迅速發(fā)展,這時用戶獲得了更便利靈活的數(shù)據(jù)存取語言和界面;此外在線事務(wù)處理手段的出現(xiàn)也極大地推動了關(guān)系數(shù)據(jù)庫技術(shù)的應(yīng)用普及,特別是在大數(shù)據(jù)量存儲、檢索和管理的實際應(yīng)用領(lǐng)域。
自八十年代中期開始,關(guān)系數(shù)據(jù)庫技術(shù)被普遍采用,新一輪研究與開發(fā)新型與強(qiáng)大的數(shù)據(jù)庫系統(tǒng)悄然興起,并提出了大量先進(jìn)的數(shù)據(jù)模型:擴(kuò)展關(guān)系模型、面向?qū)ο竽P?、演繹模型等;以及應(yīng)用數(shù)據(jù)庫系統(tǒng):空間數(shù)據(jù)庫、時序數(shù)據(jù)庫、多媒體數(shù)據(jù)庫等;日前異構(gòu)數(shù)據(jù)庫系統(tǒng)和基于互聯(lián)網(wǎng)的全球信息系統(tǒng)也已開始出現(xiàn)并在信息工業(yè)中開始扮演重要角色。
被收集并存儲在眾多數(shù)據(jù)庫中且正在快速增長的巨大數(shù)據(jù),已遠(yuǎn)遠(yuǎn)超過人類的處理和分析理解能力(在不借助功能強(qiáng)大的工具狀況下),這樣存儲在數(shù)據(jù)庫中的數(shù)據(jù)就成為“數(shù)據(jù)墳?zāi)龚?,即這些數(shù)據(jù)極少被訪問,結(jié)果大量重要的決策不是基于這些基礎(chǔ)數(shù)據(jù)而是依靠決策者的直覺而制定的,其中的原因很簡單,這些決策的制定者沒有適合的工具幫助其從數(shù)據(jù)中抽取出所需的信息知識。而數(shù)據(jù)挖掘工具可以幫助從大量數(shù)據(jù)中發(fā)現(xiàn)所存在的特定模式規(guī)律,從而可以為商業(yè)活動、科學(xué)摸索和醫(yī)學(xué)研究等諸多領(lǐng)域提供所必需的信息知識。數(shù)據(jù)與信息知識之間的巨大差距迫切需要系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,來幫助實現(xiàn)將“數(shù)據(jù)墳?zāi)龚曋械臄?shù)據(jù)轉(zhuǎn)化為知識資產(chǎn)。
數(shù)據(jù)挖掘的概念:
數(shù)據(jù)挖掘,在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。知識發(fā)現(xiàn)過程以下三個階段組成:(1)數(shù)據(jù)準(zhǔn)備,(2)數(shù)據(jù)挖掘,(3)結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或知識庫交互。
并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的探尋引擎查找特定的Web頁面,則是信息檢索(informationretrieval)領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的,可能涉及使用繁雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依靠傳統(tǒng)的計算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)立索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來加強(qiáng)信息檢索系統(tǒng)的能力。
數(shù)據(jù)挖掘的步驟:
1.確定挖掘?qū)ο螅憾x明了的挖掘?qū)ο?,認(rèn)清數(shù)據(jù)挖掘的目標(biāo)是數(shù)據(jù)挖掘的第一步。數(shù)據(jù)挖掘的最終結(jié)果往往是不可預(yù)計的,但是要解決的問題應(yīng)當(dāng)是有預(yù)見性的、有目標(biāo)的。在數(shù)據(jù)挖掘的第一步中,有時還需要用戶提供一些先驗知識。這些先驗知識可能是用戶的業(yè)務(wù)領(lǐng)域知識或是以前數(shù)據(jù)挖掘所得到的初步成果。這就意味著數(shù)據(jù)挖掘是一個過程,在挖掘過程中可能會提出新的問題;可能會嘗試用其他的方法來檢驗數(shù)據(jù),在數(shù)據(jù)的子集上展開研究。
2.數(shù)據(jù)收集:數(shù)據(jù)是挖掘知識最原始的資料。“垃圾進(jìn),垃圾出〞,只有從正確的數(shù)據(jù)中才能挖掘到有用的知識。為特定問題選擇數(shù)據(jù)需要領(lǐng)域?qū)<覅⑴c。因此,領(lǐng)域問題的數(shù)據(jù)收集好之后,和目標(biāo)信息相關(guān)的屬性也選擇好了。
3.數(shù)據(jù)預(yù)處理:數(shù)據(jù)選擇好以后,就需要對數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理包括:去除錯誤數(shù)據(jù)和數(shù)據(jù)轉(zhuǎn)換。錯誤數(shù)據(jù),在統(tǒng)計學(xué)中稱為異常值,應(yīng)當(dāng)在此階段發(fā)現(xiàn)并且刪除。否則,它們將導(dǎo)致產(chǎn)生錯誤的挖掘結(jié)果。同時,需要將數(shù)據(jù)轉(zhuǎn)換成適合的形式。例如,在某些狀況下,將數(shù)據(jù)轉(zhuǎn)換成向量形式。另外,為了尋覓更多重要的特征和減少數(shù)據(jù)挖掘步驟的負(fù)擔(dān),我們可以將數(shù)據(jù)從一個高維空間轉(zhuǎn)換到一個低維空間。
4.數(shù)據(jù)挖掘:數(shù)據(jù)挖掘步驟主要是根據(jù)數(shù)據(jù)建立模型。我們可以在這個步驟使用各種數(shù)據(jù)挖掘算法和技術(shù)。然而,對于特定的任務(wù),需要選擇正確適合的算法,來解決相應(yīng)的問題。
5.信息解釋:首先,通過數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)的知識需要專家對其進(jìn)行解釋,幫助解決實際問題。然后,根據(jù)可用性、正確性、可理解性等評價指標(biāo)對解釋的結(jié)果進(jìn)行評估。只有經(jīng)過這一步驟的過濾,數(shù)據(jù)挖掘的結(jié)果才能夠被應(yīng)用于實踐。
6.可視化:可視化技術(shù)主要用來通過圖形化的方式顯示數(shù)據(jù)和數(shù)據(jù)挖掘的結(jié)果,從而幫助用戶更好的發(fā)現(xiàn)隱蔽在數(shù)據(jù)之后的知識。它可以被應(yīng)用在數(shù)據(jù)挖掘的整個過程,包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和信息解釋。數(shù)據(jù)和信息的可視化顯示對用戶來說十分重要,由于它能夠加強(qiáng)可理解性和可用性。
其次章:系統(tǒng)分析
系統(tǒng)用戶分析:
系統(tǒng)功能分析:
系統(tǒng)算法分析:
第三章:數(shù)據(jù)管理
數(shù)據(jù)管理的方法:
數(shù)據(jù)管理的具體實現(xiàn):
第四章:數(shù)據(jù)采集
數(shù)據(jù)采集的方法
數(shù)據(jù)收集:數(shù)據(jù)是挖掘知識最原始的資料?!袄M(jìn),垃圾出〞,只有從正確的數(shù)據(jù)中才能挖掘到有用的知識。為特定問題選擇數(shù)據(jù)需要領(lǐng)域?qū)<覅⑴c。因此,領(lǐng)域問題的數(shù)據(jù)收集好之后,和目標(biāo)信息相關(guān)的屬性也選擇好了。
數(shù)據(jù)采集的具體實現(xiàn)過程
第五章:數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理的方法:
數(shù)據(jù)預(yù)處理:數(shù)據(jù)選擇好以后,就需要對數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理包括:去除錯誤數(shù)據(jù)和數(shù)據(jù)轉(zhuǎn)換。錯誤數(shù)據(jù),在統(tǒng)計學(xué)中稱為異常值,應(yīng)當(dāng)在此階段發(fā)現(xiàn)并且刪除。否則,它們將導(dǎo)致產(chǎn)生錯誤的挖掘結(jié)果。同時,需要將數(shù)據(jù)轉(zhuǎn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025深圳合同協(xié)議書范本
- 小學(xué)生安全教育演講稿
- 2025【建筑外墻保溫工程施工專業(yè)分包合同】 建設(shè)工程施工合同模板
- 2025陶瓷磚供銷合同模板
- 2025年附條件合同的法律特性
- 衛(wèi)生學(xué)校學(xué)歷教育中心
- 心臟病產(chǎn)后的護(hù)理
- 2025年華南地區(qū)室內(nèi)環(huán)境質(zhì)量保證合同(適用于建筑材料交易)
- 初中生物神經(jīng)系統(tǒng)與神經(jīng)調(diào)節(jié)第2課時 2024-2025學(xué)年七年級生物下冊(北師大版2024)
- 2025技術(shù)轉(zhuǎn)讓與合作合同
- 兒童抑郁量表CDI
- 馬克思主義新聞觀十二講之第八講堅持新聞?wù)鎸嵲瓌t課件
- 工藝管道伴熱管施工技術(shù)方案
- 各層次養(yǎng)老機(jī)構(gòu)定價方法及案例
- 二方審核計劃
- 優(yōu)秀病例演講比賽PPT
- 吉林省礦產(chǎn)資源概況及分布
- 最新肺結(jié)核診斷和治療指南
- 公司員工基本禮儀培訓(xùn)ppt完整版課件
- 工程項目綜合應(yīng)急預(yù)案(通用版)
- 半橋LLC諧振變換器設(shè)計與仿真
評論
0/150
提交評論