數(shù)據(jù)挖掘報告(模板)_第1頁
數(shù)據(jù)挖掘報告(模板)_第2頁
數(shù)據(jù)挖掘報告(模板)_第3頁
數(shù)據(jù)挖掘報告(模板)_第4頁
數(shù)據(jù)挖掘報告(模板)_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

本文格式為Word版,下載可任意編輯——數(shù)據(jù)挖掘報告(模板)第一章:數(shù)據(jù)挖掘基本理論

數(shù)據(jù)挖掘的產(chǎn)生:

隨著計(jì)算機(jī)硬件和軟件的飛速發(fā)展,特別是數(shù)據(jù)庫技術(shù)與應(yīng)用的日益普及,人們面臨著快速擴(kuò)張的數(shù)據(jù)海洋,如何有效利用這一豐富數(shù)據(jù)海洋的寶藏為人類服務(wù)業(yè)已成為廣大信息技術(shù)工的所重點(diǎn)關(guān)注的焦點(diǎn)之一。與日趨成熟的數(shù)據(jù)管理技術(shù)與軟件工具相比,人們所依靠的數(shù)據(jù)分析工具功能,卻無法有效地為決策者提供其決策支持所需要的相關(guān)知識,從而形成了一種獨(dú)特的現(xiàn)象“豐富的數(shù)據(jù),貧乏的知識〞。

為有效解決這一問題,自二十世紀(jì)90年代開始,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來,數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展,得益于目前全世界所擁有的巨大數(shù)據(jù)資源以及對將這些數(shù)據(jù)資源轉(zhuǎn)換為信息和知識資源的巨大需求,對信息和知識的需求來自各行各業(yè),從商業(yè)管理、生產(chǎn)控制、市場分析到工程設(shè)計(jì)、科學(xué)摸索等。數(shù)據(jù)挖掘可以視為是數(shù)據(jù)管理與分析技術(shù)的自然進(jìn)化產(chǎn)物。自六十年代開始,數(shù)據(jù)庫及信息技術(shù)就逐步從基本的文件處理系統(tǒng)發(fā)展為更繁雜功能更強(qiáng)大的數(shù)據(jù)庫系統(tǒng);七十年代的數(shù)據(jù)庫系統(tǒng)的研究與發(fā)展,最終導(dǎo)致了關(guān)系數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)建模工具、索引與數(shù)據(jù)組織技術(shù)的迅速發(fā)展,這時用戶獲得了更便利靈活的數(shù)據(jù)存取語言和界面;此外在線事務(wù)處理手段的出現(xiàn)也極大地推動了關(guān)系數(shù)據(jù)庫技術(shù)的應(yīng)用普及,特別是在大數(shù)據(jù)量存儲、檢索和管理的實(shí)際應(yīng)用領(lǐng)域。

自八十年代中期開始,關(guān)系數(shù)據(jù)庫技術(shù)被普遍采用,新一輪研究與開發(fā)新型與強(qiáng)大的數(shù)據(jù)庫系統(tǒng)悄然興起,并提出了大量先進(jìn)的數(shù)據(jù)模型:擴(kuò)展關(guān)系模型、面向?qū)ο竽P?、演繹模型等;以及應(yīng)用數(shù)據(jù)庫系統(tǒng):空間數(shù)據(jù)庫、時序數(shù)據(jù)庫、多媒體數(shù)據(jù)庫等;日前異構(gòu)數(shù)據(jù)庫系統(tǒng)和基于互聯(lián)網(wǎng)的全球信息系統(tǒng)也已開始出現(xiàn)并在信息工業(yè)中開始扮演重要角色。

被收集并存儲在眾多數(shù)據(jù)庫中且正在快速增長的巨大數(shù)據(jù),已遠(yuǎn)遠(yuǎn)超過人類的處理和分析理解能力(在不借助功能強(qiáng)大的工具狀況下),這樣存儲在數(shù)據(jù)庫中的數(shù)據(jù)就成為“數(shù)據(jù)墳?zāi)龚暎催@些數(shù)據(jù)極少被訪問,結(jié)果大量重要的決策不是基于這些基礎(chǔ)數(shù)據(jù)而是依靠決策者的直覺而制定的,其中的原因很簡單,這些決策的制定者沒有適合的工具幫助其從數(shù)據(jù)中抽取出所需的信息知識。而數(shù)據(jù)挖掘工具可以幫助從大量數(shù)據(jù)中發(fā)現(xiàn)所存在的特定模式規(guī)律,從而可以為商業(yè)活動、科學(xué)摸索和醫(yī)學(xué)研究等諸多領(lǐng)域提供所必需的信息知識。數(shù)據(jù)與信息知識之間的巨大差距迫切需要系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,來幫助實(shí)現(xiàn)將“數(shù)據(jù)墳?zāi)龚曋械臄?shù)據(jù)轉(zhuǎn)化為知識資產(chǎn)。

數(shù)據(jù)挖掘的概念:

數(shù)據(jù)挖掘,在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。知識發(fā)現(xiàn)過程以下三個階段組成:(1)數(shù)據(jù)準(zhǔn)備,(2)數(shù)據(jù)挖掘,(3)結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或知識庫交互。

并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的探尋引擎查找特定的Web頁面,則是信息檢索(informationretrieval)領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的,可能涉及使用繁雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依靠傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)立索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來加強(qiáng)信息檢索系統(tǒng)的能力。

數(shù)據(jù)挖掘的步驟:

1.確定挖掘?qū)ο螅憾x明了的挖掘?qū)ο螅J(rèn)清數(shù)據(jù)挖掘的目標(biāo)是數(shù)據(jù)挖掘的第一步。數(shù)據(jù)挖掘的最終結(jié)果往往是不可預(yù)計(jì)的,但是要解決的問題應(yīng)當(dāng)是有預(yù)見性的、有目標(biāo)的。在數(shù)據(jù)挖掘的第一步中,有時還需要用戶提供一些先驗(yàn)知識。這些先驗(yàn)知識可能是用戶的業(yè)務(wù)領(lǐng)域知識或是以前數(shù)據(jù)挖掘所得到的初步成果。這就意味著數(shù)據(jù)挖掘是一個過程,在挖掘過程中可能會提出新的問題;可能會嘗試用其他的方法來檢驗(yàn)數(shù)據(jù),在數(shù)據(jù)的子集上展開研究。

2.數(shù)據(jù)收集:數(shù)據(jù)是挖掘知識最原始的資料?!袄M(jìn),垃圾出〞,只有從正確的數(shù)據(jù)中才能挖掘到有用的知識。為特定問題選擇數(shù)據(jù)需要領(lǐng)域?qū)<覅⑴c。因此,領(lǐng)域問題的數(shù)據(jù)收集好之后,和目標(biāo)信息相關(guān)的屬性也選擇好了。

3.數(shù)據(jù)預(yù)處理:數(shù)據(jù)選擇好以后,就需要對數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理包括:去除錯誤數(shù)據(jù)和數(shù)據(jù)轉(zhuǎn)換。錯誤數(shù)據(jù),在統(tǒng)計(jì)學(xué)中稱為異常值,應(yīng)當(dāng)在此階段發(fā)現(xiàn)并且刪除。否則,它們將導(dǎo)致產(chǎn)生錯誤的挖掘結(jié)果。同時,需要將數(shù)據(jù)轉(zhuǎn)換成適合的形式。例如,在某些狀況下,將數(shù)據(jù)轉(zhuǎn)換成向量形式。另外,為了尋覓更多重要的特征和減少數(shù)據(jù)挖掘步驟的負(fù)擔(dān),我們可以將數(shù)據(jù)從一個高維空間轉(zhuǎn)換到一個低維空間。

4.數(shù)據(jù)挖掘:數(shù)據(jù)挖掘步驟主要是根據(jù)數(shù)據(jù)建立模型。我們可以在這個步驟使用各種數(shù)據(jù)挖掘算法和技術(shù)。然而,對于特定的任務(wù),需要選擇正確適合的算法,來解決相應(yīng)的問題。

5.信息解釋:首先,通過數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)的知識需要專家對其進(jìn)行解釋,幫助解決實(shí)際問題。然后,根據(jù)可用性、正確性、可理解性等評價指標(biāo)對解釋的結(jié)果進(jìn)行評估。只有經(jīng)過這一步驟的過濾,數(shù)據(jù)挖掘的結(jié)果才能夠被應(yīng)用于實(shí)踐。

6.可視化:可視化技術(shù)主要用來通過圖形化的方式顯示數(shù)據(jù)和數(shù)據(jù)挖掘的結(jié)果,從而幫助用戶更好的發(fā)現(xiàn)隱蔽在數(shù)據(jù)之后的知識。它可以被應(yīng)用在數(shù)據(jù)挖掘的整個過程,包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和信息解釋。數(shù)據(jù)和信息的可視化顯示對用戶來說十分重要,由于它能夠加強(qiáng)可理解性和可用性。

其次章:系統(tǒng)分析

系統(tǒng)用戶分析:

系統(tǒng)功能分析:

系統(tǒng)算法分析:

第三章:數(shù)據(jù)管理

數(shù)據(jù)管理的方法:

數(shù)據(jù)管理的具體實(shí)現(xiàn):

第四章:數(shù)據(jù)采集

數(shù)據(jù)采集的方法

數(shù)據(jù)收集:數(shù)據(jù)是挖掘知識最原始的資料?!袄M(jìn),垃圾出〞,只有從正確的數(shù)據(jù)中才能挖掘到有用的知識。為特定問題選擇數(shù)據(jù)需要領(lǐng)域?qū)<覅⑴c。因此,領(lǐng)域問題的數(shù)據(jù)收集好之后,和目標(biāo)信息相關(guān)的屬性也選擇好了。

數(shù)據(jù)采集的具體實(shí)現(xiàn)過程

第五章:數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理的方法:

數(shù)據(jù)預(yù)處理:數(shù)據(jù)選擇好以后,就需要對數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理包括:去除錯誤數(shù)據(jù)和數(shù)據(jù)轉(zhuǎn)換。錯誤數(shù)據(jù),在統(tǒng)計(jì)學(xué)中稱為異常值,應(yīng)當(dāng)在此階段發(fā)現(xiàn)并且刪除。否則,它們將導(dǎo)致產(chǎn)生錯誤的挖掘結(jié)果。同時,需要將數(shù)據(jù)轉(zhuǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論