數(shù)據(jù)挖掘讀書筆記_第1頁
數(shù)據(jù)挖掘讀書筆記_第2頁
數(shù)據(jù)挖掘讀書筆記_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上數(shù)據(jù)挖掘:概念與技術(1-6章)讀書筆記1、 數(shù)據(jù)挖掘概念(即什么是數(shù)據(jù)挖掘)我們生活在數(shù)據(jù)時代,各行各業(yè)每天都產(chǎn)生巨大的數(shù)據(jù)。數(shù)據(jù)的爆炸式增長、廣泛可用和巨大數(shù)量使得我們的時代成為真正的數(shù)據(jù)時代。急需功能強大和通用的工具,以便從海量數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,把這些數(shù)據(jù)轉換成有組織的、可利用的知識。這種需求導致了數(shù)據(jù)挖掘的誕生。數(shù)據(jù)挖掘?qū)嶋H上是從數(shù)據(jù)中挖掘知識,由以下步驟的迭代組成:(1) 數(shù)據(jù)清理(消除噪聲和刪除不一致數(shù)據(jù))(2) 數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)(3) 數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取與分析任務相關的數(shù)據(jù))(4) 數(shù)據(jù)變換(通過匯總或聚集操作,把數(shù)據(jù)變換

2、和統(tǒng)一成適合挖掘的形式)(5) 數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式)(6) 模式評估(根據(jù)某種興趣度度量,識別代表知識的真正有趣的模式)(7) 知識表示(使用可視化和知識表示技術,向用戶提供挖掘的知識)關系數(shù)據(jù)庫是數(shù)據(jù)挖掘最常見、最豐富的信息源,因此它是我們數(shù)據(jù)挖掘研究研究的一種主要數(shù)據(jù)形式。2、 數(shù)據(jù)挖掘技術(即怎樣進行數(shù)據(jù)挖掘)1、 可以挖掘什么類型的模式特征化與區(qū)分、頻繁模式、關聯(lián)和相關性挖掘,分類與回歸,聚類分析,離群點分析。數(shù)據(jù)挖掘可以被用來進行市場分析和管理、風險分析和管理、缺陷分析和管理等。2、使用什么技術1)首先要認識數(shù)據(jù),一個數(shù)據(jù)對象代表一個實體,又稱樣本、實例、數(shù)

3、據(jù)點或?qū)ο蟆?#160;屬性是一個數(shù)據(jù)字段,表示數(shù)據(jù)對象的一個特征,又稱維、特征和變量。2)數(shù)據(jù)描述中心趨勢度量:均值、中位數(shù)和眾數(shù)度量數(shù)據(jù)散布:極差、四分位數(shù)、方差、標準差和四分位數(shù)極差通過基于像素的可視化技術等清晰有效的表達數(shù)據(jù)3)進行數(shù)據(jù)預處理,包括數(shù)據(jù)變換與數(shù)據(jù)離散化。數(shù)據(jù)變換策略:光滑、屬性構造、聚集、規(guī)范化、離散化、由標稱數(shù)據(jù)產(chǎn)生概念分層數(shù)據(jù)離散化策略:分箱、直方圖分析、聚類決策樹和相關分析4) 然后需要建立數(shù)據(jù)倉庫進行處理,數(shù)據(jù)倉庫:是一種數(shù)據(jù)庫,它允許將各種應用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,對信息處理提供支持。數(shù)據(jù)倉庫的構建需要數(shù)據(jù)集成、數(shù)據(jù)清洗和數(shù)據(jù)統(tǒng)一

4、。5)聯(lián)機分析處理可以,在使用多維數(shù)據(jù)模型的數(shù)據(jù)倉庫或數(shù)據(jù)集市上進行,使用數(shù)據(jù)立方體結構,OLAP操作可以有效的實現(xiàn)。數(shù)據(jù)立方體計算的一般策略: 排序、散列和分組 同時聚集和緩存中間結果 當存在多個子女方體時,由最小的子女聚集 可以使用先驗剪枝方法有效的計算冰山立方體數(shù)據(jù)立方體計算方法: 多路數(shù)組聚集,基于稀疏數(shù)組的、自底向上的、共享計算的物化整個數(shù)據(jù)立方體BUC,通過探查有效的自頂向下計算次序和排序計算冰山立方體Star-Cubing,使用星樹結構,集成自頂向下和自底向上計算,計算冰山立方體外殼片段立方體,通過僅預計算劃分的立方體外殼片段,支持進行高維OLAP 6)挖掘頻繁模式和關聯(lián)規(guī)則頻繁項集挖掘方法:Apriori算法(通過限制候選產(chǎn)生發(fā)現(xiàn)頻繁項集),由頻繁項集產(chǎn)生關聯(lián)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論