數(shù)據(jù)挖掘讀書(shū)筆記_第1頁(yè)
數(shù)據(jù)挖掘讀書(shū)筆記_第2頁(yè)
數(shù)據(jù)挖掘讀書(shū)筆記_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上數(shù)據(jù)挖掘:概念與技術(shù)(1-6章)讀書(shū)筆記1、 數(shù)據(jù)挖掘概念(即什么是數(shù)據(jù)挖掘)我們生活在數(shù)據(jù)時(shí)代,各行各業(yè)每天都產(chǎn)生巨大的數(shù)據(jù)。數(shù)據(jù)的爆炸式增長(zhǎng)、廣泛可用和巨大數(shù)量使得我們的時(shí)代成為真正的數(shù)據(jù)時(shí)代。急需功能強(qiáng)大和通用的工具,以便從海量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,把這些數(shù)據(jù)轉(zhuǎn)換成有組織的、可利用的知識(shí)。這種需求導(dǎo)致了數(shù)據(jù)挖掘的誕生。數(shù)據(jù)挖掘?qū)嶋H上是從數(shù)據(jù)中挖掘知識(shí),由以下步驟的迭代組成:(1) 數(shù)據(jù)清理(消除噪聲和刪除不一致數(shù)據(jù))(2) 數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)(3) 數(shù)據(jù)選擇(從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù))(4) 數(shù)據(jù)變換(通過(guò)匯總或聚集操作,把數(shù)據(jù)變換

2、和統(tǒng)一成適合挖掘的形式)(5) 數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式)(6) 模式評(píng)估(根據(jù)某種興趣度度量,識(shí)別代表知識(shí)的真正有趣的模式)(7) 知識(shí)表示(使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí))關(guān)系數(shù)據(jù)庫(kù)是數(shù)據(jù)挖掘最常見(jiàn)、最豐富的信息源,因此它是我們數(shù)據(jù)挖掘研究研究的一種主要數(shù)據(jù)形式。2、 數(shù)據(jù)挖掘技術(shù)(即怎樣進(jìn)行數(shù)據(jù)挖掘)1、 可以挖掘什么類型的模式特征化與區(qū)分、頻繁模式、關(guān)聯(lián)和相關(guān)性挖掘,分類與回歸,聚類分析,離群點(diǎn)分析。數(shù)據(jù)挖掘可以被用來(lái)進(jìn)行市場(chǎng)分析和管理、風(fēng)險(xiǎn)分析和管理、缺陷分析和管理等。2、使用什么技術(shù)1)首先要認(rèn)識(shí)數(shù)據(jù),一個(gè)數(shù)據(jù)對(duì)象代表一個(gè)實(shí)體,又稱樣本、實(shí)例、數(shù)

3、據(jù)點(diǎn)或?qū)ο蟆?#160;屬性是一個(gè)數(shù)據(jù)字段,表示數(shù)據(jù)對(duì)象的一個(gè)特征,又稱維、特征和變量。2)數(shù)據(jù)描述中心趨勢(shì)度量:均值、中位數(shù)和眾數(shù)度量數(shù)據(jù)散布:極差、四分位數(shù)、方差、標(biāo)準(zhǔn)差和四分位數(shù)極差通過(guò)基于像素的可視化技術(shù)等清晰有效的表達(dá)數(shù)據(jù)3)進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)變換與數(shù)據(jù)離散化。數(shù)據(jù)變換策略:光滑、屬性構(gòu)造、聚集、規(guī)范化、離散化、由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層數(shù)據(jù)離散化策略:分箱、直方圖分析、聚類決策樹(shù)和相關(guān)分析4) 然后需要建立數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行處理,數(shù)據(jù)倉(cāng)庫(kù):是一種數(shù)據(jù)庫(kù),它允許將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持。數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建需要數(shù)據(jù)集成、數(shù)據(jù)清洗和數(shù)據(jù)統(tǒng)一

4、。5)聯(lián)機(jī)分析處理可以,在使用多維數(shù)據(jù)模型的數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市上進(jìn)行,使用數(shù)據(jù)立方體結(jié)構(gòu),OLAP操作可以有效的實(shí)現(xiàn)。數(shù)據(jù)立方體計(jì)算的一般策略: 排序、散列和分組 同時(shí)聚集和緩存中間結(jié)果 當(dāng)存在多個(gè)子女方體時(shí),由最小的子女聚集 可以使用先驗(yàn)剪枝方法有效的計(jì)算冰山立方體數(shù)據(jù)立方體計(jì)算方法: 多路數(shù)組聚集,基于稀疏數(shù)組的、自底向上的、共享計(jì)算的物化整個(gè)數(shù)據(jù)立方體BUC,通過(guò)探查有效的自頂向下計(jì)算次序和排序計(jì)算冰山立方體Star-Cubing,使用星樹(shù)結(jié)構(gòu),集成自頂向下和自底向上計(jì)算,計(jì)算冰山立方體外殼片段立方體,通過(guò)僅預(yù)計(jì)算劃分的立方體外殼片段,支持進(jìn)行高維OLAP 6)挖掘頻繁模式和關(guān)聯(lián)規(guī)則頻繁項(xiàng)集挖掘方法:Apriori算法(通過(guò)限制候選產(chǎn)生發(fā)現(xiàn)頻繁項(xiàng)集),由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論