


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上數(shù)據(jù)挖掘:概念與技術(shù)(1-6章)讀書(shū)筆記1、 數(shù)據(jù)挖掘概念(即什么是數(shù)據(jù)挖掘)我們生活在數(shù)據(jù)時(shí)代,各行各業(yè)每天都產(chǎn)生巨大的數(shù)據(jù)。數(shù)據(jù)的爆炸式增長(zhǎng)、廣泛可用和巨大數(shù)量使得我們的時(shí)代成為真正的數(shù)據(jù)時(shí)代。急需功能強(qiáng)大和通用的工具,以便從海量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,把這些數(shù)據(jù)轉(zhuǎn)換成有組織的、可利用的知識(shí)。這種需求導(dǎo)致了數(shù)據(jù)挖掘的誕生。數(shù)據(jù)挖掘?qū)嶋H上是從數(shù)據(jù)中挖掘知識(shí),由以下步驟的迭代組成:(1) 數(shù)據(jù)清理(消除噪聲和刪除不一致數(shù)據(jù))(2) 數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)(3) 數(shù)據(jù)選擇(從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù))(4) 數(shù)據(jù)變換(通過(guò)匯總或聚集操作,把數(shù)據(jù)變換
2、和統(tǒng)一成適合挖掘的形式)(5) 數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式)(6) 模式評(píng)估(根據(jù)某種興趣度度量,識(shí)別代表知識(shí)的真正有趣的模式)(7) 知識(shí)表示(使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí))關(guān)系數(shù)據(jù)庫(kù)是數(shù)據(jù)挖掘最常見(jiàn)、最豐富的信息源,因此它是我們數(shù)據(jù)挖掘研究研究的一種主要數(shù)據(jù)形式。2、 數(shù)據(jù)挖掘技術(shù)(即怎樣進(jìn)行數(shù)據(jù)挖掘)1、 可以挖掘什么類型的模式特征化與區(qū)分、頻繁模式、關(guān)聯(lián)和相關(guān)性挖掘,分類與回歸,聚類分析,離群點(diǎn)分析。數(shù)據(jù)挖掘可以被用來(lái)進(jìn)行市場(chǎng)分析和管理、風(fēng)險(xiǎn)分析和管理、缺陷分析和管理等。2、使用什么技術(shù)1)首先要認(rèn)識(shí)數(shù)據(jù),一個(gè)數(shù)據(jù)對(duì)象代表一個(gè)實(shí)體,又稱樣本、實(shí)例、數(shù)
3、據(jù)點(diǎn)或?qū)ο蟆?#160;屬性是一個(gè)數(shù)據(jù)字段,表示數(shù)據(jù)對(duì)象的一個(gè)特征,又稱維、特征和變量。2)數(shù)據(jù)描述中心趨勢(shì)度量:均值、中位數(shù)和眾數(shù)度量數(shù)據(jù)散布:極差、四分位數(shù)、方差、標(biāo)準(zhǔn)差和四分位數(shù)極差通過(guò)基于像素的可視化技術(shù)等清晰有效的表達(dá)數(shù)據(jù)3)進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)變換與數(shù)據(jù)離散化。數(shù)據(jù)變換策略:光滑、屬性構(gòu)造、聚集、規(guī)范化、離散化、由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層數(shù)據(jù)離散化策略:分箱、直方圖分析、聚類決策樹(shù)和相關(guān)分析4) 然后需要建立數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行處理,數(shù)據(jù)倉(cāng)庫(kù):是一種數(shù)據(jù)庫(kù),它允許將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持。數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建需要數(shù)據(jù)集成、數(shù)據(jù)清洗和數(shù)據(jù)統(tǒng)一
4、。5)聯(lián)機(jī)分析處理可以,在使用多維數(shù)據(jù)模型的數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市上進(jìn)行,使用數(shù)據(jù)立方體結(jié)構(gòu),OLAP操作可以有效的實(shí)現(xiàn)。數(shù)據(jù)立方體計(jì)算的一般策略: 排序、散列和分組 同時(shí)聚集和緩存中間結(jié)果 當(dāng)存在多個(gè)子女方體時(shí),由最小的子女聚集 可以使用先驗(yàn)剪枝方法有效的計(jì)算冰山立方體數(shù)據(jù)立方體計(jì)算方法: 多路數(shù)組聚集,基于稀疏數(shù)組的、自底向上的、共享計(jì)算的物化整個(gè)數(shù)據(jù)立方體BUC,通過(guò)探查有效的自頂向下計(jì)算次序和排序計(jì)算冰山立方體Star-Cubing,使用星樹(shù)結(jié)構(gòu),集成自頂向下和自底向上計(jì)算,計(jì)算冰山立方體外殼片段立方體,通過(guò)僅預(yù)計(jì)算劃分的立方體外殼片段,支持進(jìn)行高維OLAP 6)挖掘頻繁模式和關(guān)聯(lián)規(guī)則頻繁項(xiàng)集挖掘方法:Apriori算法(通過(guò)限制候選產(chǎn)生發(fā)現(xiàn)頻繁項(xiàng)集),由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 第一月考數(shù)學(xué)試卷
- 二年級(jí)階段測(cè)試數(shù)學(xué)試卷
- 定陶初中二模數(shù)學(xué)試卷
- 課件培訓(xùn)的心得
- 2025至2030城市應(yīng)急聯(lián)動(dòng)行業(yè)市場(chǎng)深度調(diào)研及前景趨勢(shì)與發(fā)展趨勢(shì)分析與未來(lái)投資戰(zhàn)略咨詢研究報(bào)告
- 四川眉山職業(yè)技術(shù)學(xué)院招聘考試真題2024
- 寧波前灣控股集團(tuán)有限公司人員招聘考試真題2024
- 成都市東光實(shí)驗(yàn)小學(xué)教師招聘考試真題2024
- 2025至2030超級(jí)食物粉行業(yè)市場(chǎng)深度研究與戰(zhàn)略咨詢分析報(bào)告
- 奮飛初三期中數(shù)學(xué)試卷
- GB/T 18362-2008直燃型溴化鋰吸收式冷(溫)水機(jī)組
- 社區(qū)工作者經(jīng)典備考題庫(kù)(必背300題)
- 2023年陜西韓城象山中學(xué)高一物理第二學(xué)期期末聯(lián)考試題(含答案解析)
- 年產(chǎn)10萬(wàn)噸污水處理藥劑菌劑項(xiàng)目環(huán)評(píng)報(bào)告書(shū)
- 腎上腺常見(jiàn)疾病影像診斷課件
- 倉(cāng)庫(kù)組長(zhǎng)崗位說(shuō)明書(shū)
- (精選word)2019《普速鐵路線路修理規(guī)則》
- 高等教育心理學(xué)知識(shí)考核題庫(kù)與答案
- JTGT 3832-2018 公路工程預(yù)算定額 說(shuō)明部分
- UPS基礎(chǔ)知識(shí)培訓(xùn)教材PPT(76張)課件
- 了凡四訓(xùn)-(課堂PPT)課件(PPT 33頁(yè))
評(píng)論
0/150
提交評(píng)論