數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1簡介_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1簡介_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1簡介_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1簡介_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1簡介_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

DataWarehouseandDataMining第一頁,共四十六頁。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘動機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向2第二頁,共四十六頁。動機(jī):需要是發(fā)明之母數(shù)據(jù)爆炸問題自動的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)導(dǎo)致大量數(shù)據(jù)存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫和其它信息存儲器中我們正被數(shù)據(jù)淹沒,但卻缺乏知識解決辦法:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理(OLAP)從大型數(shù)據(jù)庫的數(shù)據(jù)中提取有趣的知識(規(guī)則,規(guī)律性,模式,限制等)3第三頁,共四十六頁。什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(數(shù)據(jù)庫中知識發(fā)現(xiàn))從大型數(shù)據(jù)庫中提取有趣的(非平凡的、蘊(yùn)涵的、先前未知的且是潛在有用的)

信息或模式其它名稱數(shù)據(jù)庫中知識發(fā)現(xiàn)(挖掘)(Knowledgediscoveryindatabases,KDD),知識提?。╧nowledgeextraction),數(shù)據(jù)/模式分析(data/patternanalysis),數(shù)據(jù)考古(dataarcheology),數(shù)據(jù)捕撈(datadredging),信息收獲(informationharvesting),商務(wù)智能(businessintelligence)等4第四頁,共四十六頁。數(shù)據(jù)挖掘可能的應(yīng)用數(shù)據(jù)庫分析和決策支持市場分析和管理:針對銷售(targetmarketing),顧客關(guān)系管理,購物籃分析,交叉銷售(crossselling),市場分割(marketsegmentation)風(fēng)險分析與管理:預(yù)測,顧客關(guān)系,改進(jìn)保險,質(zhì)量控制,競爭能力分析欺騙檢測與管理5第五頁,共四十六頁。數(shù)據(jù)挖掘可能的應(yīng)用其它應(yīng)用文本挖掘(新聞組、email、文檔資料)流數(shù)據(jù)挖掘(Streamdatamining)Web挖掘DNA數(shù)據(jù)分析6第六頁,共四十六頁。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘動機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向7第七頁,共四十六頁。數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘:KDD的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)倉庫知識任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估8第八頁,共四十六頁。數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘:KDD的核心數(shù)據(jù)挖掘與任務(wù)相關(guān)的數(shù)據(jù)知識種類領(lǐng)域知識興趣度量和閾值表示9第九頁,共四十六頁。KDD的步驟學(xué)習(xí)應(yīng)用領(lǐng)域相關(guān)的先驗知識和應(yīng)用的目標(biāo)創(chuàng)建目標(biāo)數(shù)據(jù)集:數(shù)據(jù)選擇數(shù)據(jù)清理和預(yù)處理(可能占全部工作的60%!)數(shù)據(jù)歸約與變換發(fā)現(xiàn)有用的特征,維/變量歸約,不變量的表示選擇數(shù)據(jù)挖掘函數(shù)匯總,分類,回歸,關(guān)聯(lián),聚類10第十頁,共四十六頁。KDD的步驟選擇挖掘算法數(shù)據(jù)挖掘:搜索有趣的模式模式評估和知識表示可視化,變換,刪除冗余模式,等發(fā)現(xiàn)知識的使用11第十一頁,共四十六頁。典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)知識庫圖形用戶界面模式評估數(shù)據(jù)挖掘引擎數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)庫數(shù)據(jù)倉庫過濾數(shù)據(jù)清洗和集成12第十二頁,共四十六頁。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘動機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向13第十三頁,共四十六頁。數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行平面文件關(guān)系數(shù)據(jù)庫包括面向?qū)ο蠛蛯ο?關(guān)系數(shù)據(jù)庫事務(wù)(交易)數(shù)據(jù)庫異種數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫14第十四頁,共四十六頁。數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉庫數(shù)據(jù)源清洗、裝載、轉(zhuǎn)換、集成數(shù)據(jù)倉庫查詢及分析工具客戶15第十五頁,共四十六頁。數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉庫數(shù)據(jù)源數(shù)據(jù)挖掘文件數(shù)據(jù)庫數(shù)據(jù)倉庫網(wǎng)頁……16第十六頁,共四十六頁。數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)倉庫查詢/報表分析數(shù)據(jù)挖掘輸出OLAPserverOLAPserver監(jiān)控管理數(shù)據(jù)倉庫數(shù)據(jù)集市元數(shù)據(jù)存儲清洗裝載轉(zhuǎn)換集成操作型數(shù)據(jù)庫外部數(shù)據(jù)源Toptier:前端工具M(jìn)iddletier:OLAPserverBottomtier:數(shù)據(jù)倉庫server數(shù)據(jù)17第十七頁,共四十六頁。數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行多媒體數(shù)據(jù)庫空間數(shù)據(jù)庫18第十八頁,共四十六頁。數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行時間序列數(shù)據(jù)庫19第十九頁,共四十六頁。數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行文本數(shù)據(jù)庫20第二十頁,共四十六頁。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘動機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向21第二十一頁,共四十六頁。數(shù)據(jù)挖掘的功能概念描述:特征和區(qū)分概化,匯總,比較數(shù)據(jù)特征,如干燥和潮濕的地區(qū)關(guān)聯(lián)(相關(guān)和因果關(guān)系)多維和單維關(guān)聯(lián)age(X,“20..29”)^income(X,“20..29K”)buys(X,“PC”)[support=2%,confidence=60%]contains(T,“computer”)

contains(T,“software”)[support=1%,confidence=75%]22第二十二頁,共四十六頁。數(shù)據(jù)挖掘的功能分類和預(yù)測找出描述和識別類或概念的模型(函數(shù)),用于將來的預(yù)測例如根據(jù)氣候?qū)曳诸?,或根?jù)單位里程的耗油量對汽車分類表示:決策樹(decision-tree),分類規(guī)則,神經(jīng)元網(wǎng)絡(luò)預(yù)測:預(yù)測某些未知或遺漏的數(shù)值23第二十三頁,共四十六頁。數(shù)據(jù)挖掘的功能聚類分析類標(biāo)號(Classlabel)未知:對數(shù)據(jù)分組,形成新的類。例如,對房屋分類,找出分布模式聚類原則:最大化類內(nèi)的相似性,最小化類間的相似性24第二十四頁,共四十六頁。數(shù)據(jù)挖掘的功能孤立點(Outlier)分析孤立點:一個數(shù)據(jù)對象,與數(shù)據(jù)的一般行為不一致孤立點可以被視為例外,但對于欺騙檢測和罕見事件分析,它是相當(dāng)有用的趨勢和演變分析趨勢和偏離:回歸分析序列模式挖掘,周期性分析基于相似的分析其它基于模式或統(tǒng)計的分析25第二十五頁,共四十六頁。數(shù)據(jù)挖掘:多學(xué)科交叉數(shù)據(jù)庫機(jī)器學(xué)習(xí)統(tǒng)計分析可視化其它高性能計算信息檢索DataMining26第二十六頁,共四十六頁。數(shù)據(jù)挖掘的分類一般功能描述式數(shù)據(jù)挖掘預(yù)測式數(shù)據(jù)挖掘不同的角度、不同的分類待挖掘的數(shù)據(jù)庫類型待發(fā)現(xiàn)的知識類型所用的技術(shù)類型所適合的應(yīng)用類型27第二十七頁,共四十六頁。數(shù)據(jù)挖掘從不同角度的分類28第二十八頁,共四十六頁。數(shù)據(jù)挖掘從不同角度的分類所用技術(shù)面向數(shù)據(jù)庫的、數(shù)據(jù)倉庫(OLAP)、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)、可視化、神經(jīng)網(wǎng)絡(luò)等適合的應(yīng)用零售、電訊、銀行、欺騙分析、DNA挖掘、股票市場分析、Web挖掘、Web日志分析等29第二十九頁,共四十六頁。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘動機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘功能和分類一些新的研究方向30第三十頁,共四十六頁。Web挖掘WebMiningWebUsageMiningAgentBasedApproachDatabaseApproach智能查詢信息過濾/分類個性化Web多層次數(shù)據(jù)庫Web查詢系統(tǒng)預(yù)處理事務(wù)標(biāo)識模式發(fā)現(xiàn)模式分析WebStructureMiningWebContentMining31第三十一頁,共四十六頁。Web使用挖掘WebUsageMining是在Web數(shù)據(jù)存儲地中應(yīng)用數(shù)據(jù)挖掘技術(shù)抽取使用模式的方法數(shù)據(jù)預(yù)處理用戶使用頁面關(guān)聯(lián)、用戶分類、用戶聚類、…應(yīng)用個性化站點改進(jìn)……32第三十二頁,共四十六頁。文本挖掘文本挖掘=數(shù)據(jù)挖掘(應(yīng)用于文本存儲地)+基本語言學(xué)文本預(yù)處理(無結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化)詞法/語義分析特征生成BagofWords特征選擇頻度、TFIDF、共現(xiàn)等數(shù)據(jù)挖掘文本分類、聚類等分析結(jié)果文本文本預(yù)處理文本轉(zhuǎn)換特征選擇數(shù)據(jù)挖掘解釋33第三十三頁,共四十六頁。觀點、情感挖掘觀點挖掘(OpinionMining)是一種從論壇、討論組、新聞組、博客等用戶產(chǎn)生的內(nèi)容中挖掘其表達(dá)觀點的技術(shù)。文本挖掘與觀點挖掘(事實與觀點)文本挖掘關(guān)注事實,觀點挖掘關(guān)注用戶對事實所持的觀點;事實是客觀的,觀點是主觀的;事實只有一個,觀點卻各不相同。應(yīng)用商務(wù)、網(wǎng)絡(luò)輿情、……34第三十四頁,共四十六頁。數(shù)據(jù)流挖掘性質(zhì)連續(xù)性:數(shù)據(jù)流是連續(xù)到達(dá)的無序性:系統(tǒng)無法控制數(shù)據(jù)到達(dá)的順序無界性:數(shù)據(jù)流原則上是無限大的實時性:要求算法能夠?qū)崟r地反映模式變化35第三十五頁,共四十六頁。數(shù)據(jù)流挖掘性質(zhì)傳統(tǒng)的數(shù)據(jù)挖掘數(shù)據(jù)庫數(shù)據(jù)倉庫文本文件……36第三十六頁,共四十六頁。數(shù)據(jù)流挖掘性質(zhì)傳統(tǒng)的數(shù)據(jù)挖掘數(shù)據(jù)庫數(shù)據(jù)倉庫文本文件……37第三十七頁,共四十六頁。數(shù)據(jù)流挖掘性質(zhì)傳統(tǒng)的數(shù)據(jù)挖掘數(shù)據(jù)庫數(shù)據(jù)倉庫文本文件……38第三十八頁,共四十六頁。數(shù)據(jù)流挖掘性質(zhì)數(shù)據(jù)流挖掘?39第三十九頁,共四十六頁。RFID事件流挖掘RadioFrequencyIdentification(RFID)TagReaderRFID數(shù)據(jù)倉庫、RFID事件流分析與挖掘、復(fù)雜事件檢測40第四十頁,共四十六頁。圖像分析與挖掘Web圖像醫(yī)學(xué)圖像41第四十一頁,共四十六頁。社會網(wǎng)絡(luò)分析aaaaaaabbbbbbcccccccccccdcddddddddddeeeffffffg節(jié)點派系凝聚子群n邊及權(quán)重42第四十二頁,共四十六頁。不確定性數(shù)據(jù)挖掘數(shù)據(jù)的不確定性原始數(shù)據(jù)不準(zhǔn)確;使用粗粒度數(shù)據(jù)集合;滿足特殊應(yīng)用目的;處理缺失值;數(shù)據(jù)集成。不確定性數(shù)據(jù)管理的框架不確定性數(shù)據(jù)模型定義預(yù)處理與集成存儲與索引查詢、分析、挖掘結(jié)果43第四十三頁,共四十六頁。作業(yè)簡述數(shù)據(jù)挖掘的一些主要方法,并根據(jù)你的見解,談?wù)剶?shù)據(jù)挖掘技術(shù)可能的應(yīng)用(舉例)44第四十四頁,共四十六頁。感謝大家光臨!第四十五頁,共四十六頁。內(nèi)容總結(jié)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

DataWarehouseandDataMining。文本挖掘(新聞組、email、文檔資料)。流數(shù)據(jù)挖掘(Streamdatam

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論