




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)挖掘教科書和參考書教科書數(shù)據(jù)挖掘:概念與技術,JiaweiHan和MichelineKamber著,機械工業(yè)出版社(2001)參考書數(shù)據(jù)挖掘原理,DavidHand,HeikkiMannila和PadhraicSmyth著,機械工業(yè)出版社(2003)中文版英文影印版數(shù)據(jù)挖掘的發(fā)展動力
---需要是發(fā)明之母數(shù)據(jù)爆炸問題自動數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術使得大量的數(shù)據(jù)被收集,存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中以待分析。我們擁有豐富的數(shù)據(jù),但卻缺乏有用的信息解決方法:數(shù)據(jù)倉庫技術和數(shù)據(jù)挖掘技術數(shù)據(jù)倉庫(DataWarehouse)和在線分析處理(OLAP)數(shù)據(jù)挖掘:在大量的數(shù)據(jù)中挖掘感興趣的知識(規(guī)則,規(guī)律,模式,約束)數(shù)據(jù)庫技術的演化(2)1980s晚期:各種高級數(shù)據(jù)庫系統(tǒng)(擴展的關系數(shù)據(jù)庫,面向?qū)ο髷?shù)據(jù)庫等等.)面向應用的數(shù)據(jù)庫系統(tǒng)(空間數(shù)據(jù)庫,時序數(shù)據(jù)庫,多媒體數(shù)據(jù)庫等等)1990s:數(shù)據(jù)挖掘,數(shù)據(jù)倉庫,多媒體數(shù)據(jù)庫和網(wǎng)絡數(shù)據(jù)庫2000s流數(shù)據(jù)管理和挖掘基于各種應用的數(shù)據(jù)挖掘XML數(shù)據(jù)庫和整合的信息系統(tǒng)什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識)從大量的數(shù)據(jù)中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識挖掘的不僅僅是數(shù)據(jù)(所以“數(shù)據(jù)挖掘”并非一個精確的用詞)數(shù)據(jù)挖掘的替換詞數(shù)據(jù)庫中的知識挖掘(KDD)知識提煉、數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等。數(shù)據(jù)挖掘:數(shù)據(jù)庫中的知識挖掘(KDD)數(shù)據(jù)挖掘——知識挖掘的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫Knowledge任務相關數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估典型數(shù)據(jù)挖掘系統(tǒng)的體系結構數(shù)據(jù)倉庫數(shù)據(jù)清洗過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器數(shù)據(jù)挖掘引擎模式評估圖形用戶界面知識庫數(shù)據(jù)集成并非所有的東西都是數(shù)據(jù)挖掘基于數(shù)據(jù)倉庫的OLAP系統(tǒng)OLAP系統(tǒng)專注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對數(shù)據(jù)進行多種復雜的處理。機器學習系統(tǒng),數(shù)據(jù)統(tǒng)計分析系統(tǒng)這些系統(tǒng)所處理的數(shù)據(jù)容量往往很有限。信息系統(tǒng)專注于數(shù)據(jù)的查詢處理。相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關注更廣的范圍,是一個多學科的融合在何種數(shù)據(jù)上進行數(shù)據(jù)挖掘關系數(shù)據(jù)庫數(shù)據(jù)倉庫事務數(shù)據(jù)庫高級數(shù)據(jù)庫系統(tǒng)和信息庫空間數(shù)據(jù)庫時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫流數(shù)據(jù)多媒體數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫和對象-關系數(shù)據(jù)庫異種數(shù)據(jù)庫和歷史(legacy)數(shù)據(jù)庫文本數(shù)據(jù)庫和萬維網(wǎng)(WWW)時間數(shù)據(jù)庫和時序數(shù)據(jù)庫時間數(shù)據(jù)庫和時序數(shù)據(jù)庫都存放與時間有關的數(shù)據(jù)。時間數(shù)據(jù)庫通常存放包含時間相關屬性的數(shù)據(jù)。時序數(shù)據(jù)庫存放隨時間變化的值序列。對時間數(shù)據(jù)庫和時序數(shù)據(jù)庫的數(shù)據(jù)挖掘,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質(zhì)規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對象的演變特征或?qū)ο笞兓厔?。流?shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫技術中的靜態(tài)數(shù)據(jù)不同,流數(shù)據(jù)是連續(xù)的、有序的、變化的、快速的、大量的數(shù)據(jù)輸入的數(shù)據(jù)。主要應用場合網(wǎng)絡監(jiān)控網(wǎng)頁點擊流股票市場流媒體…等等與傳統(tǒng)數(shù)據(jù)庫技術相比,流數(shù)據(jù)在存儲、查詢、訪問、實時性的要求等方面都有很大區(qū)別。多媒體數(shù)據(jù)庫多媒體數(shù)據(jù)庫實現(xiàn)用計算機管理龐大復雜的多媒體數(shù)據(jù),主要包括包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現(xiàn)代數(shù)據(jù)庫技術一般將這些多媒體數(shù)據(jù)以二進制大對象的形式進行存儲。對于多媒體數(shù)據(jù)庫的數(shù)據(jù)挖掘,需要將存儲和檢索技術相結合。目前的主要方法包括構造多媒體數(shù)據(jù)立方體、多媒體數(shù)據(jù)庫的多特征提取和基于相似性的模式匹配。異構數(shù)據(jù)庫和歷史(legacy)數(shù)據(jù)庫歷史數(shù)據(jù)庫是一系列的異構數(shù)據(jù)庫系統(tǒng)的集合,包括不同種類的數(shù)據(jù)庫系統(tǒng),像關系數(shù)據(jù)庫、網(wǎng)絡數(shù)據(jù)庫、文件系統(tǒng)等等。有效利用歷史數(shù)據(jù)庫的關鍵在于實現(xiàn)不同數(shù)據(jù)庫之間的數(shù)據(jù)信息資源、硬件設備資源和人力資源的合并和共享。對于異構數(shù)據(jù)庫系統(tǒng),實現(xiàn)數(shù)據(jù)共享應當達到兩點:一是實現(xiàn)數(shù)據(jù)庫轉(zhuǎn)換;二是實現(xiàn)數(shù)據(jù)的透明訪問。WEBSERVICE技術的出現(xiàn)有利于歷史數(shù)據(jù)庫數(shù)據(jù)的重新利用。文本數(shù)據(jù)庫和萬維網(wǎng)(WWW)文本數(shù)據(jù)庫存儲的是對對象的文字性描述。文本數(shù)據(jù)庫的分類無結構類型(大部分的文本資料和網(wǎng)頁)半結構類型(XML數(shù)據(jù))結構類型(圖書館數(shù)據(jù))萬維網(wǎng)(WWW)可以被看成最大的文本數(shù)據(jù)庫數(shù)據(jù)挖掘內(nèi)容內(nèi)容檢索WEB訪問模式檢索數(shù)據(jù)挖掘應用——市場分析和管理(1)數(shù)據(jù)從那里來?信用卡交易,會員卡,商家的優(yōu)惠卷,消費者投訴電話,公眾生活方式研究目標市場構建一系列的“客戶群模型”,這些顧客具有相同特征:興趣愛好,收入水平,消費習慣,等等確定顧客的購買模式交叉市場分析貨物銷售之間的相互聯(lián)系和相關性,以及基于這種聯(lián)系上的預測數(shù)據(jù)挖掘應用——公司分析和風險管理財務計劃現(xiàn)金流轉(zhuǎn)分析和預測交叉區(qū)域分析和時間序列分析(財務資金比率,趨勢分析等等)資源計劃總結和比較資源和花費競爭對競爭者和市場趨勢的監(jiān)控將顧客按等級分組和基于等級的定價過程將定價策略應用于競爭更激烈的市場中數(shù)據(jù)挖掘應用——欺詐行為檢測和異常模式的發(fā)現(xiàn)方法:對欺騙行為進行聚類和建模,并進行孤立點分析應用:衛(wèi)生保健、零售業(yè)、信用卡服務、電信等汽車保險:相撞事件的分析洗錢:發(fā)現(xiàn)可疑的貨幣交易行為醫(yī)療保險職業(yè)病人,醫(yī)生以及相關數(shù)據(jù)分析不必要的或相關的測試電信:電話呼叫欺騙行為電話呼叫模型:呼叫目的地,持續(xù)時間,日或周呼叫次數(shù).分析該模型發(fā)現(xiàn)與期待標準的偏差零售產(chǎn)業(yè)分析師估計有38%的零售額下降是由于雇員的不誠實行為造成的反恐怖主義數(shù)據(jù)挖掘的主要功能
——可以挖掘哪些模式?一般功能描述性的數(shù)據(jù)挖掘預測性的數(shù)據(jù)挖掘通常,用戶并不知道在數(shù)據(jù)中能挖掘出什么東西,對此我們會在數(shù)據(jù)挖掘中應用一些常用的數(shù)據(jù)挖掘功能,挖掘出一些常用的模式,包括:概念/類描述:特性化和區(qū)分關聯(lián)分析分類和預測聚類分析孤立點分析趨勢和演變分析關聯(lián)分析關聯(lián)規(guī)則挖掘:從事務數(shù)據(jù)庫,關系數(shù)據(jù)庫和其他信息存儲中的大量數(shù)據(jù)的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關聯(lián)和相關性。廣泛的用于購物籃或事務數(shù)據(jù)分析。例:分類和預測根據(jù)訓練數(shù)據(jù)集和類標號屬性,構建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)(分類),用來預測類型標志未知的對象類(預測)。比如:按氣候?qū)曳诸?,按汽油消耗定額將汽車分類導出模型的表示:判定樹、分類規(guī)則、神經(jīng)網(wǎng)絡可以用來預報某些未知的或丟失的數(shù)字值例:IFage=“<=30”ANDstudent=“no”THENbuys_computer=“no”IFage=“<=30”ANDstudent=“yes”THENbuys_computer=“yes”IFage=“31…40”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“fair”THENbuys_computer=“no”趨勢和演變分析描述行為隨時間變化的對象的發(fā)展規(guī)律或趨勢(時序數(shù)據(jù)庫)趨勢和偏差:回歸分析序列模式匹配:周期性分析基于類似性的分析所有模式都是有趣的嗎?數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的。模式興趣度的度量一個模式是有趣的,如果(1)它易于被人理解;(2)在某種程度上,對于新的或測試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶確信的某種假設模式興趣度的客觀和主觀度量客觀度量:基于所發(fā)現(xiàn)模式的結構和關于它們的統(tǒng)計,比如:支持度、置信度等等主觀度量:基于用戶對數(shù)據(jù)的判斷。比如:出乎意料的、新穎的、可行動的等等能夠產(chǎn)生所有有趣模式并且僅產(chǎn)生有趣模式嗎?找出所有有趣的模式:數(shù)據(jù)挖掘算法的完全性問題數(shù)據(jù)挖掘系統(tǒng)能夠產(chǎn)生所有有趣的模式嗎?試探搜索vs.窮舉搜索關聯(lián)vs.分類vs.聚類只搜索有趣的模式:數(shù)據(jù)挖掘算法的最優(yōu)化問題數(shù)據(jù)挖掘系統(tǒng)可以僅僅發(fā)現(xiàn)有趣的模式嗎?方法首先生成所有模式然后過濾那些無趣的.僅僅生成有趣的模式—挖掘查詢優(yōu)化數(shù)據(jù)挖掘:多個學科的融合數(shù)據(jù)挖掘數(shù)據(jù)庫系統(tǒng)統(tǒng)計學其他學科算法機器學習可視化數(shù)據(jù)挖掘系統(tǒng)的分類(1)數(shù)據(jù)挖掘的多學科融合的特性,決定了數(shù)據(jù)挖掘的研究將產(chǎn)生種類繁多的數(shù)據(jù)挖掘系統(tǒng)。根據(jù)所挖掘的數(shù)據(jù)庫分類關系數(shù)據(jù)庫,事務數(shù)據(jù)庫,流式數(shù)據(jù),面向?qū)ο髷?shù)據(jù)庫,對象關系數(shù)據(jù)庫,數(shù)據(jù)倉庫,空間數(shù)據(jù)庫,時序數(shù)據(jù)庫,文本數(shù)據(jù)庫,多媒體數(shù)據(jù)庫,異構數(shù)據(jù)庫,歷史數(shù)據(jù)庫,WWW數(shù)據(jù)挖掘系統(tǒng)的分類(2)根據(jù)挖掘的知識類型特征分析,區(qū)分,關聯(lián)分析,分類聚類,孤立點分析/演變分析,偏差分析等等.多種方法的集成和多層機挖掘根據(jù)挖掘所用的技術面向數(shù)據(jù)庫的挖掘、數(shù)據(jù)倉庫、OLAP、機器學習、統(tǒng)計學、可視化等等.根據(jù)挖掘所用的應用金融,電信,銀行,欺詐分析,DNA分析,股票市場,Web挖掘等等.數(shù)據(jù)挖掘的主要問題(1)數(shù)據(jù)挖掘是多個學科融合,但本課程所關注的是:海量數(shù)據(jù)的挖掘的效率和可擴展性本課程中所要涵蓋的主要數(shù)據(jù)挖掘問題包括:挖掘方法問題和用戶交互問題在數(shù)據(jù)庫中挖掘不同類型的知識在不同抽象層上的交互式知識挖掘
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 盆腔腫物病人護理
- 2025年華南地區(qū)建筑施工分包合同履行
- 2025年泵車短期租賃策劃與執(zhí)行協(xié)議
- 2025年養(yǎng)豬場飼養(yǎng)員雇傭合同樣本
- 2025年美容院服務承包合同范本
- 2025年典當行業(yè)與當戶典當物品策劃管理協(xié)議書
- 2025年安徽省寫字樓租賃權益轉(zhuǎn)讓合同
- 2025年度土地權屬調(diào)解協(xié)議策劃
- 2025年排泥場環(huán)保安全策劃與監(jiān)管協(xié)作協(xié)議書
- 2025年冷藏食品配送服務合同樣本
- 初三物理復習計劃詳細計劃
- 管理會計 課件 孫茂竹 第7-12章 存貨決策-業(yè)績考核
- 空氣能熱泵系統(tǒng)設計與安裝展示
- 十字相乘法解一元二次方程專題練習
- 2023年3月普通高等學校招生全國統(tǒng)一考試英語聽力天津卷A(聽力音頻+試題+答案+聽力原文)
- 坐標紙(A4紙直接打印就可用)
- 扁桃體伴腺樣體肥大
- 中央空調(diào)基礎知識及發(fā)展史
- 《探尋中國環(huán)保旅行之道》– 中國旅游業(yè)可持續(xù)發(fā)展聯(lián)合研究報告 -mckinsey
- 電力工程竣工驗收報告
- 造口傷口??谱o士相關制度職責
評論
0/150
提交評論