數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第一章)_第1頁
數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第一章)_第2頁
數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第一章)_第3頁
數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第一章)_第4頁
數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第一章)_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、12 什么是數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘要解決的問題數(shù)據(jù)挖掘要解決的問題 數(shù)據(jù)挖掘的起源數(shù)據(jù)挖掘的起源 數(shù)據(jù)挖掘任務數(shù)據(jù)挖掘任務3 借助借助POS機、手機、電腦、日志、顧客服務記錄、機、手機、電腦、日志、顧客服務記錄、顧客信息。商業(yè)公司可以獲取大量的數(shù)據(jù)。在這顧客信息。商業(yè)公司可以獲取大量的數(shù)據(jù)。在這些數(shù)據(jù)上,我們可以做什么?些數(shù)據(jù)上,我們可以做什么? 一些問題:一些問題:p誰是最有價值的顧客?誰是最有價值的顧客?p什么產品可以交叉銷售或提升銷售?什么產品可以交叉銷售或提升銷售?p公司明年的收入前景如何?公司明年的收入前景如何?4 醫(yī)學、科學與工程界的研究者正在快速積累大量醫(yī)學、科學與工程

2、界的研究者正在快速積累大量數(shù)據(jù),這些數(shù)據(jù)對新發(fā)現(xiàn)至關重要。數(shù)據(jù),這些數(shù)據(jù)對新發(fā)現(xiàn)至關重要。例一:例一:為了更深入地理解地球的氣候系統(tǒng),為了更深入地理解地球的氣候系統(tǒng),NASANASA 已部署了一系列的地球軌道衛(wèi)星,不停的收集地表,已部署了一系列的地球軌道衛(wèi)星,不停的收集地表, 海洋和大氣的全球觀測數(shù)據(jù)海洋和大氣的全球觀測數(shù)據(jù)一些問題:一些問題:p 干旱和颶風的頻度和強度與全球變暖有什么聯(lián)系?干旱和颶風的頻度和強度與全球變暖有什么聯(lián)系?p 海洋表面的溫度對地表降水量和溫度有什么影響?海洋表面的溫度對地表降水量和溫度有什么影響?p 如何準確的預測一個度曲的生長季節(jié)的開始和結束?如何準確的預測一個度

3、曲的生長季節(jié)的開始和結束?5例二:例二:分子生物學研究者希望利用當前收集的大量基因組數(shù)據(jù),更分子生物學研究者希望利用當前收集的大量基因組數(shù)據(jù),更好的理解基因的結構和功能。好的理解基因的結構和功能。p 數(shù)據(jù)的噪音和高維性需要新的數(shù)據(jù)分析方法。數(shù)據(jù)的噪音和高維性需要新的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘也可以用來處理生物學的其他數(shù)據(jù)挖掘也可以用來處理生物學的其他難題,如蛋白質結構預測,多序列校準,難題,如蛋白質結構預測,多序列校準,生物化學路徑建模和種系發(fā)生學。生物化學路徑建模和種系發(fā)生學。61、什么是數(shù)據(jù)挖掘?、什么是數(shù)據(jù)挖掘?7到底什么是數(shù)據(jù)挖掘呢?到底什么是數(shù)據(jù)挖掘呢?數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中,數(shù)據(jù)

4、挖掘是在大型數(shù)據(jù)存儲庫中,自動自動地發(fā)現(xiàn)地發(fā)現(xiàn)有用有用的的信息信息的過程。的過程。1、發(fā)現(xiàn)先前未知的有用模式、發(fā)現(xiàn)先前未知的有用模式2、預測未來的觀測結果、預測未來的觀測結果1、數(shù)據(jù)庫中查找個別記錄、數(shù)據(jù)庫中查找個別記錄2、搜索引擎查找特定頁面、搜索引擎查找特定頁面8那么,什么又是知識發(fā)現(xiàn)呢?那么,什么又是知識發(fā)現(xiàn)呢?數(shù)據(jù)挖掘是數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)數(shù)據(jù)庫中知識發(fā)現(xiàn)不可缺少的一部分,而知識發(fā)現(xiàn)是將未不可缺少的一部分,而知識發(fā)現(xiàn)是將未加工的數(shù)據(jù)轉換為有用信息的加工的數(shù)據(jù)轉換為有用信息的整個過程整個過程。輸入數(shù)據(jù)數(shù)據(jù)預處理數(shù)據(jù)挖掘后處理信息特征選擇維歸約規(guī)范化選擇數(shù)據(jù)子集模式過濾可視化模式表示

5、92、數(shù)據(jù)挖掘要解決的問題、數(shù)據(jù)挖掘要解決的問題10面臨新的數(shù)據(jù)集帶來的問題時,傳統(tǒng)的數(shù)據(jù)分析技術常常面臨新的數(shù)據(jù)集帶來的問題時,傳統(tǒng)的數(shù)據(jù)分析技術常常遇到實際的困難。遇到實際的困難。p可伸縮可伸縮需要有能力處理海量數(shù)據(jù)問題需要有能力處理海量數(shù)據(jù)問題p高維性高維性需要需要很好的處理維災難問題很好的處理維災難問題p異種數(shù)據(jù)和復雜數(shù)據(jù)異種數(shù)據(jù)和復雜數(shù)據(jù)需要考慮數(shù)據(jù)對象的復雜性和多樣性需要考慮數(shù)據(jù)對象的復雜性和多樣性p數(shù)據(jù)的所有權與分布數(shù)據(jù)的所有權與分布需要考慮數(shù)據(jù)安全性、加快計算速度、匯總計算結果需要考慮數(shù)據(jù)安全性、加快計算速度、匯總計算結果p非傳統(tǒng)的分析非傳統(tǒng)的分析非單一假設非單一假設-檢驗模式

6、檢驗模式VSVS113、數(shù)據(jù)挖掘的起源、數(shù)據(jù)挖掘的起源12人工智能、人工智能、機器學習、機器學習、和模式識別和模式識別數(shù)據(jù)挖掘的方法來自機器學習或數(shù)據(jù)挖掘的方法來自機器學習或AI,模式,模式識別,統(tǒng)計學與數(shù)據(jù)庫系統(tǒng)識別,統(tǒng)計學與數(shù)據(jù)庫系統(tǒng)統(tǒng)計學統(tǒng)計學數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)庫技術、并行計算、分布式計算數(shù)據(jù)庫技術、并行計算、分布式計算133、數(shù)據(jù)挖掘的任務、數(shù)據(jù)挖掘的任務14n 預測任務根據(jù)其他屬性的值,預測特定屬性的值根據(jù)其他屬性的值,預測特定屬性的值被預測變量通常被稱為被預測變量通常被稱為目標變量目標變量n 描述任務導出概括數(shù)據(jù)中潛在聯(lián)系的模式導出概括數(shù)據(jù)中潛在聯(lián)系的模式包括包括相關相關、趨勢趨

7、勢、聚類聚類、軌跡軌跡、異常異常15數(shù)據(jù)數(shù)據(jù)聚類分析聚類分析關聯(lián)分析關聯(lián)分析預測建模預測建模異常檢測異常檢測16預測建模的任務可以分為預測建模的任務可以分為兩類兩類:分類回歸目標變量離散連續(xù)舉例是否買書股票價格共同點訓練模型, 減小誤差預測建模的任務舉例預測建模的任務舉例:p 確定顧客對產品促銷活動的反應確定顧客對產品促銷活動的反應p 預測地球生態(tài)系統(tǒng)的擾動預測地球生態(tài)系統(tǒng)的擾動p 根據(jù)檢查結果判斷病人是否患有疾病根據(jù)檢查結果判斷病人是否患有疾病17例子例子:預測鳶尾花預測鳶尾花(IRIS)(IRIS)的類型的類型, Setosa,Veriscolour, Virginica, Setosa,

8、Veriscolour, Virginica。該數(shù)據(jù)集包含該數(shù)據(jù)集包含4 4個屬性和個屬性和1 1個目標變量。屬性為萼片寬度,萼片長度,個目標變量。屬性為萼片寬度,萼片長度,花瓣長度,花瓣寬度,目標變量為花的種類?;ò觊L度,花瓣寬度,目標變量為花的種類。我們可以根據(jù)區(qū)間寬度把我們可以根據(jù)區(qū)間寬度把花瓣花瓣寬度和長度寬度和長度分為分為低中高低中高三類。三類。然后可推出如下規(guī)則:然后可推出如下規(guī)則:花瓣寬度和花瓣長度為花瓣寬度和花瓣長度為低低蘊涵蘊涵SetosaSetosa花瓣寬度和花瓣長度為花瓣寬度和花瓣長度為中中蘊涵蘊涵VersicolourVersicolour花瓣寬度和花瓣長度為花瓣寬度和

9、花瓣長度為高高蘊涵蘊涵VirginicaVirginica18用來發(fā)現(xiàn)描述數(shù)據(jù)中強關聯(lián)特征的模式。用來發(fā)現(xiàn)描述數(shù)據(jù)中強關聯(lián)特征的模式。關聯(lián)分析的任務舉例關聯(lián)分析的任務舉例:p 找出具有相關功能的基因組找出具有相關功能的基因組p 識別用戶一起訪問的識別用戶一起訪問的Web頁面頁面p 理解地球氣候系統(tǒng)不同元素之間的聯(lián)系理解地球氣候系統(tǒng)不同元素之間的聯(lián)系所發(fā)現(xiàn)的模式通常用所發(fā)現(xiàn)的模式通常用蘊含規(guī)則或特征子集蘊含規(guī)則或特征子集的形式表示的形式表示搜索空間通常是指數(shù)規(guī)模的,因此關聯(lián)分析的目標是搜索空間通常是指數(shù)規(guī)模的,因此關聯(lián)分析的目標是以以有效的方式提取有趣的結果有效的方式提取有趣的結果19例子:例子

10、:下面是一雜貨店收銀臺收集的銷售數(shù)據(jù)下面是一雜貨店收銀臺收集的銷售數(shù)據(jù)事務ID商品1 12 23 34 45 56 67 78 89 91010 面包,黃油,尿布,牛奶面包,黃油,尿布,牛奶 咖啡,糖,小甜餅,鮭魚咖啡,糖,小甜餅,鮭魚 面包,黃油,咖啡,尿布,牛奶,雞蛋面包,黃油,咖啡,尿布,牛奶,雞蛋 面包,黃油,鮭魚,雞面包,黃油,鮭魚,雞 雞蛋,面包,黃油雞蛋,面包,黃油 鮭魚,尿布,牛奶鮭魚,尿布,牛奶 面包,茶,糖,雞蛋面包,茶,糖,雞蛋 咖啡,糖,雞,雞蛋咖啡,糖,雞,雞蛋 面包,尿布,牛奶,鹽面包,尿布,牛奶,鹽 茶,雞蛋,小甜餅,尿布,牛奶茶,雞蛋,小甜餅,尿布,牛奶 顧客經

11、常一起購買的顧客經常一起購買的商品是什么?商品是什么?20事務ID商品1 12 23 34 45 56 67 78 89 91010 面包,黃油,面包,黃油,尿布尿布,牛奶牛奶 咖啡,糖,小甜餅,鮭魚咖啡,糖,小甜餅,鮭魚 面包,黃油,咖啡,面包,黃油,咖啡,尿布尿布,牛奶牛奶,雞蛋,雞蛋 面包,黃油,鮭魚,雞面包,黃油,鮭魚,雞 雞蛋,面包,黃油雞蛋,面包,黃油 鮭魚,鮭魚,尿布尿布,牛奶牛奶 面包,茶,糖,雞蛋面包,茶,糖,雞蛋 咖啡,糖,雞,雞蛋咖啡,糖,雞,雞蛋 面包,面包,尿布尿布,牛奶牛奶,鹽,鹽 茶,雞蛋,小甜餅,茶,雞蛋,小甜餅,尿布尿布,牛奶牛奶 例子:例子:下面是一雜貨店收

12、銀臺收集的銷售數(shù)據(jù)下面是一雜貨店收銀臺收集的銷售數(shù)據(jù)顧客經常一起購買的顧客經常一起購買的商品是什么?商品是什么?21旨在發(fā)現(xiàn)緊密相關的觀測值組群。旨在發(fā)現(xiàn)緊密相關的觀測值組群。使得與屬于使得與屬于不同簇不同簇的觀測值相比,屬于的觀測值相比,屬于同一簇同一簇的觀測值相互之間盡的觀測值相互之間盡可能相似??赡芟嗨?。聚類分析的任務舉例聚類分析的任務舉例:p 對相關顧客進行分組對相關顧客進行分組p 找出顯著影響地球氣候的海洋區(qū)域找出顯著影響地球氣候的海洋區(qū)域p 壓縮數(shù)據(jù)壓縮數(shù)據(jù)22例子:例子:下表中的新聞文章可以根據(jù)他們各自的主題分組。每篇文章下表中的新聞文章可以根據(jù)他們各自的主題分組。每篇文章表示為

13、詞表示為詞-頻率對的組合頻率對的組合(w:c)。w是詞,是詞,c是該詞在文章中出現(xiàn)的是該詞在文章中出現(xiàn)的次數(shù)。次數(shù)。這8篇文章如何劃分簇?23任務是識別其特征顯著不同于其他數(shù)據(jù)的觀測值,這樣的觀測值點任務是識別其特征顯著不同于其他數(shù)據(jù)的觀測值,這樣的觀測值點稱為異常點或離群點。稱為異常點或離群點。異常檢測算法的目標是發(fā)現(xiàn)異常檢測算法的目標是發(fā)現(xiàn)真正的異常點真正的異常點,而避免錯誤的將正常的,而避免錯誤的將正常的對象標注為異常點。一個好的異常檢測器應具有對象標注為異常點。一個好的異常檢測器應具有高檢測率高檢測率和和低誤報低誤報率率。異常檢測的任務舉例異常檢測的任務舉例:p 檢測欺詐檢測欺詐p 網

14、絡攻擊網絡攻擊p 疾病的不尋常模式疾病的不尋常模式p 生態(tài)系統(tǒng)的擾動生態(tài)系統(tǒng)的擾動24例子:例子:信用卡公司記錄每個持卡人所做的交易,同時也記錄信用限信用卡公司記錄每個持卡人所做的交易,同時也記錄信用限度、年齡、年薪和地址等個人信息。由于與合法交易相比,欺詐行度、年齡、年薪和地址等個人信息。由于與合法交易相比,欺詐行為的數(shù)目相對很少,因此為的數(shù)目相對很少,因此異常檢測技術異常檢測技術可以用來構造可以用來構造用戶合法交易用戶合法交易的輪廓的輪廓。當一個當一個新的交易新的交易到達時,到達時,與合法交易的輪廓進行比較與合法交易的輪廓進行比較。如果與合法。如果與合法輪廓輪廓很不相同很不相同,就把交易標

15、記為可能是欺詐!,就把交易標記為可能是欺詐!25參考書引論型:引論型:Dunham商務應用型:商務應用型:Berry和和Linoff統(tǒng)計學習型:統(tǒng)計學習型:Cherkassky和和Mulier機器學習型:機器學習型:Duada等,等,Mitchell相關會議直接相關:直接相關:SIG KDD, ICDM, SDM, PKDD, PAKDDSIG KDD, ICDM, SDM, PKDD, PAKDD間接相關:間接相關:SIGMOD,VLDB,CIKM,ICDE,ICML,AAAISIGMOD,VLDB,CIKM,ICDE,ICML,AAAI相關期刊IEEE Transactions on Knowledge and Data Engineering (TKDE)Data Mining and Knowledge Discovery (DMKD)Know

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論