第一章 數據挖掘的基本概念_第1頁
第一章 數據挖掘的基本概念_第2頁
第一章 數據挖掘的基本概念_第3頁
第一章 數據挖掘的基本概念_第4頁
第一章 數據挖掘的基本概念_第5頁
已閱讀5頁,還剩61頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

主講:王名揚信息學院《數據倉庫與數據挖掘》2參考書目

《數據挖掘:概念與技術》韓家煒著(機械)網絡資源

中文(推薦)

日文

英文(課程)一引例網站怎么知道讀者可能會對這些物品感興趣?這是因為網站采用了新的技術來了解顧客的潛在需求,比如:網站從顧客的購買清單中發(fā)現你與張三具有相似的興趣愛好和購買習慣,但是有些書張三已經買了,而你卻還沒買,網站會認定你對這些書可能感興趣,而對你進行推薦。

網站這種推薦并非漫無邊際,而是有一定技術依據的,這種技術就是數據挖掘技術(DM)。例1如果你在當當的購書網站購買過書籍或音像制品,以后再瀏覽該網站時經??吹筋愃频奶崾荆骸安履赡軙矚g”,然后就可以在網頁的某個位置看到網站推薦的圖書的名稱及其相關鏈接。從這個銷售數據中可以得出什么結論?某超市Post機上記錄如下的銷售數據:例2啤酒與尿布的故事顧客購買商品1面包,黃油,尿布,啤酒2咖啡,糖,小甜餅,鮭魚,啤酒3面包,黃油,咖啡,尿布,啤酒,雞蛋4面包,黃油,鮭魚,雞5雞蛋,面包,黃油6鮭魚,尿布,啤酒7面包,茶,糖雞蛋8咖啡,糖,雞,雞蛋9面包,尿布,啤酒,鹽10茶,雞蛋,小甜餅,尿布,啤酒從數據挖掘的角度會得到如下的很強的關聯規(guī)則:簡單分析發(fā)現,有6個顧客買了啤酒,而其中5個人買了尿布,或說,5個買了尿布的顧客都買了啤酒。規(guī)則1:“買啤酒”“買尿布”。置信度為5/6規(guī)則2:“買尿布”“買啤酒”。置信度為5/5結論:“買尿布的顧客很可能會買啤酒”。對決策者的啟示:商品的擺放設計和銷售策略。二什么是數據挖掘什么是數據挖掘?DataInformationKnowledgeWisdom存在太多數據挖掘的定義,但基本上有這樣一種描述結構Tofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、Data+contextInformation+rulesKnowledge+experience數據挖掘是從大量的數據中挖掘出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規(guī)則。簡單的說,數據挖掘就是從大量的數據中發(fā)現有用信息的過程。數據挖掘的定義(從數據中發(fā)現知識的角度):為什么會出現數據挖掘?時代背景:我們生活在一個網絡化時代,通信、計算機和網絡技術正改變整個人類社會。網絡化時代給我們帶來大量的數據:

商務環(huán)境(CRM):電子商務的Web數據社交平臺數據:facebook、twitter、微博(評論挖掘、商品營銷、事件預測等)、人人網等金融:銀行卡交易數據科學計算:天氣、地理環(huán)境等為什么會出現數據挖掘?數據爆炸性增長帶來的契機與挑戰(zhàn)。。。。視頻:《你知道嗎?》推薦電影《永無止境》:講述一位落魄的作家?guī)扃?,服用了一種可以迅速提升智力的神奇藍色藥物,然后他將這種高智商用于炒股。庫珀是怎么炒股的呢?就是他能在短時間掌握無數公司資料和背景,也就是將世界上已經存在的海量數據(包括公司財報、電視、幾十年前的報紙、互聯網、小道消息等)挖掘出來,串聯起來,甚至將FaceBook、Twitter的海量社交數據挖掘得到普通大眾對某種股票的感情傾向,通過海量信息的挖掘、分析,使一切內幕都不是內幕,使一切趨勢都在眼前,結果在10天內他就贏得了200萬美元,神奇的表現讓身邊的職業(yè)投資者目瞪口呆。13數據爆炸.知識貧乏激增的數據背后隱藏著許多重要的信息,人們希望能夠對其進行更高層次的分析,以便更好地利用這些數據。

目前的數據庫系統可以高效地實現數據的錄入、查詢、統計等功能,但無法發(fā)現數據中存在的關系和規(guī)則,無法根據現有的數據預測未來的發(fā)展趨勢。缺乏挖掘數據背后隱藏知識的手段,導致“數據爆炸.知識貧乏”的尷尬現象。14數據.信息.知識數據僅是人們用各種工具和手段觀察外部世界得到的原始材料;信息雖給出數據中有一定意義的東西,但往往和任務無直接聯系,不能作為判斷、決策和行動的依據;知識是人們作出正確的判斷、決策和采取正確行動的依據。15數據的豐富帶來了對強有力的數據分析工具的需求!16數據倉庫與數據挖掘解決方法:數據倉庫技術和數據挖掘技術

數據倉庫和聯機分析處理技術(存儲);數據挖掘:在大量的數據中挖掘感興趣的知識/規(guī)則/規(guī)律/模式/約束(分析)。17課程目錄第一章數據挖掘的基本概念;第二章

數據倉庫的基本概念;第三章聯機分析處理;第四章數據預處理;第五章概念描述:特征化與比較;第六章挖掘大型數據庫中的關聯規(guī)則;第七章分類與預測;第八章聚類分析18學習目的:掌握數據倉庫和數據挖掘的基本原理,學會用信息分析的方法思考問題。

掌握一些算法的基本思想,以便今后在實踐中處理特定問題時使用。第一章數據挖掘的基本概念第一章數據挖掘的基本概念

數據挖掘的定義數據挖掘的功能——可以挖掘什么類型的模式

數據挖掘的典型應用一、數據挖掘的定義數據挖掘是從大量的數據中挖掘出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規(guī)則。簡單的說,數據挖掘就是從大量的數據中發(fā)現有用的信息。數據挖掘的定義(從數據中發(fā)現知識角度):23

這個定義包括以下幾層含義:

數據源必須是真實的、大量的、含噪聲的;發(fā)現的是用戶感興趣的知識;發(fā)現的知識要可接受、可理解、可運用;并不要求發(fā)現放之四海皆準的知識,僅支持

特定的問題。數據挖掘的定義:24它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。

在這種需求牽引下,匯聚了不同領域的研究者,尤其是數據庫技術、人工智能技術、數理統計、可視化技術、并行計算等方面的學者和工程技術人員,投身到數據挖掘這一新興的研究領域,形成新的技術熱點。

數據挖掘是一門交叉學科:數據挖掘:多學科的匯合數據挖掘數據庫技術統計學其它學科信息科學機器學習可視化人工智能科學計算幾個相關概念

機器學習:將一些已知的并被成功解決的問題作為范例輸入計算機,由計算機通過學習這些范例總結并生成相應的規(guī)則,以解決某一類的問題;

知識工程:不同于機器學習,直接給計算機輸入已被代碼化的規(guī)則,由計算機使用這些規(guī)則解決問題,如專家系統。20世紀80年代末,出現一個新的術語:數據庫中的知識發(fā)現(KDD,KnowledgeDiscoveryinDatabase)。

KDD泛指所有從源數據中發(fā)掘模式或聯系的方法,用以描述整個數據發(fā)掘的過程,包括最開始的制定業(yè)務目標到最終的結果分析;

并用數據挖掘(DM,DataMining)來描述進行數據挖掘的子過程。幾個相關概念28知識發(fā)現的過程和步驟

知識發(fā)現的主要過程:A.

確定業(yè)務對象B.

數據準備C.

數據挖掘D.

結果分析E.

知識的同化29數據挖掘:一個

KDD過程挖掘數據:過程的核心.DataCleaning數據整理DataIntegration數據集成數據庫DataWarehouse數據倉庫相關任務數據Task-relevantData挑選采掘數據DataMining模式評估PatternEvaluation29知識二、數據挖掘的功能數據挖掘可以挖掘的一些常用模式如下:關聯分析(描述);聚類分析(描述);分類(預測);孤立點分析(預測)數據挖掘的功能:數據挖掘的功能:1)關聯分析關聯規(guī)則挖掘:反映一個事件和其他事件之間依賴或關聯的知識。廣泛的用于購物籃或事務數據分析。例:2)聚類分析聚類分析:最大化類內的相似性和最小化類間的相似性(無監(jiān)督的學習方法)找出數據集中的共性和差異,并將具有共性的對象聚合在相應的類中。“物以類聚,人以群分”示例:撲克牌的劃分(b)(a)(c)(d)圖

十六張牌基于不同相似性度量的劃分結果3)分類挖掘分類:反映同類事物共同性質的特征型知識和不同事物之間的差異型特征知識(有監(jiān)督的學習方法)通過分析訓練集中的數據,為每個類別建立分類分析模型;然后用這個分類分析模型對數據庫中的其他記錄進行分類。示例:垃圾郵件的識別屬于分類問題,所有訓練用郵件預先被定義好類標號信息,即訓練集中的每封郵件預先被標記為垃圾郵件或合法郵件信息,需要利用已有的訓練郵件建立預測模型,然后利用預測模型來對未來未知郵件進行預測。決策樹方法得到規(guī)則規(guī)則的應用例如:信用卡的使用規(guī)則1:Ifrefund=noandmaritalstatus=marriedthencheat=no3)分類挖掘聚類與分類的主要區(qū)別:

聚類是一種無指導的觀察式學習,沒有預先定義的類;

而分類問題是有指導的示例式學習,有預先定義的類。聚類分類監(jiān)督(指導)與否無指導學習(沒有預先定義的類)有指導學習(有預先定義的類)是否建立模型或訓練否,旨在發(fā)現空間實體的屬性間的函數關系。是,具有預測功能4)孤立點分析孤立點分析:對差異和極端特例的描述孤立點:事物偏離常規(guī)的異?,F象,如標準類外的特例,數據聚類外的離群值等;異常檢測通過構建正常行為模型(稱為特征描述),來檢測與特征描述嚴重偏離的新的模式。應用信用卡欺詐檢測移動電話欺詐檢測醫(yī)療分析(異常)三、數據挖掘的應用電信:客戶細分銀行:聚類(細分),交叉銷售百貨公司/超市:購物籃分析

(關聯規(guī)則)保險:客戶細分,交叉銷售,流失(原因分析)信用卡:

欺詐探測,細分電子商務:

網站日志分析稅務部門:偷漏稅行為探測警察機關:犯罪行為分析醫(yī)學:

醫(yī)療保健數據挖掘的應用:英國電信需要發(fā)布一種新的產品,需要通過直郵的方式向客戶推薦這種產品。。。。。。使直郵的回應率提高了100%電信GUS(英國的日用品零售商店)需要準確的預測未來的商品銷售量,降低庫存成本。。。。。。通過數據挖掘的方法使庫存成本比原來減少了3.8%零售商店美國國內稅務局需要提高對納稅人的服務水平。。。。。。合理安排稅務官的工作,為納稅人提供更迅捷、更準確的服務稅務局匯豐銀行需要對不斷增長的客戶群進行分類,對每種產品找出最有價值的客戶。。。。。。營銷費用減少了30%銀行美國國防財務部需要從每年上百萬比的軍火交易中發(fā)現可能存在的欺詐現象。。。。。。發(fā)現可能存在欺詐的交易,進行深入調查,節(jié)約了大量的調查成本財務部數據挖掘都干了些什么?卓越亞馬遜通過數據挖掘我們可以發(fā)現最有價值的客戶通過數據挖掘我們可以使組合銷售更有效率熟食罐頭鮭魚凍肉牛肉鮮貨通過數據挖掘我們可以留住那些最有價值的客戶通過數據挖掘我們可以用更小的成本發(fā)現欺詐現象數據挖掘的熱點應用主要熱點就目前來看,將來的幾個熱點包括:—網站的數據挖掘(WebSiteDataMining)—生物信息或基因(Bioinformatics/genomics)的數據挖掘—文本的數據挖掘(TextualMining)。網站的數據挖掘電子商務網站的困難——如何讓您的電子商務網站有效益。要想有效益就必須吸引客戶,增加能帶來效益的客戶忠誠度。電子商務業(yè)務的競爭比傳統的業(yè)務競爭更加激烈,原因有很多方面,其中一個因素是客戶從一個電子商務網站轉換到競爭對手那邊,只需點擊幾下鼠標即可。網站的數據挖掘網站的內容和層次、用詞、標題、獎勵方案、服務等任何一個地方都有可能成為吸引客戶、同時也可能成為失去客戶的因素。而同時電子商務網站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對這些數據進行分析和挖掘,充分了解客戶的喜好、購買模式,甚至是客戶一時的沖動,設計出滿足于不同客戶群體需要的個性化網站,進而增加其競爭力,幾乎變得勢在必行。若想在競爭中生存進而獲勝,就要比您的競爭對手更了解客戶。生物信息(基因信息)的數據挖掘生物信息或基因數據挖掘是近年來新興起的一個熱門領域,在商業(yè)上很難講有多大的價值,但是對于人類卻受益匪淺。如,通過基因挖掘,可以得到某種病的人的基因和正常人的基因到底差別多大?哪些基因具有相似的表達模式?哪些化合物(潛在藥物)的使用能顯著降低這些基因的表達?等等。文本數據挖掘人們很關心的另外一個話題是文本數據挖掘。在現實世界中,可獲取的大部分信息是以文本形式存儲在文本數據庫中的,由來自各種數據源的大量文檔組成,如新聞文檔、研究論文、書籍、數字圖書館、電子郵件,和Web頁面。由于電子形式的文本信息飛速增長,文本挖掘已經成為信息領域的研究熱點。文本數據庫中存儲的數據可能是高度非結構化的,如WWW上的網頁;也可能是半結構化的,如e-mail消息和一些XML網頁;其他的則是良結構化的,如書籍,包含大量結構化的字段,如標題、作者、出版日期,出版社等,但同時也包含一些非結構化成分,如摘要和內容等。文本數據挖掘數據中的非結構化成分使得對文本數據的挖掘不同于常規(guī)的數據挖掘。文本數據挖掘,可以實現對文本的預處理(如過濾)、文檔的聚類(話題檢測)、文檔的自動文摘生成。文檔的自動摘要生成:互聯網上的文本信息、機構內部的文檔及數據庫的內容都在成指數級的速度增長,用戶在檢索信息的時候,可以得到成千上萬篇的返回結果,其中許多是與其信息需求無關或關系不大的,如果要剔除這些文檔,則必須閱讀完全文,這要求用戶付出很多勞動,而且效果不好。

自動文摘能夠生成簡短的關于文檔內容的指示性信息,將文檔的主要內容呈現給用戶,以決定是否要閱讀文檔的原文,這樣能夠節(jié)省大量的瀏覽時間。簡單地說自動文摘就是利用計算機自動地從原始文檔中提取全面準確地反映該文檔中心內容的簡單連貫的短文。如火如荼的“大數據”幾乎在一夜之間,大數據(BigData)變成一個IT行業(yè)中最時髦的詞匯。實際上,大數據不是什么完完全全的新生事物,Google的搜索服務就是一個典型的大數據運用,根據客戶的需求,Google實時從全球海量的數字資產(或數字垃圾)中快速找出最可能的答案,呈現給你,就是一個最典型的大數據服務。如火如荼的“大數據”大數據的特征(4個V:Volume,Variety,Value,Velocity):第一,數據量巨大。從TB級別,躍升到PB級別。第二,數據類型繁多,網絡日志、視頻、圖片、地理位置、科學觀測記錄、短信、博客等;第三,價值密度低,以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數據僅僅有一兩秒;第四,處理速度快?!按髷祿蓖诰蚩梢宰鍪裁?014年1月26日,百度地圖春節(jié)人口遷徙大數據正式上線。人們可以輸入城市名稱,查詢該城市在過去8小時的時間里,春運人口遷入和遷出的情況,查詢到該城市人口都遷移到什么城市,也可以查詢到該城市的遷入者都是從哪座城市過來的,還可查詢到該城市在過去8小時里遷入和遷出的熱門線路。百度“遷徙大地圖”“大數據”挖掘可以做什么更精準的用戶調研;更精準的用戶推薦。如:WeatherCo是美國一家能夠基于對人們查看天氣情況的時間、地點和頻次的分析預測消費者行為的機構。該公司積累了超過75年的氣象信息,覆蓋北美等地區(qū)的天氣、云量等方面的數據?;谶@些大數據,WeatherCo不僅能為用戶提供單純的天氣信息,而且可以通過數據挖掘,分析天氣會對用戶消費產生什么影響。這種對用戶消費行為的預判,不僅能讓用戶感受到一種全新的購物體驗,而且還可以吸引那些對廣告投放精準度要求較高的廣告主。超級營銷顧問“大數據”挖掘可以做什么Netflix在美國擁有2700萬訂閱用戶,每天用戶在Netflix上產生3000多萬個行為,同時用戶每天還會給出400多萬個評分以及300萬次搜索請求。借助這些數據,Netfli

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論