數據挖掘基礎知識_第1頁
數據挖掘基礎知識_第2頁
數據挖掘基礎知識_第3頁
數據挖掘基礎知識_第4頁
數據挖掘基礎知識_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘基礎知識11數據挖掘的社會需求現(xiàn)實情況:人類積累的數據量以每月高于15%的速度增加,如果不借助強有力的挖掘工具,僅依靠人的能力來理解這些數據是不可能的?,F(xiàn)在人們已經評估出世界上信息的數量每二十個月翻一番,并且數據庫的數量與大小正在以更快的速度增長。11數據挖掘的社會需求 著名的“啤酒尿布”案例:美國加州某個超級賣場通過數據挖掘發(fā)現(xiàn),下班后前來購買嬰兒尿布的男顧客大都購買啤酒。于是經理當機立斷,重新布置貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在二者之間放置佐酒食品,同時還把男士日常用品就近布置。這樣,上述幾種商品的銷量大增。1.2 數據挖掘的定義技術定義 數據挖掘(Data Mini

2、ng)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。1.2 數據挖掘的定義技術定義數據挖掘和信息檢索: 信息檢索和數據挖掘的相同點是從檔案文件或數據庫中抽取感興趣的數據和信息。區(qū)別在于數據檢索對信息的抽取規(guī)則是事先定義好的,抽取的是外在信息。據挖掘于挖掘尋找現(xiàn)象之間事先未知的關系和關聯(lián) 。1.2數據挖掘的定義商業(yè)定義 按企業(yè)既定業(yè)務目標,對大量的企業(yè)數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。數據挖掘是從海量數據中提取隱含在其中的有用信息和知識的過程。它可以

3、幫助企業(yè)對數據進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,從而利用已有數據預測未來,幫助企業(yè)贏得競爭優(yōu)勢。 1.2數據挖掘的定義商業(yè)定義 應用實例:某經營公司對多年來的客戶資料進行挖掘后發(fā)現(xiàn),大多數購買電腦的客戶具有下面的特點:1、年輕(2045歲之間);2、收入高;3、居住地:城市;4、學歷高;基于此,此經營公司可以根據這些客戶的特點有目的的做一些廣告或者促銷。1.3數據挖掘的發(fā)展歷史歷史發(fā)展v1989 IJCAI會議:會議: 數據庫中的知識發(fā)現(xiàn)討論專題數據庫中的知識發(fā)現(xiàn)討論專題Knowledge Discovery in Databases (G. Piatetsky-Shapiro

4、and W. Frawley, 1991)v1991-1994 KDD討論專題討論專題Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)v1995-1998 KDD國際會議國際會議 (KDD95-98)Journal of Data Mining and Knowledge Discovery (1997)v1998 ACM SIGKDD, SIGKDD1999-2002 會議會議,以及以及SIGKDD Explo

5、rationsv數據挖掘方面更多的國際會議數據挖掘方面更多的國際會議PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.1.3數據挖掘的發(fā)展歷史數據挖掘的發(fā)展歷史國內現(xiàn)狀國內現(xiàn)狀v大部分處于科研階段大部分處于科研階段v各大學和科研機構從事數據挖掘算法的研究各大學和科研機構從事數據挖掘算法的研究v國內著作的數據挖掘方面的書較少(翻譯的有)國內著作的數據挖掘方面的書較少(翻譯的有)v數據挖掘討論組(數據挖掘討論組( )v有一些公司在國外產品基礎上開發(fā)的特定的應用有一些公司在國外產品基礎上開發(fā)的特定的

6、應用vIBM Intelligent MinervSAS Enterprise Minerv自主知識產權的數據挖掘軟件自主知識產權的數據挖掘軟件v復旦德門(復旦德門( datamining )等)等1.3數據挖掘的發(fā)展歷史數據挖掘的發(fā)展歷史未來發(fā)展未來發(fā)展v數據庫v人工智能v統(tǒng)計學 上述學科的發(fā)展決定著數據挖掘的發(fā)展未來和方向1.4數據挖掘的系統(tǒng)分類 數據挖掘是一個交叉學科領域,受多個學科影響,包括數據庫系統(tǒng)、統(tǒng)計學、機器學習、可視化和信息科學 。圖1-2 數據挖掘受多門學科影響的示意圖1.4數據挖掘的系統(tǒng)分類v技術分類技術分類預言(預言(Predication):用歷史預測未來):用歷史預測

7、未來描述(描述(Description):了解數據中潛在的規(guī)律):了解數據中潛在的規(guī)律v數據挖掘技術數據挖掘技術關聯(lián)分析關聯(lián)分析序列發(fā)現(xiàn)序列發(fā)現(xiàn)分類(預言)分類(預言)聚集聚集異常檢測異常檢測匯總匯總回歸回歸時間序列分析時間序列分析1.5數據挖掘的應用領域v金融領域v營銷領域v電子政務v電信領域v工業(yè)生產v生物和醫(yī)學1.5數據挖掘的應用領域應用調查1.5數據挖掘的應用領域金融v信用卡分析業(yè)務模型信用卡分析業(yè)務模型客戶信用等級評估客戶信用等級評估客戶透支分析客戶透支分析客戶利潤分析客戶利潤分析客戶消費行為分析客戶消費行為分析 客戶消費異常行為分析客戶消費異常行為分析1.5數據挖掘的應用領域金融數

8、據挖掘在反洗錢系統(tǒng)中的應用1.5數據挖掘的應用領域營銷v關聯(lián)分析-市場籃子分析,用于了解顧客的購買習慣和偏好,有助于決定市場商品的擺放和產品的捆綁銷售策略;v序列模式與市場籃子分析相似,不過是用某時間點發(fā)現(xiàn)的產品購買或其他行為模式來預測將來購買產品或服務類別的概率;v聚類用于市場細分,將顧客按其行為或特征模式的相似性劃分為若干細分市場,以采取有針對性的營銷策略;v分類用于預測哪些人會對郵寄廣告和產品目錄、贈券等促銷手段有反應,還可用于顧客定級、破產預測等。 1.5數據挖掘的應用領域營銷數據挖掘在營銷中的應用流程1.5數據挖掘的應用領域營銷v應用實例1:美國運通公司(American Expre

9、ss)有一個用于記錄信用卡業(yè)務的數據庫,通過對這些數據進行挖掘,制定了“關聯(lián)結算(Relationship Billing)優(yōu)惠”的促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣,既增加了商店的銷售量,也可以增加運通卡在該商店的使用率。1.5數據挖掘的應用領域營銷v應用實例2:美國的讀者文摘(Reader s Digest)出版公司運行著一個積累了40年的業(yè)務數據庫,其中容納有遍布全球的一億多個訂戶的資料,并保證數據不斷得到實時的更新,基于對客戶資料數據庫進行數據挖掘的優(yōu)勢,使讀者文摘出版公司能夠從通俗雜志擴展到專業(yè)雜志、書刊和聲像制

10、品的出版和發(fā)行業(yè)務,極大地擴展了自己的業(yè)務范圍。1.5數據挖掘的應用領域電子政務v電子政務數據挖掘是把數據挖掘及時折射到政府部門,使政府部門的內部信息與外部信息進行有效地整合,以便政府部門可以更好、更有效地將信息發(fā)布給最希望得到它們的公眾,從而使政府部分更好地服務與公眾。另外,由于政府各部門自動化的實現(xiàn),產生了大量的數據,對這些數據進行收集和分析,可以獲得影響政府部門工作的關鍵因素,從而為政府部門決策提供依據,幫助政府部門提高政府信息化水平,促進整個社會的信息化。1.5數據挖掘的應用領域電信v目前,數據挖掘技術在電信CRM系中的應用有以下幾個方面:v客戶獲得v交叉銷售(Cross_sellin

11、g)v客戶保持 v一對一營銷 1.5數據挖掘的應用領域工業(yè)生產v在生產工業(yè)領域,大部分工廠都積累了大量的實際生產數據,這些數據大多以數據庫、數據文件、生產記錄等形式存在,它們蘊涵了與生產設備、生產過程相關的許多規(guī)律性知識和生產決策、操作人員的操作決策和控制經驗。 v應用方法:(1)建立過程輸入輸出模型,以此模型為指導尋求最優(yōu)的操作和控制條件;(2)構造數據樣本后,根據某種評估分類方法選出優(yōu)選樣本,根據優(yōu)選樣本的分布確定可探最優(yōu)區(qū),確定優(yōu)化方向。 1.5數據挖掘的應用領域工業(yè)生產數據挖掘在工業(yè)生產中的應用示意圖1.5數據挖掘的應用領域生物醫(yī)學v海量的生物信息學信息,如基因;v遠程數據庫的出現(xiàn);v

12、萬維網上涌現(xiàn)出大量的生物學數據庫 ;v美國國立生物技術信息中心網站 (NCBI)1.6數據挖掘規(guī)范和標準v產生的模式種類的多少v解決復雜問題的能力 多種模式 多種算法 數據選擇 可視化 擴展性 v易操作性 v數據存取能力 v與其他產品的接口 1.7數據挖掘面臨的挑戰(zhàn)和局限性v處理不同種類的數據 v數據挖掘算法的效率及擴展性 v數據挖掘結果的可用性、確定性及可表達性v 各種數據挖掘結果的表達 v多抽象層交互挖掘知識 v從不同的數據源中挖掘信息 v 隱私保護及數據安全 1.8數據挖掘的發(fā)展趨勢WEB挖掘vWeb 數據的收集,結構轉換等預處理技術的研究;v現(xiàn)有的數據挖掘方法在適應性和時效性方面的研究v基于Web 挖掘和信息檢索的智能搜索引擎及相關技術的研究;vWeb 挖掘在特定領域如電子商務領域的應用研究;v半結構化文檔挖掘。1.8 數據挖掘發(fā)展趨勢數據挖掘發(fā)展趨勢v數據源十分豐富,數據量非常龐大,數據類型多,存取方法復雜;v應用領域十分廣泛,只要與空間位置

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論