數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件1_(13)_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件1_(13)_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件1_(13)_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件1_(13)_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件1_(13)_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

2020年3月4日星期三 DataMining ConceptsandTechniques 1 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 任課教師 劉愛華工作單位 信息技術(shù)系辦公地點 科技樓913聯(lián)系電話Q號碼 122471495E mail ahliu 二十世紀(jì)末以來 全球信息量以驚人的速度急劇增長 據(jù)估計 每二十個月將增加一倍 許多組織機構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù) 信息 目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實現(xiàn)數(shù)據(jù)的錄入 查詢 統(tǒng)計等功能 但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則 無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢 為了充分利用現(xiàn)有信息資源 從海量數(shù)據(jù)中找出隱藏的知識 數(shù)據(jù)挖掘技術(shù)應(yīng)運而生并顯示出強大的生命力 Why Why 數(shù)據(jù)挖掘的社會需求 數(shù)據(jù)挖掘是八十年代投資AI研究項目失敗后 AI轉(zhuǎn)入實際應(yīng)用時提出的 它是一個新興的 面向商業(yè)應(yīng)用的AI研究 1989年8月 在美國底特律召開的第11屆國際人工智能聯(lián)合會議的專題討論會上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn) KnowledgeDiscoveryinDatabase KDD 這一術(shù)語 隨后 在1991年 1993年和1994年都舉行KDD專題討論會 匯集來自各個領(lǐng)域的研究人員和應(yīng)用開發(fā)者 集中討論數(shù)據(jù)統(tǒng)計 海量數(shù)據(jù)分析算法 知識表示 知識運用等問題 最初 數(shù)據(jù)挖掘是作為KDD中利用算法處理數(shù)據(jù)的一個步驟 其后逐漸演變成KDD的同義詞 概述 現(xiàn)在 人們往往不加區(qū)別地使用兩者 KDD常常被稱為數(shù)據(jù)挖掘 DataMining 實際兩者是有區(qū)別的 一般將KDD中進行知識學(xué)習(xí)的階段稱為數(shù)據(jù)挖掘 DataMining 數(shù)據(jù)挖掘是KDD中一個非常重要的處理步驟 數(shù)據(jù)挖掘是近年來出現(xiàn)的客戶關(guān)系管理 CustomerRelationshipManagement CRM 商業(yè)智能 BusinessIntelligence BI 等熱點領(lǐng)域的核心技術(shù)之一 概述 一種深層次的數(shù)據(jù)分析方法 數(shù)據(jù)分析本身已有多年的歷史 只不過在過去數(shù)據(jù)收集和分析的一般目的是用于科學(xué)研究 另外 由于當(dāng)時計算能力的限制 很難實現(xiàn)大量數(shù)據(jù)的復(fù)雜分析 現(xiàn)在 由于各行業(yè)業(yè)務(wù)自動化的實現(xiàn) 商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù) 這些數(shù)據(jù)并不是為了分析的目的而收集的 而是在商業(yè)運作過程中由于業(yè)務(wù)需要而自然產(chǎn)生的 數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別 數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別 1 數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變 數(shù)據(jù)是海量的 數(shù)據(jù)有噪聲 數(shù)據(jù)可能是非結(jié)構(gòu)化的 2 傳統(tǒng)的數(shù)據(jù)分析方法一般都是先給出一個假設(shè)然后通過數(shù)據(jù)驗證 在一定意義上是假設(shè)驅(qū)動的 與之相反 數(shù)據(jù)挖掘在一定意義上是發(fā)現(xiàn)驅(qū)動的 模式都是通過大量的搜索工作從數(shù)據(jù)中自動提取出來 即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識 甚至是違背直覺的信息或知識 挖掘出的信息越是出乎意料 就可能越有價值 在缺乏強有力的數(shù)據(jù)分析工具而不能分析這些資源的情況下 歷史數(shù)據(jù)庫也就變成了 數(shù)據(jù)墳?zāi)?里面的數(shù)據(jù)幾乎不再被訪問 也就是說 極有價值的信息被 淹沒 在海量數(shù)據(jù)堆中 領(lǐng)導(dǎo)者決策時還只能憑自己的經(jīng)驗和直覺 因此改進原有的數(shù)據(jù)分析方法 使之能夠智能地處理海量數(shù)據(jù) 即演化為數(shù)據(jù)挖掘 數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別 技術(shù)角度的定義數(shù)據(jù)挖掘 DataMining 是從大量的 不完全的 有噪聲的 模糊的 隨機的實際應(yīng)用數(shù)據(jù)中 提取隱含在其中的 人們事先不知道的 但又是潛在有用的信息和知識的過程 與數(shù)據(jù)挖掘相近的同義詞包括 數(shù)據(jù)融合 數(shù)據(jù)分析和決策支持等 這一定義包括好幾層含義 數(shù)據(jù)源必須是真實的 海量的 含噪聲的 發(fā)現(xiàn)的是用戶感興趣的知識 發(fā)現(xiàn)的知識要可接受 可理解 可運用 并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識 僅支持特定的發(fā)現(xiàn)問題 數(shù)據(jù)挖掘定義 商業(yè)角度的定義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù) 其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取 轉(zhuǎn)換 分析和其他模型化處理 從中提取輔助商業(yè)決策的關(guān)鍵性信息 簡言之 數(shù)據(jù)挖掘其實是一類深層次的數(shù)據(jù)分析方法 因此 數(shù)據(jù)挖掘可以描述為 按企業(yè)既定業(yè)務(wù)目標(biāo) 對大量的企業(yè)數(shù)據(jù)進行探索和分析 揭示隱藏的 未知的或驗證己知的規(guī)律性 并進一步將其模型化的有效方法 數(shù)據(jù)挖掘的演化 數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系 數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科 涉及數(shù)據(jù)庫系統(tǒng) 數(shù)據(jù)倉庫 統(tǒng)計學(xué) 機器學(xué)習(xí) 可視化 信息檢索和高性能計算等諸多領(lǐng)域 此外 還與神經(jīng)網(wǎng)絡(luò) 模式識別 空間數(shù)據(jù)分析 圖像處理 信號處理 概率論 圖論和歸納邏輯等等領(lǐng)域關(guān)系密切 國外研究現(xiàn)狀 IEEE的KnowledgeandDataEngineering會刊率先在1993年出版了KDD技術(shù)???并行計算 計算機網(wǎng)絡(luò)和信息工程等其他領(lǐng)域的國際學(xué)會 學(xué)刊也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為專題和??懻?數(shù)據(jù)挖掘已經(jīng)成了國際學(xué)術(shù)研究的重要熱點之一 此外 在Internet上還有不少KDD電子出版物 其中以半月刊KnowledgeDiscoveryNuggets最為權(quán)威 國外研究現(xiàn)狀 自1989年KDD術(shù)語出現(xiàn)以來 由美國人工智能協(xié)會主辦的KDD國際研討會已經(jīng)召開了10次以上 規(guī)模由原來的專題討論會發(fā)展到國際學(xué)術(shù)大會 而亞太地區(qū)也從1997開始舉行PAKDD年會 國內(nèi)研究現(xiàn)狀 與國外相比 國內(nèi)對數(shù)據(jù)挖掘的研究起步稍晚 但發(fā)展勢頭強勁 1993年 國家自然科學(xué)基金首次資助復(fù)旦大學(xué)對該領(lǐng)域的研究項目 目前 國內(nèi)的許多科研單位和高等院校競相開展知識發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究 發(fā)展趨勢 近年來 數(shù)據(jù)挖掘的研究重點逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用 注重多種發(fā)現(xiàn)策略和技術(shù)的集成 以及多學(xué)科之間的相互滲透 例如 1998年在美國紐約舉行的第四屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會議不僅進行了學(xué)術(shù)討論 并且有30多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件產(chǎn)品 不少軟件已在北美 歐洲等國得到應(yīng)用 數(shù)據(jù)挖掘系統(tǒng)的典型結(jié)構(gòu) 功能 1 概念 類別描述 Concept ClassDescription 概念 類別描述是指對數(shù)據(jù)集做一個簡潔的總體性描述并 或描述它與某一對照數(shù)據(jù)集的差別 例1 我們收集移動電話費月消費額超出1000元的客戶資料 然后利用數(shù)據(jù)挖掘進行分析 獲得這類客戶的總體性描述 35 50歲 有工作 月收入5000元以上 擁有良好的信用度 功能 2 關(guān)聯(lián)分析 AssociationAnalysis 從一個項目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則 該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性 值條件元組 例如 關(guān)聯(lián)規(guī)則X Y所表達的含義是滿足X的數(shù)據(jù)庫元組很可能滿足Y 關(guān)聯(lián)分析在交易數(shù)據(jù)分析 支持定向市場 商品目錄設(shè)計和其他業(yè)務(wù)決策等方面有著廣泛的應(yīng)用 功能 3 分類與估值 ClassificationandEstimation 分類指通過分析一個類別已知的數(shù)據(jù)集的特征來建立一組模型 該模型可用以預(yù)測類別未知的數(shù)據(jù)項的類別 該分類模型可以表現(xiàn)為多種形式 分類規(guī)則 IF THEN 決策樹或者數(shù)學(xué)公式 乃至神經(jīng)網(wǎng)絡(luò) 估值與分類類似 只不過它要預(yù)測的不是類別 而是一個連續(xù)的數(shù)值 功能 4 聚類分析 ClusteringAnalysis 聚類分析又稱為 同質(zhì)分組 或者 無監(jiān)督的分類 指把一組數(shù)據(jù)分成不同的 簇 每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠(yuǎn) 相似性可以由用戶或者專家定義的距離函數(shù)加以度量 好的聚類方法應(yīng)保證不同類間數(shù)據(jù)的相似性盡可能地小 而類內(nèi)數(shù)據(jù)的相似性盡可能地大 功能 5 時間序列分析 Time SeriesAnalysis 時間序列分析即預(yù)測 Prediction 是指通過對大量時間序列數(shù)據(jù)的分析找到特定的規(guī)則和感興趣的特性 包括搜索相似序列或者子序列 挖掘序列模式 周期性 趨勢和偏差 預(yù)測的目的是對未來的情況作出估計 功能 6 其它功能包括 偏差分析 DeviationAnalysis 孤立點分析 OutlierAnalysis 等 隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展 可能還會繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能 展望 未來的熱點應(yīng)用領(lǐng)域 網(wǎng)站的數(shù)據(jù)挖掘 Websitedatamining 生物信息或基因的數(shù)據(jù)挖掘文本挖掘 Textualmining 多媒體挖掘 網(wǎng)站的數(shù)據(jù)挖掘 Websitedatamining 當(dāng)前Internet上各類電子商務(wù)網(wǎng)站風(fēng)起云涌 電子商務(wù)業(yè)務(wù)的競爭比傳統(tǒng)的業(yè)務(wù)競爭更加激烈 客戶從一個電子商務(wù)網(wǎng)站轉(zhuǎn)換到競爭對手那邊 只需點擊幾下鼠標(biāo)即可 電子商務(wù)環(huán)境下客戶保持比傳統(tǒng)商業(yè)更加困難 若想在競爭中生存進而獲勝 您必須比競爭對手更了解客戶 電子商務(wù)網(wǎng)站每天都可能有上百萬次的在線交易 生成大量的記錄文件 Logfiles 和登記表 如何對這些數(shù)據(jù)進行分析和挖掘 及時地了解客戶的喜好 購買模式 甚至是客戶一時的沖動 設(shè)計出滿足于不同客戶群體需要的個性化網(wǎng)站 進而增加競爭力 幾乎變得勢在必行 網(wǎng)站的數(shù)據(jù)挖掘 Websitedatamining 就分析和建立模型的技術(shù)和算法而言 網(wǎng)站的數(shù)據(jù)挖掘和原來的數(shù)據(jù)挖掘差別并不是特別大 很多方法和分析思想都可以運用 所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來自于點擊流 和傳統(tǒng)的數(shù)據(jù)庫格式有區(qū)別 因而對電子商務(wù)網(wǎng)站進行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準(zhǔn)備 目前 有很多廠商正在致力于開發(fā)專門用于網(wǎng)站挖掘的軟件 生物信息或基因的挖掘生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個領(lǐng)域 在商業(yè)上很難講有多大的價值 但對于人類卻受益非淺 例如 基因的組合千變?nèi)f化 得某種病的人的基因和正常人的基因到底差別多大 能否找出其中不同的地方 進而對其不同之處加以改變 使之成為正?;?這都需要數(shù)據(jù)挖掘技術(shù)的支持 對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比 無論在數(shù)據(jù)的復(fù)雜程度 數(shù)據(jù)量還有分析和建立模型的算法方面 都要復(fù)雜得多 從分析算法上講 更需要一些新的和高效的算法 現(xiàn)在很多廠商正在致力于這方面的研究 但就技術(shù)和軟件而言 還遠(yuǎn)沒有達到成熟的地步 文本挖掘 Textualmining 文本挖掘是人們關(guān)心的另外一個話題 例如 在客戶服務(wù)中心 把同客戶的談話轉(zhuǎn)化為文本數(shù)據(jù) 再對這些數(shù)據(jù)進行挖掘 進而了解客戶對服務(wù)的滿意程度和客戶的需求以及客戶之間的相互關(guān)系等信息 無論是在數(shù)據(jù)結(jié)構(gòu)還是在分析處理方法方面 文本數(shù)據(jù)挖掘和數(shù)據(jù)挖掘相差很大 文本挖掘并不是一件容易的事情 尤其是在分析方法方面 還有很多需要研究的專題 目前市場上有一些類似的軟件 但大部分方法只是把文本移來移去 或簡單地計算一下某些詞匯的出現(xiàn)頻率 并沒有真正實現(xiàn)語義上的分析功能 多媒體挖掘 MultimeadiaMining 基于描述的檢索系統(tǒng)基于圖像的描述創(chuàng)建索引并實現(xiàn)對象檢索 如關(guān)鍵字 標(biāo)題 尺寸和創(chuàng)建時間等 人工實現(xiàn)則極為費時 費力 自動實現(xiàn)則往往結(jié)果不理想 基于內(nèi)容的檢索系統(tǒng)支持基于圖像內(nèi)容的檢索 例如顏色 質(zhì)地 形狀 對象及小波變換 總結(jié) 數(shù)據(jù)倉庫 DW 是利用數(shù)據(jù)資源提供決策支持 在數(shù)據(jù)倉庫中利用多維數(shù)據(jù)分析來發(fā)現(xiàn)問題 并找出產(chǎn)生的原因 能從大量歷史數(shù)據(jù)中預(yù)測未來 數(shù)據(jù)挖掘 DM 是從數(shù)據(jù)中挖掘出信息和知識 數(shù)據(jù)的特征 大容量POS數(shù)據(jù) 某個超市每天要處理高達2000萬筆交易 衛(wèi)星圖象 NASA的地球觀測衛(wèi)星以每小時50GB的速度發(fā)回數(shù)據(jù) 互聯(lián)網(wǎng)數(shù)據(jù)含噪音 不完全 不正確 異質(zhì)數(shù)據(jù) 多種數(shù)據(jù)類型混合的數(shù)據(jù)源

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論