版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第18章 數(shù)據(jù)分析與挖掘1、決議支持系統(tǒng)2、數(shù)據(jù)分析和聯(lián)機(jī)分析處理(OLAP)3、數(shù)據(jù)倉庫工程4、數(shù)據(jù)挖掘10/10/1數(shù)據(jù)分析和挖掘第1頁數(shù)據(jù)分析與挖掘社會需求 數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價值知識可怕數(shù)據(jù)10/10/2數(shù)據(jù)分析和挖掘第2頁數(shù)據(jù)分析與挖掘社會需求 苦惱: 淹沒在數(shù)據(jù)中 ; 不能制訂適當(dāng)決議! 數(shù)據(jù)知識決議模式趨勢事實(shí)關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場資金分配貿(mào)易選擇在哪兒做廣告銷售地理位置金融經(jīng)濟(jì)政府POS.人口統(tǒng)計生命周期10/10/3數(shù)據(jù)分析和挖掘第3頁1、決議支持系統(tǒng)數(shù)據(jù)庫應(yīng)用系統(tǒng)可廣義地劃分為事務(wù)處理系統(tǒng)和決議支持系統(tǒng)事務(wù)處理系統(tǒng)用來統(tǒng)計相關(guān)事務(wù)信息系統(tǒng)決議支持系統(tǒng)是從事務(wù)處理
2、系統(tǒng)存放細(xì)節(jié)信息中提取出高層次信息10/10/4數(shù)據(jù)分析和挖掘第4頁2.數(shù)據(jù)分析和聯(lián)機(jī)分析處理伴隨數(shù)據(jù)庫技術(shù)發(fā)展和應(yīng)用,數(shù)據(jù)庫存放數(shù)據(jù)量從20世紀(jì)80年代兆(M)字節(jié)及千兆(G)字節(jié)過渡到現(xiàn)在兆兆(T)字節(jié)和千兆兆(P)字節(jié),同時,用戶查詢需求也越來越復(fù)雜,包括已不但是查詢或操縱一張關(guān)系表中一條或幾條統(tǒng)計,而且要對多張表中千萬條統(tǒng)計數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和信息綜合,關(guān)系數(shù)據(jù)庫系統(tǒng)已不能全部滿足這一要求。10/10/5數(shù)據(jù)分析和挖掘第5頁什么是OLAP聯(lián)機(jī)分析處理(Online Analytical Processing) 是共享多維信息、針對特定問題聯(lián)機(jī)數(shù)據(jù)訪問和分析快速軟件技術(shù)。它經(jīng)過對信息各種可
3、能觀察形式進(jìn)行快速、穩(wěn)定一致和交互性存取,允許管理決議人員對數(shù)據(jù)進(jìn)行深入觀察。OLAP=多維數(shù)據(jù)庫?10/10/6數(shù)據(jù)分析和挖掘第6頁OLTP聯(lián)機(jī)事務(wù)處理傳統(tǒng)關(guān)系型數(shù)據(jù)庫主要應(yīng)用側(cè)重于日常商務(wù)操作專門為了實(shí)時數(shù)據(jù)操作而設(shè)計 支持?jǐn)?shù)據(jù)快速插入和修改 提供單個紀(jì)錄查詢 支持?jǐn)?shù)千個并發(fā)用戶 10/10/7數(shù)據(jù)分析和挖掘第7頁OLAP是數(shù)據(jù)倉庫關(guān)鍵部心,數(shù)據(jù)倉庫系統(tǒng)主要應(yīng)用,支持復(fù)雜分析操作,側(cè)重決議支持,而且提供直觀易懂查詢結(jié)果。提供數(shù)據(jù)挖掘,發(fā)覺數(shù)據(jù)間潛在聯(lián)絡(luò) 從各個不一樣視覺察看數(shù)據(jù)10/10/8數(shù)據(jù)分析和挖掘第8頁 OLTP vs OLAP10/10/9數(shù)據(jù)分析和挖掘第9頁OLAP是多維(多維
4、數(shù)據(jù)庫有層次概念)“嘿4月份我在北京賣掉了價值十萬美元可樂”維度層次概念:產(chǎn)品類別產(chǎn)品名稱地域國家省市時間年季度月日10/10/10數(shù)據(jù)分析和挖掘第10頁維度和量度10/10/11數(shù)據(jù)分析和挖掘第11頁3、數(shù)據(jù)倉庫數(shù)據(jù)倉庫介紹數(shù)據(jù)倉庫與數(shù)據(jù)庫區(qū)分怎樣建設(shè)數(shù)據(jù)倉庫10/10/12數(shù)據(jù)分析和挖掘第12頁數(shù)據(jù)倉庫介紹數(shù)據(jù)倉庫(data warehouse)是從多個源中搜集一個信息倉儲(或歸檔),在同一個位置用唯一模式存放。長時間存放單獨(dú)統(tǒng)一數(shù)據(jù)接口10/10/13數(shù)據(jù)分析和挖掘第13頁數(shù)據(jù)倉庫與數(shù)據(jù)庫區(qū)分?jǐn)?shù)據(jù)倉庫是對于大量已經(jīng)由OLTP形成數(shù)據(jù)一個分析型數(shù)據(jù)庫,用于處理商業(yè)智能、決議支持等主要決議信
5、息;數(shù)據(jù)倉庫是在數(shù)據(jù)庫應(yīng)用到一定程度之后而對歷史數(shù)據(jù)加工與分析;是處理兩種不一樣用途工具而已。10/10/14數(shù)據(jù)分析和挖掘第14頁數(shù)據(jù)倉庫建設(shè)(1)10/10/15數(shù)據(jù)分析和挖掘第15頁設(shè)計數(shù)據(jù)倉庫一個數(shù)據(jù)倉庫包含了 一個中央事實(shí)表Fact table 多個維表10/10/16數(shù)據(jù)分析和挖掘第16頁數(shù)據(jù)倉庫星型結(jié)構(gòu)10/10/17數(shù)據(jù)分析和挖掘第17頁數(shù)據(jù)倉庫建設(shè)(2)10/10/18數(shù)據(jù)分析和挖掘第18頁ETL:數(shù)據(jù)提取與轉(zhuǎn)換10/10/19數(shù)據(jù)分析和挖掘第19頁數(shù)據(jù)倉庫建設(shè)(3)10/10/20數(shù)據(jù)分析和挖掘第20頁數(shù)據(jù)倉庫建設(shè)(4)10/10/21數(shù)據(jù)分析和挖掘第21頁四、數(shù)據(jù)挖掘1、
6、數(shù)據(jù)挖掘介紹2、數(shù)據(jù)挖掘系統(tǒng)特征3、數(shù)據(jù)挖掘技術(shù)10/10/22數(shù)據(jù)分析和挖掘第22頁1、數(shù)據(jù)挖掘介紹基本知識數(shù)據(jù)挖掘與OLAP比較數(shù)據(jù)挖掘與KDD比較數(shù)據(jù)挖掘流程10/10/23數(shù)據(jù)分析和挖掘第23頁數(shù)據(jù)挖掘介紹1、數(shù)據(jù)挖掘是怎樣一個過程呢? 從海量數(shù)據(jù)中,提取隱含在其中、人們事先不知道但又可能有用信息和知識過程。2、數(shù)據(jù)挖掘特征? 數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、改變、異常和有意義結(jié)構(gòu); 數(shù)據(jù)挖掘大部分價值在于利用數(shù)據(jù)挖掘技術(shù)改進(jìn)預(yù)測模型。10/10/24數(shù)據(jù)分析和挖掘第24頁數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代數(shù)據(jù)挖掘作為一個獨(dú)立應(yīng)用支持一個或者多個算法
7、獨(dú)立系統(tǒng)單個機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進(jìn)內(nèi)存數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包含數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)/局部區(qū)域計算機(jī)群集有些系統(tǒng)支持對象、文本、和連續(xù)媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成 多個算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算數(shù)據(jù)聯(lián)合 多個算法數(shù)據(jù)管理、預(yù)言模型、移動系統(tǒng)移動和各種計算設(shè)備普遍存在計算模型10/10/25數(shù)據(jù)分析和挖掘第25頁數(shù)據(jù)挖掘與OLAP比較(1)功效不一樣 數(shù)據(jù)挖掘DM功效在于知識發(fā)覺。如:數(shù)據(jù)挖掘DM中“分類”包含:貝葉斯分類、粗糙集分類、決議樹分類等,是
8、從數(shù)據(jù)中發(fā)覺知識規(guī)則 而聯(lián)機(jī)分析OLAP是一個自上而下、不停深入分析工具:用戶提出問題或假設(shè),OLAP負(fù)責(zé)從上至下深入地提取出關(guān)于該問題詳細(xì)信息,并以可視化方式展現(xiàn)給用戶。 用戶先入為主不足可能會限制問題和假設(shè)范圍,從而影響最終結(jié)論。10/10/26數(shù)據(jù)分析和挖掘第26頁 (2)數(shù)據(jù)組成不一樣數(shù)據(jù)挖是從混沌、含有巨大噪聲數(shù)據(jù)中提煉知識規(guī)則;而聯(lián)機(jī)分析OLAP只是從已經(jīng)規(guī)范化、純凈關(guān)系數(shù)據(jù)庫中組織數(shù)據(jù)。(3)知識與數(shù)據(jù)關(guān)系不一樣數(shù)據(jù)挖掘DM是從數(shù)據(jù)中發(fā)覺知識KDD;而聯(lián)機(jī)分析OLAP是利用人已知知識來有意識地組織和使用數(shù)據(jù)。10/10/27數(shù)據(jù)分析和挖掘第27頁數(shù)據(jù)挖掘與KDD知識發(fā)覺(KD)輸
9、出是規(guī)則 數(shù)據(jù)挖掘(DM)輸出是模型 共同點(diǎn)兩種方法輸入都是學(xué)習(xí)集(learning sets) 目標(biāo)都是盡可能多自動化數(shù)據(jù)挖掘過程 數(shù)據(jù)挖掘過程并不能完全自動化,只能半自動化 10/10/28數(shù)據(jù)分析和挖掘第28頁SQL Server 數(shù)據(jù)挖掘處理流程10/10/29數(shù)據(jù)分析和挖掘第29頁2、數(shù)據(jù)挖掘系統(tǒng)特征 礦山(數(shù)據(jù))挖掘工具(算法)金子(知識)數(shù)據(jù)特征知識特征算法特征10/10/30數(shù)據(jù)分析和挖掘第30頁數(shù)據(jù)特征大容量POS數(shù)據(jù)(某個超市天天要處理高達(dá)萬筆交易)衛(wèi)星圖象(NASA地球觀察衛(wèi)星以每小時50GB速度發(fā)回數(shù)據(jù))互聯(lián)網(wǎng)數(shù)據(jù)含噪音(不完全、不正確)異質(zhì)數(shù)據(jù)(各種數(shù)據(jù)類型混合數(shù)據(jù)源
10、,來自互聯(lián)網(wǎng)數(shù)據(jù)是經(jīng)典例子)10/10/31數(shù)據(jù)分析和挖掘第31頁系統(tǒng)特征知識發(fā)覺系統(tǒng)需要一個前處理過程數(shù)據(jù)抽取數(shù)據(jù)清洗數(shù)據(jù)選擇數(shù)據(jù)轉(zhuǎn)換知識發(fā)覺系統(tǒng)是一個自動/半自動過程知識發(fā)覺系統(tǒng)要有很好性能10/10/32數(shù)據(jù)分析和挖掘第32頁知識特征知識發(fā)覺系統(tǒng)能夠發(fā)覺什么知識?計算學(xué)習(xí)理論COLT(Computational Learning Theory)以FOL為基礎(chǔ)以發(fā)覺關(guān)系為目標(biāo)歸納邏輯程序設(shè)計現(xiàn)行知識發(fā)覺系統(tǒng)只能發(fā)覺特定模式知識規(guī)則分類關(guān)聯(lián)10/10/33數(shù)據(jù)分析和挖掘第33頁算法特征組成數(shù)據(jù)挖掘算法三要素模式記述語言:反應(yīng)了算法能夠發(fā)覺什么樣知識模式評價:反應(yīng)了什么樣模式能夠稱為知識模式探
11、索:包含針對某一特定模式對參數(shù)空間探索和對模式空間探索10/10/34數(shù)據(jù)分析和挖掘第34頁3、數(shù)據(jù)挖掘技術(shù)技術(shù)分類預(yù)言(Predication):用歷史預(yù)測未來描述(Description):了解數(shù)據(jù)中潛在規(guī)律數(shù)據(jù)挖掘技術(shù)分類關(guān)聯(lián)規(guī)則聚集時間序列10/10/35數(shù)據(jù)分析和挖掘第35頁決議樹算法基本介紹 依據(jù)數(shù)據(jù)源,找到?jīng)Q定預(yù)測目標(biāo)原因主要關(guān)系登記以及程度。 把已知條件自動分解為多個離散類別 初始狀態(tài)是一個大空間,挖掘過程是遞歸分 區(qū)不停分割。10/10/36數(shù)據(jù)分析和挖掘第36頁案例我們有大量客戶 年紀(jì)在20-60歲 月薪在08000元55%被我們認(rèn)可為好客戶里邊潛在規(guī)律是什么?10/10/
12、37數(shù)據(jù)分析和挖掘第37頁誰是我們有價值客戶呢?10/10/38數(shù)據(jù)分析和挖掘第38頁誰是我們有價值客戶呢?10/10/39數(shù)據(jù)分析和挖掘第39頁誰是我們有價值客戶呢?10/10/40數(shù)據(jù)分析和挖掘第40頁決議樹算法經(jīng)典應(yīng)用 一個或多個變量預(yù)測目標(biāo),變量對目標(biāo)主要程序。 預(yù)測客戶是否會購置某種產(chǎn)品,預(yù)測潛在客戶。 評定客戶風(fēng)險 找到?jīng)Q議規(guī)則10/10/41數(shù)據(jù)分析和挖掘第41頁關(guān)聯(lián)規(guī)則算法基本介紹 分析發(fā)覺數(shù)據(jù)庫中不一樣變量或個體間之間關(guān)系程度,用這些規(guī)則找出用戶購置行為模式。 關(guān)聯(lián)規(guī)則算法能夠處理異常大目錄,經(jīng)過了包含超出五千萬種商品目錄測試。10/10/42數(shù)據(jù)分析和挖掘第42頁關(guān)聯(lián)規(guī)則算
13、法經(jīng)典應(yīng)用購物籃物品關(guān)聯(lián)度貨物擺放捆綁銷售網(wǎng)站內(nèi)容關(guān)聯(lián)個性化促銷網(wǎng)上書店關(guān)聯(lián)銷售10/10/43數(shù)據(jù)分析和挖掘第43頁聚類算法基本介紹 將相同事物歸類 最大期望方法 K-Means10/10/44數(shù)據(jù)分析和挖掘第44頁聚類算法經(jīng)典應(yīng)用分類和預(yù)測、客戶價值度分析經(jīng)典問題 尋找有價值客戶群體 尋找欺詐群體10/10/45數(shù)據(jù)分析和挖掘第45頁數(shù)據(jù)挖掘算法 分類 10/10/46數(shù)據(jù)分析和挖掘第46頁分類 VS 預(yù)測分類:預(yù)測項目所屬類依據(jù)已經(jīng)有訓(xùn)練數(shù)據(jù)集和所屬類,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預(yù)測:是結(jié)構(gòu)和使用模型評定無樣本類,或評定給定樣本可能含有屬性或值空間。建立連續(xù)函數(shù)值模型,比如
14、預(yù)測空缺值10/10/47數(shù)據(jù)分析和挖掘第47頁預(yù)測和分類異同相同點(diǎn)二者都需要構(gòu)建模型都用模型來預(yù)計未知值預(yù)測當(dāng)中主要預(yù)計方法是回歸分析線性回歸和多元回歸非線性回歸不一樣點(diǎn)分類法主要是用來預(yù)測類標(biāo)號(分類屬性值)預(yù)測法主要是用來預(yù)計連續(xù)值(量化屬性值)10/10/48數(shù)據(jù)分析和挖掘第48頁第一步:建立模型訓(xùn)練數(shù)據(jù)集分類算法IF rank = professorOR years 6THEN tenured = yes 分類規(guī)則10/10/49數(shù)據(jù)分析和挖掘第49頁第二步:用模型進(jìn)行分類分類規(guī)則測試集未知數(shù)據(jù)(Jeff, Professor, 4)Tenured?注:測試集要獨(dú)立于訓(xùn)練樣本集,不然
15、會出現(xiàn)“過分適應(yīng)數(shù)據(jù)”情況10/10/50數(shù)據(jù)分析和挖掘第50頁分類前期工作:準(zhǔn)備數(shù)據(jù)經(jīng)過對數(shù)據(jù)進(jìn)行預(yù)處理,能夠提升分類和預(yù)測過程準(zhǔn)確性、有效性和可伸縮性數(shù)據(jù)清理消除或降低噪聲,處理空缺值。相關(guān)性分析數(shù)據(jù)中有些屬性可能與當(dāng)前任務(wù)不相關(guān);也有些屬性可能是冗余;數(shù)據(jù)變換能夠?qū)?shù)據(jù)概化到較高層概念,或?qū)?shù)據(jù)進(jìn)行規(guī)范化10/10/51數(shù)據(jù)分析和挖掘第51頁比較分類方法使用以下標(biāo)準(zhǔn)比較分類和預(yù)測方法預(yù)測準(zhǔn)確率:模型正確預(yù)測新數(shù)據(jù)類編號能力速度:產(chǎn)生和使用模型計算花銷魯棒性:給定噪聲數(shù)據(jù)或有空缺值數(shù)據(jù),模型正確預(yù)測能力可伸縮性:對大量數(shù)據(jù),有效構(gòu)建模型能力可解釋性:學(xué)習(xí)模型提供了解和洞察層次10/10/5
16、2數(shù)據(jù)分析和挖掘第52頁用判定樹歸納分類什么是判定樹?類似于流程圖樹結(jié)構(gòu)每個內(nèi)部節(jié)點(diǎn)表示在一個屬性上測試每個分枝代表一個測試輸出每個樹葉節(jié)點(diǎn)代表類或類分布判定樹生成由兩個階段組成判定樹構(gòu)建開始時,全部訓(xùn)練樣本都在根節(jié)點(diǎn)遞歸經(jīng)過選定屬性,來劃分樣本 (必須是離散值)樹剪枝許多分枝反應(yīng)是訓(xùn)練數(shù)據(jù)中噪聲和孤立點(diǎn),樹剪枝試圖檢測和剪去這種分枝判定樹使用:對未知樣本進(jìn)行分類經(jīng)過將樣本屬性值與判定樹相比較10/10/53數(shù)據(jù)分析和挖掘第53頁判定歸納樹算法判定歸納樹算法(一個貪心算法)自頂向下分治方式結(jié)構(gòu)判定樹樹以代表訓(xùn)練樣本單個根節(jié)點(diǎn)開始使用分類屬性(假如是量化屬性,則需先進(jìn)行離散化)遞歸經(jīng)過選擇對應(yīng)測
17、試屬性,來劃分樣本,一旦一個屬性出現(xiàn)在一個節(jié)點(diǎn)上,就不在該節(jié)點(diǎn)任何后代上出現(xiàn)測試屬性是依據(jù)某種啟發(fā)信息或者是統(tǒng)計信息來進(jìn)行選擇(如:信息增益)注:屬性選擇遞歸劃分步驟停頓條件給定節(jié)點(diǎn)全部樣本屬于同一類沒有剩下屬性能夠用來深入劃分樣本使用多數(shù)表決沒有剩下樣本10/10/54數(shù)據(jù)分析和挖掘第54頁貝葉斯分類貝葉斯分類利用統(tǒng)計學(xué)中貝葉斯定理,來預(yù)測類組員概率,即給定一個樣本,計算該樣本屬于一個特定類概率。樸素貝葉斯分類:假設(shè)每個屬性之間都是相互獨(dú)立,而且每個屬性對非類問題產(chǎn)生影響都是一樣。10/10/55數(shù)據(jù)分析和挖掘第55頁提升分類法準(zhǔn)確性Bagging技術(shù)和boosting技術(shù)都經(jīng)過將T個學(xué)習(xí)得
18、到分類法C1,C2CT組合起來,從而創(chuàng)造一個改進(jìn)分類法C*Bagging技術(shù)對訓(xùn)練集S進(jìn)行T次迭代,每次經(jīng)過放回取樣選取樣本集St,經(jīng)過學(xué)習(xí)St得到分類法Ct對于未知樣本X,每個分類法返回其類預(yù)測,作為一票C*統(tǒng)計得票,并將得票最高預(yù)測賦予XBoosting技術(shù)每個訓(xùn)練樣本賦予一個權(quán)值Ct權(quán)值取決于其錯誤率10/10/56數(shù)據(jù)分析和挖掘第56頁數(shù)據(jù)挖掘算法 關(guān)聯(lián)10/10/57數(shù)據(jù)分析和挖掘第57頁什么是關(guān)聯(lián)挖掘?關(guān)聯(lián)規(guī)則挖掘:在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其它信息載體中,查找存在于項目集合或?qū)ο蠹现g頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)構(gòu)。應(yīng)用:購物籃分析、交叉銷售、產(chǎn)品目錄設(shè)計等。舉例: 規(guī)則形式:
19、 “Body Head support, confidence”.buys(x, “diapers”) buys(x, “beers”) 0.5%, 60%10/10/58數(shù)據(jù)分析和挖掘第58頁規(guī)則度量:支持度與可信度查找全部規(guī)則 X & Y Z 含有最小支持度和可信度支持度, s, 一次交易中包含X 、 Y 、 Z可能性可信度, c, 包含X 、 Y交易中也包含Z條件概率注:可信度A C (50%, 66.6%)C A (50%, 100%)買尿布客戶二者都買客戶買啤酒客戶10/10/59數(shù)據(jù)分析和挖掘第59頁關(guān)聯(lián)規(guī)則挖掘:不一樣類型關(guān)聯(lián)布爾 vs. 定量 關(guān)聯(lián) (基于 處理數(shù)據(jù)類型)buy
20、s(x, “SQLServer”) buys(x, “DMBook”) buys(x, “DBMiner”) 0.2%, 60%age(x, “30.39”) income(x, “42.48K”) buys(x, “PC”) 1%, 75%單維 vs. 多維 關(guān)聯(lián) (例子同上)單層 vs. 多層 分析那個品種牌子啤酒與那個牌子尿布相關(guān)系?各種擴(kuò)展相關(guān)性、因果分析關(guān)聯(lián)并不一定意味著相關(guān)或因果添加約束如, 哪些“小東西”銷售促發(fā)了“大家伙”買賣?10/10/60數(shù)據(jù)分析和挖掘第60頁關(guān)聯(lián)規(guī)則挖掘一個例子對于 A C:support = support(A 、C) = 50%confidence
21、= support(A 、C)/support(A) = 66.6%最小值尺度 50%最小可信度 50%10/10/61數(shù)據(jù)分析和挖掘第61頁關(guān)鍵步驟:挖掘頻繁集Apriori基本思想:頻繁項集任何子集也一定是頻繁頻繁集:是指滿足最小支持度項目集合頻繁集子集也一定是頻繁如, 假如AB 是頻繁集,則 A B 也一定是頻繁集從1到k(k-頻繁集)遞歸查找頻繁集用得到頻繁集生成關(guān)聯(lián)規(guī)則10/10/62數(shù)據(jù)分析和挖掘第62頁多層關(guān)聯(lián)規(guī)則項通常含有層次底層項通常支持度也低一些特定層規(guī)則可能更有意義交易數(shù)據(jù)庫能夠按照維或?qū)泳幋a能夠進(jìn)行共享多維挖掘食品面包牛奶脫脂奶光明統(tǒng)一酸奶白黃10/10/63數(shù)據(jù)分析和
22、挖掘第63頁挖掘多層關(guān)聯(lián)規(guī)則自上而下,深度優(yōu)先方法:先找高層“強(qiáng)”規(guī)則:牛奶 面包 20%, 60%.再找他們底層“弱”規(guī)則:酸奶 黃面包 6%, 50%.10/10/64數(shù)據(jù)分析和挖掘第64頁多層關(guān)聯(lián)規(guī)則支持度不變: 在各層之間使用統(tǒng)一支持度+ 一個最小支持度閾值. 假如一個項集父項集不含有最小支持度,那他本身也不可能滿足最小支持度。 底層項不會成為頻繁集,假如支持度太高 丟失底層關(guān)聯(lián)規(guī)則太低 生成太多高層關(guān)聯(lián)規(guī)則支持度遞減: 伴隨層次降低支持度遞減10/10/65數(shù)據(jù)分析和挖掘第65頁支持度不變支持度不變多層挖掘牛奶support = 10%酸奶 support = 6%脫脂奶suppor
23、t = 4%層 1min_sup = 5%層 2min_sup = 5%10/10/66數(shù)據(jù)分析和挖掘第66頁支持度遞減支持度遞減多層挖掘酸奶 support = 6%脫脂奶 support = 4%層 1min_sup = 5%層 2min_sup = 3%牛奶support = 10%10/10/67數(shù)據(jù)分析和挖掘第67頁多層關(guān)聯(lián):冗余過濾因?yàn)椤白嫦取标P(guān)系原因,有些規(guī)則可能是多出。例子牛奶 白面包 support = 8%, confidence = 70%酸奶 白面包 support = 2%, confidence = 72%我們稱第一個規(guī)則是第二個規(guī)則祖先參考規(guī)則祖先,假如他支持度與
24、我們“預(yù)期”支持度近似話,我們就說這條規(guī)則是冗余。10/10/68數(shù)據(jù)分析和挖掘第68頁多層挖掘:深度優(yōu)先自頂向下,深度優(yōu)先方法:先挖掘高層頻繁項: 牛奶 (15%), 面包 (10%)再挖掘他們底層相對較弱頻繁項: 酸奶 (5%), 白面包 (4%)跨層時對支持度不一樣處理方法,對應(yīng)了不一樣算法:層之間支持度不變:假如t祖先是非頻繁,則不用考慮t支持度隨層遞減:則只考慮那些其祖先是頻繁/不可忽略項10/10/69數(shù)據(jù)分析和挖掘第69頁多維關(guān)聯(lián)規(guī)則:概念單維規(guī)則:buys(X, “milk”) buys(X, “bread”)多維規(guī)則: 2個以上維/謂詞維間關(guān)聯(lián)規(guī)則 (維詞不重復(fù))age(X,
25、”19-25”) occupation(X,“student”) buys(X,“coke”)混合維關(guān)聯(lián)規(guī)則 (維詞重復(fù))age(X,”19-25”) buys(X, “popcorn”) buys(X, “coke”)類別屬性有限個值, 值之間無次序關(guān)系數(shù)量屬性數(shù)字,值之間隱含了次序關(guān)系10/10/70數(shù)據(jù)分析和挖掘第70頁挖掘多維關(guān)聯(lián)技術(shù)搜索頻繁k-維詞集合:如: age, occupation, buys 是一個3-維詞集合。按照對 age 處理方式不一樣,分為:1. 用靜態(tài)方法把數(shù)值屬性離散化數(shù)值屬性可用預(yù)定義概念層次加以離散化。2. 帶數(shù)量關(guān)聯(lián)規(guī)則依據(jù)數(shù)據(jù)分布動態(tài)把數(shù)值屬性離散化到不
26、一樣“箱”。3. 基于距離關(guān)聯(lián)規(guī)則用數(shù)據(jù)點(diǎn)之間距離動態(tài)離散化10/10/71數(shù)據(jù)分析和挖掘第71頁大趨勢 BIG DATA10/10/72數(shù)據(jù)分析和挖掘第72頁/10/1073數(shù)據(jù)分析和挖掘第73頁美國大數(shù)據(jù)戰(zhàn)略年3月,美國奧巴馬政府宣告投資2億美元開啟“大數(shù)據(jù)研發(fā)計劃”,意在提升和改進(jìn)從海量和復(fù)雜數(shù)據(jù)中獲取知識能力,加速美國在科學(xué)和工程領(lǐng)域創(chuàng)造步伐,增強(qiáng)國家安全。這是繼1993年美國宣告“信息高速公路”計劃后又一次重大科技發(fā)展布署,由美國國家科學(xué)基金會、能源部等6個聯(lián)邦部門共同投資。/10/1074數(shù)據(jù)分析和挖掘第74頁谷歌盈利在于全部軟件應(yīng)用都是在線。用戶在無償使用這些產(chǎn)品同時,把個人行為、喜好等信息也無償送給了Google。所以Google產(chǎn)品線越豐富,他對用戶了解就越深入,他廣告就越精準(zhǔn)。廣告價值就越高。這是正向循環(huán),谷歌好用、無償?shù)密浖a(chǎn)品,換取對用戶了解;經(jīng)過精準(zhǔn)廣告,找到生財之道。顛覆了微軟賣軟件拷貝盈利模式。成為互聯(lián)網(wǎng)巨頭。互聯(lián)網(wǎng)越來越智能/10/1075數(shù)據(jù)分析和挖掘第75頁馬云判斷來自于數(shù)據(jù)分析“初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關(guān)是賣了貨,出去以后再取得數(shù)據(jù);
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版桶裝水電商銷售與物流配送合作協(xié)議3篇
- AAA 玻璃有限公司煙氣余熱發(fā)電項目可行性研究報告
- 酒店行業(yè)助理的工作概述
- 幼兒園工作總結(jié)愛心傳遞溫馨舒適
- 二零二五年度:我國行政合同中優(yōu)益權(quán)在公共服務(wù)領(lǐng)域的應(yīng)用論文3篇
- 2025版物業(yè)糾紛調(diào)解與法律服務(wù)合作協(xié)議2篇
- 二零二五年度個人版權(quán)保護(hù)與維權(quán)服務(wù)合同2篇
- 2025版食材配送與餐飲加盟合作合同模板3篇
- 二零二五年度能源合同能源管理服務(wù)協(xié)議范本2篇
- 聚氨酯發(fā)泡保溫施工方案
- 2024-2025學(xué)年湖北省武漢市部分重點(diǎn)中學(xué)高一上學(xué)期期末聯(lián)考數(shù)學(xué)試卷(含答案)
- 學(xué)校對口幫扶工作計劃
- 做投標(biāo)文件培訓(xùn)
- 特殊感染手術(shù)管理考試試題及答案
- 旅館治安管理制度及突發(fā)事件應(yīng)急方案三篇
- 土地增值稅清算底稿中稅協(xié)版
- 市人民醫(yī)院關(guān)于開展“改善就醫(yī)感受提升患者體驗(yàn)主題活動”2023-2025年實(shí)施方案及資料匯編
- 政績觀存在的問題及整改措施范文(7篇)
- 2023年上海各區(qū)初三數(shù)學(xué)一模卷
- GB 1886.232-2016食品安全國家標(biāo)準(zhǔn)食品添加劑羧甲基纖維素鈉
- 《港口管理》課件綜述
評論
0/150
提交評論