“1+X”(中級)03-數(shù)據(jù)挖掘概述_第1頁
“1+X”(中級)03-數(shù)據(jù)挖掘概述_第2頁
“1+X”(中級)03-數(shù)據(jù)挖掘概述_第3頁
“1+X”(中級)03-數(shù)據(jù)挖掘概述_第4頁
“1+X”(中級)03-數(shù)據(jù)挖掘概述_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘?qū)W習(xí)完本課程后,你將能夠:1.掌握數(shù)據(jù)挖掘的相關(guān)概念2.掌握數(shù)據(jù)挖掘的處理流程3.了解數(shù)據(jù)挖掘常見應(yīng)用課程目標(biāo)課程目錄什么是數(shù)據(jù)挖掘1.1數(shù)據(jù)挖掘的定義

1.2數(shù)據(jù)挖掘常用算法概述1.3數(shù)據(jù)挖掘常用工具概述2.數(shù)據(jù)挖掘流程3.數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘(Datamining,簡稱DM)是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。由于數(shù)據(jù)通常存于數(shù)據(jù)庫中,因此人們又稱之為“數(shù)據(jù)庫中知識發(fā)現(xiàn)”。數(shù)據(jù)挖掘是一個過程,而非單純的數(shù)學(xué)建模。數(shù)據(jù)挖掘是一個以數(shù)據(jù)為中心的循序漸進(jìn)的螺旋式的數(shù)據(jù)探索過程;數(shù)據(jù)挖掘是各種分析方法的集合,是多種數(shù)據(jù)分析、處理方法的配合應(yīng)用;數(shù)據(jù)挖掘的最終目的是輔助決策;當(dāng)前數(shù)據(jù)挖掘系統(tǒng)具有分析海量數(shù)據(jù)的能力。什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中需找的模式類型。描述:挖掘的任務(wù)是描述目標(biāo)數(shù)據(jù)的特性(分類)。預(yù)測:根據(jù)當(dāng)前數(shù)據(jù)預(yù)測未來。數(shù)據(jù)挖掘的功能根據(jù)數(shù)據(jù)存在方式,用于數(shù)據(jù)挖掘的數(shù)據(jù)可以是數(shù)據(jù)庫、數(shù)據(jù)倉庫、文本、多媒體數(shù)據(jù)源等等;由于企業(yè)數(shù)據(jù)倉庫系統(tǒng)就是面向數(shù)據(jù)統(tǒng)計、分析應(yīng)用的,因此數(shù)據(jù)挖掘一般依賴于企業(yè)數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)。從數(shù)據(jù)倉庫的角度看,數(shù)據(jù)挖掘可以看做是數(shù)據(jù)倉庫高階段的OLAP分析。數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)統(tǒng)計分析數(shù)據(jù)挖掘OLAP分析數(shù)據(jù)挖掘與數(shù)據(jù)倉庫只要有數(shù)據(jù)的地方就有可能進(jìn)行數(shù)據(jù)挖掘,尤其是在云計算、互聯(lián)網(wǎng)、大數(shù)據(jù)技術(shù)發(fā)展的今天,海量數(shù)據(jù)被收集、處理、存儲,為數(shù)據(jù)挖掘提供了可能。典型的數(shù)據(jù)挖掘應(yīng)用如下:商業(yè)智能(BusinessIntelligence,簡稱:BI):通過數(shù)據(jù)挖掘指導(dǎo)企業(yè)運(yùn)營、決策支持、數(shù)據(jù)價值化,是企業(yè)發(fā)展的重要力量。Web搜素引擎:這是海量數(shù)據(jù)實(shí)時應(yīng)用的處理過程,基于數(shù)據(jù)挖掘技術(shù),為用戶迅速返回所有搜尋的信息,基于此,數(shù)據(jù)的價值得到了最大體現(xiàn)。數(shù)據(jù)挖掘的應(yīng)用價值課程目錄什么是數(shù)據(jù)挖掘

1.1數(shù)據(jù)挖掘的定義1.2數(shù)據(jù)挖掘常用算法概述1.3數(shù)據(jù)挖掘常用工具概述2.數(shù)據(jù)挖掘流程3.數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘技術(shù)的基本任務(wù)主要體現(xiàn)在關(guān)聯(lián)規(guī)則、分類與回歸、聚類等幾個方面。關(guān)聯(lián)規(guī)則揭示數(shù)據(jù)間關(guān)系,但這種關(guān)系沒有在數(shù)據(jù)中直接體現(xiàn)出來,需從數(shù)據(jù)中利用數(shù)據(jù)挖掘找出來;分類就是將數(shù)據(jù)映射到預(yù)先定義好的群組或類別;回歸則是用屬性的歷史數(shù)據(jù)預(yù)測未來趨勢;聚類則是根據(jù)數(shù)據(jù)屬性的相似度給未分類的數(shù)據(jù)分類,使數(shù)據(jù)分類后類內(nèi)相似度大,類間差異大。算法分類無監(jiān)督學(xué)習(xí)有監(jiān)督學(xué)習(xí)關(guān)聯(lián)聚類分類回歸數(shù)據(jù)挖掘常用算法什么是關(guān)聯(lián)關(guān)聯(lián)自然界中某種事物發(fā)生時其他事物也會發(fā)生,則這種聯(lián)系稱之為關(guān)聯(lián)。反映事件之間依賴或關(guān)聯(lián)的知識稱為關(guān)聯(lián)型知識(又稱依賴關(guān)系)。關(guān)聯(lián)的類型分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是兩個或多個變量取值之間存在的一類重要的可被發(fā)現(xiàn)的某種規(guī)律性,如人們在購物時喜歡同時買牛奶和面包,牛奶和面包這兩種商品中存在著某種關(guān)聯(lián)。關(guān)聯(lián)規(guī)則

概念說明:

項(xiàng)集X、Y無交集。滿足最小支持度的頻繁項(xiàng)集并不必然蘊(yùn)涵著因果關(guān)系或相關(guān)關(guān)系。頻繁項(xiàng)集的所有非空子集一定也是頻繁的。關(guān)聯(lián)規(guī)則滿足最小支持度、置信度、提升度等測度指標(biāo)才具有有效性、實(shí)用性。交易號產(chǎn)品T01啤酒T01尿布T02啤酒T02尿布T03尿布

關(guān)聯(lián)規(guī)則的類別基于規(guī)則中處理的變量的類型布爾型:布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系。代表算法Apriori。

示例:尿不濕

啤酒數(shù)值型:可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,可包含布爾型。代表算法GRI。示例:年齡=【30,39】^收入=【42k,48】

IBMPC數(shù)值型可以將其進(jìn)行動態(tài)的分割或者直接對原始的數(shù)據(jù)進(jìn)行處理?;谝?guī)則中數(shù)據(jù)的抽象層次單層關(guān)聯(lián):示例:年齡=【30,39】^收入=【42k,48】

IBMPC多層關(guān)聯(lián):示例:年齡=【30,39】^收入=【42k,48】

PC基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù)單維關(guān)聯(lián):示例:尿不濕

啤酒多維關(guān)聯(lián):示例:年齡=【30,39】^收入=【42k,48】

PC基于規(guī)則中涉及到的時間序列香腸

飲料置信度:0.2飲料

香腸置信度:0.75購買飲料后將購買香腸的可能性大于購買香腸后購買飲料的可能性。關(guān)聯(lián)分析算法常見的四類劃分方式:基于變量類型的方法、基于抽象層次的方法、基于數(shù)據(jù)維度的方法、基于時間序列的方法。重點(diǎn)介紹布爾型Apriori算法。關(guān)聯(lián)模型-Apriori算法Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣;然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。實(shí)現(xiàn)步驟:1.找出出現(xiàn)頻率最大的一個項(xiàng)L1;2.根據(jù)L1找頻繁“2項(xiàng)集”的集合C2;3.并剪掉不滿足支持度閾值的項(xiàng),得到L2;4.根據(jù)L2找頻繁“3項(xiàng)集”的集合C3;5.根據(jù)性質(zhì)和支持度閾值進(jìn)行剪枝,得到L3;6.循環(huán)上述過程,直到得到空集C,即直到不能發(fā)現(xiàn)更大的頻集L;7.計算最大頻集L的非空子集,兩兩計算置信度,得到大于置信度閾值的強(qiáng)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)模型-Apriori算法TID項(xiàng)目集01ACD02BCE03ABCE04BE項(xiàng)目集支持度A2B3C3D1E3項(xiàng)目集支持度B3C3E3項(xiàng)目集BCBECE項(xiàng)目集支持度BC2BE3CE2項(xiàng)目集支持度BE3第一次掃描D自連接并剪枝第二次掃描D1-候選項(xiàng)目集1-頻繁項(xiàng)目集2-候選項(xiàng)目集2-頻繁項(xiàng)目集事物數(shù)據(jù)庫D與最小支持度比較2-候選項(xiàng)目集與最小支持度比較關(guān)聯(lián)規(guī)則-算法模型典型算法

Ais算法(R.Agrawal等提出)

Apriori算法\MSApriori算法(及變種AprioriTid和AprioriHybrid))

Setm算法(M.Houtsma等提出)

DHP算法(J.Park等提出)

Partition算法(A.Savasere等提出)

Sampling算法(H.Toivonen提出)

FP-Growth算法(JiaweiHan提出)什么是聚類聚類(clustering)分析是將一組對象劃分成簇(cluster),使簇內(nèi)對象相似性盡量大,而簇間對象相似性盡量小。如我們常說的“物以類聚、人以群分”,時間久了,同一班級的同學(xué)形成若干個小團(tuán)體。聚類分類VS1212無導(dǎo)師學(xué)習(xí)方式—需要解決將若干無標(biāo)記對象進(jìn)行劃分的問題,使之成為有意義的聚類。聚類數(shù)目未知—需要以某種距離度量為基礎(chǔ),將所有對象進(jìn)行分類,使得同一聚類之間距離最小,不同聚類之間距離最大。有導(dǎo)師學(xué)習(xí)方式—利用已經(jīng)過標(biāo)記的對象進(jìn)行學(xué)習(xí)(訓(xùn)練)、構(gòu)造模型,然后用其對新對象進(jìn)行標(biāo)記。分類數(shù)目已知—對每個新對象標(biāo)記為目標(biāo)數(shù)據(jù)庫中已存在的類別。聚類算法分類12345劃分法(partitioningmethods):給定一個由n個元組或記錄組成的數(shù)據(jù)集,劃分法將構(gòu)造k個分組,每個分組代表一個聚類,k<=n。K個分組滿足下列條件:1、每個分組至少包含一個對象,2、每個數(shù)據(jù)記錄屬于且僅屬于一個分組。算法:k-means、k-medois、CLARANS。層次法(hierarchicalmethods):對給定的數(shù)據(jù)集進(jìn)行層次分解,直到滿足某種條件位置。具體可分為“自底向上”的凝聚法和”自頂向下“的分裂法兩種法案。代表算法:BIRCH、CURE、CHAMELEON。密度法(density-basedmethods):不是基于距離,而是基于密度。能克服基于距離的算只能發(fā)現(xiàn)“類圓形”聚類的缺點(diǎn)。代表算法:DBSCAN、OPTICS。網(wǎng)格方法(grid-basedmethods):首先將數(shù)據(jù)空間劃分成有限個單元的網(wǎng)格結(jié)構(gòu),所有的處理都以單元為對象。優(yōu)點(diǎn)處理速度很快。代表算法:STING、CLIQUE、Wave-Cluster模型方法(model-basedmethods):給每個聚類假定一個模型,然后去尋找數(shù)據(jù)對給定模型進(jìn)行最佳擬合。給定模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或其他。聚類分析常見的五大類算法:劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法。重點(diǎn)介紹劃分法中的k-means。聚類-模型-K-means聚類變量變量類型:數(shù)值型;輸入變量:有;輸出變量:無;K-means算法:也稱快速聚類,非常典型的基于距離的聚類算法。

以空間中k個點(diǎn)為中心進(jìn)行聚類,對最靠近他們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。K-means聚類思想MIN聚類-模型-K-means-算法過程開始結(jié)束初始化計算數(shù)據(jù)點(diǎn)到類中心距離計算的聚類中心位置是否達(dá)到終止條件按照最近原則分成K個類輸出結(jié)果初始化聚類個數(shù)K、聚類中心位置、終止條件是否滿足收斂準(zhǔn)則或者迭代次數(shù)否是迭代過程聚類-模型-K-means-算法過程K=2確定初始聚類中心將每個樣本點(diǎn)分配到最相似的類中重新計算各類中心(均值)重新分配重新計算各類中心(均值)重新分配聚類-算法模型典型算法基于劃分的聚類k-均值算法k-medoids算法k-prototype算法基于層次的聚類

BIRCH聚類

CURE算法基于密度的聚類DBSCAN算法OPTICS算法DENCLUE算法什么是分類分類是數(shù)據(jù)挖掘中的一個重要課題。分類的目的是獲得一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某一個給定類別。分類可用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢,如通信公司基于歷史離網(wǎng)數(shù)據(jù)預(yù)測客戶的流失傾向,提前對客戶進(jìn)行挽留。分類算法采取行動!分類算法分類的主要目的是通過分析輸入數(shù)據(jù),利用部分?jǐn)?shù)據(jù)構(gòu)造一個分類函數(shù)或者分類模型(分類器),利用該模型將數(shù)據(jù)庫中的其他數(shù)據(jù)項(xiàng)映射到某一給定類別中。NAMERANKYEARSTENUREDMikeAssistantProf3noMaryAssistantProf7yesBillProfessor2yesJimAssociateProf7yesDaveAssistantProf6noAnneAssociateProf3noNAMERANKYEARSTENUREDTomAssistantProf2noMerlisaAssociateProf7noGeorgeProfessor5yesJosephAssistantProf7yes訓(xùn)練集測試集分類規(guī)則IFrank=‘professor’ORyears>6THENtenured=‘yes’JefisYES!NAMERANKYEARSTENUREDJefProfessor4?分類算法決策樹:也稱規(guī)則推理模型,通過對訓(xùn)練樣本的學(xué)習(xí),建立分類規(guī)則。依據(jù)分類規(guī)則,實(shí)現(xiàn)對新樣本的的分類。算法有兩類變量:目標(biāo)變量(輸出變量)屬性變量(輸入變量)分類-算法-決策樹決策樹特點(diǎn)類似于流程圖的樹型結(jié)構(gòu)。內(nèi)部節(jié)點(diǎn)代表對某個屬性的一次測試。分支代表測試的輸出結(jié)果。葉節(jié)點(diǎn)代表分類標(biāo)簽或分布。樹的最頂端是根節(jié)點(diǎn)。age?student?creditrating?noyesgoodexcellent<=30>40nonoyesyesyes30-40顧客購買某商品的決策樹模型什么是回歸一方面,回歸與分類相似兩者都需要構(gòu)建模型都用模型來估計未知值另一方面,回歸不同于分類分類法主要是用來預(yù)測類標(biāo)號(分類屬性值)回歸法主要是用來估計連續(xù)值(量化屬性值)回歸:回歸就是用屬性的歷史數(shù)據(jù)預(yù)測未來趨勢。先假設(shè)一類已知的類型的函數(shù)可以擬合目標(biāo)函數(shù),然后利用某種誤差分析確定一個與目標(biāo)數(shù)據(jù)擬合程度最好的函數(shù)。最常見的例子就是企業(yè)通過回歸算法預(yù)測收入,一旦發(fā)現(xiàn)無法完成年度目標(biāo),及時采取改進(jìn)措施,保證既定目標(biāo)按時完成?;貧w算法分類回歸分析的分類:根據(jù)研究自變量的數(shù)量,可以把回歸分析分為一元回歸分析和多元回歸分析。如果只有一個自變量,稱為一元回歸分析,如果研究的是兩個或兩個以上的自變量,則稱為多元回歸分析。根據(jù)自變量和因變量之間的關(guān)系類型,可以將回歸分析分為線性回歸分析和非線性回歸分析?;貧w模型也相應(yīng)地分為線性回歸模型和非線性回歸模型。回歸分析按自變量個數(shù)分類按方程式特征分類一元回歸(簡單回歸)多元回歸(復(fù)回歸)線性回歸非線性回歸分類算法模型典型算法支持向量機(jī)邏輯回歸決策樹K近鄰隨機(jī)森林樸素貝葉斯課程目錄什么是數(shù)據(jù)挖掘

1.1數(shù)據(jù)挖掘的定義

1.2數(shù)據(jù)挖掘常用算法概述

1.3數(shù)據(jù)挖掘常用工具概述2.數(shù)據(jù)挖掘流程3.數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘常用工具28阿里云機(jī)器學(xué)習(xí)平臺PAI阿里云機(jī)器學(xué)習(xí)平臺PAI(PlatformofArtificialIntelligence):是構(gòu)建在阿里云MaxCompute計算平臺之上,集數(shù)據(jù)處理、建模、離線預(yù)測、在線預(yù)測為一體的機(jī)器學(xué)習(xí)平臺。為算法開發(fā)者提供了豐富的MPI、PS、BSP等編程框架和數(shù)據(jù)存儲接口,同時提供了基于WEB的可視化控制臺,降低了使用門檻。機(jī)器學(xué)習(xí)PAI上手簡單通過對底層分布式算法的封裝,提供拖、拉、拽的可視化操作環(huán)境。使機(jī)器學(xué)習(xí)的創(chuàng)建過程像堆積木一樣簡單。算法豐富提供特征過程、數(shù)據(jù)預(yù)處理、統(tǒng)計分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)框架、預(yù)測評估等100多種算法組件。一站式體驗(yàn)提供模型訓(xùn)練功能,還提供在線預(yù)測功能以及離線調(diào)度功能,讓機(jī)器學(xué)習(xí)訓(xùn)練結(jié)果和業(yè)務(wù)可以無縫銜接。深度學(xué)習(xí)支持目前Tensorflow、Caffe、MXNet、PyTorch主流的機(jī)器學(xué)習(xí)框架,底層提供GPU卡進(jìn)行訓(xùn)練。PAI支持的算法機(jī)器學(xué)習(xí)平臺上的算法都是經(jīng)過阿里大規(guī)模業(yè)務(wù)錘煉而成的。從算法的豐富性角度來看,阿里云機(jī)器學(xué)習(xí)平臺不僅提供了基礎(chǔ)的聚類、回歸類等機(jī)器學(xué)習(xí)算法,也提供了文本分析、特征處理等比較復(fù)雜的算法。機(jī)器學(xué)習(xí)PAI的應(yīng)用流程數(shù)據(jù)預(yù)處理數(shù)據(jù)特征工程機(jī)器學(xué)習(xí)模型訓(xùn)練模型評估離線/在線服務(wù)學(xué)習(xí)首先明確任務(wù)、目標(biāo)、并且掌握數(shù)據(jù)實(shí)際情況前提下,即完成商業(yè)理解任務(wù)、數(shù)據(jù)理解任務(wù)前提下,開始機(jī)器學(xué)習(xí)的實(shí)施過程:1)數(shù)據(jù)預(yù)處理2)選擇特征3)選擇模型進(jìn)行數(shù)據(jù)訓(xùn)練4)模型評估5)應(yīng)用部署及再學(xué)習(xí)、再訓(xùn)練課程目錄什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘流程2.1數(shù)據(jù)獲取

2.2數(shù)據(jù)預(yù)處理2.3特征工程2.4分析建模2.5模型評估與應(yīng)用3.數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘的一般過程數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評估與應(yīng)用數(shù)據(jù)獲取數(shù)據(jù)獲取簡單是說就是根據(jù)數(shù)據(jù)挖掘任務(wù)的具體要求,從相關(guān)數(shù)據(jù)源中抽取相關(guān)數(shù)據(jù)集。數(shù)據(jù)集的選取對數(shù)據(jù)挖掘模式選取起決定作用。數(shù)據(jù)獲取的前提是掌握本次數(shù)據(jù)挖掘任務(wù)的目標(biāo),為達(dá)到目標(biāo)需獲取什么數(shù)據(jù):1)挖掘任務(wù)的可行性2)挖掘任務(wù)的成功標(biāo)準(zhǔn)3)挖掘任務(wù)實(shí)施計劃4)初步考慮挖掘任務(wù)采用的工具、技術(shù)5)挖掘任務(wù)與業(yè)務(wù)目標(biāo)任務(wù)的匹配情況

數(shù)據(jù)獲取獲取數(shù)據(jù)挖掘所需數(shù)據(jù)必須要全面了解數(shù)據(jù),即理解數(shù)據(jù)、熟悉數(shù)據(jù):

1、收集原始數(shù)據(jù):收集本項(xiàng)目所涉及到的數(shù)據(jù),如有必要,把數(shù)據(jù)裝入數(shù)據(jù)處理工具,并作一些初步的數(shù)據(jù)集成的工作,生成相應(yīng)報告;2、描述數(shù)據(jù):對數(shù)據(jù)做一些大致的描述,例如記錄數(shù)、屬性數(shù)等,給出相應(yīng)報告;3、探索數(shù)據(jù):對數(shù)據(jù)做簡單的統(tǒng)計分析,例如關(guān)鍵屬性的分布等;4、檢查數(shù)據(jù)質(zhì)量:包括數(shù)據(jù)是否完整、數(shù)據(jù)是否有錯、是否有缺失值等問題。課程目錄什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘流程

2.1數(shù)據(jù)獲取2.2數(shù)據(jù)預(yù)處理2.3特征工程2.4分析建模2.4模型評估與應(yīng)用3.數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理的流程可分為數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)歸約和數(shù)據(jù)變換四個步驟。從應(yīng)用的角度可分為如何得到正確的數(shù)據(jù)、如何篩選建模變量、建模變量的數(shù)據(jù)變換三個階段。其中數(shù)據(jù)清洗和數(shù)據(jù)集成屬于得到正確的數(shù)據(jù)階段,數(shù)據(jù)歸約是數(shù)據(jù)篩選建模數(shù)據(jù)階段,建模變量的數(shù)據(jù)變換為建模前的最后準(zhǔn)備階段。1、數(shù)據(jù)清洗數(shù)據(jù)清洗主要針對缺失數(shù)據(jù)、錯誤數(shù)據(jù)、噪聲數(shù)據(jù)、冗余數(shù)據(jù),分別進(jìn)行相應(yīng)的處理。2、數(shù)據(jù)集成數(shù)據(jù)倉庫的構(gòu)建需要數(shù)據(jù)集成,數(shù)據(jù)挖掘?qū)挶淼臉?gòu)建也可理解為數(shù)據(jù)集成。3、數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換主要有數(shù)據(jù)的標(biāo)準(zhǔn)化變換,對數(shù)變換和正態(tài)轉(zhuǎn)換。4、數(shù)據(jù)歸約數(shù)據(jù)歸約主要有屬性的約簡(建模變量的篩選),數(shù)據(jù)的壓縮(如主成分分析)、數(shù)據(jù)的匯總和概化等。數(shù)據(jù)清理業(yè)界對數(shù)據(jù)清理的認(rèn)識“數(shù)據(jù)清理是數(shù)據(jù)倉庫構(gòu)建中最重要的問題”—DCIsurvey數(shù)據(jù)清理任務(wù)填寫空缺的值識別離群點(diǎn)和平滑噪聲數(shù)據(jù)糾正不一致的數(shù)據(jù)解決數(shù)據(jù)集成造成的冗余數(shù)據(jù)集成數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)整合到一個一致的存儲中模式集成:整合不同數(shù)據(jù)源中的元數(shù)據(jù)e.g.A.cust_id=B.customer_no實(shí)體識別問題:匹配來自不同數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體e.g.BillClinton=WilliamClinton檢測并解決數(shù)據(jù)值的沖突對現(xiàn)實(shí)世界中的同一實(shí)體,來自不同數(shù)據(jù)源的屬性值可能是不同的可能的原因:不同的數(shù)據(jù)表示,不同的度量等等數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合挖掘的形式。平滑:去除數(shù)據(jù)中的噪聲聚集:匯總,數(shù)據(jù)立方體的構(gòu)建數(shù)據(jù)泛化:沿概念分層向上匯總規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間最?。畲笠?guī)范化、z-score規(guī)范化、小數(shù)定標(biāo)規(guī)范化屬性構(gòu)造通過現(xiàn)有屬性構(gòu)造新的屬性,并添加到屬性集中,以增加對高維數(shù)據(jù)的結(jié)構(gòu)的理解和精確度。數(shù)據(jù)規(guī)約數(shù)據(jù)歸約可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但可以產(chǎn)生相同的(或幾乎相同的)分析結(jié)果常用的數(shù)據(jù)歸約策略數(shù)據(jù)立方體聚集維歸約,e.g.移除不重要的屬性數(shù)據(jù)壓縮數(shù)值歸約,e.g.使用模型來表示數(shù)據(jù)離散化和概念分層產(chǎn)生用于數(shù)據(jù)歸約的時間不應(yīng)當(dāng)超過或“抵消”在歸約后的數(shù)據(jù)上挖掘節(jié)省的時間課程目錄什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘流程

2.1數(shù)據(jù)獲取

2.2數(shù)據(jù)預(yù)處理

2.3特征工程2.4分析建模2.4模型評估與應(yīng)用3.數(shù)據(jù)挖掘的應(yīng)用特征工程特征產(chǎn)生特征變換特征評估和選擇課程目錄什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘流程

2.1數(shù)據(jù)獲取

2.2數(shù)據(jù)預(yù)處理2.3特征工程

2.4分析建模2.5模型評估與應(yīng)用3.數(shù)據(jù)挖掘的應(yīng)用分析建模分析模型(modeling)在這一階段,各種各樣的建模方法將被加以選擇和使用,通過建造,評估模型將其參數(shù)將被校準(zhǔn)為最為理想的值。比較典型的是,對于同一個數(shù)據(jù)挖掘的問題類型,可以有多種方法選擇使用。如果有多重技術(shù)要使用,那么在這一任務(wù)中,對于每一個要使用的技術(shù)要分別對待。一些建模方法對數(shù)據(jù)的形式有具體的要求,因此,在這一階段,重新回到數(shù)據(jù)準(zhǔn)備階段執(zhí)行某些任務(wù)有時是非常必要的。、分析建模建模思路確定抽樣規(guī)則選擇合適的算法調(diào)整算法的參數(shù)建模過程1、是一個反復(fù)的過程2、在不耗費(fèi)過多系統(tǒng)資源的前提下提高的模型的精度3、建模結(jié)果需要業(yè)務(wù)解釋,應(yīng)用效果是評判模型的最終標(biāo)準(zhǔn)分析建??蛻艏?xì)分、客戶畫像、重入網(wǎng)流失預(yù)警、潛在客戶挖掘、收入預(yù)測、家庭客戶識別、交叉銷售客戶價值、網(wǎng)格績效、客戶健康度、客戶滿意度、渠道評價描述性算法:聚類分析、TFIDF算法預(yù)測類算法:神經(jīng)網(wǎng)絡(luò)、決策樹、時間序列、回歸分析、貝葉斯網(wǎng)絡(luò)、關(guān)聯(lián)分析評價類算法:因子分析、主成分分析、層次分析、模糊評價場景推薦算法選擇最優(yōu)算法和組合方案比較輸入數(shù)值特征算法特點(diǎn)數(shù)據(jù)規(guī)模結(jié)合效果課程目錄什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘流程

2.1業(yè)務(wù)及數(shù)據(jù)理解

2.2

數(shù)據(jù)預(yù)處理2.3特征工程2.4分析建模

2.4模型評估與應(yīng)用3.數(shù)據(jù)挖掘的應(yīng)用模型評估模型評估(evaluation)從數(shù)據(jù)分析的角度考慮,在這一階段中,已經(jīng)建立了一個或多個高質(zhì)量的模型。但在進(jìn)行最終的模型部署之前,更加徹底的評估模型,回顧在構(gòu)建模型過程中所執(zhí)行的每一個步驟,是非常重要的,這樣可以確保這些模型是否達(dá)到了企業(yè)的目標(biāo)。一個關(guān)鍵的評價指標(biāo)就是看,是否仍然有一些重要的企業(yè)問題還沒有被充分地加以注意和考慮。在這一階段結(jié)束之時,有關(guān)數(shù)據(jù)挖掘結(jié)果的使用應(yīng)達(dá)成一致的決定。模型評估使用一組新數(shù)據(jù)評估構(gòu)建好的模型模型評估有三個階段1、建模階段的評估2、固化后的測試3、應(yīng)用后的評估其中應(yīng)用后的評估最重要建模階段固化后測試應(yīng)用后評估模型評估混淆矩陣:通過命中率、覆蓋率驗(yàn)證模型可行性覆蓋率:正確預(yù)測到的正實(shí)例數(shù)/實(shí)際正實(shí)例數(shù)。命中率:正確預(yù)測到的正實(shí)例數(shù)/預(yù)測正實(shí)例數(shù)。評估指標(biāo)評價統(tǒng)計檢驗(yàn)評價置信區(qū)間檢驗(yàn):F檢驗(yàn)、T檢驗(yàn)預(yù)測偏差:(預(yù)測值-真實(shí)值)/真實(shí)值抽樣檢驗(yàn)評價抽樣檢驗(yàn):訓(xùn)練集驗(yàn)證模型的可靠性。訓(xùn)練集:通過模型的運(yùn)行評估,輸出滿意模型。測試集:利用測試集測試訓(xùn)練集輸出的模型。模型部署報告形式系統(tǒng)形式工具形式模型部署:創(chuàng)建完模型并不意味著項(xiàng)目的結(jié)束,即使模型的目的是為了增進(jìn)對數(shù)據(jù)的了解,所獲得的知識也要用一種用戶可以使用的方式來組織和表示。通常要將活動模型應(yīng)用到?jīng)Q策制訂的過程中去。該階段可以簡單到只生成一份報告,也可以復(fù)雜到在企業(yè)內(nèi)實(shí)施一個可重復(fù)的數(shù)據(jù)挖掘過程。課程目錄什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘流程3.數(shù)據(jù)挖掘的應(yīng)用3.1數(shù)據(jù)挖掘現(xiàn)狀及發(fā)展趨勢3.2數(shù)據(jù)挖掘需要解決的問題數(shù)據(jù)挖掘的應(yīng)用現(xiàn)狀目前數(shù)據(jù)挖掘技術(shù)已被廣泛的應(yīng)用于各個領(lǐng)域,只要有分析價值與分析需求的數(shù)據(jù),基于數(shù)據(jù)處理、存儲技術(shù),均可基于數(shù)據(jù)挖掘工具借助云計算平臺進(jìn)行海量數(shù)據(jù)分析,如金融、零售、制造、通訊、醫(yī)療等行業(yè)。金融方面:如風(fēng)險控制,金融行業(yè)中有很多因素會對貨款償還效能和客戶信用等級計算產(chǎn)生不同程度的影響,利用數(shù)據(jù)挖掘技術(shù)識別重要的因素和非相關(guān)因素,據(jù)此調(diào)整貨款發(fā)放政策,控制風(fēng)險;生物信息:利用數(shù)據(jù)挖掘進(jìn)行基因序列分析、基因功能預(yù)測、分子結(jié)構(gòu)關(guān)系預(yù)測等;電子商務(wù):基于聚類分析對客戶細(xì)分,千人千面推薦商品;零售業(yè)/市場營銷:基于關(guān)聯(lián)分析的購物籃分析,分析商品銷售中隱含的關(guān)聯(lián)關(guān)系,指定商品營銷策略;過程監(jiān)控/質(zhì)量監(jiān)控:通過視頻數(shù)據(jù)挖掘,分析當(dāng)前工程進(jìn)行情況,施工質(zhì)量情況;保險:與金融一樣,除了風(fēng)控,還有就是基于數(shù)據(jù)挖掘技術(shù)預(yù)防欺詐騙保;數(shù)據(jù)挖掘的應(yīng)用現(xiàn)狀目前數(shù)據(jù)挖掘技術(shù)已被廣泛的應(yīng)用于各個領(lǐng)域,只要有分析價值與分析需求的數(shù)據(jù),基于數(shù)據(jù)處理、存儲技術(shù),均可基于數(shù)據(jù)挖掘工具借助云計算平臺進(jìn)行海量數(shù)據(jù)分析,如金融、零售、制造、通訊、醫(yī)療等行業(yè)。證券/投資:利用數(shù)據(jù)挖掘技術(shù)在海量的數(shù)據(jù)中挖掘其背后隱藏的價格變化規(guī)律,利用關(guān)聯(lián)規(guī)則技術(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論