數(shù)據(jù)挖掘基本概念與應用_第1頁
數(shù)據(jù)挖掘基本概念與應用_第2頁
數(shù)據(jù)挖掘基本概念與應用_第3頁
數(shù)據(jù)挖掘基本概念與應用_第4頁
數(shù)據(jù)挖掘基本概念與應用_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘基本概念與 騰訊研究院騰訊研究院 數(shù)據(jù)分析研究室數(shù)據(jù)分析研究室 報告內容 n 數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的基本概念 n 數(shù)據(jù)挖掘與統(tǒng)計分析數(shù)據(jù)挖掘與統(tǒng)計分析 n 數(shù)據(jù)挖掘的基本算法數(shù)據(jù)挖掘的基本算法 n 數(shù)據(jù)挖掘實施方法論數(shù)據(jù)挖掘實施方法論 n 總結與討論總結與討論 n 數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的基本概念 改變未來世界的十大新興技術 n Technology Review(麻省理工學院(麻省理工學院2002年年1月出刊)月出刊) 機器與人腦的接口機器與人腦的接口 塑膠晶體管塑膠晶體管 數(shù)據(jù)挖掘(數(shù)據(jù)挖掘(Data Mining) 數(shù)字權利管理數(shù)字權利管理 生物測定學(生物測定學(Bi

2、ometrics) 語言識別處理語言識別處理 微光學技術(微光學技術(Microphotonics) 解開程序代碼(解開程序代碼(Untangling Code) 機器人設計機器人設計 微應用流體學(微應用流體學(Microfluidics) 什么是數(shù)據(jù)挖掘? Data Information Knowledge Wisdom n 存在太多數(shù)據(jù)挖掘的定義,但基本上有這樣一種描述結構存在太多數(shù)據(jù)挖掘的定義,但基本上有這樣一種描述結構 To find / discover / extract / dredge / harvest 、 Interesting / novel / useful / i

3、mplicit / actable / meaningful 、 Information / knowledge / patterns / trends / rules / anomalies 、 In massive data / large data set / large database / data warehouse 、 Data + context Information + rules Knowledge + experience 為什么會出現(xiàn)數(shù)據(jù)挖掘? n 數(shù)據(jù)爆炸性增長是數(shù)據(jù)挖掘技術應運而生的根本原因。數(shù)據(jù)爆炸性增長是數(shù)據(jù)挖掘技術應運而生的根本原因。 只見樹木,不見森林(只

4、見樹木,不見森林(Drowning in data but starving for information) 計算復雜度計算復雜度 數(shù)據(jù)管理問題數(shù)據(jù)管理問題 數(shù)據(jù)類型的多樣性數(shù)據(jù)類型的多樣性 處理大容量數(shù)據(jù)是 數(shù)據(jù)挖掘技術區(qū)別 于其他數(shù)據(jù)分析方 法的唯一標志嗎? 其他數(shù)據(jù)分析方法:統(tǒng)計學 n 從處理數(shù)據(jù)的角度看、從處理數(shù)據(jù)的角度看、 數(shù)據(jù)規(guī)模不同數(shù)據(jù)規(guī)模不同 數(shù)據(jù)來源不同:觀測數(shù)據(jù)(數(shù)據(jù)來源不同:觀測數(shù)據(jù)(Secondary Analysis) VS 試驗數(shù)據(jù)(試驗數(shù)據(jù)(Primary Analysis) 數(shù)據(jù)類型不同(結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù))數(shù)據(jù)類型不同(結構化數(shù)據(jù)、半結構

5、化數(shù)據(jù)、非結構化數(shù)據(jù)) n 從分析思想的角度看從分析思想的角度看 更關注實證性分析(更關注實證性分析(Empirical Analysis)而非探索性分析()而非探索性分析(Exploratory Analysis) 更關注模型(更關注模型(Model)而非算法()而非算法(Algorithm) n 但二者具有相當密切的聯(lián)系但二者具有相當密切的聯(lián)系 從數(shù)據(jù)分析的角度,統(tǒng)計學現(xiàn)在是且仍將是數(shù)據(jù)挖掘最重要的技術支撐和思想源泉從數(shù)據(jù)分析的角度,統(tǒng)計學現(xiàn)在是且仍將是數(shù)據(jù)挖掘最重要的技術支撐和思想源泉 更加深入的滲透和交叉(如探索性數(shù)據(jù)分析,更加深入的滲透和交叉(如探索性數(shù)據(jù)分析,EDA) 數(shù)據(jù)挖掘是數(shù)

6、據(jù)驅 動的探索性分析 ! 數(shù)據(jù)挖掘:多學科的匯合 數(shù)據(jù)挖掘 數(shù)據(jù)庫技術統(tǒng)計學 其它學科 信息科學 機器學習可視化 人工智能 科學計算 數(shù)據(jù)挖掘是一個過程 - “from data mining to knowledge discovery in database”. U. fayyad, and (1996) 數(shù)據(jù)挖掘過程中的數(shù)據(jù)預處理 n 數(shù)據(jù)清洗數(shù)據(jù)清洗 填充缺失值填充缺失值, , 修均噪聲數(shù)據(jù)修均噪聲數(shù)據(jù), , 識別或刪除孤立點識別或刪除孤立點, , 并解決數(shù)據(jù)不一致問題并解決數(shù)據(jù)不一致問題 主要分析方法:分箱(主要分析方法:分箱(BinningBinning)、聚類、回歸)、聚類、回歸

7、 n 數(shù)據(jù)集成數(shù)據(jù)集成 多個數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成多個數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成 n 數(shù)據(jù)變換數(shù)據(jù)變換 規(guī)范化與匯總規(guī)范化與匯總 n 數(shù)據(jù)簡化數(shù)據(jù)簡化 減少數(shù)據(jù)量的同時減少數(shù)據(jù)量的同時, , 還可以得到相同或相近的分析結果還可以得到相同或相近的分析結果 主要分析方法:抽樣、主成分分析主要分析方法:抽樣、主成分分析 n 數(shù)據(jù)離散化數(shù)據(jù)離散化 數(shù)據(jù)簡化的一部分數(shù)據(jù)簡化的一部分, , 但非常重要但非常重要 ( (尤其對于數(shù)值型數(shù)據(jù)來說尤其對于數(shù)值型數(shù)據(jù)來說) ) 數(shù)據(jù)挖掘過程中的數(shù)據(jù)探索 n 探索性數(shù)據(jù)分析(探索性數(shù)據(jù)分析(Exploratory Data Analysis, EDAExplor

8、atory Data Analysis, EDA) 探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結構和關系探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結構和關系 對數(shù)據(jù)集沒有各種嚴格假定對數(shù)據(jù)集沒有各種嚴格假定 “玩玩”數(shù)據(jù)數(shù)據(jù) n 主要任務主要任務 數(shù)據(jù)可視化(數(shù)據(jù)可視化(a picture is worth a thousand wordsa picture is worth a thousand words) 殘差分析(數(shù)據(jù)擬合殘差分析(數(shù)據(jù)擬合 + + 殘差)殘差) 數(shù)據(jù)的重新表達(什么樣的尺度對數(shù)抑或平方根會簡化分析?)數(shù)據(jù)的重新表達(什么樣的尺度對數(shù)抑或平方根會簡化分析?) 方法的耐抗性(對數(shù)據(jù)局部不良的不敏

9、感性,如中位數(shù)耐抗甚于均值)方法的耐抗性(對數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值) n 常見方法常見方法 統(tǒng)計量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關系數(shù)等統(tǒng)計量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關系數(shù)等 統(tǒng)計圖,如餅圖、直方圖、散點圖、箱尾圖等統(tǒng)計圖,如餅圖、直方圖、散點圖、箱尾圖等 模型,如聚類模型,如聚類 什么不是數(shù)據(jù)挖掘? n 定量分析(定量分析(Quantitative Analysis)的需要存在企業(yè)管理運行的各個側)的需要存在企業(yè)管理運行的各個側 面或環(huán)節(jié),但并非所有的定量分析問題都可以歸結到數(shù)據(jù)挖掘范疇的面或環(huán)節(jié),但并非所有的定量分析問題都可以歸結

10、到數(shù)據(jù)挖掘范疇的 問題。問題。 簡單的報表、圖表及多維分析仍是日常分析工作的主要內容簡單的報表、圖表及多維分析仍是日常分析工作的主要內容 小樣本數(shù)據(jù)的分析傳統(tǒng)統(tǒng)計分析方法更成熟有效,如趨勢預測小樣本數(shù)據(jù)的分析傳統(tǒng)統(tǒng)計分析方法更成熟有效,如趨勢預測 某些特定業(yè)務問題無法用數(shù)據(jù)挖掘算法加以解決,例如某些特定業(yè)務問題無法用數(shù)據(jù)挖掘算法加以解決,例如 資源最優(yōu)配置問題是個運籌學問題資源最優(yōu)配置問題是個運籌學問題 某些物流管理問題或者供應鏈管理問題是個隨機規(guī)劃問題某些物流管理問題或者供應鏈管理問題是個隨機規(guī)劃問題 營銷預演本質是個系統(tǒng)仿真問題營銷預演本質是個系統(tǒng)仿真問題 報告內容 n 數(shù)據(jù)挖掘的基本概念

11、數(shù)據(jù)挖掘的基本概念 n 數(shù)據(jù)挖掘與統(tǒng)計分析數(shù)據(jù)挖掘與統(tǒng)計分析 n 數(shù)據(jù)挖掘的基本算法數(shù)據(jù)挖掘的基本算法 n 數(shù)據(jù)挖掘實施方法論數(shù)據(jù)挖掘實施方法論 n 總結與討論總結與討論 n 數(shù)據(jù)挖掘與統(tǒng)計分析數(shù)據(jù)挖掘與統(tǒng)計分析 統(tǒng)計學與數(shù)據(jù)挖掘的聯(lián)系 n 從處理數(shù)據(jù)數(shù)據(jù)挖掘中采用了大量統(tǒng)計學的思想、方法和工具從處理數(shù)據(jù)數(shù)據(jù)挖掘中采用了大量統(tǒng)計學的思想、方法和工具 聚類分析(無監(jiān)督學習過程,統(tǒng)計分析中的主要技術)聚類分析(無監(jiān)督學習過程,統(tǒng)計分析中的主要技術) K-Means Self Organizing Map (SOM) 數(shù)據(jù)分類(有監(jiān)督學習過程)數(shù)據(jù)分類(有監(jiān)督學習過程) 統(tǒng)計分類技術:距離判別,費雪

12、判別,貝葉斯判別統(tǒng)計分類技術:距離判別,費雪判別,貝葉斯判別 數(shù)據(jù)挖掘中的分類技術數(shù)據(jù)挖掘中的分類技術 :決策樹,神經(jīng)網(wǎng)絡:決策樹,神經(jīng)網(wǎng)絡 其他方法其他方法 相關分析相關分析 主成分分析主成分分析 回歸分析回歸分析 序列分析序列分析 統(tǒng)計學與數(shù)據(jù)挖掘的區(qū)別 n 數(shù)據(jù)數(shù)據(jù) 樣本數(shù)量不同(在統(tǒng)計學中樣本數(shù)量大于樣本數(shù)量不同(在統(tǒng)計學中樣本數(shù)量大于30,則成為大樣本),則成為大樣本) 數(shù)據(jù)來源和質量不同數(shù)據(jù)來源和質量不同 數(shù)據(jù)挖掘既可以處理結構化數(shù)據(jù),也可以處理非結構化和異型數(shù)據(jù)數(shù)據(jù)挖掘既可以處理結構化數(shù)據(jù),也可以處理非結構化和異型數(shù)據(jù) n 方法方法 數(shù)據(jù)挖掘的前提是占有大量數(shù)據(jù),統(tǒng)計中的實驗設計

13、、抽樣設計并不適數(shù)據(jù)挖掘的前提是占有大量數(shù)據(jù),統(tǒng)計中的實驗設計、抽樣設計并不適 用用 有些數(shù)據(jù)挖掘的分析方法是統(tǒng)計學中沒有的,如強調實時分析有些數(shù)據(jù)挖掘的分析方法是統(tǒng)計學中沒有的,如強調實時分析 統(tǒng)計分析方法在對大規(guī)模數(shù)據(jù)處理時占用系統(tǒng)的資源和時間太多,不適統(tǒng)計分析方法在對大規(guī)模數(shù)據(jù)處理時占用系統(tǒng)的資源和時間太多,不適 宜采用,因此數(shù)據(jù)挖掘大量采用神經(jīng)網(wǎng)絡、遺傳算法等人工智能方法宜采用,因此數(shù)據(jù)挖掘大量采用神經(jīng)網(wǎng)絡、遺傳算法等人工智能方法 n 模型(模式)模型(模式) 模型(統(tǒng)計學)模型(統(tǒng)計學) VS 模式(數(shù)據(jù)挖掘)模式(數(shù)據(jù)挖掘) 統(tǒng)計建模強調模型的普適性,數(shù)據(jù)挖掘強調從數(shù)據(jù)中發(fā)現(xiàn)模式統(tǒng)

14、計建模強調模型的普適性,數(shù)據(jù)挖掘強調從數(shù)據(jù)中發(fā)現(xiàn)模式 n 算法算法 統(tǒng)計學強調模型,運算量居于次要地位統(tǒng)計學強調模型,運算量居于次要地位 數(shù)據(jù)挖掘的精華在于結果的未知性,強調探索性分析,與之對應的是算數(shù)據(jù)挖掘的精華在于結果的未知性,強調探索性分析,與之對應的是算 法而不是模型法而不是模型 n 方法論方法論 統(tǒng)計學:以數(shù)學為基礎,每種方法有嚴格的證明體系統(tǒng)計學:以數(shù)學為基礎,每種方法有嚴格的證明體系 數(shù)據(jù)挖掘:采用實驗方法,不具有很強的嚴謹性數(shù)據(jù)挖掘:采用實驗方法,不具有很強的嚴謹性 數(shù)據(jù)挖掘相對于統(tǒng)計學的特點 n 使用數(shù)據(jù)挖掘工具無須具備太專業(yè)的統(tǒng)計知識,處理大量的實際數(shù)據(jù)使用數(shù)據(jù)挖掘工具無須

15、具備太專業(yè)的統(tǒng)計知識,處理大量的實際數(shù)據(jù) 更有優(yōu)勢,使得數(shù)據(jù)挖掘人員可以集中精力在業(yè)務建模方面更有優(yōu)勢,使得數(shù)據(jù)挖掘人員可以集中精力在業(yè)務建模方面 n 數(shù)據(jù)挖掘從大型數(shù)據(jù)庫提取所需數(shù)據(jù),利用專屬計算機軟件進行分析,數(shù)據(jù)挖掘從大型數(shù)據(jù)庫提取所需數(shù)據(jù),利用專屬計算機軟件進行分析, 更能滿足企業(yè)的需求更能滿足企業(yè)的需求 n 從理論的角度來看,數(shù)據(jù)挖掘與統(tǒng)計學不同,其目的在于方便企業(yè)的從理論的角度來看,數(shù)據(jù)挖掘與統(tǒng)計學不同,其目的在于方便企業(yè)的 末端使用者應用,而非為統(tǒng)計學家提供檢驗工具末端使用者應用,而非為統(tǒng)計學家提供檢驗工具 報告內容 n 數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的基本概念 n 數(shù)據(jù)挖掘與統(tǒng)計分

16、析數(shù)據(jù)挖掘與統(tǒng)計分析 n 數(shù)據(jù)挖掘的基本算法數(shù)據(jù)挖掘的基本算法 n 數(shù)據(jù)挖掘實施方法論數(shù)據(jù)挖掘實施方法論 n 總結與討論總結與討論 n 數(shù)據(jù)挖掘的基本算法數(shù)據(jù)挖掘的基本算法 幾個基本概念 n 模型(模型(Model) vs 模式(模式(Pattern) 數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結構泛化(數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結構泛化(Generalize)到總體)到總體 (Population)上去)上去 模型:對數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的模型:對數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的 所有點,例如聚類分析所有點,例如聚

17、類分析 模式:對數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一模式:對數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一 個子集,例如關聯(lián)分析個子集,例如關聯(lián)分析 n 算法(算法(Algorithm):一個定義完備():一個定義完備(well-defined)的過程,它以數(shù)據(jù)作為)的過程,它以數(shù)據(jù)作為 輸入并產生模型或模式形式的輸出輸入并產生模型或模式形式的輸出 n 描述型挖掘(描述型挖掘(Descriptive) vs 預測型挖掘(預測型挖掘(Predictive) 描述型挖掘:對數(shù)據(jù)進行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征描述型挖掘:對數(shù)據(jù)進行概括,以方便的形式呈現(xiàn)

18、數(shù)據(jù)的重要特征 預測型挖掘:根據(jù)觀察到的對象特征值來預測它的其他特征值預測型挖掘:根據(jù)觀察到的對象特征值來預測它的其他特征值 描述型挖掘可以是目的,也可以是手段描述型挖掘可以是目的,也可以是手段 幾類基本的挖掘算法 n 關聯(lián)規(guī)則(模式、描述型)關聯(lián)規(guī)則(模式、描述型) 發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式 例如:例如:buy(x,”diapers”) buy(x,”beers”) 0.5%, 60% n 分類與預測(模型、預測型)分類與預測(模型、預測型) 發(fā)現(xiàn)能夠區(qū)分或預測目標變量(唯一的)的規(guī)則或者函數(shù)發(fā)現(xiàn)能夠區(qū)分或預測目標變量(唯一的)的規(guī)則或者函數(shù) 分類的目標變量一般是類別型的

19、,而預測則是數(shù)量型的,并不必然帶有任何時分類的目標變量一般是類別型的,而預測則是數(shù)量型的,并不必然帶有任何時 間延續(xù)型的暗示間延續(xù)型的暗示 例如:股票市值的預測,病人病情的判斷例如:股票市值的預測,病人病情的判斷 n 聚類(模型、描述型)聚類(模型、描述型) 對數(shù)據(jù)分組以形成新類,類標記是未知的對數(shù)據(jù)分組以形成新類,類標記是未知的 例如:市場細分例如:市場細分 n 孤立點探測(孤立點探測(Outlier Detection)(模式、預測型)(模式、預測型) 分析異?;蛟肼晹?shù)據(jù)的行為模式分析異?;蛟肼晹?shù)據(jù)的行為模式 例如:欺詐檢測例如:欺詐檢測 廣東發(fā)展銀行信用卡中心的數(shù)據(jù)挖掘模型 申請評分卡申

20、請評分卡 (分類模型、分類模型、Logistic回歸算法回歸算法) 計算申請信用卡的人在將來產生壞賬的概率計算申請信用卡的人在將來產生壞賬的概率 自變量是離散型變量自變量是離散型變量 評分需要進行標準化處理評分需要進行標準化處理 行為評分卡行為評分卡 (分類模型、分類模型、Logistic回歸算法回歸算法) 包括:拖欠、催收、銷售等包括:拖欠、催收、銷售等 自變量是連續(xù)型變量自變量是連續(xù)型變量 廣東移動數(shù)據(jù)挖掘項目中的數(shù)據(jù)挖掘算法 客戶流失客戶流失 (分類模型、分類模型、Logistic回歸算法回歸算法) 彩鈴彩鈴WAP購買傾向預測購買傾向預測 (分類模型、分類模型、Logistic回歸算法回

21、歸算法) 彩信增量銷售預測彩信增量銷售預測 (分類模型、分類模型、Logistic回歸算法回歸算法) 彩鈴用戶流失預測彩鈴用戶流失預測 (分類模型、分類模型、Logistic回歸算法回歸算法) 客戶價值增長預測客戶價值增長預測 (分類模型、分類模型、Logistic回歸算法回歸算法) 競爭對手流失預測競爭對手流失預測 (分類模型、分類模型、Logistic回歸算法回歸算法) 集團客戶分群集團客戶分群 (聚類模型、聚類模型、K-Means算法算法) 集團客戶級別打分集團客戶級別打分 (分類模型、分類模型、Logistic回歸算法回歸算法) 產品關聯(lián)分析產品關聯(lián)分析 (關聯(lián)規(guī)則關聯(lián)規(guī)則) 個人客戶

22、分群分析個人客戶分群分析 (聚類模型、聚類模型、K-Means算法算法) 集團客戶流失預警模型集團客戶流失預警模型 (AHP方法方法 + Logistic回歸算法回歸算法) 客戶分群客戶分群 (聚類模型、聚類模型、K-Means算法算法) 客戶流失客戶流失 (分類模型、分類模型、Logistic回歸算法回歸算法) 潛在用戶定位潛在用戶定位 (分類模型、分類模型、Logistic回歸算法回歸算法) 商城的交叉銷售商城的交叉銷售 (關聯(lián)規(guī)則關聯(lián)規(guī)則) 產品收入預測產品收入預測 (時間序列的預測方法)(時間序列的預測方法) 騰訊公司中的數(shù)據(jù)挖掘算法 分類問題的基本定義 n 給定一數(shù)據(jù)集合(訓練集)給

23、定一數(shù)據(jù)集合(訓練集) 數(shù)據(jù)記錄由一系列變量組成數(shù)據(jù)記錄由一系列變量組成 其中有一個變量是目標分類標簽其中有一個變量是目標分類標簽 n 尋找一模型,使目標分類變量值是其他變量值的一個函數(shù)尋找一模型,使目標分類變量值是其他變量值的一個函數(shù) n 利用上述函數(shù),一未知分類變量值的數(shù)據(jù)記錄能夠盡可能準確地被判定到某利用上述函數(shù),一未知分類變量值的數(shù)據(jù)記錄能夠盡可能準確地被判定到某 一類別中去一類別中去 一般會有另一獨立地數(shù)據(jù)集(測試集)用以驗證所構建分類函數(shù)的準一般會有另一獨立地數(shù)據(jù)集(測試集)用以驗證所構建分類函數(shù)的準 確性,避免過度擬合確性,避免過度擬合 分類過程示意 訓練集訓練集 分類學習分類學

24、習 訓練集訓練集 分類器分類器 IF rank = professor OR years 6 THEN tenured = yes Jef is YES! 回顧簡單的一元線性回歸問題 n y = b b0 + b b1x + u y稱為被解釋變量或者因變量,是一個稱為被解釋變量或者因變量,是一個連續(xù)變量連續(xù)變量 x稱為解釋變量或者自變量,是一個連續(xù)變量稱為解釋變量或者自變量,是一個連續(xù)變量 b b0 、b b1稱為回歸系數(shù)稱為回歸系數(shù) u是隨機誤差,一般假設服從標準正態(tài)分布是隨機誤差,一般假設服從標準正態(tài)分布 y x y = b0 + b1x + u . . . . . . . . Logis

25、tic回歸進行分類和預測 n LOGISTIC回歸是一種特殊的回歸模回歸是一種特殊的回歸模 型,與古典的線性回歸模型不同,型,與古典的線性回歸模型不同, 其響應變量(其響應變量(Response Variable)是)是 一分類變量(一分類變量(Categorical Variable) 而非連續(xù)變量(而非連續(xù)變量(Continuous Variable)。響應變量是一個二值化)。響應變量是一個二值化 的變量,通常以的變量,通常以10表示某一事件發(fā)表示某一事件發(fā) 生或者不發(fā)生。生或者不發(fā)生。 n 應用應用Logistic回歸得到的概率回歸得到的概率p通常表通常表 示在將來某段時間后某一事件發(fā)生

26、示在將來某段時間后某一事件發(fā)生 的概率。的概率。 Odds: 目標事件發(fā)生的數(shù)量目標事件發(fā)生的數(shù)量 / 非目標非目標 事件發(fā)生的數(shù)量事件發(fā)生的數(shù)量. Odds ratio= prob(目標事件目標事件)/prob(非非 目標事件目標事件)=p/(1-p) p = prob(目標事件目標事件) prob表示事件發(fā)生的概率表示事件發(fā)生的概率 Logit: log of odds ratio = log(p/(1-p) Logistic回歸回歸: 擬合下面的模型擬合下面的模型 logit=a0+a1*X1+ak*Xk p=prob(目標事目標事 件件)=exp(logit)/(1+exp(logit

27、) p的取值范圍的取值范圍: 0,1 nn nn xbxbb xbxbb e e p . . 110 110 1 p 流失類模型案例 n 建模目的:預測某一段時間之后客戶流失的概率。建模目的:預測某一段時間之后客戶流失的概率。 n 確定時間窗口:確定時間窗口: n 確定目標變量:定義在確定目標變量:定義在Data Window中正常而在中正常而在Forecast Window中流中流 失的客戶為失的客戶為0,而沒有流失的客戶為,而沒有流失的客戶為1。 n 選擇自變量:在電信的客戶流失模型中,我們一般使用下面幾種類型選擇自變量:在電信的客戶流失模型中,我們一般使用下面幾種類型 的變量。的變量。

28、客戶流失指標客戶流失指標 客戶信息數(shù)據(jù)(人口統(tǒng)計學數(shù)據(jù)、合同數(shù)據(jù))客戶信息數(shù)據(jù)(人口統(tǒng)計學數(shù)據(jù)、合同數(shù)據(jù)) 呼叫數(shù)據(jù)呼叫數(shù)據(jù) 計費和支持數(shù)據(jù)計費和支持數(shù)據(jù) 一些轉換之后得到的變量一些轉換之后得到的變量 其它數(shù)據(jù)其它數(shù)據(jù) Data WindowForecast WindowTime Lag MM-1M-2M-3MM-5M+1M+2 流失類模型案例 n 模型的評價模型的評價 Lift值值 R方方 ROC曲線曲線 K-S值值 n 模型的應用模型的應用 P值大的客戶具有更高的流失傾向值大的客戶具有更高的流失傾向 模型的評分分布模型的評分分布 劃定劃定Cut Off Line。對。對Cut Off Li

29、ne的劃定可以采用更多的市場數(shù)的劃定可以采用更多的市場數(shù) 據(jù)進行參考,如正確挽留一個客戶準備的平均收益和成本,錯誤據(jù)進行參考,如正確挽留一個客戶準備的平均收益和成本,錯誤 挽留一個客戶的平均成本,客戶流失的平均損失等。有了這些數(shù)挽留一個客戶的平均成本,客戶流失的平均損失等。有了這些數(shù) 據(jù)可以進一步使用貝葉斯方法建立數(shù)量化的分類模型,以確定對據(jù)可以進一步使用貝葉斯方法建立數(shù)量化的分類模型,以確定對 Cut Off Line的劃定。的劃定。 頻數(shù) 評分 0 10000 Cut Off Line 非流失 流失 分類中的決策樹(Decision Tree)歸納 n 決策樹決策樹 類似于流程圖的樹型結構

30、類似于流程圖的樹型結構 內部節(jié)點代表對某個屬性的一次測試內部節(jié)點代表對某個屬性的一次測試 分支代表測試的輸出結果分支代表測試的輸出結果 葉節(jié)點代表分類標簽或分布葉節(jié)點代表分類標簽或分布 n 決策樹的生成包括兩個階段決策樹的生成包括兩個階段 樹的創(chuàng)建樹的創(chuàng)建 首先首先, 所有訓練樣本都位于根節(jié)點所有訓練樣本都位于根節(jié)點 遞歸地基于選擇屬性來劃分樣本集遞歸地基于選擇屬性來劃分樣本集 樹的修剪樹的修剪 識別并刪除那些反映噪聲或孤立點的分支識別并刪除那些反映噪聲或孤立點的分支 n 應用決策樹應用決策樹: 對未知樣本進行分類對未知樣本進行分類 在決策樹上測試樣本的各個屬性值在決策樹上測試樣本的各個屬性值

31、 決策樹示意 age? overcast student?credit rating? noyesfair excellent 40 nonoyesyes yes 30.40 n 示例:是否購買計算機?示例:是否購買計算機? 決策樹在電信客戶流失問題中的應用實例 結論:ARPUB)=#AB/#N,表示,表示A和和B同時出現(xiàn)的概率。同時出現(xiàn)的概率。 n 期望可信度:期望可信度:Support(A)=#A/#N,表示,表示A出現(xiàn)的概率。出現(xiàn)的概率。 n 置信度:置信度:Confidence(A=B)=Support(A=B)/Support(B) n 改善度:改善度:Lift(A=B)=Confi

32、dence(A=B)/Support(B) 名稱名稱描述描述公式公式 支持度支持度X、Y同時出現(xiàn)的頻率同時出現(xiàn)的頻率 P(XY) 期望可信度期望可信度 Y出現(xiàn)的頻率出現(xiàn)的頻率 P(Y) 置信度置信度X出現(xiàn)的前提下,出現(xiàn)的前提下,Y出現(xiàn)的頻率出現(xiàn)的頻率P(Y|X) 改善度改善度 置信度對期望可信度的比值置信度對期望可信度的比值 P(Y|X)/P(Y) 關聯(lián)規(guī)則的度量 n 發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī) 則則 X Y Z 支持度支持度(support), s, 事務中包含事務中包含X & Y & Z的概率的概率 置信度置信度(confidence), c, 事

33、務中包含事務中包含X & Y的條件下的條件下, 包含包含Z的條件概率的條件概率 n令最小支持度為令最小支持度為50%, 50%, 最小置信度為最小置信度為50%, 50%, 則有則有 A A C (50%, 66.6%) C (50%, 66.6%) C C A (50%, 100%) A (50%, 100%) 顧客購買尿布顧客購買尿布 顧客購買兩者顧客購買兩者 顧客購買啤酒顧客購買啤酒 對支持度與置信度的批判 n 示例示例 總共總共50005000名學生名學生, , 其中其中 30003000人玩籃球人玩籃球 37503750人吃谷類食品人吃谷類食品 20002000人既玩籃球又吃谷類食品

34、人既玩籃球又吃谷類食品 play basketballplay basketball eat cerealeat cereal 40%, 66.7% 40%, 66.7% 是一個誤導規(guī)則是一個誤導規(guī)則, , 因因 為吃谷類食品的學生占學生總數(shù)的為吃谷類食品的學生占學生總數(shù)的75%, 75%, 比比66.7%66.7%更高更高 play basketballplay basketball not eat cerealnot eat cereal 20%, 33.3% 20%, 33.3% 其實是一個更精其實是一個更精 確的規(guī)則確的規(guī)則, , 盡管它的支持度和置信度都比較低盡管它的支持度和置信度都

35、比較低 關聯(lián)規(guī)則的應用 n 市場購物籃分析(市場購物籃分析(Market Basket Analysis) 例如一個事務是客戶的一個購物清單,同一客戶的兩份清單被認為是例如一個事務是客戶的一個購物清單,同一客戶的兩份清單被認為是 兩個不同的事務兩個不同的事務 數(shù)據(jù)項是所有可能陳列貨物的全集數(shù)據(jù)項是所有可能陳列貨物的全集 目標是發(fā)現(xiàn)同時出現(xiàn)的貨品組合間的關聯(lián)模式目標是發(fā)現(xiàn)同時出現(xiàn)的貨品組合間的關聯(lián)模式 應用:商品貨價設計、倉儲規(guī)劃、網(wǎng)頁布局、產品目錄設計等等應用:商品貨價設計、倉儲規(guī)劃、網(wǎng)頁布局、產品目錄設計等等 n 交叉銷售(交叉銷售(Cross Selling) 客戶依次購買不同產品的序列客

36、戶依次購買不同產品的序列 目標是發(fā)現(xiàn)在購買某一產品組合之后客戶可能購買的另一產品或服務目標是發(fā)現(xiàn)在購買某一產品組合之后客戶可能購買的另一產品或服務 應用:網(wǎng)絡故障分析、網(wǎng)站門戶設計等應用:網(wǎng)絡故障分析、網(wǎng)站門戶設計等 關聯(lián)規(guī)則的應用實例(手機郵箱精確營銷) 我們定義我們定義LIFT值大于值大于1的規(guī)則為強關聯(lián)規(guī)則。的規(guī)則為強關聯(lián)規(guī)則。 發(fā)現(xiàn)這樣的關聯(lián)規(guī)則是有價值,有意義的。發(fā)現(xiàn)這樣的關聯(lián)規(guī)則是有價值,有意義的。 關聯(lián)規(guī)則是基于統(tǒng)計方法發(fā)現(xiàn)的數(shù)據(jù)當中的內在規(guī)律,而這種規(guī)律在現(xiàn)實中是否有意義還關聯(lián)規(guī)則是基于統(tǒng)計方法發(fā)現(xiàn)的數(shù)據(jù)當中的內在規(guī)律,而這種規(guī)律在現(xiàn)實中是否有意義還 需要市場業(yè)務人員作進一步的

37、驗證。需要市場業(yè)務人員作進一步的驗證。 業(yè)務一業(yè)務二LSUPPORTRSUPPORTSUPPORTCONFIDENCELIFTZSCORE 彩鈴業(yè)務手機郵箱 0.07340.040320.03220.4386910.88021266.19541 夢網(wǎng)短信手機郵箱 0.670380.040320.040320.060141.4915740.52694 國內自動漫游手機郵箱 0.382530.040320.020370.053251.3206819.84956 本地普通通話(比例)手機郵箱 0.690050.040320.030590.044331.099458.32042 從算法到應用 廣東移動

38、數(shù)據(jù)挖掘項目的技術特點 n 幾種主要的數(shù)據(jù)挖掘技術都已經(jīng)得到廣泛的應用幾種主要的數(shù)據(jù)挖掘技術都已經(jīng)得到廣泛的應用 聚類分析聚類分析 關鍵規(guī)則關鍵規(guī)則 分類預測模型(決策樹,分類預測模型(決策樹,Logistic回歸)回歸) n 應用了數(shù)據(jù)挖掘技術之外的機器學習和統(tǒng)計建模技術應用了數(shù)據(jù)挖掘技術之外的機器學習和統(tǒng)計建模技術 KPI預測(混沌時間序列分解預測方法,預測(混沌時間序列分解預測方法,BP神經(jīng)網(wǎng)絡預測方法)神經(jīng)網(wǎng)絡預測方法) 集團客戶流失預警(層次分析法)集團客戶流失預警(層次分析法) 更多的數(shù)據(jù)分析方法更多的數(shù)據(jù)分析方法 n 新的挖掘課題更側重于高級數(shù)量分析新的挖掘課題更側重于高級數(shù)量分

39、析 客戶生命周期(管理營銷學的實踐,多模型支撐的分析過程)客戶生命周期(管理營銷學的實踐,多模型支撐的分析過程) 響應模型(市場分析模型與數(shù)據(jù)挖掘模型的應用結合)響應模型(市場分析模型與數(shù)據(jù)挖掘模型的應用結合) 運籌學模型(應用于經(jīng)營規(guī)劃的優(yōu)化)運籌學模型(應用于經(jīng)營規(guī)劃的優(yōu)化) 報告內容 n 數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的基本概念 n 數(shù)據(jù)挖掘與統(tǒng)計分析數(shù)據(jù)挖掘與統(tǒng)計分析 n 數(shù)據(jù)挖掘的基本算法數(shù)據(jù)挖掘的基本算法 n 數(shù)據(jù)挖掘實施方法論數(shù)據(jù)挖掘實施方法論 n 總結與討論總結與討論 n 數(shù)據(jù)挖掘實施方法論數(shù)據(jù)挖掘實施方法論 數(shù)據(jù)挖掘過程模型(DM Process Model) n 用以管理并指導

40、用以管理并指導Data Miner有效、準確開展數(shù)據(jù)挖掘工作以期獲得最佳挖掘有效、準確開展數(shù)據(jù)挖掘工作以期獲得最佳挖掘 成果的一系列工作步驟的規(guī)范標準。成果的一系列工作步驟的規(guī)范標準。 由廠商提出的由廠商提出的 SPSS的的5A(Assess, Access, Analysis, Act, Automat) SAS的的SEMMA(Sample, Explore, Modify, Model, Assess) MICROSOFE的的OLEDB for DM 由行業(yè)組織提出的由行業(yè)組織提出的 CRISP-DM(Cross Industry Standard Process for DM) CRISP-DM起源于起源于1998年,當時年,當時NCR、Clementine(1998年為年為SPSS收購)、收購)、 OHRA和和Daimler-Benz(現(xiàn)為(現(xiàn)為Daimler-Chrysler)的聯(lián)合項目組提出)的聯(lián)合項目組提出 CRISP-DM的六個階段的六個階段 TERADATA的挖掘方法論 Scope Business Problem 度量度量數(shù)稱勝數(shù)稱勝 Teradata Data Warehou

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論