版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘基本概念與算法介紹數(shù)據(jù)挖掘基本概念與算法介紹TERADATA2007年5月2 報告內(nèi)容n 數(shù)據(jù)挖掘的基本概念n 數(shù)據(jù)挖掘與統(tǒng)計分析n 數(shù)據(jù)挖掘的基本算法n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ搉 總結(jié)與討論n 數(shù)據(jù)挖掘的基本概念3 改變未來世界的十大新興技術(shù)nTechnology Review(麻省理工學(xué)院2002年1月出刊) 機器與人腦的接口 塑膠晶體管 數(shù)據(jù)挖掘(Data Mining) 數(shù)字權(quán)利管理 生物測定學(xué)(Biometrics) 語言識別處理 微光學(xué)技術(shù)(Microphotonics) 解開程序代碼(Untangling Code) 機器人設(shè)計 微應(yīng)用流體學(xué)(Microfluidics)4
2、什么是數(shù)據(jù)挖掘?DataInformationKnowledgeWisdomn存在太多數(shù)據(jù)挖掘的定義,但基本上有這樣一種描述結(jié)構(gòu) To find / discover / extract / dredge / harvest 、 Interesting / novel / useful / implicit / actable / meaningful 、 Information / knowledge / patterns / trends / rules / anomalies 、 In massive data / large data set / large database / da
3、ta warehouse 、Data + contextInformation + rulesKnowledge + experience5 為什么會出現(xiàn)數(shù)據(jù)挖掘?n數(shù)據(jù)爆炸性增長是數(shù)據(jù)挖掘技術(shù)應(yīng)運而生的根本原因。 只見樹木,不見森林(Drowning in data but starving for information) 計算復(fù)雜度 數(shù)據(jù)管理問題 數(shù)據(jù)類型的多樣性處理大容量數(shù)據(jù)是數(shù)據(jù)挖掘技術(shù)區(qū)別于其他數(shù)據(jù)分析方法的唯一標(biāo)志嗎?6 其他數(shù)據(jù)分析方法:統(tǒng)計學(xué)n從處理數(shù)據(jù)的角度看、 數(shù)據(jù)規(guī)模不同 數(shù)據(jù)來源不同:觀測數(shù)據(jù)(Secondary Analysis) VS 試驗數(shù)據(jù)(Primary A
4、nalysis) 數(shù)據(jù)類型不同(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù))n從分析思想的角度看 更關(guān)注實證性分析(Empirical Analysis)而非探索性分析(Exploratory Analysis) 更關(guān)注模型(Model)而非算法(Algorithm)n但二者具有相當(dāng)密切的聯(lián)系 從數(shù)據(jù)分析的角度,統(tǒng)計學(xué)現(xiàn)在是且仍將是數(shù)據(jù)挖掘最重要的技術(shù)支撐和思想源泉 更加深入的滲透和交叉(如探索性數(shù)據(jù)分析,EDA)數(shù)據(jù)挖掘是數(shù)據(jù)驅(qū)動的探索性分析 !7 其他數(shù)據(jù)分析方法:商業(yè)智能nE.F.Codd的數(shù)據(jù)分析模型 絕對模型(Categorical Model):依據(jù)預(yù)定義路徑尋找原因,如查詢 解釋模型
5、(Exegetical Model):依據(jù)多層次路徑尋找原因,如多維分析 思考模型(Contemplative Model):參數(shù)化路徑,如場景分析 公式模型(Formulaic Model):模型化路徑,如數(shù)據(jù)挖掘ReportingAd Hoc QueriesPredictive ModelingWhat happened ?Why did it happen ?What will happen ?ROI應(yīng)用復(fù)雜性應(yīng)用復(fù)雜性Stage 3Stage 2Stage 1Human DiscoveryMachine-assisted Discovery現(xiàn)象 模型 誤差數(shù)據(jù)挖掘?qū)ふ业氖悄P?!8 數(shù)
6、據(jù)挖掘是一個過程- “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996)9 數(shù)據(jù)挖掘過程中的數(shù)據(jù)預(yù)處理n數(shù)據(jù)清洗 填充缺失值, 修均噪聲數(shù)據(jù), 識別或刪除孤立點, 并解決數(shù)據(jù)不一致問題 主要分析方法:分箱(Binning)、聚類、回歸n數(shù)據(jù)集成 多個數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成n數(shù)據(jù)變換 規(guī)范化與匯總n數(shù)據(jù)簡化 減少數(shù)據(jù)量的同時, 還可以得到相同或相近的分析結(jié)果 主要分析方法:抽樣、主成分分析n數(shù)據(jù)離散化 數(shù)據(jù)簡化的一部分, 但非常重要 (尤其對于數(shù)值型數(shù)據(jù)
7、來說)10 數(shù)據(jù)挖掘過程中的數(shù)據(jù)探索n探索性數(shù)據(jù)分析(Exploratory Data Analysis, EDA) 探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系 對數(shù)據(jù)集沒有各種嚴(yán)格假定 “玩”數(shù)據(jù)n主要任務(wù) 數(shù)據(jù)可視化(a picture is worth a thousand words) 殘差分析(數(shù)據(jù)擬合 + 殘差) 數(shù)據(jù)的重新表達(什么樣的尺度對數(shù)抑或平方跟會簡化分析?) 方法的耐抗性(對數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值)n常見方法 統(tǒng)計量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等 統(tǒng)計圖,如餅圖、直方圖、散點圖、箱尾圖等 模型,如聚類11 什么不是數(shù)據(jù)挖掘?n
8、定量分析(Quantitative Analysis)的需要存在企業(yè)管理運行的各個側(cè)面或環(huán)節(jié),但并非所有的定量分析問題都可以歸結(jié)到數(shù)據(jù)挖掘范疇的問題。 簡單的報表、圖表及多維分析仍是日常分析工作的主要內(nèi)容 小樣本數(shù)據(jù)的分析傳統(tǒng)統(tǒng)計分析方法更成熟有效,如趨勢預(yù)測 某些特定業(yè)務(wù)問題無法用數(shù)據(jù)挖掘算法加以解決,例如 資源最優(yōu)配置問題是個運籌學(xué)問題 某些物流管理問題或者供應(yīng)鏈管理問題是個隨機規(guī)劃問題 營銷預(yù)演本質(zhì)是個系統(tǒng)仿真問題12 報告內(nèi)容n 數(shù)據(jù)挖掘的基本概念n 數(shù)據(jù)挖掘與統(tǒng)計分析n 數(shù)據(jù)挖掘的基本算法n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ搉 總結(jié)與討論n 數(shù)據(jù)挖掘與統(tǒng)計分析13 統(tǒng)計學(xué)與數(shù)據(jù)挖掘的聯(lián)系n從處理數(shù)
9、據(jù)數(shù)據(jù)挖掘中采用了大量統(tǒng)計學(xué)的思想、方法和工具 聚類分析(無監(jiān)督學(xué)習(xí)過程,統(tǒng)計分析中的主要技術(shù)) K-Means Self Organizing Map (SOM) 數(shù)據(jù)分類(有監(jiān)督學(xué)習(xí)過程) 統(tǒng)計分類技術(shù):距離判別,費雪判別,貝葉斯判別 數(shù)據(jù)挖掘中的分類技術(shù) :決策樹,神經(jīng)網(wǎng)絡(luò) 其他方法 相關(guān)分析 主成分分析 回歸分析 序列分析14 統(tǒng)計學(xué)與數(shù)據(jù)挖掘的區(qū)別n 數(shù)據(jù) 樣本數(shù)量不同(在統(tǒng)計學(xué)中樣本數(shù)量大于30,則成為大樣本) 數(shù)據(jù)來源和質(zhì)量不同 數(shù)據(jù)挖掘既可以處理結(jié)構(gòu)化數(shù)據(jù),也可以處理非結(jié)構(gòu)化和異型數(shù)據(jù)n 方法 數(shù)據(jù)挖掘的前提是占有大量數(shù)據(jù),統(tǒng)計中的實驗設(shè)計、抽樣設(shè)計并不適用 有些數(shù)據(jù)挖掘的分析
10、方法是統(tǒng)計學(xué)中沒有的,如強調(diào)實時分析 統(tǒng)計分析方法在對大規(guī)模數(shù)據(jù)處理時占用系統(tǒng)的資源和時間太多,不適宜采用,因此數(shù)據(jù)挖掘大量采用神經(jīng)網(wǎng)絡(luò)、遺傳算法等人工智能方法n 模型(模式) 模型(統(tǒng)計學(xué)) VS 模式(數(shù)據(jù)挖掘) 統(tǒng)計建模強調(diào)模型的普適性,數(shù)據(jù)挖掘強調(diào)從數(shù)據(jù)中發(fā)現(xiàn)模式n 算法 統(tǒng)計學(xué)強調(diào)模型,運算量居于次要地位 數(shù)據(jù)挖掘的精華在于結(jié)果的未知性,強調(diào)探索性分析,與之對應(yīng)的是算法而不是模型n 方法論 統(tǒng)計學(xué):以數(shù)學(xué)為基礎(chǔ),每種方法有嚴(yán)格的證明體系 數(shù)據(jù)挖掘:采用實驗方法,不具有很強的嚴(yán)謹性15 數(shù)據(jù)挖掘相對于統(tǒng)計學(xué)的特點n使用數(shù)據(jù)挖掘工具無須具備太專業(yè)的統(tǒng)計知識,處理大量的實際數(shù)據(jù)更有優(yōu)勢,使
11、得數(shù)據(jù)挖掘人員可以集中精力在業(yè)務(wù)建模方面n數(shù)據(jù)挖掘從大型數(shù)據(jù)庫提取所需數(shù)據(jù),利用專屬計算機軟件進行分析,更能滿足企業(yè)的需求 n從理論的角度來看,數(shù)據(jù)挖掘與統(tǒng)計學(xué)不同,其目的在于方便企業(yè)的末端使用者應(yīng)用,而非為統(tǒng)計學(xué)家提供檢驗工具 16 報告內(nèi)容n 數(shù)據(jù)挖掘的基本概念n 數(shù)據(jù)挖掘與統(tǒng)計分析n 數(shù)據(jù)挖掘的基本算法n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ搉 總結(jié)與討論n 數(shù)據(jù)挖掘的基本算法17 幾個基本概念n模型(Model) vs 模式(Pattern) 數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化(Generalize)到總體(Population)上去 模型:對數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用
12、于數(shù)據(jù)空間中的所有點,例如聚類分析 模式:對數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個子集,例如關(guān)聯(lián)分析n算法(Algorithm):一個定義完備(well-defined)的過程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出n描述型挖掘(Descriptive) vs 預(yù)測型挖掘(Predictive) 描述型挖掘:對數(shù)據(jù)進行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征 預(yù)測型挖掘:根據(jù)觀察到的對象特征值來預(yù)測它的其他特征值 描述型挖掘可以是目的,也可以是手段18 幾類基本的挖掘算法n關(guān)聯(lián)規(guī)則(模式、描述型) 發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式 例如:buy(x,”diapers”) buy(
13、x,”beers”) 0.5%, 60%n分類與預(yù)測(模型、預(yù)測型) 發(fā)現(xiàn)能夠區(qū)分或預(yù)測目標(biāo)變量(唯一的)的規(guī)則或者函數(shù) 分類的目標(biāo)變量一般是范疇型的,而預(yù)測則是數(shù)量型的,并不必然帶有任何時間延續(xù)型的暗示 例如:股票市值的預(yù)測,病人病情的判斷n聚類(模型、描述型) 對數(shù)據(jù)分組以形成新類,類標(biāo)記是未知的 例如:市場細分n孤立點探測(Outlier Detection)(模式、預(yù)測型) 分析異常或噪聲數(shù)據(jù)的行為模式 例如:欺詐檢測19 廣東移動數(shù)據(jù)挖掘項目中的數(shù)據(jù)挖掘算法 客戶流失 (分類模型、Logistic回歸算法) 彩鈴WAP購買傾向預(yù)測 (分類模型、Logistic回歸算法) 彩信增量銷售
14、預(yù)測 (分類模型、Logistic回歸算法) 彩鈴用戶流失預(yù)測 (分類模型、Logistic回歸算法) 客戶價值增長預(yù)測 (分類模型、Logistic回歸算法) 競爭對手流失預(yù)測 (分類模型、Logistic回歸算法) 集團客戶分群 (聚類模型、K-Means算法) 集團客戶級別打分 (分類模型、Logistic回歸算法) 產(chǎn)品關(guān)聯(lián)分析 (關(guān)聯(lián)規(guī)則) 個人客戶分群分析 (聚類模型、K-Means算法) 集團客戶流失預(yù)警模型 (AHP方法 + Logistic回歸算法)20 分類問題的基本定義n給定一數(shù)據(jù)集合(訓(xùn)練集) 數(shù)據(jù)記錄由一系列變量組成 其中有一個變量是目標(biāo)分類標(biāo)簽n尋找一模型,使目標(biāo)分
15、類變量值是其他變量值的一個函數(shù)n利用上述函數(shù),一未知分類變量值的數(shù)據(jù)記錄能夠盡可能準(zhǔn)確地被判定到某一類別中去 一般會有另一獨立地數(shù)據(jù)集(測試集)用以驗證所構(gòu)建分類函數(shù)的準(zhǔn)確性,避免過度擬合21 分類過程示意訓(xùn)練集訓(xùn)練集分類學(xué)習(xí)分類學(xué)習(xí)訓(xùn)練集訓(xùn)練集分類器分類器IF rank = professorOR years 6THEN tenured = yesJef is YES!22 先回顧簡單的二元線性回歸問題n y = b0 + b1x + u y稱為被解釋變量或者因變量,是一個連續(xù)變量 X稱為解釋變量或者自變量,是一個連續(xù)變量 b0 、b1稱為回歸系數(shù) u是隨機誤差,一般假設(shè)服從標(biāo)準(zhǔn)正態(tài)分布yx
16、y = b0 + b1x + u.23 Logistic回歸進行分類和預(yù)測n LOGISTIC回歸是一種特殊的回歸模型,與古典的線性回歸模型不同,其響應(yīng)變量(Response Variable)是一分類變量(Categorical Variable)而非連續(xù)變量(Continuous Variable)。響應(yīng)變量是一個二值化的變量,通常以10表示某一事件發(fā)生或者不發(fā)生。n 應(yīng)用Logistic回歸得到的概率p通常表示在將來某段時間后某一事件發(fā)生的概率。 Odds: 目標(biāo)事件發(fā)生的數(shù)量 / 非目標(biāo)事件發(fā)生的數(shù)量. Odds ratio= prob(目標(biāo)事件)/prob(非目標(biāo)事件)=p/(1-p
17、) p = prob(目標(biāo)事件) prob表示事件發(fā)生的概率 Logit: log of odds ratio = log(p/(1-p) Logistic回歸: 擬合下面的模型 logit=a0+a1*X1+ak*Xk p=prob(目標(biāo)事件)=exp(logit)/(1+exp(logit) p的取值范圍: 0,1nnnnxbxbbxbxbbeep.1101101p24 流失類模型案例n 建模目的:預(yù)測某一段時間之后客戶流失的概率。n 確定時間窗口:n 確定目標(biāo)變量:定義在Data Window中正常而在Forecast Window中流失的客戶為0,而沒有流失的客戶為1。n 選擇自變量:
18、在電信的客戶流失模型中,我們一般使用下面幾種類型的變量。 客戶流失指標(biāo) 客戶信息數(shù)據(jù)(人口統(tǒng)計學(xué)數(shù)據(jù)、合同數(shù)據(jù)) 呼叫數(shù)據(jù) 計費和支持數(shù)據(jù) 一些轉(zhuǎn)換之后得到的變量 其它數(shù)據(jù)Data WindowForecast WindowTime LagMM-1M-2M-3MM-5M+1M+225 流失類模型案例n 模型的評價 Lift值 R方 ROC曲線 K-S值n 模型的應(yīng)用 P值大的客戶具有更高的流失傾向 模型的評分分布 劃定Cut Off Line。對Cut Off Line的劃定可以采用更多的市場數(shù)據(jù)進行參考,如正確挽留一個客戶準(zhǔn)備的平均收益和成本,錯誤挽留一個客戶的平均成本,客戶流失的平均損失等
19、。有了這些數(shù)據(jù)可以進一步使用貝葉斯方法建立數(shù)量化的分類模型,以確定對Cut Off Line的劃定。頻數(shù)評分0 10000Cut Off Line非流失流失26 分類中的決策樹(Decision Tree)歸納n決策樹 類似于流程圖的樹型結(jié)構(gòu) 內(nèi)部節(jié)點代表對某個屬性的一次測試 分支代表測試的輸出結(jié)果 葉節(jié)點代表分類標(biāo)簽或分布n決策樹的生成包括兩個階段 樹的創(chuàng)建首先, 所有訓(xùn)練樣本都位于根節(jié)點遞歸地基于選擇屬性來劃分樣本集 樹的修剪識別并刪除那些反映噪聲或孤立點的分支n應(yīng)用決策樹: 對未知樣本進行分類 在決策樹上測試樣本的各個屬性值27 決策樹示意age?overcaststudent?cred
20、it rating?noyesfairexcellent40nonoyesyesyes30.40n示例:是否購買計算機? 28 決策樹在電信客戶流失問題中的應(yīng)用實例 結(jié)論:結(jié)論:ARPU 聚類的基本概念n基本定義 將數(shù)據(jù)對象集劃分成事先未知的分組或類別 聚類的原則:類內(nèi)相似度高,類間相似度低 相似度一般為某種距離函數(shù)D(i,j) 聚類既可以作為獨立分析工具考察數(shù)據(jù)分布結(jié)構(gòu),也可以作為其他分析方法的預(yù)處理步驟 很不幸,對聚類結(jié)果的評價一般都是主觀的n基本分類 將數(shù)據(jù)對象集劃分成事先未知的分組或類別30 聚類示意n 基于歐氏距離的三維空間中的聚類n 基于質(zhì)心的聚類算法(K-Means)|(|),(
21、222jzizjyiyjxixjidA1A2B1xyz31 個人客戶分群示例n 個人客戶分群 更好地了解客戶的手段 提高客戶的管理和溝通能力 提升客戶價值Customer ExpenditureCustomer TenureHighLowShortLongn 分群是根據(jù)客戶的關(guān)鍵屬性將客戶分成不同的組別,要求做到 組間差異化最大 組內(nèi)相似性最大32 關(guān)聯(lián)規(guī)則的基本概念n基本定義 給定(1)事務(wù)數(shù)據(jù)集(2)每個事務(wù)是數(shù)據(jù)項的集合,試圖發(fā)現(xiàn)項集中的頻繁模式或關(guān)聯(lián)關(guān)系 所謂頻繁模式或者關(guān)聯(lián)規(guī)則就是一個具有“A B”形式的邏輯蘊涵式 頻繁模式并不必然蘊涵著因果關(guān)系或相關(guān)關(guān)系! 算法實現(xiàn)基本上基于APR
22、IORI法則:頻繁項集的所有非空子集一定也是頻繁(Frequent)的n基本分類 布爾關(guān)聯(lián)規(guī)則 vs 定量關(guān)聯(lián)規(guī)則 buy(x,”diapers”) buy(x,”beers”) Age(x,”30.39”) income(x,”42k.48k”) buy(x,”PC”) 單維關(guān)聯(lián)規(guī)則 vs 多維關(guān)聯(lián)規(guī)則 單層關(guān)聯(lián)規(guī)則 vs 多層關(guān)聯(lián)規(guī)則 Age(x,”30.39”) income(x,”42k.48k”) buy(x,”IBM PC”) 序列模式(Sequence Pattern) 數(shù)據(jù)項是一個包含時間標(biāo)簽的序偶item(i),t33 關(guān)聯(lián)規(guī)則的量度n支持度:Support(A=B)=#AB
23、/#N,表示A和B同時出現(xiàn)的概率。n期望可信度:Support(A)=#A/#N,表示A出現(xiàn)的概率。n置信度:Confidence(A=B)=Support(A=B)/Support(B)n改善度:Lift(A=B)=Confidence(A=B)/Support(B)名稱描述公式支持度X、Y同時出現(xiàn)的頻率 P(XY) 期望可信度 Y出現(xiàn)的頻率 P(Y) 置信度X出現(xiàn)的前提下,Y出現(xiàn)的頻率P(Y|X) 改善度 置信度對期望可信度的比值 P(Y|X)/P(Y) 34 關(guān)聯(lián)規(guī)則的度量n發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則 X Y Z 支持度(support), s, 事務(wù)中包含X & Y & Z的
24、概率 置信度(confidence), c, 事務(wù)中包含X & Y的條件下, 包含Z的條件概率n令最小支持度為50%, 最小置信度為50%, 則有A C (50%, 66.6%)C A (50%, 100%)顧客購買尿布顧客購買尿布顧客購買兩者顧客購買兩者顧客購買啤酒顧客購買啤酒35 對支持度與置信度的批判n示例 總共5000名學(xué)生, 其中 3000人玩籃球 3750人吃谷類食品 2000人既玩籃球又吃谷類食品play basketball eat cereal 40%, 66.7% 是一個誤導(dǎo)規(guī)則, 因為吃谷類食品的學(xué)生占學(xué)生總數(shù)的75%, 比66.7%更高play basketball n
25、ot eat cereal 20%, 33.3% 其實是一個更精確的規(guī)則, 盡管它的支持度和置信度都比較低36 關(guān)聯(lián)規(guī)則的應(yīng)用n市場購物籃分析(Market Basket Analysis) 例如一個事務(wù)是客戶的一個購物清單,同一客戶的兩份清單被認為是兩個不同的事務(wù) 數(shù)據(jù)項是所有可能陳列貨物的全集 目標(biāo)是發(fā)現(xiàn)同時出現(xiàn)的貨品組合間的關(guān)聯(lián)模式 應(yīng)用:商品貨價設(shè)計、倉儲規(guī)劃、網(wǎng)頁布局、產(chǎn)品目錄設(shè)計等等n交叉銷售(Cross Selling) 客戶依次購買不同產(chǎn)品的序列 目標(biāo)是發(fā)現(xiàn)在購買某一產(chǎn)品組合之后客戶可能購買的另一產(chǎn)品或服務(wù) 應(yīng)用:網(wǎng)絡(luò)故障分析、網(wǎng)站門戶設(shè)計等37 關(guān)聯(lián)規(guī)則的應(yīng)用實例 我們定義L
26、IFT值大于1的規(guī)則為強關(guān)聯(lián)規(guī)則。 發(fā)現(xiàn)這樣的關(guān)聯(lián)規(guī)則是有價值,有意義的。 關(guān)聯(lián)規(guī)則是基于統(tǒng)計方法發(fā)現(xiàn)的數(shù)據(jù)當(dāng)中的內(nèi)在規(guī)律,而這種規(guī)律在現(xiàn)實中是否有意義還需要市場業(yè)務(wù)人員作進一步的驗證。業(yè)務(wù)一業(yè)務(wù)一業(yè)務(wù)二業(yè)務(wù)二LSUPPORTRSUPPORTSUPPORTCONFIDENCELIFTZSCORE彩鈴業(yè)務(wù)手機郵箱0.07340.040320.03220.4386910.88021266.19541夢網(wǎng)短信手機郵箱0.670380.040320.040320.060141.4915740.52694國內(nèi)自動漫游手機郵箱0.382530.040320.020370.053251.3206819.84
27、956本地普通通話(比例)手機郵箱0.690050.040320.030590.044331.099458.3204238 從算法到應(yīng)用39 廣東移動數(shù)據(jù)挖掘項目的技術(shù)特點n幾種主要的數(shù)據(jù)挖掘技術(shù)都已經(jīng)得到廣泛的應(yīng)用 聚類分析 關(guān)鍵規(guī)則 分類預(yù)測模型(決策樹,Logistic回歸)n應(yīng)用了數(shù)據(jù)挖掘技術(shù)之外的機器學(xué)習(xí)和統(tǒng)計建模技術(shù) KPI預(yù)測(混沌時間序列分解預(yù)測方法,BP神經(jīng)網(wǎng)絡(luò)預(yù)測方法) 集團客戶流失預(yù)警(層次分析法) 更多的數(shù)據(jù)分析方法n新的挖掘課題更側(cè)重于高級數(shù)量分析 客戶生命周期(管理營銷學(xué)的實踐,多模型支撐的分析過程) 響應(yīng)模型(市場分析模型與數(shù)據(jù)挖掘模型的應(yīng)用結(jié)合) 運籌學(xué)模型(應(yīng)用于經(jīng)營規(guī)劃的優(yōu)化)40 報告內(nèi)容n 數(shù)據(jù)挖掘的基本概念n 數(shù)據(jù)挖掘與統(tǒng)計分析n 數(shù)據(jù)挖掘的基本算法n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ搉 總結(jié)與討論n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?1 數(shù)據(jù)挖掘過程模型(DM Process Model)n用以管理并指導(dǎo)Data Miner有效、準(zhǔn)確開展數(shù)據(jù)挖掘工作以期獲得最佳挖掘成果的一系列工作步驟的規(guī)范標(biāo)準(zhǔn)。 由廠商提出的 SPSS的5A(Assess, Access, Analysis, Act, Automat) SAS的SEMMA(Sample, Explore, Modify, Model,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度新型公寓托管出租合同范本3篇
- 二零二五年度智能廣告牌匾技術(shù)研發(fā)與應(yīng)用合同3篇
- 2025年度校園體育設(shè)施租賃管理服務(wù)合同3篇
- 二零二五年度服務(wù)貿(mào)易統(tǒng)計與分析合同3篇
- 二零二五年份白酒行業(yè)創(chuàng)新技術(shù)研發(fā)與應(yīng)用合同3篇
- 二零二五年度化妝品店會員折扣合同3篇
- 英語ai課程設(shè)計
- 通源課程設(shè)計哪個簡單
- 二零二五年度智慧教育項目技術(shù)服務(wù)費合同模板3篇
- 二零二五年度歷史文化名城保護建設(shè)項目合同補充條款3篇
- 聲光影的內(nèi)心感動:電影視聽語言學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 讀圖講圖匯報模板
- 建筑工程資金計劃
- 機電一體化設(shè)備組裝與調(diào)試電子教案
- GB∕T 16508.8-2022 鍋殼鍋爐 第8部分:運行
- 《新聞采訪寫作》課程思政優(yōu)秀教學(xué)案例(一等獎)
- 道路下穿高速公路安全安全評價
- 緊密型縣域醫(yī)共體信息化建設(shè)指南及評價標(biāo)準(zhǔn)
- 竣工驗收程序流程圖
- 盤拉機操作手冊新
- YY∕T 0314-2021 一次性使用人體靜脈血樣采集容器
評論
0/150
提交評論