![工學(xué)騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī)-挖掘決勝千里課件_第1頁](http://file4.renrendoc.com/view/f5e3aee7f6a68dd81af8b67353e1af34/f5e3aee7f6a68dd81af8b67353e1af341.gif)
![工學(xué)騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī)-挖掘決勝千里課件_第2頁](http://file4.renrendoc.com/view/f5e3aee7f6a68dd81af8b67353e1af34/f5e3aee7f6a68dd81af8b67353e1af342.gif)
![工學(xué)騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī)-挖掘決勝千里課件_第3頁](http://file4.renrendoc.com/view/f5e3aee7f6a68dd81af8b67353e1af34/f5e3aee7f6a68dd81af8b67353e1af343.gif)
![工學(xué)騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī)-挖掘決勝千里課件_第4頁](http://file4.renrendoc.com/view/f5e3aee7f6a68dd81af8b67353e1af34/f5e3aee7f6a68dd81af8b67353e1af344.gif)
![工學(xué)騰訊大講堂59-數(shù)據(jù)蘊(yùn)含商機(jī)-挖掘決勝千里課件_第5頁](http://file4.renrendoc.com/view/f5e3aee7f6a68dd81af8b67353e1af34/f5e3aee7f6a68dd81af8b67353e1af345.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
騰訊大講堂第五十九期研發(fā)管理部大講堂主頁:/class與講師互動(dòng):/group/class騰訊大講堂第五十九期研發(fā)管理部大講堂主頁:http:1數(shù)據(jù)蘊(yùn)含商機(jī),挖掘決勝千里騰訊研究院數(shù)據(jù)分析研究室SimonJiang/江宇聞2009-02-24數(shù)據(jù)蘊(yùn)含商機(jī),挖掘決勝千里騰訊研究院數(shù)據(jù)分析研究室2Agenda數(shù)據(jù)挖掘是什么?1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享3心得與總結(jié)4Agenda數(shù)據(jù)挖掘是什么?1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享33從運(yùn)籌帷幄到?jīng)Q勝千里…舌戰(zhàn)群儒草船借箭巧借東風(fēng)火燒赤壁赤壁懷古蘇軾……羽扇綸巾談笑間檣櫓灰飛煙滅......從運(yùn)籌帷幄到?jīng)Q勝千里…舌戰(zhàn)群儒草船借箭巧借東風(fēng)火燒赤壁赤壁懷4觀日月之行,察天地之變風(fēng)雷電雨云云多會(huì)下雨刮風(fēng)會(huì)下雨下雨會(huì)閃電閃電會(huì)打雷……換成它呢???觀日月之行,察天地之變風(fēng)雷電雨云云多會(huì)下雨換成它呢???5數(shù)據(jù)爆炸的時(shí)代DataMining,circa1963
IBM7090
600cases“Machinestoragelimitationsrestrictedthetotalnumberofvariableswhichcouldbeconsideredatonetimeto25.”數(shù)據(jù)爆炸的時(shí)代DataMining,circa19636數(shù)據(jù)挖掘是……DataInformationKnowledgeWisdomTofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、Data+contextInformation+rulesKnowledge+experience數(shù)據(jù)挖掘是……DataInformationKnowledg7多學(xué)科的融合DatabasesStatisticsPatternRecognitionKDDMachineLearningAINeurocomputingDataMining多學(xué)科的融合DatabasesStatisticsPatte8Agenda數(shù)據(jù)挖掘是什么?1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享3心得與總結(jié)4Agenda數(shù)據(jù)挖掘是什么?1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享39幾個(gè)基本概念模型(Model)vs模式(Pattern)數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化(Generalize)到總體(Population)上去模型:對數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的所有點(diǎn),例如聚類分析模式:對數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個(gè)子集,例如關(guān)聯(lián)分析算法(Algorithm):一個(gè)定義完備(well-defined)的過程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出描述型挖掘(Descriptive)vs預(yù)測型挖掘(Predictive)描述型挖掘:對數(shù)據(jù)進(jìn)行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征預(yù)測型挖掘:根據(jù)觀察到的對象特征值來預(yù)測它的其他特征值描述型挖掘可以是目的,也可以是手段幾個(gè)基本概念模型(Model)vs模式(Pattern)10數(shù)據(jù)挖掘是一個(gè)過程“fromdataminingtoknowledgediscoveryindatabase”.U.fayyad,G.P.ShapiroandP.Smyth(1996)數(shù)據(jù)挖掘是一個(gè)過程“fromdataminingto11數(shù)據(jù)挖掘方法論CRISP_DM(CrossIndustryStandardProcessforDM)1998年,由NCR、Clementine、OHRA和Daimler-Benz的聯(lián)合項(xiàng)目組提出SEMMASAS公司提出的方法Sample,Explore,Modify,Model,Assess在戰(zhàn)略上使用Crisp_DM方法論,在戰(zhàn)術(shù)上應(yīng)用SEMMA方法論數(shù)據(jù)挖掘方法論CRISP_DM(CrossIndustr12工欲善其事必先利其器數(shù)據(jù)清洗填充缺失值,修均噪聲數(shù)據(jù),識別或刪除孤立點(diǎn),并解決數(shù)據(jù)不一致問題主要分析方法:分箱(Binning)、聚類、回歸數(shù)據(jù)集成多個(gè)數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成數(shù)據(jù)變換規(guī)范化與匯總數(shù)據(jù)簡化減少數(shù)據(jù)量的同時(shí),還可以得到相同或相近的分析結(jié)果主要分析方法:抽樣、主成分分析數(shù)據(jù)離散化數(shù)據(jù)簡化的一部分,但非常重要(尤其對于數(shù)值型數(shù)據(jù)來說)工欲善其事必先利其器數(shù)據(jù)清洗13先來玩玩數(shù)據(jù)(EDA)探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系對數(shù)據(jù)集沒有各種嚴(yán)格假定主要任務(wù)數(shù)據(jù)可視化(apictureisworthathousandwords)殘差分析(數(shù)據(jù)=擬合+殘差)數(shù)據(jù)的重新表達(dá)(什么樣的尺度-對數(shù)抑或平方根-會(huì)簡化分析)方法的耐抗性(對數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值)常見方法統(tǒng)計(jì)量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等統(tǒng)計(jì)圖,如餅圖、直方圖、散點(diǎn)圖、箱尾圖等模型,如聚類先來玩玩數(shù)據(jù)(EDA)探索性數(shù)據(jù)分析(Exploratory14數(shù)據(jù)挖掘=模型+算法分類預(yù)測關(guān)聯(lián)規(guī)則孤立點(diǎn)探測聚類LogisticRegression決策樹神經(jīng)網(wǎng)絡(luò)K-MeansK-ModeSOM(自組織圖)AprioriFP-Growth基于統(tǒng)計(jì)基于距離基于偏差數(shù)據(jù)挖掘=模型+算法分類預(yù)測關(guān)聯(lián)規(guī)則孤立點(diǎn)探測聚類L15你使用過信用卡嗎?卡應(yīng)該發(fā)給誰?哪些持卡人會(huì)拖欠?哪些拖欠的客戶會(huì)還款?影響
資產(chǎn)組合(Portfolio)1、根據(jù)歷史,預(yù)測將來2、目標(biāo)是一個(gè)分類變量3、預(yù)測結(jié)果是一個(gè)統(tǒng)計(jì)意義下的概率1、哪些人可以發(fā)卡,額度是多少。2、持卡人拖欠的概率是多少3、該對誰催收你使用過信用卡嗎?卡應(yīng)該發(fā)給誰?影響資產(chǎn)組合1、根據(jù)歷16分類過程訓(xùn)練集分類學(xué)習(xí)訓(xùn)練集IFrank=‘professor’ORyears>6THENtenured=‘yes’JefisYES!分類器分類過程訓(xùn)練集分類學(xué)習(xí)訓(xùn)練集IFrank=‘profe17物以類聚,人以群分人為地選取細(xì)分維度客戶價(jià)值地域活躍程度……維度災(zāi)難的發(fā)生維度增長細(xì)分?jǐn)?shù)目指數(shù)增長人腦僅能處理有限的維度市場物以類聚,人以群分人為地選取細(xì)分維度客戶價(jià)值維度災(zāi)難的發(fā)生維18聚類示意基于歐氏距離的三維空間中的聚類基于質(zhì)心的聚類算法
(K-Means)A1A2B1xyz聚類示意基于歐氏距離的三維空間中的聚類A1A2B1xyz19發(fā)現(xiàn)商品間的關(guān)聯(lián)規(guī)則buy(x,”diapers”)buy(x,”beers”)發(fā)現(xiàn)商品間的關(guān)聯(lián)規(guī)則buy(x,”diapers”)b20關(guān)聯(lián)規(guī)則的量度支持度:Support(A=>B)=#AB/#N,表示A和B同時(shí)出現(xiàn)的概率期望可信度:Support(A)=#A/#N,表示A出現(xiàn)的概率置信度:Confidence(A=>B)=Support(A=>B)/Support(B)改善度:Lift(A=>B)=Confidence(A=>B)/Support(B)名稱描述公式支持度X、Y同時(shí)出現(xiàn)的頻率P(X∩Y)期望可信度Y出現(xiàn)的頻率P(Y)置信度X出現(xiàn)的前提下,Y出現(xiàn)的頻率P(Y|X)改善度置信度對期望可信度的比值P(Y|X)/P(Y)關(guān)聯(lián)規(guī)則的量度支持度:Support(A=>B)=#AB/#21關(guān)聯(lián)規(guī)則的度量發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則X^YZ支持度(support),s,事務(wù)中包含{X&Y&Z}的概率置信度(confidence),c,事務(wù)中包含{X&Y}的條件下,包含Z的條件概率令最小支持度為50%,最小置信度為50%,則有AC(50%,66.6%)CA(50%,100%)顧客購買尿布顧客購買兩者顧客購買啤酒關(guān)聯(lián)規(guī)則的度量發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則X^22從算法到應(yīng)用從算法到應(yīng)用23數(shù)據(jù)挖掘廠商挖掘和統(tǒng)計(jì)分析平臺(tái)SASEMSPSSClementineS+MinerStatisticDataMiner與數(shù)據(jù)庫集成挖掘平臺(tái)IBMIMOracleNCRTeradataMinerSQL2005DM
行業(yè)運(yùn)用及解決方案UnicaKXENHNC數(shù)據(jù)挖掘廠商挖掘和統(tǒng)計(jì)分析平臺(tái)SASEM與數(shù)據(jù)庫集成挖掘平24Agenda數(shù)據(jù)挖掘是什么?1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享3心得與總結(jié)4Agenda數(shù)據(jù)挖掘是什么?1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享325看看QQ的流失數(shù)據(jù)流失率2007年3月2007年4月2007年5月2007年6月當(dāng)月活躍總帳戶數(shù)253,668,411255,749,736264,006,894269,060,000當(dāng)月流失老帳戶數(shù)6,572,0876,006,5825,466,8078,217,569當(dāng)月老帳戶流失率2.59%2.35%2.07%3.05%每個(gè)月500~1000萬的老用戶流失,一年老用戶流失接近1億,實(shí)際自然人流失狀況雖然沒有這么嚴(yán)重,但是仍然是一個(gè)驚人的數(shù)據(jù)??蛻袅魇敲總€(gè)行業(yè)每天都在面對的問題1、建立流失預(yù)測模型,回答客戶是否要流失,何時(shí)流失的問題2、通過預(yù)測模型建立客戶流失管理機(jī)制,更為有效地管理流失,而不是去防止流失看看QQ的流失數(shù)據(jù)流失率2007年3月2007年4月200726一切從目標(biāo)出發(fā)目標(biāo)變量:即需要根據(jù)業(yè)務(wù)需求確定模型需要預(yù)測的對象,在QQ客戶流失模型中即是在業(yè)務(wù)上對“流失”的定義。沉默客戶數(shù)在4月后區(qū)域穩(wěn)定模型選擇連續(xù)沉默2個(gè)月作為流失的定義目標(biāo)變量的定義:Good:在表現(xiàn)窗口連續(xù)兩個(gè)月有登陸的客戶Bad:
在表現(xiàn)窗口連續(xù)兩個(gè)月都沒有登陸的客戶Intermediate:
在表現(xiàn)窗口其中一個(gè)月有登陸的客戶一切從目標(biāo)出發(fā)目標(biāo)變量:即需要根據(jù)業(yè)務(wù)需求確定模型需要預(yù)測的27打開觀測用戶的窗口訓(xùn)練樣本\測試樣本觀察窗口:2007年1月—2007年3月表現(xiàn)窗口:2007年5月—2007年6月TimeLag:2007年4月交叉校驗(yàn)樣本觀察窗口:2007年2月—2007年4月表現(xiàn)窗口:2007年6月—2007年7月TimeLag:2007年5月觀察窗口表現(xiàn)窗口TimeLagMM-1M-2M-3M-4M-5M+1M+2M+31觀察窗口:形成自變量的時(shí)間段。表現(xiàn)窗口:形成因變量的時(shí)間段。23TimeLag:預(yù)留給業(yè)務(wù)部門進(jìn)行相應(yīng)操作的時(shí)間段。123打開觀測用戶的窗口訓(xùn)練樣本\測試樣本觀察窗口表現(xiàn)窗口Ti28變化幅度特征變量描述用戶使用量上的變化幅度勾勒出用戶行為的特征基本屬性變量描述用戶的基本屬性產(chǎn)品使用行為特征描述用戶使用產(chǎn)品的情況消息業(yè)務(wù)使用行為特征描述用戶使用消息業(yè)務(wù)的情況音頻業(yè)務(wù)使用行為特征描述用戶使用音頻業(yè)務(wù)的情況視頻業(yè)務(wù)使用行為特征描述用戶使用視頻業(yè)務(wù)的情況客戶在線的行為特征從在線時(shí)長,登陸次數(shù),登陸頻率等角度研究用戶的使用行為歸屬地變化的行為特征描述用戶在某一時(shí)間周期內(nèi)登陸所在地的變化情況中間變量比例特征變量描述用戶業(yè)務(wù)使用占比基礎(chǔ)變量變量描述行為趨勢特征變量描述用戶的使用行為變化趨勢變量描述變化幅度特征變量29黃沙吹盡始到金基礎(chǔ)變量和中間變量數(shù)目約為224個(gè)經(jīng)過變量變換后的變量數(shù)目約為1700個(gè)變量篩選使用Logistic回歸的Stepwise方法進(jìn)行下一步擬合卡方統(tǒng)計(jì)量ChiSquare信息價(jià)值InformationValue信息增益
GainIndex單變量回歸偏相關(guān)分析PartialCorrelation黃沙吹盡始到金基礎(chǔ)變量和中間變量數(shù)目約為224個(gè)變量篩選使用30Lift曲線十分位樣本數(shù)量Lift0226,7295.171226,7292.272226,7281.033226,7300.554226,7290.355226,7290.256226,7300.157226,7290.118226,7290.079226,7300.05Total2,267,2931Lift曲線十分位樣本數(shù)量Lift0226,7295.17131ROC曲線>50%>75%ROC曲線>50%>75%32建立閉環(huán)的業(yè)務(wù)流程流失客戶分析數(shù)據(jù)挖掘數(shù)據(jù)分析數(shù)據(jù)采集/ETL現(xiàn)有流程評估計(jì)劃和設(shè)計(jì)挽留行動(dòng)執(zhí)行挽留行動(dòng)評估挽留結(jié)果調(diào)整應(yīng)用流程建立閉環(huán)的業(yè)務(wù)流程流失客戶分析數(shù)據(jù)挖掘數(shù)據(jù)分析數(shù)據(jù)采集/ET33Agenda數(shù)據(jù)挖掘是什么?1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享3心得與總結(jié)4Agenda數(shù)據(jù)挖掘是什么?1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享334幾點(diǎn)心得實(shí)施數(shù)據(jù)挖掘是一個(gè)戰(zhàn)略性舉措BusinessFirst,TechniqueSecond數(shù)據(jù)挖掘不是萬能的,沒有它也不是萬萬不能數(shù)據(jù)挖掘是一個(gè)循環(huán)探索的過程幾點(diǎn)心得實(shí)施數(shù)據(jù)挖掘是一個(gè)戰(zhàn)略性舉措BusinessFir35參考文獻(xiàn)參考文獻(xiàn)36網(wǎng)絡(luò)資源
網(wǎng)絡(luò)資源www.dmres37TecentResearch
Question&Answer?TecentResearchQuestion&Ans38聯(lián)系我們RTX:simonjiang TEL:7999RTX:florayi TEL:8889RTX:jeavinqiu TEL:5909RTX:neilliao TEL:4232Thankyou
!!聯(lián)系我們RTX:simonjiang TEL:7999T39騰訊大講堂第五十九期研發(fā)管理部大講堂主頁:/class與講師互動(dòng):/group/class騰訊大講堂第五十九期研發(fā)管理部大講堂主頁:http:40數(shù)據(jù)蘊(yùn)含商機(jī),挖掘決勝千里騰訊研究院數(shù)據(jù)分析研究室SimonJiang/江宇聞2009-02-24數(shù)據(jù)蘊(yùn)含商機(jī),挖掘決勝千里騰訊研究院數(shù)據(jù)分析研究室41Agenda數(shù)據(jù)挖掘是什么?1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享3心得與總結(jié)4Agenda數(shù)據(jù)挖掘是什么?1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享342從運(yùn)籌帷幄到?jīng)Q勝千里…舌戰(zhàn)群儒草船借箭巧借東風(fēng)火燒赤壁赤壁懷古蘇軾……羽扇綸巾談笑間檣櫓灰飛煙滅......從運(yùn)籌帷幄到?jīng)Q勝千里…舌戰(zhàn)群儒草船借箭巧借東風(fēng)火燒赤壁赤壁懷43觀日月之行,察天地之變風(fēng)雷電雨云云多會(huì)下雨刮風(fēng)會(huì)下雨下雨會(huì)閃電閃電會(huì)打雷……換成它呢???觀日月之行,察天地之變風(fēng)雷電雨云云多會(huì)下雨換成它呢???44數(shù)據(jù)爆炸的時(shí)代DataMining,circa1963
IBM7090
600cases“Machinestoragelimitationsrestrictedthetotalnumberofvariableswhichcouldbeconsideredatonetimeto25.”數(shù)據(jù)爆炸的時(shí)代DataMining,circa196345數(shù)據(jù)挖掘是……DataInformationKnowledgeWisdomTofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、Data+contextInformation+rulesKnowledge+experience數(shù)據(jù)挖掘是……DataInformationKnowledg46多學(xué)科的融合DatabasesStatisticsPatternRecognitionKDDMachineLearningAINeurocomputingDataMining多學(xué)科的融合DatabasesStatisticsPatte47Agenda數(shù)據(jù)挖掘是什么?1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享3心得與總結(jié)4Agenda數(shù)據(jù)挖掘是什么?1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享348幾個(gè)基本概念模型(Model)vs模式(Pattern)數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化(Generalize)到總體(Population)上去模型:對數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的所有點(diǎn),例如聚類分析模式:對數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個(gè)子集,例如關(guān)聯(lián)分析算法(Algorithm):一個(gè)定義完備(well-defined)的過程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出描述型挖掘(Descriptive)vs預(yù)測型挖掘(Predictive)描述型挖掘:對數(shù)據(jù)進(jìn)行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征預(yù)測型挖掘:根據(jù)觀察到的對象特征值來預(yù)測它的其他特征值描述型挖掘可以是目的,也可以是手段幾個(gè)基本概念模型(Model)vs模式(Pattern)49數(shù)據(jù)挖掘是一個(gè)過程“fromdataminingtoknowledgediscoveryindatabase”.U.fayyad,G.P.ShapiroandP.Smyth(1996)數(shù)據(jù)挖掘是一個(gè)過程“fromdataminingto50數(shù)據(jù)挖掘方法論CRISP_DM(CrossIndustryStandardProcessforDM)1998年,由NCR、Clementine、OHRA和Daimler-Benz的聯(lián)合項(xiàng)目組提出SEMMASAS公司提出的方法Sample,Explore,Modify,Model,Assess在戰(zhàn)略上使用Crisp_DM方法論,在戰(zhàn)術(shù)上應(yīng)用SEMMA方法論數(shù)據(jù)挖掘方法論CRISP_DM(CrossIndustr51工欲善其事必先利其器數(shù)據(jù)清洗填充缺失值,修均噪聲數(shù)據(jù),識別或刪除孤立點(diǎn),并解決數(shù)據(jù)不一致問題主要分析方法:分箱(Binning)、聚類、回歸數(shù)據(jù)集成多個(gè)數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成數(shù)據(jù)變換規(guī)范化與匯總數(shù)據(jù)簡化減少數(shù)據(jù)量的同時(shí),還可以得到相同或相近的分析結(jié)果主要分析方法:抽樣、主成分分析數(shù)據(jù)離散化數(shù)據(jù)簡化的一部分,但非常重要(尤其對于數(shù)值型數(shù)據(jù)來說)工欲善其事必先利其器數(shù)據(jù)清洗52先來玩玩數(shù)據(jù)(EDA)探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系對數(shù)據(jù)集沒有各種嚴(yán)格假定主要任務(wù)數(shù)據(jù)可視化(apictureisworthathousandwords)殘差分析(數(shù)據(jù)=擬合+殘差)數(shù)據(jù)的重新表達(dá)(什么樣的尺度-對數(shù)抑或平方根-會(huì)簡化分析)方法的耐抗性(對數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值)常見方法統(tǒng)計(jì)量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等統(tǒng)計(jì)圖,如餅圖、直方圖、散點(diǎn)圖、箱尾圖等模型,如聚類先來玩玩數(shù)據(jù)(EDA)探索性數(shù)據(jù)分析(Exploratory53數(shù)據(jù)挖掘=模型+算法分類預(yù)測關(guān)聯(lián)規(guī)則孤立點(diǎn)探測聚類LogisticRegression決策樹神經(jīng)網(wǎng)絡(luò)K-MeansK-ModeSOM(自組織圖)AprioriFP-Growth基于統(tǒng)計(jì)基于距離基于偏差數(shù)據(jù)挖掘=模型+算法分類預(yù)測關(guān)聯(lián)規(guī)則孤立點(diǎn)探測聚類L54你使用過信用卡嗎?卡應(yīng)該發(fā)給誰?哪些持卡人會(huì)拖欠?哪些拖欠的客戶會(huì)還款?影響
資產(chǎn)組合(Portfolio)1、根據(jù)歷史,預(yù)測將來2、目標(biāo)是一個(gè)分類變量3、預(yù)測結(jié)果是一個(gè)統(tǒng)計(jì)意義下的概率1、哪些人可以發(fā)卡,額度是多少。2、持卡人拖欠的概率是多少3、該對誰催收你使用過信用卡嗎?卡應(yīng)該發(fā)給誰?影響資產(chǎn)組合1、根據(jù)歷55分類過程訓(xùn)練集分類學(xué)習(xí)訓(xùn)練集IFrank=‘professor’ORyears>6THENtenured=‘yes’JefisYES!分類器分類過程訓(xùn)練集分類學(xué)習(xí)訓(xùn)練集IFrank=‘profe56物以類聚,人以群分人為地選取細(xì)分維度客戶價(jià)值地域活躍程度……維度災(zāi)難的發(fā)生維度增長細(xì)分?jǐn)?shù)目指數(shù)增長人腦僅能處理有限的維度市場物以類聚,人以群分人為地選取細(xì)分維度客戶價(jià)值維度災(zāi)難的發(fā)生維57聚類示意基于歐氏距離的三維空間中的聚類基于質(zhì)心的聚類算法
(K-Means)A1A2B1xyz聚類示意基于歐氏距離的三維空間中的聚類A1A2B1xyz58發(fā)現(xiàn)商品間的關(guān)聯(lián)規(guī)則buy(x,”diapers”)buy(x,”beers”)發(fā)現(xiàn)商品間的關(guān)聯(lián)規(guī)則buy(x,”diapers”)b59關(guān)聯(lián)規(guī)則的量度支持度:Support(A=>B)=#AB/#N,表示A和B同時(shí)出現(xiàn)的概率期望可信度:Support(A)=#A/#N,表示A出現(xiàn)的概率置信度:Confidence(A=>B)=Support(A=>B)/Support(B)改善度:Lift(A=>B)=Confidence(A=>B)/Support(B)名稱描述公式支持度X、Y同時(shí)出現(xiàn)的頻率P(X∩Y)期望可信度Y出現(xiàn)的頻率P(Y)置信度X出現(xiàn)的前提下,Y出現(xiàn)的頻率P(Y|X)改善度置信度對期望可信度的比值P(Y|X)/P(Y)關(guān)聯(lián)規(guī)則的量度支持度:Support(A=>B)=#AB/#60關(guān)聯(lián)規(guī)則的度量發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則X^YZ支持度(support),s,事務(wù)中包含{X&Y&Z}的概率置信度(confidence),c,事務(wù)中包含{X&Y}的條件下,包含Z的條件概率令最小支持度為50%,最小置信度為50%,則有AC(50%,66.6%)CA(50%,100%)顧客購買尿布顧客購買兩者顧客購買啤酒關(guān)聯(lián)規(guī)則的度量發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則X^61從算法到應(yīng)用從算法到應(yīng)用62數(shù)據(jù)挖掘廠商挖掘和統(tǒng)計(jì)分析平臺(tái)SASEMSPSSClementineS+MinerStatisticDataMiner與數(shù)據(jù)庫集成挖掘平臺(tái)IBMIMOracleNCRTeradataMinerSQL2005DM
行業(yè)運(yùn)用及解決方案UnicaKXENHNC數(shù)據(jù)挖掘廠商挖掘和統(tǒng)計(jì)分析平臺(tái)SASEM與數(shù)據(jù)庫集成挖掘平63Agenda數(shù)據(jù)挖掘是什么?1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享3心得與總結(jié)4Agenda數(shù)據(jù)挖掘是什么?1模型+算法2數(shù)據(jù)挖掘?qū)嵺`分享364看看QQ的流失數(shù)據(jù)流失率2007年3月2007年4月2007年5月2007年6月當(dāng)月活躍總帳戶數(shù)253,668,411255,749,736264,006,894269,060,000當(dāng)月流失老帳戶數(shù)6,572,0876,006,5825,466,8078,217,569當(dāng)月老帳戶流失率2.59%2.35%2.07%3.05%每個(gè)月500~1000萬的老用戶流失,一年老用戶流失接近1億,實(shí)際自然人流失狀況雖然沒有這么嚴(yán)重,但是仍然是一個(gè)驚人的數(shù)據(jù)。客戶流失是每個(gè)行業(yè)每天都在面對的問題1、建立流失預(yù)測模型,回答客戶是否要流失,何時(shí)流失的問題2、通過預(yù)測模型建立客戶流失管理機(jī)制,更為有效地管理流失,而不是去防止流失看看QQ的流失數(shù)據(jù)流失率2007年3月2007年4月200765一切從目標(biāo)出發(fā)目標(biāo)變量:即需要根據(jù)業(yè)務(wù)需求確定模型需要預(yù)測的對象,在QQ客戶流失模型中即是在業(yè)務(wù)上對“流失”的定義。沉默客戶數(shù)在4月后區(qū)域穩(wěn)定模型選擇連續(xù)沉默2個(gè)月作為流失的定義目標(biāo)變量的定義:Good:在表現(xiàn)窗口連續(xù)兩個(gè)月有登陸的客戶Bad:
在表現(xiàn)窗口連續(xù)兩個(gè)月都沒有登陸的客戶Intermediate:
在表現(xiàn)窗口其中一個(gè)月有登陸的客戶一切從目標(biāo)出發(fā)目標(biāo)變量:即需要根據(jù)業(yè)務(wù)需求確定模型需要預(yù)測的66打開觀測用戶的窗口訓(xùn)練樣本\測試樣本觀察窗口:2007年1月—2007年3月表現(xiàn)窗口:2007年5月—2007年6月TimeLag:2007年4月交叉校驗(yàn)樣本觀察窗口:2007年2月—2007年4月表現(xiàn)窗口:2007年6月—2007年7月TimeLag:2007年5月觀察窗口表現(xiàn)窗口TimeLagMM-1M-2M-3M-4M-5M+1M+2M+31觀察窗口:形成自變量的時(shí)間段。表現(xiàn)窗口:形成因變量的時(shí)間段。23TimeLag:預(yù)留給業(yè)務(wù)部門進(jìn)行相應(yīng)操作的時(shí)間段。123打開觀測用戶的窗口訓(xùn)練樣本\測試樣本觀察窗口表現(xiàn)窗口Ti67變化幅度特征變量描述用戶使用量上的變化幅度勾勒出用戶行為的特征基本屬性變量描述用戶的基本屬性產(chǎn)品使用行為特征描述用戶使用產(chǎn)品的情況消息業(yè)務(wù)使用行為特征描述用戶使用消息業(yè)務(wù)的情況音頻業(yè)務(wù)使用行為特征描述用戶使用音頻業(yè)務(wù)的情況視頻業(yè)務(wù)使用行為特征
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教版九年級數(shù)學(xué)上冊21.2.4《因式分解法》聽評課記錄
- 人教版歷史八年級上冊(2017年新編)《第6課戊戌變法》(聽課評課記錄)
- 蘇科版數(shù)學(xué)八年級上冊聽評課記錄《4-3實(shí)數(shù)(1)》
- 新版華東師大版八年級數(shù)學(xué)下冊《18.1平行四邊形的性質(zhì)2》聽評課記錄
- 蘇科版數(shù)學(xué)七年級下冊聽評課記錄12.2證明1
- 人教版部編歷史七年級上冊《第12課 漢武帝鞏固大一統(tǒng)王朝》聽課評課記錄2
- 2022版新課標(biāo)七年級上冊道德與法治第五課交友的智慧第二課時(shí)網(wǎng)上交友新時(shí)空聽課評課記錄
- 創(chuàng)業(yè)糕點(diǎn)店創(chuàng)業(yè)計(jì)劃書
- 專利技術(shù)許可證合同范本
- 廠房出租安全生產(chǎn)管理協(xié)議書范本
- 分享二手房中介公司的薪酬獎(jiǎng)勵(lì)制度
- 安徽省2022年中考道德與法治真題試卷(含答案)
- GB 4793-2024測量、控制和實(shí)驗(yàn)室用電氣設(shè)備安全技術(shù)規(guī)范
- 項(xiàng)目人員管理方案
- 重大火災(zāi)隱患判定方法
- 挖掘機(jī)售后保養(yǎng)及維修服務(wù)協(xié)議(2024版)
- 2024年電工(高級技師)考前必刷必練題庫500題(含真題、必會(huì)題)
- 2024年全國各地中考語文試題匯編:名著閱讀
- 公司組織架構(gòu)與管理體系制度
- 2024-2030年中國涂碳箔行業(yè)現(xiàn)狀調(diào)查與投資策略分析研究報(bào)告
- 2024-2030年中國派對用品行業(yè)供需規(guī)模調(diào)研及發(fā)展趨勢預(yù)測研究報(bào)告
評論
0/150
提交評論