版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘基本概念與應(yīng)用第1頁,課件共55頁,創(chuàng)作于2023年2月報告內(nèi)容
數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘與統(tǒng)計分析數(shù)據(jù)挖掘的基本算法數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摽偨Y(jié)與討論數(shù)據(jù)挖掘的基本概念第2頁,課件共55頁,創(chuàng)作于2023年2月改變未來世界的十大新興技術(shù)《TechnologyReview》(麻省理工學(xué)院2002年1月出刊)機(jī)器與人腦的接口塑膠晶體管數(shù)據(jù)挖掘(DataMining)數(shù)字權(quán)利管理生物測定學(xué)(Biometrics)語言識別處理微光學(xué)技術(shù)(Microphotonics)解開程序代碼(UntanglingCode)機(jī)器人設(shè)計微應(yīng)用流體學(xué)(Microfluidics)第3頁,課件共55頁,創(chuàng)作于2023年2月什么是數(shù)據(jù)挖掘?DataInformationKnowledgeWisdom存在太多數(shù)據(jù)挖掘的定義,但基本上有這樣一種描述結(jié)構(gòu)Tofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、Data+contextInformation+rulesKnowledge+experience第4頁,課件共55頁,創(chuàng)作于2023年2月為什么會出現(xiàn)數(shù)據(jù)挖掘?數(shù)據(jù)爆炸性增長是數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生的根本原因。只見樹木,不見森林(Drowningindatabutstarvingforinformation)計算復(fù)雜度數(shù)據(jù)管理問題數(shù)據(jù)類型的多樣性處理大容量數(shù)據(jù)是數(shù)據(jù)挖掘技術(shù)區(qū)別于其他數(shù)據(jù)分析方法的唯一標(biāo)志嗎?第5頁,課件共55頁,創(chuàng)作于2023年2月其他數(shù)據(jù)分析方法:統(tǒng)計學(xué)從處理數(shù)據(jù)的角度看、、、數(shù)據(jù)規(guī)模不同數(shù)據(jù)來源不同:觀測數(shù)據(jù)(SecondaryAnalysis)VS試驗(yàn)數(shù)據(jù)(PrimaryAnalysis)數(shù)據(jù)類型不同(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù))從分析思想的角度看更關(guān)注實(shí)證性分析(EmpiricalAnalysis)而非探索性分析(ExploratoryAnalysis)更關(guān)注模型(Model)而非算法(Algorithm)但二者具有相當(dāng)密切的聯(lián)系從數(shù)據(jù)分析的角度,統(tǒng)計學(xué)現(xiàn)在是且仍將是數(shù)據(jù)挖掘最重要的技術(shù)支撐和思想源泉更加深入的滲透和交叉(如探索性數(shù)據(jù)分析,EDA)數(shù)據(jù)挖掘是數(shù)據(jù)驅(qū)動的探索性分析!第6頁,課件共55頁,創(chuàng)作于2023年2月數(shù)據(jù)挖掘:多學(xué)科的匯合數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)統(tǒng)計學(xué)其它學(xué)科信息科學(xué)機(jī)器學(xué)習(xí)可視化人工智能科學(xué)計算第7頁,課件共55頁,創(chuàng)作于2023年2月數(shù)據(jù)挖掘是一個過程“fromdataminingtoknowledgediscoveryindatabase”.U.fayyad,G.P.ShapiroandP.Smyth(1996)第8頁,課件共55頁,創(chuàng)作于2023年2月數(shù)據(jù)挖掘過程中的數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗填充缺失值,修均噪聲數(shù)據(jù),識別或刪除孤立點(diǎn),并解決數(shù)據(jù)不一致問題主要分析方法:分箱(Binning)、聚類、回歸數(shù)據(jù)集成多個數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成數(shù)據(jù)變換規(guī)范化與匯總數(shù)據(jù)簡化減少數(shù)據(jù)量的同時,還可以得到相同或相近的分析結(jié)果主要分析方法:抽樣、主成分分析數(shù)據(jù)離散化數(shù)據(jù)簡化的一部分,但非常重要(尤其對于數(shù)值型數(shù)據(jù)來說)第9頁,課件共55頁,創(chuàng)作于2023年2月數(shù)據(jù)挖掘過程中的數(shù)據(jù)探索探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系對數(shù)據(jù)集沒有各種嚴(yán)格假定“玩”數(shù)據(jù)主要任務(wù)數(shù)據(jù)可視化(apictureisworthathousandwords)殘差分析(數(shù)據(jù)=擬合+殘差)數(shù)據(jù)的重新表達(dá)(什么樣的尺度-對數(shù)抑或平方根-會簡化分析?)方法的耐抗性(對數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值)常見方法統(tǒng)計量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等統(tǒng)計圖,如餅圖、直方圖、散點(diǎn)圖、箱尾圖等模型,如聚類第10頁,課件共55頁,創(chuàng)作于2023年2月什么不是數(shù)據(jù)挖掘?定量分析(QuantitativeAnalysis)的需要存在企業(yè)管理運(yùn)行的各個側(cè)面或環(huán)節(jié),但并非所有的定量分析問題都可以歸結(jié)到數(shù)據(jù)挖掘范疇的問題。簡單的報表、圖表及多維分析仍是日常分析工作的主要內(nèi)容小樣本數(shù)據(jù)的分析傳統(tǒng)統(tǒng)計分析方法更成熟有效,如趨勢預(yù)測某些特定業(yè)務(wù)問題無法用數(shù)據(jù)挖掘算法加以解決,例如資源最優(yōu)配置問題是個運(yùn)籌學(xué)問題某些物流管理問題或者供應(yīng)鏈管理問題是個隨機(jī)規(guī)劃問題營銷預(yù)演本質(zhì)是個系統(tǒng)仿真問題第11頁,課件共55頁,創(chuàng)作于2023年2月報告內(nèi)容
數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘與統(tǒng)計分析數(shù)據(jù)挖掘的基本算法數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摽偨Y(jié)與討論數(shù)據(jù)挖掘與統(tǒng)計分析第12頁,課件共55頁,創(chuàng)作于2023年2月統(tǒng)計學(xué)與數(shù)據(jù)挖掘的聯(lián)系從處理數(shù)據(jù)數(shù)據(jù)挖掘中采用了大量統(tǒng)計學(xué)的思想、方法和工具聚類分析(無監(jiān)督學(xué)習(xí)過程,統(tǒng)計分析中的主要技術(shù))K-MeansSelfOrganizingMap(SOM)數(shù)據(jù)分類(有監(jiān)督學(xué)習(xí)過程)統(tǒng)計分類技術(shù):距離判別,費(fèi)雪判別,貝葉斯判別數(shù)據(jù)挖掘中的分類技術(shù):決策樹,神經(jīng)網(wǎng)絡(luò)其他方法相關(guān)分析主成分分析回歸分析序列分析第13頁,課件共55頁,創(chuàng)作于2023年2月統(tǒng)計學(xué)與數(shù)據(jù)挖掘的區(qū)別數(shù)據(jù)樣本數(shù)量不同(在統(tǒng)計學(xué)中樣本數(shù)量大于30,則成為大樣本)數(shù)據(jù)來源和質(zhì)量不同數(shù)據(jù)挖掘既可以處理結(jié)構(gòu)化數(shù)據(jù),也可以處理非結(jié)構(gòu)化和異型數(shù)據(jù)方法數(shù)據(jù)挖掘的前提是占有大量數(shù)據(jù),統(tǒng)計中的實(shí)驗(yàn)設(shè)計、抽樣設(shè)計并不適用有些數(shù)據(jù)挖掘的分析方法是統(tǒng)計學(xué)中沒有的,如強(qiáng)調(diào)實(shí)時分析統(tǒng)計分析方法在對大規(guī)模數(shù)據(jù)處理時占用系統(tǒng)的資源和時間太多,不適宜采用,因此數(shù)據(jù)挖掘大量采用神經(jīng)網(wǎng)絡(luò)、遺傳算法等人工智能方法模型(模式)模型(統(tǒng)計學(xué))VS模式(數(shù)據(jù)挖掘)統(tǒng)計建模強(qiáng)調(diào)模型的普適性,數(shù)據(jù)挖掘強(qiáng)調(diào)從數(shù)據(jù)中發(fā)現(xiàn)模式算法統(tǒng)計學(xué)強(qiáng)調(diào)模型,運(yùn)算量居于次要地位數(shù)據(jù)挖掘的精華在于結(jié)果的未知性,強(qiáng)調(diào)探索性分析,與之對應(yīng)的是算法而不是模型方法論統(tǒng)計學(xué):以數(shù)學(xué)為基礎(chǔ),每種方法有嚴(yán)格的證明體系數(shù)據(jù)挖掘:采用實(shí)驗(yàn)方法,不具有很強(qiáng)的嚴(yán)謹(jǐn)性第14頁,課件共55頁,創(chuàng)作于2023年2月數(shù)據(jù)挖掘相對于統(tǒng)計學(xué)的特點(diǎn)使用數(shù)據(jù)挖掘工具無須具備太專業(yè)的統(tǒng)計知識,處理大量的實(shí)際數(shù)據(jù)更有優(yōu)勢,使得數(shù)據(jù)挖掘人員可以集中精力在業(yè)務(wù)建模方面數(shù)據(jù)挖掘從大型數(shù)據(jù)庫提取所需數(shù)據(jù),利用專屬計算機(jī)軟件進(jìn)行分析,更能滿足企業(yè)的需求從理論的角度來看,數(shù)據(jù)挖掘與統(tǒng)計學(xué)不同,其目的在于方便企業(yè)的末端使用者應(yīng)用,而非為統(tǒng)計學(xué)家提供檢驗(yàn)工具
第15頁,課件共55頁,創(chuàng)作于2023年2月報告內(nèi)容
數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘與統(tǒng)計分析數(shù)據(jù)挖掘的基本算法數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摽偨Y(jié)與討論數(shù)據(jù)挖掘的基本算法第16頁,課件共55頁,創(chuàng)作于2023年2月幾個基本概念模型(Model)vs模式(Pattern)數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化(Generalize)到總體(Population)上去模型:對數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的所有點(diǎn),例如聚類分析模式:對數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個子集,例如關(guān)聯(lián)分析算法(Algorithm):一個定義完備(well-defined)的過程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出描述型挖掘(Descriptive)vs預(yù)測型挖掘(Predictive)描述型挖掘:對數(shù)據(jù)進(jìn)行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征預(yù)測型挖掘:根據(jù)觀察到的對象特征值來預(yù)測它的其他特征值描述型挖掘可以是目的,也可以是手段第17頁,課件共55頁,創(chuàng)作于2023年2月幾類基本的挖掘算法關(guān)聯(lián)規(guī)則(模式、描述型)發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式例如:buy(x,”diapers”)buy(x,”beers”)[0.5%,60%]分類與預(yù)測(模型、預(yù)測型)發(fā)現(xiàn)能夠區(qū)分或預(yù)測目標(biāo)變量(唯一的)的規(guī)則或者函數(shù)分類的目標(biāo)變量一般是類別型的,而預(yù)測則是數(shù)量型的,并不必然帶有任何時間延續(xù)型的暗示例如:股票市值的預(yù)測,病人病情的判斷聚類(模型、描述型)對數(shù)據(jù)分組以形成新類,類標(biāo)記是未知的例如:市場細(xì)分孤立點(diǎn)探測(OutlierDetection)(模式、預(yù)測型)分析異?;蛟肼晹?shù)據(jù)的行為模式例如:欺詐檢測第18頁,課件共55頁,創(chuàng)作于2023年2月廣東發(fā)展銀行信用卡中心的數(shù)據(jù)挖掘模型申請?jiān)u分卡(分類模型、Logistic回歸算法)計算申請信用卡的人在將來產(chǎn)生壞賬的概率自變量是離散型變量評分需要進(jìn)行標(biāo)準(zhǔn)化處理行為評分卡(分類模型、Logistic回歸算法)包括:拖欠、催收、銷售等自變量是連續(xù)型變量第19頁,課件共55頁,創(chuàng)作于2023年2月廣東移動數(shù)據(jù)挖掘項(xiàng)目中的數(shù)據(jù)挖掘算法客戶流失(分類模型、Logistic回歸算法)彩鈴WAP購買傾向預(yù)測(分類模型、Logistic回歸算法)彩信增量銷售預(yù)測(分類模型、Logistic回歸算法)彩鈴用戶流失預(yù)測(分類模型、Logistic回歸算法)客戶價值增長預(yù)測(分類模型、Logistic回歸算法)競爭對手流失預(yù)測(分類模型、Logistic回歸算法)集團(tuán)客戶分群(聚類模型、K-Means算法)集團(tuán)客戶級別打分(分類模型、Logistic回歸算法)產(chǎn)品關(guān)聯(lián)分析(關(guān)聯(lián)規(guī)則)個人客戶分群分析(聚類模型、K-Means算法)
集團(tuán)客戶流失預(yù)警模型(AHP方法+Logistic回歸算法)……第20頁,課件共55頁,創(chuàng)作于2023年2月客戶分群(聚類模型、K-Means算法)客戶流失(分類模型、Logistic回歸算法)潛在用戶定位(分類模型、Logistic回歸算法)商城的交叉銷售(關(guān)聯(lián)規(guī)則)產(chǎn)品收入預(yù)測(時間序列的預(yù)測方法)……騰訊公司中的數(shù)據(jù)挖掘算法第21頁,課件共55頁,創(chuàng)作于2023年2月分類問題的基本定義給定一數(shù)據(jù)集合(訓(xùn)練集)數(shù)據(jù)記錄由一系列變量組成其中有一個變量是目標(biāo)分類標(biāo)簽尋找一模型,使目標(biāo)分類變量值是其他變量值的一個函數(shù)利用上述函數(shù),一未知分類變量值的數(shù)據(jù)記錄能夠盡可能準(zhǔn)確地被判定到某一類別中去一般會有另一獨(dú)立地數(shù)據(jù)集(測試集)用以驗(yàn)證所構(gòu)建分類函數(shù)的準(zhǔn)確性,避免過度擬合第22頁,課件共55頁,創(chuàng)作于2023年2月分類過程示意訓(xùn)練集分類學(xué)習(xí)訓(xùn)練集分類器IFrank=‘professor’ORyears>6THENtenured=‘yes’JefisYES!第23頁,課件共55頁,創(chuàng)作于2023年2月回顧簡單的一元線性回歸問題
y=b0+b1x+u
y稱為被解釋變量或者因變量,是一個連續(xù)變量
x稱為解釋變量或者自變量,是一個連續(xù)變量
b0
、b1稱為回歸系數(shù)
u是隨機(jī)誤差,一般假設(shè)服從標(biāo)準(zhǔn)正態(tài)分布yxy=b0+b1x+u........第24頁,課件共55頁,創(chuàng)作于2023年2月Logistic回歸進(jìn)行分類和預(yù)測LOGISTIC回歸是一種特殊的回歸模型,與古典的線性回歸模型不同,其響應(yīng)變量(ResponseVariable)是一分類變量(CategoricalVariable)而非連續(xù)變量(ContinuousVariable)。響應(yīng)變量是一個二值化的變量,通常以1\0表示某一事件發(fā)生或者不發(fā)生。應(yīng)用Logistic回歸得到的概率p通常表示在將來某段時間后某一事件發(fā)生的概率。Odds:目標(biāo)事件發(fā)生的數(shù)量/非目標(biāo)事件發(fā)生的數(shù)量.Oddsratio=prob(目標(biāo)事件)/prob(非目標(biāo)事件)=p/(1-p)p=prob(目標(biāo)事件)prob表示事件發(fā)生的概率Logit:logofoddsratio=log(p/(1-p))Logistic回歸:擬合下面的模型logit=a0+a1*X1+…+ak*Xkp=prob(目標(biāo)事件)=exp(logit)/(1+exp(logit))p的取值范圍:[0,1]p第25頁,課件共55頁,創(chuàng)作于2023年2月流失類模型案例建模目的:預(yù)測某一段時間之后客戶流失的概率。確定時間窗口:確定目標(biāo)變量:定義在DataWindow中正常而在ForecastWindow中流失的客戶為0,而沒有流失的客戶為1。選擇自變量:在電信的客戶流失模型中,我們一般使用下面幾種類型的變量??蛻袅魇е笜?biāo)客戶信息數(shù)據(jù)(人口統(tǒng)計學(xué)數(shù)據(jù)、合同數(shù)據(jù))呼叫數(shù)據(jù)計費(fèi)和支持?jǐn)?shù)據(jù)一些轉(zhuǎn)換之后得到的變量其它數(shù)據(jù)DataWindowForecastWindowTimeLagMM-1M-2M-3MM-5M+1M+2第26頁,課件共55頁,創(chuàng)作于2023年2月流失類模型案例
模型的評價Lift值R方ROC曲線K-S值
模型的應(yīng)用P值大的客戶具有更高的流失傾向模型的評分分布劃定CutOffLine。對CutOffLine的劃定可以采用更多的市場數(shù)據(jù)進(jìn)行參考,如正確挽留一個客戶準(zhǔn)備的平均收益和成本,錯誤挽留一個客戶的平均成本,客戶流失的平均損失等。有了這些數(shù)據(jù)可以進(jìn)一步使用貝葉斯方法建立數(shù)量化的分類模型,以確定對CutOffLine的劃定。頻數(shù)評分010000CutOffLine非流失流失第27頁,課件共55頁,創(chuàng)作于2023年2月分類中的決策樹(DecisionTree)歸納決策樹類似于流程圖的樹型結(jié)構(gòu)內(nèi)部節(jié)點(diǎn)代表對某個屬性的一次測試分支代表測試的輸出結(jié)果葉節(jié)點(diǎn)代表分類標(biāo)簽或分布決策樹的生成包括兩個階段樹的創(chuàng)建首先,所有訓(xùn)練樣本都位于根節(jié)點(diǎn)遞歸地基于選擇屬性來劃分樣本集樹的修剪識別并刪除那些反映噪聲或孤立點(diǎn)的分支應(yīng)用決策樹:對未知樣本進(jìn)行分類在決策樹上測試樣本的各個屬性值第28頁,課件共55頁,創(chuàng)作于2023年2月決策樹示意age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes30..40示例:是否購買計算機(jī)?第29頁,課件共55頁,創(chuàng)作于2023年2月決策樹在電信客戶流失問題中的應(yīng)用實(shí)例結(jié)論:ARPU<=120元,租期已滿23個月以上,平均撥打電話少于270秒,六個月內(nèi)賬單遲繳4次以上,撥打號碼平均少于10個的客戶得分770。ARPU租期已滿23個月以上六個月內(nèi)賬單遲繳4次以上撥打號碼平均少于10個《120〉120是非平均撥打電話少于270秒是非70.0%不退租(1000)是77.0%退租(1200)是非非Etc.Etc.Etc.Etc.第30頁,課件共55頁,創(chuàng)作于2023年2月聚類的基本概念基本定義將數(shù)據(jù)對象集劃分成事先未知的分組或類別聚類的原則:類內(nèi)相似度高,類間相似度低相似度一般為某種距離函數(shù)D(i,j)聚類既可以作為獨(dú)立分析工具考察數(shù)據(jù)分布結(jié)構(gòu),也可以作為其他分析方法的預(yù)處理步驟很不幸,對聚類結(jié)果的評價一般都是主觀的基本分類將數(shù)據(jù)對象集劃分成事先未知的分組或類別第31頁,課件共55頁,創(chuàng)作于2023年2月聚類示意基于歐氏距離的三維空間中的聚類基于質(zhì)心的聚類算法
(K-Means)A1A2B1xyz第32頁,課件共55頁,創(chuàng)作于2023年2月個人客戶分群示例個人客戶分群更好地了解客戶的手段提高客戶的管理和溝通能力提升客戶價值CustomerExpenditureCustomerTenureHighLowShortLong分群是根據(jù)客戶的關(guān)鍵屬性將客戶分成不同的組別,要求做到組間差異化最大組內(nèi)相似性最大第33頁,課件共55頁,創(chuàng)作于2023年2月關(guān)聯(lián)規(guī)則的基本概念基本定義給定(1)事務(wù)數(shù)據(jù)集(2)每個事務(wù)是數(shù)據(jù)項(xiàng)的集合,試圖發(fā)現(xiàn)項(xiàng)集中的頻繁模式或關(guān)聯(lián)關(guān)系所謂頻繁模式或者關(guān)聯(lián)規(guī)則就是一個具有“AB”形式的邏輯蘊(yùn)涵式頻繁模式并不必然蘊(yùn)涵著因果關(guān)系或相關(guān)關(guān)系!算法實(shí)現(xiàn)基本上基于APRIORI法則:頻繁項(xiàng)集的所有非空子集一定也是頻繁(Frequent)的基本分類布爾關(guān)聯(lián)規(guī)則vs定量關(guān)聯(lián)規(guī)則buy(x,”diapers”)buy(x,”beers”)Age(x,”30..39”)^income(x,”42k..48k”)buy(x,”PC”)單層關(guān)聯(lián)規(guī)則vs多層關(guān)聯(lián)規(guī)則Age(x,”30..39”)^income(x,”42k..48k”)buy(x,”IBMPC”)序列模式(SequencePattern)數(shù)據(jù)項(xiàng)是一個包含時間標(biāo)簽的序偶[item(i),t]第34頁,課件共55頁,創(chuàng)作于2023年2月關(guān)聯(lián)規(guī)則的量度支持度:Support(A=>B)=#AB/#N,表示A和B同時出現(xiàn)的概率。期望可信度:Support(A)=#A/#N,表示A出現(xiàn)的概率。置信度:Confidence(A=>B)=Support(A=>B)/Support(B)改善度:Lift(A=>B)=Confidence(A=>B)/Support(B)名稱描述公式支持度X、Y同時出現(xiàn)的頻率
P(X∩Y)期望可信度
Y出現(xiàn)的頻率
P(Y)置信度X出現(xiàn)的前提下,Y出現(xiàn)的頻率P(Y|X)改善度
置信度對期望可信度的比值
P(Y|X)/P(Y)第35頁,課件共55頁,創(chuàng)作于2023年2月關(guān)聯(lián)規(guī)則的度量發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則X^YZ支持度(support),s,事務(wù)中包含{X&Y&Z}的概率置信度(confidence),c,
事務(wù)中包含{X&Y}的條件下,包含Z的條件概率令最小支持度為50%,最小置信度為50%,則有AC(50%,66.6%)CA(50%,100%)顧客購買尿布顧客購買兩者顧客購買啤酒第36頁,課件共55頁,創(chuàng)作于2023年2月對支持度與置信度的批判示例總共5000名學(xué)生,其中3000人玩籃球3750人吃谷類食品2000人既玩籃球又吃谷類食品playbasketball
eatcereal[40%,66.7%]是一個誤導(dǎo)規(guī)則,因?yàn)槌怨阮愂称返膶W(xué)生占學(xué)生總數(shù)的75%,比66.7%更高playbasketball
noteatcereal[20%,33.3%]其實(shí)是一個更精確的規(guī)則,盡管它的支持度和置信度都比較低第37頁,課件共55頁,創(chuàng)作于2023年2月關(guān)聯(lián)規(guī)則的應(yīng)用市場購物籃分析(MarketBasketAnalysis)例如一個事務(wù)是客戶的一個購物清單,同一客戶的兩份清單被認(rèn)為是兩個不同的事務(wù)數(shù)據(jù)項(xiàng)是所有可能陳列貨物的全集目標(biāo)是發(fā)現(xiàn)同時出現(xiàn)的貨品組合間的關(guān)聯(lián)模式應(yīng)用:商品貨價設(shè)計、倉儲規(guī)劃、網(wǎng)頁布局、產(chǎn)品目錄設(shè)計等等交叉銷售(CrossSelling)客戶依次購買不同產(chǎn)品的序列目標(biāo)是發(fā)現(xiàn)在購買某一產(chǎn)品組合之后客戶可能購買的另一產(chǎn)品或服務(wù)應(yīng)用:網(wǎng)絡(luò)故障分析、網(wǎng)站門戶設(shè)計等第38頁,課件共55頁,創(chuàng)作于2023年2月關(guān)聯(lián)規(guī)則的應(yīng)用實(shí)例(手機(jī)郵箱精確營銷)我們定義LIFT值大于1的規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則。發(fā)現(xiàn)這樣的關(guān)聯(lián)規(guī)則是有價值,有意義的。關(guān)聯(lián)規(guī)則是基于統(tǒng)計方法發(fā)現(xiàn)的數(shù)據(jù)當(dāng)中的內(nèi)在規(guī)律,而這種規(guī)律在現(xiàn)實(shí)中是否有意義還需要市場業(yè)務(wù)人員作進(jìn)一步的驗(yàn)證。業(yè)務(wù)一業(yè)務(wù)二LSUPPORTRSUPPORTSUPPORTCONFIDENCELIFTZSCORE彩鈴業(yè)務(wù)手機(jī)郵箱0.07340.040320.03220.4386910.88021266.19541夢網(wǎng)短信手機(jī)郵箱0.670380.040320.040320.060141.4915740.52694國內(nèi)自動漫游手機(jī)郵箱0.382530.040320.020370.053251.3206819.84956本地普通通話(比例)手機(jī)郵箱0.690050.040320.030590.044331.099458.32042第39頁,課件共55頁,創(chuàng)作于2023年2月從算法到應(yīng)用第40頁,課件共55頁,創(chuàng)作于2023年2月廣東移動數(shù)據(jù)挖掘項(xiàng)目的技術(shù)特點(diǎn)幾種主要的數(shù)據(jù)挖掘技術(shù)都已經(jīng)得到廣泛的應(yīng)用聚類分析關(guān)鍵規(guī)則分類預(yù)測模型(決策樹,Logistic回歸)應(yīng)用了數(shù)據(jù)挖掘技術(shù)之外的機(jī)器學(xué)習(xí)和統(tǒng)計建模技術(shù)KPI預(yù)測(混沌時間序列分解預(yù)測方法,BP神經(jīng)網(wǎng)絡(luò)預(yù)測方法)集團(tuán)客戶流失預(yù)警(層次分析法)更多的數(shù)據(jù)分析方法新的挖掘課題更側(cè)重于高級數(shù)量分析客戶生命周期(管理營銷學(xué)的實(shí)踐,多模型支撐的分析過程)響應(yīng)模型(市場分析模型與數(shù)據(jù)挖掘模型的應(yīng)用結(jié)合)運(yùn)籌學(xué)模型(應(yīng)用于經(jīng)營規(guī)劃的優(yōu)化)第41頁,課件共55頁,創(chuàng)作于2023年2月報告內(nèi)容
數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘與統(tǒng)計分析數(shù)據(jù)挖掘的基本算法數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摽偨Y(jié)與討論數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摰?2頁,課件共55頁,創(chuàng)作于2023年2月數(shù)據(jù)挖掘過程模型(DMProcessModel)用以管理并指導(dǎo)DataMiner有效、準(zhǔn)確開展數(shù)據(jù)挖掘工作以期獲得最佳挖掘成果的一系列工作步驟的規(guī)范標(biāo)準(zhǔn)。由廠商提出的SPSS的5‘A(Assess,Access,Analysis,Act,Automat)SAS的SEMMA(Sample,Explore,Modify,Model,Assess)MICROSOFE的OLEDBforDM由行業(yè)組織提出的CRISP-DM(CrossIndustryStandardProcessforDM)CRISP-DM起源于1998年,當(dāng)時NCR、Clementine(1998年為SPSS收購)、OHRA和Daimler-Benz(現(xiàn)為Daimler-Chrysler)的聯(lián)合項(xiàng)目組提出CRISP-DM的六個階段第43頁,課件共55頁,創(chuàng)作于2023年2月TERADATA的挖掘方法論ScopeBusinessProblem度量數(shù)稱勝TeradataDataWarehouseExploreBusinessFactsinDB(EDA)望聞問切Model奇正之變,不可勝窮也Deploy工欲善其事,必先利其器CleanData謹(jǐn)防假做真時真亦假,無為有處有還無Select&Sample必也正名乎第44頁,課件共55頁,創(chuàng)作于2023年2月C
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)產(chǎn)品銷售合同協(xié)議范本
- 招標(biāo)文件房產(chǎn)項(xiàng)目
- 版短期無擔(dān)保個人
- 第三方支付保證金協(xié)議
- 知識產(chǎn)權(quán)顧問合同的爭議解決方法分享
- 學(xué)生健康飲食承諾保證書
- 裝飾拆除改造合同
- 道具采購合同范本中文模板樣式
- 導(dǎo)購員合同協(xié)議的交通補(bǔ)貼
- 幼兒園食品訂購合同范本
- NB-T47003.1-2009鋼制焊接常壓容器(同JB-T4735.1-2009)
- 聚焦高質(zhì)量+探索新高度+-2025屆高考政治復(fù)習(xí)備考策略
- 惠州市惠城區(qū)2022-2023學(xué)年七年級上學(xué)期期末教學(xué)質(zhì)量檢測數(shù)學(xué)試卷
- 北京市西城區(qū)2022-2023學(xué)年七年級上學(xué)期期末英語試題【帶答案】
- ISO45001-2018職業(yè)健康安全管理體系之5-4:“5 領(lǐng)導(dǎo)作用和工作人員參與-5.4 工作人員的協(xié)商和參與”解讀和應(yīng)用指導(dǎo)材料(2024A0-雷澤佳)
- 看圖猜成語共876道題目動畫版
- 小學(xué)二年級上冊數(shù)學(xué)-數(shù)角的個數(shù)專項(xiàng)練習(xí)
- 曲式與作品分析智慧樹知到期末考試答案章節(jié)答案2024年蘭州文理學(xué)院
- 園林設(shè)施維護(hù)方案
- 特種設(shè)備使用單位日管控、周排查、月調(diào)度示范表
- 供應(yīng)鏈成本控制與降本增效
評論
0/150
提交評論