版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘與Clementine使用培訓(xùn)(電信)2一、數(shù)據(jù)挖掘概述什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘的實(shí)現(xiàn)路線和流程數(shù)據(jù)挖掘方法論——CRISP-DM3為什么進(jìn)行數(shù)據(jù)挖掘?商業(yè)觀點(diǎn)業(yè)務(wù)中產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)存儲(chǔ)在業(yè)務(wù)系統(tǒng)中卻不能創(chuàng)造價(jià)值客戶信息數(shù)據(jù)客戶交易行為數(shù)據(jù)客戶反饋數(shù)據(jù)網(wǎng)絡(luò)數(shù)據(jù)……計(jì)算機(jī)變得越來(lái)越便宜、功能卻越來(lái)越強(qiáng)大商業(yè)競(jìng)爭(zhēng)越來(lái)越激烈,對(duì)客戶了解越多就意味著機(jī)會(huì)越大4為什么進(jìn)行數(shù)據(jù)挖掘?技術(shù)觀點(diǎn)業(yè)務(wù)中的數(shù)據(jù)量呈現(xiàn)指數(shù)增長(zhǎng)(GB/小時(shí))傳統(tǒng)技術(shù)難以從這些大量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)律數(shù)據(jù)挖掘可以幫助我們從大量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)律TheDataGapTotalnewdisk(TB)since1995NumberofanalystsFrom:R.Grossman,C.Kamath,V.Kumar,“DataMiningforScientificandEngineeringApplications”5一個(gè)市場(chǎng)營(yíng)銷的例子在數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)則或者模式女性對(duì)市場(chǎng)活動(dòng)做出回應(yīng),男性對(duì)市場(chǎng)活動(dòng)不做出回應(yīng),和年齡無(wú)關(guān)6一個(gè)市場(chǎng)營(yíng)銷的例子數(shù)據(jù)變的復(fù)雜會(huì)如何?女性對(duì)市場(chǎng)活動(dòng)做出回應(yīng),老年男性也可能對(duì)市場(chǎng)活動(dòng)做出回應(yīng)7一個(gè)市場(chǎng)營(yíng)銷的例子數(shù)據(jù)挖掘可以從異常復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)回應(yīng)的5條規(guī)則:1、如果收入大于29622,有孩子,并且孩子的數(shù)量小于等于2,那么對(duì)市場(chǎng)活動(dòng)會(huì)回應(yīng)……通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)不回應(yīng)的5條規(guī)則:1、如果收入小于12640.3,并且有一個(gè)孩子,那么對(duì)市場(chǎng)活動(dòng)不會(huì)回應(yīng)……8數(shù)據(jù)挖掘收益分析向60%的客戶發(fā)信,得到了90%的收益數(shù)據(jù)挖掘的意義9利潤(rùn)分析圖10數(shù)據(jù)挖掘效果模擬分析數(shù)據(jù)挖掘以前數(shù)據(jù)挖掘以后差別發(fā)信的數(shù)量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)響應(yīng)的數(shù)量10,0009,000(1,000)每個(gè)響應(yīng)的收入$125$125$0總收入$1,250,000$1,125,000($125,000)凈利潤(rùn)$250,000$375,000$125,000建模的費(fèi)用040,000$40,000最終的利潤(rùn)$250,000$335,000$85,000目的:發(fā)現(xiàn)新客戶(使響應(yīng)率從1%提高到1.2%)11什么是數(shù)據(jù)挖掘?不同的定義從大量數(shù)據(jù)中發(fā)現(xiàn)非平凡的、先前不知道的、有價(jià)值的規(guī)律的過(guò)程從大量數(shù)據(jù)中自動(dòng)化(或者半自動(dòng)化)的發(fā)現(xiàn)有價(jià)值規(guī)律的過(guò)程數(shù)據(jù)挖掘的其他名稱數(shù)據(jù)庫(kù)內(nèi)知識(shí)發(fā)現(xiàn)(KDD-Knowledgediscoveryindatabases)數(shù)據(jù)/模式分析商業(yè)智能人工智能……12數(shù)據(jù)挖掘的起源來(lái)源于機(jī)器學(xué)習(xí)/人工智能、模式識(shí)別、統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫(kù)傳統(tǒng)技術(shù)的局限性巨量的數(shù)據(jù)高維數(shù)據(jù)數(shù)據(jù)分布不理想機(jī)器學(xué)習(xí)/模式識(shí)別統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)系統(tǒng)13數(shù)據(jù)挖掘面臨的挑戰(zhàn)海量數(shù)據(jù)高維數(shù)據(jù)數(shù)據(jù)復(fù)雜性數(shù)據(jù)質(zhì)量問(wèn)題數(shù)據(jù)所有權(quán)和分布隱私問(wèn)題14數(shù)據(jù)挖掘方法論—項(xiàng)目順利實(shí)施的保證商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評(píng)估模型發(fā)布15商業(yè)理解商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評(píng)估結(jié)果發(fā)布確定商業(yè)目標(biāo)形勢(shì)評(píng)估確定數(shù)據(jù)挖掘目標(biāo)制定項(xiàng)目計(jì)劃背景商業(yè)目標(biāo)成功標(biāo)準(zhǔn)擁有資源需求、假定和限制風(fēng)險(xiǎn)和偶然性專業(yè)術(shù)語(yǔ)成本和收益數(shù)據(jù)挖掘目標(biāo)數(shù)據(jù)挖掘成功標(biāo)準(zhǔn)項(xiàng)目計(jì)劃工具和方法評(píng)估16數(shù)據(jù)理解商業(yè)理解
數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評(píng)估結(jié)果發(fā)布收集原始數(shù)據(jù)數(shù)據(jù)描述數(shù)據(jù)探索性分析數(shù)據(jù)質(zhì)量描述數(shù)據(jù)收集報(bào)告數(shù)據(jù)描述報(bào)告探索性數(shù)據(jù)分析報(bào)告數(shù)據(jù)質(zhì)量報(bào)告17數(shù)據(jù)準(zhǔn)備商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評(píng)估結(jié)果發(fā)布選擇數(shù)據(jù)確定分析包含/剔除數(shù)據(jù)數(shù)據(jù)集數(shù)據(jù)集描述數(shù)據(jù)清理數(shù)據(jù)清理報(bào)告數(shù)據(jù)重構(gòu)生成新的變量(字段)生成新的記錄整合數(shù)據(jù)合并相關(guān)數(shù)據(jù)格式化數(shù)據(jù)改變數(shù)據(jù)格式,適應(yīng)分析18建立模型商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評(píng)估結(jié)果發(fā)布選擇建模技術(shù)產(chǎn)生檢驗(yàn)設(shè)計(jì)建立模型評(píng)價(jià)模型模型技術(shù)模型假設(shè)檢驗(yàn)設(shè)計(jì)參數(shù)設(shè)定建模模型評(píng)價(jià)參數(shù)設(shè)定的修訂模型描述19模型評(píng)估商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評(píng)估結(jié)果發(fā)布結(jié)果評(píng)估數(shù)據(jù)挖掘過(guò)程回顧確定下一步的工作評(píng)估數(shù)據(jù)挖掘結(jié)果被認(rèn)可的模型數(shù)據(jù)挖掘過(guò)程的回顧列出可能的行動(dòng)決策20結(jié)果發(fā)布商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評(píng)估結(jié)果發(fā)布發(fā)布結(jié)果計(jì)劃監(jiān)測(cè)和維護(hù)模型計(jì)劃生成最終數(shù)據(jù)挖掘報(bào)告項(xiàng)目回顧結(jié)果發(fā)布計(jì)劃監(jiān)測(cè)和維護(hù)模型計(jì)劃最終數(shù)據(jù)挖掘報(bào)告數(shù)據(jù)挖掘報(bào)告展現(xiàn)項(xiàng)目檢驗(yàn)總結(jié)21數(shù)據(jù)挖掘模型的分類數(shù)據(jù)描述和匯總(Datadescriptionandsummarization)細(xì)分(Segmentation)概念描述(Conceptdescriptions)分類(Classification)預(yù)測(cè)(Prediction)相關(guān)分析(Dependencyanalysis)22數(shù)據(jù)挖掘技術(shù)的分類數(shù)據(jù)挖掘描述預(yù)測(cè)統(tǒng)計(jì)回歸關(guān)聯(lián)規(guī)則決策樹(shù)可視化聚類順序關(guān)聯(lián)匯總神經(jīng)網(wǎng)絡(luò)分類時(shí)間序列預(yù)測(cè)23數(shù)據(jù)挖掘的典型結(jié)果——金融問(wèn)題描述:預(yù)測(cè)信用水平是好還是差,銀行據(jù)此決定是否向客戶發(fā)放貸款,發(fā)放多少結(jié)果描述:(決策樹(shù))收入大于5萬(wàn)元/年是否有無(wú)儲(chǔ)蓄帳戶是否房主否是是否批準(zhǔn)不批準(zhǔn)批準(zhǔn)24數(shù)據(jù)挖掘的典型結(jié)果——電信問(wèn)題描述:根據(jù)客戶信息,預(yù)測(cè)客戶流失可能性結(jié)果描述:(神經(jīng)網(wǎng)絡(luò))輸入流失概率(0.87)輸出男293000元/月套餐A130元/月…………25數(shù)據(jù)挖掘的典型結(jié)果——零售問(wèn)題描述:如何決定超市中商品的擺放來(lái)增加銷售額結(jié)果描述:(Web圖)26數(shù)據(jù)挖掘的典型結(jié)果——制造業(yè)
問(wèn)題描述:如何對(duì)市場(chǎng)進(jìn)行細(xì)分,使產(chǎn)品滿足最有價(jià)值客戶結(jié)果描述:(Koholen聚類)27數(shù)據(jù)挖掘的典型結(jié)果——政府問(wèn)題描述:如何從眾多申請(qǐng)經(jīng)費(fèi)或者納稅中發(fā)現(xiàn)欺詐結(jié)果描述:(回歸、神經(jīng)網(wǎng)絡(luò))28檢驗(yàn)的形式方法層面的檢驗(yàn)
訓(xùn)練集和檢驗(yàn)集不同方法的互相印證和比較模型準(zhǔn)確性的檢驗(yàn):商業(yè)層面上的檢驗(yàn)利潤(rùn)率的檢驗(yàn)?zāi)P徒Y(jié)果可操作性的檢驗(yàn)其他檢驗(yàn)29關(guān)注那些錯(cuò)誤的預(yù)測(cè)30數(shù)據(jù)挖掘不成功的幾種可能性糟糕的數(shù)據(jù)組織抵制結(jié)果沒(méi)有被有效的發(fā)布得到了無(wú)用的結(jié)果31模型發(fā)布的形式書(shū)面報(bào)告數(shù)據(jù)庫(kù)更新針對(duì)特定主題的應(yīng)用系統(tǒng)32數(shù)據(jù)挖掘的體系結(jié)構(gòu)用戶界面SPSSDataAccessPackClementineSolutionsPublisherRuntimeC/S結(jié)構(gòu)或B/S結(jié)構(gòu)發(fā)布數(shù)據(jù)挖掘模型C/S結(jié)構(gòu)建立數(shù)據(jù)挖掘模型數(shù)據(jù)庫(kù)模型庫(kù)分析員ClementineSPSSDataAccessPack3334三、數(shù)據(jù)理解:數(shù)據(jù)的可視化和報(bào)告數(shù)據(jù)組織形式數(shù)據(jù)圖形展現(xiàn)數(shù)據(jù)表格展現(xiàn)35數(shù)據(jù)挖掘要求的數(shù)據(jù)格式變量1變量2變量3記錄1………………記錄2………………記錄3………………………………………………
變量記錄(行代表記錄,列代表變量)36數(shù)據(jù)尺度根據(jù)數(shù)據(jù)的不同,可以把變量分為以下一些類型定類變量例如:客戶編號(hào)、性別、郵編等不能比較大小定序變量產(chǎn)品等級(jí)、信用級(jí)別、客戶收入水平分類等可以比較大小、不能進(jìn)行加減運(yùn)算定距變量出生日期、溫度等可以進(jìn)行加減運(yùn)算、不能進(jìn)行乘除運(yùn)算定比變量收入、長(zhǎng)度等可以進(jìn)行乘除運(yùn)算37各類變量尺度比較變量尺度描述例子可進(jìn)行的運(yùn)算定類定類變量是離散變量,為了反映一個(gè)事物區(qū)別于其他事物的特征。只能進(jìn)行等于或者不等于的比較。郵編、客戶編號(hào)、性別眾數(shù)、列聯(lián)相關(guān)、
2
檢驗(yàn)定序定序變量是離散變量,可以比較大小??蛻舻燃?jí)、信用級(jí)別、收入水平分類中位數(shù)、累計(jì)百分比、秩相關(guān)、游程檢驗(yàn)定距定距變量是連續(xù)變量,可以比較大小,并且進(jìn)行加減運(yùn)算。日期、利潤(rùn)平均值、標(biāo)準(zhǔn)差、皮爾遜相關(guān)、t檢驗(yàn)和F檢驗(yàn)定比定比變量是連續(xù)變量,可以進(jìn)行加減乘除各類運(yùn)算。年齡、收入、長(zhǎng)度幾何平均數(shù)、比例指標(biāo)38描述性統(tǒng)計(jì)量描述統(tǒng)計(jì)量(summarystatistic),也稱匯總統(tǒng)計(jì)量或概括統(tǒng)計(jì)量用少量數(shù)字概括大量數(shù)據(jù)的技術(shù)39離散變量的描述性統(tǒng)計(jì)頻數(shù)累計(jì)頻數(shù)頻率累計(jì)頻率(累計(jì)必須是定序變量)40連續(xù)變量的描述指標(biāo)反映數(shù)據(jù)平均趨勢(shì)和位置的指標(biāo)反映數(shù)據(jù)離散趨勢(shì)的指標(biāo)反映數(shù)據(jù)分布狀況的指標(biāo)41反映連續(xù)數(shù)據(jù)平均趨勢(shì)的指標(biāo)平均數(shù)算術(shù)平均數(shù)幾何平均數(shù)截尾算術(shù)平均數(shù):比較穩(wěn)健有效地描述平均值中位數(shù):(代表群體基本的趨勢(shì),集中的趨勢(shì))眾數(shù)(多用于離散變量)四分位數(shù)(25%,50%,75%)百分位數(shù)42平均數(shù)與中位數(shù)的結(jié)合使用異常值下側(cè)10分位點(diǎn)下側(cè)四分位數(shù)上側(cè)四分位數(shù)中位數(shù)上側(cè)10分位點(diǎn)對(duì)5個(gè)數(shù)值表示的內(nèi)容說(shuō)法有些不同含義與左圖不同含義與左圖不同43反映連續(xù)數(shù)據(jù)離散趨勢(shì)的指標(biāo)極差(全距)range=max-min內(nèi)距50%的差距方差:更適合離散趨勢(shì)的描述(趨勢(shì)放大)標(biāo)準(zhǔn)差變異系數(shù):標(biāo)準(zhǔn)差/均值,值越大,則離散程度越大。44平均數(shù)與標(biāo)準(zhǔn)差的應(yīng)用
切比雪夫定理在任何一個(gè)數(shù)據(jù)集中,至少有(1-1/z2)的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在z個(gè)標(biāo)準(zhǔn)差之內(nèi),其中z是任意大于1的值。
切比雪夫定理含義1.至少75%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在2個(gè)標(biāo)準(zhǔn)差之內(nèi);2.至少89%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在3個(gè)標(biāo)準(zhǔn)差之內(nèi);(6西格瑪質(zhì)量管理應(yīng)用)3.至少94%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在4個(gè)標(biāo)準(zhǔn)差之內(nèi)。45連續(xù)變量的經(jīng)驗(yàn)法則正態(tài)分布是一種最常用的連續(xù)型分布關(guān)于正態(tài)分布的經(jīng)驗(yàn)法則1.約68%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在1個(gè)標(biāo)準(zhǔn)差之內(nèi);2.約95%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在2個(gè)標(biāo)準(zhǔn)差之內(nèi);3.幾乎全部數(shù)據(jù)項(xiàng)(99.97%)與平均數(shù)的距離在3個(gè)標(biāo)準(zhǔn)差之內(nèi)。46切比雪夫和經(jīng)驗(yàn)法則的應(yīng)用問(wèn)題某單位有100個(gè)人,他們的平均身高是170cm,標(biāo)準(zhǔn)差為5cm,那么有多少人的身高是落在160cm-180cm這個(gè)區(qū)間里的呢?經(jīng)驗(yàn)法則的應(yīng)用
根據(jù)切比雪夫定理,該單位至少有75%的人身高在160cm—180cm這個(gè)區(qū)間里根據(jù)正態(tài)分布經(jīng)驗(yàn)法則,該單位大約有95%的人身高在160cm—180cm這個(gè)區(qū)間里47反映連續(xù)數(shù)據(jù)分布狀況的指標(biāo)
偏度
峰度48圖形展現(xiàn)數(shù)據(jù)49圖形技術(shù)的應(yīng)用圖形可以用來(lái)直觀的展示數(shù)據(jù)的分布特征和取值情況常見(jiàn)的描述離散變量的圖形有條形圖餅形圖常見(jiàn)的描述連續(xù)變量的圖形有直方圖常見(jiàn)的描述兩個(gè)離散變量之間關(guān)系的圖形有Web圖條形圖常見(jiàn)的描述兩個(gè)連續(xù)變量之間關(guān)系的圖形有散點(diǎn)圖常見(jiàn)的描述一個(gè)離散變量和一個(gè)連續(xù)變量之間關(guān)系的圖形是條形圖50通過(guò)圖形可以表現(xiàn)多個(gè)變量之間的關(guān)系51Chapter2Clementine簡(jiǎn)介52Chapter2Clementine簡(jiǎn)介目的:初步了解Clementine軟件內(nèi)容:2.1SPSSClementineC/S2.2SPSSClementine面板2.3SPSSClementine可視化程序使用基礎(chǔ)節(jié)點(diǎn)SPSSfile節(jié)點(diǎn)Table節(jié)點(diǎn)532.1ClementineC/S啟動(dòng):Start..Programs..Clementine8.1…ClementineandClementineServerTools…ServerLogin54把很多操作放在數(shù)據(jù)庫(kù)層面上執(zhí)行2.不能在數(shù)據(jù)庫(kù)中執(zhí)行的操作放在強(qiáng)有力的Server上執(zhí)行3.客戶端只用于觀察結(jié)果和發(fā)出分析挖掘指令4.數(shù)據(jù)不必在網(wǎng)絡(luò)上進(jìn)行大量無(wú)效的傳輸.Clementine的結(jié)構(gòu)示意圖552.2Clementine面板流區(qū)域Streamcanvas菜單欄工具欄面板區(qū)pallete節(jié)點(diǎn)區(qū)node流、結(jié)果、模型管理區(qū)項(xiàng)目管理區(qū)56第二講:數(shù)據(jù)簡(jiǎn)單準(zhǔn)備與理解數(shù)據(jù)準(zhǔn)備之讀入數(shù)據(jù)數(shù)據(jù)理解之?dāng)?shù)據(jù)質(zhì)量數(shù)據(jù)理解之?dāng)?shù)據(jù)分布57Chapter3讀取數(shù)據(jù)文件58Chapter3讀取數(shù)據(jù)文件目的掌握Clementine如何讀取文本格式數(shù)據(jù)了解Clementine可以讀取的數(shù)據(jù)格式掌握Clementine中的字段類型和方向數(shù)據(jù)S59Chapter3讀取數(shù)據(jù)文件內(nèi)容及節(jié)點(diǎn):3.1Clementine可以讀取的數(shù)據(jù)格式3.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)3.3讀取SPSS數(shù)據(jù)3.4讀取數(shù)據(jù)庫(kù)數(shù)據(jù)(專用spss配置的鏈接)3.5Clementine中的字段類型3.6Clementine中的字段方向3.7保存Clementine流603.1Clementine可以讀取的數(shù)據(jù)格式文本格式數(shù)據(jù)SPSS/SAS數(shù)據(jù)Excel,Access,dBase,F(xiàn)oxpro,Oracle,SQLServer,DB2等數(shù)據(jù)庫(kù)(每次只能讀一個(gè)表)用戶輸入數(shù)據(jù)613.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)623.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)633.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)643.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)653.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)663.3讀取SPSS數(shù)據(jù)變量標(biāo)簽值標(biāo)簽673.4讀取數(shù)據(jù)庫(kù)數(shù)據(jù)ODBC設(shè)置數(shù)據(jù)庫(kù)----表683.5Clementine中的字段類型離散型二分eg:sex:m/f多分eg:等級(jí):好/中/差離散eg:連續(xù)型整數(shù)實(shí)數(shù)日期、時(shí)間其它693.6Clementine中的字段方向703.7讀取其它格式的數(shù)據(jù)SasFixedtextfile:同一字段在各行的同一列71Chapter4數(shù)據(jù)理解之?dāng)?shù)據(jù)質(zhì)量72Chapter4數(shù)據(jù)理解之?dāng)?shù)據(jù)質(zhì)量目的:掌握如何應(yīng)用Clementine發(fā)現(xiàn)數(shù)據(jù)的準(zhǔn)確性、完整性熟悉用于數(shù)據(jù)質(zhì)量分析的幾個(gè)節(jié)點(diǎn)內(nèi)容:4.1數(shù)據(jù)理解4.2缺失值定義4.3Quality節(jié)點(diǎn)介紹4.4Distribution節(jié)點(diǎn)----初步理解字符型字段的分布4.5Histogram/Statistics節(jié)點(diǎn)----初步理解數(shù)值型字段的分布數(shù)據(jù):Smallsamplemissing.txtRisk.txt73數(shù)據(jù)理解的內(nèi)容對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià)對(duì)數(shù)據(jù)進(jìn)行初步的描述對(duì)數(shù)據(jù)之間的關(guān)系進(jìn)行探索性分析744.1數(shù)據(jù)理解在數(shù)據(jù)挖掘之前,理解數(shù)據(jù)的取值范圍及數(shù)值分布是非常重要的Histogram/StatisticsDistribution數(shù)據(jù)質(zhì)量越高,挖掘結(jié)果準(zhǔn)確性越高Quality754.2缺失值定義Missingvaluesarevaluesinthedatasetthatareunknown,uncollected,orincorrectlyentered.Theyareinvalidfortheirfields.缺失值的定義:type節(jié)點(diǎn)系統(tǒng)默認(rèn)缺失值----onNull----數(shù)值型字段----空值----“”----“$Null”EmptyString----字符型字段----空值----“”WhiteSpace----字符型字段----空值以及空格值----“”或“”----包括EmptyString指定缺失值----BlankValue系統(tǒng)默認(rèn)缺失值指定特殊缺失值----“99”缺失值的檢查:quality節(jié)點(diǎn)764.2缺失值定義774.2缺失值定義數(shù)據(jù)缺失情況數(shù)據(jù)量的大小包含缺失值的字段的數(shù)量缺失值的數(shù)量缺失值的處理方法忽略含缺失值的字段忽略含缺失值的記錄默認(rèn)值代替缺失值根據(jù)一定規(guī)則填充缺失值784.3Quality節(jié)點(diǎn)介紹查看缺失值情況查看各類型缺失值的分布情況BlankValue的指定794.3Quality節(jié)點(diǎn)介紹Quality結(jié)果804.4Distribution節(jié)點(diǎn)----初步理解字符型字段的分布單個(gè)字段的值分布例:人群中各種風(fēng)險(xiǎn)等級(jí)人數(shù)及百分比與其它分類字段合并例:分性別顯示各種風(fēng)險(xiǎn)等級(jí)人數(shù)及百分比例:各種風(fēng)險(xiǎn)等級(jí)中男性女性各占比例814.5Histogram/Statistics節(jié)點(diǎn)----初步理解數(shù)值型字段的分布單個(gè)字段的值分布例:人群收入水平與其它分類字段合并例:顯示各種風(fēng)險(xiǎn)等級(jí)的收入水平例:顯示各收入水平的各風(fēng)險(xiǎn)等級(jí)比例82Chapter5簡(jiǎn)單數(shù)據(jù)整理83Chapter5簡(jiǎn)單數(shù)據(jù)整理目的:掌握Clementine中的數(shù)據(jù)整理技術(shù)熟悉用于數(shù)據(jù)整理的幾個(gè)節(jié)點(diǎn)內(nèi)容5.1Clem語(yǔ)言簡(jiǎn)介5.2Select節(jié)點(diǎn)介紹5.3Filter節(jié)點(diǎn)介紹5.4Derive節(jié)點(diǎn)介紹5.5自動(dòng)生成操作節(jié)點(diǎn)數(shù)據(jù)Risk.txtSmallSampleMissing.txt845.1Clem語(yǔ)言簡(jiǎn)介ClementineLanguageofExpressionManipulation應(yīng)用節(jié)點(diǎn):Derive導(dǎo)出,Select選擇,Filter過(guò)濾構(gòu)建材料:函數(shù)、符號(hào)、數(shù)字、字段記錄敏感:對(duì)每條記錄返回值(整數(shù)、實(shí)數(shù)、布爾值、字符值、日期、時(shí)間)或評(píng)估是否滿足條件兩種表達(dá)式:條件表達(dá)式與計(jì)算表達(dá)式855.2Select節(jié)點(diǎn)介紹用于根據(jù)一定條件選擇或丟棄某些記錄CLEM構(gòu)建865.3Filter節(jié)點(diǎn)介紹對(duì)某些字段進(jìn)行重命名或丟棄某些無(wú)意義的字段無(wú)意義字段缺失值占大比例所有記錄有相同值中間過(guò)程生成的中間變量875.4Derive節(jié)點(diǎn)介紹根據(jù)原有字段值生成新字段值按公式生成字段生成二分型字段生成多分型字段對(duì)所有記錄按同樣標(biāo)準(zhǔn)生成新字段對(duì)不同記錄按不同標(biāo)準(zhǔn)生成新字段對(duì)多個(gè)字段進(jìn)行同一轉(zhuǎn)換885.4Derive節(jié)點(diǎn)介紹可以利用導(dǎo)出把連續(xù)數(shù)據(jù)離散化(導(dǎo)出為標(biāo)志及集合),以進(jìn)一步分析895.5自動(dòng)生成操作節(jié)點(diǎn)自動(dòng)生成“Select”自動(dòng)生成“Filter”90第三講主要內(nèi)容數(shù)據(jù)理解之?dāng)?shù)據(jù)關(guān)系探測(cè)基本建模方法簡(jiǎn)要介紹91Chapter6數(shù)據(jù)理解之?dāng)?shù)據(jù)間簡(jiǎn)單關(guān)系92Chapter6數(shù)據(jù)理解之?dāng)?shù)據(jù)間簡(jiǎn)單關(guān)系目的:掌握如何理解字段間關(guān)系熟悉用于字段關(guān)系理解的幾個(gè)節(jié)點(diǎn)內(nèi)容6.1Matrix節(jié)點(diǎn)----研究字符型字段間關(guān)系6.2Web節(jié)點(diǎn)----研究字符型字段間關(guān)系6.3Statistics節(jié)點(diǎn)----研究連續(xù)型字段間線性相關(guān)關(guān)系6.4Plot節(jié)點(diǎn)----研究連續(xù)型字段間關(guān)系6.5Histogram節(jié)點(diǎn)----研究連續(xù)型字段與字符型字段的關(guān)系數(shù)據(jù)Risk.txt 93Chapter6數(shù)據(jù)理解之?dāng)?shù)據(jù)間簡(jiǎn)單關(guān)系解決問(wèn)題風(fēng)險(xiǎn)等級(jí)是否與收入有關(guān)風(fēng)險(xiǎn)等級(jí)是否與性別有關(guān)如果一個(gè)人的信用卡數(shù)量較多,是否意味著它欺詐的可能性也大946.1Matrix節(jié)點(diǎn)----研究字符型字段間關(guān)系解決問(wèn)題月付款的人是否比周付款的人風(fēng)險(xiǎn)程度更高男性是否比女性風(fēng)險(xiǎn)程序更高M(jìn)atrix節(jié)點(diǎn):交叉表(列聯(lián)表)來(lái)顯示字符型數(shù)據(jù)間關(guān)系行字段與列字段的選擇顯示百分比956.1Matrix節(jié)點(diǎn)----研究字符型字段間關(guān)系966.2Web節(jié)點(diǎn)----研究字符型字段間關(guān)系例:婚姻狀態(tài)、抵押貸款等是否與風(fēng)險(xiǎn)等級(jí)有關(guān)幾個(gè)小概念:人數(shù)總數(shù)百分比大類百分比小類百分比強(qiáng)、中、弱相關(guān)關(guān)系結(jié)果解讀976.2Web節(jié)點(diǎn)----研究字符型字段間關(guān)系986.3Statistics節(jié)點(diǎn)----研究連續(xù)型字段間線性相關(guān)關(guān)系例:收入是否隨年齡呈線性增長(zhǎng)Statistics節(jié)點(diǎn)設(shè)置結(jié)果解讀注意:線性相關(guān)關(guān)系而非相關(guān)關(guān)系(線形相關(guān)是相關(guān)關(guān)系的一種,其他相關(guān)關(guān)系最終需要轉(zhuǎn)化為線形相關(guān)來(lái)研究)996.3Statistics節(jié)點(diǎn)----研究連續(xù)型字段間線性相關(guān)關(guān)系1006.4Plot節(jié)點(diǎn)----研究連續(xù)型字段間關(guān)系例:顯示孩子數(shù)目與貸款數(shù)目的關(guān)系用點(diǎn)的大小來(lái)反映其代表記錄的多少用點(diǎn)的密度來(lái)反映其代表記錄的多少用不同顏色的點(diǎn)來(lái)反映不同類別的記錄1016.4Plot節(jié)點(diǎn)----研究連續(xù)型字段間關(guān)系1026.5Histogram節(jié)點(diǎn)----研究連續(xù)型字段與字符型字段的關(guān)系例:不同風(fēng)險(xiǎn)等級(jí)的人的收入情況顯示某收入水平的各風(fēng)險(xiǎn)等級(jí)人數(shù)顯示某收入水平----各風(fēng)險(xiǎn)等級(jí)在該收入水平所占的比例103表格展現(xiàn)數(shù)據(jù)104表格的元素構(gòu)成統(tǒng)計(jì)量行變量層變量列變量匯總行105表格類型
在SPSS里實(shí)現(xiàn)堆疊表(Stacking)嵌套表(Nesting)交叉表(Crosstabulation)分層表(Layers)106堆疊表107嵌套表108交叉表109分層表110把層去掉以后的效果111樞軸表技術(shù)(PivotTables)行、列、層可自由互換,達(dá)到從各個(gè)角度觀察數(shù)據(jù)的目的層行列112Clementine表格113114Chapter7建模技術(shù)概覽115Chapter7Clementine中的建模技術(shù)目的:了解Clementine中提供的各種建模技術(shù)內(nèi)容7.1Clementine提供的模型技術(shù)7.2NeuralNetworks(神經(jīng)網(wǎng)絡(luò))7.3規(guī)則歸納模型7.4統(tǒng)計(jì)模型7.5聚類模型7.6關(guān)聯(lián)規(guī)則模型7.7Sequence模型7.8總述116DataMiningModelSupervisedModel(監(jiān)督模型,預(yù)測(cè)模型,有目標(biāo)的,關(guān)注風(fēng)險(xiǎn)狀況)(PredictiveModel)UnsupervisedModelDataReduction(數(shù)據(jù)整理)NeuralNetworksC5.0C&RT(CART)RegressionLogisticregression(分類變量預(yù)測(cè))KohonenK-meansTwo-StepPCA(PrincipalComponentAnalysis)主成分分析Factor因子分析Clementine提供模型概述Clustering(聚類)APRIORIGRI(多維關(guān)聯(lián))SequenceAssociations(關(guān)聯(lián))1177.1Clementine提供的模型技術(shù)幾種技術(shù):預(yù)測(cè)、聚類、關(guān)聯(lián)規(guī)則預(yù)測(cè)技術(shù):InputsOutput六種方法:NeuralNetworks規(guī)則歸納:C5.0,C&RT與時(shí)間或順序有關(guān)的關(guān)聯(lián)規(guī)則:Sequence(Capri)統(tǒng)計(jì)學(xué):回歸、Logistic回歸1187.1Clementine提供的模型技術(shù)聚類技術(shù)無(wú)Output無(wú)監(jiān)督的學(xué)習(xí)三種方法:Kohonen統(tǒng)計(jì)學(xué):K-means、TwoStep關(guān)聯(lián)規(guī)則BothInputandOutput三種方法GRI,AprioriSequence(Capri)1197.2NeuralNetworks模仿人腦Input/Output可以是Num,也可以是SymbolicMLP與RBFN劣勢(shì):黑匣子1207.3規(guī)則歸納模型是決策樹(shù)算法與NeuralNet相比的優(yōu)勢(shì)結(jié)果好解釋自動(dòng)刪除無(wú)意義的Input字段主要是根據(jù)結(jié)果變量值對(duì)數(shù)據(jù)按Input進(jìn)行細(xì)分有兩種結(jié)果形式:決策樹(shù)形式或規(guī)則集形式1217.4統(tǒng)計(jì)模型之線性回歸統(tǒng)計(jì)模型與NeuralNet相比:嚴(yán)格的假設(shè)(如誤差正態(tài)分布)用簡(jiǎn)單方程表達(dá)模型,便于解釋可自動(dòng)選擇字段無(wú)法捕捉Inputs字段間的交互作用統(tǒng)計(jì)模型:線性回歸Logistic回歸主成分分析1227.4統(tǒng)計(jì)模型之回歸線性回歸:方程:Y=a+b1x1+b2x2++bnxn原理:尋找使誤差平方和最小的系數(shù)Output字段----Numeric輸出必須是連續(xù)型Input字段----Numeric/SymbolicLogistic回歸:方程原理:尋找使誤差平方和最小的系數(shù)回歸系數(shù)隨結(jié)果值而改變,與NN,RI相比,不適合復(fù)雜數(shù)據(jù)Output字段----Symbolic輸出必須是離散性Input字段----Numeric/Symbolic1237.4統(tǒng)計(jì)模型之主成分分析數(shù)據(jù)降維技術(shù):用少量不相關(guān)數(shù)據(jù)(主成分)來(lái)代替大量相關(guān)數(shù)據(jù)(原始數(shù)據(jù))作分析主成分是原始數(shù)據(jù)的線性組合更可能與統(tǒng)計(jì)分析方法合并使用(相對(duì)于機(jī)器學(xué)習(xí)),尤其是在多個(gè)等級(jí)分類字段可用于預(yù)測(cè)模型或聚類分析之前1247.5聚類模型發(fā)現(xiàn)有相似值記錄的群體多用于市場(chǎng)(細(xì)分客戶)和其它商業(yè)應(yīng)用與主成分分析相似,多用于預(yù)測(cè)模型之前無(wú)監(jiān)督學(xué)習(xí)(無(wú)output)三種聚類分析方法:KohonenK-meansTwoStep1257.5聚類模型Kohonen聚類是一種實(shí)施無(wú)監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法一維或二維網(wǎng)格,各神經(jīng)元相互連接K-means聚類又稱為快速聚類,(速度快,適合大量數(shù)據(jù))用戶指定類別數(shù)與記錄順序有關(guān)(小數(shù)據(jù)量與記錄順序無(wú)關(guān),大數(shù)據(jù)需要先執(zhí)行一定程序找出數(shù)據(jù)各類別中心)TwoStep聚類用戶指定范圍,模型根據(jù)統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)自動(dòng)選擇類數(shù)消耗機(jī)器資源少能給出一個(gè)較好的結(jié)果1267.6關(guān)聯(lián)規(guī)則模型尋找數(shù)據(jù)中一起發(fā)生的事情與Web相似,但以極快的速度發(fā)掘更復(fù)雜的模式與規(guī)則歸納不同之處每個(gè)規(guī)則的Output字段可能各不相同規(guī)則可用于查看,但非預(yù)測(cè)可生成同一output字段的規(guī)則,用于預(yù)測(cè)與規(guī)則歸納相比,運(yùn)行較慢,可增加限制條件從而提高速度兩種算法:Apriori,GRI(廣義規(guī)則探測(cè))1277.7Sequence模型與關(guān)聯(lián)規(guī)則不同之處在于尋找與時(shí)間/順序有關(guān)的規(guī)則應(yīng)用領(lǐng)域:零售、網(wǎng)絡(luò)日志、過(guò)程改進(jìn)用于字符型字段,數(shù)值被當(dāng)作是字符用CARMA算法1287.8綜述如果要預(yù)測(cè)某個(gè)字段----有監(jiān)督的機(jī)器學(xué)習(xí)和其中一種統(tǒng)計(jì)方法(依結(jié)果字段而定)如果想發(fā)現(xiàn)有相似行為(許多字段)的個(gè)體----聚類關(guān)聯(lián)規(guī)則不能直接用于預(yù)測(cè),但它是一種用于理解數(shù)據(jù)內(nèi)模式的有用工具如果對(duì)順序、時(shí)間有興趣,可用Sequence算法1297.8綜述如果想進(jìn)一步選擇具體的預(yù)測(cè)技術(shù),依賴于目的字段,output字段與input字段間關(guān)系有一定經(jīng)驗(yàn)規(guī)律,但不是規(guī)則Clementine的優(yōu)勢(shì)之處在于建模的簡(jiǎn)單Clementine只能發(fā)現(xiàn)數(shù)據(jù)內(nèi)存在的關(guān)系,如果數(shù)據(jù)本身不相關(guān)聯(lián),不可能提取出一個(gè)模型數(shù)據(jù)挖掘是一個(gè)迭代、重復(fù)的過(guò)程130第四講:預(yù)測(cè)建模技術(shù)神經(jīng)網(wǎng)絡(luò)模型技術(shù)決策樹(shù)模型技術(shù)回歸分析技術(shù)模型間評(píng)估技術(shù)131預(yù)測(cè)的重要性
在當(dāng)今充滿競(jìng)爭(zhēng)的社會(huì)里,一個(gè)企業(yè)如果能準(zhǔn)確地預(yù)知其未來(lái),那么其生存機(jī)會(huì)將大大增加,預(yù)測(cè)科學(xué)就是處理對(duì)未來(lái)的預(yù)測(cè)等問(wèn)題的學(xué)科。人們對(duì)未知的恐懼預(yù)測(cè)的重要性由來(lái)已久132預(yù)測(cè)相關(guān)注意事項(xiàng)預(yù)測(cè)對(duì)象所在的環(huán)境常常處于動(dòng)態(tài)變化之中,一些不可知事件會(huì)對(duì)預(yù)測(cè)結(jié)果造成很大影響;被用來(lái)進(jìn)行預(yù)測(cè)的數(shù)據(jù)常常是不穩(wěn)定、不確定和不完全的,由其來(lái)源和收集的方式所決定;不同的時(shí)間區(qū)域常常需要不同的預(yù)測(cè)方法,形式上難以統(tǒng)一;因?yàn)椴煌念A(yù)測(cè)方法在復(fù)雜性、數(shù)據(jù)要求以及準(zhǔn)確程度上均不同,因此選擇一個(gè)合適的預(yù)測(cè)方法是很困難的。133Chapter8NeuralNetworks134Chpater8NeuralNetworks目的:掌握如何在Clementine中進(jìn)行NeuralNetwork模型的構(gòu)建和解讀掌握NeuralNetwork節(jié)點(diǎn)數(shù)據(jù):Risktrain.txt135Chpater8NeuralNetworks內(nèi)容8.1NeuralNet節(jié)點(diǎn)介紹8.2構(gòu)建NeuralNetwork8.3模型管理區(qū)介紹8.4結(jié)果查看和結(jié)果解釋8.5模型預(yù)測(cè)值生成8.6模型評(píng)價(jià)8.7理解預(yù)測(cè)原因8.8模型總結(jié)136神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)技術(shù)基本概念:神經(jīng)元三層結(jié)構(gòu)1378.1NeuralNet節(jié)點(diǎn)介紹字段方向----Type節(jié)點(diǎn)或表In----X字段----自變量字段Out----Y字段----結(jié)果字段----聚類、主成分分析除外Both----自變量和結(jié)果字段----關(guān)聯(lián)規(guī)則或順序算法None----不用字段ID----typeless----None五種NeuralNet方法,默認(rèn)Quick過(guò)度訓(xùn)練(長(zhǎng)時(shí)間接觸同一個(gè)數(shù)據(jù)源,并用同樣特征去描述其他數(shù)據(jù)集,結(jié)果往往錯(cuò)誤)停止規(guī)則(避免過(guò)度訓(xùn)練)字段的相對(duì)重要性分析138避免過(guò)度訓(xùn)練問(wèn)題
選擇測(cè)試集錯(cuò)誤較低,或者兩集錯(cuò)誤交叉點(diǎn)1398.2構(gòu)建NeuralNetwork例:用age、sex、income等來(lái)預(yù)測(cè)客戶的風(fēng)險(xiǎn)等級(jí)1408.3模型管理區(qū)介紹瀏覽模型結(jié)果導(dǎo)出模型代碼將模型載入數(shù)據(jù)流將模型導(dǎo)入項(xiàng)目管理區(qū)保存、清除、裝載模型管理區(qū)1418.4結(jié)果查看和結(jié)果解釋結(jié)果的瀏覽:Rightclickgenerated“model”模型準(zhǔn)確性輸入字段或?qū)虞敵鲎侄位驅(qū)痈鬏斎胱侄蔚南鄬?duì)重要性1428.5模型預(yù)測(cè)值生成將模型裝入數(shù)據(jù)流$N-Risk是NeuralNet對(duì)該記錄風(fēng)險(xiǎn)等級(jí)的預(yù)測(cè)值$NC-Risk是$N-Risk的置信度(confidence)1438.6模型評(píng)價(jià)----預(yù)測(cè)值與實(shí)際值的比較利用Matrix比較,通常關(guān)注的不是整體,例如欠費(fèi)用戶群而不是整個(gè)用戶群。1448.6模型評(píng)價(jià)EvaluationNode----評(píng)估比較模型,以選擇最優(yōu)模型Evaluation的原理:將數(shù)據(jù)按預(yù)測(cè)值和置信度從高到低排序,將數(shù)據(jù)拆分為多個(gè)集合,每集合包含相同的記錄數(shù),然后作圖。關(guān)注值:flag變量的真值,set變量的第一個(gè)值五種圖形:收益圖、功效圖、響應(yīng)圖、投資回報(bào)圖、利潤(rùn)圖1458.6模型評(píng)價(jià)收益圖功效圖1468.7理解預(yù)測(cè)原因Web節(jié)點(diǎn)--SymbolicInput&SymbolicOutputDistribuiton節(jié)點(diǎn)—SymbolicInput&SymbolicOutputHistogram節(jié)點(diǎn)--NumericInput&SymbolicOutput1478.8模型總結(jié)預(yù)測(cè)風(fēng)險(xiǎn)中最重要因素是婚姻狀態(tài)和收入離異、單身、鰥寡人士可能是壞客戶神經(jīng)網(wǎng)絡(luò)模型,高收入人群是好客戶,但這一點(diǎn)并不與實(shí)際相符,如此預(yù)測(cè),可能會(huì)給銀行帶來(lái)?yè)p失題外話:可用驗(yàn)證數(shù)據(jù)集,利用分析節(jié)點(diǎn)、評(píng)估節(jié)點(diǎn)、Matrix節(jié)點(diǎn)對(duì)模型進(jìn)行評(píng)估148Chapter9規(guī)則歸納模型決策樹(shù)技術(shù)149Chapter9規(guī)則歸納模型目的:掌握如何在Clementine中進(jìn)行規(guī)則歸納模型的構(gòu)建和解讀掌握C5.0節(jié)點(diǎn)數(shù)據(jù)Risktrain.txt150Chapter9規(guī)則歸納模型內(nèi)容9.1C5.0、C&RT介紹9.2構(gòu)建C5.0模型9.3C5.0決策樹(shù)型結(jié)果瀏覽和解釋9.4C5.0規(guī)則集型結(jié)果瀏覽和解釋9.5模型預(yù)測(cè)值生成9.6模型評(píng)價(jià)9.7模型總結(jié)1519.1C5.0、C&RT介紹C5.0與C&RT的相似之處:構(gòu)建決策樹(shù),按照自變量與結(jié)果變量的關(guān)系將數(shù)據(jù)拆分成各子群C5.0與C&RT的不同之處:
C5.0C&RTOutput字段SymSymorNumOutput決策樹(shù)—一條記錄只有一個(gè)預(yù)測(cè)結(jié)果規(guī)則歸納—一條記錄可能有多個(gè)規(guī)則可用決策樹(shù)決策樹(shù)拆分可一分多只能一分二算法標(biāo)準(zhǔn)信息收益比離散測(cè)量修剪準(zhǔn)則不同規(guī)定最小分支記錄數(shù)1529.2構(gòu)建C5.0模型模型的準(zhǔn)確性與一般性模型的驗(yàn)證方法交叉驗(yàn)證(分散數(shù)據(jù)集,不斷用新數(shù)據(jù)去驗(yàn)證)模型結(jié)果字段值的減少(輸入變量最終并非全部進(jìn)入模型)建立多個(gè)模型:耗時(shí)長(zhǎng)難以解釋結(jié)果1539.2構(gòu)建C5.0模型1549.3C5.0決策樹(shù)型結(jié)果瀏覽和解釋結(jié)果:決策樹(shù)、模型形式可分支的子根眾數(shù)顯示例數(shù)與置信度繼承性1559.4C5.0規(guī)則集型結(jié)果瀏覽和解釋1569.5模型預(yù)測(cè)值生成1579.6模型評(píng)價(jià)----預(yù)測(cè)值與實(shí)際值的比較利用Matrix來(lái)比較預(yù)測(cè)值與實(shí)際值1589.6模型評(píng)價(jià)----不同值的收益圖GainsChartfortheGoodRiskCategory
GainsChartfortheBadLossCategory
1599.7模型總結(jié)C5.0使模型可以不用Web、Histogram等即可有效地理解模型與NeuralNet不同,沒(méi)有SensitivityAnalysis,但同樣可以辨別字段的重要性160決策樹(shù)的優(yōu)點(diǎn)可以生成可以理解的規(guī)則計(jì)算量相對(duì)來(lái)說(shuō)不是很大可以處理連續(xù)和種類字段決策樹(shù)可以清晰的顯示哪些字段比較重要161決策樹(shù)的缺點(diǎn)對(duì)連續(xù)性的字段比較難預(yù)測(cè)對(duì)有時(shí)間順序的數(shù)據(jù),需要很多預(yù)處理的工作當(dāng)類別太多時(shí),錯(cuò)誤可能就會(huì)增加的比較快(對(duì)分類變量重新劃分,二分或者數(shù)據(jù)降維,spss聚類分析法)一般的算法分類的時(shí)候,只是根據(jù)一個(gè)字段來(lái)分類(假設(shè)各字段間相關(guān)度不是很高)162Chapter10模型比較163Chpater10模型比較目的掌握如何利用Analysis節(jié)點(diǎn)進(jìn)行模型的評(píng)估掌握如何利用驗(yàn)證數(shù)據(jù)集比較不同模型內(nèi)容10.1Analysis節(jié)點(diǎn)用于比較模型10.2Evaluation節(jié)點(diǎn)用于比較模型10.3利用驗(yàn)證數(shù)據(jù)集進(jìn)行模型比較數(shù)據(jù)Risktrain.txtRiskvalidation.txt16410.1Analysis節(jié)點(diǎn)用于比較模型16510.1Analysis節(jié)點(diǎn)用于比較模型評(píng)估多個(gè)模型評(píng)估各模型結(jié)果的一致性TrainValidation16610.2Evaluation節(jié)點(diǎn)用于比較模型16710.2Evaluation節(jié)點(diǎn)用于比較模型評(píng)估多個(gè)模型評(píng)估各模型結(jié)果的一致性TrainValidation16810.3利用驗(yàn)證數(shù)據(jù)集進(jìn)行模型比較169第五講主要內(nèi)容聚類分析模型技術(shù)關(guān)聯(lián)規(guī)則模型技術(shù)序列探測(cè)模型技術(shù)170Chapter11KohonenNetworks171Chpater11KohonenNetworks目的掌握Kohonen神經(jīng)網(wǎng)絡(luò)的建立、結(jié)果解釋掌握Kohonen節(jié)點(diǎn)內(nèi)容11.1Kohonen節(jié)點(diǎn)介紹11.2構(gòu)建KohonenNetworks11.3結(jié)果解釋11.4為每條記錄產(chǎn)生類別字段11.5結(jié)果理解數(shù)據(jù)Shopping.txt172Kohonen網(wǎng)絡(luò)結(jié)構(gòu)輸入數(shù)據(jù)被展示在輸入層中,其數(shù)據(jù)值被傳送到輸出層。然后每個(gè)輸出層神經(jīng)元都做出回應(yīng)?;貞?yīng)最強(qiáng)烈的輸出層神經(jīng)元稱為嬴家,它的回應(yīng)就做為輸入數(shù)據(jù)的結(jié)果。17311.1Kohonen節(jié)點(diǎn)介紹聚類分析發(fā)現(xiàn)數(shù)據(jù)的總體結(jié)構(gòu)及相互關(guān)系類間差別,類內(nèi)相似17411.2構(gòu)建KohonenNetworksKohonen節(jié)點(diǎn)字段方向設(shè)置:購(gòu)買(mǎi)產(chǎn)品與否----In其它----None/Out/Both反饋圖:紅色越深,記錄越多指定類別數(shù):長(zhǎng)*寬17511.3結(jié)果解釋Kohonen結(jié)果X-軸Y-軸17611.4為每條記錄產(chǎn)生類別字段$KX----Kohonen$KY----KohonenCluster=$KX----Kohonen><$KY----Kohonen17711.5結(jié)果理解各Cluster人群多少----條圖各Cluster人群的一般特征年齡----條圖性別----條圖購(gòu)買(mǎi)產(chǎn)品----Web圖孩子婚姻狀態(tài)工作狀態(tài)各Cluster人群總述178各種聚類方法比較179聚類分析之我見(jiàn)聚類分析的優(yōu)勢(shì)在于:它能夠在我們對(duì)數(shù)據(jù)了解很少時(shí),提供一種了解數(shù)據(jù)的方法。發(fā)現(xiàn)個(gè)體與變量間的綜合關(guān)系。例如:根據(jù)各省市的各種經(jīng)濟(jì)指數(shù)將所有的省市分為幾個(gè)等級(jí)。例如:根據(jù)各種指數(shù)的取值范圍,將模式相近的指數(shù)的聚為一類。聚類分析的缺陷在于:各類之間均值等可能有差別,但每個(gè)個(gè)體劃歸哪類更多地依賴于數(shù)字,解釋起來(lái)比較困難。180Chapter12關(guān)聯(lián)規(guī)則181Chpater12關(guān)聯(lián)規(guī)則目的掌握關(guān)聯(lián)規(guī)則在Clementine中的建立、結(jié)果解釋掌握Apriori節(jié)點(diǎn)無(wú)監(jiān)督的探索性模型內(nèi)容12.1關(guān)聯(lián)規(guī)則簡(jiǎn)介12.2Apriori節(jié)點(diǎn)及結(jié)果解釋12.3產(chǎn)生特定結(jié)果的規(guī)則集12.4特定結(jié)果規(guī)則集應(yīng)用于各記錄數(shù)據(jù)Shopping.txt18212.1關(guān)聯(lián)規(guī)則簡(jiǎn)介解決問(wèn)題考慮的是關(guān)聯(lián),得到的是規(guī)則,處理變量之間的相關(guān),而非客戶之間)買(mǎi)香煙的人是否傾向于也買(mǎi)巧克力或啤酒高血脂的人是否也常伴有高血壓買(mǎi)車險(xiǎn)的人是否也傾向于買(mǎi)房險(xiǎn)節(jié)點(diǎn)GRI----Numeric字段可作為輸入字段,可用于連續(xù)型變量Apriori----只接受Symbolic字段(只能用字符型輸入)作為輸入字段特殊之處:產(chǎn)生的模型不能直接加入數(shù)據(jù)流18312.2Apriori節(jié)點(diǎn)及結(jié)果解釋Apriori節(jié)點(diǎn)設(shè)置字段類型及方向:無(wú)主次先后之分Content1----flag----bothContent2----flag----bothContent3----flag----bothContentn----flag----both結(jié)果:有多少人購(gòu)買(mǎi)了香煙?占總?cè)藬?shù)的百分比其中,有多少人購(gòu)買(mǎi)了巧克力?占多少百分比Instances(滿足記錄數(shù))SupportConfidenceConsequentAntecedent1Antecedent2205115.071.0巧克力香煙18412.2Apriori節(jié)點(diǎn)及結(jié)果解釋18512.3產(chǎn)生特定結(jié)果的規(guī)則集GeneratemenuRulesetView18612.4特定結(jié)果規(guī)則集應(yīng)用于各記錄187Chapter13序列檢測(cè)188Chpater13序列檢測(cè)目的掌握Clementine如何對(duì)與時(shí)間序列有關(guān)的數(shù)據(jù)進(jìn)行建模熟悉Sequence節(jié)點(diǎn)也會(huì)存在規(guī)則的重復(fù)內(nèi)容13.1序列檢測(cè)簡(jiǎn)介13.2序列檢測(cè)所要求的數(shù)據(jù)結(jié)構(gòu)13.3序列檢測(cè)模型13.4Sequence節(jié)點(diǎn)及結(jié)果解釋13.5Sequence結(jié)果用于各條數(shù)據(jù)數(shù)據(jù)Telrepair.txt18913.1序列檢測(cè)簡(jiǎn)介解決的問(wèn)題:與順序有關(guān)的關(guān)聯(lián)規(guī)則Antecedent1
Antecedent2Consequent可用節(jié)點(diǎn):Sequence、Capri19013.2序列檢測(cè)所要求的數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)1一個(gè)客戶一次購(gòu)買(mǎi)多個(gè)產(chǎn)品算一條記錄數(shù)據(jù)結(jié)構(gòu)2一個(gè)客戶一次購(gòu)買(mǎi)多個(gè)產(chǎn)品算多條記錄19113.3序列檢測(cè)模型Sequence與Capri二者各有優(yōu)勢(shì)二者使用不同的算法均可指定順序檢測(cè)標(biāo)準(zhǔn)對(duì)于“A1”
”A2”
”C”,Capri可以不包含下列“A1”
”A2””A2”
”C”“A1”
”C”19213.4Sequence節(jié)點(diǎn)及結(jié)果解釋Sequence節(jié)點(diǎn)設(shè)置:字段類型及方向IDfield----Numeric/Symbolic----AnyTimefield----Range----InContentfields----Set----In/out/both----多個(gè)一致19313.4Sequence節(jié)點(diǎn)及結(jié)果解釋結(jié)果:在先買(mǎi)了A1,又買(mǎi)了A2的客戶中,60%的人后來(lái)買(mǎi)了C;12%的客戶(48例)是先買(mǎi)了A1,又買(mǎi)了A2,最后又買(mǎi)了C可對(duì)規(guī)則進(jìn)行重新排序19413.4Sequence節(jié)點(diǎn)及結(jié)果解釋19513.5Sequence結(jié)果用于各條數(shù)據(jù)196總結(jié)業(yè)務(wù)問(wèn)題是關(guān)鍵歷史數(shù)據(jù)是支撐業(yè)務(wù)思路、數(shù)據(jù)分析思路的轉(zhuǎn)變數(shù)據(jù)分析的常態(tài)與技巧如何使用數(shù)據(jù)分析應(yīng)用結(jié)果是業(yè)務(wù)思路的延伸方法永遠(yuǎn)是方法,工具永遠(yuǎn)是工具197五、Clementine組合模型技巧1.離散變量預(yù)測(cè)問(wèn)題;2.離散變量模型的檢驗(yàn);3.組合模型概述;4.二值預(yù)測(cè)問(wèn)題的組合模型。198Clementine中提供的模型概述DataMiningModelSupervisedModel(PredictiveModel)UnsupervisedModelDataReductionNeuralNetworksC5.0C&RT(CART)RegressionLogisticregressionKohonenK-meansTwo-StepPCA(PrincipalComponentAnalysis)FactorClusteringAPRIORIGRISequenceAssociations199離散變量預(yù)測(cè)問(wèn)題是最重要的一類問(wèn)題離散變量預(yù)測(cè)問(wèn)題也就是分類問(wèn)題在Clementine(8.1)中有很多模型可以做分類問(wèn)題NeuralNetC5.0C&RTLogistic連續(xù)變量預(yù)測(cè)問(wèn)題可以通過(guò)某種形式轉(zhuǎn)化為離散變量預(yù)測(cè)問(wèn)題多值變量問(wèn)題可以轉(zhuǎn)化為兩值預(yù)測(cè)問(wèn)題200離散值預(yù)測(cè)模型的幾個(gè)重要檢驗(yàn)指標(biāo)1.準(zhǔn)確率2.命中率3.覆蓋率201離散值預(yù)測(cè)模型的幾個(gè)重要檢驗(yàn)圖形1.收益圖(Gains)2.響應(yīng)圖(Response)3.功效圖(Lift)4.利潤(rùn)圖(Profit)5.投資回報(bào)圖(ROI)202離散值預(yù)測(cè)模型的幾個(gè)重要檢驗(yàn)圖形203什么是組合模型在數(shù)據(jù)挖掘模型中,每種模型都有各自的優(yōu)點(diǎn)和缺陷,為了更好的利用模型的優(yōu)點(diǎn),在Clementine中可以把不同模型通過(guò)一定的方式組合在一起以解決特定的問(wèn)題為了提高模型的精確度,我們可以把多個(gè)模型通過(guò)某種方式組合在一起204組合模型類型為了提高模型的可解釋性,可以應(yīng)用C5.0對(duì)預(yù)測(cè)或者聚類結(jié)果進(jìn)行解釋為了得到各指標(biāo)對(duì)模型影響的重要程度,可以應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)指標(biāo)重要性進(jìn)行分析可以通過(guò)模型的特定組合提高模型的準(zhǔn)確性——下面以數(shù)據(jù)挖掘模型中最常用的二值預(yù)測(cè)來(lái)說(shuō)明組合模型如何能夠提供模型的準(zhǔn)確性205二值預(yù)測(cè)是數(shù)據(jù)挖掘中重要問(wèn)題二值預(yù)測(cè)問(wèn)題是個(gè)非常常見(jiàn)的數(shù)據(jù)挖掘問(wèn)題流失、客戶獲得、欠費(fèi)、欺詐……多值預(yù)測(cè)可以轉(zhuǎn)化為二值預(yù)測(cè)問(wèn)題連續(xù)預(yù)測(cè)問(wèn)題可以轉(zhuǎn)化為多值預(yù)測(cè)問(wèn)題206二值預(yù)測(cè)結(jié)果的可能表達(dá)方式TorF,我們稱為預(yù)測(cè)值;預(yù)測(cè)值為T(mén),預(yù)測(cè)準(zhǔn)確率為P;或者預(yù)測(cè)值為F,預(yù)測(cè)準(zhǔn)確率為P;T的概率為p,稱為預(yù)測(cè)評(píng)分(scoring)。和置信度區(qū)分例:以預(yù)測(cè)流失為例預(yù)測(cè)客戶A流失;預(yù)測(cè)客戶B不流失,把握程度為0.8;預(yù)測(cè)客戶C的流失概率為0.792。207多值(set)問(wèn)題向二值問(wèn)題的轉(zhuǎn)化(flag)多值集合變量向幾個(gè)二值變量的轉(zhuǎn)化(設(shè)為標(biāo)志)由Clementine中神經(jīng)網(wǎng)絡(luò)算法想起的……1、多個(gè)輸出變量;2、如果把二值變量問(wèn)題再轉(zhuǎn)化成多值變量問(wèn)題。208連續(xù)預(yù)測(cè)問(wèn)題向多值預(yù)測(cè)問(wèn)題的轉(zhuǎn)化從C&RT算法想到的……用分級(jí)節(jié)點(diǎn)把連續(xù)預(yù)測(cè)問(wèn)題轉(zhuǎn)化為多值預(yù)測(cè)問(wèn)題209二值預(yù)測(cè)的結(jié)果表述TorF評(píng)分(scoring)T->1.0F->0.0二值預(yù)測(cè)結(jié)果的評(píng)價(jià)(1)總體準(zhǔn)確率(2)命中率(3)覆蓋率NoYes覆蓋率命中率210Clementine中預(yù)測(cè)二值問(wèn)題NeuralNet($N-outcome,$NC-outcome)C5.0($C-outcome,$CC-outcome)C&RT($R-outcome,$RC-outcome)得到這Logistic($L-outcome,$LP-outcome)得到概率$N-outcome,$C-outcome,$R-outcome,$L-outcome為預(yù)測(cè)T或F,得到置信度;$NC-outcome,$CC-outcome,$RC-outcome,$LP為前者預(yù)測(cè)的把握程度。211由預(yù)測(cè)值和預(yù)測(cè)把握程度向預(yù)測(cè)評(píng)分的轉(zhuǎn)化由Clementine中神經(jīng)網(wǎng)絡(luò)算法說(shuō)起|0.5–RawOutput|*2例如,神經(jīng)網(wǎng)絡(luò)的rawoutput取置信度,概率為預(yù)測(cè)為真的概率,置信度為無(wú)論預(yù)測(cè)真假的可信程度。在Clementine中生成的預(yù)測(cè)模型(神經(jīng)網(wǎng)絡(luò)、決策樹(shù)或Logistic回歸)后接一個(gè)Derive節(jié)點(diǎn),生成新字段——預(yù)測(cè)評(píng)分:Type: Conditional
If ‘$N-Outcome’
Then 0.5+(‘$NC-Outcome/2.0)
Else 0.5-(‘$NC-Outcome/2.0)
212練習(xí)1對(duì)數(shù)據(jù)集data1.csv建立二值預(yù)測(cè)模型,實(shí)現(xiàn)以下目標(biāo)
深圳電信/組合模型)應(yīng)用C5.0模型得出預(yù)測(cè)模型,對(duì)模型的準(zhǔn)確率(總體準(zhǔn)確率、命中率、覆蓋率)作出描述;應(yīng)用神經(jīng)網(wǎng)絡(luò)模型建立預(yù)測(cè)模型,練習(xí)把離散問(wèn)題連續(xù)化的方法;(提示:flag->range,T->1.0)應(yīng)用C5.0模型建立scoring型的預(yù)測(cè)模型(提示:$C,$CC的組合)213組合模型解決二值預(yù)測(cè)的幾種思路投票法(Voting)——少數(shù)服從多數(shù),小概率服從大概率原則,主要目的在于提高命中率修正法——根據(jù)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果比較調(diào)整預(yù)測(cè)(多個(gè)訓(xùn)練集,一個(gè)檢驗(yàn)集)214投票法之一——多個(gè)模型一致對(duì)于同一問(wèn)題建立不同模型,會(huì)得出不同的結(jié)果,多個(gè)模型同時(shí)預(yù)測(cè)同一結(jié)果時(shí),往往這個(gè)結(jié)果更加可信方法的優(yōu)點(diǎn)和缺點(diǎn):優(yōu)點(diǎn):提高模型預(yù)測(cè)精度缺點(diǎn):會(huì)有一些記錄沒(méi)有預(yù)測(cè)結(jié)果215投票法之二——建立奇數(shù)個(gè)模型建立奇數(shù)個(gè)預(yù)測(cè)模型遵循少數(shù)服從多數(shù)原則Derivenode(type:Conditional)If‘$N-Outcome’==‘$C-Outcome’
or‘$N-Outcome’==‘$R-Outcome’
then‘$N-Outcome’
else‘$C-Outcome’帶$的變量需要加引號(hào)216投票法之三——更高把握程度原則應(yīng)用那些具有更多把握程度的模型進(jìn)行預(yù)測(cè)If ‘$CC-Outcome’>‘$NC-Outcome’Then ‘$C-Outcome’Else ‘$N-Outcome’217投票法之四——根據(jù)把握程度匯總進(jìn)行投票建立不同模型的評(píng)分(scoring)模型對(duì)不同模型得到評(píng)分(score)進(jìn)行平均轉(zhuǎn)化為二值預(yù)測(cè)問(wèn)題Converting:Ifall_score>0.5then‘T’else‘F’Convertingtheconfidenceback
If all_score>0.5
Then (all_score–0.5)*2
Else (0.5-all_score)*2218練習(xí)2應(yīng)用data2分別應(yīng)用神經(jīng)網(wǎng)絡(luò)模型、C5.0模型和C&RT模型建立二值預(yù)測(cè)模型,再按照以上4中思路建立預(yù)測(cè)模型。對(duì)于test數(shù)據(jù)完成下表:模型名稱總體準(zhǔn)確率模型命中率模型覆蓋率把握程度與實(shí)際結(jié)果比較圖神經(jīng)網(wǎng)絡(luò)C5.0C&RT思路一思路二思路三思路四219修正法之一——模型堆疊(stacking)把模型的預(yù)測(cè)輸出作為另外模型的輸入220修正法之二——找出錯(cuò)誤預(yù)測(cè)的規(guī)律(errormodelling)對(duì)于一個(gè)預(yù)測(cè)模型,我們能夠發(fā)現(xiàn)錯(cuò)誤預(yù)測(cè)的規(guī)律嗎?挑出那些錯(cuò)誤的,建立模型(常常需要平衡數(shù)據(jù))缺點(diǎn):有些記錄會(huì)沒(méi)有預(yù)測(cè)221修正法之三——多個(gè)模型一致(agreementmodelling)
處理投票法一中的不確定值多個(gè)模型預(yù)測(cè)一致的作為預(yù)測(cè)對(duì)那些不一致的重新建立模型進(jìn)行預(yù)測(cè)Selectnode
‘$N-Outcome’/==‘$C-Outcome’Derivenode(type:conditional)
If ‘$N-Outcome’==‘$C-Outcome’
Then ‘$N-Outcome’
Else ‘$N1-Outcome’222修正法之四——對(duì)模型建模
(speciallistmodelling)建立關(guān)于何時(shí)規(guī)則模型或神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)準(zhǔn)確的模型,得出模型的適用條件(數(shù)據(jù)情況)根據(jù)數(shù)據(jù)情況選擇使用不同的模型223練習(xí)3對(duì)于數(shù)據(jù)集data1todata5按照修正法思路1-思路4建立模型,對(duì)于數(shù)據(jù)集test完成下表:模型名稱總體準(zhǔn)確率模型命中率模型覆蓋率修正法思路一修正法思路二修正法思路三修正法思路四224總結(jié)——提高二值預(yù)測(cè)效果的幾種思路離散問(wèn)題向打分(scoring)問(wèn)題的轉(zhuǎn)化投票法之一——多個(gè)模型一致投票法之二——建立奇數(shù)個(gè)模型投票法之三——更高把握程度原則投票法之四——根據(jù)把握程度匯總進(jìn)行投票修正法之一——模型堆疊(stacking)修正法之二——找出錯(cuò)誤預(yù)測(cè)的規(guī)律修正法之三——多個(gè)模型一致修正法之四——對(duì)模型建模225多尋思!建立模型的思路萬(wàn)萬(wàn)千?。。∥覀?cè)趺床拍馨l(fā)現(xiàn)?226六、數(shù)據(jù)挖掘技術(shù)在電信行業(yè)中的應(yīng)用數(shù)據(jù)挖掘技術(shù)在電信行業(yè)中的應(yīng)用案例1:流失分析案例2:流失癥狀與營(yíng)銷預(yù)演案例3:交叉銷售(套餐分析)227客戶生命周期理論—客戶分析的基礎(chǔ)時(shí)間收入利潤(rùn)損失銷售商品或服務(wù)客戶關(guān)系結(jié)束認(rèn)知
更少損失更加有效的認(rèn)知利潤(rùn)
更多的利潤(rùn)更加多的銷售額更加有效的認(rèn)知MOREPROFIT利潤(rùn)甚至更多利潤(rùn)更長(zhǎng)的客戶關(guān)系更加多的銷售額時(shí)間利潤(rùn)案例一電信行業(yè)的流失分析229電信行業(yè)流失分析的數(shù)據(jù)挖掘模型商業(yè)理解文檔發(fā)布“D”流Clementine
Solutions
Publisher數(shù)據(jù)理解“E”流數(shù)據(jù)探索數(shù)據(jù)準(zhǔn)備“P”流建模和評(píng)估“M”流230客戶流失分析之商業(yè)理解移動(dòng)通信業(yè)是一個(gè)競(jìng)爭(zhēng)異常激烈的行業(yè),對(duì)于移動(dòng)通信運(yùn)營(yíng)商來(lái)說(shuō),如何對(duì)其客戶進(jìn)行有效的管理,盡可能的減少客戶的流失和跳網(wǎng)是一個(gè)緊迫的問(wèn)題。在這里我們將介紹數(shù)據(jù)挖掘在移動(dòng)通信業(yè)關(guān)于客戶流失研究中的應(yīng)用。數(shù)據(jù)挖掘技術(shù)將提供功能強(qiáng)大的模型,可以回答“哪些客戶最可能流失?”和“為什么這些客戶會(huì)流失?”等問(wèn)題。231客戶流失分析之商業(yè)理解什么是流失,流失如何定義連續(xù)欠費(fèi)不交?號(hào)碼長(zhǎng)期不用?二分標(biāo)記變量?流失和哪些因素相關(guān)顧客年齡?性別?收入?行業(yè)?話費(fèi)水平?話務(wù)質(zhì)量?確定數(shù)據(jù)挖掘目標(biāo)(1)對(duì)客戶進(jìn)行聚類分析,尋找那些流失量比較大的客戶群(2)建立規(guī)則,描述那些易于流失的客戶群的特征(3)建立打分模型,對(duì)客戶流失可能性(概率)進(jìn)行評(píng)價(jià)232客戶流失分析之?dāng)?shù)據(jù)理解字段名稱字段含義指標(biāo)解釋Customer_ID顧客IDGender性別Age年齡Connect_Date入網(wǎng)時(shí)間顧客生命周期的開(kāi)始,日期型L_O_S服務(wù)時(shí)間服務(wù)顧客時(shí)間長(zhǎng)Dropped_Calls掉線次數(shù)在6個(gè)月內(nèi)電話掉線次數(shù)PayMethod支付方式話費(fèi)支付方式——預(yù)交還是后付tariff話費(fèi)類型Churn是否流失二分標(biāo)記變量,是或否Handset手機(jī)品牌顧客信息資料(共31769條記錄,10個(gè)變量)233客戶流失分析之?dāng)?shù)據(jù)理解字段名稱字段含義指標(biāo)解釋Customer_ID顧客IDPeak_calls高峰時(shí)期電話數(shù)Peak_mins高峰時(shí)期電話時(shí)長(zhǎng)OffPeak_calls低谷時(shí)期電話數(shù)OffPeak_mins_Sum低谷時(shí)期電話時(shí)長(zhǎng)Weekend_calls周末時(shí)期電話數(shù)Weekend_mins周末時(shí)期電話時(shí)長(zhǎng)International_mins國(guó)際電話時(shí)長(zhǎng)Nat_call_cost_Sum國(guó)內(nèi)電話花費(fèi)=高峰+低谷+周末花費(fèi)month月份CDR數(shù)據(jù)資料(190,614條記錄,10個(gè)變量)234客戶流失分析之?dāng)?shù)據(jù)理解字段名稱字段含義指標(biāo)解釋tariff資費(fèi)種類fixed_cost固定費(fèi)用該種資費(fèi)類型每月需支付固定費(fèi)用Free_mins免費(fèi)時(shí)長(zhǎng)該種資費(fèi)類型每月提供免費(fèi)(國(guó)內(nèi))時(shí)長(zhǎng)peak_rate高峰時(shí)期話費(fèi)該種資費(fèi)類型在高峰時(shí)期每分鐘話費(fèi)(超過(guò)免費(fèi)時(shí)長(zhǎng)部分)OffPeak_rate低谷時(shí)期話費(fèi)該種資費(fèi)類型在低谷時(shí)期每分鐘話費(fèi)(超過(guò)免費(fèi)時(shí)長(zhǎng)部分)Weekend_rate周末時(shí)期話費(fèi)該種資費(fèi)類型在周末時(shí)期每分鐘話費(fèi)(超過(guò)免費(fèi)時(shí)長(zhǎng)部分)International_rate國(guó)際長(zhǎng)途話費(fèi)該種資費(fèi)類型國(guó)際長(zhǎng)途電話每分鐘話費(fèi)Voicemail語(yǔ)音信箱語(yǔ)信信箱收費(fèi)(未用)SMS短信服務(wù)短信服務(wù)收費(fèi)(未用)資費(fèi)數(shù)據(jù)資料(共5條記錄,9個(gè)變量)235客戶流失分析之?dāng)?shù)據(jù)準(zhǔn)備把CDR月度數(shù)據(jù)匯總成6個(gè)月的總體數(shù)據(jù)根據(jù)CDR數(shù)據(jù)生成各種不同的平均數(shù)據(jù)和組合數(shù)據(jù)歸并客戶信息數(shù)據(jù)、CDR數(shù)據(jù)與話費(fèi)數(shù)據(jù)對(duì)客戶現(xiàn)在付費(fèi)類型的合理性進(jìn)行簡(jiǎn)單分析236客戶流失分析之建立模型和模型評(píng)估對(duì)客戶進(jìn)行聚類分析,并比較不同客戶群流失可能性建立規(guī)則,描述那些易于流失的客戶群的特征建立打分模型,對(duì)客戶流失可能性(概率)進(jìn)行評(píng)價(jià)237客戶流失分析之模型發(fā)布對(duì)每個(gè)特定客戶的流失可能性進(jìn)行打分評(píng)估寫(xiě)回?cái)?shù)據(jù)庫(kù)238客戶流失分析之建模圖
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 商丘工學(xué)院《科技文獻(xiàn)檢索》2023-2024學(xué)年第一學(xué)期期末試卷
- 商洛學(xué)院《數(shù)據(jù)新聞基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年離婚財(cái)產(chǎn)清算與分割合同版B版
- 勞務(wù)合同范例 簡(jiǎn)約
- 2024至2030年苦木干浸膏項(xiàng)目投資價(jià)值分析報(bào)告
- 2024至2030年百折門(mén)項(xiàng)目投資價(jià)值分析報(bào)告
- 電梯物流合同范例
- 京東簽訂銷售合同范例
- 經(jīng)濟(jì)合同范例含法律
- 2024至2030年劍麻沐浴用品項(xiàng)目投資價(jià)值分析報(bào)告
- 質(zhì)量手冊(cè)培訓(xùn)課件
- 公路工程檢測(cè)技術(shù) 課件 任務(wù)2.1無(wú)機(jī)結(jié)合料穩(wěn)定材料檢測(cè)
- 曲阜師范大學(xué)教育經(jīng)濟(jì)學(xué)期末復(fù)習(xí)題
- 國(guó)開(kāi)01880-組織行為學(xué)機(jī)考復(fù)習(xí)資料
- 混合式教學(xué)模式
- 2023年《思想道德與法治》期末考試復(fù)習(xí)題庫(kù)(帶答案)
- 籃球交叉步持球突破教學(xué)設(shè)計(jì)-高二下學(xué)期體育與健康人教版
- 八年級(jí)上冊(cè)生物天津生物期末試卷測(cè)試卷(含答案解析)
- 契訶夫《苦惱》課件
- 服從崗位調(diào)配申請(qǐng)書(shū)
- 以甘蔗為原料年產(chǎn)10萬(wàn)噸生物乙醇工廠設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論