![數(shù)據(jù)挖掘與Clementine使用培訓(xùn)電信學(xué)習(xí)教案_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/08249047-c691-4f50-a6d3-24577c98102d/08249047-c691-4f50-a6d3-24577c98102d1.gif)
![數(shù)據(jù)挖掘與Clementine使用培訓(xùn)電信學(xué)習(xí)教案_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/08249047-c691-4f50-a6d3-24577c98102d/08249047-c691-4f50-a6d3-24577c98102d2.gif)
![數(shù)據(jù)挖掘與Clementine使用培訓(xùn)電信學(xué)習(xí)教案_第3頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/08249047-c691-4f50-a6d3-24577c98102d/08249047-c691-4f50-a6d3-24577c98102d3.gif)
![數(shù)據(jù)挖掘與Clementine使用培訓(xùn)電信學(xué)習(xí)教案_第4頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/08249047-c691-4f50-a6d3-24577c98102d/08249047-c691-4f50-a6d3-24577c98102d4.gif)
![數(shù)據(jù)挖掘與Clementine使用培訓(xùn)電信學(xué)習(xí)教案_第5頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/08249047-c691-4f50-a6d3-24577c98102d/08249047-c691-4f50-a6d3-24577c98102d5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、會計學(xué)1數(shù)據(jù)挖掘與數(shù)據(jù)挖掘與Clementine使用使用(shyng)培訓(xùn)培訓(xùn)電信電信第一頁,共306頁。2第1頁/共306頁第二頁,共306頁。3n越多就意味著機會越大第2頁/共306頁第三頁,共306頁。40500,0001,000,0001,500,0002,000,0002,500,0003,000,0003,500,0004,000,00019951996199719981999The Data GapTotal new disk (TB) since 1995Number of analysts From: R. Grossman, C. Kamath, V. Kumar, “Da
2、ta Mining for Scientific and Engineering Applications”第3頁/共306頁第四頁,共306頁。5在數(shù)據(jù)中發(fā)現(xiàn)有價值的規(guī)則(guz)或者模式女性對市場活動做出回應(yīng)(hu yn),男性對市場活動不做出回應(yīng)(hu yn),和年齡無關(guān)第4頁/共306頁第五頁,共306頁。6數(shù)據(jù)(shj)變的復(fù)雜會如何?女性對市場活動做出回應(yīng),老年男性(nnxng)也可能對市場活動做出回應(yīng)第5頁/共306頁第六頁,共306頁。7數(shù)據(jù)挖掘可以(ky)從異常復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律通過(tnggu)數(shù)據(jù)挖掘發(fā)現(xiàn)回應(yīng)的5條規(guī)則:1、如果收入大于29622,有孩子,并且孩子的數(shù)量
3、小于等于2,那么對市場活動會回應(yīng)通過數(shù)據(jù)挖掘發(fā)現(xiàn)不回應(yīng)的5條規(guī)則:1、如果收入小于12640.3,并且有一個孩子,那么對市場活動不會回應(yīng)第6頁/共306頁第七頁,共306頁。8向60%的客戶發(fā)信,得到了90%的收益數(shù)據(jù)挖掘的意義第7頁/共306頁第八頁,共306頁。9第8頁/共306頁第九頁,共306頁。10數(shù)據(jù)挖掘以前數(shù)據(jù)挖掘以后差別發(fā)信的數(shù)量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)響應(yīng)的數(shù)量10,0009,000(1,000)每個響應(yīng)的收入$125$125$0總收入$1,250,000$1,125,000($125,00
4、0)凈利潤$250,000$375,000$125,000建模的費用040,000$40,000最終的利潤$250,000$335,000$85,000目的:發(fā)現(xiàn)新客戶(使響應(yīng)(xingyng)率從1%提高到1.2%)第9頁/共306頁第十頁,共306頁。11第10頁/共306頁第十一頁,共306頁。12機器學(xué)習(xí)/模式識別統(tǒng)計學(xué)數(shù)據(jù)挖掘數(shù)據(jù)庫系統(tǒng)第11頁/共306頁第十二頁,共306頁。13第12頁/共306頁第十三頁,共306頁。14 商業(yè)理解(lji) 數(shù)據(jù)理解(lji) 數(shù)據(jù)準備 建立模型 模型評估 模型發(fā)布第13頁/共306頁第十四頁,共306頁。15商業(yè)(shngy)理解 數(shù)據(jù)(sh
5、j) 理解數(shù)據(jù)準備建立模型模型評估結(jié)果發(fā)布確定商業(yè)目標形勢評估確定數(shù)據(jù)挖掘目標制定項目計劃背景商業(yè)目標成功標準擁有資源需求、假定和限制風(fēng)險和偶然性專業(yè)術(shù)語成本和收益數(shù)據(jù)挖掘目標數(shù)據(jù)挖掘成功標準項目計劃工具和方法評估第14頁/共306頁第十五頁,共306頁。16商業(yè)(shngy)理解 數(shù)據(jù)(shj) 理解數(shù)據(jù)準備建立模型模型評估結(jié)果發(fā)布收集原始數(shù)據(jù)數(shù)據(jù)描述數(shù)據(jù)探索性分析數(shù)據(jù)質(zhì)量描述數(shù)據(jù)收集報告數(shù)據(jù)描述報告探索性數(shù)據(jù)分析報告數(shù)據(jù)質(zhì)量報告第15頁/共306頁第十六頁,共306頁。17商業(yè)(shngy)理解 數(shù)據(jù)(shj) 理解數(shù)據(jù)準備建立模型模型評估結(jié)果發(fā)布選擇數(shù)據(jù)確定分析包含/剔除數(shù)據(jù)數(shù)據(jù)集數(shù)據(jù)集
6、描述數(shù)據(jù)清理數(shù)據(jù)清理報告數(shù)據(jù)重構(gòu)生成新的變量(字段)生成新的記錄整合數(shù)據(jù)合并相關(guān)數(shù)據(jù)格式化數(shù)據(jù)改變數(shù)據(jù)格式,適應(yīng)分析第16頁/共306頁第十七頁,共306頁。18商業(yè)(shngy)理解 數(shù)據(jù)(shj) 理解數(shù)據(jù)準備建立模型模型評估結(jié)果發(fā)布選擇建模技術(shù)產(chǎn)生檢驗設(shè)計建立模型評價模型模型技術(shù)模型假設(shè)檢驗設(shè)計參數(shù)設(shè)定建模模型評價參數(shù)設(shè)定的修訂模型描述第17頁/共306頁第十八頁,共306頁。19商業(yè)(shngy)理解 數(shù)據(jù)(shj) 理解數(shù)據(jù)準備建立模型模型評估結(jié)果發(fā)布結(jié)果評估數(shù)據(jù)挖掘過程回顧確定下一步的工作評估數(shù)據(jù)挖掘結(jié)果被認可的模型數(shù)據(jù)挖掘過程的回顧列出可能的行動決策第18頁/共306頁第十九頁,
7、共306頁。20商業(yè)(shngy)理解 數(shù)據(jù)(shj) 理解數(shù)據(jù)準備建立模型模型評估結(jié)果發(fā)布發(fā)布結(jié)果計劃監(jiān)測和維護模型計劃生成最終數(shù)據(jù)挖掘報告項目回顧結(jié)果發(fā)布計劃監(jiān)測和維護模型計劃最終數(shù)據(jù)挖掘報告數(shù)據(jù)挖掘報告展現(xiàn)項目檢驗總結(jié)第19頁/共306頁第二十頁,共306頁。21C2C1解決方案商業(yè)價值商業(yè)(shngy)需要第20頁/共306頁第二十一頁,共306頁。22第21頁/共306頁第二十二頁,共306頁。23第22頁/共306頁第二十三頁,共306頁。24第23頁/共306頁第二十四頁,共306頁。25第24頁/共306頁第二十五頁,共306頁。26第25頁/共306頁第二十六頁,共306頁。
8、27第26頁/共306頁第二十七頁,共306頁。28第27頁/共306頁第二十八頁,共306頁。29第28頁/共306頁第二十九頁,共306頁。30第29頁/共306頁第三十頁,共306頁。31數(shù)據(jù)挖掘描述(mio sh)預(yù)測(yc)統(tǒng)計回歸關(guān)聯(lián)規(guī)則決策樹可視化聚類順序關(guān)聯(lián)匯總神經(jīng)網(wǎng)絡(luò)分類時間序列預(yù)測第30頁/共306頁第三十一頁,共306頁。32收入(shur)大于5萬元/年是否有無儲蓄帳戶是否房主否是是否批準不批準批準第31頁/共306頁第三十二頁,共306頁。33輸 入流失(lish)概率(0.87)輸 出男293000元/月套餐A130元/月第32頁/共306頁第三十三頁,共306頁。
9、34第33頁/共306頁第三十四頁,共306頁。35第34頁/共306頁第三十五頁,共306頁。36第35頁/共306頁第三十六頁,共306頁。37第36頁/共306頁第三十七頁,共306頁。38第37頁/共306頁第三十八頁,共306頁。39第38頁/共306頁第三十九頁,共306頁。40第39頁/共306頁第四十頁,共306頁。41用戶界面SPSS Data Access PackClementine Solutions Publisher RuntimeC/S結(jié)構(gòu)或B/S結(jié)構(gòu)發(fā)布數(shù)據(jù)挖掘模型C/S結(jié)構(gòu)建立數(shù)據(jù)挖掘模型數(shù)據(jù)庫模型庫分析員ClementineSPSS Data Access
10、Pack第40頁/共306頁第四十一頁,共306頁。42第41頁/共306頁第四十二頁,共306頁。43第42頁/共306頁第四十三頁,共306頁。44!?第43頁/共306頁第四十四頁,共306頁。45 商業(yè)(shngy)理解 數(shù)據(jù)理解 數(shù)據(jù)準備 建立模型 模型評估 模型發(fā)布第44頁/共306頁第四十五頁,共306頁。461994:Clementine V1.0發(fā)布1998:被SPSS收購1999:Clementine ServerClementine Solution Publisher2000:Clementine V6.02002年9月:Clementine 7.02003年9月:Cl
11、ementine 7.1中文版2003年4季度Clementine 8.01998-20072004年1季度Clementine 8.1中文版2006年12月Clementine 10.0中文版第45頁/共306頁第四十六頁,共306頁。47第46頁/共306頁第四十七頁,共306頁。48C/S結(jié)構(gòu)運行以下情況必須使用C/S結(jié)構(gòu)運行:單機內(nèi)存或者硬盤不夠大,難以運行大量數(shù)據(jù);單機上沒有或者無法配置數(shù)據(jù)連結(jié)(lin ji),無法從數(shù)據(jù)庫中獲取數(shù)據(jù);組織規(guī)則不允許下載大量數(shù)據(jù)到單機。以下情況可以使用C/S結(jié)構(gòu)運行:要處理的數(shù)據(jù)量很大,并且存儲在可以通過SPSS Data Access技術(shù)可到達的數(shù)
12、據(jù)庫處;單機速度慢,Clementine Server運行的機器配置高。第47頁/共306頁第四十八頁,共306頁。49Clementine的三層結(jié)構(gòu):1、數(shù)據(jù)庫層;通過Clementine Server進行調(diào)度,把那些可以通過SQL語句執(zhí)行的數(shù)據(jù)操作過程以SQL語句的形式導(dǎo)入數(shù)據(jù)庫并在其中進行;2、服務(wù)器端;進行調(diào)度,不能在數(shù)據(jù)庫層面進行的操作在服務(wù)器端進行(比如數(shù)據(jù)挖掘模型計算過程)3、客戶端。在三層結(jié)構(gòu)下通過Clementine Server進行調(diào)度,由客戶端向服務(wù)器端發(fā)送數(shù)據(jù)挖掘指令,并接受(jishu)和展示數(shù)據(jù)挖掘結(jié)果。Clementine Client和Clementine Se
13、rver通過SDL(Stream Description Language )之間進行(jnxng)信息交換,Clementine Server和Database通過SQL語句進行(jnxng)信息交換。第48頁/共306頁第四十九頁,共306頁。50命令行方式使用操作系統(tǒng)Windows系列Unix系列特點:命令行操作不能生成圖形,所有結(jié)果保存在文件里或者數(shù)據(jù)庫中適合于以下情況使用:運行耗時較長的建模過程希望在后臺運行一些耗時較長的數(shù)據(jù)準備過程希望按照一定的時間定期運行(比如(br)每周、每月等)希望把Clementine(數(shù)據(jù)挖掘過程)運行過程嵌入應(yīng)用系統(tǒng)中第49頁/共306頁第五十頁,共3
14、06頁。51第50頁/共306頁第五十一頁,共306頁。52第51頁/共306頁第五十二頁,共306頁。53第52頁/共306頁第五十三頁,共306頁。54n拷貝、粘貼拷貝、粘貼第53頁/共306頁第五十四頁,共306頁。55第54頁/共306頁第五十五頁,共306頁。56第55頁/共306頁第五十六頁,共306頁。57一個例子(l zi)羅斯文商貿(mào)公司 商業(yè)問題: 微軟公司提供的案例數(shù)據(jù)庫羅斯文商貿(mào)公司,如何對客戶價值進行(jnxng)評估 背景介紹: 1.羅斯文商貿(mào)公司是Microsoft數(shù)據(jù)庫產(chǎn)品(Access, SQL Server等)中的一個示例數(shù)據(jù)庫; 2.它虛擬了一家經(jīng)銷日用品的
15、商貿(mào)公司的情況; 3.目前該公司保存的歷史數(shù)據(jù)資料,見下頁; 4.我們需要對客戶的價值進行(jnxng)評估,以便采取有效的市場銷售策略。第56頁/共306頁第五十七頁,共306頁。58羅斯林商貿(mào)公司(n s)數(shù)據(jù)第57頁/共306頁第五十八頁,共306頁。59羅斯文商貿(mào)公司統(tǒng)計(tngj)問題數(shù)據(jù)挖掘問題: (1)如何描述客戶價值?購買總金額(jn )?購買頻次?平均每次購買金額(jn )?最近購買金額(jn )?它們的線性組合?使用最簡單的購買總金額(jn ) (2)需要什么樣的數(shù)據(jù)挖掘方法?描述匯總?分類?預(yù)測?概念描述?細分?相關(guān)分析?使用最簡單的描述匯總 (3)需要的數(shù)據(jù)從哪里來?從
16、以下幾個來源:客戶訂單訂單明細第58頁/共306頁第五十九頁,共306頁。60羅斯文商貿(mào)公司(n s)商業(yè)問題解決方案 商業(yè)問題解決方案 從所有客戶(k h)中找出最有價值的10個客戶(k h),將名單發(fā)給市場部門,讓其對這些客戶(k h)進行更多的關(guān)注第59頁/共306頁第六十頁,共306頁。61第60頁/共306頁第六十一頁,共306頁。62第61頁/共306頁第六十二頁,共306頁。63第62頁/共306頁第六十三頁,共306頁。64一個數(shù)據(jù)挖掘的實例(shl)客戶信用級別判斷系統(tǒng)第63頁/共306頁第六十四頁,共306頁。65第64頁/共306頁第六十五頁,共306頁。66變量名稱變量
17、含義備注Age年齡Sex性別Value消費水平分為高(high)、低(low)和一般(normal)三種Range聯(lián)系范圍分為高(high)、低(low)和一般(normal)三種WorkRatio工作時段比例0-1之間DistanceRatio 長話比例0-1之間Credit信用級別以下五種之一:gradeA、gradeB 、gradeC、gradeX、gradeY第65頁/共306頁第六十六頁,共306頁。67數(shù)據(jù)理解(數(shù)據(jù)流)數(shù)據(jù)準備(數(shù)據(jù)流)建立模型(數(shù)據(jù)流)模型評估(數(shù)據(jù)流)結(jié)果發(fā)布(數(shù)據(jù)流)商業(yè)理解(文檔)第66頁/共306頁第六十七頁,共306頁。68第67頁/共306頁第六十八
18、頁,共306頁。69第68頁/共306頁第六十九頁,共306頁。70第69頁/共306頁第七十頁,共306頁。71第70頁/共306頁第七十一頁,共306頁。72變量1變量2變量3記錄1記錄2記錄3l 變量l 記錄(jl)(行代表記錄(jl),列代表變量)第71頁/共306頁第七十二頁,共306頁。73第72頁/共306頁第七十三頁,共306頁。74變量尺度描述例子可進行的運算定類定類變量是離散變量,為了反映一個事物區(qū)別于其他事物的特征。只能進行等于或者不等于的比較。郵編、客戶編號、性別眾數(shù)、列聯(lián)相關(guān)、 2 檢驗定序定序變量是離散變量,可以比較大小。客戶等級、信用級別、收入水平分類中位數(shù)、累計
19、百分比、秩相關(guān)、游程檢驗定距定距變量是連續(xù)變量,可以比較大小,并且進行加減運算。日期、利潤平均值、標準差、皮爾遜相關(guān)、t檢驗和F檢驗定比定比變量是連續(xù)變量,可以進行加減乘除各類運算。年齡、收入、長度幾何平均數(shù)、比例指標第73頁/共306頁第七十四頁,共306頁。75第74頁/共306頁第七十五頁,共306頁。76第75頁/共306頁第七十六頁,共306頁。77第76頁/共306頁第七十七頁,共306頁。78第77頁/共306頁第七十八頁,共306頁。79異常值下側(cè)10分位點下側(cè)四分位數(shù)上側(cè)四分位數(shù)中位數(shù)上側(cè)10分位點含義(hny)與左圖不同含義與左圖不同第78頁/共306頁第七十九頁,共306
20、頁。80第79頁/共306頁第八十頁,共306頁。81n3.3.至少至少94%94%的數(shù)據(jù)的數(shù)據(jù)(shj)(shj)項與平均數(shù)的距項與平均數(shù)的距離在離在4 4個標準差之內(nèi)。個標準差之內(nèi)。第80頁/共306頁第八十一頁,共306頁。82第81頁/共306頁第八十二頁,共306頁。83第82頁/共306頁第八十三頁,共306頁。84第83頁/共306頁第八十四頁,共306頁。85第84頁/共306頁第八十五頁,共306頁。86第85頁/共306頁第八十六頁,共306頁。87第86頁/共306頁第八十七頁,共306頁。88第87頁/共306頁第八十八頁,共306頁。89nTable 第88頁/共30
21、6頁第八十九頁,共306頁。90第89頁/共306頁第九十頁,共306頁。911.把很多操作放在數(shù)據(jù)庫層面上執(zhí)行2. 不能在數(shù)據(jù)庫中執(zhí)行的操作放在強有力的Server上執(zhí)行3. 客戶端只用于觀察結(jié)果和發(fā)出分析挖掘指令4. 數(shù)據(jù)不必在網(wǎng)絡(luò)上進行大量無效的傳輸.Clementine的結(jié)構(gòu)(jigu)示意圖第90頁/共306頁第九十一頁,共306頁。92流區(qū)域Stream canvas菜單欄工具欄面板區(qū)pallete節(jié)點區(qū)node流、結(jié)果、模型管理區(qū)項目管理區(qū)第91頁/共306頁第九十二頁,共306頁。93第92頁/共306頁第九十三頁,共306頁。94第93頁/共306頁第九十四頁,共306頁。9
22、5第94頁/共306頁第九十五頁,共306頁。96第95頁/共306頁第九十六頁,共306頁。97第96頁/共306頁第九十七頁,共306頁。98第97頁/共306頁第九十八頁,共306頁。99第98頁/共306頁第九十九頁,共306頁。100第99頁/共306頁第一百頁,共306頁。101第100頁/共306頁第一百零一頁,共306頁。102第101頁/共306頁第一百零二頁,共306頁。103第102頁/共306頁第一百零三頁,共306頁。104數(shù)據(jù)庫-表第103頁/共306頁第一百零四頁,共306頁。105第104頁/共306頁第一百零五頁,共306頁。106第105頁/共306頁第一百
23、零六頁,共306頁。107第106頁/共306頁第一百零七頁,共306頁。108第107頁/共306頁第一百零八頁,共306頁。109第108頁/共306頁第一百零九頁,共306頁。110數(shù)據(jù)理解(lji)的內(nèi)容 對數(shù)據(jù)質(zhì)量進行評價 對數(shù)據(jù)進行初步的描述 對數(shù)據(jù)之間的關(guān)系(gun x)進行探索性分析第109頁/共306頁第一百一十頁,共306頁。111第110頁/共306頁第一百一十一頁,共306頁。112第111頁/共306頁第一百一十二頁,共306頁。113第112頁/共306頁第一百一十三頁,共306頁。114第113頁/共306頁第一百一十四頁,共306頁。115第114頁/共306頁
24、第一百一十五頁,共306頁。116第115頁/共306頁第一百一十六頁,共306頁。117第116頁/共306頁第一百一十七頁,共306頁。118第117頁/共306頁第一百一十八頁,共306頁。119第118頁/共306頁第一百一十九頁,共306頁。120第119頁/共306頁第一百二十頁,共306頁。121第120頁/共306頁第一百二十一頁,共306頁。122第121頁/共306頁第一百二十二頁,共306頁。123第122頁/共306頁第一百二十三頁,共306頁。124第123頁/共306頁第一百二十四頁,共306頁。125可以利用導(dǎo)出把連續(xù)數(shù)據(jù)離散化(導(dǎo)出為標志(biozh)及集合),
25、以進一步分析第124頁/共306頁第一百二十五頁,共306頁。126第125頁/共306頁第一百二十六頁,共306頁。127第126頁/共306頁第一百二十七頁,共306頁。128第127頁/共306頁第一百二十八頁,共306頁。129第128頁/共306頁第一百二十九頁,共306頁。130第129頁/共306頁第一百三十頁,共306頁。131系(gun x)n行字段與列字段的選擇n顯示百分比第130頁/共306頁第一百三十一頁,共306頁。132第131頁/共306頁第一百三十二頁,共306頁。133第132頁/共306頁第一百三十三頁,共306頁。134第133頁/共306頁第一百三十四頁
26、,共306頁。135第134頁/共306頁第一百三十五頁,共306頁。136第135頁/共306頁第一百三十六頁,共306頁。137第136頁/共306頁第一百三十七頁,共306頁。138第137頁/共306頁第一百三十八頁,共306頁。139第138頁/共306頁第一百三十九頁,共306頁。140第139頁/共306頁第一百四十頁,共306頁。141統(tǒng)計量行變量層變量列變量匯總行第140頁/共306頁第一百四十一頁,共306頁。142第141頁/共306頁第一百四十二頁,共306頁。143第142頁/共306頁第一百四十三頁,共306頁。144第143頁/共306頁第一百四十四頁,共306頁
27、。145第144頁/共306頁第一百四十五頁,共306頁。146第145頁/共306頁第一百四十六頁,共306頁。147第146頁/共306頁第一百四十七頁,共306頁。148行、列、層可自由互換,達到(d do)從各個角度觀察數(shù)據(jù)的目的層行列第147頁/共306頁第一百四十八頁,共306頁。149第148頁/共306頁第一百四十九頁,共306頁。150第149頁/共306頁第一百五十頁,共306頁。151第150頁/共306頁第一百五十一頁,共306頁。152第151頁/共306頁第一百五十二頁,共306頁。153Data Mining ModelSupervised Model(監(jiān)督模型,
28、預(yù)測模型,有目標的,關(guān)注(gunzh)風(fēng)險狀況)(Predictive Model)Unsupervised ModelData Reduction(數(shù)據(jù)(shj)整理)Neural NetworksC5.0C&RT(CART)RegressionLogistic regression(分類變量(binling)預(yù)測)KohonenK-meansTwo-StepPCA(Principal Component Analysis)主成分分析Factor因子分析Clementine提供模型概述Clustering(聚類)APRIORIGRI(多維關(guān)聯(lián))SequenceAssociations(關(guān)聯(lián))
29、第152頁/共306頁第一百五十三頁,共306頁。154第153頁/共306頁第一百五十四頁,共306頁。155第154頁/共306頁第一百五十五頁,共306頁。156第155頁/共306頁第一百五十六頁,共306頁。157細分n有兩種結(jié)果形式:決策樹形式或規(guī)則集形式第156頁/共306頁第一百五十七頁,共306頁。158第157頁/共306頁第一百五十八頁,共306頁。159第158頁/共306頁第一百五十九頁,共306頁。160第159頁/共306頁第一百六十頁,共306頁。161第160頁/共306頁第一百六十一頁,共306頁。162第161頁/共306頁第一百六十二頁,共306頁。16
30、3第162頁/共306頁第一百六十三頁,共306頁。164第163頁/共306頁第一百六十四頁,共306頁。165第164頁/共306頁第一百六十五頁,共306頁。166第165頁/共306頁第一百六十六頁,共306頁。167第166頁/共306頁第一百六十七頁,共306頁。168人們(rn men)對未知的恐懼預(yù)測的重要性由來已久第167頁/共306頁第一百六十八頁,共306頁。169同,因此選擇一個合適的預(yù)測方法是很困難的。第168頁/共306頁第一百六十九頁,共306頁。170第169頁/共306頁第一百七十頁,共306頁。171第170頁/共306頁第一百七十一頁,共306頁。172第
31、171頁/共306頁第一百七十二頁,共306頁。173基本概念: 神經(jīng)元 三層結(jié)構(gòu)(jigu)第172頁/共306頁第一百七十三頁,共306頁。174第173頁/共306頁第一百七十四頁,共306頁。175第174頁/共306頁第一百七十五頁,共306頁。176第175頁/共306頁第一百七十六頁,共306頁。177第176頁/共306頁第一百七十七頁,共306頁。178第177頁/共306頁第一百七十八頁,共306頁。179將模型裝入數(shù)據(jù)流$N-Risk是Neural Net對該記錄風(fēng)險(fngxin)等級的預(yù)測值$NC-Risk是$N-Risk的置信度(confidence)第178頁/共
32、306頁第一百七十九頁,共306頁。180第179頁/共306頁第一百八十頁,共306頁。181第180頁/共306頁第一百八十一頁,共306頁。182收益圖功效圖第181頁/共306頁第一百八十二頁,共306頁。183第182頁/共306頁第一百八十三頁,共306頁。184第183頁/共306頁第一百八十四頁,共306頁。185第184頁/共306頁第一百八十五頁,共306頁。186第185頁/共306頁第一百八十六頁,共306頁。187第186頁/共306頁第一百八十七頁,共306頁。188 C5.0C&RTOutput字段SymSym or NumOutput決策樹一條記錄只有一個預(yù)測結(jié)
33、果規(guī)則歸納一條記錄可能有多個規(guī)則可用決策樹決策樹拆分可一分多只能一分二算法標準信息收益比離散測量修剪準則不同規(guī)定最小分支記錄數(shù)第187頁/共306頁第一百八十八頁,共306頁。189第188頁/共306頁第一百八十九頁,共306頁。190第189頁/共306頁第一百九十頁,共306頁。191第190頁/共306頁第一百九十一頁,共306頁。192第191頁/共306頁第一百九十二頁,共306頁。193第192頁/共306頁第一百九十三頁,共306頁。194第193頁/共306頁第一百九十四頁,共306頁。195Gains Chart for the Good Risk Category Gai
34、ns Chart for the Bad Loss Category 第194頁/共306頁第一百九十五頁,共306頁。196第195頁/共306頁第一百九十六頁,共306頁。197第196頁/共306頁第一百九十七頁,共306頁。198第197頁/共306頁第一百九十八頁,共306頁。199第198頁/共306頁第一百九十九頁,共306頁。200第199頁/共306頁第二百頁,共306頁。201第200頁/共306頁第二百零一頁,共306頁。202TrainValidation第201頁/共306頁第二百零二頁,共306頁。203第202頁/共306頁第二百零三頁,共306頁。204Trai
35、nValidation第203頁/共306頁第二百零四頁,共306頁。205第204頁/共306頁第二百零五頁,共306頁。206第205頁/共306頁第二百零六頁,共306頁。207第206頁/共306頁第二百零七頁,共306頁。208第207頁/共306頁第二百零八頁,共306頁。209 輸入數(shù)據(jù)被展示在輸入層中,其數(shù)據(jù)值被傳送到輸出層。然后每個輸出層神經(jīng)元都做出回應(yīng)。回應(yīng)最強烈(qin li)的輸出層神經(jīng)元稱為嬴家,它的回應(yīng)就做為輸入數(shù)據(jù)的結(jié)果。第208頁/共306頁第二百零九頁,共306頁。210第209頁/共306頁第二百一十頁,共306頁。211第210頁/共306頁第二百一十一頁
36、,共306頁。212第211頁/共306頁第二百一十二頁,共306頁。213第212頁/共306頁第二百一十三頁,共306頁。214第213頁/共306頁第二百一十四頁,共306頁。215第214頁/共306頁第二百一十五頁,共306頁。216第215頁/共306頁第二百一十六頁,共306頁。217第216頁/共306頁第二百一十七頁,共306頁。218第217頁/共306頁第二百一十八頁,共306頁。219n特殊之處:產(chǎn)生的模型不能直接加入數(shù)據(jù)流第218頁/共306頁第二百一十九頁,共306頁。220分比Instances(滿足記錄數(shù))SupportConfidenceConsequentA
37、ntecedent1Antecedent2205115.071.0巧克力香煙第219頁/共306頁第二百二十頁,共306頁。221第220頁/共306頁第二百二十一頁,共306頁。222第221頁/共306頁第二百二十二頁,共306頁。223第222頁/共306頁第二百二十三頁,共306頁。224第223頁/共306頁第二百二十四頁,共306頁。225第224頁/共306頁第二百二十五頁,共306頁。226第225頁/共306頁第二百二十六頁,共306頁。227第226頁/共306頁第二百二十七頁,共306頁。228第227頁/共306頁第二百二十八頁,共306頁。229第228頁/共306頁
38、第二百二十九頁,共306頁。230第229頁/共306頁第二百三十頁,共306頁。231第230頁/共306頁第二百三十一頁,共306頁。232第231頁/共306頁第二百三十二頁,共306頁。233第232頁/共306頁第二百三十三頁,共306頁。234第233頁/共306頁第二百三十四頁,共306頁。235Data Mining ModelSupervised Model(Predictive Model)Unsupervised ModelData ReductionNeural NetworksC5.0C&RT(CART)RegressionLogistic regressionKoh
39、onenK-meansTwo-StepPCA(Principal Component Analysis)FactorClusteringAPRIORIGRISequenceAssociations第234頁/共306頁第二百三十五頁,共306頁。236第235頁/共306頁第二百三十六頁,共306頁。237第236頁/共306頁第二百三十七頁,共306頁。238(ROI)第237頁/共306頁第二百三十八頁,共306頁。239第238頁/共306頁第二百三十九頁,共306頁。240第239頁/共306頁第二百四十頁,共306頁。241第240頁/共306頁第二百四十一頁,共306頁。242第2
40、41頁/共306頁第二百四十二頁,共306頁。243第242頁/共306頁第二百四十三頁,共306頁。244由Clementine中神經(jīng)網(wǎng)絡(luò)算法想起的1、多個輸出變量;2、如果(rgu)把二值變量問題再轉(zhuǎn)化成多值變量問題。第243頁/共306頁第二百四十四頁,共306頁。245把連續(xù)預(yù)測(yc)問題轉(zhuǎn)化為多值預(yù)測(yc)問題第244頁/共306頁第二百四十五頁,共306頁。246NoYes覆蓋率命中率第245頁/共306頁第二百四十六頁,共306頁。247Neural Net($N-outcome ,$NC-outcome)C5.0($C-outcome,$CC-outcome)C&RT($R
41、-outcome ,$RC-outcome)得到(d do)這Logistic($L-outcome ,$LP-outcome) 得到(d do)概率 $N-outcome,$C-outcome,$R-outcome,$L-outcome為預(yù)測T或F,得到(d do)置信度;$NC-outcome,$CC-outcome,$RC-outcome,$LP為前者預(yù)測的把握程度。第246頁/共306頁第二百四十七頁,共306頁。248由Clementine中神經(jīng)網(wǎng)絡(luò)算法說起 |0.5 Raw Output |* 2例如,神經(jīng)網(wǎng)絡(luò)的raw output取置信度,概率(gil)為預(yù)測為真的概率(gil)
42、,置信度為無論預(yù)測真假的可信程度。在Clementine中生成的預(yù)測模型(神經(jīng)網(wǎng)絡(luò)、決策樹或Logistic回歸)后接一個Derive節(jié)點,生成新字段預(yù)測評分: Type :Conditional If$N-Outcome Then0.5 + ($NC-Outcome / 2.0) Else0.5 - ($NC-Outcome / 2.0) 第247頁/共306頁第二百四十八頁,共306頁。249n應(yīng)用C5.0模型建立scoring型的預(yù)測模型( 提示:$C,$CC的組合)第248頁/共306頁第二百四十九頁,共306頁。250第249頁/共306頁第二百五十頁,共306頁。251第250頁/
43、共306頁第二百五十一頁,共306頁。252第251頁/共306頁第二百五十二頁,共306頁。253第252頁/共306頁第二百五十三頁,共306頁。254第253頁/共306頁第二百五十四頁,共306頁。255模型名稱總體準確率模型命中率模型覆蓋率把握程度與實際結(jié)果比較圖神經(jīng)網(wǎng)絡(luò)C5.0C&RT思路一思路二思路三思路四第254頁/共306頁第二百五十五頁,共306頁。256第255頁/共306頁第二百五十六頁,共306頁。257第256頁/共306頁第二百五十七頁,共306頁。258第257頁/共306頁第二百五十八頁,共306頁。259第258頁/共306頁第二百五十九頁,共306頁。26
44、0模型名稱總體準確率模型命中率模型覆蓋率修正法思路一修正法思路二修正法思路三修正法思路四第259頁/共306頁第二百六十頁,共306頁。261第260頁/共306頁第二百六十一頁,共306頁。262第261頁/共306頁第二百六十二頁,共306頁。263第262頁/共306頁第二百六十三頁,共306頁。264時間收入利潤損失銷售商品或服務(wù)客戶關(guān)系結(jié)束認知 更少損失更加有效的認知利潤 更多的利潤更加多的銷售額更加有效的認知 MORE PROFIT利潤甚至更多利潤更長的客戶關(guān)系更加多的銷售額時間(shjin)利潤(lrn)第263頁/共306頁第二百六十四頁,共306頁。第264頁/共306頁第二
45、百六十五頁,共306頁。266商業(yè)理解文檔發(fā)布“D” 流Clementine SolutionsPublisher數(shù)據(jù)理解“E” 流數(shù)據(jù)探索數(shù)據(jù)準備“P” 流建模和評估“M” 流第265頁/共306頁第二百六十六頁,共306頁。267第266頁/共306頁第二百六十七頁,共306頁。268第267頁/共306頁第二百六十八頁,共306頁。269字段名稱字段名稱字段含義字段含義指標解釋指標解釋Customer_IDCustomer_ID顧客顧客IDIDGenderGender性別性別AgeAge年齡年齡Connect_DateConnect_Date入網(wǎng)時間入網(wǎng)時間顧客生命周期的開始顧客生命周期
46、的開始, ,日期型日期型L_O_SL_O_S服務(wù)時間服務(wù)時間服務(wù)顧客時間長服務(wù)顧客時間長Dropped_CallsDropped_Calls掉線次數(shù)掉線次數(shù)在在6 6個月內(nèi)電話掉線次數(shù)個月內(nèi)電話掉線次數(shù)Pay MethodPay Method支付方式支付方式話費支付方式話費支付方式預(yù)交還是后付預(yù)交還是后付tarifftariff話費類型話費類型ChurnChurn是否流失是否流失二分標記變量,是或否二分標記變量,是或否HandsetHandset手機品牌手機品牌 顧客(gk)信息資料 (共31769條記錄,10個變量)第268頁/共306頁第二百六十九頁,共306頁。270字段名稱字段含義指標
47、解釋Customer_IDCustomer_ID顧客顧客IDIDPeak_callsPeak_calls高峰時期電話數(shù)高峰時期電話數(shù)Peak_minsPeak_mins高峰時期電話時長高峰時期電話時長OffPeak_callsOffPeak_calls低谷時期電話數(shù)低谷時期電話數(shù)OffPeak_mins_SumOffPeak_mins_Sum低谷時期電話時長低谷時期電話時長Weekend_callsWeekend_calls周末時期電話數(shù)周末時期電話數(shù)Weekend_minsWeekend_mins周末時期電話時長周末時期電話時長International_miInternational_mi
48、nsns國際電話時長國際電話時長Nat_call_cost_SuNat_call_cost_Sum m國內(nèi)電話花費國內(nèi)電話花費= =高峰高峰+ +低谷低谷+ +周末花費周末花費monthmonth月份月份 CDR數(shù)據(jù)資料 (190,614條記錄(jl),10個變量)第269頁/共306頁第二百七十頁,共306頁。271字段名稱字段名稱字段含義字段含義指標解釋指標解釋tarifftariff資費種類資費種類fixed_costfixed_cost固定費用固定費用該種資費類型每月需支付固定費用該種資費類型每月需支付固定費用Free_minsFree_mins免費時長免費時長該種資費類型每月提供免費
49、(國內(nèi))時長該種資費類型每月提供免費(國內(nèi))時長peak_ratepeak_rate高峰時期話費高峰時期話費該種資費類型在高峰時期每分鐘話費(超過免費時該種資費類型在高峰時期每分鐘話費(超過免費時長部分)長部分)OffPeak_rateOffPeak_rate低谷時期話費低谷時期話費該種資費類型在低谷時期每分鐘話費(超過免費時該種資費類型在低谷時期每分鐘話費(超過免費時長部分)長部分)Weekend_rateWeekend_rate周末時期話費周末時期話費該種資費類型在周末時期每分鐘話費(超過免費時該種資費類型在周末時期每分鐘話費(超過免費時長部分)長部分)International_raIn
50、ternational_ratete國際長途話費國際長途話費該種資費類型國際長途電話每分鐘話費該種資費類型國際長途電話每分鐘話費VoicemailVoicemail語音信箱語音信箱語信信箱收費(未用)語信信箱收費(未用)SMSSMS短信服務(wù)短信服務(wù)短信服務(wù)收費(未用)短信服務(wù)收費(未用) 資費(z fi)數(shù)據(jù)資料 (共5條記錄,9個變量)第270頁/共306頁第二百七十一頁,共306頁。272第271頁/共306頁第二百七十二頁,共306頁。273對客戶(k h)進行聚類分析,并比較不同客戶(k h)群流失可能性建立規(guī)則,描述那些易于流失的客戶群的特征建立打分模型,對客戶流失可能性(概率(gi
51、l))進行評價第272頁/共306頁第二百七十三頁,共306頁。274第273頁/共306頁第二百七十四頁,共306頁。275圖例(tl):數(shù)據(jù)(shj)數(shù)據(jù)流第274頁/共306頁第二百七十五頁,共306頁。第275頁/共306頁第二百七十六頁,共306頁。277第276頁/共306頁第二百七十七頁,共306頁。278第277頁/共306頁第二百七十八頁,共306頁。279第278頁/共306頁第二百七十九頁,共306頁。第279頁/共306頁第二百八十頁,共306頁。281第280頁/共306頁第二百八十一頁,共306頁。282第281頁/共306頁第二百八十二頁,共306頁。283第28
52、2頁/共306頁第二百八十三頁,共306頁。284第283頁/共306頁第二百八十四頁,共306頁。285第284頁/共306頁第二百八十五頁,共306頁。286第285頁/共306頁第二百八十六頁,共306頁。287第286頁/共306頁第二百八十七頁,共306頁。288第287頁/共306頁第二百八十八頁,共306頁。第288頁/共306頁第二百八十九頁,共306頁。290第289頁/共306頁第二百九十頁,共306頁。291第290頁/共306頁第二百九十一頁,共306頁。292第291頁/共306頁第二百九十二頁,共306頁。293第292頁/共306頁第二百九十三頁,共306頁。294第293頁/共306頁第二百九十四頁,共306頁。第294頁/共306頁第二百九十五頁,共306頁。296第295頁/共306頁第二百九十六頁,共306頁。29
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年患者隱私保護協(xié)議與策劃
- 2025年企業(yè)銷售人員招聘合同范例
- 2025年企業(yè)人員臨時借調(diào)合同范文
- 2025年居民安置過渡性協(xié)議
- 2025年個人流轉(zhuǎn)養(yǎng)殖水面使用權(quán)協(xié)議
- 2025年共享發(fā)展市場拓展協(xié)議
- 2025年產(chǎn)業(yè)園區(qū)企業(yè)使用條款協(xié)議
- 2025年醫(yī)療設(shè)備更新協(xié)議文本
- 2025年醫(yī)院食堂后勤服務(wù)合同標準格式
- 農(nóng)業(yè)合作社土地使用權(quán)入股框架協(xié)議
- 2025年度化妝品電商平臺流量互換銷售合作合同
- 2025年中國陪診服務(wù)行業(yè)現(xiàn)狀、發(fā)展環(huán)境及投資前景分析報告
- 2024年可行性研究報告投資估算及財務(wù)分析全套計算表格(含附表-帶只更改標紅部分-操作簡單)
- 國際貿(mào)易地理 全套課件
- 2024年云南省貴金屬新材料控股集團有限公司招聘筆試參考題庫含答案解析
- 少兒羽毛球培訓(xùn)課件
- 《鋼鐵是怎樣煉成的》選擇題100題(含答案)
- GB/T 3452.4-2020液壓氣動用O形橡膠密封圈第4部分:抗擠壓環(huán)(擋環(huán))
- 部編版小學(xué)語文三年級(下冊)學(xué)期課程綱要
- 《國家電網(wǎng)公司十八項電網(wǎng)反事故措施(試行)》實施細則
- 鋼絲網(wǎng)架珍珠巖夾心板安裝方法
評論
0/150
提交評論