版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘與Clementine使用培訓(xùn)0數(shù)據(jù)挖掘與Clementine使用培訓(xùn)0一、數(shù)據(jù)挖掘概述什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘的實(shí)現(xiàn)路線和流程數(shù)據(jù)挖掘方法論——CRISP-DM1一、數(shù)據(jù)挖掘概述什么是數(shù)據(jù)挖掘1為什么進(jìn)行數(shù)據(jù)挖掘?商業(yè)觀點(diǎn)業(yè)務(wù)中產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)存儲在業(yè)務(wù)系統(tǒng)中卻不能創(chuàng)造價(jià)值客戶信息數(shù)據(jù)客戶交易行為數(shù)據(jù)客戶反饋數(shù)據(jù)網(wǎng)絡(luò)數(shù)據(jù)……計(jì)算機(jī)變得越來越便宜、功能卻越來越強(qiáng)大商業(yè)競爭越來越激烈,對客戶了解越多就意味著機(jī)會越大2為什么進(jìn)行數(shù)據(jù)挖掘?商業(yè)觀點(diǎn)業(yè)務(wù)中產(chǎn)生了大量的數(shù)據(jù),這些數(shù)為什么進(jìn)行數(shù)據(jù)挖掘?技術(shù)觀點(diǎn)業(yè)務(wù)中的數(shù)據(jù)量呈現(xiàn)指數(shù)增長(GB/小時(shí))傳統(tǒng)技術(shù)難以從這些大量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)律數(shù)據(jù)挖掘可以幫助我們從大量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)律TheDataGapTotalnewdisk(TB)since1995NumberofanalystsFrom:R.Grossman,C.Kamath,V.Kumar,“DataMiningforScientificandEngineeringApplications”3為什么進(jìn)行數(shù)據(jù)挖掘?技術(shù)觀點(diǎn)業(yè)務(wù)中的數(shù)據(jù)量呈現(xiàn)指數(shù)增長(G一個(gè)市場營銷的例子在數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)則或者模式女性對市場活動做出回應(yīng),男性對市場活動不做出回應(yīng),和年齡無關(guān)4一個(gè)市場營銷的例子在數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)則或者模式女性對市場一個(gè)市場營銷的例子數(shù)據(jù)變的復(fù)雜會如何?女性對市場活動做出回應(yīng),老年男性也可能對市場活動做出回應(yīng)5一個(gè)市場營銷的例子數(shù)據(jù)變的復(fù)雜會如何?女性對市場活動做出回應(yīng)一個(gè)市場營銷的例子數(shù)據(jù)挖掘可以從異常復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律通過數(shù)據(jù)挖掘發(fā)現(xiàn)回應(yīng)的5條規(guī)則:1、如果收入大于29622,有孩子,并且孩子的數(shù)量小于等于2,那么對市場活動會回應(yīng)……通過數(shù)據(jù)挖掘發(fā)現(xiàn)不回應(yīng)的5條規(guī)則:1、如果收入小于12640.3,并且有一個(gè)孩子,那么對市場活動不會回應(yīng)……6一個(gè)市場營銷的例子數(shù)據(jù)挖掘可以從異常復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律通過數(shù)據(jù)挖掘收益分析向60%的客戶發(fā)信,得到了90%的收益數(shù)據(jù)挖掘的意義7數(shù)據(jù)挖掘收益分析向60%的客戶發(fā)信,得到了90%的收益數(shù)據(jù)挖利潤分析圖8利潤分析圖8數(shù)據(jù)挖掘效果模擬分析數(shù)據(jù)挖掘以前數(shù)據(jù)挖掘以后差別發(fā)信的數(shù)量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)響應(yīng)的數(shù)量10,0009,000(1,000)每個(gè)響應(yīng)的收入$125$125$0總收入$1,250,000$1,125,000($125,000)凈利潤$250,000$375,000$125,000建模的費(fèi)用040,000$40,000最終的利潤$250,000$335,000$85,000目的:發(fā)現(xiàn)新客戶(使響應(yīng)率從1%提高到1.2%)9數(shù)據(jù)挖掘效果模擬分析數(shù)據(jù)挖掘以前數(shù)據(jù)挖掘以后差別發(fā)信的數(shù)量1什么是數(shù)據(jù)挖掘?不同的定義從大量數(shù)據(jù)中發(fā)現(xiàn)非平凡的、先前不知道的、有價(jià)值的規(guī)律的過程從大量數(shù)據(jù)中自動化(或者半自動化)的發(fā)現(xiàn)有價(jià)值規(guī)律的過程數(shù)據(jù)挖掘的其他名稱數(shù)據(jù)庫內(nèi)知識發(fā)現(xiàn)(KDD-Knowledgediscoveryindatabases)數(shù)據(jù)/模式分析商業(yè)智能人工智能……10什么是數(shù)據(jù)挖掘?不同的定義10數(shù)據(jù)挖掘的起源來源于機(jī)器學(xué)習(xí)/人工智能、模式識別、統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫傳統(tǒng)技術(shù)的局限性巨量的數(shù)據(jù)高維數(shù)據(jù)數(shù)據(jù)分布不理想機(jī)器學(xué)習(xí)/模式識別統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘數(shù)據(jù)庫系統(tǒng)11數(shù)據(jù)挖掘的起源來源于機(jī)器學(xué)習(xí)/人工智能、模式識別、統(tǒng)計(jì)學(xué)和數(shù)數(shù)據(jù)挖掘面臨的挑戰(zhàn)海量數(shù)據(jù)高維數(shù)據(jù)數(shù)據(jù)復(fù)雜性數(shù)據(jù)質(zhì)量問題數(shù)據(jù)所有權(quán)和分布隱私問題12數(shù)據(jù)挖掘面臨的挑戰(zhàn)海量數(shù)據(jù)12數(shù)據(jù)挖掘方法論—項(xiàng)目順利實(shí)施的保證商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估模型發(fā)布13數(shù)據(jù)挖掘方法論—項(xiàng)目順利實(shí)施的保證商業(yè)理解13商業(yè)理解商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估結(jié)果發(fā)布確定商業(yè)目標(biāo)形勢評估確定數(shù)據(jù)挖掘目標(biāo)制定項(xiàng)目計(jì)劃背景商業(yè)目標(biāo)成功標(biāo)準(zhǔn)擁有資源需求、假定和限制風(fēng)險(xiǎn)和偶然性專業(yè)術(shù)語成本和收益數(shù)據(jù)挖掘目標(biāo)數(shù)據(jù)挖掘成功標(biāo)準(zhǔn)項(xiàng)目計(jì)劃工具和方法評估14商業(yè)理解商業(yè)數(shù)據(jù)數(shù)據(jù)建立模型結(jié)果背景商業(yè)目標(biāo)成功標(biāo)準(zhǔn)數(shù)據(jù)理解商業(yè)理解
數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估結(jié)果發(fā)布收集原始數(shù)據(jù)數(shù)據(jù)描述數(shù)據(jù)探索性分析數(shù)據(jù)質(zhì)量描述數(shù)據(jù)收集報(bào)告數(shù)據(jù)描述報(bào)告探索性數(shù)據(jù)分析報(bào)告數(shù)據(jù)質(zhì)量報(bào)告15數(shù)據(jù)理解商業(yè)數(shù)據(jù)數(shù)據(jù)建立模型結(jié)果數(shù)據(jù)收集數(shù)據(jù)描述探索數(shù)據(jù)準(zhǔn)備商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估結(jié)果發(fā)布選擇數(shù)據(jù)確定分析包含/剔除數(shù)據(jù)數(shù)據(jù)集數(shù)據(jù)集描述數(shù)據(jù)清理數(shù)據(jù)清理報(bào)告數(shù)據(jù)重構(gòu)生成新的變量(字段)生成新的記錄整合數(shù)據(jù)合并相關(guān)數(shù)據(jù)格式化數(shù)據(jù)改變數(shù)據(jù)格式,適應(yīng)分析16數(shù)據(jù)準(zhǔn)備商業(yè)數(shù)據(jù)數(shù)據(jù)建立模型結(jié)果確定分析包含/剔除數(shù)建立模型商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估結(jié)果發(fā)布選擇建模技術(shù)產(chǎn)生檢驗(yàn)設(shè)計(jì)建立模型評價(jià)模型模型技術(shù)模型假設(shè)檢驗(yàn)設(shè)計(jì)參數(shù)設(shè)定建模模型評價(jià)參數(shù)設(shè)定的修訂模型描述17建立模型商業(yè)數(shù)據(jù)數(shù)據(jù)建立模型結(jié)果模型模型假設(shè)檢驗(yàn)設(shè)計(jì)模型評估商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估結(jié)果發(fā)布結(jié)果評估數(shù)據(jù)挖掘過程回顧確定下一步的工作評估數(shù)據(jù)挖掘結(jié)果被認(rèn)可的模型數(shù)據(jù)挖掘過程的回顧列出可能的行動決策18模型評估商業(yè)數(shù)據(jù)數(shù)據(jù)建立模型結(jié)果結(jié)果評估評估數(shù)據(jù)被認(rèn)結(jié)果發(fā)布商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估結(jié)果發(fā)布發(fā)布結(jié)果計(jì)劃監(jiān)測和維護(hù)模型計(jì)劃生成最終數(shù)據(jù)挖掘報(bào)告項(xiàng)目回顧結(jié)果發(fā)布計(jì)劃監(jiān)測和維護(hù)模型計(jì)劃最終數(shù)據(jù)挖掘報(bào)告數(shù)據(jù)挖掘報(bào)告展現(xiàn)項(xiàng)目檢驗(yàn)總結(jié)19結(jié)果發(fā)布商業(yè)數(shù)據(jù)數(shù)據(jù)建立模型結(jié)果監(jiān)測和維護(hù)結(jié)果發(fā)布計(jì)商業(yè)理解是數(shù)據(jù)挖掘的起點(diǎn)C2C1解決方案商業(yè)價(jià)值商業(yè)需要20商業(yè)理解是數(shù)據(jù)挖掘的起點(diǎn)C2C1解決方案商業(yè)價(jià)值商業(yè)需商業(yè)理解的內(nèi)容數(shù)據(jù)挖掘能解決什么樣的商業(yè)問題?數(shù)據(jù)挖掘得到的結(jié)果,是否可以采取相應(yīng)的行動以提高利潤或降低成本?我們期望模型能夠給我們怎樣的精確率?有那些前提假定?21商業(yè)理解的內(nèi)容數(shù)據(jù)挖掘能解決什么樣的商業(yè)問題?21約束分析時(shí)間約束分析資源約束分析人力資源數(shù)據(jù)資源軟件資源硬件資源22約束分析時(shí)間約束分析22制定特定的數(shù)據(jù)挖掘目標(biāo)制定的數(shù)據(jù)挖掘目標(biāo)應(yīng)具有:可評估性(assessable)可實(shí)現(xiàn)性(attainable)23制定特定的數(shù)據(jù)挖掘目標(biāo)制定的數(shù)據(jù)挖掘目標(biāo)應(yīng)具有:23如何給定一個(gè)數(shù)據(jù)挖掘問題是檢驗(yàn)性數(shù)據(jù)挖掘還是探索性數(shù)據(jù)挖掘?確定哪些是可以實(shí)現(xiàn)的數(shù)據(jù)挖掘問題結(jié)果可測度性信息(數(shù)據(jù))的可獲得性評估和控制其他相關(guān)因素的影響24如何給定一個(gè)數(shù)據(jù)挖掘問題是檢驗(yàn)性數(shù)據(jù)挖掘還是探索性數(shù)據(jù)挖掘?數(shù)據(jù)來源與數(shù)據(jù)之間的關(guān)系25數(shù)據(jù)來源與數(shù)據(jù)之間的關(guān)系25使數(shù)據(jù)適合數(shù)據(jù)挖掘?qū)?shù)據(jù)進(jìn)行適當(dāng)?shù)暮喜⒑蛥R總一般數(shù)據(jù)挖掘分析都要一個(gè)行×列(記錄×變量)的二維表,必須把從不同數(shù)據(jù)源得到的不同格式的數(shù)據(jù)整合成這樣一張表,要求:所有的記錄含有排列順序一致的變量所有記錄的變量信息是完整的(理想化狀態(tài),在現(xiàn)實(shí)中很難達(dá)到)26使數(shù)據(jù)適合數(shù)據(jù)挖掘?qū)?shù)據(jù)進(jìn)行適當(dāng)?shù)暮喜⒑蛥R總26檢查數(shù)據(jù)質(zhì)量影響數(shù)據(jù)質(zhì)量的幾個(gè)主要問題缺失值不合理值不同數(shù)據(jù)源的不一致異常值27檢查數(shù)據(jù)質(zhì)量影響數(shù)據(jù)質(zhì)量的幾個(gè)主要問題27對數(shù)據(jù)進(jìn)行適當(dāng)?shù)淖儞Q數(shù)據(jù)的標(biāo)準(zhǔn)化變換生成新的變量數(shù)據(jù)的重新編碼數(shù)據(jù)降維,從變量角度或者從記錄角度28對數(shù)據(jù)進(jìn)行適當(dāng)?shù)淖儞Q數(shù)據(jù)的標(biāo)準(zhǔn)化變換28數(shù)據(jù)挖掘模型的分類數(shù)據(jù)描述和匯總(Datadescriptionandsummarization)細(xì)分(Segmentation)概念描述(Conceptdescriptions)分類(Classification)預(yù)測(Prediction)相關(guān)分析(Dependencyanalysis)29數(shù)據(jù)挖掘模型的分類數(shù)據(jù)描述和匯總(Datadescript數(shù)據(jù)挖掘技術(shù)的分類數(shù)據(jù)挖掘描述預(yù)測統(tǒng)計(jì)回歸關(guān)聯(lián)規(guī)則決策樹可視化聚類順序關(guān)聯(lián)匯總神經(jīng)網(wǎng)絡(luò)分類時(shí)間序列預(yù)測30數(shù)據(jù)挖掘技術(shù)的分類數(shù)據(jù)挖掘描述預(yù)測統(tǒng)計(jì)回歸關(guān)聯(lián)規(guī)則決策樹可視數(shù)據(jù)挖掘的典型結(jié)果——金融問題描述:預(yù)測信用水平是好還是差,銀行據(jù)此決定是否向客戶發(fā)放貸款,發(fā)放多少結(jié)果描述:(決策樹)收入大于5萬元/年是否有無儲蓄帳戶是否房主否是是否批準(zhǔn)不批準(zhǔn)批準(zhǔn)31數(shù)據(jù)挖掘的典型結(jié)果——金融問題描述:預(yù)測信用水平是好還是差數(shù)據(jù)挖掘的典型結(jié)果——電信問題描述:根據(jù)客戶信息,預(yù)測客戶流失可能性結(jié)果描述:(神經(jīng)網(wǎng)絡(luò))輸入流失概率(0.87)輸出男293000元/月套餐A130元/月…………32數(shù)據(jù)挖掘的典型結(jié)果——電信問題描述:根據(jù)客戶信息,預(yù)測客戶數(shù)據(jù)挖掘的典型結(jié)果——零售問題描述:如何決定超市中商品的擺放來增加銷售額結(jié)果描述:(Web圖)33數(shù)據(jù)挖掘的典型結(jié)果——零售問題描述:如何決定超市中商品的擺放數(shù)據(jù)挖掘的典型結(jié)果——制造業(yè)
問題描述:如何對市場進(jìn)行細(xì)分,使產(chǎn)品滿足最有價(jià)值客戶結(jié)果描述:(Koholen聚類)34數(shù)據(jù)挖掘的典型結(jié)果——制造業(yè)問題描述:如何對市場進(jìn)行細(xì)分,數(shù)據(jù)挖掘的典型結(jié)果——政府問題描述:如何從眾多申請經(jīng)費(fèi)或者納稅中發(fā)現(xiàn)欺詐結(jié)果描述:(回歸、神經(jīng)網(wǎng)絡(luò))35數(shù)據(jù)挖掘的典型結(jié)果——政府問題描述:如何從眾多申請經(jīng)費(fèi)或者檢驗(yàn)的形式方法層面的檢驗(yàn)
訓(xùn)練集和檢驗(yàn)集不同方法的互相印證和比較模型準(zhǔn)確性的檢驗(yàn):商業(yè)層面上的檢驗(yàn)利潤率的檢驗(yàn)?zāi)P徒Y(jié)果可操作性的檢驗(yàn)其他檢驗(yàn)36檢驗(yàn)的形式方法層面的檢驗(yàn)36關(guān)注那些錯(cuò)誤的預(yù)測37關(guān)注那些錯(cuò)誤的預(yù)測37數(shù)據(jù)挖掘不成功的幾種可能性糟糕的數(shù)據(jù)組織抵制結(jié)果沒有被有效的發(fā)布得到了無用的結(jié)果38數(shù)據(jù)挖掘不成功的幾種可能性糟糕的數(shù)據(jù)38模型發(fā)布的形式書面報(bào)告數(shù)據(jù)庫更新針對特定主題的應(yīng)用系統(tǒng)39模型發(fā)布的形式書面報(bào)告39數(shù)據(jù)挖掘的體系結(jié)構(gòu)用戶界面SPSSDataAccessPackClementineSolutionsPublisherRuntimeC/S結(jié)構(gòu)或B/S結(jié)構(gòu)發(fā)布數(shù)據(jù)挖掘模型C/S結(jié)構(gòu)建立數(shù)據(jù)挖掘模型數(shù)據(jù)庫模型庫分析員ClementineSPSSDataAccessPack40數(shù)據(jù)挖掘的體系結(jié)構(gòu)用戶界面SPSSDataAccess問題&討論41問題&討論41二、Clementine概述Clementine在數(shù)據(jù)挖掘中的地位Clementine發(fā)展歷史Clementine的配置Clementine操作基礎(chǔ)42二、Clementine概述Clementine在數(shù)據(jù)挖掘中數(shù)據(jù)挖掘的一般流程及數(shù)據(jù)挖掘軟件在數(shù)據(jù)挖掘過程中的地位Better
dataminingresults!InsightBusinessproblem?What
youknow43數(shù)據(jù)挖掘的一般流程及數(shù)據(jù)挖掘軟件在數(shù)據(jù)挖掘過程中的地位Bet數(shù)據(jù)挖掘方法論——項(xiàng)目順利實(shí)施的保證
商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估模型發(fā)布44數(shù)據(jù)挖掘方法論——項(xiàng)目順利實(shí)施的保證商業(yè)理解44Clementine發(fā)展歷程Clementine是ISL(IntegralSolutionsLimited)公司開發(fā)的數(shù)據(jù)挖掘工具平臺1998年SPSS公司收購了ISL公司,對Clementine產(chǎn)品進(jìn)行重新整合和開發(fā),現(xiàn)在Clementine已經(jīng)成為SPSS公司的又一亮點(diǎn)1994:ClementineV1.0發(fā)布1998:被SPSS收購1999:ClementineServer
ClementineSolutionPublisher2000:ClementineV6.02002年9月:Clementine7.02003年9月:Clementine7.1中文版2003年4季度Clementine8.01998-20072004年1季度Clementine8.1中文版2006年12月Clementine10.0中文版45Clementine發(fā)展歷程Clementine是ISL(Clementine的軟件構(gòu)成ClementineClient;ClementineServer;ClementineBatch;SPSSDataAccessPack;ClementineSolutionPublisher(Optional)。46Clementine的軟件構(gòu)成ClementineClieClementine的兩種運(yùn)行方式單機(jī)版運(yùn)行以下情況必須使用單機(jī)版運(yùn)行:數(shù)據(jù)存儲在本機(jī),且不能在網(wǎng)絡(luò)上共享;機(jī)器不聯(lián)網(wǎng);無ClementineServer可供使用。以下情況可以使用單機(jī)版運(yùn)行:要處理的數(shù)據(jù)量很?。ū热纾盒∮?M)并且數(shù)據(jù)存儲在單機(jī)或可到達(dá)局域網(wǎng)處;單機(jī)內(nèi)存、硬盤相對要處理的數(shù)據(jù)量來說足夠大,并且速度也滿足要求。C/S結(jié)構(gòu)運(yùn)行以下情況必須使用C/S結(jié)構(gòu)運(yùn)行:單機(jī)內(nèi)存或者硬盤不夠大,難以運(yùn)行大量數(shù)據(jù);單機(jī)上沒有或者無法配置數(shù)據(jù)連結(jié),無法從數(shù)據(jù)庫中獲取數(shù)據(jù);組織規(guī)則不允許下載大量數(shù)據(jù)到單機(jī)。以下情況可以使用C/S結(jié)構(gòu)運(yùn)行:要處理的數(shù)據(jù)量很大,并且存儲在可以通過SPSSDataAccess技術(shù)可到達(dá)的數(shù)據(jù)庫處;單機(jī)速度慢,ClementineServer運(yùn)行的機(jī)器配置高。47Clementine的兩種運(yùn)行方式單機(jī)版運(yùn)行C/S結(jié)構(gòu)運(yùn)行4Clementine的系統(tǒng)結(jié)構(gòu)Clementine的三層結(jié)構(gòu):1、數(shù)據(jù)庫層;通過ClementineServer進(jìn)行調(diào)度,把那些可以通過SQL語句執(zhí)行的數(shù)據(jù)操作過程以SQL語句的形式導(dǎo)入數(shù)據(jù)庫并在其中進(jìn)行;2、服務(wù)器端;進(jìn)行調(diào)度,不能在數(shù)據(jù)庫層面進(jìn)行的操作在服務(wù)器端進(jìn)行(比如數(shù)據(jù)挖掘模型計(jì)算過程)3、客戶端。在三層結(jié)構(gòu)下通過ClementineServer進(jìn)行調(diào)度,由客戶端向服務(wù)器端發(fā)送數(shù)據(jù)挖掘指令,并接受和展示數(shù)據(jù)挖掘結(jié)果。ClementineClient和ClementineServer通過SDL(StreamDescriptionLanguage
)之間進(jìn)行信息交換,ClementineServer和Database通過SQL語句進(jìn)行信息交換。48Clementine的系統(tǒng)結(jié)構(gòu)Clementine的三層結(jié)構(gòu)Clementine運(yùn)行的兩種方式圖形界面方式適用操作系統(tǒng)Windows系列特點(diǎn):圖形化界面與客戶直接交互適合交互式分析過程命令行方式使用操作系統(tǒng)Windows系列Unix系列特點(diǎn):命令行操作不能生成圖形,所有結(jié)果保存在文件里或者數(shù)據(jù)庫中適合于以下情況使用:運(yùn)行耗時(shí)較長的建模過程希望在后臺運(yùn)行一些耗時(shí)較長的數(shù)據(jù)準(zhǔn)備過程希望按照一定的時(shí)間定期運(yùn)行(比如每周、每月等)希望把Clementine(數(shù)據(jù)挖掘過程)運(yùn)行過程嵌入應(yīng)用系統(tǒng)中49Clementine運(yùn)行的兩種方式圖形界面方式命令行方式49Clementine的界面和設(shè)計(jì)思路可視化界面四個(gè)區(qū)域分別是建模區(qū)、結(jié)點(diǎn)區(qū)、模型描述區(qū)、項(xiàng)目管理區(qū)通過連接結(jié)點(diǎn)構(gòu)成數(shù)據(jù)流建立模型Clementine通過6類結(jié)點(diǎn)的連接完成數(shù)據(jù)挖掘工作,它們是:Source(源結(jié)點(diǎn)):Database、Var.Files等RecordOps(記錄處理結(jié)點(diǎn)):Select、Sample等`FieldOps(字段處理結(jié)點(diǎn)):Type、Filter等Graphs(圖形結(jié)點(diǎn)):Plot、Distribute等Modeling(模型結(jié)點(diǎn)):NeuralNet、C5.0等Output(輸出結(jié)點(diǎn)):Table、Matrix等50Clementine的界面和設(shè)計(jì)思路可視化界面50Clementine操作基本知識鼠標(biāo)應(yīng)用三鍵與雙鍵鼠標(biāo)左鍵
選擇節(jié)點(diǎn)或圖標(biāo)置于建模區(qū)右鍵 激活浮動菜單中鍵 連接或斷開兩個(gè)節(jié)點(diǎn)幫助51Clementine操作基本知識鼠標(biāo)應(yīng)用51Clementine操作基本知識節(jié)點(diǎn)的增加,以為例Click“Sources”,Click,Click“流區(qū)域”Click“Sources”,DoubleClickClick“Sources”,Dragto“流區(qū)域”節(jié)點(diǎn)的刪除Click,DeleteRightClick,Click“Delete”節(jié)點(diǎn)的移動:Drag52Clementine操作基本知識節(jié)點(diǎn)的增加,以為例5Clementine操作基本知識節(jié)點(diǎn)的編輯DoubleClickRightClick,Click“Edit”節(jié)點(diǎn)的重命名和解釋RightClick,Click“Edit”,Click“Annotations”DoubleClick,Click“Annotations”RightClick,Click“RenameandAnnotations”拷貝、粘貼53Clementine操作基本知識節(jié)點(diǎn)的編輯53Clementine操作基本知識構(gòu)建流時(shí)節(jié)點(diǎn)的連接Highlight,AddtotheCanvasRightClick,Click“Connect”,ClickDragthemiddlemuttonfromto構(gòu)建流時(shí)節(jié)點(diǎn)連接的刪除RightClickor,Click“Disconnect”RightClick“Connection”,Click“DeleteConnection”DoubleClickor
54Clementine操作基本知識構(gòu)建流時(shí)節(jié)點(diǎn)的連接54Clementine操作基本知識流的執(zhí)行Highlight“Stream”,ClickRightClick,Click“Execute”IntheEditWindowofthe,Click“Execute”流的保存幫助HelpMenuDialogueWindow55Clementine操作基本知識流的執(zhí)行55一個(gè)例子——羅斯文商貿(mào)公司
商業(yè)問題:微軟公司提供的案例數(shù)據(jù)庫——羅斯文商貿(mào)公司,如何對客戶價(jià)值進(jìn)行評估背景介紹:1.羅斯文商貿(mào)公司是Microsoft數(shù)據(jù)庫產(chǎn)品(Access,SQLServer等)中的一個(gè)示例數(shù)據(jù)庫;2.它虛擬了一家經(jīng)銷日用品的商貿(mào)公司的情況;3.目前該公司保存的歷史數(shù)據(jù)資料,見下頁;4.我們需要對客戶的價(jià)值進(jìn)行評估,以便采取有效的市場銷售策略。56一個(gè)例子——羅斯文商貿(mào)公司商業(yè)問題:56羅斯林商貿(mào)公司數(shù)據(jù)57羅斯林商貿(mào)公司數(shù)據(jù)57羅斯文商貿(mào)公司統(tǒng)計(jì)問題數(shù)據(jù)挖掘問題:(1)如何描述客戶價(jià)值?——購買總金額?購買頻次?平均每次購買金額?最近購買金額?它們的線性組合?——使用最簡單的購買總金額(2)需要什么樣的數(shù)據(jù)挖掘方法?——描述匯總?分類?預(yù)測?概念描述?細(xì)分?相關(guān)分析?——使用最簡單的描述匯總(3)需要的數(shù)據(jù)從哪里來?——從以下幾個(gè)來源:客戶訂單訂單明細(xì)58羅斯文商貿(mào)公司統(tǒng)計(jì)問題數(shù)據(jù)挖掘問題:58羅斯文商貿(mào)公司商業(yè)問題解決方案
商業(yè)問題解決方案從所有客戶中找出最有價(jià)值的10個(gè)客戶,將名單發(fā)給市場部門,讓其對這些客戶進(jìn)行更多的關(guān)注59羅斯文商貿(mào)公司商業(yè)問題解決方案商業(yè)問題解決方案59Clementine的優(yōu)化包括兩個(gè)方面的優(yōu)化結(jié)構(gòu)優(yōu)化用戶優(yōu)化60Clementine的優(yōu)化包括兩個(gè)方面的優(yōu)化60結(jié)構(gòu)優(yōu)化把中間結(jié)果存儲在Server上(盡量使用server版處理)從數(shù)據(jù)流上整理考慮的執(zhí)行數(shù)據(jù)流(能一步完成的處理盡量不要分解到多個(gè)執(zhí)行)減少數(shù)據(jù)的遷移(數(shù)據(jù)提前進(jìn)行規(guī)劃)61結(jié)構(gòu)優(yōu)化把中間結(jié)果存儲在Server上(盡量使用server用戶優(yōu)化自動優(yōu)化數(shù)據(jù)流:當(dāng)使用這一選項(xiàng)時(shí),Clementine將重寫數(shù)據(jù)流以使效率最高(可以通過ClementineServer中的sql_rewriting_enabled來調(diào)整是否可以使用)優(yōu)化的SQL生成。使盡可能的操作在數(shù)據(jù)庫內(nèi)進(jìn)行。優(yōu)化Clementine執(zhí)行。調(diào)整數(shù)據(jù)降維的操作盡可能接近數(shù)據(jù)源完成。手動優(yōu)化數(shù)據(jù)流操作順序:有些操作可以在SQL中完成,有些操作不能在SQL中完成,盡可能把能夠在SQL中完成的一起排在前面數(shù)據(jù)類型:盡可能在源節(jié)點(diǎn)處由用戶自定義數(shù)據(jù)類型,而不是Clementine自動讀取。62用戶優(yōu)化自動優(yōu)化數(shù)據(jù)流:當(dāng)使用這一選項(xiàng)時(shí),Clementin一個(gè)數(shù)據(jù)挖掘的實(shí)例
——客戶信用級別判斷系統(tǒng)63一個(gè)數(shù)據(jù)挖掘的實(shí)例
——客戶信用級別判斷系統(tǒng)63問題的提出如何通過數(shù)據(jù)挖掘?qū)崿F(xiàn)小靈通信用級別的判斷系統(tǒng)某電信公司按照某種標(biāo)準(zhǔn)將小靈通客戶信用等級分為5類,分別是gradeA、gradeB、gradeC、gradeX、gradeY?,F(xiàn)在希望建立一套系統(tǒng),能夠使得市場部人員根據(jù)用戶的幾項(xiàng)關(guān)鍵的個(gè)人基本信息判斷該客戶的信用級別,從而有針對性地對其采用不同的市場營銷策略。64問題的提出如何通過數(shù)據(jù)挖掘?qū)崿F(xiàn)小靈通信用級別的判斷系統(tǒng)64數(shù)據(jù)描述變量名稱變量含義備注Age年齡Sex性別Value消費(fèi)水平分為高(high)、低(low)和一般(normal)三種Range聯(lián)系范圍分為高(high)、低(low)和一般(normal)三種WorkRatio工作時(shí)段比例0-1之間DistanceRatio長話比例0-1之間Credit信用級別以下五種之一:gradeA、gradeB、gradeC、gradeX、gradeY65數(shù)據(jù)描述變量名稱變量含義備注Age年齡Sex性別Value消遵循CRISP-DM的數(shù)據(jù)挖掘過程數(shù)據(jù)理解(數(shù)據(jù)流)數(shù)據(jù)準(zhǔn)備(數(shù)據(jù)流)建立模型(數(shù)據(jù)流)模型評估(數(shù)據(jù)流)結(jié)果發(fā)布(數(shù)據(jù)流)商業(yè)理解(文檔)66遵循CRISP-DM的數(shù)據(jù)挖掘過程數(shù)據(jù)理解(數(shù)據(jù)流)數(shù)據(jù)準(zhǔn)備在進(jìn)行數(shù)據(jù)挖掘過程中應(yīng)該注意的幾個(gè)問題商業(yè)經(jīng)驗(yàn)的作用數(shù)據(jù)的拆分——訓(xùn)練集與檢驗(yàn)集不同模型的印證與比較67在進(jìn)行數(shù)據(jù)挖掘過程中應(yīng)該注意的幾個(gè)問題商業(yè)經(jīng)驗(yàn)的作用67結(jié)果發(fā)布信用級別靜態(tài)列表信用級別寫回?cái)?shù)據(jù)庫實(shí)時(shí)判斷信用級別的分析應(yīng)用68結(jié)果發(fā)布信用級別靜態(tài)列表68問題&討論69問題&討論69三、數(shù)據(jù)理解:數(shù)據(jù)的可視化和報(bào)告數(shù)據(jù)組織形式數(shù)據(jù)圖形展現(xiàn)數(shù)據(jù)表格展現(xiàn)70三、數(shù)據(jù)理解:數(shù)據(jù)的可視化和報(bào)告數(shù)據(jù)組織形式70數(shù)據(jù)挖掘要求的數(shù)據(jù)格式變量1變量2變量3記錄1………………記錄2………………記錄3………………………………………………
變量記錄(行代表記錄,列代表變量)71數(shù)據(jù)挖掘要求的數(shù)據(jù)格式變量1變量2變量3記錄1………………記數(shù)據(jù)尺度根據(jù)數(shù)據(jù)的不同,可以把變量分為以下一些類型定類變量例如:客戶編號、性別、郵編等不能比較大小定序變量產(chǎn)品等級、信用級別、客戶收入水平分類等可以比較大小、不能進(jìn)行加減運(yùn)算定距變量出生日期、溫度等可以進(jìn)行加減運(yùn)算、不能進(jìn)行乘除運(yùn)算定比變量收入、長度等可以進(jìn)行乘除運(yùn)算72數(shù)據(jù)尺度根據(jù)數(shù)據(jù)的不同,可以把變量分為以下一些類型72各類變量尺度比較變量尺度描述例子可進(jìn)行的運(yùn)算定類定類變量是離散變量,為了反映一個(gè)事物區(qū)別于其他事物的特征。只能進(jìn)行等于或者不等于的比較。郵編、客戶編號、性別眾數(shù)、列聯(lián)相關(guān)、2
檢驗(yàn)定序定序變量是離散變量,可以比較大小??蛻舻燃?、信用級別、收入水平分類中位數(shù)、累計(jì)百分比、秩相關(guān)、游程檢驗(yàn)定距定距變量是連續(xù)變量,可以比較大小,并且進(jìn)行加減運(yùn)算。日期、利潤平均值、標(biāo)準(zhǔn)差、皮爾遜相關(guān)、t檢驗(yàn)和F檢驗(yàn)定比定比變量是連續(xù)變量,可以進(jìn)行加減乘除各類運(yùn)算。年齡、收入、長度幾何平均數(shù)、比例指標(biāo)73各類變量尺度比較變量尺度描述例子可進(jìn)行的運(yùn)算定類定類變量是離描述性統(tǒng)計(jì)量描述統(tǒng)計(jì)量(summarystatistic),也稱匯總統(tǒng)計(jì)量或概括統(tǒng)計(jì)量用少量數(shù)字概括大量數(shù)據(jù)的技術(shù)74描述性統(tǒng)計(jì)量描述統(tǒng)計(jì)量(summarystatistic)離散變量的描述性統(tǒng)計(jì)頻數(shù)累計(jì)頻數(shù)頻率累計(jì)頻率(累計(jì)必須是定序變量)75離散變量的描述性統(tǒng)計(jì)頻數(shù)75連續(xù)變量的描述指標(biāo)反映數(shù)據(jù)平均趨勢和位置的指標(biāo)反映數(shù)據(jù)離散趨勢的指標(biāo)反映數(shù)據(jù)分布狀況的指標(biāo)76連續(xù)變量的描述指標(biāo)反映數(shù)據(jù)平均趨勢和位置的指標(biāo)76反映連續(xù)數(shù)據(jù)平均趨勢的指標(biāo)平均數(shù)算術(shù)平均數(shù)幾何平均數(shù)截尾算術(shù)平均數(shù):比較穩(wěn)健有效地描述平均值中位數(shù):(代表群體基本的趨勢,集中的趨勢)眾數(shù)(多用于離散變量)四分位數(shù)(25%,50%,75%)百分位數(shù)77反映連續(xù)數(shù)據(jù)平均趨勢的指標(biāo)平均數(shù)77平均數(shù)與中位數(shù)的結(jié)合使用異常值下側(cè)10分位點(diǎn)下側(cè)四分位數(shù)上側(cè)四分位數(shù)中位數(shù)上側(cè)10分位點(diǎn)對5個(gè)數(shù)值表示的內(nèi)容說法有些不同含義與左圖不同含義與左圖不同78平均數(shù)與中位數(shù)的結(jié)合使用異常值下側(cè)10分位點(diǎn)下側(cè)四分位數(shù)上側(cè)反映連續(xù)數(shù)據(jù)離散趨勢的指標(biāo)極差(全距)range=max-min內(nèi)距50%的差距方差:更適合離散趨勢的描述(趨勢放大)標(biāo)準(zhǔn)差變異系數(shù):標(biāo)準(zhǔn)差/均值,值越大,則離散程度越大。79反映連續(xù)數(shù)據(jù)離散趨勢的指標(biāo)極差(全距)range=max平均數(shù)與標(biāo)準(zhǔn)差的應(yīng)用
切比雪夫定理在任何一個(gè)數(shù)據(jù)集中,至少有(1-1/z2)的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在z個(gè)標(biāo)準(zhǔn)差之內(nèi),其中z是任意大于1的值。
切比雪夫定理含義1.至少75%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在2個(gè)標(biāo)準(zhǔn)差之內(nèi);2.至少89%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在3個(gè)標(biāo)準(zhǔn)差之內(nèi);(6西格瑪質(zhì)量管理應(yīng)用)3.至少94%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在4個(gè)標(biāo)準(zhǔn)差之內(nèi)。80平均數(shù)與標(biāo)準(zhǔn)差的應(yīng)用切比雪夫定理80連續(xù)變量的經(jīng)驗(yàn)法則正態(tài)分布是一種最常用的連續(xù)型分布關(guān)于正態(tài)分布的經(jīng)驗(yàn)法則1.約68%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在1個(gè)標(biāo)準(zhǔn)差之內(nèi);2.約95%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在2個(gè)標(biāo)準(zhǔn)差之內(nèi);3.幾乎全部數(shù)據(jù)項(xiàng)(99.97%)與平均數(shù)的距離在3個(gè)標(biāo)準(zhǔn)差之內(nèi)。81連續(xù)變量的經(jīng)驗(yàn)法則正態(tài)分布是一種最常用的連續(xù)型分布81切比雪夫和經(jīng)驗(yàn)法則的應(yīng)用問題某單位有100個(gè)人,他們的平均身高是170cm,標(biāo)準(zhǔn)差為5cm,那么有多少人的身高是落在160cm-180cm這個(gè)區(qū)間里的呢?經(jīng)驗(yàn)法則的應(yīng)用
根據(jù)切比雪夫定理,該單位至少有75%的人身高在160cm—180cm這個(gè)區(qū)間里根據(jù)正態(tài)分布經(jīng)驗(yàn)法則,該單位大約有95%的人身高在160cm—180cm這個(gè)區(qū)間里82切比雪夫和經(jīng)驗(yàn)法則的應(yīng)用問題82反映連續(xù)數(shù)據(jù)分布狀況的指標(biāo)
偏度
峰度83反映連續(xù)數(shù)據(jù)分布狀況的指標(biāo)偏度83圖形展現(xiàn)數(shù)據(jù)84圖形展現(xiàn)數(shù)據(jù)84圖形技術(shù)的應(yīng)用圖形可以用來直觀的展示數(shù)據(jù)的分布特征和取值情況常見的描述離散變量的圖形有條形圖餅形圖常見的描述連續(xù)變量的圖形有直方圖常見的描述兩個(gè)離散變量之間關(guān)系的圖形有Web圖條形圖常見的描述兩個(gè)連續(xù)變量之間關(guān)系的圖形有散點(diǎn)圖常見的描述一個(gè)離散變量和一個(gè)連續(xù)變量之間關(guān)系的圖形是條形圖85圖形技術(shù)的應(yīng)用圖形可以用來直觀的展示數(shù)據(jù)的分布特征和取值情況通過圖形可以表現(xiàn)多個(gè)變量之間的關(guān)系86通過圖形可以表現(xiàn)多個(gè)變量之間的關(guān)系86Chapter2Clementine簡介87Chapter2Clementine簡介87Chapter2Clementine簡介目的:初步了解Clementine軟件內(nèi)容:2.1SPSSClementineC/S2.2SPSSClementine面板2.3SPSSClementine可視化程序使用基礎(chǔ)節(jié)點(diǎn)SPSSfile節(jié)點(diǎn)Table節(jié)點(diǎn)88Chapter2Clementine簡介目的:882.1ClementineC/S啟動:Start..Programs..Clementine8.1…ClementineandClementineServerTools…ServerLogin892.1ClementineC/S89把很多操作放在數(shù)據(jù)庫層面上執(zhí)行2.不能在數(shù)據(jù)庫中執(zhí)行的操作放在強(qiáng)有力的Server上執(zhí)行3.客戶端只用于觀察結(jié)果和發(fā)出分析挖掘指令4.數(shù)據(jù)不必在網(wǎng)絡(luò)上進(jìn)行大量無效的傳輸.Clementine的結(jié)構(gòu)示意圖90把很多操作放在2.不能在數(shù)據(jù)庫中執(zhí)行的操作3.客戶端只用2.2Clementine面板流區(qū)域Streamcanvas菜單欄工具欄面板區(qū)pallete節(jié)點(diǎn)區(qū)node流、結(jié)果、模型管理區(qū)項(xiàng)目管理區(qū)912.2Clementine面板流區(qū)域菜單欄工具欄面板區(qū)節(jié)第二講:數(shù)據(jù)簡單準(zhǔn)備與理解數(shù)據(jù)準(zhǔn)備之讀入數(shù)據(jù)數(shù)據(jù)理解之?dāng)?shù)據(jù)質(zhì)量數(shù)據(jù)理解之?dāng)?shù)據(jù)分布92第二講:數(shù)據(jù)簡單準(zhǔn)備與理解數(shù)據(jù)準(zhǔn)備之讀入數(shù)據(jù)92Chapter3讀取數(shù)據(jù)文件93Chapter3讀取數(shù)據(jù)文件93Chapter3讀取數(shù)據(jù)文件目的掌握Clementine如何讀取文本格式數(shù)據(jù)了解Clementine可以讀取的數(shù)據(jù)格式掌握Clementine中的字段類型和方向數(shù)據(jù)S94Chapter3讀取數(shù)據(jù)文件目的94Chapter3讀取數(shù)據(jù)文件內(nèi)容及節(jié)點(diǎn):3.1Clementine可以讀取的數(shù)據(jù)格式3.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)3.3讀取SPSS數(shù)據(jù)3.4讀取數(shù)據(jù)庫數(shù)據(jù)(專用spss配置的鏈接)3.5Clementine中的字段類型3.6Clementine中的字段方向3.7保存Clementine流95Chapter3讀取數(shù)據(jù)文件內(nèi)容及節(jié)點(diǎn):953.1Clementine可以讀取的數(shù)據(jù)格式文本格式數(shù)據(jù)SPSS/SAS數(shù)據(jù)Excel,Access,dBase,F(xiàn)oxpro,Oracle,SQLServer,DB2等數(shù)據(jù)庫(每次只能讀一個(gè)表)用戶輸入數(shù)據(jù)963.1Clementine可以讀取的數(shù)據(jù)格式文本格式數(shù)據(jù)93.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)973.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)973.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)983.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)983.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)993.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)993.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)1003.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)1003.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)1013.2讀取文本數(shù)據(jù)與查看數(shù)據(jù)1013.3讀取SPSS數(shù)據(jù)變量標(biāo)簽值標(biāo)簽1023.3讀取SPSS數(shù)據(jù)變量標(biāo)簽1023.4讀取數(shù)據(jù)庫數(shù)據(jù)ODBC設(shè)置數(shù)據(jù)庫----表1033.4讀取數(shù)據(jù)庫數(shù)據(jù)ODBC設(shè)置數(shù)據(jù)庫----表1033.5Clementine中的字段類型離散型二分eg:sex:m/f多分eg:等級:好/中/差離散eg:連續(xù)型整數(shù)實(shí)數(shù)日期、時(shí)間其它1043.5Clementine中的字段類型離散型1043.6Clementine中的字段方向1053.6Clementine中的字段方向1053.7讀取其它格式的數(shù)據(jù)SasFixedtextfile:同一字段在各行的同一列1063.7讀取其它格式的數(shù)據(jù)Sas106Chapter4數(shù)據(jù)理解之?dāng)?shù)據(jù)質(zhì)量107Chapter4數(shù)據(jù)理解之?dāng)?shù)據(jù)質(zhì)量107Chapter4數(shù)據(jù)理解之?dāng)?shù)據(jù)質(zhì)量目的:掌握如何應(yīng)用Clementine發(fā)現(xiàn)數(shù)據(jù)的準(zhǔn)確性、完整性熟悉用于數(shù)據(jù)質(zhì)量分析的幾個(gè)節(jié)點(diǎn)內(nèi)容:4.1數(shù)據(jù)理解4.2缺失值定義4.3Quality節(jié)點(diǎn)介紹4.4Distribution節(jié)點(diǎn)----初步理解字符型字段的分布4.5Histogram/Statistics節(jié)點(diǎn)----初步理解數(shù)值型字段的分布數(shù)據(jù):Smallsamplemissing.txtRisk.txt108Chapter4數(shù)據(jù)理解之?dāng)?shù)據(jù)質(zhì)量目的:108數(shù)據(jù)理解的內(nèi)容對數(shù)據(jù)質(zhì)量進(jìn)行評價(jià)對數(shù)據(jù)進(jìn)行初步的描述對數(shù)據(jù)之間的關(guān)系進(jìn)行探索性分析109數(shù)據(jù)理解的內(nèi)容對數(shù)據(jù)質(zhì)量進(jìn)行評價(jià)1094.1數(shù)據(jù)理解在數(shù)據(jù)挖掘之前,理解數(shù)據(jù)的取值范圍及數(shù)值分布是非常重要的Histogram/StatisticsDistribution數(shù)據(jù)質(zhì)量越高,挖掘結(jié)果準(zhǔn)確性越高Quality1104.1數(shù)據(jù)理解在數(shù)據(jù)挖掘之前,理解數(shù)據(jù)的取值范圍及數(shù)值分布4.2缺失值定義Missingvaluesarevaluesinthedatasetthatareunknown,uncollected,orincorrectlyentered.Theyareinvalidfortheirfields.缺失值的定義:type節(jié)點(diǎn)系統(tǒng)默認(rèn)缺失值----onNull----數(shù)值型字段----空值----“”----“$Null”EmptyString----字符型字段----空值----“”WhiteSpace----字符型字段----空值以及空格值----“”或“”----包括EmptyString指定缺失值----BlankValue系統(tǒng)默認(rèn)缺失值指定特殊缺失值----“99”缺失值的檢查:quality節(jié)點(diǎn)1114.2缺失值定義Missingvaluesareva4.2缺失值定義1124.2缺失值定義1124.2缺失值定義數(shù)據(jù)缺失情況數(shù)據(jù)量的大小包含缺失值的字段的數(shù)量缺失值的數(shù)量缺失值的處理方法忽略含缺失值的字段忽略含缺失值的記錄默認(rèn)值代替缺失值根據(jù)一定規(guī)則填充缺失值1134.2缺失值定義數(shù)據(jù)缺失情況1134.3Quality節(jié)點(diǎn)介紹查看缺失值情況查看各類型缺失值的分布情況BlankValue的指定1144.3Quality節(jié)點(diǎn)介紹查看缺失值情況1144.3Quality節(jié)點(diǎn)介紹Quality結(jié)果1154.3Quality節(jié)點(diǎn)介紹Quality結(jié)果1154.4Distribution節(jié)點(diǎn)----初步理解字符型字段的分布單個(gè)字段的值分布例:人群中各種風(fēng)險(xiǎn)等級人數(shù)及百分比與其它分類字段合并例:分性別顯示各種風(fēng)險(xiǎn)等級人數(shù)及百分比例:各種風(fēng)險(xiǎn)等級中男性女性各占比例1164.4Distribution節(jié)點(diǎn)----初步理解字符型字4.5Histogram/Statistics節(jié)點(diǎn)----初步理解數(shù)值型字段的分布單個(gè)字段的值分布例:人群收入水平與其它分類字段合并例:顯示各種風(fēng)險(xiǎn)等級的收入水平例:顯示各收入水平的各風(fēng)險(xiǎn)等級比例1174.5Histogram/Statistics節(jié)點(diǎn)----Chapter5簡單數(shù)據(jù)整理118Chapter5簡單數(shù)據(jù)整理118Chapter5簡單數(shù)據(jù)整理目的:掌握Clementine中的數(shù)據(jù)整理技術(shù)熟悉用于數(shù)據(jù)整理的幾個(gè)節(jié)點(diǎn)內(nèi)容5.1Clem語言簡介5.2Select節(jié)點(diǎn)介紹5.3Filter節(jié)點(diǎn)介紹5.4Derive節(jié)點(diǎn)介紹5.5自動生成操作節(jié)點(diǎn)數(shù)據(jù)Risk.txtSmallSampleMissing.txt119Chapter5簡單數(shù)據(jù)整理目的:1195.1Clem語言簡介ClementineLanguageofExpressionManipulation應(yīng)用節(jié)點(diǎn):Derive導(dǎo)出,Select選擇,Filter過濾構(gòu)建材料:函數(shù)、符號、數(shù)字、字段記錄敏感:對每條記錄返回值(整數(shù)、實(shí)數(shù)、布爾值、字符值、日期、時(shí)間)或評估是否滿足條件兩種表達(dá)式:條件表達(dá)式與計(jì)算表達(dá)式1205.1Clem語言簡介ClementineLanguag5.2Select節(jié)點(diǎn)介紹用于根據(jù)一定條件選擇或丟棄某些記錄CLEM構(gòu)建1215.2Select節(jié)點(diǎn)介紹用于根據(jù)一定條件選擇或丟棄某些記5.3Filter節(jié)點(diǎn)介紹對某些字段進(jìn)行重命名或丟棄某些無意義的字段無意義字段缺失值占大比例所有記錄有相同值中間過程生成的中間變量1225.3Filter節(jié)點(diǎn)介紹對某些字段進(jìn)行重命名或丟棄某些無5.4Derive節(jié)點(diǎn)介紹根據(jù)原有字段值生成新字段值按公式生成字段生成二分型字段生成多分型字段對所有記錄按同樣標(biāo)準(zhǔn)生成新字段對不同記錄按不同標(biāo)準(zhǔn)生成新字段對多個(gè)字段進(jìn)行同一轉(zhuǎn)換1235.4Derive節(jié)點(diǎn)介紹根據(jù)原有字段值生成新字段值1235.4Derive節(jié)點(diǎn)介紹可以利用導(dǎo)出把連續(xù)數(shù)據(jù)離散化(導(dǎo)出為標(biāo)志及集合),以進(jìn)一步分析1245.4Derive節(jié)點(diǎn)介紹可以利用導(dǎo)出把連續(xù)數(shù)據(jù)離散化(導(dǎo)5.5自動生成操作節(jié)點(diǎn)自動生成“Select”自動生成“Filter”1255.5自動生成操作節(jié)點(diǎn)自動生成“Select”125第三講主要內(nèi)容數(shù)據(jù)理解之?dāng)?shù)據(jù)關(guān)系探測基本建模方法簡要介紹126第三講主要內(nèi)容126Chapter6數(shù)據(jù)理解之?dāng)?shù)據(jù)間簡單關(guān)系127Chapter6數(shù)據(jù)理解之127Chapter6數(shù)據(jù)理解之?dāng)?shù)據(jù)間簡單關(guān)系目的:掌握如何理解字段間關(guān)系熟悉用于字段關(guān)系理解的幾個(gè)節(jié)點(diǎn)內(nèi)容6.1Matrix節(jié)點(diǎn)----研究字符型字段間關(guān)系6.2Web節(jié)點(diǎn)----研究字符型字段間關(guān)系6.3Statistics節(jié)點(diǎn)----研究連續(xù)型字段間線性相關(guān)關(guān)系6.4Plot節(jié)點(diǎn)----研究連續(xù)型字段間關(guān)系6.5Histogram節(jié)點(diǎn)----研究連續(xù)型字段與字符型字段的關(guān)系數(shù)據(jù)Risk.txt 128Chapter6數(shù)據(jù)理解之?dāng)?shù)據(jù)間簡單關(guān)系目的:128Chapter6數(shù)據(jù)理解之?dāng)?shù)據(jù)間簡單關(guān)系解決問題風(fēng)險(xiǎn)等級是否與收入有關(guān)風(fēng)險(xiǎn)等級是否與性別有關(guān)如果一個(gè)人的信用卡數(shù)量較多,是否意味著它欺詐的可能性也大129Chapter6數(shù)據(jù)理解之?dāng)?shù)據(jù)間簡單關(guān)系解決問題1296.1Matrix節(jié)點(diǎn)----研究字符型字段間關(guān)系解決問題月付款的人是否比周付款的人風(fēng)險(xiǎn)程度更高男性是否比女性風(fēng)險(xiǎn)程序更高M(jìn)atrix節(jié)點(diǎn):交叉表(列聯(lián)表)來顯示字符型數(shù)據(jù)間關(guān)系行字段與列字段的選擇顯示百分比1306.1Matrix節(jié)點(diǎn)----研究字符型字段間關(guān)系解決問題6.1Matrix節(jié)點(diǎn)----研究字符型字段間關(guān)系1316.1Matrix節(jié)點(diǎn)----研究字符型字段間關(guān)系1316.2Web節(jié)點(diǎn)----研究字符型字段間關(guān)系例:婚姻狀態(tài)、抵押貸款等是否與風(fēng)險(xiǎn)等級有關(guān)幾個(gè)小概念:人數(shù)總數(shù)百分比大類百分比小類百分比強(qiáng)、中、弱相關(guān)關(guān)系結(jié)果解讀1326.2Web節(jié)點(diǎn)----研究字符型字段間關(guān)系例:婚姻狀態(tài)6.2Web節(jié)點(diǎn)----研究字符型字段間關(guān)系1336.2Web節(jié)點(diǎn)----研究字符型字段間關(guān)系1336.3Statistics節(jié)點(diǎn)----研究連續(xù)型字段間線性相關(guān)關(guān)系例:收入是否隨年齡呈線性增長Statistics節(jié)點(diǎn)設(shè)置結(jié)果解讀注意:線性相關(guān)關(guān)系而非相關(guān)關(guān)系(線形相關(guān)是相關(guān)關(guān)系的一種,其他相關(guān)關(guān)系最終需要轉(zhuǎn)化為線形相關(guān)來研究)1346.3Statistics節(jié)點(diǎn)----研究連續(xù)型字段間線性6.3Statistics節(jié)點(diǎn)----研究連續(xù)型字段間線性相關(guān)關(guān)系1356.3Statistics節(jié)點(diǎn)----研究連續(xù)型字段間線性6.4Plot節(jié)點(diǎn)----研究連續(xù)型字段間關(guān)系例:顯示孩子數(shù)目與貸款數(shù)目的關(guān)系用點(diǎn)的大小來反映其代表記錄的多少用點(diǎn)的密度來反映其代表記錄的多少用不同顏色的點(diǎn)來反映不同類別的記錄1366.4Plot節(jié)點(diǎn)----研究連續(xù)型字段間關(guān)系例:顯示孩子6.4Plot節(jié)點(diǎn)----研究連續(xù)型字段間關(guān)系1376.4Plot節(jié)點(diǎn)----研究連續(xù)型字段間關(guān)系1376.5Histogram節(jié)點(diǎn)----研究連續(xù)型字段與字符型字段的關(guān)系例:不同風(fēng)險(xiǎn)等級的人的收入情況顯示某收入水平的各風(fēng)險(xiǎn)等級人數(shù)顯示某收入水平----各風(fēng)險(xiǎn)等級在該收入水平所占的比例1386.5Histogram節(jié)點(diǎn)----研究連續(xù)型字段與字符型表格展現(xiàn)數(shù)據(jù)139表格展現(xiàn)數(shù)據(jù)139表格的元素構(gòu)成統(tǒng)計(jì)量行變量層變量列變量匯總行140表格的元素構(gòu)成統(tǒng)計(jì)量行變量層變量列變量匯總行140表格類型
在SPSS里實(shí)現(xiàn)堆疊表(Stacking)嵌套表(Nesting)交叉表(Crosstabulation)分層表(Layers)141表格類型
在SPSS里實(shí)現(xiàn)堆疊表(Stacking)141堆疊表142堆疊表142嵌套表143嵌套表143交叉表144交叉表144分層表145分層表145把層去掉以后的效果146把層去掉以后的效果146樞軸表技術(shù)(PivotTables)行、列、層可自由互換,達(dá)到從各個(gè)角度觀察數(shù)據(jù)的目的層行列147樞軸表技術(shù)(PivotTables)行、列、層可自由互換,Clementine表格148Clementine表格148問題&討論149問題&討論149Chapter7建模技術(shù)概覽150Chapter7建模技術(shù)概覽150Chapter7Clementine中的建模技術(shù)目的:了解Clementine中提供的各種建模技術(shù)內(nèi)容7.1Clementine提供的模型技術(shù)7.2NeuralNetworks(神經(jīng)網(wǎng)絡(luò))7.3規(guī)則歸納模型7.4統(tǒng)計(jì)模型7.5聚類模型7.6關(guān)聯(lián)規(guī)則模型7.7Sequence模型7.8總述151Chapter7Clementine中的建模技術(shù)目的:1DataMiningModelSupervisedModel(監(jiān)督模型,預(yù)測模型,有目標(biāo)的,關(guān)注風(fēng)險(xiǎn)狀況)(PredictiveModel)UnsupervisedModelDataReduction(數(shù)據(jù)整理)NeuralNetworksC5.0C&RT(CART)RegressionLogisticregression(分類變量預(yù)測)KohonenK-meansTwo-StepPCA(PrincipalComponentAnalysis)主成分分析Factor因子分析Clementine提供模型概述Clustering(聚類)APRIORIGRI(多維關(guān)聯(lián))SequenceAssociations(關(guān)聯(lián))152DataMiningModelSupervisedMo7.1Clementine提供的模型技術(shù)幾種技術(shù):預(yù)測、聚類、關(guān)聯(lián)規(guī)則預(yù)測技術(shù):InputsOutput六種方法:NeuralNetworks規(guī)則歸納:C5.0,C&RT與時(shí)間或順序有關(guān)的關(guān)聯(lián)規(guī)則:Sequence(Capri)統(tǒng)計(jì)學(xué):回歸、Logistic回歸1537.1Clementine提供的模型技術(shù)幾種技術(shù):預(yù)測、聚7.1Clementine提供的模型技術(shù)聚類技術(shù)無Output無監(jiān)督的學(xué)習(xí)三種方法:Kohonen統(tǒng)計(jì)學(xué):K-means、TwoStep關(guān)聯(lián)規(guī)則BothInputandOutput三種方法GRI,AprioriSequence(Capri)1547.1Clementine提供的模型技術(shù)聚類技術(shù)1547.2NeuralNetworks模仿人腦Input/Output可以是Num,也可以是SymbolicMLP與RBFN劣勢:黑匣子1557.2NeuralNetworks模仿人腦1557.3規(guī)則歸納模型是決策樹算法與NeuralNet相比的優(yōu)勢結(jié)果好解釋自動刪除無意義的Input字段主要是根據(jù)結(jié)果變量值對數(shù)據(jù)按Input進(jìn)行細(xì)分有兩種結(jié)果形式:決策樹形式或規(guī)則集形式1567.3規(guī)則歸納模型是決策樹算法1567.4統(tǒng)計(jì)模型之線性回歸統(tǒng)計(jì)模型與NeuralNet相比:嚴(yán)格的假設(shè)(如誤差正態(tài)分布)用簡單方程表達(dá)模型,便于解釋可自動選擇字段無法捕捉Inputs字段間的交互作用統(tǒng)計(jì)模型:線性回歸Logistic回歸主成分分析1577.4統(tǒng)計(jì)模型之線性回歸統(tǒng)計(jì)模型與NeuralNet相比7.4統(tǒng)計(jì)模型之回歸線性回歸:方程:Y=a+b1x1+b2x2++bnxn原理:尋找使誤差平方和最小的系數(shù)Output字段----Numeric輸出必須是連續(xù)型Input字段----Numeric/SymbolicLogistic回歸:方程原理:尋找使誤差平方和最小的系數(shù)回歸系數(shù)隨結(jié)果值而改變,與NN,RI相比,不適合復(fù)雜數(shù)據(jù)Output字段----Symbolic輸出必須是離散性Input字段----Numeric/Symbolic1587.4統(tǒng)計(jì)模型之回歸線性回歸:1587.4統(tǒng)計(jì)模型之主成分分析數(shù)據(jù)降維技術(shù):用少量不相關(guān)數(shù)據(jù)(主成分)來代替大量相關(guān)數(shù)據(jù)(原始數(shù)據(jù))作分析主成分是原始數(shù)據(jù)的線性組合更可能與統(tǒng)計(jì)分析方法合并使用(相對于機(jī)器學(xué)習(xí)),尤其是在多個(gè)等級分類字段可用于預(yù)測模型或聚類分析之前1597.4統(tǒng)計(jì)模型之主成分分析數(shù)據(jù)降維技術(shù):1597.5聚類模型發(fā)現(xiàn)有相似值記錄的群體多用于市場(細(xì)分客戶)和其它商業(yè)應(yīng)用與主成分分析相似,多用于預(yù)測模型之前無監(jiān)督學(xué)習(xí)(無output)三種聚類分析方法:KohonenK-meansTwoStep1607.5聚類模型發(fā)現(xiàn)有相似值記錄的群體1607.5聚類模型Kohonen聚類是一種實(shí)施無監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法一維或二維網(wǎng)格,各神經(jīng)元相互連接K-means聚類又稱為快速聚類,(速度快,適合大量數(shù)據(jù))用戶指定類別數(shù)與記錄順序有關(guān)(小數(shù)據(jù)量與記錄順序無關(guān),大數(shù)據(jù)需要先執(zhí)行一定程序找出數(shù)據(jù)各類別中心)TwoStep聚類用戶指定范圍,模型根據(jù)統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)自動選擇類數(shù)消耗機(jī)器資源少能給出一個(gè)較好的結(jié)果1617.5聚類模型Kohonen聚類1617.6關(guān)聯(lián)規(guī)則模型尋找數(shù)據(jù)中一起發(fā)生的事情與Web相似,但以極快的速度發(fā)掘更復(fù)雜的模式與規(guī)則歸納不同之處每個(gè)規(guī)則的Output字段可能各不相同規(guī)則可用于查看,但非預(yù)測可生成同一output字段的規(guī)則,用于預(yù)測與規(guī)則歸納相比,運(yùn)行較慢,可增加限制條件從而提高速度兩種算法:Apriori,GRI(廣義規(guī)則探測)1627.6關(guān)聯(lián)規(guī)則模型尋找數(shù)據(jù)中一起發(fā)生的事情1627.7Sequence模型與關(guān)聯(lián)規(guī)則不同之處在于尋找與時(shí)間/順序有關(guān)的規(guī)則應(yīng)用領(lǐng)域:零售、網(wǎng)絡(luò)日志、過程改進(jìn)用于字符型字段,數(shù)值被當(dāng)作是字符用CARMA算法1637.7Sequence模型與關(guān)聯(lián)規(guī)則不同之處在于尋找與時(shí)間7.8綜述如果要預(yù)測某個(gè)字段----有監(jiān)督的機(jī)器學(xué)習(xí)和其中一種統(tǒng)計(jì)方法(依結(jié)果字段而定)如果想發(fā)現(xiàn)有相似行為(許多字段)的個(gè)體----聚類關(guān)聯(lián)規(guī)則不能直接用于預(yù)測,但它是一種用于理解數(shù)據(jù)內(nèi)模式的有用工具如果對順序、時(shí)間有興趣,可用Sequence算法1647.8綜述如果要預(yù)測某個(gè)字段----有監(jiān)督的機(jī)器學(xué)習(xí)和其中7.8綜述如果想進(jìn)一步選擇具體的預(yù)測技術(shù),依賴于目的字段,output字段與input字段間關(guān)系有一定經(jīng)驗(yàn)規(guī)律,但不是規(guī)則Clementine的優(yōu)勢之處在于建模的簡單Clementine只能發(fā)現(xiàn)數(shù)據(jù)內(nèi)存在的關(guān)系,如果數(shù)據(jù)本身不相關(guān)聯(lián),不可能提取出一個(gè)模型數(shù)據(jù)挖掘是一個(gè)迭代、重復(fù)的過程1657.8綜述如果想進(jìn)一步選擇具體的預(yù)測技術(shù),依賴于目的字段,第四講:預(yù)測建模技術(shù)神經(jīng)網(wǎng)絡(luò)模型技術(shù)決策樹模型技術(shù)回歸分析技術(shù)模型間評估技術(shù)166第四講:預(yù)測建模技術(shù)神經(jīng)網(wǎng)絡(luò)模型技術(shù)166預(yù)測的重要性
在當(dāng)今充滿競爭的社會里,一個(gè)企業(yè)如果能準(zhǔn)確地預(yù)知其未來,那么其生存機(jī)會將大大增加,預(yù)測科學(xué)就是處理對未來的預(yù)測等問題的學(xué)科。人們對未知的恐懼預(yù)測的重要性由來已久167預(yù)測的重要性在當(dāng)今充滿競爭的社會里,一個(gè)企業(yè)如果能準(zhǔn)確預(yù)測相關(guān)注意事項(xiàng)預(yù)測對象所在的環(huán)境常常處于動態(tài)變化之中,一些不可知事件會對預(yù)測結(jié)果造成很大影響;被用來進(jìn)行預(yù)測的數(shù)據(jù)常常是不穩(wěn)定、不確定和不完全的,由其來源和收集的方式所決定;不同的時(shí)間區(qū)域常常需要不同的預(yù)測方法,形式上難以統(tǒng)一;因?yàn)椴煌念A(yù)測方法在復(fù)雜性、數(shù)據(jù)要求以及準(zhǔn)確程度上均不同,因此選擇一個(gè)合適的預(yù)測方法是很困難的。168預(yù)測相關(guān)注意事項(xiàng)預(yù)測對象所在的環(huán)境常常處于動態(tài)變化之中,一些Chapter8NeuralNetworks169Chapter8NeuralNetworks169Chpater8NeuralNetworks目的:掌握如何在Clementine中進(jìn)行NeuralNetwork模型的構(gòu)建和解讀掌握NeuralNetwork節(jié)點(diǎn)數(shù)據(jù):Risktrain.txt170Chpater8NeuralNetworks目的:17Chpater8NeuralNetworks內(nèi)容8.1NeuralNet節(jié)點(diǎn)介紹8.2構(gòu)建NeuralNetwork8.3模型管理區(qū)介紹8.4結(jié)果查看和結(jié)果解釋8.5模型預(yù)測值生成8.6模型評價(jià)8.7理解預(yù)測原因8.8模型總結(jié)171Chpater8NeuralNetworks內(nèi)容171神經(jīng)網(wǎng)絡(luò)模型預(yù)測技術(shù)基本概念:神經(jīng)元三層結(jié)構(gòu)172神經(jīng)網(wǎng)絡(luò)模型預(yù)測技術(shù)基本概念:1728.1NeuralNet節(jié)點(diǎn)介紹字段方向----Type節(jié)點(diǎn)或表In----X字段----自變量字段Out----Y字段----結(jié)果字段----聚類、主成分分析除外Both----自變量和結(jié)果字段----關(guān)聯(lián)規(guī)則或順序算法None----不用字段ID----typeless----None五種NeuralNet方法,默認(rèn)Quick過度訓(xùn)練(長時(shí)間接觸同一個(gè)數(shù)據(jù)源,并用同樣特征去描述其他數(shù)據(jù)集,結(jié)果往往錯(cuò)誤)停止規(guī)則(避免過度訓(xùn)練)字段的相對重要性分析1738.1NeuralNet節(jié)點(diǎn)介紹字段方向----Type避免過度訓(xùn)練問題
選擇測試集錯(cuò)誤較低,或者兩集錯(cuò)誤交叉點(diǎn)174避免過度訓(xùn)練問題
選擇測試集錯(cuò)誤較低,或者兩集錯(cuò)誤交叉點(diǎn)178.2構(gòu)建NeuralNetwork例:用age、sex、income等來預(yù)測客戶的風(fēng)險(xiǎn)等級1758.2構(gòu)建NeuralNetwork例:用age、sex8.3模型管理區(qū)介紹瀏覽模型結(jié)果導(dǎo)出模型代碼將模型載入數(shù)據(jù)流將模型導(dǎo)入項(xiàng)目管理區(qū)保存、清除、裝載模型管理區(qū)1768.3模型管理區(qū)介紹瀏覽模型結(jié)果1768.4結(jié)果查看和結(jié)果解釋結(jié)果的瀏覽:Rightclickgenerated“model”模型準(zhǔn)確性輸入字段或?qū)虞敵鲎侄位驅(qū)痈鬏斎胱侄蔚南鄬χ匾?778.4結(jié)果查看和結(jié)果解釋結(jié)果的瀏覽:Rightclick8.5模型預(yù)測值生成將模型裝入數(shù)據(jù)流$N-Risk是NeuralNet對該記錄風(fēng)險(xiǎn)等級的預(yù)測值$NC-Risk是$N-Risk的置信度(confidence)1788.5模型預(yù)測值生成將模型裝入數(shù)據(jù)流1788.6模型評價(jià)----預(yù)測值與實(shí)際值的比較利用Matrix比較,通常關(guān)注的不是整體,例如欠費(fèi)用戶群而不是整個(gè)用戶群。1798.6模型評價(jià)----預(yù)測值與實(shí)際值的比較利用Matrix8.6模型評價(jià)EvaluationNode----評估比較模型,以選擇最優(yōu)模型Evaluation的原理:將數(shù)據(jù)按預(yù)測值和置信度從高到低排序,將數(shù)據(jù)拆分為多個(gè)集合,每集合包含相同的記錄數(shù),然后作圖。關(guān)注值:flag變量的真值,set變量的第一個(gè)值五種圖形:收益圖、功效圖、響應(yīng)圖、投資回報(bào)圖、利潤圖1808.6模型評價(jià)EvaluationNode----評估比8.6模型評價(jià)收益圖功效圖1818.6模型評價(jià)收益圖功效圖1818.7理解預(yù)測原因Web節(jié)點(diǎn)--SymbolicInput&SymbolicOutputDistribuiton節(jié)點(diǎn)—SymbolicInput&SymbolicOutputHistogram節(jié)點(diǎn)--NumericInput&SymbolicOutput1828.7理解預(yù)測原因Web節(jié)點(diǎn)--SymbolicInpu8.8模型總結(jié)預(yù)測風(fēng)險(xiǎn)中最重要因素是婚姻狀態(tài)和收入離異、單身、鰥寡人士可能是壞客戶神經(jīng)網(wǎng)絡(luò)模型,高收入人群是好客戶,但這一點(diǎn)并不與實(shí)際相符,如此預(yù)測,可能會給銀行帶來損失題外話:可用驗(yàn)證數(shù)據(jù)集,利用分析節(jié)點(diǎn)、評估節(jié)點(diǎn)、Matrix節(jié)點(diǎn)對模型進(jìn)行評估1838.8模型總結(jié)預(yù)測風(fēng)險(xiǎn)中最重要因素是婚姻狀態(tài)和收入183Chapter9規(guī)則歸納模型決策樹技術(shù)184Chapter9規(guī)則歸納模型184Chapter9規(guī)則歸納模型目的:掌握如何在Clementine中進(jìn)行規(guī)則歸納模型的構(gòu)建和解讀掌握C5.0節(jié)點(diǎn)數(shù)據(jù)Risktrain.txt185Chapter9規(guī)則歸納模型目的:185Chapter9規(guī)則歸納模型內(nèi)容9.1C5.0、C&RT介紹9.2構(gòu)建C5.0模型9.3C5.0決策樹型結(jié)果瀏覽和解釋9.4C5.0規(guī)則集型結(jié)果瀏覽和解釋9.5模型預(yù)測值生成9.6模型評價(jià)9.7模型總結(jié)186Chapter9規(guī)則歸納模型內(nèi)容1869.1C5.0、C&RT介紹C5.0與C&RT的相似之處:構(gòu)建決策樹,按照自變量與結(jié)果變量的關(guān)系將數(shù)據(jù)拆分成各子群C5.0與C&RT的不同之處:
C5.0C&RTOutput字段SymSymorNumOutput決策樹—一條記錄只有一個(gè)預(yù)測結(jié)果規(guī)則歸納—一條記錄可能有多個(gè)規(guī)則可用決策樹決策樹拆分可一分多只能一分二算法標(biāo)準(zhǔn)信息收益比離散測量修剪準(zhǔn)則不同規(guī)定最小分支記錄數(shù)1879.1C5.0、C&RT介紹C5.0與C&RT的相似之處:9.2構(gòu)建C5.0模型模型的準(zhǔn)確性與一般性模型的驗(yàn)證方法交叉驗(yàn)證(分散數(shù)據(jù)集,不斷用新數(shù)據(jù)去驗(yàn)證)模型結(jié)果字段值的減少(輸入變量最終并非全部進(jìn)入模型)建立多個(gè)模型:耗時(shí)長難以解釋結(jié)果1889.2構(gòu)建C5.0模型模型的準(zhǔn)確性與一般性1889.2構(gòu)建C5.0模型1899.2構(gòu)建C5.0模型1899.3C5.0決策樹型結(jié)果瀏覽和解釋結(jié)果:決策樹、模型形式可分支的子根眾數(shù)顯示例數(shù)與置信度繼承性1909.3C5.0決策樹型結(jié)果瀏覽和解釋結(jié)果:1909.4C5.0規(guī)則集型結(jié)果瀏覽和解釋1919.4C5.0規(guī)則集型結(jié)果瀏覽和解釋1919.5模型預(yù)測值生成1929.5模型預(yù)測值生成1929.6模型評價(jià)----預(yù)測值與實(shí)際值的比較利用Matrix來比較預(yù)測值與實(shí)際值1939.6模型評價(jià)----預(yù)測值與實(shí)際值的比較利用Matrix9.6模型評價(jià)----不同值的收益圖GainsChartfortheGoodRiskCategory
GainsChartfortheBadLossCategory
1949.6模型評價(jià)----不同值的收益圖GainsChart9.7模型總結(jié)C5.0使模型可以不用Web、Histogram等即可有效地理解模型與NeuralNet不同,沒有SensitivityAnalysis,但同樣可以辨別字段的重要性1959.7模型總結(jié)C5.0使模型可以不用Web、Histogr決策樹的優(yōu)點(diǎn)可以生成可以理解的規(guī)則計(jì)算量相對來說不是很大可以處理連續(xù)和種類字段決策樹可以清晰的顯示哪些字段比較重要196決策樹的優(yōu)點(diǎn)可以生成可以理解的規(guī)則196決策樹的缺點(diǎn)對連續(xù)性的字段比較難預(yù)測對有時(shí)間順序的數(shù)據(jù),需要很多預(yù)處理的工作當(dāng)類別太多時(shí),錯(cuò)誤可能就會增加的比較快(對分類變量重新劃分,二分或者數(shù)據(jù)降維,spss聚類分析法)一般的算法分類的時(shí)候,只是根據(jù)一個(gè)字段來分類(假設(shè)各字段間相關(guān)度不是很高)197決策樹的缺點(diǎn)對連續(xù)性的字段比較難預(yù)測197Chapter10模型比較198Chapter10模型比較198Chpater10模型比較目的掌握如何利用Analysis節(jié)點(diǎn)進(jìn)行模型的評估掌握如何利用驗(yàn)證數(shù)據(jù)集比較不同模型內(nèi)容10.1Analysis節(jié)點(diǎn)用于比較模型10.2Evaluation節(jié)點(diǎn)用于比較模型10.3利用驗(yàn)證數(shù)據(jù)集進(jìn)行模型比較數(shù)據(jù)Risktrain.txtRiskvalidation.txt199Chpater10模型比較目的19910.1Analysis節(jié)點(diǎn)用于比較模型20010.1Analysis節(jié)點(diǎn)用于比較模型20010.1Analysis節(jié)點(diǎn)用于比較模型評估多個(gè)模型評估各模型結(jié)果的一致性TrainValidation20110.1Analysis節(jié)點(diǎn)用于比較模型評估多個(gè)模型Tra10.2Evaluation節(jié)點(diǎn)用于比較模型20210.2Evaluation節(jié)點(diǎn)用于比較模型20210.2Evaluation節(jié)點(diǎn)用于比較模型評估多個(gè)模型評估各模型結(jié)果的一致性TrainValidation20310.2Evaluation節(jié)點(diǎn)用于比較模型評估多個(gè)模型T10.3利用驗(yàn)證數(shù)據(jù)集進(jìn)行模型比較20410.3利用驗(yàn)證數(shù)據(jù)集進(jìn)行模型比較204第五講主要內(nèi)容聚類分析模型技術(shù)關(guān)聯(lián)規(guī)則模型技術(shù)序列探測模型技術(shù)205第五講主要內(nèi)容聚類分析模型技術(shù)205Chapter11KohonenNetworks206Chapter11KohonenNetworks206Chpater11KohonenNetworks目的掌握Kohonen神經(jīng)網(wǎng)絡(luò)的建立、結(jié)果解釋掌握Kohonen節(jié)點(diǎn)內(nèi)容11.1Kohonen節(jié)點(diǎn)介紹11.2構(gòu)建KohonenNetworks11.3結(jié)果解釋11.4為每條記錄產(chǎn)生類別字段11.5結(jié)果理解數(shù)據(jù)Shopping.txt207Chpater11KohonenNetworks目Kohonen網(wǎng)絡(luò)結(jié)構(gòu)輸入數(shù)據(jù)被展示在輸入層中,其數(shù)據(jù)值被傳送到輸出層。然后每個(gè)輸出層神經(jīng)元都做出回應(yīng)?;貞?yīng)最強(qiáng)烈的輸出層神經(jīng)元稱為嬴家,它的回應(yīng)就做為輸入數(shù)據(jù)的結(jié)果。208Kohonen網(wǎng)絡(luò)結(jié)構(gòu)輸入數(shù)據(jù)被展示在輸入層11.1Kohonen節(jié)點(diǎn)介紹聚類分析發(fā)現(xiàn)數(shù)據(jù)的總體結(jié)構(gòu)及相互關(guān)系類間差別,類內(nèi)相似20911.1Kohonen節(jié)點(diǎn)介紹聚類分析20911.2構(gòu)建KohonenNetworksKohonen節(jié)點(diǎn)字段方向設(shè)置:購買產(chǎn)品與否----In其它----None/Out/Both反饋圖:紅色越深,記錄越多指定類別數(shù):長*寬21011.2構(gòu)建KohonenNetworksKohonen11.3結(jié)果解釋Kohonen結(jié)果X-軸Y-軸21111.3結(jié)果解釋Kohonen結(jié)果21111.4為每條記錄產(chǎn)生類別字段$KX----Kohonen$KY----KohonenCluster=$KX----Kohonen><$KY----Kohonen21211.4為每條記錄產(chǎn)生類別字段$KX----Kohonen11.5結(jié)果理解各Cluster人群多少----條圖各Cluster人群的一般特征年齡----條圖性別----條圖購買產(chǎn)品----Web圖孩子婚姻狀態(tài)工作狀態(tài)各Cluster人群總述21311.5結(jié)果理解各Cluster人群多少----條圖213各種聚類方法比較214各種聚類方法比較214聚類分析之我見聚類分析的優(yōu)勢在于:它能夠在我們對數(shù)據(jù)了解很少時(shí),提供一種了解數(shù)據(jù)的方法。發(fā)現(xiàn)個(gè)體與變量間的綜合關(guān)系。例如:根據(jù)各省市的各種經(jīng)濟(jì)指數(shù)將所有的省市分為幾個(gè)等級。例如:根據(jù)各種指數(shù)的取值范圍,將模式相近的指數(shù)的聚為一類。聚類分析的缺陷在于:各類之間均值等可能有差別,但每個(gè)個(gè)體劃歸哪類更多地依賴于數(shù)字,解釋起來比較困難。215聚類分析之我見聚類分析的優(yōu)勢在于:它能夠在我們對數(shù)據(jù)了解很少Chapter12關(guān)聯(lián)規(guī)則216Chapter12關(guān)聯(lián)規(guī)則216Chpater12關(guān)聯(lián)規(guī)則目的掌握關(guān)聯(lián)規(guī)則在Clementine中的建立、結(jié)果解釋掌握Apriori節(jié)點(diǎn)無監(jiān)督的探索性模型內(nèi)容12.1關(guān)聯(lián)規(guī)則簡介12.2Apriori節(jié)點(diǎn)及結(jié)果解釋12.3產(chǎn)生特定結(jié)果的規(guī)則集12.4特定結(jié)果規(guī)則集應(yīng)用于各記錄數(shù)據(jù)Shopping.txt217Chpater12關(guān)聯(lián)規(guī)則目的21712.1關(guān)聯(lián)規(guī)則簡介解決問題考慮的是關(guān)聯(lián),得到的是規(guī)則,處理變量之間的相關(guān),而非客戶之間)買香煙的人是否傾向于也買巧克力或啤酒高血脂的人是否也常伴有高血壓買車險(xiǎn)的人是否也傾向于買房險(xiǎn)節(jié)點(diǎn)GRI----Numeric字段可作為輸入字段,可用于連續(xù)型變量Apriori----只接受Symbolic字段(只能用字符型輸入)作為輸入字段特殊之處:產(chǎn)生的模型不能直接加入數(shù)據(jù)流21812.1關(guān)聯(lián)規(guī)則簡介解決問題考慮的是關(guān)聯(lián),得到的是規(guī)則,12.2Apriori節(jié)點(diǎn)及結(jié)果解釋Apriori節(jié)點(diǎn)設(shè)置字段類型及方向:無主次先后之分Content1----flag----bothCo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 青春期女生生理衛(wèi)生課件
- 2025年度茶葉產(chǎn)品溯源系統(tǒng)開發(fā)合同8篇
- 2025年門面房租賃合同參考模板(含裝修驗(yàn)收標(biāo)準(zhǔn))
- 2025年度環(huán)保產(chǎn)業(yè)園區(qū)基礎(chǔ)設(shè)施建設(shè)與運(yùn)營管理合同3篇
- 2025年度海外院校聯(lián)合培養(yǎng)項(xiàng)目合同協(xié)議書4篇
- 二零二五年度內(nèi)部股權(quán)贈與合同模板
- 二零二五年度電子商務(wù)APP平臺共建與品牌合作合同3篇
- 二零二五年度大數(shù)據(jù)支持民間借款擔(dān)保合同范本4篇
- 二零二五年度石油化工產(chǎn)品儲存與運(yùn)輸服務(wù)合同4篇
- 二零二五版郵輪碼頭設(shè)施租賃及運(yùn)營管理合同4篇
- 北師大版小學(xué)三年級上冊數(shù)學(xué)第五單元《周長》測試卷(含答案)
- 國家安全責(zé)任制落實(shí)情況報(bào)告3篇
- DB45T 1950-2019 對葉百部生產(chǎn)技術(shù)規(guī)程
- 2024年度順豐快遞冷鏈物流服務(wù)合同3篇
- 六年級下冊【默寫表】(牛津上海版、深圳版)(漢譯英)
- 合同簽訂培訓(xùn)
- 新修訂《保密法》知識考試題及答案
- 電工基礎(chǔ)知識培訓(xùn)課程
- 鐵路基礎(chǔ)知識題庫單選題100道及答案解析
- 金融AI:顛覆與重塑-深化理解AI在金融行業(yè)的實(shí)踐與挑戰(zhàn)
- 住宅樓安全性檢測鑒定方案
評論
0/150
提交評論