應(yīng)用SASEM進行數(shù)據(jù)挖掘課件_第1頁
應(yīng)用SASEM進行數(shù)據(jù)挖掘課件_第2頁
應(yīng)用SASEM進行數(shù)據(jù)挖掘課件_第3頁
應(yīng)用SASEM進行數(shù)據(jù)挖掘課件_第4頁
應(yīng)用SASEM進行數(shù)據(jù)挖掘課件_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

SAS/EM進行數(shù)據(jù)挖掘2003-04-16議程數(shù)據(jù)挖掘概述SAS數(shù)據(jù)挖掘項目方法論及工具SAS/EM簡介Workshop企業(yè)決策支持信息系統(tǒng)OLTP數(shù)據(jù)倉庫統(tǒng)計分析數(shù)據(jù)挖掘決策支持企業(yè)知識DWSolutionDM&AnalysisSolutionApplicationforC/S&B/SCBISolution1stQtr2ndQtr3rdQtr4thQtrPowerPlayFileEditDataValuesDisplayTextLegendLocation1992AllProductsAgegroupsRevenue($000)OLAP查詢報表待分析數(shù)據(jù)數(shù)據(jù)倉庫處理后數(shù)據(jù)模式變換后數(shù)據(jù)

知識Source:”FromDataMiningtoKnowledgeDiscovery:AnOverview”,AdvancesinKnowledgeDiscoveryandDataMining,AAAIPress/TheMITPress.數(shù)據(jù)抽取數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘數(shù)據(jù)變換解釋評價數(shù)據(jù)挖掘全過程數(shù)據(jù)挖掘涉及領(lǐng)域神經(jīng)計算數(shù)據(jù)庫知識發(fā)現(xiàn)數(shù)據(jù)挖掘統(tǒng)計學(xué)模式識別機器學(xué)習(xí)人工智能數(shù)據(jù)挖掘算法(按有無目標變量)有監(jiān)督算法無監(jiān)督算法(有目標變量)

(無目標變量)傳統(tǒng)回歸 無神經(jīng)網(wǎng)絡(luò)決策樹

邏輯/概率回歸決策樹 聚類神經(jīng)網(wǎng)絡(luò) 神經(jīng)網(wǎng)絡(luò)判別分析基于記憶的推理決策樹 主成分分析 聚類

關(guān)聯(lián)/序列分析 連接分析 因子分析預(yù)測分類探索關(guān)聯(lián)回歸算法:線性回歸、邏輯回歸、概率回歸統(tǒng)計方法:主成分分析、因子分析、判別分析等關(guān)聯(lián)算法:關(guān)聯(lián)模式、序列模式、連接分析等聚類算法:Cluster、SOM/Kohonen神經(jīng)元網(wǎng)絡(luò):MLP、RBF決策樹:CHAID、CART、C4.5、C5.0數(shù)據(jù)挖掘算法x20.00.20.40.60.81.0x10.00.20.40.60.81.0x20.00.20.40.60.81.0x10.00.20.40.60.81.0使用一元二次項使用簡單線性①

預(yù)測型–回歸

希望預(yù)測“綠點”在哪些情況下發(fā)生以及發(fā)生的概率數(shù)據(jù)挖掘常用算法Time

<13yesno70%9663%ratio

<.39time<10ratio<8410359%①

預(yù)測型–決策樹

希望預(yù)測“綠點”在哪些情況下發(fā)生以及發(fā)生的概率QuotedpriceLowerlimitprice(ratio)Time00.20.40.60.8910111315數(shù)據(jù)挖掘常用算法CombinationADACC

AB&CDSupport2/52/52/51/5Confidence2/32/32/41/3ABCACDBCDADEBCE②

描述型–關(guān)聯(lián)

了解客戶購買哪些產(chǎn)品組合數(shù)據(jù)挖掘常用算法

cluster4cluster3cluster1cluster2cluster5②

描述型–聚類

把具有相似行為的客戶分到一群QuotedamountTotalamountQuotedPriceAveragePrice數(shù)據(jù)挖掘常用算法議程數(shù)據(jù)挖掘概述SAS數(shù)據(jù)挖掘項目方法論及工具EM簡介Workshop企業(yè)化經(jīng)典統(tǒng)計數(shù)據(jù)分析工具統(tǒng)計分析:STAT,LAB,INSIGHT計量經(jīng)濟學(xué)與時間序列分析:ETS運籌優(yōu)化:OR質(zhì)量控制與質(zhì)量提高:QC矩陣編程語言:IML圖形與分析工具:GRAPHThinClient:EnterpriseGuide數(shù)據(jù)挖掘工具:SAS/EnterpriseMiner傻瓜兼專家型國際標準的全方位的統(tǒng)計分析和數(shù)據(jù)挖掘工具EM基本介紹EM特色EM界面SEMMA方法論節(jié)點簡介節(jié)點通用概貌SAS/EM特色支持廣泛的平臺包括各種UNIX,MVS,OS/390,Linux可訪問的數(shù)據(jù)源多達50多種,和數(shù)據(jù)庫,數(shù)據(jù)倉庫很好的集成Client/Server結(jié)構(gòu)。SEMMA方法論引導(dǎo),將數(shù)據(jù)挖掘功能模塊組成處理流程圖,可視化,圖形化,拖拽式操作界面,適用于業(yè)務(wù)和技術(shù)人員豐富的可視化數(shù)據(jù)探索節(jié)點,對數(shù)據(jù)進行細致分析提供多種數(shù)據(jù)預(yù)處理和變換工具,包括變量自動選擇等功能提供豐富的數(shù)據(jù)挖掘模型和靈活的算法:決策樹,神經(jīng)元網(wǎng)絡(luò),回歸,基于記憶的推理,兩階段模型,K均值聚類,自組織映射及其他統(tǒng)計方法,以及模型組裝技術(shù)(Ensemble)提供模型評估模塊和多種評估準則提供完整的數(shù)據(jù)挖掘模型代碼輸出和打分(Scoring)功能報告工具可以將整個數(shù)據(jù)挖掘流程和結(jié)果生成HTML格式的詳細的報告,與其它業(yè)務(wù)專家和數(shù)據(jù)挖掘?qū)<夜蚕?。?shù)據(jù)取樣SAMPLE選數(shù)據(jù)樣本?數(shù)據(jù)探索EXPLORE可視化數(shù)據(jù)探索聚類分析和分類數(shù)據(jù)調(diào)整MODIFY數(shù)據(jù)重組和細分添加和變換變量模式化MODEL決策樹模型數(shù)理統(tǒng)計分析人工神經(jīng)網(wǎng)絡(luò)時間序列分析評價ASSESS新數(shù)據(jù)預(yù)測結(jié)論綜合和評價SAS數(shù)據(jù)挖掘過程方法論-SEMMA節(jié)點簡介:Sampling類節(jié)點InputData確定數(shù)據(jù)源。Sampling提供多種抽樣方法,如簡單隨機抽樣、分層抽樣、分類抽樣等。DataPartition將數(shù)據(jù)劃分為訓(xùn)練(Train)、檢驗(Validation)、測試(Test)數(shù)據(jù),以避免模型過擬合。節(jié)點簡介:Explore類節(jié)點DistributionExplorer提供數(shù)據(jù)的多維分布圖,以了解變量的趨勢和特色Multiplot提供所有變量的分布圖及對KOV的關(guān)系圖SAS/INSIGHT提供交互式直觀統(tǒng)計分析VariableSelection提供選擇對KOV重要的KIVs的功能Association提供關(guān)聯(lián)分析和序列分析LinkAnalysis提供連接關(guān)系分析節(jié)點簡介:Model類節(jié)點Regression提供多元回歸、邏輯/概率回歸及自動選擇變量變量的功能DecisionTree決策樹,支持CHAID,CART,ID3/C4.5等算法NeuralNetwork提供MLP、RBF等網(wǎng)絡(luò)結(jié)構(gòu),及多種調(diào)整方法UserDefinedModel為SAS程序編制的模型提供統(tǒng)一的模型評價界面Ensemble提供模型整合的功能,如Combine,Stratified,Bagging&BoostingTwo-StageModel兩階段模型MemoryBasedReasoning節(jié)點簡介:Assess類節(jié)點Assessment 對不同模型提供圖形化比較:“哪一個模型最好?”Reporter 自動生成HTML格式報告節(jié)點通用概貌In/OutDataProperties(選擇,瀏覽)Data/Variables/Log/Output/Notes等Tab修改節(jié)點后的自動保存節(jié)點的下拉菜單SAS/EM處理示例模型應(yīng)用建模源數(shù)據(jù)預(yù)處理議程數(shù)據(jù)挖掘概述SAS數(shù)據(jù)挖掘項目方法論及工具EM簡介WorkshopWorkshop(信用風(fēng)險建模)業(yè)務(wù)問題用于建模的數(shù)據(jù)建模前的數(shù)據(jù)處理建立預(yù)測模型模型的評估模型實施信用風(fēng)險的業(yè)務(wù)問題客戶從商業(yè)機構(gòu)獲得資金、產(chǎn)品或服務(wù),承諾在未來某天或某段時間內(nèi)償還他所使用的資金、產(chǎn)品或服務(wù),并支付一定的費用一個“壞賬”客戶帶來的損失相當于數(shù)百個“好”客戶給您帶來的收益信用管理者要求提供對風(fēng)險進行定量的度量,以及根據(jù)其風(fēng)險大小決定采取何種最佳措施以減低將來的損失定義我們關(guān)注的高信用風(fēng)險申請信用時關(guān)注的風(fēng)險Profitable?將來拖欠的可能性很大……客戶使用過程中關(guān)注的風(fēng)險信用卡欺詐客戶拖欠償還我提供的信用?多久才是高風(fēng)險?……催收欠費過程中關(guān)注的風(fēng)險無法收回?信用周期-Applying客戶申請表內(nèi)部信息Strategy接受

信用額度利息

其他條件拒絕信用署數(shù)據(jù)其他外部信息政策/內(nèi)部規(guī)則申請打分引擎(AppScoringEngine)信控人員信用周期-Behaviour行為打分引擎(BehScoringEngine)新的Strategy:Inc/DecLimitX-selling消費存現(xiàn)/取現(xiàn)……移管(Transfer)拖欠(Delinquent)客戶消費情況6/157/157/318/109/17消費期對帳單到期日最后期限信用周期-Collection收集打分引擎(ColScoringEngine)Strategy被移管的客戶9/17賣給債務(wù)代理公司W(wǎng)rite-off部分償還全部償還Recovery損失!催帳單

email

電話

……Workshop(信用風(fēng)險建模)業(yè)務(wù)問題用于建模的數(shù)據(jù)建模前的數(shù)據(jù)處理建立預(yù)測模型模型的評估模型實施定義所需數(shù)據(jù)確定業(yè)務(wù)問題,找出您想預(yù)測的事物歷史數(shù)據(jù)必須包含您想預(yù)測的事物(目標變量)其它的變量包括客戶的屬性,交易數(shù)據(jù)。使用最新的數(shù)據(jù)。信用風(fēng)險分析數(shù)據(jù)集市......................................................①哪些客戶?......②哪些屬性?...目標變量①哪些客戶?currentPerformancewindowobservationwindowTarget

DefinitionExclusionBadIndeterminateGood②哪些屬性?

背景數(shù)據(jù)

年齡

性別

地區(qū)信用信息開戶日期、余額消費金額、償還金額卡數(shù)量、卡用途信用署信息noofoutstandingloansnoofcurrentloansnooffinishedloans拖欠信息在過去9個月中拖欠超過30天的次數(shù)拖欠超過60天的次數(shù)最后付款日期

其他相關(guān)信息是否本銀行的客戶

多長時間上一次貸款日期使用業(yè)務(wù)知識派生變量新的變量前3月內(nèi)余額大于0的次數(shù)前3月內(nèi)透支超過10天的次數(shù)最后一次消費距今的天數(shù)……比率前1/2/3月平均余額/n個月平均余額前1/2/3月消費額/n個月消費額……差分,移動平均,趨勢,……觀察使用量的動態(tài)狀況其它???使用RFM方法派生變量MoneyT-1月余額T-2月余額T-3月余額過去三個月/六個月內(nèi)最大,最小,平均余額……Recency最后一次余額>0元距今天數(shù)余額連續(xù)2次<=0的時間距今天數(shù)余額連續(xù)3次<=0的時間距今天數(shù)……Frequency余額<=0元的次數(shù)余額連續(xù)2次<=0的次數(shù)余額連續(xù)3次<=0的次數(shù)……Workshop(信用風(fēng)險建模)業(yè)務(wù)問題用于建模的數(shù)據(jù)建模前的數(shù)據(jù)處理建立預(yù)測模型模型的評估模型實施數(shù)據(jù)挖掘與采樣是否需要進行采樣?數(shù)據(jù)在采樣前需要進行什么處理?數(shù)據(jù)挖掘中所用到的一般采樣類型。如何決定樣本大???數(shù)據(jù)挖掘中采樣的指導(dǎo)策略。對于某些特定的目的,如驗證和測試,是否應(yīng)該采用多重采樣?針對小概率事件的過采樣GoodBad數(shù)據(jù)分割校驗測試訓(xùn)練Exploration階段通過探索去理解您的數(shù)據(jù)顯現(xiàn)您的數(shù)據(jù)InsightDistributionExplorerMultiplot使用VariableSelection工具發(fā)現(xiàn)最有影響的變量-降維DistributionExplorer節(jié)點交叉報表簡單的匯總分析Multiplot節(jié)點為每個變量自動生成直方圖。同時標明每個變量對目標的影響。Modify階段根據(jù)所用的模型進行數(shù)據(jù)調(diào)整優(yōu)化您的數(shù)據(jù)極值,異常值缺失值變量轉(zhuǎn)換建立新的變量改變分布的形狀定義最優(yōu)的輸入域處理共線性Replacement節(jié)點包括基于決策樹邏輯的缺失值處理。為修正變量建立指示器TransformVariables節(jié)點提供各種變量轉(zhuǎn)換,包括為了優(yōu)化二元目標變量預(yù)測而對變量進行自動分裝。VariableSelection節(jié)點根據(jù)目標變量快速確定輸入變量(“modelscreening”)。描述它們擬合線型模型的框架(regression/ANOVA)。單變量R-平方及相關(guān)檢驗。建立新的變量組(AOV16)與降低分類變量的類型。Workshop(信用風(fēng)險建模)業(yè)務(wù)問題用于建模的數(shù)據(jù)建模前的數(shù)據(jù)處理建立預(yù)測模型模型的評估模型實施建立預(yù)測模型回歸,神經(jīng)網(wǎng)絡(luò)和決策樹等。Good/Bad作為分析目標。結(jié)果:

Bad的可能性(全部方法)

變量的重要性分析(回歸,決策樹)

規(guī)則分析(決策樹)EM回歸節(jié)點EM神經(jīng)網(wǎng)絡(luò)節(jié)點提供基本選項給普通用戶“智能”設(shè)定其它的復(fù)雜參數(shù)EM決策樹節(jié)點Workshop(信用風(fēng)險建模)業(yè)務(wù)問題用于建模的數(shù)據(jù)建模前的數(shù)據(jù)處理建立預(yù)測模型模型的評估模型實施Assessment階段LiftCharts(又叫g(shù)ainschart)利潤/損失圖(Profit/Los

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論