數(shù)據(jù)挖掘技術(shù)應(yīng)用簡(jiǎn)介_(kāi)第1頁(yè)
數(shù)據(jù)挖掘技術(shù)應(yīng)用簡(jiǎn)介_(kāi)第2頁(yè)
數(shù)據(jù)挖掘技術(shù)應(yīng)用簡(jiǎn)介_(kāi)第3頁(yè)
數(shù)據(jù)挖掘技術(shù)應(yīng)用簡(jiǎn)介_(kāi)第4頁(yè)
數(shù)據(jù)挖掘技術(shù)應(yīng)用簡(jiǎn)介_(kāi)第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大 綱 什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的標(biāo)準(zhǔn)流程:CRISPDM 數(shù)據(jù)挖掘工具SPSS Clementine簡(jiǎn)介第一局部:什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘都干了些什么?英國(guó)電信需要發(fā)布一種新的產(chǎn)品,需要通過(guò)直郵的方式向客戶推薦這種產(chǎn)品。使直郵的回應(yīng)率提高了100數(shù)據(jù)挖掘都干了些什么?GUS日用品零售商店需要準(zhǔn)確的預(yù)測(cè)未來(lái)的商品銷售量,降低庫(kù)存本錢。通過(guò)數(shù)據(jù)挖掘的方法使庫(kù)存本錢比原來(lái)減少了3.8%數(shù)據(jù)挖掘都干了些什么?匯豐銀行需要對(duì)不斷增長(zhǎng)的客戶群進(jìn)行分類,對(duì)每種產(chǎn)品找出最有價(jià)值的客戶。營(yíng)銷費(fèi)用減少了30數(shù)據(jù)挖掘都干了些什么?美國(guó)國(guó)防財(cái)務(wù)部需要從每年上百萬(wàn)比的軍火交易中發(fā)現(xiàn)可能存在的欺詐現(xiàn)象。發(fā)現(xiàn)可能存在欺詐

2、的交易,進(jìn)行深入調(diào)查,節(jié)約了大量的調(diào)查本錢數(shù)據(jù)挖掘都干了些什么?美國(guó)國(guó)內(nèi)稅務(wù)局需要提高對(duì)納稅人的效勞水平。合理安排稅務(wù)官的工作,為納稅人提供更迅捷、更準(zhǔn)確的效勞通過(guò)數(shù)據(jù)挖掘您可以發(fā)現(xiàn)最有價(jià)值的客戶通過(guò)數(shù)據(jù)挖掘您可以使組合銷售更有效率通過(guò)數(shù)據(jù)挖掘您可以留住那些最有價(jià)值的客戶通過(guò)數(shù)據(jù)挖掘您可以用更小的本錢發(fā)現(xiàn)欺詐現(xiàn)象通過(guò)采用自動(dòng)或半自動(dòng)的手段,在海量數(shù)據(jù)中發(fā)現(xiàn)有意義的行為和規(guī)那么的探測(cè)和分析活動(dòng)。數(shù)據(jù)挖掘能夠幫助你選擇正確瞄準(zhǔn)潛在目標(biāo),向現(xiàn)有的客戶提供額外的產(chǎn)品,識(shí)別那些準(zhǔn)備離開(kāi)的好客戶。什么是數(shù)據(jù)挖掘電信 :流失銀行:聚類細(xì)分, 交叉銷售百貨公司/超市:購(gòu)物籃分析 關(guān)聯(lián)規(guī)那么保險(xiǎn):細(xì)分,交叉銷售

3、,流失原因分析信用卡: 欺詐探測(cè),細(xì)分電子商務(wù): 網(wǎng)站日志分析稅務(wù)部門(mén):偷漏稅行為探測(cè)警察機(jī)關(guān):犯罪行為分析醫(yī)學(xué): 醫(yī)療保健數(shù)據(jù)挖掘應(yīng)用領(lǐng)域數(shù)據(jù)挖掘效益分析(直郵(Big Bank & Credit Card Company)目的:發(fā)現(xiàn)新客戶數(shù)據(jù)挖掘以前數(shù)據(jù)挖掘以后差別發(fā)信的數(shù)量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)響應(yīng)的數(shù)量10,0009,000(1,000)每個(gè)響應(yīng)的毛利$125$125$0總毛利$1,250,000$1,125,000($125,000)凈利潤(rùn)$250,000$375,000$125,000建模的費(fèi)用

4、040,000$40,000最終的利潤(rùn)$250,000$335,000$85,000第二局部:數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程 CRISP-DMCRISPDM簡(jiǎn)介 CRISPDM是CRoss-Industry Standard ProcessData Mining的縮寫(xiě) 由SPSS、NCR、Daimler-Benz在1996年制定 CRISP是當(dāng)今數(shù)據(jù)挖掘業(yè)界通用流行的標(biāo)準(zhǔn)之一 它強(qiáng)調(diào)數(shù)據(jù)挖掘在商業(yè)中的應(yīng)用,解決商業(yè)中存在的問(wèn)題,而不是把數(shù)據(jù)挖掘局限在研究領(lǐng)域CRISPDM 商業(yè)理解 數(shù)據(jù)理解 數(shù)據(jù)準(zhǔn)備 建立模型 模型評(píng)估 模型發(fā)布商業(yè)理解Business Understanding) 找問(wèn)題確定商業(yè)目標(biāo) 對(duì)

5、現(xiàn)有資源的評(píng)估 確定問(wèn)題是否能夠通過(guò)數(shù)據(jù)挖掘來(lái)解決 確定數(shù)據(jù)挖掘的目標(biāo) 制定數(shù)據(jù)挖掘方案數(shù)據(jù)理解(Data Understanding) 確定數(shù)據(jù)挖掘所需要的數(shù)據(jù) 對(duì)數(shù)據(jù)進(jìn)行描述 數(shù)據(jù)的初步探索 檢查數(shù)據(jù)的質(zhì)量數(shù)據(jù)準(zhǔn)備(Data Preparation) 選擇數(shù)據(jù) 清理數(shù)據(jù) 對(duì)數(shù)據(jù)進(jìn)行重建 調(diào)整數(shù)據(jù)格式使之適合建模建立模型Modeling) 對(duì)各個(gè)模型進(jìn)行評(píng)價(jià) 選擇數(shù)據(jù)挖掘模型 建立模型模型評(píng)估(Evaluation) 評(píng)估數(shù)據(jù)挖掘的結(jié)果 對(duì)整個(gè)數(shù)據(jù)挖掘過(guò)程的前面步驟進(jìn)行評(píng)估 確定下一步怎么辦?是發(fā)布模型?還是對(duì)數(shù)據(jù)挖掘過(guò)程進(jìn)行進(jìn)一步的調(diào)整,產(chǎn)生新的模型模型發(fā)布Deployment 把數(shù)據(jù)挖掘

6、模型的結(jié)果送到相應(yīng)的管理人員手中 對(duì)模型進(jìn)行日常的監(jiān)測(cè)和維護(hù) 定期更新數(shù)據(jù)挖掘模型第三局部:數(shù)據(jù)挖掘工具SPSS Clementine簡(jiǎn)介Make a difference with the predictive power of data mining應(yīng)用Clementine到達(dá)你數(shù)據(jù)挖掘的目標(biāo) 圖形化的界面、數(shù)據(jù)流的形式建立模型,保證了應(yīng)用Clementine進(jìn)行數(shù)據(jù)挖掘關(guān)注商業(yè)更甚于關(guān)注技術(shù)本身 開(kāi)放式的技術(shù)是更好的保護(hù)您的投資的保障 高度的擴(kuò)展性保證對(duì)數(shù)據(jù)庫(kù)中大量的數(shù)據(jù)進(jìn)行挖掘 業(yè)界領(lǐng)先的發(fā)布技術(shù)使數(shù)據(jù)挖掘結(jié)果更好的傳遞到相應(yīng)管理人員手中把你的商業(yè)經(jīng)驗(yàn)溶入數(shù)據(jù)挖掘過(guò)程是數(shù)據(jù)挖掘成功的關(guān)

7、鍵Better data mining results!InsightBusiness problem?What you know豐富的數(shù)據(jù)挖掘算法PredictionNeural net, C5.0ClassificationNeural net, C5.0SegmentationKohonen, Kmeans, C5.0AssociationApriori, GRI, Web graphSequenceCaprI, Neural Net, Regression與SPSS及AnswerTree無(wú)縫集成提供更多的算法Logistic RegressionDiscriminant Analysi

8、sFactor AnalysisMany more.C&RTCHAIDExhaustive CHAIDQUEST使你在數(shù)據(jù)倉(cāng)庫(kù)上的投資得到最大的回報(bào)SybaseDB2InformixOpenIngressOracleSQL Server+ ODBC drivers for others+ ODBC socket for native drivers開(kāi)放的建模性能在Clementine中通過(guò)CEMI參加新的算法Clementine的系統(tǒng)結(jié)構(gòu) 1. Perform many operations in the database.2. Perform the rest on a powerful s

9、erver.3. Use the client processor for viewing results.Clementine Server delivers huge performance gainsGenerating a distribution graph995 seconds when processed on the desktop69 seconds when processed on the server19 seconds when pushed back into the database In-database processing delivers better p

10、erformance as data sets get largerSelecting casesseconds required for millions of records when processed on the server v. in the databaseClementine Server cuts model building time up to 90%Model buildingtime needed for building models on the server as a percentage of the time needed for building the model on the

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論