![CH第講數(shù)據(jù)挖掘技術(shù)引論實用_第1頁](http://file4.renrendoc.com/view/58b84ee190fc670dc6eebb2028d521e9/58b84ee190fc670dc6eebb2028d521e91.gif)
![CH第講數(shù)據(jù)挖掘技術(shù)引論實用_第2頁](http://file4.renrendoc.com/view/58b84ee190fc670dc6eebb2028d521e9/58b84ee190fc670dc6eebb2028d521e92.gif)
![CH第講數(shù)據(jù)挖掘技術(shù)引論實用_第3頁](http://file4.renrendoc.com/view/58b84ee190fc670dc6eebb2028d521e9/58b84ee190fc670dc6eebb2028d521e93.gif)
![CH第講數(shù)據(jù)挖掘技術(shù)引論實用_第4頁](http://file4.renrendoc.com/view/58b84ee190fc670dc6eebb2028d521e9/58b84ee190fc670dc6eebb2028d521e94.gif)
![CH第講數(shù)據(jù)挖掘技術(shù)引論實用_第5頁](http://file4.renrendoc.com/view/58b84ee190fc670dc6eebb2028d521e9/58b84ee190fc670dc6eebb2028d521e95.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
會計學1CH第講數(shù)據(jù)挖掘技術(shù)引論實用.數(shù)據(jù)大與信息少的矛盾數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價值的知識可怕的數(shù)據(jù)第1頁/共33頁數(shù)據(jù)爆炸,知識貧乏數(shù)據(jù)知識決策模式趨勢事實關(guān)系模型關(guān)聯(lián)規(guī)則序列目標市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟政府POS.人口統(tǒng)計生命周期第2頁/共33頁第二部分:什么是數(shù)據(jù)挖掘?第3頁/共33頁數(shù)據(jù)挖掘都干了些什么?英國電信需要發(fā)布一種新的產(chǎn)品,需要通過直郵的方式向客戶推薦這種產(chǎn)品。。。。。。使直郵的回應(yīng)率提高了100%第4頁/共33頁數(shù)據(jù)挖掘都干了些什么?GUS日用品零售商店需要準確的預(yù)測未來的商品銷售量,降低庫存成本。。。。。。通過數(shù)據(jù)挖掘的方法使庫存成本比原來減少了3.8%第5頁/共33頁數(shù)據(jù)挖掘都干了些什么?匯豐銀行需要對不斷增長的客戶群進行分類,對每種產(chǎn)品找出最有價值的客戶。。。。。。營銷費用減少了30%第6頁/共33頁數(shù)據(jù)挖掘都干了些什么?美國國防財務(wù)部需要從每年上百萬比的軍火交易中發(fā)現(xiàn)可能存在的欺詐現(xiàn)象。。。。。。發(fā)現(xiàn)可能存在欺詐的交易,進行深入調(diào)查,節(jié)約了大量的調(diào)查成本第7頁/共33頁數(shù)據(jù)挖掘都干了些什么?美國國內(nèi)稅務(wù)局需要提高對納稅人的服務(wù)水平。。。。。。合理安排稅務(wù)官的工作,為納稅人提供更迅捷、更準確的服務(wù)第8頁/共33頁通過數(shù)據(jù)挖掘您可以發(fā)現(xiàn)最有價值的客戶第9頁/共33頁通過數(shù)據(jù)挖掘您可以使組合銷售更有效率第10頁/共33頁通過數(shù)據(jù)挖掘您可以留住那些最有價值的客戶第11頁/共33頁通過數(shù)據(jù)挖掘您可以用更小的成本發(fā)現(xiàn)欺詐現(xiàn)象第12頁/共33頁通過采用自動或半自動的手段,在海量數(shù)據(jù)中發(fā)現(xiàn)有意義的行為和規(guī)則的探測和分析活動。數(shù)據(jù)挖掘就是對觀測到的數(shù)據(jù)集(經(jīng)常是很龐大的)進行分析,目的是發(fā)現(xiàn)未知的關(guān)系和以數(shù)據(jù)擁有者可以理解的新穎方式來總結(jié)數(shù)據(jù)。什么是數(shù)據(jù)挖掘第13頁/共33頁數(shù)據(jù)挖掘與統(tǒng)計的不同特征它們的任務(wù)不一樣
統(tǒng)計是具有結(jié)構(gòu)化的決策任務(wù)數(shù)據(jù)挖掘是非結(jié)構(gòu)化決策任務(wù)它們對以前知識的依賴程度不一樣
統(tǒng)計工作依賴以前的統(tǒng)計知識數(shù)據(jù)挖掘是創(chuàng)新性的工作第14頁/共33頁電信
:流失銀行:聚類(細分),交叉銷售百貨公司/超市:購物籃分析
(關(guān)聯(lián)規(guī)則)保險:細分,交叉銷售,流失(原因分析)信用卡:
欺詐探測,細分電子商務(wù):
網(wǎng)站日志分析稅務(wù)部門:偷漏稅行為探測警察機關(guān):犯罪行為分析醫(yī)學:
醫(yī)療保健數(shù)據(jù)挖掘應(yīng)用領(lǐng)域第15頁/共33頁數(shù)據(jù)挖掘效益分析(直郵)(BigBank&CreditCardCompany)目的:發(fā)現(xiàn)新客戶數(shù)據(jù)挖掘以前數(shù)據(jù)挖掘以后差別發(fā)信的數(shù)量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)響應(yīng)的數(shù)量10,0009,000(1,000)每個響應(yīng)的毛利$125$125$0總毛利$1,250,000$1,125,000($125,000)凈利潤$250,000$375,000$125,000建模的費用040,000$40,000最終的利潤$250,000$335,000$85,000第16頁/共33頁“數(shù)據(jù)挖掘”的其它術(shù)語知識發(fā)現(xiàn)(knowledgediscovery)數(shù)據(jù)庫中知識挖掘(knowledgeminingfromdatabase)知識提?。╧nowledgeextraction)商業(yè)智能BI(BusinessIntelligence)數(shù)據(jù)/模式分析(data/patternanalysis)數(shù)據(jù)考古(dataarchaeology)數(shù)據(jù)捕撈(datadredging)數(shù)據(jù)庫中知識發(fā)現(xiàn)(KDD,knowledgediscoveryindatabase)第17頁/共33頁數(shù)據(jù)挖掘和KDD關(guān)系不同文章作者對數(shù)據(jù)挖掘和KDD之間的差異往往有不同的理解。有人將數(shù)據(jù)挖掘等同于KDD有人認為數(shù)據(jù)挖掘是KDD過程中的一部分第18頁/共33頁商業(yè)、商務(wù)(business)的具體含義商業(yè)等詞的含義并不是僅指傳統(tǒng)的零售業(yè)和服務(wù)業(yè),而是包含企業(yè)運作的各種業(yè)務(wù)(business)。第19頁/共33頁什么是商業(yè)智能(BI)商業(yè)智能是在合適的時間向相應(yīng)的用戶提供正確的信息,并轉(zhuǎn)化為知識的應(yīng)用。Businessintelligenceisnotbusinessasusual.It’saboutmakingbetterdecisionseasierandmakingthemmorequickly.Businessintelligencemeansusingyourdataassetstomakebetterbusinessdecisions.Itisaboutaccess,analysis,anduncoveringnewopportunities.Source:IBMBusinessIntelligenceWebPage第20頁/共33頁數(shù)據(jù)挖掘和商業(yè)智能的關(guān)系商業(yè)智能,將數(shù)據(jù)挖掘技術(shù)等應(yīng)用于Business,但偏重于OLAP。商業(yè)智能是數(shù)據(jù)挖掘技術(shù)的最主要的體現(xiàn)。Muchmorethanacombinationofdataandtechnology,BIhelpsyoutocreate
knowledgefromaworldofinformation.Gettherightdata,discoveritspower,
andsharethevalue,BItransformsinformationintoknowledge.Business
Intelligenceistheapplicationofputtingtherightinformationintothehands
oftherightuserattherighttimetosupportthedecision-makingprocess.
第21頁/共33頁商業(yè)智能的作用商業(yè)決策中合理地組織數(shù)據(jù)將產(chǎn)生競爭優(yōu)勢最新的調(diào)查表明,企業(yè)中93%的數(shù)據(jù)在商業(yè)決策處理中未用到。數(shù)據(jù)庫—數(shù)據(jù)的墳?zāi)∩虡I(yè)智能幫助更快更好地決策每2-3年數(shù)據(jù)翻一倍第22頁/共33頁數(shù)據(jù)挖掘的基礎(chǔ)數(shù)據(jù)挖掘是一個多學科交叉領(lǐng)域數(shù)據(jù)庫技術(shù)人工智能機器學習神經(jīng)網(wǎng)絡(luò)統(tǒng)計學模式識別知識庫系統(tǒng)知識獲取信息提取高性能計算數(shù)據(jù)可視化第23頁/共33頁第三部分:數(shù)據(jù)挖掘流程第24頁/共33頁CRISP-DM簡介
CRISP-DM是CRoss-IndustryStandardProcess-DataMining的縮寫由SPSS、NCR、Daimler-Benz在1996年制定
CRISP是當今數(shù)據(jù)挖掘業(yè)界通用流行的標準之一它強調(diào)數(shù)據(jù)挖掘在商業(yè)中的應(yīng)用,解決商業(yè)中存在的問題,而不是把數(shù)據(jù)挖掘局限在研究領(lǐng)域第25頁/共33頁CRISP-DM
數(shù)據(jù)理解選定數(shù)據(jù)數(shù)據(jù)準備(轉(zhuǎn)換)建立模型模型解釋與評估模型發(fā)布第26頁/共33頁數(shù)據(jù)理解(DataUnderstanding)
找問題-確定商業(yè)目標對現(xiàn)有資源的評估確定問題是否能夠通過數(shù)據(jù)挖掘來解決確定數(shù)據(jù)挖掘的目標制定數(shù)據(jù)挖掘計劃第27頁/共33頁數(shù)據(jù)理解(DataUnderstanding)
確定數(shù)據(jù)挖掘所需要的數(shù)據(jù)對數(shù)據(jù)進行描述數(shù)據(jù)的初步探索檢查數(shù)據(jù)的質(zhì)量第28頁/共33頁數(shù)據(jù)準備(DataPreparation)
選擇數(shù)據(jù)清理數(shù)據(jù)(去除異常值等)對數(shù)據(jù)進行重建(維度歸約等)調(diào)整數(shù)據(jù)格式使之適合建模(是否需要標準化)第29頁/共33頁建立模型(Modeling)
對各個模型進行評價選擇數(shù)據(jù)挖掘模型(分類還是回歸等)建立模型第30頁/共
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 施工現(xiàn)場閘機設(shè)置標準
- 施工現(xiàn)場施工防高空墜物制度
- 閱讀啟迪心靈小學生的成長之路
- 母嬰用品銷售中的用戶體驗優(yōu)化策略匯報
- 清明節(jié)掃墓應(yīng)急預(yù)案
- 預(yù)防為主早期小兒肺炎識別與護理措施
- DB4415T 55-2025香芋南瓜-紫云英-香芋南瓜輪作生產(chǎn)技術(shù)規(guī)程
- 交通監(jiān)控項目工程合同
- 上海市大數(shù)據(jù)中心計算機信息系統(tǒng)集成合同
- 個人小額信貸合同范本
- 胸腰椎骨折中醫(yī)護理
- 解剖臺市場發(fā)展預(yù)測和趨勢分析
- DB14∕T 92-2010 M5、M15車用甲醇汽油
- 2024年醫(yī)師定期考核臨床類人文醫(yī)學知識考試題庫及答案(共280題)
- 2024年廣東省公務(wù)員考試《行測》真題及答案解析
- 上海市2024年中考化學真題(含答案)
- 油氣儲運節(jié)能優(yōu)化方案
- 物流公司員工守則以及管理制度
- 2024人形機器人產(chǎn)業(yè)半年研究報告
- 購買演唱會門票的合同模板
- 燃燒爆炸理論及應(yīng)用 課件 第1-3章 緒論、燃燒及其災(zāi)害、物質(zhì)的燃燒
評論
0/150
提交評論