




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘概述
now1
賈曉謙服務(wù)即產(chǎn)品品質(zhì)是生命
2003.8.20
?概念及發(fā)展背景
?數(shù)據(jù)挖掘項目實施過程
典型應(yīng)用舉例
?:?未來發(fā)展及挑戰(zhàn)
?數(shù)據(jù)挖掘系統(tǒng)的選擇
。Q&A
概念定義
什么是數(shù)據(jù)挖掘?
—簡單的說,就是從大量數(shù)據(jù)中自動提取知識信息。
兩個要點:
---自動的
---知識信息,模式或規(guī)則
暗示了將使用統(tǒng)計學(xué)方法
數(shù)據(jù)挖掘的意義在于前瞻性,而不是對歷史的簡單回顧。
數(shù)據(jù)挖掘不是…
。數(shù)據(jù)挖掘不是
-----Datawarehousing
-----SQL/AdHocQueries/Reporting
-----OnlineAnalyticalProcessing(OLAP)
-----DataVisualization
。數(shù)據(jù)挖掘是對數(shù)據(jù)的深度加工
什么激發(fā)了數(shù)據(jù)挖掘
此三項技術(shù)促進(jìn)了數(shù)據(jù)挖掘理論與實踐的大發(fā)展
數(shù)據(jù)的積累
報表太
多!暈
cP
O
能自動
發(fā)現(xiàn)模---------
NX
式嗎?,NN3
____
?:?年齡在25—30之間,男性IT工程師買XXX保險的可能性為35%)
計算能力的增強(qiáng)
?硬件資源
—過去30年,計算機(jī)硬件穩(wěn)步發(fā)展
—處理器達(dá)到了振奮人心的速度
—大容量存儲設(shè)備的問世為數(shù)據(jù)收集提供可能
軟件資源
—特別是并行處理系統(tǒng)的發(fā)展,使計算機(jī)有能力處理更復(fù)雜的任務(wù)
統(tǒng)計分析算法的應(yīng)用
?決策樹
.分類
?神經(jīng)元網(wǎng)絡(luò)方法
?規(guī)則歸納
.
?聚類
.
i技術(shù)分類
數(shù)據(jù)挖掘
描述類
>聚類
關(guān)聯(lián)規(guī)則
」時間序列
應(yīng)用領(lǐng)域
金融行業(yè)
—貸款償還預(yù)測和客戶信用度分析
—目標(biāo)客戶群的識別,分類與聚類
—險種關(guān)聯(lián)分析,預(yù)測購買了某個險種的客戶是否會買另一種保險
電信行業(yè)
---流失客戶分析
—盜用模式分析和異常模式識別
---通話量時間序列分析
零售業(yè)
—產(chǎn)品相關(guān)性分析
---客戶忠誠度分析
生物醫(yī)學(xué)
—DNA序列間相似搜索和比較
概念及發(fā)展背景
?數(shù)據(jù)挖掘項目實施過程
?典型應(yīng)用舉例
?:?未來發(fā)展及挑戰(zhàn)
?數(shù)據(jù)挖掘系統(tǒng)的選擇
。Q&A
數(shù)據(jù)挖掘方法論
。CRISP-DM
----Cross-IndustryStandardProcessForDataMining
—當(dāng)今流行的數(shù)據(jù)挖掘流程標(biāo)準(zhǔn)之一
---由SPSS、NCR、Daimler-Benz制定
數(shù)據(jù)挖掘方法論
?商業(yè)理解
?數(shù)據(jù)理解
?數(shù)據(jù)準(zhǔn)備
?建立模型
?總體評估
?模型發(fā)布
商業(yè)理解
?商業(yè)理解
■確定業(yè)務(wù)目標(biāo)
?資源評估
-確定數(shù)據(jù)挖掘目標(biāo)
-制定數(shù)據(jù)挖掘項目計劃
數(shù)據(jù)理解
數(shù)據(jù)理解
-收集初始數(shù)據(jù)
-描述數(shù)據(jù)
-分析數(shù)據(jù)
-檢查數(shù)據(jù)質(zhì)量
數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備
-選擇數(shù)據(jù)
■清洗數(shù)據(jù)
■構(gòu)建數(shù)據(jù)結(jié)構(gòu)
-集成數(shù)據(jù)
-規(guī)范化數(shù)據(jù)
建立模型
建立模型
■選擇模型技術(shù)
■設(shè)計實驗
-建立模型
-訪問模型
模型評估
模型評估
-評估數(shù)據(jù)挖掘結(jié)果
■處理過程回顧
-制訂下一步的計劃,如何改進(jìn)
模型發(fā)布
模型發(fā)布
■制訂發(fā)布計劃
■制訂監(jiān)控和維護(hù)策略
-產(chǎn)生最終報告
■項目回顧
概念及發(fā)展背景
?數(shù)據(jù)挖掘項目實施過程
?典型應(yīng)用舉例
?未來發(fā)展及挑戰(zhàn)
?數(shù)據(jù)挖掘系統(tǒng)的選擇
。Q&A
應(yīng)用舉例-決策樹
?案例描述:
-某超市對會員實行卡式管理,分為金卡、銀卡、銅卡、普通卡
■持有不同卡的客戶應(yīng)該得到不同的服務(wù)
-金卡客戶應(yīng)該提供什么服務(wù)?需要找出金卡客戶的人群特征
-一個新登記的客戶成為金卡客戶的可能性有多大?服務(wù)上要有體現(xiàn)
?研究方法:
-以決策樹作為挖掘工具來尋找持卡客戶的人群特征
-選取年收入、婚姻狀況、家庭子女?dāng)?shù)作為培訓(xùn)數(shù)據(jù)
-選取會員卡屬性作為被預(yù)測實體
應(yīng)用舉例-決策樹
金卡銅卡
(73.66%)(81.86%)
下頁
、年收入上的信息增益
31、計算成員卡分
最大,所以作為根類所需的數(shù)學(xué)
節(jié)點,依次類推
期望=0.94
家庭子女?dāng)?shù)
=0.048
形成樹
性別=0.029
相關(guān)性網(wǎng)絡(luò)瀏覽器-test,|g|x|
&|0|Xl%I觸I
MaritalStatus
MemberCardTotalChildren
YearlyIncome
請選擇網(wǎng)絡(luò)中的節(jié)點以突出顯示其相關(guān)性
關(guān)閉I幫助(H)
16:17
應(yīng)用舉例—聚類
案例描述:
-某超市定期給會員發(fā)送促銷雜志,效果不好。原因是對所有會員都發(fā)放
同樣的雜志,而促銷的廣告內(nèi)容只能適合某一部分人,眾口難調(diào);
■市場部門打算對所有會員客戶進(jìn)行一下分類,針對不同的人群發(fā)放不同
內(nèi)容的雜志。
研究方法:
?以聚類作為挖掘方法來對客戶群進(jìn)行細(xì)分;
?選取會員的自然屬性年收入、婚姻狀況、家庭子女?dāng)?shù)、教育程度作為培
訓(xùn)數(shù)據(jù);
-選取銷售額作為劃分自然屬性的度量值;
-預(yù)先設(shè)置的聚類數(shù)為3,既打算把所有會員客戶分成3類。
應(yīng)用舉例-關(guān)聯(lián)分析
?案例描述:
-為了分析商品之間的聯(lián)系,選取10000筆交易作為研究對象。統(tǒng)計發(fā)現(xiàn)
有6000筆包含產(chǎn)品A,7500筆包含產(chǎn)品B,而有4000筆同時包括A、B
兩產(chǎn)品。
研究方法:
■以關(guān)聯(lián)規(guī)則作為分析方法來研究A和B之間關(guān)系;
-支持度:表示規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小閥值;
-可信度:表示關(guān)聯(lián)規(guī)則成立的最小可信程度。
應(yīng)用舉例-關(guān)聯(lián)分析
?:?研究結(jié)果:
-支持度(Support)=(同時購買A和B的交易數(shù))/交易總數(shù)
=4000/10000
=40%
-可信度(Confidence)=(同時購買A和B的交易數(shù))/購買了A的交易數(shù)
=4000/6000
=66%
-結(jié)論:購買A產(chǎn)品的顧客有同時買B產(chǎn)品的可能
(Support=40%,Confidence=66%)。
概念及發(fā)展背景
數(shù)據(jù)挖掘項目實施過程
?典型應(yīng)用舉例
?未來發(fā)展及挑戰(zhàn)
?數(shù)據(jù)挖掘系統(tǒng)的選擇
。Q&A
應(yīng)用狀態(tài)
數(shù)據(jù)挖掘是一種技術(shù),和其他的技術(shù)一樣也需要時間和精力來研究、開發(fā),
最終逐步成熟。整個生命周期應(yīng)包含下列幾個階段:
落
溝
后
創(chuàng)
早
早
后
新
期
期
坎
期
者
多
多
接/
數(shù)
數(shù)
受
接
接
者
受
受
者
者
應(yīng)用狀態(tài)
目前已經(jīng)有許多通用的數(shù)據(jù)挖掘系統(tǒng),但都是給那些非常熟悉數(shù)據(jù)挖掘和
數(shù)據(jù)分析技術(shù)的專家設(shè)計的,這就是使得系統(tǒng)很難被企業(yè)經(jīng)理或普通百姓
使用。
目前的數(shù)據(jù)挖掘系統(tǒng)趨向于適合各種商業(yè)應(yīng)用的橫向解決方案,而不是針
對某個特定商業(yè)應(yīng)用的解決方案。這不能體現(xiàn)商業(yè)邏輯與數(shù)據(jù)挖掘功能的
平滑集成,不要期望通用的數(shù)據(jù)挖掘系統(tǒng)會象與領(lǐng)域無關(guān)的關(guān)系數(shù)據(jù)庫那
樣取得成功。
也有一些好的跡象,例如保險企業(yè)收益率分析等縱向解決方案的出現(xiàn),會
為數(shù)據(jù)挖掘提供一個好的發(fā)展方向。/
主要挑戰(zhàn)
為了使數(shù)據(jù)挖掘成為一種被廣泛接受的技術(shù),必須對下列內(nèi)容做進(jìn)一步研
究和開發(fā)
—數(shù)據(jù)挖掘查詢語言的標(biāo)準(zhǔn)化
DMQL(DataMiningQueryLanguage)
—增加與用戶的交互,聯(lián)機(jī)挖掘
—背景知識與可視化技術(shù)的結(jié)合
—有效性和可伸縮性,不能停留在玩具階段
—應(yīng)付復(fù)雜數(shù)據(jù)類型,如聚類中量剛處理,序列值處理等
—文本挖掘,漢語語料庫的完善、分詞技術(shù)的進(jìn)一步提高
概念及發(fā)展背景
數(shù)據(jù)挖掘項目實施過程
?:?典型應(yīng)用舉例
#未來發(fā)展及挑戰(zhàn)
?數(shù)據(jù)挖掘系統(tǒng)的選擇2
。Q&A
如何選擇數(shù)據(jù)挖掘系統(tǒng)
功能和方法
—有些系統(tǒng)只提供一兩種數(shù)據(jù)挖掘功能,而有些支持多種挖掘功能。
—有些系統(tǒng)只給出某一挖掘功能的一種方法,而有些則提供多種方法。
?與數(shù)據(jù)庫或數(shù)據(jù)倉庫的結(jié)合
—無偶合。只操作ASCII數(shù)據(jù)文件。
—松散偶合。數(shù)據(jù)首先被返回到緩沖區(qū)或主存,然后利用挖掘功能分析,
這樣的系統(tǒng)可伸縮性不好。
—半松偶合。只對少數(shù)幾個數(shù)據(jù)挖掘原語(排序、聚合、多路聯(lián)接)提
供了有效的實現(xiàn)。
—緊密偶合。最理想的方式,即把數(shù)據(jù)挖掘查詢優(yōu)化成循環(huán)的數(shù)據(jù)挖掘
和檢索過程,在數(shù)據(jù)庫端實現(xiàn)。
如何選擇數(shù)據(jù)挖掘系統(tǒng)
可伸縮性
—數(shù)據(jù)挖掘有兩種伸縮性問題,行(記錄)可伸縮性和列(維)可伸縮。
—行擴(kuò)大10倍,而執(zhí)行時間不超過原來的10倍,則系統(tǒng)在行上可伸縮。
—
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國餐飲美食廣場行業(yè)運行現(xiàn)狀及發(fā)展前景趨勢分析報告
- 2025-2030年中國錳酸鋰市場運行現(xiàn)狀及發(fā)展前景預(yù)測報告
- 2025-2030年中國金屬家具制造市場競爭格局展望及投資策略分析報告
- 2025-2030年中國過濾材料市場發(fā)展趨勢規(guī)劃研究報告
- 2025-2030年中國起酥油產(chǎn)業(yè)競爭格局規(guī)劃分析報告
- 2025-2030年中國調(diào)味紫菜市場十三五規(guī)劃及發(fā)展戰(zhàn)略研究報告
- 2025-2030年中國融資租賃擔(dān)保行業(yè)前景趨勢調(diào)研及發(fā)展戰(zhàn)略分析報告
- 2025-2030年中國蔬菜種植行業(yè)市場運行狀況與發(fā)展規(guī)劃分析報告
- 2025-2030年中國菠蘿超濃縮汁行業(yè)運行狀況及發(fā)展趨勢分析報告
- 2025-2030年中國花崗巖荒料行業(yè)運營現(xiàn)狀及發(fā)展趨勢分析報告
- 茯苓栽培技術(shù)
- 2023智能低壓配電箱技術(shù)條件
- 加油站地罐交接及容積表關(guān)系
- 電信寬帶注銷委托書
- 新教材人教版高中數(shù)學(xué)必修第二冊全冊教案
- 班(組)戰(zhàn)斗動作訓(xùn)練教案
- 農(nóng)產(chǎn)品電商運營-完整全套課件
- 唐河縣泌陽凹陷郭橋天然堿礦產(chǎn)資源開采與生態(tài)修復(fù)方案
- 科研項目匯報ppt
- 建設(shè)工程項目法律風(fēng)險防控培訓(xùn)稿PPT講座
- “不作為、慢作為、亂作為”自查自糾報告范文(三篇)
評論
0/150
提交評論