數(shù)據(jù)挖掘的實施過程_第1頁
數(shù)據(jù)挖掘的實施過程_第2頁
數(shù)據(jù)挖掘的實施過程_第3頁
數(shù)據(jù)挖掘的實施過程_第4頁
數(shù)據(jù)挖掘的實施過程_第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘的實施過程第1頁,共100頁,2023年,2月20日,星期六第5章

前面介紹了數(shù)據(jù)挖掘的基本方法。在本章中我們進一步說明數(shù)據(jù)挖掘的實施過程。第2頁,共100頁,2023年,2月20日,星期六5.1數(shù)據(jù)挖掘過程模型5A數(shù)據(jù)挖掘是一個過程,它是從大量數(shù)據(jù)中抽取出有價值的信息或知識以提供決策依據(jù)。由于每一種數(shù)據(jù)挖掘方法(算法及技術(shù)要求)都有其自身的特點且實現(xiàn)步驟與具體應(yīng)用問題有密切相關(guān)性,因此成功應(yīng)用數(shù)據(jù)挖掘技術(shù)以達到目標的過程本身就是一件很復(fù)雜的事情。第3頁,共100頁,2023年,2月20日,星期六5.1數(shù)據(jù)挖掘過程模型5A一般來說,數(shù)據(jù)挖掘項目要經(jīng)歷的過程包括問題的理解、數(shù)據(jù)的理解收集和準備、建立數(shù)據(jù)挖掘模型、評價所建的模型、將建立的模型投入應(yīng)用等一系列任務(wù)。這里,數(shù)據(jù)挖掘過程的系統(tǒng)化、工程化方法學(xué)和支持系統(tǒng)(軟件或工程)對解決應(yīng)用問題起著至關(guān)重要的作用。第4頁,共100頁,2023年,2月20日,星期六5.1數(shù)據(jù)挖掘過程模型5A為了抽象系統(tǒng)化方法,人們提出了一些數(shù)據(jù)挖掘過程的參考模型或標準:

·SPSS提出的5A(Assess、Access、

Analyze、Act、Automate);·SAS提出的SEMMA(采樣Sample,探索

Explore,修正Modify,建模Model,

評估Assess)

·數(shù)據(jù)挖掘特別興趣小組提出的“數(shù)據(jù)挖掘交叉行業(yè)標準過程”CRISP-DM

(Cross-IndustryStandardProcessforDataMining)。第5頁,共100頁,2023年,2月20日,星期六5.1數(shù)據(jù)挖掘過程模型5A在這些模型中,5A模型強調(diào)的是支持數(shù)據(jù)挖掘過程的工具應(yīng)具備的功能和能力,它是對支持數(shù)據(jù)挖掘工具的定義。

SEMMA強調(diào)的是結(jié)合SAS公司的挖掘工具進行應(yīng)用開發(fā)的方法。

CRISP-DM則從進行數(shù)據(jù)挖掘方法學(xué)的角度強調(diào)實施數(shù)據(jù)挖掘項目的方法和步驟,并獨立于每種具體數(shù)據(jù)挖掘算法和數(shù)據(jù)挖掘系統(tǒng)。第6頁,共100頁,2023年,2月20日,星期六5.1數(shù)據(jù)挖掘過程模型5A

5A模型認為任何數(shù)據(jù)挖掘方法學(xué)都由5個基本元素組成,即Assess、Access、Analyze、Act、Automate。

·Assess:正確、徹底的評價任務(wù)的需求及數(shù)據(jù)。

·Access:方便、快速的存取任務(wù)所涉及的數(shù)據(jù)。

·Analyze:適當、完備的分析技術(shù)和工具。

·Act:具有推薦性、有說服力的演示。用大量的列表和圖形或者通過辦公軟件來演示數(shù)據(jù)挖掘軟件的能力。軟件應(yīng)該具備快速回答用戶提問的控制性和靈活性,這樣才便于用戶更好、更快地做決策。

·Automate:為用戶提供最易于使用、最方便的自動化軟件。第7頁,共100頁,2023年,2月20日,星期六5.1數(shù)據(jù)挖掘過程模型5A針對著5個過程,5A描述了各元素在數(shù)據(jù)挖掘技術(shù)應(yīng)用中所需完成的任務(wù)和應(yīng)該提供的支持功能。(1)AssessAssess是指要正確地理解和設(shè)置數(shù)據(jù),一旦充分了解了數(shù)據(jù)的上下文后,就可以正確地收集它并在其上做需要的決策。實現(xiàn)Assess的軟件技術(shù)方案可以不同,但問題含義相同。a.將技術(shù)與組織的目標、策略和步驟結(jié)合起來。b.擁有世界范圍的咨詢和培訓(xùn),目的是交付高級分析工具給分析員后,能快速實現(xiàn)數(shù)據(jù)挖掘及其應(yīng)用。第8頁,共100頁,2023年,2月20日,星期六5.1數(shù)據(jù)挖掘過程模型5A(2)AccessAccess是指數(shù)據(jù)集合(DB、DW、DM)應(yīng)該完全符合評價的要求和質(zhì)量。若數(shù)據(jù)集合不充分,須補充附加的數(shù)據(jù)。選用的數(shù)據(jù)挖掘軟件必須在所要求的數(shù)據(jù)上靈活地工作,并滿足下列存取準則。

·易于存取和連接各種數(shù)據(jù)源,包括數(shù)據(jù)表、公司數(shù)據(jù)庫、數(shù)據(jù)倉庫和其它必要的外部數(shù)據(jù)庫。

·能直接從ASCII正文、數(shù)據(jù)表、數(shù)據(jù)庫文件讀入數(shù)據(jù)。

·能處理大量(GB以上)的數(shù)據(jù)文件。第9頁,共100頁,2023年,2月20日,星期六5.1數(shù)據(jù)挖掘過程模型5A(3)AnalyzeAnalyze要求分析工具具備兩類分析方法和工具:發(fā)現(xiàn)工具和驗證工具。驗證工具檢驗發(fā)現(xiàn)工具所產(chǎn)生的結(jié)果是否合理。發(fā)現(xiàn)型方法和工具包括基因遺傳算法、規(guī)則推導(dǎo)、模糊邏輯、數(shù)據(jù)可視化、聚類算法、因素分析、神經(jīng)網(wǎng)絡(luò)、決策樹等。驗證方法和工具包括回歸、邏輯回歸、判別分析、預(yù)測建模等。理想的數(shù)據(jù)挖掘軟件應(yīng)該具備這兩類分析方法和工具,同時應(yīng)該包括下列分析特性。第10頁,共100頁,2023年,2月20日,星期六5.1數(shù)據(jù)挖掘過程模型5A

·統(tǒng)計過程、范圍和深度較強,應(yīng)包括預(yù)測、分段、分類等。

·集成商業(yè)和統(tǒng)計圖形功能、具備多種可選的2D/3D圖類,能用數(shù)據(jù)定點模式顯示和跟蹤等。

·輔助分析的模版、過程導(dǎo)引、示范、在線幫助等,能幫助分析員快速選擇和獲得結(jié)果。

·數(shù)據(jù)、文件、中間結(jié)果管理功能。能合并和分離文件、選擇數(shù)據(jù)子集、處理數(shù)據(jù)缺值、凈化、改善數(shù)據(jù)完整性、支持IF-THEN-ELSE條件操作。

·數(shù)據(jù)轉(zhuǎn)換功能。有一組完備的轉(zhuǎn)換函數(shù)支持變量/特征和條件的計算,可以重復(fù)計算、編輯原來的變量/特征。第11頁,共100頁,2023年,2月20日,星期六5.1數(shù)據(jù)挖掘過程模型5A

·可裁減的工作環(huán)境。有腳本/宏語言支持的可重復(fù)任務(wù)的自動化、批處理及其菜單按鈕功能,以支持一般用戶快速使用。

·靈活的動態(tài)輸出。表結(jié)果可以轉(zhuǎn)動和輪換,易于觀察數(shù)據(jù)全貌和用鼠標重新組織表數(shù)據(jù),以便于清晰的提交、觀察、探索數(shù)據(jù)結(jié)果并做進一步的特殊分析。

·基于線性回歸和ANOVA的預(yù)測性建模,具有相關(guān)性、分類分析、預(yù)測等基本分析功能。

·插件/模塊功能??梢蕴峁┨厥獾墓δ苣K,以支持特定的分析。第12頁,共100頁,2023年,2月20日,星期六5.1數(shù)據(jù)挖掘過程模型5A(4)Act

用大量的列表和圖形或者通過辦公軟件來演示數(shù)據(jù)挖掘軟件的能力。軟件應(yīng)該具備快速回答用戶提問的控制性和靈活性,這樣才便于用戶更好、更快地做決策。數(shù)據(jù)挖掘軟件應(yīng)該提供下面的演示特性。l完好的集成圖形功能,以提供專業(yè)級的演示。lOLE支持,以易于嵌入圖表節(jié)省報告時間。lINTERNET特性,以易于圖表的網(wǎng)上傳輸和本地察看。l演示模版特性,以節(jié)省編輯時間。l特殊查詢功能,以利于快速提供附加的分析能力來響應(yīng)用戶的提問。l報告注解功能,以加入注解到報告中。第13頁,共100頁,2023年,2月20日,星期六5.1數(shù)據(jù)挖掘過程模型5A(5)AutomateAutomate是指面向用戶的操作盡可能完善和自動化軟件的應(yīng)用過程。吸取專業(yè)分析決策人員及多數(shù)用戶的意見和見解,以最快的方式顯示分析結(jié)果,以標準的接口、按鈕式的功能/菜單、豐富的幫助、可選的附加分析將軟件呈現(xiàn)給用戶。為此,軟件應(yīng)提供以下自動化功能:第14頁,共100頁,2023年,2月20日,星期六5.1數(shù)據(jù)挖掘過程模型5AlOLE自動化開發(fā)者的機制,允許用戶在通用代碼級(VB、EXCEL、ACCESS、PB等)使用軟件。l內(nèi)建編程語言/腳本/宏,使用戶可以方便的創(chuàng)建自己的應(yīng)用。l制作能力,能編寫產(chǎn)生日常報告的命令行文件。第15頁,共100頁,2023年,2月20日,星期六5.2數(shù)據(jù)挖掘過程模型CRISP-DM

CRISP-DM模型是由幾家相關(guān)開發(fā)和應(yīng)用行業(yè)的跨國公司和集團所支持(并由歐洲委員會部分支持)的一個特別興趣小組在1997年7月到1999年4月間研究后提出的。這幾家公司分別是數(shù)據(jù)倉庫提供商NCR在丹麥的SEC公司,德國的汽車、航天航空、電信和咨詢業(yè)公司DAIMLER-BENZAG,英國的數(shù)據(jù)挖掘系統(tǒng)開發(fā)商ISL(CLEMENTINE的研發(fā)商,1998年其成為SPSS的子公司)以及荷蘭最大的銀行、保險業(yè)公司OHRA。第16頁,共100頁,2023年,2月20日,星期六5.2數(shù)據(jù)挖掘過程模型CRISP-DM由于其直接動機是將數(shù)據(jù)挖掘技術(shù)轉(zhuǎn)化為商業(yè)應(yīng)用,所提出的過程模型均在項目中進行實際實踐和驗證,因此具有一定的代表性。

CRISP-DM模型采用分層方法將一個數(shù)據(jù)挖掘項目的生存周期定義為6個階段(PHASE)和4個層次(LEVEL)。第17頁,共100頁,2023年,2月20日,星期六5.2數(shù)據(jù)挖掘過程模型CRISP-DM

CRISP-DM模型6個階段為:BUSINESSUNDERSTANDING、DATAUNDERSTANDING、DATAPREPARATION、MODELING、EVALUATION和DEPLOYMENT

階段間的順序并不嚴格,比如商業(yè)理解和數(shù)據(jù)理解之間常常需要反復(fù),數(shù)據(jù)準備和數(shù)據(jù)模型建立也常常需要反復(fù)。階段間有循環(huán),比如在對模型進行評價后,如果不滿意,可能需要重新對商業(yè)問題進行理解,重新開始建模。一個階段的任務(wù)完成后,如果需要繼續(xù)擴展挖掘的范圍,則需要重新開始循環(huán)。第18頁,共100頁,2023年,2月20日,星期六5.2數(shù)據(jù)挖掘過程模型CRISP-DMCRISP-DM模型4個層次是:階段劃分(PHASE)定義通用任務(wù)(GENERICTASK)定義專用任務(wù)(SPECIALIZEDTASK)處理實例(PROCESSINSTANCE)每個PHASE由若干GENERICTASK組成,每個GENERICTASK又需要實施若干SPECIALIZEDTASK,每個SPECIALIZEDTASK由若干PROCESSINSTANCE來完成。第19頁,共100頁,2023年,2月20日,星期六5.2數(shù)據(jù)挖掘過程模型CRISP-DM其中,上兩層獨立于具體數(shù)據(jù)挖掘方法,即是一般數(shù)據(jù)挖掘項目均需實施的步驟(這解決了“WHATTODO?”的問題)。這兩層的任務(wù)將結(jié)合具體數(shù)據(jù)挖掘項目的“上下文”(CONTEXT)映射到下兩層的具體任務(wù)和過程。項目的“上下文”是指項目開發(fā)中密切相關(guān)、需要綜合考慮的一些關(guān)鍵問題,如應(yīng)用領(lǐng)域、數(shù)據(jù)挖掘問題類型、技術(shù)難點、工具及其提供的技術(shù)等。下兩層注重解決如何完成每個階段所要完成的任務(wù)和任務(wù)的輸出所要求的必要映射活動(這用于解決“HOWTODO”的問題)。第20頁,共100頁,2023年,2月20日,星期六5.2數(shù)據(jù)挖掘過程模型CRISP-DMCRISP-DM6個階段的含義是:(1)BUSINESSUNDERSTANDING

在開始階段,專注于從商業(yè)的角度理解項目目標和需求,然后將這種知識轉(zhuǎn)換成一種數(shù)據(jù)挖掘的問題定義,并設(shè)計出達到目標的一個初步計劃。第21頁,共100頁,2023年,2月20日,星期六5.2數(shù)據(jù)挖掘過程模型CRISP-DM(2)DATAUNDERSTANDING

在數(shù)據(jù)理解階段,先收集初步的數(shù)據(jù),然后進行熟悉數(shù)據(jù)的各種活動,包括識別數(shù)據(jù)的質(zhì)量問題、找到對數(shù)據(jù)的基本觀察或假設(shè)隱含的信息來檢測出感興趣的數(shù)據(jù)子集。第22頁,共100頁,2023年,2月20日,星期六5.2數(shù)據(jù)挖掘過程模型CRISP-DM(3)DATAPREPARATION

數(shù)據(jù)預(yù)處理階段覆蓋了從數(shù)據(jù)構(gòu)造到最終數(shù)據(jù)集合(將要輸入建模工具的數(shù)據(jù))的所有活動。數(shù)據(jù)預(yù)處理任務(wù)很可能要執(zhí)行多次,并且沒有任何規(guī)定的順序。任務(wù)包括表、記錄屬性的選擇以及為了適合建模工具的要求對數(shù)據(jù)進行的轉(zhuǎn)換和凈化。第23頁,共100頁,2023年,2月20日,星期六5.2數(shù)據(jù)挖掘過程模型CRISP-DM(4)

MODELING

在建模階段,可以選擇和應(yīng)用各種建模技術(shù)將其參數(shù)校正到優(yōu)化值。第24頁,共100頁,2023年,2月20日,星期六5.2數(shù)據(jù)挖掘過程模型CRISP-DM(5)EVALUATION

從數(shù)據(jù)分析的觀點看:在開始進入這個階段時已經(jīng)建立了看上去是高質(zhì)量的模型。但在最終擴展模型之前,要更徹底地評價模型,對所建模型再次考察其執(zhí)行的步驟并確信其正確地達到了商業(yè)目標。這里,一個關(guān)鍵的目的是確定是否有某些重要的商業(yè)問題還沒有充分地考慮。在這個階段的結(jié)尾,應(yīng)該獲得使用數(shù)據(jù)挖掘結(jié)果的判定。第25頁,共100頁,2023年,2月20日,星期六5.2數(shù)據(jù)挖掘過程模型CRISP-DM(6)DEPLOYMENT

創(chuàng)建完模型并不意味著項目結(jié)束。所獲得的知識要用一種用戶可以使用的方式來組織和表示。根據(jù)要求,擴展階段可以簡單到只生成一份報告,或復(fù)雜到實現(xiàn)一個可重復(fù)的數(shù)據(jù)挖掘過程。在許多情況下,這將由客戶而不是分析員來實施。所以分析員來實施擴展將達不到預(yù)期的擴展效果,因此在這之前,客戶理解和利用所建模型所要實施的動作很重要。第26頁,共100頁,2023年,2月20日,星期六5.3數(shù)據(jù)挖掘過程中的相關(guān)問題

TWOCROWS公司的數(shù)據(jù)挖掘過程模型同CRISP-DM模型很類似,并且比較簡潔,其基本數(shù)據(jù)挖掘步驟包括:l

定義商業(yè)問題;l

建立數(shù)據(jù)挖掘倉庫;l

分析數(shù)據(jù);l

準備數(shù)據(jù);l

建立模型;l

評價模型;l

實施。下面結(jié)合這個數(shù)據(jù)挖掘過程模型說明在數(shù)據(jù)挖掘過程中的相關(guān)問題。第27頁,共100頁,2023年,2月20日,星期六5.3.1定義商業(yè)問題我們的最終目的是希望從技術(shù)和商業(yè)角度為公司建立一個能夠理解和實施數(shù)據(jù)挖掘的工作環(huán)境。數(shù)據(jù)挖掘的成功,并不在于特定工具和算法的選擇,而是一個合適的環(huán)境。

一個企業(yè)的執(zhí)行能力越強,數(shù)據(jù)挖掘的能力就越大。

第28頁,共100頁,2023年,2月20日,星期六5.3.1定義商業(yè)問題企業(yè)所處的商業(yè)環(huán)境往往在戰(zhàn)略上、顧客定位、數(shù)據(jù)倉庫建立、市場定位、生命周期、分析技術(shù)等方面各不相同,成功的基礎(chǔ)必須是基于對數(shù)據(jù)挖掘與商業(yè)規(guī)律良好結(jié)合的環(huán)境,建立自己的挖掘平臺。在開始數(shù)據(jù)挖掘之前,最重要的是要了解數(shù)據(jù)和相關(guān)的業(yè)務(wù)問題。比如要分析電信領(lǐng)域的客戶呼叫行為,需要了解電信的業(yè)務(wù)構(gòu)成、業(yè)務(wù)運營以及其它諸多的行業(yè)知識。第29頁,共100頁,2023年,2月20日,星期六5.3.1定義商業(yè)問題要想充分發(fā)揮數(shù)據(jù)挖掘的價值,必須對目標有一個清晰明確的定義,了解數(shù)據(jù)和相關(guān)的業(yè)務(wù)問題是決定到底想干什么的前提。數(shù)據(jù)挖掘?qū)ο到y(tǒng)分析/開發(fā)人員提出了更高的要求,它要求分析/開發(fā)人員具有比較寬廣的基礎(chǔ)知識和行業(yè)背景。第30頁,共100頁,2023年,2月20日,星期六商業(yè)理解體系的核心——語義層業(yè)務(wù)數(shù)據(jù)庫最終用戶數(shù)據(jù)結(jié)構(gòu)語義層信息系統(tǒng)人員第31頁,共100頁,2023年,2月20日,星期六商業(yè)理解體系的核心——語義層數(shù)據(jù)源終端用戶商業(yè)元語查詢面板數(shù)據(jù)源第32頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫建立數(shù)據(jù)挖掘倉庫、分析數(shù)據(jù)、選擇變量構(gòu)成了數(shù)據(jù)預(yù)處理的核心,這三步比其它所有的步驟加在一起所花的時間和精力還多。數(shù)據(jù)準備工作大概要花去整個數(shù)據(jù)挖掘項目的50%~90%的時間和精力。第33頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫我們應(yīng)該把要挖掘的數(shù)據(jù)都收集到一個數(shù)據(jù)庫中(或者存放在數(shù)據(jù)倉庫中,通常是以關(guān)系表得方式存儲)。當然,這并不是說一定要使用一個數(shù)據(jù)庫管理系統(tǒng)。根據(jù)要挖掘的數(shù)據(jù)量的大小、數(shù)據(jù)的復(fù)雜程度、使用方式的不同,有時一個簡單的平面文件或電子表格就足夠了。第34頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫數(shù)據(jù)挖掘系統(tǒng)可以作為一個獨立的系統(tǒng)存在。對于一個大型的企業(yè)將數(shù)據(jù)挖掘系統(tǒng)建立在數(shù)據(jù)倉庫的基礎(chǔ)上是非常合理的想法,因為數(shù)據(jù)倉庫已經(jīng)為數(shù)據(jù)挖掘累積了大量的歷史數(shù)據(jù),要將這些數(shù)據(jù)充分發(fā)揮作用,就需要一個良好的數(shù)據(jù)挖掘系統(tǒng)。第35頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫但是,一般我們并不直接在公司的數(shù)據(jù)倉庫上進行數(shù)據(jù)挖掘。原因有以下幾點:1)數(shù)據(jù)倉庫中的數(shù)據(jù)量很大,許多數(shù)據(jù)并不是數(shù)據(jù)挖掘問題所關(guān)心的。2)數(shù)據(jù)挖掘需要的信息涉及的方面很廣,這些信息可能存放在數(shù)據(jù)倉庫的許多表中,如果直接在數(shù)據(jù)倉庫中挖掘,將使數(shù)據(jù)的訪問性能受到影響。3)數(shù)據(jù)挖掘需要反復(fù)進行,不斷地對模型進行優(yōu)化。第36頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫4)在數(shù)據(jù)挖掘過程中需要對變量進行轉(zhuǎn)化,比如神經(jīng)網(wǎng)絡(luò)只能處理數(shù)值型的變量,對于非數(shù)值型的變量需要轉(zhuǎn)化。而數(shù)據(jù)倉庫不支持更新操作。5)多個數(shù)據(jù)挖掘的主題可能同步進行,如果直接在數(shù)據(jù)倉庫中進行,數(shù)據(jù)倉庫需要增加相應(yīng)地控制機制。6)數(shù)據(jù)倉庫系統(tǒng)還有其它工作,比如定期地數(shù)據(jù)刷新、對OLAP系統(tǒng)的支持等。第37頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫因此有必要從數(shù)據(jù)倉庫中抽取出需要的數(shù)據(jù)單獨存放在數(shù)據(jù)挖掘庫中,這樣可以達到以下目的。l

數(shù)據(jù)量大大地減小了:l

多個數(shù)據(jù)挖掘主題可以并行地進行:l多個數(shù)據(jù)挖掘主題在物理上分開,對數(shù)據(jù)的更新互不影響;l數(shù)據(jù)挖掘的結(jié)果可以回寫進數(shù)據(jù)倉庫,供OLAP工具展現(xiàn)使用。第38頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫如果數(shù)據(jù)倉庫允許建立一個在邏輯上獨立的數(shù)據(jù)庫并且在計算資源上也足夠,那么在它上面進行數(shù)據(jù)挖掘也是可以的。建立數(shù)據(jù)挖掘庫可以分成下面幾個部分:l

數(shù)據(jù)收集;l

對數(shù)據(jù)進行描述;l

選擇數(shù)據(jù);l

數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理;l

對數(shù)據(jù)進行合并和整合;l

構(gòu)建元數(shù)據(jù);l

將數(shù)據(jù)加載到數(shù)據(jù)挖掘庫;l

維護數(shù)據(jù)挖掘庫。第39頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫這些步驟并不一定要按步驟執(zhí)行,而應(yīng)該按需要進行。比如在收集數(shù)據(jù)時就開始構(gòu)建元數(shù)據(jù),并隨著工作的進行不斷的對其進行修改。在數(shù)據(jù)整合和數(shù)據(jù)質(zhì)量評估過程中發(fā)現(xiàn)問題可能需要修改最初的數(shù)據(jù)選擇。第40頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫1.數(shù)據(jù)收集首先,確定要挖掘的數(shù)據(jù)源。在數(shù)據(jù)倉庫中已經(jīng)提供了豐富的數(shù)據(jù),但是還需要一些外部的數(shù)據(jù),比如人口統(tǒng)計或天氣數(shù)據(jù)等。對于一些有償數(shù)據(jù),甚至需要向?qū)iT提供數(shù)據(jù)服務(wù)的公司購買。我們可以用一個數(shù)據(jù)搜集報告把所需的各種不同的數(shù)據(jù)源的屬性列出來。此報告至少應(yīng)包含如下的內(nèi)容:第41頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫l數(shù)據(jù)源;l數(shù)據(jù)的擁有者;l負責維護此數(shù)據(jù)的人/組織;l設(shè)計該數(shù)據(jù)庫的DBA;l如果數(shù)據(jù)需要購買,則需要說明費用;l數(shù)據(jù)使用的存儲方式,如ORACLE數(shù)據(jù)庫,平面文件;l數(shù)據(jù)中包含的表,字段,記錄的數(shù)目;l數(shù)據(jù)的大??;l數(shù)據(jù)的物理存儲介質(zhì),如CD-ROM,磁帶,磁盤陣列等;l安全需求;l數(shù)據(jù)在使用上的限制;l數(shù)據(jù)是否涉及用戶的隱私問題。第42頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫2.數(shù)據(jù)描述數(shù)據(jù)描述報告中應(yīng)包含如下內(nèi)容:l

字段/列的數(shù)目;l

字段是空(缺值)的數(shù)目/百分比;l

字段名;第43頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫對于對每個字段,我們通常需要記錄:l

數(shù)據(jù)類型;l

數(shù)據(jù)定義;l

數(shù)據(jù)描述;l

計量單位;l

所有不同值的個數(shù);l

值的列表;l

值的范圍;l

空值的百分比;l

收集信息;l

時間頻度;l

特別時間數(shù)據(jù);l

主鍵/外鍵關(guān)系。第44頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫3.數(shù)據(jù)選擇接下來要選擇用于數(shù)據(jù)挖掘的數(shù)據(jù)。這與對數(shù)據(jù)進行采樣和選擇預(yù)測變量是不同的,這里只是粗略的把冗余或無關(guān)的數(shù)據(jù)除去或由于資源的限制、費用的限制、數(shù)據(jù)使用的限制和質(zhì)量問題而必須做出的選擇。第45頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫4.數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理要想得到好的模型必須用好數(shù)據(jù)。數(shù)據(jù)質(zhì)量評估就是要確定數(shù)據(jù)的哪些性質(zhì)會最終影響模型的質(zhì)量。我們不僅要保證數(shù)據(jù)值的正確性和一致性,還要保證這些值是按同樣的方法記錄的同一件事情。第46頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫數(shù)據(jù)域中可能包括了不正確的值。比如,身份證號碼被粗心的數(shù)據(jù)錄入人員錄入了年齡。即使單個域中包含的數(shù)據(jù)是正確的,但這些域組合起來時也可能就出現(xiàn)錯誤的記錄,如小學(xué)生的年齡是90。有時域中的值為空。當從多個不同的源整合數(shù)據(jù)的時候,一定要注意不同源之間數(shù)據(jù)的一致性。這些工作看起來和數(shù)據(jù)倉庫的數(shù)據(jù)清洗轉(zhuǎn)換工作很相似。第47頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫缺值是一個非常有害的問題,并且在實際情況中常常出現(xiàn)。比如在網(wǎng)上調(diào)查或者問卷調(diào)查中,填寫人會漏填甚至不填某些選項。如果有一個數(shù)據(jù)域缺值就把這個記錄刪除掉,那么最后可能得到一個很小的數(shù)據(jù)集合。如果可用的數(shù)據(jù)集合太小,則這個集合就不能代表整體的特征,因此在這樣的數(shù)據(jù)集合上進行分析的結(jié)果與實際情況有較大的出入。第48頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫我們應(yīng)當考慮一些合適的方法進行彌補,可能的方法有:a.據(jù)其它字段來推測缺失字段,比如通過身份證計算出客戶的性別、年齡信息,從而填補這兩個字段數(shù)據(jù)的缺失。如果客戶的身份證有誤,這個方法就失效了。b.用非空值的數(shù)據(jù)通過計算后代替空值數(shù)據(jù)。我們通過計算收入水平的非空數(shù)據(jù)的平均值來取代空值數(shù)據(jù)。c.使用非空值的數(shù)據(jù)的統(tǒng)計特征來填充空值數(shù)據(jù)。問卷中非空字段包含35%男性和65%女性,在為性別字段缺失的記錄添值時,按照這個比例隨機進行賦值。第49頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫

d.以缺值的字段為預(yù)測目標,用數(shù)據(jù)挖掘技術(shù)建立一個預(yù)測模型,通過非空的記錄對其進行訓(xùn)練和評價,然后按照這個模型的預(yù)測結(jié)果添值。這種方法比較好,因為使用數(shù)據(jù)本身的特征來填寫數(shù)據(jù),但是,這將花費較多的時間。第50頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫

e.利用以往的經(jīng)驗,行業(yè)規(guī)則或者挖掘得到的規(guī)則對空值進行填充。比如在宣傳化妝品的過程中,會對問卷回應(yīng)的大部分顧客是女性,男性僅占很少的比例,比如10%,我們可以根據(jù)這個特征對空值進行填充。

第51頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫5.合并和整合進行數(shù)據(jù)挖掘的數(shù)據(jù)來自于不同的內(nèi)部和外部數(shù)據(jù)源,并且數(shù)據(jù)源之間的數(shù)據(jù)常常存在沖突和不一致。不同的數(shù)據(jù)庫間在數(shù)據(jù)定義和使用上存在巨大的差距。有些不一致問題是容易解決的,然而有些則非常棘手。同一個名字的字段被用在不同的數(shù)據(jù)項上具有不同的含義,或同一個數(shù)據(jù)項用了不同的名字。在數(shù)據(jù)計量上還有單位不統(tǒng)一的問題,比如人民幣和港元之間不能做運算。關(guān)于數(shù)據(jù)整合和集成的問題,我們在數(shù)據(jù)倉庫中已經(jīng)進行了詳細的說明。第52頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫6.構(gòu)建元數(shù)據(jù)元數(shù)據(jù)就是描述數(shù)據(jù)的數(shù)據(jù)。數(shù)據(jù)收集報告和數(shù)據(jù)描述報告是建立元數(shù)據(jù)的基礎(chǔ)和重要組成部分。我們需要利用挖掘工具提供的元數(shù)據(jù)管理工具或者自己設(shè)計一個元數(shù)據(jù)庫,為分析數(shù)據(jù)以及建立模型提供輔助信息。第53頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫7.加載數(shù)據(jù)大多數(shù)情況下,用于挖掘的數(shù)據(jù)應(yīng)該放到獨立的挖掘庫中。如果數(shù)據(jù)量大并且復(fù)雜,那么數(shù)據(jù)挖掘庫通常是一個RDBMS。如果數(shù)據(jù)量很少,使用一個簡單的平面文件即可。經(jīng)過前面所有的搜集、整理之后,現(xiàn)在把這些數(shù)據(jù)加載過來。第54頁,共100頁,2023年,2月20日,星期六5.3.2建立數(shù)據(jù)挖掘庫8.維護數(shù)據(jù)挖掘庫挖掘庫一旦建好,就需要對其進行維護。維護工作包括:l定期進行數(shù)據(jù)備份;l

監(jiān)視挖掘庫的性能;l

維護元數(shù)據(jù);l根據(jù)需要不斷的增加存儲空間,提供硬件的性能。對放在RDBMS內(nèi)的復(fù)雜挖掘庫來說,維護它需要計算機專業(yè)人員來完成。第55頁,共100頁,2023年,2月20日,星期六5.3.3分析數(shù)據(jù)/變量分析數(shù)據(jù)的目的是找到對預(yù)測輸出影響最大的字段,并決定是否需要增加導(dǎo)出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時和累人的事情。這時,我們需要一個具有好的界面和功能強大的工具庫軟件來協(xié)助完成這些事情。此步驟可劃分成4個部分:l

選擇變量;l

選擇記錄;l

創(chuàng)建新變量;l

轉(zhuǎn)換變量。第56頁,共100頁,2023年,2月20日,星期六5.3.3分析數(shù)據(jù)/變量1選擇變量理想情況下,我們可以選擇全部變量,把它們輸入到數(shù)據(jù)挖掘工具中,讓數(shù)據(jù)挖掘工具來選擇哪些是最好的預(yù)測變量。實際上這樣做并不是很好,一方面隨著變量個數(shù)的增加,模型的建立時間也隨之上升;第57頁,共100頁,2023年,2月20日,星期六5.3.3分析數(shù)據(jù)/變量1選擇變量另一方面盲目的把所有的變量都加進去會導(dǎo)致建立錯誤的模型。比如,建立預(yù)測模型的一個常見錯誤就是把一個依賴于目標變量的變量作為預(yù)測變量,像用變量“出生年份”來“預(yù)測”目標變量年齡,其結(jié)果將導(dǎo)致目標變量“年齡”直接同預(yù)測變量“出生年份”相關(guān),而其它的因素將被排除,這顯然同預(yù)測的初衷是不符合的。第58頁,共100頁,2023年,2月20日,星期六5.3.3分析數(shù)據(jù)/變量我們在利用分析工具進行挖掘前,需要完成以下工作。l去除同目標變量具有強相關(guān)性的變量l去除毫無關(guān)系的變量這樣既可以節(jié)約進行數(shù)據(jù)挖掘的時間,又可以避免降低其它重要變量對目標變量的影響力。第59頁,共100頁,2023年,2月20日,星期六5.3.3分析數(shù)據(jù)/變量2選擇記錄選擇記錄有兩重含義:

a.在數(shù)據(jù)量不大的時候,可以用所有的數(shù)據(jù)行來建立模型。如果數(shù)據(jù)量非常巨大,使用所有的數(shù)據(jù)行來建立模型要花費很長時間,要么買一臺計算能力非常強大的機器。因此,數(shù)據(jù)量特別大就需要進行數(shù)據(jù)抽樣。如果數(shù)據(jù)抽樣做得足夠仔細,保證抽樣是按真正的隨機來進行的,采樣對大部分商業(yè)問題來說都不會丟失信息。我們可以用所有的數(shù)據(jù)建立一個模型,還可以根據(jù)不同的采樣方法建立幾個模型,然后評價這幾個模型并選擇一個最好的。通常認為后種方法得到的模型更準確。第60頁,共100頁,2023年,2月20日,星期六5.3.3分析數(shù)據(jù)/變量

b.在進行挖掘前,我們需要刪除明顯的異常數(shù)據(jù)。然而在某些情況下,這些看來異常的數(shù)據(jù)可能包含了要建立模型的重要信息。因此,對于數(shù)據(jù)是否異常,必須按照實際的業(yè)務(wù)邏輯和商業(yè)邏輯來判斷。第61頁,共100頁,2023年,2月20日,星期六5.3.3分析數(shù)據(jù)/變量

3創(chuàng)建新變量很多情況下,我們需要從原始數(shù)據(jù)中衍生一些新的變量作為預(yù)測變量。創(chuàng)建新變量通常有兩種方法。

a.將變量利用加、減、比率等計算組合起來可能會比這些變量自身影響力更大。比如,用負債占收入百分比來預(yù)測信用風險,比直接用負債值和收入值做預(yù)測變量更準確一些,也更容易理解。再如,預(yù)測一個客戶是否可能成為大客戶,使用它這幾個月來的通話費用的增長額或者增長率,可能比直接使用這幾個月的話費對目標量影響更大。第62頁,共100頁,2023年,2月20日,星期六5.3.3分析數(shù)據(jù)/變量

b.一些變量如果擴大它的范圍,可能成為一個非常好的預(yù)測變量。比如,預(yù)測客戶是否為有價值客戶,可以使用一段時間內(nèi)話費變化情況代替某一個月的話費情況。我們需要創(chuàng)建哪些新變量不是主觀臆想的結(jié)果,而需要研究商業(yè)問題,甚至要向該方面的專家請教。是否能夠創(chuàng)建合適的變量,對于模型的準確性影響很大。第63頁,共100頁,2023年,2月20日,星期六5.3.3分析數(shù)據(jù)/變量

4.轉(zhuǎn)換變量。不同的算法可能對變量的要求不同,所以在進行挖掘之前,我們需要根據(jù)選擇的算法,決定對數(shù)據(jù)進行哪些轉(zhuǎn)換工作。比如神經(jīng)網(wǎng)絡(luò)要求所有的變量都在0~1之間,因此在這些數(shù)據(jù)被提交到算法之前必須先對不在[0,1]內(nèi)的變量進行映射。類似一些決策樹算法不接受數(shù)值型變量作為輸入,在使用它們之前也要把這些數(shù)值映射到“高,中,低”等。使用的轉(zhuǎn)換方式在一定程度上會影響模型的準確度。第64頁,共100頁,2023年,2月20日,星期六5.3.3分析數(shù)據(jù)/變量現(xiàn)在的一些比較先進的數(shù)據(jù)挖掘工具已經(jīng)能夠自動對變量進行必要的轉(zhuǎn)換工作。但是,目標變量的轉(zhuǎn)化工作通常還是需要用戶自己來完成。比如使用神經(jīng)網(wǎng)絡(luò)的方法,需要將目標變量映射到0~1之間。第65頁,共100頁,2023年,2月20日,星期六5.3.4模型訓(xùn)練方法建立模型是一個反復(fù)的過程。我們需要仔細考察不同的模型來判斷哪個模型對具體的商業(yè)問題最有用。我們在尋找好模型的過程中,可能會得到新的啟發(fā),在這些啟發(fā)的作用下可能會修改數(shù)據(jù),甚至改變最初對問題的定義和理解。在數(shù)據(jù)挖掘中不要害怕反復(fù),因為每一次反復(fù)是向更完善的模型又進了一步。第66頁,共100頁,2023年,2月20日,星期六5.3.4模型訓(xùn)練方法我們首先需要決定預(yù)測的類型是對事物進行分類,還是對事物進行回歸預(yù)測。然后對于預(yù)測選擇數(shù)學(xué)模型。選擇什么樣的模型,決定了我們需對數(shù)據(jù)做哪些預(yù)處理工作。如神經(jīng)網(wǎng)絡(luò)需要做數(shù)據(jù)轉(zhuǎn)換,有些數(shù)據(jù)挖掘工具可能對輸入數(shù)據(jù)的格式有特定的限制等。所有的數(shù)據(jù)準備好之后才可以開始訓(xùn)練模型。第67頁,共100頁,2023年,2月20日,星期六5.3.4模型訓(xùn)練方法為了保證得到的模型具有較好的準確度和健壯性,需要先用一部分數(shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試這個得到的模型。有時還需要第3個數(shù)據(jù)集,稱為驗證集。因為測試集可能受模型特性的影響,還需要一個獨立的數(shù)據(jù)集來驗證模型的準確性。第68頁,共100頁,2023年,2月20日,星期六5.3.4模型訓(xùn)練方法訓(xùn)練和測試數(shù)據(jù)挖掘模型至少要把數(shù)據(jù)分成兩個部分:一個用于模型訓(xùn)練,另一個用于模型測試。如果使用相同的訓(xùn)練和測試集,那么模型的準確度就很難使人信服。用訓(xùn)練集把模型建立出來之后,可以先在測試集數(shù)據(jù)上做實驗,此模型在測試集上的預(yù)測準確度就是一個很好的指導(dǎo)數(shù)據(jù),它表示將來與數(shù)據(jù)集和測試集類似的數(shù)據(jù)用此模型預(yù)測時正確的百分比。但這并不能保證模型的正確性,它只是說明在相似的數(shù)據(jù)集合的情況下用此模型會得出相似的結(jié)果。第69頁,共100頁,2023年,2月20日,星期六5.3.4模型訓(xùn)練方法常用的驗證方法包括簡單驗證,交叉驗證和N維交叉驗證。1.簡單驗證簡單驗證是最基本的測試方法。它從原始數(shù)據(jù)集合中拿出一定百分比的數(shù)據(jù)作為測試數(shù)據(jù),這個百分比大概在5%~33%之間。注意:在把數(shù)據(jù)集合分成幾部分時,一定要保證選擇的隨機性,這樣才能使分開的各部分數(shù)據(jù)的性質(zhì)是一致的。第70頁,共100頁,2023年,2月20日,星期六5.3.4模型訓(xùn)練方法先用數(shù)據(jù)集合的主體把模型建立起來,然后用此模型來預(yù)測測試集中的數(shù)據(jù)。出現(xiàn)錯誤的預(yù)測與預(yù)測總數(shù)之間的比稱為錯誤率。對于分類問題,我們可以簡單的下結(jié)論:“對”與“錯”,此時錯誤率很容易計算。回歸問題不能使用簡單的“對”或“錯”來衡量,但可以用方差來描述準確的程度。比如,用3年內(nèi)預(yù)計的客戶增長數(shù)量同3年內(nèi)實際的數(shù)據(jù)進行比較。第71頁,共100頁,2023年,2月20日,星期六5.3.4模型訓(xùn)練方法在一次模型的建立過程中,這種最簡單的驗證通常要執(zhí)行幾十次。例如,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,幾乎每一個訓(xùn)練周期都要在測試集上運行一次,不斷的訓(xùn)練測試,直到在測試集上的準確率不再提高為止。第72頁,共100頁,2023年,2月20日,星期六5.3.4模型訓(xùn)練方法

2

交叉驗證簡單驗證適合在挖掘數(shù)據(jù)充沛的時候使用。如果數(shù)據(jù)不是很多,可能無法再把一部分數(shù)據(jù)放到一邊不用,這樣會使得數(shù)據(jù)的特征丟失。交叉驗證提供了一種使用全部數(shù)據(jù)的方法。首先把原始數(shù)據(jù)隨機平分成兩份,一部分做訓(xùn)練集,另一部分做測試集計算錯誤率,再把兩部分數(shù)據(jù)交換再計算一次錯誤率。最后再用所有的數(shù)據(jù)建立一個模型,把上面得到的兩個錯誤率進行平均做為最后模型的錯誤率。第73頁,共100頁,2023年,2月20日,星期六5.3.4模型訓(xùn)練方法

3.N-維交叉驗證

N-維交叉驗證是更通用的算法。它先把數(shù)據(jù)隨機份成不相交的N份,比如把數(shù)據(jù)分成10份。先把第一份拿出來放在一邊用做模型測試,把其它9份合在一起來建立模型,然后把這個用90%的數(shù)據(jù)建立起來的模型用第一份數(shù)據(jù)做測試。這個過程對每一份數(shù)據(jù)都重復(fù)進行一次,得到10個不同的錯誤率。最后把所有數(shù)據(jù)放在一起建立一個模型,模型的錯誤率為上面10個錯誤率的平均。第74頁,共100頁,2023年,2月20日,星期六5.3.4模型訓(xùn)練方法我們可以依據(jù)得到的模型和對模型的預(yù)期結(jié)果修改參數(shù),再用同樣的算法建立新的模型,甚至可以采用其它的算法建立模型。在數(shù)據(jù)挖掘中,不同的商業(yè)問題采用哪種模型效果更好,在沒有行業(yè)經(jīng)驗的情況下,最好用不同的方法(參數(shù)或算法)建立幾個模型,從中選擇最好的。第75頁,共100頁,2023年,2月20日,星期六5.3.4模型訓(xùn)練方法圖9-19展示了一個多種算法結(jié)果的比較。圖的橫坐標是指選擇的客戶占客戶群體的比例,縱坐標是指選中大客戶的比例(假定大客戶在客戶群體中占10%)。不同的曲線代表不同算法的結(jié)果。從圖中可以看出,選擇10%的客戶時,神經(jīng)網(wǎng)絡(luò)的正確率為90%;回歸算法的正確率是85%;決策樹的正確率是70%;隨機抽樣的正確率為10%,因此神經(jīng)網(wǎng)絡(luò)算法的效果較好。從圖9-19還可以看出,隨著選擇客戶的比例增大,算法的效果逐漸下降。原因是在選擇客戶的初期,算法已經(jīng)把絕大部分的大客戶選擇出來了。從本圖可以充分的看出,使用模型進行選擇和利用隨機選擇,其效果相差極大。第76頁,共100頁,2023年,2月20日,星期六5.3.4模型訓(xùn)練方法

90807010%30%50%70%90%%Response神經(jīng)網(wǎng)絡(luò)回歸算法決策樹隨機選擇圖9-19多種算法的比較圖第77頁,共100頁,2023年,2月20日,星期六5.3.5數(shù)據(jù)挖掘模型的評價方法在模型建立好之后必須評價其結(jié)果,并解釋模型的含義和價值,只有這樣才能將模型最終應(yīng)用到商業(yè)環(huán)境中。從測試集中得到的準確率只對建立模型的數(shù)據(jù)有意義。在實際應(yīng)用中,隨著應(yīng)用數(shù)據(jù)的不同,模型的準確率肯定會變化。更重要的是準確度自身并不是選擇最好模型的正確評價方法。比如,模型A可能在某些不太重要的問題上正確率高于模型B,此時我們不能簡單地判斷模型A比模型B好。需要進一步了解錯誤的類型和由此帶來的相關(guān)效益/損失的多少。第78頁,共100頁,2023年,2月20日,星期六5.3.5數(shù)據(jù)挖掘模型的評價方法(1)無序矩陣對分類問題來說,無序矩陣是理解結(jié)果非常好的工具。用無序矩陣將預(yù)測的客戶類型結(jié)果與實際的情況進行對比,得到的結(jié)果如表9-1所示。它不僅說明了模型預(yù)測的準確情況,也展現(xiàn)了模型問題的所在。預(yù)測高價值客戶預(yù)測非高價值客戶實際高價值客戶2012實際非高價值客戶2028第79頁,共100頁,2023年,2月20日,星期六5.3.5數(shù)據(jù)挖掘模型的評價方法(1)無序矩陣表的理解:共有80名客戶,實際有32個高價值客戶,其中20個被正確預(yù)測,另外12個高價值客戶被預(yù)測成了非高價值客戶。實際有48個非高價值客戶,其中28個被正確預(yù)測,另外20個被錯誤預(yù)測成了高價值客戶。顯然模型總體準確度是60%。無序矩陣比簡單的說總體準確度是60%體現(xiàn)了更多的信息。預(yù)測高價值客戶非高價值客戶高價值客戶2012非高價值客戶2028第80頁,共100頁,2023年,2月20日,星期六5.3.5數(shù)據(jù)挖掘模型的評價方法(1)無序矩陣

在實際應(yīng)用中,如果每種不同的預(yù)測錯誤所需付出的代價也不同,那么考慮代價最小的模型(而不一定是錯誤率最小的模型)就是所要選擇的模型。如果每個準確的預(yù)測會帶來¥10的收益,錯誤的預(yù)測A(非高價值客戶預(yù)測成高價值客戶)要付出¥5的代價,B(高價值客戶預(yù)測成非高價值客戶)要付出¥10的代價,整個模型的價值是:

(10*20)-(5*20)+(10*28)-(10*12)=$260預(yù)測高價值客戶非高價值客戶高價值客戶2012非高價值客戶2028第81頁,共100頁,2023年,2月20日,星期六5.3.5數(shù)據(jù)挖掘模型的評價方法(1)無序矩陣考察下面的無序矩陣,雖然準確度降低到57.5%(46/80),但價值卻升高了。

(10*8)-(5*32)+(10*38)-(10*2)=$280

這就是我們前面提到的正確率最高的模型不一定就是實際問題中最優(yōu)的模型。預(yù)測高價值客戶非高價值客戶高價值客戶82非高價值客戶3238第82頁,共100頁,2023年,2月20日,星期六5.3.5數(shù)據(jù)挖掘模型的評價方法(2)收益表通過無序矩陣確定最優(yōu)的模型后還需要確定模型實施的范圍。隨著模型實施范圍的變化,其產(chǎn)生的效果也將發(fā)生變化。因為模型實施的范圍變大意味著需要更多的投入來實施,而其產(chǎn)生的效益隨著范圍的擴大可能很緩慢地增長。我們可以采用收益表來確定模型的最佳實施范圍。針對不同的問題,收益表有兩種形式:響應(yīng)率變化曲線和投資回報率變化曲線。第83頁,共100頁,2023年,2月20日,星期六5.3.5數(shù)據(jù)挖掘模型的評價方法(2)收益表

圖9-20顯示了通過郵件推銷商品客戶響應(yīng)率的變化情況。變化的比率稱為lift。例如,隨機抽取的方法選擇10%的客戶的響應(yīng)率是

10%,而通過模型選取10%的客戶的響應(yīng)率是

30%,則lift的值為3。我們可以根據(jù)圖中的結(jié)果,確定對客戶進行推銷的比例。比如規(guī)定lift值應(yīng)高于2.5,則推銷客戶占總客戶的比例可以設(shè)為15%。選擇比例10%100%響應(yīng)率隨機選擇的響應(yīng)率模型選擇的響應(yīng)率10%30%圖9-20客戶響應(yīng)率變化曲線第84頁,共100頁,2023年,2月20日,星期六5.3.5數(shù)據(jù)挖掘模型的評價方法(2)收益表

收益表的另一種形式是投資回報率變化曲線(這里定義ROI利潤與為此付出開銷的比值)。圖9-21是一個描述模型投資回報率的圖表。當選取比例超過80%時,ROI變成了負數(shù),ROI最高是在橫坐標為20%時。而采用隨機選擇的方法,將使得ROI始終為負值。我們可以根據(jù)圖來確定模型實施的范圍,選擇ROI指數(shù)最高的位置作為模型實施的比例,也可以規(guī)定一個ROI的取值來確定模型實施的范圍。

ROI選擇比例10%100%隨機選擇的響應(yīng)率模型選擇的響應(yīng)率圖9-21投資回報率變化曲線第85頁,共100頁,2023年,2月20日,星期六5.3.5數(shù)據(jù)挖掘模型的評價方法(2)收益表我們也可以直接看利潤的變化情況(利潤為收入與投資的差值)。利潤隨選擇比例的變化曲線如圖9-22所示。理想情況下應(yīng)該按照利潤表行事,但很多情況下計算利潤表非常復(fù)雜。選擇比例10%100%隨機選擇的響應(yīng)率模型選擇的響應(yīng)率圖9-22投資回報率變化曲線利潤第86頁,共100頁,2023年,2月20日,星期六5.3.5數(shù)據(jù)挖掘模型的評價方法(3)外部驗證無論用模擬的方法計算出來的模型的準確率有多高,都不能保證此模型在面對現(xiàn)實世界中真實的數(shù)據(jù)時能取得好的效果。經(jīng)驗證有效的模型并不一定是正確的模型。造成這一點的直接原因就是模型建立中隱含著各種假設(shè)。第87頁,共100頁,2023年,2月20日,星期六5.3.5數(shù)據(jù)挖掘模型的評價方法例如,在建立用戶購買模式的模型時,可能沒有考慮通貨膨脹的影響,但實施模型時通貨膨脹率突然由3%增加為17%,這顯然會對人們的購買意向產(chǎn)生重大影響。因此,再用原來的模型來預(yù)測客戶購買情況必然會出現(xiàn)重大失誤。直接在現(xiàn)實世界中測試模式很重要。我們可以先在小范圍內(nèi)應(yīng)用模型取得測試數(shù)據(jù),滿意之后再向大范圍推廣,這是一種謹慎可行的方法。第88頁,共100頁,2023年,2月20日,星期六5.3.6數(shù)據(jù)挖掘的實施和維護模型建立并經(jīng)驗證之后,有兩種主要的使用方法。第一種是將模型的結(jié)果提供給分析人員作參考,由分析人員通過觀察和分析這個模型之后提出行動方案建議。另一種使用模型的方法是把此模型應(yīng)用到不同的數(shù)據(jù)集上。模型可以用來標識一個事物的類別,給客戶的價值、信用度打分等,然后使用OLAP工具做進一步的分析。第89頁,共100頁,2023年,2月20日,星期六5.3.6數(shù)據(jù)挖掘的實施和維護在應(yīng)用了模型之后,還要不斷監(jiān)控,因為事物在不斷發(fā)展變化,很可能過一段時間之后模型就不再起作用或者效果變差。銷售人員都知道,人們的購買方式隨著社會的發(fā)展而變化。因此隨著使用時間的增加,要不斷地對模型做重新測試,有時甚至需要重新建立模型。第90頁,共100頁,2023年,2月20日,星期六5.3.7模型實例利用SAS數(shù)據(jù)挖掘工具建立模型。這個模型由若干個模塊組成。按照箭頭所制的順序,第一模塊是進行數(shù)據(jù)挖掘的數(shù)據(jù)源,也就是準備好的挖掘數(shù)據(jù)。如果數(shù)據(jù)集合很大,則需要在這個模塊中設(shè)定數(shù)據(jù)抽樣的方法。模塊“DataPartition”對挖掘數(shù)據(jù)進行劃分,一般SAS使用3:3:4的劃分比例。前30%的數(shù)據(jù)用于確定模型的參數(shù),接著的30%用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論