第2章數(shù)據(jù)挖掘建模方法_第1頁(yè)
第2章數(shù)據(jù)挖掘建模方法_第2頁(yè)
第2章數(shù)據(jù)挖掘建模方法_第3頁(yè)
第2章數(shù)據(jù)挖掘建模方法_第4頁(yè)
第2章數(shù)據(jù)挖掘建模方法_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析第2章數(shù)據(jù)挖掘建模方法

2.1概述>>

2.2業(yè)務(wù)理解>>

2.3數(shù)據(jù)理解>>2.4數(shù)據(jù)準(zhǔn)備>>

2.5建模>>2.6評(píng)估>>2.7部署>>

2.1概述(1)成功的數(shù)據(jù)挖掘是讓數(shù)據(jù)有商業(yè)價(jià)值,數(shù)據(jù)挖掘分析師需要知道什么對(duì)商業(yè)有價(jià)值,并且知道為了獲得巨大收益如何整理數(shù)據(jù)。為了成功運(yùn)用數(shù)據(jù)挖掘,對(duì)數(shù)據(jù)挖掘技術(shù)層面的理解至關(guān)重要,尤其是應(yīng)該了解如何將數(shù)據(jù)變成有用信息的過(guò)程。本章主要介紹跨行業(yè)標(biāo)準(zhǔn)流程CRISP-DM(cross-industrystandardprocessfordatamining)。該模型將一個(gè)數(shù)據(jù)挖掘項(xiàng)目的生命周期分為業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評(píng)估和部署等6個(gè)階段,這個(gè)流程為我們提供了一個(gè)數(shù)據(jù)挖掘所需步驟的完整概括。2.1概述(2)業(yè)務(wù)理解(BusinessUnderstanding)數(shù)據(jù)理解(DataUnderstanding)數(shù)據(jù)準(zhǔn)備(DataPreparation)建模(Modeling)評(píng)估(Evaluation)部署(Deployment)商業(yè)數(shù)據(jù)挖掘案例某一家銀行存在一個(gè)業(yè)務(wù)難題,他們的特別商業(yè)產(chǎn)品——家庭抵押貸款額度,不能吸引好的客戶,家庭抵押貸款業(yè)務(wù)量低。為此,美國(guó)消費(fèi)者資產(chǎn)協(xié)會(huì)決定與Hyperparallel公司合作,采取數(shù)據(jù)挖掘方法來(lái)解決這個(gè)問(wèn)題。根據(jù)CRISP-DM建模體系,第一階段是業(yè)務(wù)理解。從這個(gè)案例來(lái)看,主要的業(yè)務(wù)問(wèn)題是解決家庭抵押貸款的業(yè)務(wù)量。從業(yè)務(wù)角度上看,是否存在一些客戶群體對(duì)家庭抵押貸款這項(xiàng)業(yè)務(wù)感興趣,而這些客戶群體又有什么共同的特征,客戶什么時(shí)候最可能需要這種貸款等等。根據(jù)一般常識(shí)和商業(yè)顧問(wèn)、領(lǐng)域?qū)<业囊庖?jiàn),他們認(rèn)為可能使用家庭貸款業(yè)務(wù)的人群有兩種:一種是有孩子上大學(xué)的家長(zhǎng),想通過(guò)家庭抵押貸款支付學(xué)費(fèi),另一種是高收入但收入不穩(wěn)定的人,想通過(guò)家庭抵押貸款事、使其收入削峰填谷。經(jīng)過(guò)上述的業(yè)務(wù)理解后,需要進(jìn)行數(shù)據(jù)理解。首先要收集數(shù)據(jù)挖掘過(guò)程所需要的數(shù)據(jù)。多年來(lái),美國(guó)銀行一直將數(shù)百萬(wàn)的零售客戶數(shù)據(jù)存儲(chǔ)在一個(gè)巨大的關(guān)系數(shù)據(jù)庫(kù)中。關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)共有42個(gè)字段,每個(gè)記錄保存了客戶的詳細(xì)信息。收集到原始數(shù)據(jù)后,需要根據(jù)問(wèn)題識(shí)別數(shù)據(jù)有用的特征,檢驗(yàn)數(shù)據(jù)的質(zhì)量,對(duì)缺失的字段、數(shù)值型變量的取值范圍等質(zhì)量問(wèn)題進(jìn)行檢驗(yàn)并作處理。然后,對(duì)這些數(shù)據(jù)進(jìn)行篩選,轉(zhuǎn)換,調(diào)整,規(guī)范化后,輸入到公司數(shù)據(jù)倉(cāng)庫(kù)中。美國(guó)銀行利用這個(gè)系統(tǒng),能參透與銀行保持聯(lián)系的客戶的所有關(guān)系。數(shù)據(jù)庫(kù)中數(shù)據(jù)的屬性匯集成客戶獨(dú)一無(wú)二的特征,然后采用Hyperparallel公司的數(shù)據(jù)挖掘工具進(jìn)行分析。經(jīng)過(guò)數(shù)據(jù)挖掘工具的決策樹(shù)功能,按照現(xiàn)有銀行劃分客戶的規(guī)則,將客戶分成兩類,即可能或者不可能對(duì)提供家庭抵押貸款做出反應(yīng)。經(jīng)過(guò)了大量的有購(gòu)買產(chǎn)品和沒(méi)有購(gòu)買產(chǎn)品的客戶數(shù)據(jù),決策樹(shù)最終獲得判定不同類型客戶之間差別的規(guī)則。一旦發(fā)現(xiàn)規(guī)則,利用得到的模型可以給每個(gè)潛在客戶記錄增加一個(gè)屬性,即好的潛在客戶標(biāo)志,就是由數(shù)據(jù)挖掘模型生成的。接著使用模式的查找工具,確定客戶什么時(shí)候最有可能需要這種貸款。最后,使用聚類工具將具有相似屬性的客戶分成不同的組。在某一點(diǎn)上,數(shù)據(jù)挖掘工具發(fā)現(xiàn)了14個(gè)客戶簇,其中很多簇似乎沒(méi)有什么特別的發(fā)現(xiàn)。但是,有一個(gè)簇具有兩個(gè)令人費(fèi)解的特點(diǎn):一是這個(gè)簇的39%的人不同時(shí)擁有企業(yè)和個(gè)人賬戶,二是這個(gè)簇中的客戶占到家庭抵押貸款可能響應(yīng)者的四分之一。這些數(shù)據(jù)提示好奇的數(shù)據(jù)挖掘者,上述簇中的客戶有可能使用家庭抵押貸款來(lái)從事商業(yè)活動(dòng)。利用數(shù)據(jù)挖掘的結(jié)果,美國(guó)消費(fèi)協(xié)會(huì)資產(chǎn)協(xié)會(huì)和銀行的零售分支機(jī)構(gòu)聯(lián)合組織市場(chǎng)調(diào)查、與客戶面談。市場(chǎng)調(diào)查的結(jié)果證實(shí)了貸款收入將被用于從事商業(yè)活動(dòng)。盡管市場(chǎng)調(diào)查存在一些缺點(diǎn),例如響應(yīng)者并不能代表全部的人口,有些客戶并非誠(chéng)實(shí)對(duì)待調(diào)查等等,但是與現(xiàn)有客戶和以前的客戶進(jìn)行面談的時(shí)候,也可以深入了解其他方式無(wú)法得到的情況。對(duì)由數(shù)據(jù)挖掘產(chǎn)生的結(jié)果進(jìn)行評(píng)估之后,美國(guó)銀行制定部署運(yùn)用方案,并且按照方案采取了相應(yīng)的措施,最終,家庭抵押貸款的響應(yīng)率從0.7%上升到了7%。資料來(lái)源:(美)MichaelJ.A.Berry(美)GordonS.Linoff著.數(shù)據(jù)挖掘技術(shù):市場(chǎng)營(yíng)銷、銷售與客戶關(guān)系管理領(lǐng)域應(yīng)用.機(jī)械工業(yè)出版社.2006.72.2業(yè)務(wù)理解業(yè)務(wù)理解是數(shù)據(jù)挖掘的第一個(gè)階段,從業(yè)務(wù)的角度了解項(xiàng)目的要求和最終目的是什么,并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來(lái)。具體任務(wù)包括:(1)業(yè)務(wù)梳理(2)業(yè)務(wù)描述(3)業(yè)務(wù)特征研究(4)業(yè)務(wù)關(guān)聯(lián)分析2.3數(shù)據(jù)理解(1)數(shù)據(jù)理解階段是從收集數(shù)據(jù)開(kāi)始,通過(guò)一些活動(dòng)的處理,目的是熟悉數(shù)據(jù),識(shí)別數(shù)據(jù)的質(zhì)量問(wèn)題,首次發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性,或是探測(cè)引起興趣的自己去形成隱含信息的假設(shè)。其任務(wù)包括:(1)數(shù)據(jù)收集(2)數(shù)據(jù)描述(3)數(shù)據(jù)探索(4)數(shù)據(jù)質(zhì)量檢測(cè)2.3數(shù)據(jù)理解(2)(1)數(shù)據(jù)收集在收集數(shù)據(jù)之前,需要根據(jù)業(yè)務(wù)問(wèn)題明確數(shù)據(jù)挖掘過(guò)程需要哪些信息,哪些變量是必需的,哪些變量與數(shù)據(jù)挖掘目標(biāo)不相關(guān),然后根據(jù)選擇的標(biāo)準(zhǔn)收集數(shù)據(jù),檢查是否所有的信息都確實(shí)可以利用來(lái)實(shí)現(xiàn)數(shù)據(jù)挖掘的目標(biāo)。(2)數(shù)據(jù)描述描述數(shù)據(jù)主要是熟悉數(shù)據(jù),理解數(shù)據(jù)的內(nèi)涵,檢驗(yàn)數(shù)據(jù)的“總的”或者“表面的”特征。例如從商業(yè)的角度理解每個(gè)變量及其值的含義,變量的含義是否始終一致,變量是否與具體的數(shù)據(jù)挖掘目標(biāo)相關(guān)聯(lián)等。2.3數(shù)據(jù)理解(3)(3)數(shù)據(jù)探索探索數(shù)據(jù)主要是詳細(xì)分析引人注目的變量特征,識(shí)別潛在的特征,思考和評(píng)估在描述數(shù)據(jù)過(guò)程中的信息和發(fā)現(xiàn),提出假設(shè)并確定方案,闡明數(shù)據(jù)挖掘的目標(biāo)。例如,電信公司想挖掘出移動(dòng)業(yè)務(wù)之間的關(guān)聯(lián)規(guī)則,那么,在描述數(shù)據(jù)后,根據(jù)數(shù)據(jù)的特征,選擇各種可能相關(guān)的業(yè)務(wù)進(jìn)行挖掘,對(duì)于顯而易見(jiàn)的規(guī)則,則可以不作考慮。比如說(shuō)開(kāi)通上網(wǎng)功能的客戶中絕大部分客戶也開(kāi)通了飛信業(yè)務(wù),則在探索數(shù)據(jù)時(shí),不需要考慮這兩個(gè)業(yè)務(wù)之間的關(guān)聯(lián)。(4)數(shù)據(jù)質(zhì)量檢測(cè)檢驗(yàn)數(shù)據(jù)質(zhì)量,列舉有關(guān)問(wèn)題。例如數(shù)據(jù)是否完整、正確,是否存在缺失值,數(shù)值型變量的范圍是否落在允許的范圍內(nèi),變量的含義與變量值是否一致等質(zhì)量問(wèn)題。2.4數(shù)據(jù)準(zhǔn)備(1)數(shù)據(jù)準(zhǔn)備階段的工作是對(duì)可用的原始數(shù)據(jù)進(jìn)行一系列的組織以及清洗等預(yù)處理,使之達(dá)到建模需求,而這些數(shù)據(jù)將是模型工具的輸入值。數(shù)據(jù)準(zhǔn)備階段的任務(wù)有可能執(zhí)行多次,并且沒(méi)有任何規(guī)定的順序。這個(gè)階段其任務(wù)包括:(1)數(shù)據(jù)篩選(2)數(shù)據(jù)清理(3)數(shù)據(jù)構(gòu)建(4)數(shù)據(jù)整理合并(5)規(guī)范化數(shù)據(jù)(6)準(zhǔn)備建模數(shù)據(jù)集(7)選擇建模技術(shù)和訓(xùn)練模型(1)數(shù)據(jù)篩選數(shù)據(jù)篩選的任務(wù)是確定數(shù)據(jù)挖掘分析過(guò)程中所必須的數(shù)據(jù),即選擇有用的特征和記錄。在選擇數(shù)據(jù)的時(shí)候,首先要考慮的問(wèn)題是數(shù)據(jù)要符合解決企業(yè)問(wèn)題的需要。再者,由于用于建模的數(shù)據(jù)應(yīng)盡可能地完整,數(shù)據(jù)量盡可能多。當(dāng)開(kāi)發(fā)預(yù)測(cè)模型時(shí),資料中也應(yīng)該包括想要的輸出。2.4數(shù)據(jù)準(zhǔn)備(2)(2)數(shù)據(jù)清洗數(shù)據(jù)挖掘過(guò)程是否成功,得出的結(jié)果模型是否可靠,取決于數(shù)據(jù)質(zhì)量的好壞。清理數(shù)據(jù)的任務(wù)恰恰是清理數(shù)據(jù)中包含的噪聲和與數(shù)據(jù)挖掘主題明顯無(wú)關(guān)的數(shù)據(jù),從而提高數(shù)據(jù)的質(zhì)量。清理數(shù)據(jù)通常包括:填補(bǔ)空缺的數(shù)據(jù)值。例如忽略有空缺值的記錄;人工填寫(xiě)空缺值;使用一個(gè)全局變量填寫(xiě)空缺值;使用屬性的均值填寫(xiě)空缺值。清理噪聲數(shù)據(jù)。對(duì)于噪聲數(shù)據(jù)有以下幾種處理方法:一是分箱,二是聚類方法,通過(guò)聚類發(fā)現(xiàn)孤立點(diǎn)。三是計(jì)算機(jī)與人工相結(jié)合的方法,四是回歸分析,建立回歸方程。解決不一致問(wèn)題。數(shù)據(jù)的不一致主要表現(xiàn)在數(shù)據(jù)的單位、命名、結(jié)構(gòu)、含義不一致??梢酝ㄟ^(guò)對(duì)數(shù)據(jù)的統(tǒng)一調(diào)整進(jìn)行解決。2.4數(shù)據(jù)準(zhǔn)備(3)(3)數(shù)據(jù)構(gòu)建數(shù)據(jù)構(gòu)建包括建設(shè)性的數(shù)據(jù)準(zhǔn)備工作,例如屬性構(gòu)造,多維數(shù)據(jù)組織(聚集),數(shù)據(jù)泛化處理。屬性構(gòu)造是指構(gòu)造新的屬性并添加到屬性集中,以幫助提高數(shù)據(jù)挖掘的過(guò)程。多維數(shù)據(jù)組織(聚集)是指對(duì)數(shù)據(jù)進(jìn)行匯總和聚集,采用切片、旋轉(zhuǎn)等操作將原始數(shù)據(jù)按照多維立體形式組織成為不同層次、不同粒度、不同維度的聚集。數(shù)據(jù)泛化處理是指使用高層次的概念替換低層次的概念。例如短信業(yè)務(wù)替換各種不同種類的短信業(yè)務(wù),使用國(guó)家替換城市。2.4數(shù)據(jù)準(zhǔn)備(4)(4)數(shù)據(jù)整合數(shù)據(jù)整合的主要任務(wù)是將來(lái)自多數(shù)據(jù)源(例如數(shù)據(jù)庫(kù)、文件等)的相關(guān)數(shù)據(jù)組合到一起,即把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或者物理上有機(jī)地集合在一起,使之更加有利于數(shù)據(jù)挖掘過(guò)程的實(shí)現(xiàn)。(5)數(shù)據(jù)規(guī)范化規(guī)格化數(shù)據(jù)就是將有關(guān)屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)特定的小范圍內(nèi),以消除數(shù)值型數(shù)據(jù)因大小不一而造成的數(shù)據(jù)挖掘結(jié)果的誤差。常用的規(guī)格化數(shù)據(jù)方法有三種:最大最小規(guī)格化z-score規(guī)格化小數(shù)定標(biāo)規(guī)格化2.4數(shù)據(jù)準(zhǔn)備(5)2.4數(shù)據(jù)準(zhǔn)備(6)(6)準(zhǔn)備建模數(shù)據(jù)集數(shù)據(jù)準(zhǔn)備是在數(shù)據(jù)建模前對(duì)數(shù)據(jù)的最后一步進(jìn)行處理,對(duì)數(shù)據(jù)進(jìn)行上述處理后,還不能直接用于數(shù)據(jù)建模,還需要考慮到數(shù)據(jù)的稀疏程度。通常,對(duì)于稀疏的數(shù)據(jù),最好選用15%~30%的比例來(lái)建模,例如:在建立欺詐檢測(cè)模型時(shí),欺詐記錄的數(shù)據(jù)占比例很小。如果直接用這樣的數(shù)據(jù)進(jìn)行建模,那么,成功預(yù)測(cè)沒(méi)有欺詐的可能性將會(huì)很高。但是這樣得到的模型用處不大甚至完全無(wú)用。為了評(píng)估模型,一般將建模數(shù)據(jù)集分成三個(gè)部分,即訓(xùn)練集、測(cè)試集和評(píng)估集。將數(shù)據(jù)的訓(xùn)練集作為最初用于建立模型的數(shù)據(jù),用測(cè)試集和評(píng)估集來(lái)精化模型和評(píng)估模型。2.5建模(1)2.5.1成功建立預(yù)測(cè)模型的注意要點(diǎn)2.5.2如何建立有效的預(yù)測(cè)模型2.5建模(2)一個(gè)模型的好壞依賴于所選擇的算法和使用的工具。一些工具可以生成許多不同的模型,而且可以自動(dòng)從中選出最好的模型??梢赃x擇多種不同的數(shù)據(jù)挖掘技術(shù),每一種技術(shù)都有它的優(yōu)缺點(diǎn)。實(shí)際應(yīng)用時(shí),需要根據(jù)數(shù)據(jù)挖掘的目的以及數(shù)據(jù)的特點(diǎn)選擇數(shù)據(jù)挖掘的算法。數(shù)據(jù)挖掘中的建模是針對(duì)問(wèn)題的特定對(duì)象,為了特定的數(shù)據(jù)挖掘目的,做出假設(shè),運(yùn)用適當(dāng)?shù)臄?shù)據(jù)挖掘工具和其他科學(xué)工具建立模型,利用模型解釋特定的現(xiàn)象和預(yù)測(cè)對(duì)象的未來(lái)狀況。

2.5.1成功建立預(yù)測(cè)模型的注意要點(diǎn)(1)對(duì)于預(yù)測(cè)模型而言,當(dāng)預(yù)言與結(jié)果相一致時(shí),才能說(shuō)明預(yù)言是有效的然而,要成功建立預(yù)測(cè)模型,需要注意以下三點(diǎn):(1)預(yù)測(cè)模型的時(shí)間范圍在建立模型的過(guò)程中,首先需要訓(xùn)練模型,即用歷史數(shù)據(jù)構(gòu)建模型,進(jìn)行預(yù)測(cè),然后將模型應(yīng)用于新的數(shù)據(jù)中從而生成結(jié)果,這個(gè)過(guò)程稱為得分,它是用最新的數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)的結(jié)果。具體如圖所示:2.5.1成功建立預(yù)測(cè)模型的注意要點(diǎn)(2)(2)模型的使用有效期在建立預(yù)測(cè)模型的時(shí)候,還需要考慮模型的使用有效期問(wèn)題,即模型使用有效期和模型預(yù)測(cè)有效期。模型使用有效期是指在業(yè)務(wù)環(huán)境、技術(shù)手段、客戶基礎(chǔ)等相對(duì)穩(wěn)定的條件下,可以繼續(xù)使用之前建立的預(yù)測(cè)模型。但是隨著時(shí)間的推移,這些條件可能會(huì)發(fā)生變化,因此,必須用新的數(shù)據(jù)構(gòu)建新的模型,而不能用之前建立的模型進(jìn)行預(yù)測(cè)。模型預(yù)測(cè)有效期是指預(yù)測(cè)結(jié)果應(yīng)該在特定的時(shí)間內(nèi)才有效。例如電信行業(yè)中預(yù)測(cè)某個(gè)特定季度或者特定月份的客戶流失率。在這種情況下,需要對(duì)不同季度或者月份使用不同的預(yù)測(cè)。2.5.1成功建立預(yù)測(cè)模型的注意要點(diǎn)(3)(3)建立預(yù)測(cè)模型的假設(shè)為什么可以用預(yù)測(cè)模型來(lái)預(yù)測(cè)現(xiàn)實(shí)生活中特定對(duì)象的未來(lái)狀況?原因是預(yù)測(cè)模型的成功應(yīng)用依賴于三個(gè)基本假設(shè):假設(shè)1:歷史是未來(lái)的寫(xiě)照假設(shè)2:數(shù)據(jù)是可以獲得的假設(shè)3:數(shù)據(jù)中包含我們的預(yù)期目標(biāo)2.5.2如何建立有效的預(yù)測(cè)模型(1)建立預(yù)測(cè)模型最重要的目標(biāo)是保持模型穩(wěn)定,有效模型的建立需要考慮以下因素:(1)預(yù)測(cè)建模的第一項(xiàng)任務(wù)就是搜集足夠預(yù)先分類好的數(shù)據(jù),將模型集分為三部分:訓(xùn)練集、測(cè)試集、評(píng)估集,并理解模型在各個(gè)子集上的效果。(2)對(duì)于類別不平衡的數(shù)據(jù),通過(guò)抽樣來(lái)控制模型集的密度,即不同分布的類別比例。(3)注意觀察所用數(shù)據(jù)的輸入和輸出時(shí)間范圍,所有輸入都必須出現(xiàn)在輸出之前,保留一個(gè)執(zhí)行期間是明智的選擇。(4)在模型集中使用多重時(shí)間窗口有助于確保模型穩(wěn)定、并在時(shí)間上易于轉(zhuǎn)換。(5)大多數(shù)建模過(guò)程需要建立多個(gè)模型,并對(duì)多個(gè)模型的效果進(jìn)行比較,以選用效果最好的模型進(jìn)行預(yù)測(cè),或者對(duì)多個(gè)模型進(jìn)行組合,以得到性能更優(yōu)的集成分類模型。(6)對(duì)不同的模型集、模型參數(shù)以及時(shí)間范圍進(jìn)行試驗(yàn),有助于建立更好更穩(wěn)定的模型。2.5.2如何建立有效的預(yù)測(cè)模型(2)在了解以上因素的基礎(chǔ)上,需要掌握建立有效預(yù)測(cè)模型的基本步驟:(1)用訓(xùn)練集的數(shù)據(jù)進(jìn)行訓(xùn)練建立模型。這步產(chǎn)生的結(jié)果是找出數(shù)據(jù)中所包含的預(yù)測(cè)模式。(2)利用測(cè)試集,對(duì)模型進(jìn)行修正。其目的是為了防止模型對(duì)訓(xùn)練集的模式記憶太深,出現(xiàn)過(guò)度擬合現(xiàn)象,以使模型更具一般性,并且能夠很好地適應(yīng)未知數(shù)據(jù)。(3)對(duì)模型的效果進(jìn)行評(píng)價(jià)。這個(gè)過(guò)程需要用到評(píng)估集,這部分?jǐn)?shù)據(jù)也是模型集的一部分。它是在建模和測(cè)試修正過(guò)程中尚未用到的那部分?jǐn)?shù)據(jù)集。檢測(cè)模型的性能可以通過(guò)判錯(cuò)矩陣和增益表(liftchart)或累計(jì)增益圖(cumulativegainchart)來(lái)評(píng)價(jià)。2.5.2如何建立有效的預(yù)測(cè)模型(3)實(shí)際值YN預(yù)測(cè)值Y2%4%N12%82%實(shí)際值YN預(yù)測(cè)值Y7%40%N3%50%a)判錯(cuò)矩陣判錯(cuò)矩陣表示了一個(gè)模型與事實(shí)發(fā)生沖突的可能性。從判錯(cuò)矩陣中可以看出預(yù)測(cè)模型預(yù)測(cè)正確的比例和預(yù)測(cè)錯(cuò)誤的比例,使我們認(rèn)識(shí)到模型的執(zhí)行效果,理解模型的結(jié)果。

表2-1表示的是判錯(cuò)矩陣。究竟哪個(gè)模型是最優(yōu)的模型,還要視業(yè)務(wù)問(wèn)題而定。

表2-1判錯(cuò)矩陣2.5.2如何建立有效的預(yù)測(cè)模型(4)b)累計(jì)增益圖累計(jì)增益圖是一種常用的用于評(píng)估模型執(zhí)行效果的圖表。它的橫軸和縱軸都是百分比構(gòu)成。橫軸表示資料得分從小到大排序以后,按十分位累計(jì)資料百分比。累計(jì)增益圖的縱軸表示這部分資料在總資料中的比例。下圖表示的是不同模型產(chǎn)生的累計(jì)增益圖表。建模曲線和對(duì)角線包圍的面積越大,說(shuō)明模型的執(zhí)行效果越好。2.6評(píng)估評(píng)估是將模型輸出的結(jié)果與現(xiàn)實(shí)生活中發(fā)生的結(jié)果進(jìn)行對(duì)比,進(jìn)一步評(píng)估模型。要保證預(yù)測(cè)結(jié)果的有效性,對(duì)預(yù)測(cè)模型進(jìn)行分析與評(píng)價(jià)時(shí),應(yīng)遵循如下原則:合理性預(yù)測(cè)能力穩(wěn)定性在評(píng)估結(jié)果之后,需要回顧檢討探測(cè)的過(guò)程,從而決定后續(xù)的步驟與調(diào)整。經(jīng)過(guò)對(duì)模型的評(píng)估,回顧整個(gè)探測(cè)的過(guò)程,查找建模結(jié)果中與現(xiàn)實(shí)生活中發(fā)生結(jié)果的差距,檢查探測(cè)過(guò)程的可能出現(xiàn)的錯(cuò)誤,決定后續(xù)的數(shù)據(jù)挖掘的步驟并做出相應(yīng)的調(diào)整。2.7部署模型的作用是從數(shù)據(jù)中找到知識(shí),獲得的知

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論