數(shù)據(jù)挖掘的模型及計算方式_第1頁
數(shù)據(jù)挖掘的模型及計算方式_第2頁
數(shù)據(jù)挖掘的模型及計算方式_第3頁
數(shù)據(jù)挖掘的模型及計算方式_第4頁
數(shù)據(jù)挖掘的模型及計算方式_第5頁
已閱讀5頁,還剩314頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘?qū)д撓嚓P(guān)的參考文獻1 M. Berry and G. Linoff, Data Mining Techniques, John Wiley, 19972 William S. Cleveland, The Elements of Graphing Data, revised, Hobart Press, 19943 Howard Wainer, Visual Revelations, Copernicus, 19974 R.Kennedy, Lee, Reed, and Van Roy, Solving Pattern Recognition Problem , Prentice-Ha

2、ll, 19985 U. Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, Advances in KnowledgeDiscovery and Data Mining, MIT Press, 19966 Dorian Pyle, Data Preparation for Data Mining, Morgan Kaufmann, 19997 C. Westphal and T. Blaxton, Data Mining Solutions, John Wiley, 19988 Vasant Dhar and Roger Stein, Seve

3、n Methods for Transforming Corporate Data intoBusiness Intelligence, Prentice Hall 19979 Brieman, Freidman, Olshen, and Stone, Classification and Regression Trees,Wadsworth, 198410 J. R. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufmann, 1992目錄 HYPERLINK / l a1 介紹 HYPERLINK / l a2 什么是數(shù)據(jù)挖

4、掘 HYPERLINK / l a3 數(shù)據(jù)挖掘:不能干什么 HYPERLINK / l a4 數(shù)據(jù)挖掘和數(shù)據(jù)倉庫 HYPERLINK / l a5 數(shù)據(jù)挖掘和在線分析處理(OLAP) HYPERLINK / l a6 數(shù)據(jù)挖掘,機器學(xué)習(xí)和統(tǒng)計 HYPERLINK / l a7 軟硬件進展對數(shù)據(jù)挖掘的阻礙 HYPERLINK / l a8 數(shù)據(jù)挖掘應(yīng)用 HYPERLINK / l a9 成功的數(shù)據(jù)挖掘 HYPERLINK /zs18.htm l b1 描述型數(shù)據(jù)挖掘 HYPERLINK /zs18.htm l b2 統(tǒng)計和可視化 HYPERLINK /zs18.htm l b3 聚攏(分群) H

5、YPERLINK /zs18.htm l b4 關(guān)聯(lián)分析 HYPERLINK /zs18.htm l b5 預(yù)言型數(shù)據(jù)挖掘 HYPERLINK /zs18.htm l b6 你需要選擇的 HYPERLINK /zs18.htm l b7 一些術(shù)語 HYPERLINK /zs18.htm l b8 分類(Classification) HYPERLINK /zs18.htm l b9 回歸(Regression) HYPERLINK /zs18.htm l b10 時刻序列(Time series) HYPERLINK /zs18.htm l b11 數(shù)據(jù)挖掘模型和算法 HYPERLINK /z

6、s18.htm l b12 神經(jīng)網(wǎng)絡(luò)(Neural networks) HYPERLINK /zs18.htm l b13 決策樹(Decision trees) HYPERLINK /zs19.htm 數(shù)據(jù)挖掘過程介紹什么是數(shù)據(jù)挖掘當(dāng)今數(shù)據(jù)庫的容量差不多達到上萬億的水平(T) 1,000,000,000,000個字節(jié)。在這些大量數(shù)據(jù)的背后隱藏了專門多具有決策意義的信息,那么如何得到這些“知識”呢?也確實是如何樣通過一顆顆的樹木了解到整個森林的情況?計算機科學(xué)對那個問題給出的最新回答確實是:數(shù)據(jù)挖掘,在“數(shù)據(jù)礦山”中找到蘊藏的“知識金塊”,關(guān)心企業(yè)減少不必要投資的同時提高資金回報。數(shù)據(jù)挖掘給企

7、業(yè)帶來的潛在的投資回報幾乎是無止境的。世界范圍內(nèi)具有創(chuàng)新性的公司都開始采納數(shù)據(jù)挖掘技術(shù)來推斷哪些是他們的最有價值客戶、重新制定他們的產(chǎn)品推廣策略(把產(chǎn)品推廣給最需要他們的人),以用最小的花費得到最好的銷售。數(shù)據(jù)挖掘是一個利用各種分析工具在海量數(shù)據(jù)中發(fā)覺模型和數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系能夠用來做出預(yù)測。數(shù)據(jù)挖掘的第一步是描述數(shù)據(jù) 計算統(tǒng)計變量(比如平均值、均方差等),再用圖表或圖片直觀的表示出來,進而能夠看出一些變量之間的相關(guān)性(比如有一些值經(jīng)常同時出現(xiàn))。選擇正確的數(shù)據(jù)源對整個數(shù)據(jù)挖掘項目的成敗至關(guān)重要,在后面數(shù)據(jù)挖掘的步驟中我們會著重強調(diào)這一點。單單是數(shù)據(jù)描述并不能為人們制訂行動打算提

8、供足夠的依據(jù),你必須用你的這些歷史數(shù)據(jù)建立一個預(yù)言模型,然后再用另外一些數(shù)據(jù)對那個模型進行測試。一個好的模型沒必要與數(shù)據(jù)庫中的數(shù)據(jù)100%的相符(都市交通圖也不是完全的實際交通線路的等比縮?。谀阕鰶Q策時是一個專門好的指南和依據(jù)。最后一步是驗證你的模型。比如你用所有對你的產(chǎn)品推廣打算做出回應(yīng)的人的數(shù)據(jù)庫做了一個模型,來預(yù)測什么樣的人會對你的產(chǎn)品感興趣。你能在得到那個模型后就直接利用那個模型做出決策或采取行動嗎?依舊更穩(wěn)妥一點先對一小部分客戶做一個實際的測試,然后再決定?數(shù)據(jù)挖掘:不能干什么數(shù)據(jù)挖掘是一個工具,而不是有魔力的權(quán)杖。它可不能坐在你的數(shù)據(jù)庫上一直監(jiān)視著數(shù)據(jù)庫,然后當(dāng)他發(fā)覺有意義

9、的模型時給你發(fā)一封電子郵件。他仍然需要了解你的業(yè)務(wù),理解你的數(shù)據(jù),弄清分析方法。數(shù)據(jù)挖掘只是關(guān)心商業(yè)人士更深入、更容易的分析數(shù)據(jù) 他無法告訴你某個模型對你的企業(yè)的實際價值。而且數(shù)據(jù)挖掘中得到的模型必須要在現(xiàn)實生活中進行驗證。注意數(shù)據(jù)挖掘中得到的預(yù)言模型并可不能告訴你一個人什么緣故會做一件事、采取某個行動,他只會告訴你他會如此做,什么緣故要人去考慮。比如,數(shù)據(jù)挖掘可能會告訴你,假如那個人是男的、年收入在5萬到6萬之間,那么他可能會買你的商品/服務(wù)。你可能會利用這條規(guī)則,集中向這類人推銷你的商品而從中獲益,然而數(shù)據(jù)挖掘工具可不能告訴你他們什么緣故會買你的東西,也不能保證所有符合這條規(guī)則的人都會買。

10、為了保證數(shù)據(jù)挖掘結(jié)果的價值,你自己必須了解你的數(shù)據(jù),這一點至關(guān)重要。輸入數(shù)據(jù)庫中的異常數(shù)據(jù)、不相關(guān)的字段或互相沖突的字段(比如年齡和生日不一致)、數(shù)據(jù)的編碼方式等都會對數(shù)據(jù)挖掘輸出結(jié)果的質(zhì)量產(chǎn)生阻礙。盡管一些算法自身會對上面提到的這些問題做一些考慮,但讓算法自己做所有這些決定是不明智的。數(shù)據(jù)挖掘可不能在缺乏指導(dǎo)的情況下自動的發(fā)覺模型。你不能如此對數(shù)據(jù)挖掘工具講,“幫我提高直接郵件推銷的響應(yīng)率”,你應(yīng)該讓數(shù)據(jù)挖掘工具找(1)對你的推銷回應(yīng)的人,或(2)即回應(yīng)又做了大量訂單的人的特征。在數(shù)據(jù)挖掘中查找這兩種模型是專門不相同的。盡管數(shù)據(jù)挖掘工具使你不必再掌握艱深的統(tǒng)計分析技術(shù),但你仍然需要明白你所選

11、用的數(shù)據(jù)挖掘工具是如何工作的,他所采納的算法的原理是什么。你所選用的技術(shù)和優(yōu)化方法會對你的模型的準確度和生成速度產(chǎn)生專門大阻礙。數(shù)據(jù)挖掘永久可不能替代有經(jīng)驗的商業(yè)分析師或治理人員所起的作用,他只是提供一個強大的工具。每個成熟的、了解市場的公司都差不多具有一些重要的、能產(chǎn)生高回報的模型,這些模型可能是治理人員花了專門長時刻,作了專門多調(diào)查,甚至是通過專門多失誤之后得來的。數(shù)據(jù)挖掘工具要做的確實是使這些模型得到的更容易,更方便,而且有依照。數(shù)據(jù)挖掘和數(shù)據(jù)倉庫大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中(見圖1)。從數(shù)據(jù)倉庫中直接得到進行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。就如我們

12、后面會講到的,數(shù)據(jù)倉庫的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,假如數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫時差不多清理過,那專門可能在做數(shù)據(jù)挖掘時就沒必要在清理一次了,而且所有的數(shù)據(jù)不一致的問題都差不多被你解決了。數(shù)據(jù)源數(shù)據(jù)倉庫數(shù)據(jù)源數(shù)據(jù)倉庫各分公司數(shù)據(jù)集市分析數(shù)據(jù)集市數(shù)據(jù)挖掘數(shù)據(jù)集市圖1:數(shù)據(jù)挖掘庫從數(shù)據(jù)倉庫中得出數(shù)據(jù)挖掘庫可能是你的數(shù)據(jù)倉庫的一個邏輯上的子集,而不一定非得是物理上單獨的數(shù)據(jù)庫。但假如你的數(shù)據(jù)倉庫的計算資源差不多專門緊張,那你最好依舊建立一個單獨的數(shù)據(jù)挖掘庫。因此為了數(shù)據(jù)挖掘你也不必非得建立一個數(shù)據(jù)倉庫,數(shù)據(jù)倉庫不是必需的。建立一個巨大的數(shù)據(jù)倉庫,把各個不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問題

13、,然后把所有的數(shù)據(jù)導(dǎo)到一個數(shù)據(jù)倉庫內(nèi),是一項巨大的工程,可能要用幾年的時刻花上百萬的鈔票才能完成。只是為了數(shù)據(jù)挖掘,你能夠把一個或幾個事務(wù)數(shù)據(jù)庫導(dǎo)到一個只讀的數(shù)據(jù)庫中,就把它當(dāng)作數(shù)據(jù)集市,然后在他上面進行數(shù)據(jù)挖掘。數(shù)據(jù)源數(shù)據(jù)挖掘庫數(shù)據(jù)源數(shù)據(jù)挖掘庫圖2:數(shù)據(jù)挖掘庫從事務(wù)數(shù)據(jù)庫中得出數(shù)據(jù)挖掘和在線分析處理(OLAP)一個經(jīng)常問的問題是,數(shù)據(jù)挖掘和OLAP到底有何不同。下面將會解釋,他們是完全不同的工具,基于的技術(shù)也大相徑庭。OLAP是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報表工具是告訴你數(shù)據(jù)庫中都有什么(what happened),OLAP則更進一步告訴你下一步會如何樣(What next)、和假如

14、我采取如此的措施又會如何樣(What if)。用戶首先建立一個假設(shè),然后用OLAP檢索數(shù)據(jù)庫來驗證那個假設(shè)是否正確。比如,一個分析師想找到什么緣故導(dǎo)致了貸款拖欠,他可能先做一個初始的假定,認為低收入的人信用度也低,然后用OLAP來驗證他那個假設(shè)。假如那個假設(shè)沒有被證實,他可能去察看那些高負債的賬戶,假如還不行,他也許要把收入和負債一起考慮,一直進行下去,直到找到他想要的結(jié)果或放棄。也確實是講,OLAP分析師是建立一系列的假設(shè),然后通過OLAP來證實或推翻這些假設(shè)來最終得到自己的結(jié)論。OLAP分析過程在本質(zhì)上是一個演繹推理的過程。然而假如分析的變量達到幾十或上百個,那么再用OLAP手動分析驗證這

15、些假設(shè)將是一件特不困難和痛苦的情況。數(shù)據(jù)挖掘與OLAP不同的地點是,數(shù)據(jù)挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己查找模型。他在本質(zhì)上是一個歸納的過程。比如,一個用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險因素。數(shù)據(jù)挖掘工具可能幫他找到高負債和低收入是引起那個問題的因素,甚至還可能發(fā)覺一些分析師從來沒有想過或試過的其他因素,比如年齡。數(shù)據(jù)挖掘和OLAP具有一定的互補性。在利用數(shù)據(jù)挖掘出來的結(jié)論采取行動之前,你也許要驗證一下假如采取如此的行動會給公司帶來什么樣的阻礙,那么OLAP工具能回答你的這些問題。而且在知識發(fā)覺的早期時期,OLAP工具還有其他一些用途。能夠幫你探究

16、數(shù)據(jù),找到哪些是對一個問題比較重要的變量,發(fā)覺異常數(shù)據(jù)和互相阻礙的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識發(fā)覺的過程。數(shù)據(jù)挖掘,機器學(xué)習(xí)和統(tǒng)計數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)計分析的進步所帶來的好處。這兩門學(xué)科都致力于模式發(fā)覺和預(yù)測。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計分析技術(shù)。相反,他是統(tǒng)計分析方法學(xué)的延伸和擴展。大多數(shù)的統(tǒng)計分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測的準確度依舊令人中意的,但對使用者的要求專門高。而隨著計算機計算能力的不斷增強,我們有可能利用計算機強大的計算能力只通過相對簡單和固定的方法完成同樣的功能。一些新興的技術(shù)同樣在知識發(fā)覺領(lǐng)域取得了專門好的效果,如神經(jīng)元網(wǎng)絡(luò)和決

17、策樹,在足夠多的數(shù)據(jù)和計算能力下,他們幾乎不用人的關(guān)照自動就能完成許多有價值的功能。數(shù)據(jù)挖掘確實是利用了統(tǒng)計和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,同時更專注于自己所要解決的問題。軟硬件進展對數(shù)據(jù)挖掘的阻礙使數(shù)據(jù)挖掘這件情況成為可能的關(guān)鍵一點是計算機性能價格比的巨大進步。在過去的幾年里磁盤存儲器的價格幾乎降低了99%,這在專門大程度上改變了企業(yè)界對數(shù)據(jù)收集和存儲的態(tài)度。假如每兆的價格是¥10,那存放1TB的價格是¥10,000,000,但當(dāng)每兆的價格降為1毛鈔票時,存儲同樣的數(shù)據(jù)只有¥100,000!計算機計算能力價格的降低同樣特

18、不顯著。每一代芯片的誕生都會把CPU的計算能力提高一大步。內(nèi)存RAM也同樣降價迅速,幾年之內(nèi)每兆內(nèi)存的價格由幾百塊鈔票降到現(xiàn)在只要幾塊鈔票。通常PC都有64M內(nèi)存,工作站達到了256M,擁有上G內(nèi)存的服務(wù)器差不多不是什么新奇事了。在單個CPU計算能力大幅提升的同時,基于多個CPU的并行系統(tǒng)也取得了專門大的進步。目前幾乎所有的服務(wù)器都支持多個CPU,這些SMP服務(wù)器簇甚至能讓成百上千個CPU同時工作?;诓⑿邢到y(tǒng)的數(shù)據(jù)庫治理系統(tǒng)也給數(shù)據(jù)挖掘技術(shù)的應(yīng)用帶來了便利。假如你有一個龐大而復(fù)雜的數(shù)據(jù)挖掘問題要求通過訪問數(shù)據(jù)庫取得數(shù)據(jù),那么效率最高的方法確實是利用一個本地的并行數(shù)據(jù)庫。所有這些都為數(shù)據(jù)挖掘的

19、實施掃清了道路,隨著時刻的連續(xù),我們相信這條道路會越來越平坦。數(shù)據(jù)挖掘應(yīng)用由于數(shù)據(jù)挖掘帶來的顯著的經(jīng)濟效益,使數(shù)據(jù)挖掘越來越普及。他不僅能用于操縱成本,也能給企業(yè)帶來效益。專門多企業(yè)都在利用數(shù)據(jù)挖掘技術(shù)關(guān)心治理客戶生命周期的各個時期,包括爭取新的客戶、在已有客戶的身上賺更多的鈔票、和保持住好的客戶。假如能夠確定好的客戶的特點,那么就能提供為客戶提供針對性的服務(wù)。比如,差不多發(fā)覺了購買某一商品的客戶的特征,那么就能夠向那些具有這些特征但還沒有購買此商品的客戶推銷那個商品;找到流失的客戶的特征就能夠,在那些具有相似特征的客戶還未流失之前進行針對性的彌補,因為保留一個客戶要比爭取一個客戶廉價的多。數(shù)

20、據(jù)挖掘能夠應(yīng)用在各個不同的領(lǐng)域。電訊公司和信用卡公司是用數(shù)據(jù)挖掘檢測欺詐行為的先行者。保險公司和證券公司也開始采納數(shù)據(jù)挖掘來減少欺詐。醫(yī)療應(yīng)用是另一個前景寬敞的產(chǎn)業(yè):數(shù)據(jù)挖掘能夠用來預(yù)測外科手術(shù)、醫(yī)療試驗和藥物治療的效果。零銷商更多的使用數(shù)據(jù)挖掘來決定每種商品在不同地點的庫存,通過數(shù)據(jù)挖掘更靈活的使用促銷和優(yōu)惠卷手段。制藥公司通過挖掘巨大的化學(xué)物質(zhì)和基因?qū)膊〉淖璧K的數(shù)據(jù)庫來推斷哪些物質(zhì)可能對治療某種疾病產(chǎn)生效果。成功的數(shù)據(jù)挖掘有保證數(shù)據(jù)挖掘成功的兩個關(guān)鍵要素。一是準確的定義你所要解決的問題,定位準確的問題通常會帶來最好的回報。二是使用正確的數(shù)據(jù),選定了你所能得到的數(shù)據(jù),也許還要從外部購買數(shù)據(jù)

21、,你需要對這些數(shù)據(jù)做有效的數(shù)據(jù)整合和轉(zhuǎn)換。 HYPERLINK /zs18.htm 數(shù)據(jù)挖掘入門 二 HYPERLINK /zs19.htm 數(shù)據(jù)挖掘入門 三 數(shù)據(jù)挖掘過程在實施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達到什么樣的目標是必要的,有了好的打算才能保證數(shù)據(jù)挖掘有條不紊的實施并取得成功。專門多軟件供應(yīng)商和數(shù)據(jù)挖掘顧問公司投提供了一些數(shù)據(jù)挖掘過程模型,來指導(dǎo)他們的用戶一步步的進行數(shù)據(jù)挖掘工作。比如SPSS的5A-評估(Assess),訪問(Access),分析(Analyze),行動(Act),自動化(Automate),和SAS的SEMMA-采樣(Sample),探究(

22、Explore),修正(Modify),建模(Model),評估(Assess)。最近,一些軟件供應(yīng)商和用戶組織成立了行業(yè)協(xié)會,包括NCR Systems Engineering Copenhagen(丹麥)Daimler-Benz AG(德國)SPSS/Internal Solutions Ltd.(英國),和OHRA Verzekeringen en Bank Grep B.V(荷蘭)。那個組織的目的確實是建立跨行業(yè)數(shù)據(jù)挖掘過程標準(CRISP-DM),在1999年9月的時候CRISP-DM仍在建立之中。我們下面詳細討論Two Crows公司的數(shù)據(jù)挖掘過程模型,他與正在建立的CRISP-D

23、M有許多相似之處。數(shù)據(jù)挖掘過程模型盡管我們把各個步驟按順序排列,但要注意數(shù)據(jù)挖掘過程并不是線性的要取得好的結(jié)果就要不斷反復(fù)重復(fù)這些步驟。比如在“分析數(shù)據(jù)”時你可能覺得在“建立數(shù)據(jù)挖掘數(shù)據(jù)庫”時作的不夠好,要往里面添加一些新的數(shù)據(jù)。這些差不多數(shù)據(jù)挖掘步驟包括:1. 定義商業(yè)問題2. 建立數(shù)據(jù)挖掘模型3. 分析數(shù)據(jù)4. 預(yù)備數(shù)據(jù)5. 建立模型6. 評價模型7. 實施1. 定義商業(yè)問題。在開始知識發(fā)覺之前最先的同時也是最重要的要求確實是了解的你的數(shù)據(jù)和業(yè)務(wù)問題。假如事先沒有這種了解,沒有任何算法,不管他有多么復(fù)雜玄妙,能夠為你提供有價值的結(jié)果,即使有也難以使人信賴他。缺少了這些背景知識,你就沒方法明

24、確定義要解決的問題,不能為挖掘預(yù)備數(shù)據(jù),也專門難正確的解釋得到的結(jié)果。要想充分發(fā)揮數(shù)據(jù)挖掘的價值,必須要對你的目標有一個清晰明確的定義,即決定到底想干什么。比如你講你想提高直接郵件推銷的用戶回應(yīng)時,你想做的可能是“提高用戶響應(yīng)率”,也可能是“提高一次用戶回應(yīng)的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,你必須做出決定。有效的問題定義還應(yīng)該包含一個對你的知識發(fā)覺項目得到結(jié)果進行衡量的標準。因此還應(yīng)該有整個項目預(yù)算和理性的解釋。2. 建立數(shù)據(jù)挖掘庫。連同下面的兩個步驟,這三步構(gòu)成了數(shù)據(jù)預(yù)處理的核心。這三步和在一起比其他所有的步驟加在一起所花得時刻和精力還多。一旦你從數(shù)據(jù)挖掘的結(jié)果中學(xué)到一

25、些什么之后,你專門可能要修改數(shù)據(jù)以得到更好得結(jié)果,因此就需要把數(shù)據(jù)預(yù)備和數(shù)據(jù)挖掘不斷的反復(fù)進行。數(shù)據(jù)預(yù)備工作大概要花去整個數(shù)據(jù)挖掘項目的50%-90%的時刻和精力。應(yīng)該把要挖掘的數(shù)據(jù)都收集到一個數(shù)據(jù)庫中。注意這并不是講一定要使用一個數(shù)據(jù)庫治理系統(tǒng)。依照要挖掘的數(shù)據(jù)量的大小、數(shù)據(jù)的復(fù)雜程度、使用方式的不同,有時一個簡單的平面文件或電子表格就足夠了。一般來講,直接在公司的數(shù)據(jù)倉庫上進行數(shù)據(jù)挖掘是不合適的。你最好建立一個獨立的數(shù)據(jù)集。數(shù)據(jù)挖掘會使你成為數(shù)據(jù)倉庫特不活躍的用戶,這可能會帶來一些資源申請上的問題。你需要經(jīng)常把許多表連接在一起,訪問數(shù)據(jù)倉庫的細節(jié)數(shù)據(jù)。一個簡單的試驗在數(shù)據(jù)倉庫內(nèi)都要專門多步

26、才能完成。大部分情況下你確信需要修改要挖掘的數(shù)據(jù)。而且還會遇到把企業(yè)外部的數(shù)據(jù)拿到數(shù)據(jù)倉庫內(nèi)和在原有的表中增加新的字段的情況。其他的數(shù)據(jù)挖掘用戶可能也要對數(shù)據(jù)倉庫進行與您相似或完全不同的修改。而對數(shù)據(jù)倉庫治理員來講,這可能是他最不情愿遇到的情況。需要建立獨立的數(shù)據(jù)挖掘庫的另一個理由是,數(shù)據(jù)倉庫可能不支持你要對數(shù)據(jù)進行各種復(fù)雜分析所需的數(shù)據(jù)結(jié)構(gòu)。這包括對數(shù)據(jù)進行統(tǒng)計查詢,多維分析,和各種復(fù)雜的圖表和可視化。最后,你可能希望把這些要挖掘的數(shù)據(jù)存貯在與公司的數(shù)據(jù)倉庫在物理設(shè)計上不同的DBMS上。人們越來越傾向于使用DBMS本身專門好的支持數(shù)據(jù)挖掘的數(shù)據(jù)庫程序,如此能使數(shù)據(jù)挖掘工作進行的更容易一些。因

27、此假如你的數(shù)據(jù)倉庫同意你建立一個在邏輯上獨立的數(shù)據(jù)庫同時在計算資源上也足夠的話,那么在他上面進行數(shù)據(jù)挖掘也是能夠的。能夠把建立數(shù)據(jù)挖掘庫分成下面幾個部分:a. 數(shù)據(jù)收集b. 數(shù)據(jù)描述c. 選擇d. 數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理e. 合并與整合f. 構(gòu)建元數(shù)據(jù)g. 加載數(shù)據(jù)挖掘庫h. 維護數(shù)據(jù)挖掘庫注意這些步驟并不需要一定要按步驟執(zhí)行,而應(yīng)該按需要進行。比如你可能在收集數(shù)據(jù)時就開始構(gòu)建元數(shù)據(jù),并隨著工作的進行不斷的對其進行修改。在數(shù)據(jù)整合和數(shù)據(jù)質(zhì)量評估過程中了解到得東西也有可能是你修改最初的數(shù)據(jù)選擇。a. 數(shù)據(jù)收集。確定要挖掘的數(shù)據(jù)源??赡芤恍┩獠康臄?shù)據(jù)也是必須的,需要在公共數(shù)據(jù)庫中獵取(人口統(tǒng)計或天

28、氣數(shù)據(jù))或向數(shù)據(jù)擁有者購買(比如信用卡使用數(shù)據(jù))。用以一個數(shù)據(jù)搜集報告把所需的各種不同的數(shù)據(jù)源的屬性列出來。此報告至少應(yīng)包含如下的內(nèi)容: 數(shù)據(jù)源(內(nèi)部數(shù)據(jù)庫或外部提供者) 擁有者 負責(zé)維護此數(shù)據(jù)的人/組織 DBA 費用(假如需要購買) 存儲方式(如:Oracle數(shù)據(jù)庫、MSAM文件等) 表、字段、記錄的數(shù)目 字節(jié)數(shù) 物理存儲方式(CD-ROM、磁帶、服務(wù)器等) 安全需求 使用上的限制 隱私上的需求注意一旦應(yīng)用了在安全和隱私上有專門限制的數(shù)據(jù),那么你的數(shù)據(jù)挖掘庫在安全和隱私上也就繼承了同樣的限制。比如許多歐洲的數(shù)據(jù)在隱私上的限制要比美國嚴格的多。b. 數(shù)據(jù)描述。描述每個文件和數(shù)據(jù)庫表的內(nèi)容。數(shù)據(jù)

29、描述報告中應(yīng)包含如下內(nèi)容: 字段/列的數(shù)目 字段是空(缺值)的數(shù)目/百分比 字段的名字對每個字段 數(shù)據(jù)類型 定義 描述 源 計量單位 所有不同值的個數(shù) 值的列表 值的范圍 空值的百分比 收集信息(比如:如何得到的,在哪,什么條件下) 時刻頻度(Timeframe)(每天,每周,依舊每月) 特不時刻數(shù)據(jù)(比如:每個周一或每個周三) 主鍵/外鍵關(guān)系c. 選擇。接下來就要選擇用于數(shù)據(jù)挖掘的數(shù)據(jù)(源數(shù)據(jù)的子集)。這與對數(shù)據(jù)進行采樣和選擇預(yù)測變量是不同的,那個地點只是粗略的把一些冗余或無關(guān)的數(shù)據(jù)除去,或由于資源的限制、費用的限制、數(shù)據(jù)使用的限制、和質(zhì)量問題而必須做出的選擇。d. 數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理。

30、“龍生龍,鳳生鳳”對數(shù)據(jù)挖掘也是特不適用的,要想得到好的模型必須用好的數(shù)據(jù)。數(shù)據(jù)質(zhì)量評估確實是要確定數(shù)據(jù)的哪些性質(zhì)會最終阻礙模型的質(zhì)量。你不僅要保證數(shù)據(jù)值的正確性和一致性,還要保證這些值是按同樣的方法記錄的同一件情況。由各種各樣的數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)域中可能包含了不正確的值。比如,身份證號碼被粗心的數(shù)據(jù)錄入人員錄入了年齡。即使每個單個域中包含的數(shù)據(jù)差不多上正確的,但這些域組合起來時可能就出現(xiàn)了錯誤的記錄,如男性懷孕。有時域中的值為空。當(dāng)從多個不同的源整合數(shù)據(jù)時一定要注意不同源之間數(shù)據(jù)的一致性。缺值是一個特不有害的問題。假如只要有一個數(shù)據(jù)域缺值就把那個記錄刪除掉,那么最后可能得到一個專門小的數(shù)據(jù)庫

31、,同時你得到的那個數(shù)據(jù)庫專門可能差不多丟失了實際數(shù)據(jù)中蘊含的一些信息,因為你差不多改變了原數(shù)據(jù)的組成。缺值這件事本身可能確實是特不有意義的,比如也許只有富有的顧客才經(jīng)常忽略“收入”這一項。你能夠增加一個新的變量來標識這些缺值的記錄,然后用它建立一個模型,然后與按其他方法建立的模型進行比較,看哪個準確度更高一些。另一種方法是為缺失的值計算一個替代值。計算替代值的常用方法包括使用形式值(為名詞變量),中間值(為可排序變量),平均值(為連續(xù)變量)。還有一個不是專門常用的方法是按照數(shù)據(jù)庫中值的分布規(guī)律為缺值的字段添值。比如假如數(shù)據(jù)庫中包含40%男性和60%女性,那么在為那些性不子段缺失的記錄添值時也按

32、那個比例隨機賦值。還有一種方法是為那個缺值的字段用數(shù)據(jù)挖掘技術(shù)建立一個預(yù)測模型,然后按照那個模型的預(yù)測結(jié)果添值,這種方法效果應(yīng)該最好,因此也最花時刻。承認生活并不是十全十美是必要的,數(shù)據(jù)挖掘也是一樣,你也不可能解決所有遇到的問題,只能做得盡量好一點。檢查和修正數(shù)據(jù)質(zhì)量問題是一項特不耗費時刻和金鈔票的工作,對解決不了的問題,通常你只能采取折衷的方法,先用現(xiàn)有的數(shù)據(jù)建立一個模型,把問題放到今后去解決。e. 合并與整合。假如幸運的話,你需要的所有數(shù)據(jù)都在同一個數(shù)據(jù)庫中(比如數(shù)據(jù)倉庫),但大部分情況下這些數(shù)據(jù)是分布在不同的數(shù)據(jù)庫中。數(shù)據(jù)可能分布在公司不同的部門、不同的應(yīng)用中,甚至在公司外(人口數(shù)據(jù))。

33、數(shù)據(jù)合并與整合把來自不同數(shù)據(jù)源的數(shù)據(jù)合并到同一個數(shù)據(jù)挖掘庫中,同時要使那些本來存在沖突和不一致的數(shù)據(jù)一致化。不恰當(dāng)?shù)囊恢禄菙?shù)據(jù)質(zhì)量問題的一個要緊來源。不同的數(shù)據(jù)庫間在數(shù)據(jù)定義和使用上通常都存在巨大的差異。有些不一致問題是容易解決的,如同一客戶的不同住址問題。然而有些則特不棘手。例如同一個客戶有不同的名字甚至更遭的情況多個不同的客戶標識號碼。同一個名字被用在不同的數(shù)據(jù)項上(同名異意),或同一個數(shù)據(jù)項用了不同的名字(同意不同名)。還有單位上的不統(tǒng)一。比如人民幣和港元之間不能不做換算就直接加減。f. 構(gòu)建元數(shù)據(jù)。數(shù)據(jù)收集報告和數(shù)據(jù)描述報告是建立元數(shù)據(jù)的基礎(chǔ)。本質(zhì)上,這是一個描述數(shù)據(jù)庫的數(shù)據(jù)庫。他用

34、于建立實際的數(shù)據(jù)庫和為分析數(shù)據(jù)和建立模型提供輔助信息。g. 加載數(shù)據(jù)挖掘庫。大多數(shù)情況下,用于挖掘的數(shù)據(jù)應(yīng)該放到他自己獨立的數(shù)據(jù)庫中。假如數(shù)據(jù)量大同時復(fù)雜,那么他通常是一個RDMS,反之只是一個簡單的平面文件即可。通過前面所有的搜集、整理之后,現(xiàn)在開始把這些數(shù)據(jù)實際的加載過來了。依靠于所涉及的DBMS和操作系統(tǒng),和數(shù)據(jù)庫設(shè)計的復(fù)雜程度,有時這一步也可能變得專門復(fù)雜,需要靠專家的關(guān)心來完成。h. 維護數(shù)據(jù)挖掘庫。挖掘庫一旦建好,就需要對他進行維護。需要定期備份;監(jiān)視他的性能;不時的增加存儲空間或提高性能。對存放在DBMS內(nèi)的復(fù)雜的挖掘庫來講,維護他需要計算機專業(yè)人員來完成。3. 分析數(shù)據(jù)。請察看

35、“描述型數(shù)據(jù)挖掘”以獲得更詳細的關(guān)于可視化、連結(jié)分析,及其他數(shù)據(jù)分析方法。分析的目的是找到對預(yù)測輸出阻礙最大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。假如數(shù)據(jù)集包含成百上千的字段,那么掃瞄分析這些數(shù)據(jù)將是一件特不耗時和累人的情況,這時你需要選擇一個具有好的界面和功能強大的工具軟件來協(xié)助你完成這些情況。4. 預(yù)備數(shù)據(jù)。這是建立模型之前的最后一步數(shù)據(jù)預(yù)備工作。能夠把此步驟劃分成4個部分:a. 選擇變量b. 選擇記錄c. 創(chuàng)建新變量d. 轉(zhuǎn)換變量a. 選擇變量。理想情況下,你能夠選擇你所有的全部變量,把他們輸入到數(shù)據(jù)挖掘工具中,讓他來幫你選擇哪些是最好的預(yù)測變量。實際上如此做并不是專門好,一方面是由于

36、隨著變量個數(shù)的增加,模型的建立時刻也隨之上升;另一方面盲目的把所有的變量都加到里面去會導(dǎo)致建立錯誤的模型。比如,建立預(yù)測模型的一個常見錯誤確實是把一個依靠于目標變量的變量(由目標變量導(dǎo)出)作為預(yù)測變量,像用生日來“預(yù)測”年齡。在原理上講,一些數(shù)據(jù)挖掘算法自動忽略不相關(guān)的變量、自動計算相關(guān)的(協(xié))變量,在實際應(yīng)用中完全依靠這些工具是不明智的,怎么講最了解你的數(shù)據(jù)的依舊你自己。利用你的領(lǐng)域知識,你會做出大部分正確的選擇。例如,用身份證號或人名做預(yù)測變量要么可不能有任何用處,要么甚至降低了其他重要變量的阻礙力。b. 選擇記錄。與選擇變量類似,你可能也想用你所有的數(shù)據(jù)行來建立模型,然而假如你的數(shù)據(jù)量確

37、實特不巨大的話,要么要花費專門長的時刻來建立那個模型,要么買一臺計算能力特不強大的機器。因此,假如數(shù)據(jù)量特不大,進行抽樣確實是一個專門好的主意。假如做的足夠認真,保證抽樣是按真正的隨機來進行的,采樣對大部分商業(yè)問題來講都可不能丟失信息。你能夠用所有的數(shù)據(jù)建立一個模型;你還能夠用采樣的方法依照不同得采樣方法建立幾個模型,然后評價這幾個模型選擇一個最好的。我們認為后面這種方法得到的方法更準確、更健壯。你可能選擇數(shù)據(jù)中明顯的異常數(shù)據(jù)刪除掉。然而在某些情況下,這些看來異常的數(shù)據(jù)可能包含了你要建立模型的重要信息?;谀銓栴}的理解方式的不同,通常能夠把這些異常忽略掉。比如能夠把異常認為是人為的錄入錯誤。

38、有時也需要向數(shù)據(jù)中添加一些新的數(shù)據(jù)(如,那些沒有做出購買得客戶)。c. 創(chuàng)建新變量。專門多情況下需要從原始數(shù)據(jù)中衍生一些新的變量作為預(yù)測變量。比如,用負債占收入百分比來預(yù)測信用風(fēng)險比直接用負債和收入做預(yù)測變量更準確一些,也更容易理解一些。專門多變量假如組合起來(加、減、比率等)會比這些變量自身阻礙力更大。一些變量假如擴大它的范圍也會成為一個特不行的預(yù)測變量,比如用一段時刻內(nèi)收入變化情況代替一個單一的收入數(shù)據(jù)。d. 轉(zhuǎn)換變量。你所選擇的算法和工具決定了都要對數(shù)據(jù)做哪些轉(zhuǎn)換工作。如神經(jīng)網(wǎng)絡(luò)要求所有的變量都在0-1之間,因此在這些數(shù)據(jù)被提交到算法之前就必須先對不在0,1內(nèi)的變量進行映射。同樣一些決策

39、樹算法不同意數(shù)值型變量作為輸入,在使用他們之前也要把這些數(shù)值映射到“高、中、低”等。因此你的轉(zhuǎn)換方式也在一定程度上阻礙了模型的準確度。5. 建立模型。對建立模型來講要記住的最重要的事是它是一個反復(fù)的過程。你需要認真考察不同的模型以推斷哪個模型對你的商業(yè)問題最有用。你在查找好的模型的過程中學(xué)到的的東西會啟發(fā)你修改你的數(shù)據(jù),甚至改變最初對問題的定義。一旦決定了預(yù)測的類型之后(分類依舊回歸),就需要為那個預(yù)測選擇模型的類型??赡苁且豢脹Q策樹、神經(jīng)網(wǎng)絡(luò)、甚至傳統(tǒng)的數(shù)學(xué)統(tǒng)計。選擇什么樣的模型決定了你需對數(shù)據(jù)做哪些預(yù)處理工作。如神經(jīng)網(wǎng)絡(luò)需要做數(shù)據(jù)轉(zhuǎn)換,有些數(shù)據(jù)挖掘工具可能對輸入數(shù)據(jù)的格式有特定的限制,等。

40、一旦所有的數(shù)據(jù)預(yù)備好之后,就能夠開始訓(xùn)練你的模型了。為了保證得到的模型具有較好的精確度和健壯性,需要一個定義完善的訓(xùn)練驗證協(xié)議。有時也稱此協(xié)議為帶指導(dǎo)的學(xué)習(xí)。他的要緊思想確實是先用一部分數(shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試和驗證那個得到的模型。有時還有第三個數(shù)據(jù)集,稱為驗證集,因為測試集可能受模型的特性的阻礙,這時需要一個獨立的數(shù)據(jù)集來驗證模型的準確性。訓(xùn)練和測試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個部分:一個用于模型訓(xùn)練,另一個用于模型測試。假如不使用不同的訓(xùn)練和測試集,那么模型的準確度就專門難使人信服。用訓(xùn)練集把模型建立出來之后,就能夠先在測試集數(shù)據(jù)上先試驗一把,此模型在測試集上的預(yù)測準確度

41、確實是一個專門好的指導(dǎo)數(shù)字,它講明假現(xiàn)在后與訓(xùn)練集和測試集類似的數(shù)據(jù)用此模型預(yù)測時,正確的百分比會有多大。這并不能保證模型的正確性,他只是講相似的數(shù)據(jù)用此模型會得出相似的結(jié)果。簡單驗證。最差不多的測試方法是被稱為簡單驗證的方法。做法是從原始數(shù)據(jù)中拿出一定百分比的數(shù)據(jù)作為測試數(shù)據(jù),那個百分比大概在5%到33%之間。注意在把數(shù)據(jù)庫分成幾部分時,一定要保證選擇的隨機性,如此才能使分開的各部分數(shù)據(jù)的性質(zhì)是一致的。先用數(shù)據(jù)庫的主體把模型建立起來,然后用此模型來預(yù)測測試集中的數(shù)據(jù)。出現(xiàn)錯誤的預(yù)測與預(yù)測總數(shù)之間的比,稱為錯誤率。正確的預(yù)測與總數(shù)的比,是準確率(準確率=1 - 錯誤率)。對回歸模型來講,能夠用

42、方差來描述準確的程度。在一次模型的建立過程中,即使這種最簡單的驗證就要執(zhí)行幾十次。例如在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,有時每一個訓(xùn)練周期就要求在測試集上運行一次,不斷的訓(xùn)練測試,直到在測試集上的準確率不再提高為止。交叉驗證。假如數(shù)據(jù)不是專門多(比如只有幾千條),那么你可能承受不了再把一部分數(shù)據(jù)拿到一邊不用,單用來做簡單驗證。交叉驗證提供了一種讓你使用全部數(shù)據(jù)的方法。首先把原始數(shù)據(jù)隨機平分成兩份,然后用一部分做訓(xùn)練集另一部分做測試集計算錯誤率,做完之后把兩部分數(shù)據(jù)交換再計算一次,得到另一個錯誤率,最后再用所有的數(shù)據(jù)建立一個模型,把上面得到的兩個錯誤率進行平均作為最后用所有數(shù)據(jù)建立的模型的錯誤率。更通用的算法是

43、n-維交叉驗證。先把數(shù)據(jù)隨機分成不相交的n份。比如,假如把數(shù)據(jù)分成10份,先把第一份拿出來放在一邊用作模型測試,把其他9份合在一起來建立模型,然后把那個用90%的數(shù)據(jù)建立起來的模型用上面放在一邊的第一份數(shù)據(jù)做測試。那個過程對每一份數(shù)據(jù)都重復(fù)進行一次,得到10個不同的錯誤率。最后把所有數(shù)據(jù)放在一起建立一個模型,模型的錯誤率為上面10個錯誤率的平均。自舉法是另一種評估模型錯誤率的技術(shù)。在數(shù)據(jù)量專門小時尤其適用。與交叉驗證一樣模型是用所有的數(shù)據(jù)建立。依據(jù)所得到的模型和你對模型的預(yù)期結(jié)果,你可能修改參數(shù)用同樣的算法再建立新的模型,甚至采納其他的算法建立模型。不的方法講不定能提高預(yù)測的準確度。因此,沒有

44、一種算法或工具適應(yīng)所有的數(shù)據(jù),通常也專門難在開始決定那種算法對你所面臨的問題來講是最好的,因此專門多情況下,需要建立用不同的方法(參數(shù)或算法)幾個模型,從中選擇最好的。6. 評價和解釋。a. 模型驗證。模型建立好之后,必須評價他的結(jié)果、解釋他的價值。記住從測試集中得到的準確率只對用于建立模型的數(shù)據(jù)有意義。在實際應(yīng)用中,隨著應(yīng)用數(shù)據(jù)的不同,模型的準確率確信會變化。更重要的是,準確度自身并不一定是選擇最好模型的正確評價方法。你需要進一步了解錯誤的類型和由此帶來的相關(guān)費用的多少。無序矩陣。對分類問題來講,無序矩陣是理解結(jié)果的特不行的工具。如圖9所示,無序矩陣把預(yù)測的結(jié)果與實際的情況進行對比。它不僅講

45、明了模型預(yù)測的準確情況,也把模型究竟在哪里出了問題也展示了出來。下表是一個簡單的無序矩陣,其中的列代表數(shù)據(jù)的實際分類情況,行是預(yù)測的結(jié)果。在這張表值中,能夠看到此模型在總共46個B類數(shù)據(jù)中成功預(yù)測了38個,8個出了問題:2個預(yù)測成了A,6個成了C。顯然這比簡單的講模型總體準確度是82%要更詳細的多(123個成功預(yù)測除以總共150)。預(yù)測實際類不A類不B類不C類不A4523類不B10382類不C4640圖9:無序矩陣在實際應(yīng)用中,假如每種不同的預(yù)測錯誤所需付出的代價(金鈔票)也不同的話,那么代價最小的模型(而不一定是錯誤率最小的模型)確實是我們所要選擇的。例如,上面的無序矩陣中,假如每個準確的預(yù)

46、測會帶來¥10的收益,錯誤的預(yù)測A要付出¥5的代價,B是¥10,C是¥20,那么整個模型的純價值是:(123*¥10)-(5*¥5)-(12*¥10)-(10*¥20)=¥885然而考察下面的無序矩陣(圖10),盡管準確度降低到79%(118/150),但純價值卻升高了:(118*¥10)-(22*¥5)-(7*¥10)-(3*¥20)=¥940預(yù)測實際類不A類不B類不C類不A401210類不B6381類不C2140圖10:另一個無序矩陣收益表(圖11)也是一種描述模型價值的方法。它顯示了通過應(yīng)用模型響應(yīng)(如直接郵件推銷)的變化情況。變化的比率稱為lift。例如,假如用隨機抽取的方法選擇10%

47、的客戶響應(yīng)率是10%,而通過模型選取10%的用戶響應(yīng)率是30%,則lift值為3。模型解釋的另一個重要組成部分是確定模型的價值。一個模型可能看起來專門有意義,但要實施它的話專門有可能花的鈔票比賺的鈔票多。圖12是一個描述模型投資回報率(ROI)的圖表(那個地點定義 ROI為利潤與開銷的比值)。注意圖中當(dāng)選取比例超過80%時,ROI變成了負數(shù),ROI最高是在橫坐標為2時。因此,也能夠直接看利潤的變化情況(利潤為收入與花費的差值),如圖13所示:注意到我們上面的例子中,最大lift在第一個1/10處(10%),最大ROI在第2個1/10(20%),而最大利潤在第3、4個1/10處。理想情況下,應(yīng)該

48、按照利潤表行事,但專門多情況下利潤表并不能專門容易的計算出來。b. 外部驗證。如前面指出的,不管我們用模擬的方法計算出來的模型的準確率有多高,都不能保證此模型在面對現(xiàn)實世界中真實的數(shù)據(jù)時能取得好的效果。經(jīng)驗證有效的模型并不一定是正確的模型。造成這一點的直接緣故確實是模型建立中隱含的各種假定。例如,在建立用戶購買模式的模型時,可能沒有考慮通貨膨脹的阻礙,但實施模型時通貨膨脹率突然由3%增加為17%,這顯然會對人們的購買意向產(chǎn)生重大阻礙,因此再用原來的模型來預(yù)測客戶購買情況必定會出現(xiàn)重大失誤。因此直接在現(xiàn)實世界中測試模型專門重要。先在小范圍內(nèi)應(yīng)用,取得測試數(shù)據(jù),覺得中意之后再向大范圍推廣。7. 實

49、施。模型建立并經(jīng)驗證之后,能夠有兩種要緊的使用方法。第一種是提供給分析人員做參考,由他通過察看和分析那個模型之后提出行動方案建議。比如能夠把模型檢測到的聚攏、模型中蘊含的規(guī)則、或表明模型效果的ROI圖表拿給分析人員看。另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。模型能夠用來標示一個事例的類不,給一項申請打分等。還能夠用模型在數(shù)據(jù)庫中選擇符合特定要求的記錄,以用OLAP工具做進一步的分析。通常情況下,模型是某個商業(yè)過程的組成部分,如風(fēng)險分析,信用授權(quán),或欺詐檢測。在這些情況下,模型一般都合并到應(yīng)用程序的內(nèi)部。例如,在抵押貸款應(yīng)用程序內(nèi)部可能集成了一個預(yù)測模型,來向貸款官員提供一項貸款申請風(fēng)險大小的建議

50、?;蛟诙ㄙ徬到y(tǒng)中,當(dāng)預(yù)測到庫存有可能降低到一個最低限度時自動發(fā)出購買訂單。數(shù)據(jù)挖掘模型通常一次只能處理一個事件或一個事務(wù)。每個事務(wù)的處理時刻和事務(wù)到達的速度,決定了模型運行所需的計算能力,和是否要用并行技術(shù)來加快速度。比如,貸款申請程序可能PC機上就運行的專門好,而用于信用卡欺詐的模型則需要在服務(wù)器上用并行算法才能應(yīng)付每天的大量事務(wù)。當(dāng)提交一個復(fù)雜的應(yīng)用時,數(shù)據(jù)挖掘可能只是整個產(chǎn)品的一小部分,盡管可能是最關(guān)鍵的一部分。例如,常常把數(shù)據(jù)挖掘得到的知識與領(lǐng)域?qū)<业闹R結(jié)合起來,然后應(yīng)用到數(shù)據(jù)庫中的數(shù)據(jù)。在欺詐檢測系統(tǒng)中可能既包含了數(shù)據(jù)挖掘發(fā)覺的規(guī)律,也有人們在實踐中早已總結(jié)出的規(guī)律。模型監(jiān)控。在應(yīng)

51、用了模型之后,因此還要不斷監(jiān)控他的效果。即使你在開始使用那個模型之后覺得他特不成功,也不能放棄監(jiān)控,因為事物在不斷進展變化,專門可能過一段時刻之后,模型就不再起作用。銷售人員都明白,人們的購買方式隨著社會的進展而變化。因此隨著使用時刻的增加,要不斷的對模型做重新測試,有時甚者需要重新建立模型。 HYPERLINK /zs17.htm 數(shù)據(jù)挖掘入門 一 HYPERLINK /zs18.htm 數(shù)據(jù)挖掘入門 二 數(shù)據(jù)挖掘過程在實施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達到什么樣的目標是必要的,有了好的打算才能保證數(shù)據(jù)挖掘有條不紊的實施并取得成功。專門多軟件供應(yīng)商和數(shù)據(jù)挖掘顧問公司投

52、提供了一些數(shù)據(jù)挖掘過程模型,來指導(dǎo)他們的用戶一步步的進行數(shù)據(jù)挖掘工作。比如SPSS的5A-評估(Assess),訪問(Access),分析(Analyze),行動(Act),自動化(Automate),和SAS的SEMMA-采樣(Sample),探究(Explore),修正(Modify),建模(Model),評估(Assess)。最近,一些軟件供應(yīng)商和用戶組織成立了行業(yè)協(xié)會,包括NCR Systems Engineering Copenhagen(丹麥)Daimler-Benz AG(德國)SPSS/Internal Solutions Ltd.(英國),和OHRA Verzekeringe

53、n en Bank Grep B.V(荷蘭)。那個組織的目的確實是建立跨行業(yè)數(shù)據(jù)挖掘過程標準(CRISP-DM),在1999年9月的時候CRISP-DM仍在建立之中。我們下面詳細討論Two Crows公司的數(shù)據(jù)挖掘過程模型,他與正在建立的CRISP-DM有許多相似之處。數(shù)據(jù)挖掘過程模型盡管我們把各個步驟按順序排列,但要注意數(shù)據(jù)挖掘過程并不是線性的要取得好的結(jié)果就要不斷反復(fù)重復(fù)這些步驟。比如在“分析數(shù)據(jù)”時你可能覺得在“建立數(shù)據(jù)挖掘數(shù)據(jù)庫”時作的不夠好,要往里面添加一些新的數(shù)據(jù)。這些差不多數(shù)據(jù)挖掘步驟包括:1. 定義商業(yè)問題2. 建立數(shù)據(jù)挖掘模型3. 分析數(shù)據(jù)4. 預(yù)備數(shù)據(jù)5. 建立模型6. 評

54、價模型7. 實施1. 定義商業(yè)問題。在開始知識發(fā)覺之前最先的同時也是最重要的要求確實是了解的你的數(shù)據(jù)和業(yè)務(wù)問題。假如事先沒有這種了解,沒有任何算法,不管他有多么復(fù)雜玄妙,能夠為你提供有價值的結(jié)果,即使有也難以使人信賴他。缺少了這些背景知識,你就沒方法明確定義要解決的問題,不能為挖掘預(yù)備數(shù)據(jù),也專門難正確的解釋得到的結(jié)果。要想充分發(fā)揮數(shù)據(jù)挖掘的價值,必須要對你的目標有一個清晰明確的定義,即決定到底想干什么。比如你講你想提高直接郵件推銷的用戶回應(yīng)時,你想做的可能是“提高用戶響應(yīng)率”,也可能是“提高一次用戶回應(yīng)的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,你必須做出決定。有效的問題定義還應(yīng)

55、該包含一個對你的知識發(fā)覺項目得到結(jié)果進行衡量的標準。因此還應(yīng)該有整個項目預(yù)算和理性的解釋。2. 建立數(shù)據(jù)挖掘庫。連同下面的兩個步驟,這三步構(gòu)成了數(shù)據(jù)預(yù)處理的核心。這三步和在一起比其他所有的步驟加在一起所花得時刻和精力還多。一旦你從數(shù)據(jù)挖掘的結(jié)果中學(xué)到一些什么之后,你專門可能要修改數(shù)據(jù)以得到更好得結(jié)果,因此就需要把數(shù)據(jù)預(yù)備和數(shù)據(jù)挖掘不斷的反復(fù)進行。數(shù)據(jù)預(yù)備工作大概要花去整個數(shù)據(jù)挖掘項目的50%-90%的時刻和精力。應(yīng)該把要挖掘的數(shù)據(jù)都收集到一個數(shù)據(jù)庫中。注意這并不是講一定要使用一個數(shù)據(jù)庫治理系統(tǒng)。依照要挖掘的數(shù)據(jù)量的大小、數(shù)據(jù)的復(fù)雜程度、使用方式的不同,有時一個簡單的平面文件或電子表格就足夠了。

56、一般來講,直接在公司的數(shù)據(jù)倉庫上進行數(shù)據(jù)挖掘是不合適的。你最好建立一個獨立的數(shù)據(jù)集。數(shù)據(jù)挖掘會使你成為數(shù)據(jù)倉庫特不活躍的用戶,這可能會帶來一些資源申請上的問題。你需要經(jīng)常把許多表連接在一起,訪問數(shù)據(jù)倉庫的細節(jié)數(shù)據(jù)。一個簡單的試驗在數(shù)據(jù)倉庫內(nèi)都要專門多步才能完成。大部分情況下你確信需要修改要挖掘的數(shù)據(jù)。而且還會遇到把企業(yè)外部的數(shù)據(jù)拿到數(shù)據(jù)倉庫內(nèi)和在原有的表中增加新的字段的情況。其他的數(shù)據(jù)挖掘用戶可能也要對數(shù)據(jù)倉庫進行與您相似或完全不同的修改。而對數(shù)據(jù)倉庫治理員來講,這可能是他最不情愿遇到的情況。需要建立獨立的數(shù)據(jù)挖掘庫的另一個理由是,數(shù)據(jù)倉庫可能不支持你要對數(shù)據(jù)進行各種復(fù)雜分析所需的數(shù)據(jù)結(jié)構(gòu)。這

57、包括對數(shù)據(jù)進行統(tǒng)計查詢,多維分析,和各種復(fù)雜的圖表和可視化。最后,你可能希望把這些要挖掘的數(shù)據(jù)存貯在與公司的數(shù)據(jù)倉庫在物理設(shè)計上不同的DBMS上。人們越來越傾向于使用DBMS本身專門好的支持數(shù)據(jù)挖掘的數(shù)據(jù)庫程序,如此能使數(shù)據(jù)挖掘工作進行的更容易一些。因此假如你的數(shù)據(jù)倉庫同意你建立一個在邏輯上獨立的數(shù)據(jù)庫同時在計算資源上也足夠的話,那么在他上面進行數(shù)據(jù)挖掘也是能夠的。能夠把建立數(shù)據(jù)挖掘庫分成下面幾個部分:a. 數(shù)據(jù)收集b. 數(shù)據(jù)描述c. 選擇d. 數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理e. 合并與整合f. 構(gòu)建元數(shù)據(jù)g. 加載數(shù)據(jù)挖掘庫h. 維護數(shù)據(jù)挖掘庫注意這些步驟并不需要一定要按步驟執(zhí)行,而應(yīng)該按需要進行。

58、比如你可能在收集數(shù)據(jù)時就開始構(gòu)建元數(shù)據(jù),并隨著工作的進行不斷的對其進行修改。在數(shù)據(jù)整合和數(shù)據(jù)質(zhì)量評估過程中了解到得東西也有可能是你修改最初的數(shù)據(jù)選擇。a. 數(shù)據(jù)收集。確定要挖掘的數(shù)據(jù)源??赡芤恍┩獠康臄?shù)據(jù)也是必須的,需要在公共數(shù)據(jù)庫中獵?。ㄈ丝诮y(tǒng)計或天氣數(shù)據(jù))或向數(shù)據(jù)擁有者購買(比如信用卡使用數(shù)據(jù))。用以一個數(shù)據(jù)搜集報告把所需的各種不同的數(shù)據(jù)源的屬性列出來。此報告至少應(yīng)包含如下的內(nèi)容: 數(shù)據(jù)源(內(nèi)部數(shù)據(jù)庫或外部提供者) 擁有者 負責(zé)維護此數(shù)據(jù)的人/組織 DBA 費用(假如需要購買) 存儲方式(如:Oracle數(shù)據(jù)庫、MSAM文件等) 表、字段、記錄的數(shù)目 字節(jié)數(shù) 物理存儲方式(CD-ROM、磁

59、帶、服務(wù)器等) 安全需求 使用上的限制 隱私上的需求注意一旦應(yīng)用了在安全和隱私上有專門限制的數(shù)據(jù),那么你的數(shù)據(jù)挖掘庫在安全和隱私上也就繼承了同樣的限制。比如許多歐洲的數(shù)據(jù)在隱私上的限制要比美國嚴格的多。b. 數(shù)據(jù)描述。描述每個文件和數(shù)據(jù)庫表的內(nèi)容。數(shù)據(jù)描述報告中應(yīng)包含如下內(nèi)容: 字段/列的數(shù)目 字段是空(缺值)的數(shù)目/百分比 字段的名字對每個字段 數(shù)據(jù)類型 定義 描述 源 計量單位 所有不同值的個數(shù) 值的列表 值的范圍 空值的百分比 收集信息(比如:如何得到的,在哪,什么條件下) 時刻頻度(Timeframe)(每天,每周,依舊每月) 特不時刻數(shù)據(jù)(比如:每個周一或每個周三) 主鍵/外鍵關(guān)系c

60、. 選擇。接下來就要選擇用于數(shù)據(jù)挖掘的數(shù)據(jù)(源數(shù)據(jù)的子集)。這與對數(shù)據(jù)進行采樣和選擇預(yù)測變量是不同的,那個地點只是粗略的把一些冗余或無關(guān)的數(shù)據(jù)除去,或由于資源的限制、費用的限制、數(shù)據(jù)使用的限制、和質(zhì)量問題而必須做出的選擇。d. 數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理?!褒埳垼P生鳳”對數(shù)據(jù)挖掘也是特不適用的,要想得到好的模型必須用好的數(shù)據(jù)。數(shù)據(jù)質(zhì)量評估確實是要確定數(shù)據(jù)的哪些性質(zhì)會最終阻礙模型的質(zhì)量。你不僅要保證數(shù)據(jù)值的正確性和一致性,還要保證這些值是按同樣的方法記錄的同一件情況。由各種各樣的數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)域中可能包含了不正確的值。比如,身份證號碼被粗心的數(shù)據(jù)錄入人員錄入了年齡。即使每個單個域中包含的數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論