管理信息化數(shù)據(jù)倉基于數(shù)據(jù)倉庫技術(shù)的決策支持系統(tǒng)的設(shè)計與實現(xiàn)_第1頁
管理信息化數(shù)據(jù)倉基于數(shù)據(jù)倉庫技術(shù)的決策支持系統(tǒng)的設(shè)計與實現(xiàn)_第2頁
管理信息化數(shù)據(jù)倉基于數(shù)據(jù)倉庫技術(shù)的決策支持系統(tǒng)的設(shè)計與實現(xiàn)_第3頁
管理信息化數(shù)據(jù)倉基于數(shù)據(jù)倉庫技術(shù)的決策支持系統(tǒng)的設(shè)計與實現(xiàn)_第4頁
管理信息化數(shù)據(jù)倉基于數(shù)據(jù)倉庫技術(shù)的決策支持系統(tǒng)的設(shè)計與實現(xiàn)_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

管理信息化數(shù)據(jù)倉基于數(shù)據(jù)倉庫技術(shù)的決策支持系統(tǒng)的設(shè)計與實現(xiàn)Sybase的解決方案及其組成具有以下特點:快速實現(xiàn)、數(shù)據(jù)集市與中心倉庫的無縫集成、極高的查詢速度、高效的數(shù)據(jù)壓縮。Oracle提出一個面向決策支持應(yīng)用的數(shù)據(jù)倉庫解決方案,開發(fā)出了OracleWarehouseBuilderOracle8i數(shù)據(jù)庫、OracleExpressOracle8i直接對分區(qū)鍵值作更新,有利于大量重復(fù)操作;還在SQL引擎內(nèi)建立強(qiáng)大的指令集,如擴(kuò)展了CUBE和ROLLUPSQL操作,支持對表進(jìn)行抽樣查詢。Informix為促使IT專業(yè)人員迅速建立和運用數(shù)據(jù)倉庫和數(shù)據(jù)集市,提供了尖端決策方案套裝,這一合成的產(chǎn)品和服務(wù)是專為概括高級關(guān)鍵商務(wù)分析的決策支持環(huán)境設(shè)計的。為關(guān)鍵商務(wù)數(shù)據(jù)倉庫提供世界一流的數(shù)據(jù)倉庫產(chǎn)品和服務(wù),及工業(yè)領(lǐng)先的工具,包括:Informix的專家級數(shù)據(jù)庫設(shè)計,具有超級的可操作性,伸縮性和廣泛性。為建立和展開分析應(yīng)用的合成工具,包括數(shù)據(jù)抽取,轉(zhuǎn)換,清理和裝載。提供了基于ROLAP的多維數(shù)據(jù)分析、導(dǎo)向、匯報以及一整套編程工具和APIs。值得一提的是,Informix的OLAP工具M(jìn)ETACUBE在漢化方面做了大量的工作,基本能夠滿足國內(nèi)用戶的需求。其他公司的解決方案大體類似,只是具體開發(fā)工具在功能上有所不同。這些國外公司的最大特點是各種開發(fā)工具齊全,從數(shù)據(jù)倉庫模型設(shè)計、數(shù)據(jù)抽取工具、數(shù)據(jù)庫管理系統(tǒng)到OLAP分析工具。用戶只需要面對一個廠商就可以獲得全部的支持和服務(wù)。而國內(nèi)公司則沒有這樣的技術(shù)優(yōu)勢。在國內(nèi),數(shù)據(jù)倉庫剛剛起步,從事這方面研究的學(xué)校和公司不多,主要是知識發(fā)現(xiàn)(數(shù)據(jù)挖掘)領(lǐng)域的研究,并且是利用第三方開發(fā)工具系統(tǒng)集成,比較知名的有:中青旅尚洋電子技術(shù)有限公司、亞信德康通信技術(shù)有限公司、億陽信通有限公司、巨陽科技開發(fā)有限公司等。根據(jù)數(shù)據(jù)倉庫技術(shù)國際著名刊物DMReview的評論,有國外一些電信公司采用決策支持通用平臺,如新加坡電信,英國電信等。目前已經(jīng)在我國設(shè)立辦事處或代理機(jī)構(gòu)的廠商的產(chǎn)品有:Brio,SAS,Clementine,BusinessObject,5SPSS,Oracle,Informix,Sybase,Pilot等,其優(yōu)點是平臺系統(tǒng)而完整,不足之處在于存在本地化問題等,往往需要二次開發(fā),無法直接適應(yīng)中國電信市場的需要。1.3主要工作及成果本文在深入研究數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,設(shè)計并實現(xiàn)了一個DSS系統(tǒng)。主要完成了以下幾個方面的工作:建造了一個數(shù)據(jù)倉庫管理系統(tǒng),并運用聚類、分類算法和C5算法進(jìn)行用戶信用度分析和客戶行為特征分析。提出并實現(xiàn)了一個改進(jìn)的聚類算法。傳統(tǒng)系統(tǒng)聚類算法僅限于樣本聚類,在聚類指標(biāo)過多并且指標(biāo)之間存在依賴關(guān)系的情況下正確度不高。本文提出并實現(xiàn)的多重系統(tǒng)聚類算法,將樣本聚類與變量聚類結(jié)合起來,在不同的指標(biāo)組上分別聚類,然后進(jìn)行二次(或多次)聚類,在很大程度上提高了算法的正確度。6第二章數(shù)據(jù)倉庫技術(shù)2.1基本概念隨著IT業(yè)的發(fā)展,業(yè)界數(shù)據(jù)規(guī)模的不斷擴(kuò)大。為了以合理的費用,向任何地點需要數(shù)據(jù)的人提供高質(zhì)量的數(shù)據(jù),1992年WilliamH.Inmon提出了取得廣泛認(rèn)可的數(shù)據(jù)倉庫概念:集成的、面向主題的、隨時間變化的不可修改的數(shù)據(jù)集合。從上面的定義,我們可以知道,數(shù)據(jù)倉庫首先是一個數(shù)據(jù)的集合,在這一點上,它與傳統(tǒng)意義上的數(shù)據(jù)庫是一致的。實際在物理上,數(shù)據(jù)倉庫也主要是以關(guān)系表的形式實現(xiàn)的。數(shù)據(jù)倉庫有四大主要特點:面向主題的。是相對于傳統(tǒng)數(shù)據(jù)庫的面向應(yīng)用而言的。所謂面向應(yīng)用,指的是系統(tǒng)實現(xiàn)過程中主要圍繞著一些應(yīng)用或功能。而面向主題則考慮一個個的問題域,對問題域涉及到的數(shù)據(jù)和分析數(shù)據(jù)所采用的功能給予同樣的重視。集成的。數(shù)據(jù)倉庫中的數(shù)據(jù)來自各個不同的數(shù)據(jù)源(操作數(shù)據(jù)庫),由于歷史的原因,各操作數(shù)據(jù)庫的組織結(jié)構(gòu)往往是不同的,在這些異構(gòu)數(shù)據(jù)載入到數(shù)據(jù)倉庫之前,必須經(jīng)歷一個集成過程,或稱為抽取過程。隨時間變化的。數(shù)據(jù)倉庫以維的形式對數(shù)據(jù)進(jìn)行組織,維是數(shù)據(jù)倉庫技術(shù)中很重要的一個概念。通??梢赃@樣理解一個維:維是人們看待事物的一種角度。維具有層次性。不可修改的。與面向應(yīng)用的事務(wù)數(shù)據(jù)庫對數(shù)據(jù)作頻繁的插入、更新操作不同的是,對于數(shù)據(jù)倉庫中數(shù)據(jù)的操作僅限于數(shù)據(jù)的初始導(dǎo)入和記錄查詢。在數(shù)據(jù)載入數(shù)據(jù)倉庫之后,一般不允許隨意修改。2.2數(shù)據(jù)倉庫簡介數(shù)據(jù)倉庫是一種結(jié)構(gòu)化的數(shù)據(jù)環(huán)境,為決策支持系統(tǒng)提供數(shù)據(jù)源。它可以幫助企業(yè)管理者準(zhǔn)確了解企業(yè)的狀況,從而進(jìn)行預(yù)測,制定計劃并作出明智的決策。數(shù)據(jù)倉庫作為整個企業(yè)的業(yè)務(wù)數(shù)據(jù)集成庫,從眾多數(shù)據(jù)源中集成數(shù)據(jù),它包含龐大的企業(yè)級數(shù)據(jù),其實質(zhì)是由多種技術(shù)和服務(wù)組成的完整的解決方案。數(shù)據(jù)倉庫處理的數(shù)據(jù)與一般的信息系統(tǒng)的數(shù)據(jù)不同,它來自不同的分散數(shù)據(jù)源,包括操作數(shù)據(jù)、歷史數(shù)據(jù)、外部數(shù)據(jù)等,對這些數(shù)據(jù)進(jìn)行提煉和綜合,集成到一個單一的關(guān)系數(shù)據(jù)倉庫中;對這個集成的數(shù)據(jù)倉庫進(jìn)行管理,將其規(guī)范為面7向主題的格式,以便于最終用戶進(jìn)行數(shù)據(jù)訪問和分析。數(shù)據(jù)倉庫由可操作的外部數(shù)據(jù)源、一個/多個數(shù)據(jù)倉庫和一個/多個數(shù)據(jù)分析工具組成。構(gòu)造數(shù)據(jù)倉庫,首先要從數(shù)據(jù)源(如聯(lián)機(jī)信息系統(tǒng)、電子郵件消息等)中抽取、集成、轉(zhuǎn)換、聚合和復(fù)制數(shù)據(jù),并存儲到數(shù)據(jù)倉庫中;然后,這其中的一部分?jǐn)?shù)據(jù)再被聚合、復(fù)制到數(shù)據(jù)集市;最后,用戶用分析工具創(chuàng)建電子報表,進(jìn)行查詢操作,從而實現(xiàn)決策分析。2.3數(shù)據(jù)倉庫的關(guān)鍵技術(shù)在技術(shù)上可以根據(jù)數(shù)據(jù)的工作過程分為:數(shù)據(jù)的抽取、存儲和管理以及數(shù)據(jù)的表現(xiàn)三個方面。在此,我們將分別討論每一個環(huán)節(jié)。2.3.1.數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,它需要通過抽取程序?qū)?shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個方面。數(shù)據(jù)倉庫的數(shù)據(jù)不要求實時響應(yīng),因此數(shù)據(jù)抽取可以定時進(jìn)行,但多個抽取操作執(zhí)行的時間、相互的順序、成敗對數(shù)據(jù)倉庫中信息的有效性則至關(guān)重要。目前市場上提供很多數(shù)據(jù)抽取工具(例如Informix的ETLExtractTransformLoader和Sybase的PowerStage)。這些工具通過用戶選定源數(shù)據(jù)和目標(biāo)數(shù)據(jù)的對應(yīng)關(guān)系,會自動生成數(shù)據(jù)抽取的代碼。數(shù)據(jù)抽取過程涉及數(shù)據(jù)的轉(zhuǎn)換,但抽取工具支持的數(shù)據(jù)種類有限;這種情況使得抽取工具往往不能滿足要求。因此,實際的數(shù)據(jù)倉庫實施過程中往往不一定使用抽取工具。整個抽取過程能否因工具的使用而納入有效的管理、調(diào)度和維護(hù)則更為重要。經(jīng)過抽取后的數(shù)據(jù)記錄應(yīng)為格式統(tǒng)一、業(yè)務(wù)信息完整的數(shù)據(jù)記錄。2.3.2.存儲和管理數(shù)據(jù)倉庫的關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,同時也決定了它對外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。數(shù)據(jù)倉庫遇到的第一個問題是對大量數(shù)據(jù)的存儲和管理。這里所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時間的推移而累積。從現(xiàn)有技術(shù)和產(chǎn)品來看,只有關(guān)系數(shù)據(jù)倉庫系統(tǒng)能夠擔(dān)當(dāng)此任。關(guān)系數(shù)據(jù)倉庫經(jīng)過近30年的發(fā)展,在數(shù)8據(jù)存儲和管理方面已經(jīng)非常成熟。目前不少關(guān)系數(shù)據(jù)倉庫系統(tǒng)已支持?jǐn)?shù)據(jù)分割技術(shù),能夠?qū)⒁粋€大的數(shù)據(jù)倉庫表分散在多個物理存儲設(shè)備中,進(jìn)一步增強(qiáng)了系統(tǒng)管理大數(shù)據(jù)量的擴(kuò)展能力。采用關(guān)系數(shù)據(jù)倉庫管理數(shù)百個GB甚至到TB的數(shù)據(jù)已是一件平常的事情。數(shù)據(jù)倉庫要解決的第二個問題是并行處理。在傳統(tǒng)聯(lián)機(jī)事務(wù)處理應(yīng)用中,用戶訪問系統(tǒng)的特點是短小而密集;對于一個多處理機(jī)系統(tǒng)來說,能夠?qū)⒂脩舻恼埱筮M(jìn)行均衡分擔(dān)是關(guān)鍵,這便是并發(fā)操作。而在數(shù)據(jù)倉庫系統(tǒng)中,用戶訪問系統(tǒng)的特點是龐大而稀疏,每一個查詢和統(tǒng)計都很復(fù)雜,但訪問的頻率并不是很高。此時系統(tǒng)需要有能力將所有的處理機(jī)調(diào)動起來為這一個復(fù)雜的查詢請求服務(wù),將該請求并行處理。因此,并行處理技術(shù)在數(shù)據(jù)倉庫中比以往更加重要。數(shù)據(jù)倉庫的第三個問題是針對決策支持查詢的優(yōu)化。這個問題主要針對關(guān)系數(shù)據(jù)倉庫而言。在技術(shù)上,針對決策支持的優(yōu)化涉及數(shù)據(jù)倉庫系統(tǒng)的索引機(jī)制、查詢優(yōu)化器、連接策略、數(shù)據(jù)排序和采樣等諸多部分。普通關(guān)系數(shù)據(jù)倉庫采用B樹類的索引,對于性別、年齡、地區(qū)等具有大量重復(fù)值的字段幾乎沒有效果。而擴(kuò)充的關(guān)系數(shù)據(jù)倉庫則引入了位圖索引的機(jī)制,以二進(jìn)制位表示字段的狀態(tài),將查詢過程變?yōu)楹Y選過程,單個計算機(jī)的基本操作便可篩選多條記錄。由于數(shù)據(jù)倉庫中各數(shù)據(jù)表的數(shù)據(jù)量往往極不均勻,普通查詢優(yōu)化器所得出的最佳查詢路徑可能不是最優(yōu)的。因此,面向決策支持的關(guān)系數(shù)據(jù)倉庫在查詢優(yōu)化器上也做了改進(jìn),同時根據(jù)索引的使用特性增加了多重索引掃描的能力。以關(guān)系數(shù)據(jù)倉庫建立的數(shù)據(jù)倉庫在應(yīng)用時會遇到大量的表間連接操作,而連接操作對于關(guān)系數(shù)據(jù)倉庫來說是一件耗時的事兒。擴(kuò)充的關(guān)系庫中對連接操作可以做預(yù)先的定義,我們稱之為連接索引,使得數(shù)據(jù)倉庫在執(zhí)行查詢時可直接獲取數(shù)據(jù)而不必實施具體的連接操作。數(shù)據(jù)倉庫的查詢常常只需要數(shù)據(jù)倉庫中的部分記錄,決策支持的關(guān)系數(shù)據(jù)倉庫在此做了改進(jìn),提供了這一功能。此外,在大容量數(shù)據(jù)環(huán)境中需要有足夠短的系統(tǒng)相應(yīng)時間。因此,一些數(shù)據(jù)倉庫系統(tǒng)增加了采樣數(shù)據(jù)的查詢能力,在精確度允許的范圍內(nèi),大幅度提高系統(tǒng)查詢效率。數(shù)據(jù)倉庫的第四個問題是支持多維分析的查詢模式,這也是關(guān)系數(shù)據(jù)倉庫在數(shù)據(jù)倉庫領(lǐng)域遇到的最嚴(yán)峻的挑戰(zhàn)之一。用戶在使用數(shù)據(jù)倉庫時的訪問方式與傳統(tǒng)關(guān)系數(shù)據(jù)倉庫有很大的不同。對于數(shù)據(jù)倉庫的訪問往往不是簡單的表和記錄的查詢,而是基于用戶業(yè)務(wù)的分析模式,即聯(lián)機(jī)分析。它的特點是將數(shù)據(jù)想像成多維的立方體,用戶的查詢便相當(dāng)于在其中的部分維(棱)上施加條件,對立方體進(jìn)行切片、分割,得到的結(jié)果則是數(shù)值的矩陣或向量,并將其制成圖表或輸入數(shù)理統(tǒng)計的算法。92.3.3.數(shù)據(jù)的表現(xiàn)它們主要集中在多維分析、數(shù)理統(tǒng)計和數(shù)據(jù)挖掘方面。多維分析是數(shù)據(jù)倉庫的重要表現(xiàn)形式,由于MOLAP(多維OLAP)系統(tǒng)是專用的,因此,關(guān)于多維分析領(lǐng)域的工具和產(chǎn)品大多是ROLAP(關(guān)系OLAP)工具。在實際工作中,客戶需要通過對數(shù)據(jù)的統(tǒng)計來驗證他們對某些事物的假設(shè),以進(jìn)行決策。數(shù)據(jù)挖掘強(qiáng)調(diào)的不僅僅是驗證人們對數(shù)據(jù)特性的假設(shè),而且它更要主動地尋找并發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)之中的規(guī)律。因此,在當(dāng)前的數(shù)據(jù)倉庫應(yīng)用中,有效地利用數(shù)理統(tǒng)計就已經(jīng)能夠獲得可觀的效益。2.4數(shù)據(jù)倉庫和數(shù)據(jù)庫的區(qū)別數(shù)據(jù)倉庫和數(shù)據(jù)庫有多方面的區(qū)別,下表從幾個方面加以比較:數(shù)據(jù)庫數(shù)據(jù)倉庫聯(lián)線處理方式OLTPOLAP數(shù)據(jù)源單一數(shù)據(jù)源多數(shù)據(jù)源集成數(shù)據(jù)屬性動態(tài)除非刷新,否則為靜態(tài)數(shù)據(jù)內(nèi)容當(dāng)前值概要值,計算值,歸檔值數(shù)據(jù)結(jié)構(gòu)復(fù)雜,適于OLTP簡單,適于OLAP數(shù)據(jù)存取頻率高低數(shù)據(jù)修改方式直接修改不直接修改數(shù)據(jù)存取類型重復(fù)的讀和寫不重復(fù),只讀系統(tǒng)響應(yīng)時間秒級分級2.5數(shù)據(jù)倉庫多維模型設(shè)計2.5.1多維模型的設(shè)計原則:數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫所不同的是表間較少以二維關(guān)系型方式連接,而以多維形式關(guān)聯(lián)。最為流行且被業(yè)界認(rèn)可的邏輯結(jié)構(gòu)有星型結(jié)構(gòu)和雪花型結(jié)構(gòu),其中以星型結(jié)構(gòu)最常被人們采用。下圖是數(shù)據(jù)倉庫邏輯結(jié)構(gòu)的一個實例,這個例子采用的是星型結(jié)構(gòu)。星型模式中間有一個單一對象,沿半徑向外連接到多個對象。它反映了最終用戶對商務(wù)查詢的看法,稱為“事實表(FactTable”(DimensionTable)。圖中事實表中存儲了鍵屬性(時間代碼、地區(qū)代碼、年10對維表的查詢結(jié)合在一起時,就可以檢索大量的信息。通過聯(lián)合,維表可以對查找標(biāo)準(zhǔn)細(xì)剖和聚集。維表通過外鍵與事實表相關(guān)聯(lián)。雪花模式:雪花模式是對星型模式的擴(kuò)展,每一個點都沿半徑向外連接到多個點。雪花模式對星型模式的維表進(jìn)一步標(biāo)準(zhǔn)化,它的優(yōu)點是通過最大限度地減少數(shù)據(jù)存儲量以及把最小的標(biāo)準(zhǔn)化表(而不是大的非標(biāo)準(zhǔn)化表)聯(lián)合在一起來改善查詢性能。由于采取了標(biāo)準(zhǔn)化及較低的粒度,雪花模式增加了應(yīng)用程序的靈活性,當(dāng)然同時也增加了用戶必須處理的表的數(shù)量和某些查詢的復(fù)雜性。圖2.1:客戶群體特征事實表2.5.2多維模型的設(shè)計方法:多維數(shù)據(jù)模型由事實表和維表組成。事實表中一個索引對應(yīng)一個維表,常用的統(tǒng)計信息放在事實表中。維表分得盡可能的細(xì)致、方便,維表之間相互獨立,不同維表之間不能有相同的主鍵和外鍵。要根據(jù)數(shù)據(jù)之間的基本的內(nèi)在聯(lián)系組織數(shù)據(jù),而不是根據(jù)現(xiàn)有的分析主題組織數(shù)據(jù)。下面是一個實例:droptablef_cdr;droptabled_account;11createtabled_account(

sub_idintegernotnull,

namechar(50),postal_codechar(6),

id_namechar(10),id_codechar(20),contact_personchar(20),

contact_phonechar(40),

addresschar(60),primarykey(sub_id))maxrowspersegment40000;

createsynonymdet_accountford_account;

droptabled_period;createtabled_period(

per_keyintegernotnull,

daychar(20),monthchar(10),yearchar(6),current_flagchar(1),primarykey(per_key))maxrowspersegment400;createsynonymdet_periodford_period;

droptabled_duration;createtabled_duration(

dur_keyintegernotnull,

dur_segchar(40),primarykey(dur_key))maxrowspersegment10;createsynonymdet_durationford_duration;

droptabled_time;createtabled_time(time_keyintegernotnull,

minutechar(6),hourchar(2),promo_descchar(10),primarykey(time_key))maxrowspersegment1440;

createsynonymdet_timeford_time;

droptablew_area;createtablew_area(area_codechar(8)notnull,

area_tagchar(8),citychar(20),provincechar(10),regionchar(10),primarykey(area_code)

)maxrowspersegment600;

12createsynonymd_orig_areaforw_area;

createsynonymdet_areaforw_area;

droptabled_route;createtabled_route(route_keychar(10)notnull,route_descchar(10),primarykey(route_key))maxrowspersegment1000;createsynonymdet_routeford_route;

createtablef_cdr(imsichar(15)notnull,calling_timetimestampnotnull,

sub_idintegernotnull,per_keyintegernotnull,time_keyintegernotnull,dur_keyintegernotnull,orig_area_codechar(8)notnull,

route_keychar(10)notnull,base_feedecimal(7,3),idd_feedecimal(9,3),sub_feedecimal(9,3),ddd_feedecimal(9,3),gat_feedecimal(9,3),roam_feedecimal(7,3),extra_feedecimal(7,3),durationinteger,calling_countinteger,primarykey(imsi,calling_time),foreignkey(imsi)referencesd_imsi(imsi),foreignkey(sub_id)referencesd_account(sub_id),

foreignkey(per_key)referencesd_period(per_key),

foreignkey(time_key)referencesd_time(time_key),

foreignkey(dur_key)referencesd_duration(dur_key),

foreignkey(route_key)referencesd_route(route_key),

foreignkey(orig_area_code)referencesd_orig_area(area_code),

)maxsegments2maxrowspersegment0;2.6數(shù)據(jù)倉庫的成功案例在數(shù)據(jù)倉庫應(yīng)用領(lǐng)域,從電信、金融到制造、餐飲零售,都有不少成功的案例。如MCI通過Informix公司為其建立數(shù)據(jù)倉庫應(yīng)用,數(shù)據(jù)倉庫規(guī)模為3TB,能被1萬個用戶訪問。借助于數(shù)據(jù)倉庫,MCI公司可以分析存儲其公司范圍內(nèi)幾乎全部的美國消費者信息,以此增強(qiáng)公司的競爭地位。美國百事可樂快餐集團(tuán)也建立了自己的數(shù)據(jù)倉庫解決方案,各連鎖快餐廳13使用數(shù)據(jù)倉庫技術(shù)為其提供及時、有效的信息,它們包括:顧客對某個快餐廳的喜好,總體購買行為,快餐廳地理位置的選擇等等,用于集團(tuán)對所有快餐廳的最終管理和評估。這些信息對于集團(tuán)來說是極其重要且有價值的。Sybase公司與美國財政部的國內(nèi)稅收服務(wù)部門(IRS)合作開發(fā)的項目獲得了DataWarehousingInstitute(TDWI)頒發(fā)的1999年度數(shù)據(jù)庫最佳實踐獎。NCR公司的”電信業(yè)解決方案”–FraudSENTRY等。在國內(nèi)也有不少成功的數(shù)據(jù)倉庫應(yīng)用案例。在目前國內(nèi)采用的同類產(chǎn)品,可分為開發(fā)專用的系統(tǒng)、引進(jìn)國外的軟件、使用通用決策支持基礎(chǔ)平臺等。見諸報道的專用系統(tǒng)有國內(nèi)新太公司的”郵電智能辦公決策管理系統(tǒng)”-IntraSuite,亞信德康的“金眼睛”等。第三章聯(lián)機(jī)分析處理與數(shù)據(jù)挖掘143.1聯(lián)機(jī)分析處理傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)建立在事務(wù)型數(shù)據(jù)的基礎(chǔ)之上,注重的是數(shù)據(jù)庫的安全、高效運作以及維持大量細(xì)節(jié)數(shù)據(jù)的一致性、安全性以及完整性這樣的事務(wù)性操作,即OLTP(OnLineTransactionProcessing)。為了保證系統(tǒng)的高效運作及快速響應(yīng),不可能維持決策分析所需的大量歷史數(shù)據(jù)。此外,系統(tǒng)在運行過程中產(chǎn)生的數(shù)據(jù)大多并不能直接拿來做決策支持分析之用,而首先要作一些預(yù)處理工作,比如匯總、抽取等,這樣的預(yù)處理工作也是OLTP所不能完成的。要想得到對決策有用的信息或?qū)?shù)據(jù)倉庫中的數(shù)據(jù)做靈活的、多角度的探察,則還必須借助一些分析展示工具。因此,就在這樣一個背景下,1993年E.F.Codd首次提出了聯(lián)機(jī)分析處理系統(tǒng)(OLAP)的概念。3.1.1OLAP的概念及特征聯(lián)機(jī)分析處理OLAP是一類軟件技術(shù),它使分析人員、管理人員通過對信息的多種可能的觀察進(jìn)行快速、一致和交互性的存取以獲得對信息的深入理解。OLAP是數(shù)據(jù)倉庫上的分析展示工具,它建立在數(shù)據(jù)多維視圖的基礎(chǔ)上,可以提供給用戶強(qiáng)大的統(tǒng)計、分析、報表處理功能及進(jìn)行趨勢預(yù)測的能力。主要有兩個特點,一是在線性(OnLine),體現(xiàn)為對用戶請求的快速響應(yīng)和交互式操作;二是多維分析(MultiDimensionAnalysis),數(shù)據(jù)的多維視圖使用戶能從多角OLAP技術(shù)的核心所在。根據(jù)對數(shù)據(jù)組織方式的不同,OLAP可分為兩種:基于多維數(shù)據(jù)庫的OLAP(MOLAP)和基于關(guān)系數(shù)據(jù)庫的OLAP(ROLAP);前者響應(yīng)速度快、執(zhí)行效率高,但由于所有的預(yù)處理操作都是預(yù)先定義好的,限制了它的靈活性。與之相比,后者由于建立在數(shù)據(jù)倉庫的基礎(chǔ)上,靈活性、擴(kuò)展性要高得多,并且支持大數(shù)據(jù)量和較多維數(shù)的能力也要強(qiáng)于前者,因此,雖然在響應(yīng)速度、執(zhí)行效率上差一點,仍然得到了廣泛的應(yīng)用。就軟件技術(shù)而言,數(shù)據(jù)倉庫的核心是關(guān)系數(shù)據(jù)倉庫,而讓集成的數(shù)據(jù)發(fā)揮效益,則需要一個先進(jìn)的關(guān)系型聯(lián)機(jī)分析處理(ROLAP)工具。這種工具應(yīng)能支持并行數(shù)據(jù)查詢(PDQ)和操作,支持表分割技術(shù)(TableCross),支持多種DSS索引等等。因此現(xiàn)有的OLAP工具大多基于后者。關(guān)于二者的更詳細(xì)的區(qū)別,請參見文獻(xiàn)[46]。目前,針對OLAP技術(shù)的研究領(lǐng)域相當(dāng)活躍,對OLAP的理解也不斷深入。有人提出了OLAP的更為簡潔的定義,如NigelPendse提出的FASMI(FastAnalysisOfSharedMultidimensionalInformation)。153.1.2OLAP的結(jié)構(gòu)OLAP是建立在客戶/服務(wù)器結(jié)構(gòu)之上的。它要對來自基層的操作數(shù)據(jù)進(jìn)行多維化或預(yù)綜合處理,故它是一個三層的客戶/服務(wù)器體系結(jié)構(gòu)。OLAP對數(shù)據(jù)倉庫中數(shù)據(jù)的操作是針對多維數(shù)據(jù)視圖或稱為超立方體進(jìn)行的。對立方體的典型操作有:切片、切塊以及旋轉(zhuǎn)等:切片是指選定多維數(shù)組的一個二維子集;切塊是指選定多維數(shù)組的一個三維子集;旋轉(zhuǎn)指改變一個立方體顯示的維方向,使人們可以從不同的角度更加清晰直觀地觀察數(shù)據(jù)圖3.1是典型OLAP操作的抽象圖:3.2數(shù)據(jù)挖掘數(shù)據(jù)挖掘涵蓋了廣泛的計算機(jī)技術(shù),涉及到機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、智能數(shù)據(jù)庫、知識獲取、數(shù)據(jù)可視化、高性能計算、專家系統(tǒng)等多個領(lǐng)域。根據(jù)人類學(xué)習(xí)的不同模式人們提出了很多機(jī)器學(xué)習(xí)方法,如:實例學(xué)習(xí)、觀察和發(fā)現(xiàn)學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和遺傳算法等等。其中某些常用且較成熟的算法已被人們運用于實際的應(yīng)用系統(tǒng)及智能計算機(jī)的設(shè)計和實現(xiàn)中。數(shù)據(jù)挖掘包括在數(shù)據(jù)中查找模式,傳統(tǒng)上這是屬于分析專家的領(lǐng)域。其中一個主要的問題是統(tǒng)計上重要的模式?jīng)]有商業(yè)價值,要借助于商業(yè)知識和日常感覺,而不是IT經(jīng)驗來實現(xiàn)。數(shù)據(jù)挖掘通常用于電信、金融、零售、直銷、銀行貸款欺詐檢測及欺詐分析、健康保障行業(yè)、電視臺電視欄目收視率分析、交通流量分析、罪犯特征分析、保險風(fēng)險分析、藥品和化學(xué)成分的影響分析等。這種投資回報有時是超出Clementine軟件處理了一家環(huán)保超標(biāo)的工廠的數(shù)據(jù),切片切塊旋轉(zhuǎn)地域年份地域產(chǎn)品圖3.1:對超立方體的典型操作16這項改進(jìn)為公司節(jié)約了計劃10萬美元的預(yù)期投資。3.2.1數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取出可信的、新穎的、有效的并能被人理解的模式的高級處理過程。下面我們對這個定義作一些解釋:數(shù)據(jù):數(shù)據(jù)是指一個有關(guān)事實F的集合,它是用來描述事物有關(guān)方面的原始信息的。模式:模式給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是對數(shù)據(jù)包含信息更抽象的描述。對于集合F中的數(shù)據(jù),我們可以用語言L來描述其中數(shù)據(jù)的特性,得出一個表達(dá)式E,E所描述的數(shù)據(jù)是集合F的一個子集FE。只有當(dāng)表達(dá)式E比列舉所有FE中元素的描述方法更為簡單時,我們才可稱之為模式。如:“如果成績在81-90之間,則成績優(yōu)良”可稱為一個模式,而“如果成績?yōu)?1、82、83、84、85、86、87、88、89或90,則成績優(yōu)良”就不能稱之為一個模式??尚牛和ㄟ^數(shù)據(jù)挖掘從當(dāng)前數(shù)據(jù)中所發(fā)現(xiàn)的模式必須有一定的正確程度,否則數(shù)據(jù)挖掘就毫無作用??梢酝ㄟ^新增數(shù)據(jù)來檢驗?zāi)J降恼_性,我們用c表示模式E的可信度c=C(E,F(xiàn))。新穎:經(jīng)過數(shù)據(jù)挖掘提取出的模式必須是新穎的,至少對系統(tǒng)來說應(yīng)該如此。模式是否新穎可以通過兩個途徑來衡量:其一是得到的數(shù)據(jù),通過對比當(dāng)前得到的數(shù)據(jù)和以前的數(shù)據(jù)或期望得到的數(shù)據(jù)之間的比較來判斷該模式的新穎程度;其二是通過其內(nèi)部所包含的知識,通過對比發(fā)現(xiàn)的模式與已有的模式的關(guān)系來判斷。通常我們可以用一個函數(shù)來表示模式的新穎程度N(E,F(xiàn)),該函數(shù)的返回值是邏輯值或是對模式E的新穎程度的一個判斷數(shù)值。有效:提取出的模式應(yīng)該是有意義的,這可以通過某些函數(shù)的值來衡量。用u表示模式E的有作用程度,u=U(E,F(xiàn))??杀蝗死斫猓簲?shù)據(jù)挖掘的一個目標(biāo)就是將數(shù)據(jù)庫中隱含的模式以容易理解的形式表現(xiàn)出來,從而幫助人們更好地了解數(shù)據(jù)庫中所包含的信息。當(dāng)然一個模式是否容易被人理解,這本身就很難衡量,比較常用的方法是對其簡單程度進(jìn)行衡量。我們假定模式E的簡單度(可理解度)為S,則可用函數(shù)S(E,F(xiàn))來衡量。處理過程:數(shù)據(jù)挖掘是一個多步驟的處理過程,包括數(shù)據(jù)預(yù)處理、模式提取、知識評估及過程優(yōu)化。上面介紹的各種度量函數(shù)都只是從不同角度對所發(fā)現(xiàn)的模式進(jìn)行評價,一般為方便起見,往往采用權(quán)值來對所發(fā)現(xiàn)的模式進(jìn)行綜合評判。在某些數(shù)據(jù)挖17掘系統(tǒng)中,利用函數(shù)來求得模式E的權(quán)值i=I(E,F(xiàn),C,N,U,S);而在其他一些系統(tǒng)中,通過對求得的模式的不同排序來表現(xiàn)模式的權(quán)值大小。3.2.2數(shù)據(jù)挖掘技術(shù)的工業(yè)標(biāo)準(zhǔn)數(shù)據(jù)挖掘技術(shù)的工業(yè)標(biāo)準(zhǔn)CRISP-DM是英文“CRossIndustryStandard數(shù)據(jù)挖掘技術(shù)的工業(yè)標(biāo)準(zhǔn)過程)集中于解決業(yè)務(wù)問題的,數(shù)據(jù)挖掘技術(shù)的業(yè)界規(guī)范。1997年數(shù)據(jù)挖掘技術(shù)報告DataMiningReport指出,CRISP-DM確立了數(shù)據(jù)挖掘技術(shù)的工業(yè)規(guī)范,提供了數(shù)據(jù)挖掘過程的所有策略。數(shù)據(jù)挖掘本質(zhì)上是根據(jù)經(jīng)驗來學(xué)習(xí)。恰當(dāng)?shù)臄?shù)據(jù)展示了企業(yè)積累的經(jīng)驗;通過CRISP-DM可以理解數(shù)據(jù)及建立數(shù)據(jù)模型可使商務(wù)活動能吸收過去積累的經(jīng)驗。職業(yè)的商務(wù)人員能發(fā)現(xiàn)那些對商務(wù)活動真正重要的東西,避免無謂的浪費時間。CRISP-DM最早由英國ISL公司在其著名軟件Clementine中提出,其倡導(dǎo)者包括ISL,NCR,Daimler-Benz,OHRA等著名公司,并得到了歐洲議會的支持。CRISP-DM提出的目的是開發(fā)一種產(chǎn)業(yè)界用戶和工具開發(fā)商共同認(rèn)可的數(shù)據(jù)挖掘過程模型。CRISP-DM在世界范圍內(nèi)超過100個成員公司的支持,其中包括:數(shù)據(jù)挖掘技術(shù)開發(fā)商,有IBM,SAS,SGI,DataDistilleries,Magnify等;系統(tǒng)提供商,有CapGemini,ICLRetail等;最終用戶,包括BT,Daimler-Benz,ABB,LloydsBank,AirTouch等。3.2.3數(shù)據(jù)挖掘的處理過程數(shù)據(jù)挖掘是一個高級處理過程,它從數(shù)據(jù)集中識別出以模式表示的知識。數(shù)據(jù)挖掘包括以下步驟:1.?dāng)?shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘的處理對象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲在業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)中,是長期積累的結(jié)果。但往往不合適直接在這些數(shù)據(jù)上進(jìn)行知識挖掘,需要做一些準(zhǔn)備工作,也就是數(shù)據(jù)的預(yù)處理。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)的選擇(選擇相型數(shù)據(jù)與連續(xù)型數(shù)據(jù)之間的轉(zhuǎn)換)、數(shù)據(jù)縮減(減少數(shù)據(jù)量)等。數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘的第一個步驟,也是比較重要的一個步驟。數(shù)據(jù)準(zhǔn)備是否做好將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。2.?dāng)?shù)據(jù)分析數(shù)據(jù)分析是數(shù)據(jù)挖掘中最為關(guān)鍵的步驟,它根據(jù)數(shù)據(jù)挖掘的目標(biāo),選取相應(yīng)算法的參數(shù),分析數(shù)據(jù),得到可能形成知識的模式模型。目前采用較多的技術(shù)有決策樹、分類、聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。183.模式的評估、解釋通過上面步驟所得到的模式,有可能是沒有意義或沒有實用價值的,因此需要評估,確定哪些是有效的、有用的模式。此外,大部分模式是用數(shù)學(xué)手段描述的表達(dá)式,很難被人理解,還需要將其解釋成可理解的方式以呈現(xiàn)給用戶,亦即上文說的數(shù)據(jù)展示。4.知識運用發(fā)現(xiàn)知識是為了運用,如何使知識能被運用也是數(shù)據(jù)挖掘的步驟之一。運用知識有兩種方法:一種是只需看知識本身所描述的關(guān)系或結(jié)果,就可以對決策提供支持;另一種是要求對新的數(shù)據(jù)運用知識,由此可能產(chǎn)生新的問題,而需要對知識做進(jìn)一步的優(yōu)化。數(shù)據(jù)挖掘過程可能需要多次的循環(huán)反復(fù),每一個步驟一旦與預(yù)期目標(biāo)不符,都要回到前面的步驟,重新調(diào)整,重新執(zhí)行。3.2.4數(shù)據(jù)挖掘的典型模式模式有很多種,按功能可分有兩大類:預(yù)測型(Predictive)模式和描述型(Descriptive)模式。預(yù)測型模式是可以根據(jù)數(shù)據(jù)項的值精確確定某種結(jié)果的模式。挖掘預(yù)測型模式所使用的數(shù)據(jù)也都是可以明確知道結(jié)果的。例如,根據(jù)各種動物的資料,可以建立這樣的模式:凡是胎生的動物都是哺乳類動物。當(dāng)有新的動物資料時,就可以根據(jù)這個模式判別此動物是否是哺乳動物。描述型模式是對數(shù)據(jù)中存在的規(guī)則做一種描述,或者根據(jù)數(shù)據(jù)的相似性把數(shù)據(jù)分組。描述型模式不能直接用于預(yù)測。例如,在地球上,70%的表面被水覆蓋,30%是土地。在實際應(yīng)用中,根據(jù)模式的實際作用往往可以細(xì)分為以下六種:分類(ClassificationRegressionTimeSeries類(Clustering)、相關(guān)分析(AssociationAnalysis)、序列發(fā)現(xiàn)(SequenceDiscovery)。分類和回歸主要用于預(yù)測,相關(guān)分析和序列發(fā)現(xiàn)主要用于描述,聚類則二者皆可。1.分類(Classification)分類模式是一個分類函數(shù)(分類器),能夠把數(shù)據(jù)集中的數(shù)據(jù)項映射到某個給定的類上。分類模式往往表現(xiàn)為一棵分類樹,根據(jù)數(shù)據(jù)的值從樹根開始搜索,沿著數(shù)據(jù)滿足的分支往上走,走到樹葉就能確定類別。給定類的屬性不能太多,也就是樹的分支不能太多。2.回歸(Regression)19回歸用一系列已經(jīng)存在的數(shù)值和它們的屬性來預(yù)測連續(xù)型變量的數(shù)值。與分類不同的是,分類的輸出是離散型的變量,回歸輸出的是連續(xù)型的變量。3.時間序列(TimeSeries)與回歸類似,時間序列也用于預(yù)測,所不同的是,時間序列基于時間的各個層次,如一周七天,一年十二月。4.聚類(Clustering)聚類模式以“物以類聚”的原則將數(shù)據(jù)劃分到不同的組中,使組之間的差別盡可能大,組內(nèi)的差別盡可能小。與分類模式不同,進(jìn)行聚類前并不知道將要劃分成幾個組和什么樣的組,也不知道根據(jù)哪一(幾)個數(shù)據(jù)項來定義組。一般來說,業(yè)務(wù)知識豐富的人應(yīng)該可以理解這些組的含義,如果產(chǎn)生的模式無法理解或不可用,則該模式可能是無意義的,需要回到上階段重新組織數(shù)據(jù)。5.相關(guān)分析(AssociationAnalysis)相關(guān)分析用于描述發(fā)生在給定事件中數(shù)據(jù)項之間的關(guān)聯(lián)關(guān)系。當(dāng)事件A發(fā)生時,事件B發(fā)生的概率。例如“在購買面包和黃油的顧客中,有90%的人同時也買了牛奶”就是一條關(guān)聯(lián)規(guī)則。用于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的對象主要是事務(wù)型數(shù)據(jù)庫。如果不考慮關(guān)聯(lián)規(guī)則的支持度和可信度,那么在事務(wù)數(shù)據(jù)庫中存在無窮多的關(guān)聯(lián)規(guī)則。事實上人們只對滿足一定的支持度和可信度的關(guān)聯(lián)規(guī)則感興趣。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的問題也就是:給定一個事務(wù)數(shù)據(jù)庫D,求出所有滿足最小支持度Minsup和最小可信度Minconf的關(guān)聯(lián)規(guī)則。6.序列發(fā)現(xiàn)(SequenceDiscovery)序列模式與關(guān)聯(lián)模式相仿,把數(shù)據(jù)之間的關(guān)聯(lián)性與時間聯(lián)系起來。為了發(fā)現(xiàn)序列模式,不僅需要知道事件是否發(fā)生,而且需要確定事件發(fā)生的時間。例如,在購買彩電的人們當(dāng)中,60%的人會在3個月內(nèi)購買影碟機(jī)。在解決實際問題時,經(jīng)常要同時使用多種模式。同時,挖掘同一種模式或?qū)崿F(xiàn)同一種功能,可能會有多種算法可以采用,這就需要根據(jù)具體情況,選擇針對問題空間最為合適的算法。3.3OLAP與DM的區(qū)別OLAP與DM都是數(shù)據(jù)庫(數(shù)據(jù)倉庫)上的分析工具,在實際應(yīng)用中各有側(cè)重。最主要的區(qū)別是:前者是用戶驅(qū)動的,分析專家提出一個假設(shè),然后使用OLAP驗證它,后者是數(shù)據(jù)驅(qū)動的,挖掘工具作用于數(shù)據(jù)生成一個假設(shè)。前者建立在多維視圖的基礎(chǔ)之上,強(qiáng)調(diào)執(zhí)行效率和對用戶命令的及時響應(yīng),而且其直接數(shù)據(jù)源一般是數(shù)據(jù)倉庫;后者建立在各種數(shù)據(jù)源的基礎(chǔ)上,重在發(fā)現(xiàn)隱藏在數(shù)據(jù)深層20次的對人們有用的模式(Patterns),一般并不過多考慮執(zhí)行效率和響應(yīng)速度。在上一節(jié)我們已經(jīng)討論過,數(shù)據(jù)挖掘的過程可以分為四個階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析、模式的評估解釋以及知識展示。我們可以看到,在數(shù)據(jù)挖掘過程的這四個階段,引入數(shù)據(jù)倉庫、OLAP的相關(guān)特點都是有必要的:首先,在數(shù)據(jù)準(zhǔn)備階段,數(shù)據(jù)挖掘工具需要的數(shù)據(jù)是一些經(jīng)過凈化、集成處理的數(shù)據(jù),通常這種處理過程也是昂貴的;而數(shù)據(jù)倉庫作為OLAP的數(shù)據(jù)源,存儲的就是這樣的數(shù)據(jù),它能為OLAP提供數(shù)據(jù),當(dāng)然也可以為DM提供數(shù)據(jù)。其次,在數(shù)據(jù)挖掘的過程中,人們往往需要對數(shù)據(jù)作鉆探性(exploratory)分析,比如,挖掘所需的數(shù)據(jù)可能只是一部分、一定范圍的數(shù)據(jù)。因此,對多維數(shù)據(jù)模型的切片、切塊、下鉆等操作,同樣可以應(yīng)用于DM的過程中。也就是說,可以將DM建立在多維模型(或說超級立方體)的基礎(chǔ)之上。此外,用戶有時還可能動態(tài)地提出挖掘要求、選擇挖掘算法。最后,在知識展示階段,在大規(guī)模數(shù)據(jù)集上挖掘出的知識,往往需要量化并寫回到數(shù)據(jù)倉庫中,然后以超立方體的形式通過OLAP工具進(jìn)行展示。在傳統(tǒng)的關(guān)系數(shù)據(jù)庫應(yīng)用中,對同一個主題,任何不同的查詢過程所得到結(jié)果是相同的。而數(shù)據(jù)挖掘則不然,對同一個問題,運用不同的挖掘算法,得出的結(jié)果可能大相徑庭。根據(jù)立方體計算和數(shù)據(jù)挖掘所進(jìn)行的次序的不同組合可以有以下一些模式:先進(jìn)行立方體計算,后進(jìn)行數(shù)據(jù)挖掘。在進(jìn)行數(shù)據(jù)挖掘前,先對多維數(shù)據(jù)進(jìn)行一定的立方體計算,以選擇合適的數(shù)據(jù)范圍和恰當(dāng)?shù)某橄蠹墑e;先對多維數(shù)據(jù)作數(shù)據(jù)挖掘,然后再利用立方體計算算法對挖掘出來的結(jié)果做進(jìn)一步的深入分析;立方體計算與數(shù)據(jù)挖掘同時進(jìn)行,在挖掘的過程中,可以根據(jù)需要對數(shù)據(jù)視圖做相應(yīng)的多維操作。這也意味著同一個挖掘算法可以應(yīng)用于多維數(shù)據(jù)視圖的不同部分;第四章決策支持系統(tǒng)及其實現(xiàn)對電信運營商來說,話費流失以及吸引新客戶和保留大客戶是他們最為關(guān)心的兩個問題。所謂話費流失,指的是電信用戶使用移動通信服務(wù)而不付費,直至被停機(jī),然后再以其他戶名入網(wǎng)繼續(xù)惡意消費。其表現(xiàn)形式有多種,如利用呼叫轉(zhuǎn)移、21利用漫游等。由于移動通信的欺詐行為形式多樣,技術(shù)手段高明而且隱蔽,因此解決問題的方案也很復(fù)雜。其中一個比較好的思路是從分析用戶信息和帳務(wù)數(shù)據(jù)入手,為每一用戶賦予一定的信用級別,對不同信用級別的用戶分別采用不同的預(yù)防措施或給予不同的關(guān)注程度,從而盡早發(fā)現(xiàn)不良用戶的異常行為,提前采取措施,減少欺詐行為的發(fā)生。挖掘新客戶是電信運營企業(yè)關(guān)心的另一個重點。因為其主要利潤并不是來自于產(chǎn)品或服務(wù)的初始銷售,而是來自于用戶對產(chǎn)品或服務(wù)的后續(xù)消費。因此,對這些企業(yè)來說,如何能盡量多地挖掘潛在客戶、吸引客戶采用公司的服務(wù)或產(chǎn)品,是增加利潤的關(guān)鍵一步。潛在客戶發(fā)現(xiàn)的做法是分析客戶行為,將客戶的行為分為若干類別。在客戶行為類別統(tǒng)計分析的基礎(chǔ)上,統(tǒng)計分析各類別行為的用戶基本信息,找出具有某些行為的用戶的基本特征,然后,根據(jù)這些特征制定相應(yīng)的營銷或優(yōu)惠政策,以刺激這類客戶的消費。由此可見,信用度分析和客戶行為分析是反欺詐和潛在客戶挖掘的基礎(chǔ),也是電信運營企業(yè)決策支持系統(tǒng)的重要功能部分。本文所做的工作,正是基于這樣一種思路實現(xiàn)了一個DSS系統(tǒng)。4.1系統(tǒng)概述考慮到應(yīng)具有開放性、易擴(kuò)展、低成本、管理及使用方便等特性,該系統(tǒng)采用數(shù)據(jù)庫服務(wù)器端(UnixAgentServer)、WindowsNT和PCs三層體系結(jié)構(gòu),保證系統(tǒng)的開放性和對技術(shù)發(fā)展的適應(yīng)性。三層體系結(jié)構(gòu)支持所有運行于Web瀏覽器上的用戶。中間層是運行WindowsNT的PC機(jī)或服務(wù)器,其目的是管理象OLAP分析引擎這樣的共享OLEAutomationServers。OLAP分析引擎也安裝在中間層,處理所有Web瀏覽器使用者提交的查詢?nèi)蝿?wù)。來自聯(lián)機(jī)事物處理系統(tǒng)(OLTP)的業(yè)務(wù)數(shù)據(jù),如計費系統(tǒng),客戶服務(wù)系統(tǒng),財務(wù)系統(tǒng),客戶信息數(shù)據(jù)庫的數(shù)據(jù),被存儲在業(yè)務(wù)數(shù)據(jù)庫中,應(yīng)用程序一般具有讀寫權(quán)限;數(shù)據(jù)倉庫設(shè)在單獨的數(shù)據(jù)倉庫服務(wù)器上,由業(yè)務(wù)數(shù)據(jù)庫備份、歷史數(shù)據(jù)庫、中間結(jié)果數(shù)據(jù)庫(或者為決策支持系統(tǒng)建立獨立的數(shù)據(jù)集市)、發(fā)布數(shù)據(jù)庫組成。此間所有的數(shù)據(jù)轉(zhuǎn)換任務(wù),如數(shù)據(jù)備份、查詢、統(tǒng)計、OLAP分析、數(shù)據(jù)挖掘等,由決策支持系統(tǒng)的任務(wù)管理器統(tǒng)一調(diào)度,這些任務(wù)可以細(xì)分為:業(yè)務(wù)數(shù)據(jù)備份。業(yè)務(wù)數(shù)據(jù)經(jīng)過定期或定時備份到數(shù)據(jù)倉庫中的備份業(yè)務(wù)數(shù)據(jù)庫中;建立歷史數(shù)據(jù)庫。由數(shù)據(jù)分析和挖掘工具經(jīng)數(shù)據(jù)清潔、查詢、提取、格式轉(zhuǎn)換、統(tǒng)一、多表聯(lián)接,將數(shù)據(jù)轉(zhuǎn)換到專門的歷史數(shù)據(jù)庫中;22建立面向主題的中間結(jié)果數(shù)據(jù)庫或從屬數(shù)據(jù)集市。所有數(shù)據(jù)由歷史數(shù)據(jù)庫集中管理,按照專門的主題,將數(shù)據(jù)的中間結(jié)果和中間文件組成中間結(jié)果數(shù)據(jù)庫或從屬數(shù)據(jù)集市。這些操作不允許改變原有的歷史數(shù)據(jù)庫,具有只讀權(quán)限;分析,挖掘,準(zhǔn)備發(fā)布數(shù)據(jù)。將查詢、統(tǒng)計、分析、挖掘等產(chǎn)生的文件被以轉(zhuǎn)換后的格式保存到發(fā)布數(shù)據(jù)庫中。任務(wù)管理器還具有菜單定制,用戶密碼管理,批處理任務(wù)設(shè)置,發(fā)布網(wǎng)頁動態(tài)合成,訪問數(shù)據(jù)倉庫等管理功能。終端用戶可以通過分級密碼訪問數(shù)據(jù)庫,瀏覽在局域網(wǎng)中發(fā)布的信息。EthernetX-windows終端數(shù)據(jù)倉庫服務(wù)器筆記本臺式PCUnix/NT大型數(shù)據(jù)庫軟件數(shù)據(jù)分析和挖掘工具Windows98/NT任務(wù)管理器X-Windows仿真終端瀏覽器圖4.1網(wǎng)絡(luò)拓?fù)鋱D決策支持解決方案網(wǎng)絡(luò)拓?fù)鋱D可用圖4.1表示。數(shù)據(jù)倉庫服務(wù)器包括大型數(shù)據(jù)倉庫軟件,數(shù)據(jù)分析和挖掘工具;客戶端包括決策支持任務(wù)管理器,配套軟件,瀏覽器等。4.2模塊描述要建立一個數(shù)據(jù)倉庫,一般分為六個步驟:1.分析主題設(shè)計2.維設(shè)計和維表設(shè)計3.?dāng)?shù)據(jù)倉庫結(jié)構(gòu)定義4.導(dǎo)入數(shù)據(jù)5.CUBE設(shè)計6.建立挖掘模型這六個步驟有的已在前文闡述過,有的屬于電信業(yè)務(wù)范疇,所以這里重點介紹數(shù)據(jù)挖掘模型的建立。23在建模階段,精通數(shù)據(jù)挖掘的專業(yè)人員,根據(jù)實際問題的不同,選擇合適的挖掘算法以及數(shù)據(jù)倉庫/集市中的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),并得到相應(yīng)的模型。一般來說,建模的復(fù)雜度取決于多種因素,如數(shù)據(jù)庫/倉庫大小、建模訓(xùn)練集屬性多少、挖掘算法性能以及操作者的熟練程度等。模型一旦建立并經(jīng)歷史數(shù)據(jù)驗證有一定的可靠性之后,就可以進(jìn)入動態(tài)評分過程。用戶就可以根據(jù)需要對新數(shù)據(jù)動態(tài)進(jìn)行評分,也可以對數(shù)據(jù)庫中某一部分?jǐn)?shù)據(jù)執(zhí)行評分操作。數(shù)據(jù)挖掘模塊主要有兩個方面的分析:群體分析:利用聚類或分類算法,把企業(yè)客戶按照某種規(guī)則分為若干群體。行為分析:根據(jù)客戶以前的消費行為,分析某幾類有顯著特征的行為模式,并據(jù)此對客戶未來的行為進(jìn)行預(yù)測。上述兩種建模技術(shù)均可以被用來提高企業(yè)營銷目標(biāo)對象的準(zhǔn)確性并提高相應(yīng)的收益。為達(dá)到這個目的,目前有很多的分析工具可以被應(yīng)用,如:交叉報表工具基于機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘工具工具如Clementine、IntelligentMiner等基于統(tǒng)計學(xué)的分析工具,如SAS、SPSS等神經(jīng)網(wǎng)絡(luò)下面依次介紹各基本功能模塊:4.2.1客戶信用度管理根據(jù)影響客戶信用度的主要因素,對用戶的帳務(wù)數(shù)據(jù)進(jìn)行分類,建立分類模型,并對用戶進(jìn)行評分,給出用戶的信用度級別;影響客戶信用度的主要因素有:1.交費的及時度2.用戶的社會性質(zhì)3.用戶的通話業(yè)務(wù)量4.用戶申請的業(yè)務(wù)數(shù)量5.用戶申請的業(yè)務(wù)種類和用戶的投訴情況客戶信用度等級描述。詳細(xì)描述客戶信用度等級的具體含義。信用等級分布表示。客戶的利潤、客戶的基本信息和行為分類如時間段、業(yè)務(wù)類型等的分布表示。類似于客戶行為分析。信用度的相關(guān)分析。分析影響用戶信用度的因素之間的概率依賴關(guān)系、強(qiáng)度及其可信度。這一方面用于預(yù)測客戶信用度的發(fā)展趨勢,當(dāng)發(fā)生變化時,對其信用等級進(jìn)行相應(yīng)的調(diào)整。24利用以上的結(jié)果,給出從一個信用度等級到另一個信用度等級變化可能性大的客戶。4.2.2防欺詐策略管理防欺詐策略分析建立在信用度管理的基礎(chǔ)之上。分析防欺詐策略的相關(guān)變量:高額話費額度、欠費停機(jī)額度和用戶具有不同的欠費停機(jī)額度等。指定防欺詐策略分析信用度、客戶的滿意程度、高額話費警告額度和停機(jī)額度之間的關(guān)系。根據(jù)分析結(jié)果調(diào)整用戶的基本信息。分析信用度、客戶的滿意程度和用戶催繳周期、催繳頻度之間的關(guān)系。4.2.3客戶行為與潛在客戶分析與管理客戶行為分析的思路是將客戶的行為分為若干類別,對具有某一類行為特征的用戶,分析其基本信息,以期找出客戶行為和客戶基本特征兩者之間的若干潛在關(guān)系。客戶行為分析的依據(jù)是對用戶話單數(shù)據(jù)的分類,因為數(shù)據(jù)量龐大,故對高效分類算法的選擇顯得尤為重要。潛在客戶分析則是在行為分析的基礎(chǔ)上,根據(jù)某種業(yè)務(wù)或業(yè)務(wù)組合與客戶基本信息特征之間的相關(guān)度分析,建立兩者之間的相關(guān)度定量關(guān)系模型,由此得出與某種業(yè)務(wù)或業(yè)務(wù)組合最為相關(guān)的客戶群體。潛在客戶分為兩類:未采用任何業(yè)務(wù)的爭取對象使用某一種或幾種業(yè)務(wù)的已有用戶對于前者,為營銷部門提供科學(xué)的依據(jù),采取更為靈活的優(yōu)惠銷售策略以吸引更多的新用戶是最終目的,為此,需要待開發(fā)地區(qū)和人群的相關(guān)社會資料,如職業(yè)構(gòu)成、年齡層次、受教育程度以及收入等級、期望通信支出等等。這些信息數(shù)據(jù)往往較難得到,可以通過各種途徑,如問卷調(diào)查、電話咨詢記錄,第三方資料共享等。而對于后者,則以爭取用戶采用更多業(yè)務(wù)種類為目的。對任意一種業(yè)務(wù)組合,通過分析其用戶的基本信息以獲取這部分用戶的相應(yīng)特征,那么,具有相同或相似特征而只采用其中某一種業(yè)務(wù)的用戶就是另外幾種業(yè)務(wù)的潛在用戶。這樣的分析,由于用戶基本資料已記錄在案,因此在可操作性上較前者為高。4.2.4趨勢分析趨勢分析主要指業(yè)務(wù)預(yù)測,是針對電信量發(fā)展的短期預(yù)測。它建立在對大25量數(shù)據(jù)(業(yè)務(wù)資料數(shù)據(jù)、社會基礎(chǔ)資料數(shù)據(jù)、市場調(diào)查資料、其他運營者資料數(shù)據(jù))統(tǒng)計分析的基礎(chǔ)上,通過模型運算、統(tǒng)計分析等數(shù)據(jù)處理手段,完成對電信企業(yè)的業(yè)務(wù)發(fā)展、用戶需求數(shù)量、用戶分布、市場占有等幾方面的預(yù)測分析。從上面介紹的數(shù)據(jù)挖掘子系統(tǒng)各模塊的介紹中可以看出,信用度分析及客戶行為分析是每個部分的基礎(chǔ),也是系統(tǒng)設(shè)計的重點,在下文中,我們將給出信用度分析及客戶行為分析的數(shù)據(jù)流圖,并簡單介紹基于分類的潛在客戶挖掘處理。4.3信用度及行為分析處理數(shù)據(jù)流圖4.3.1客戶信用度分析客戶信用度分析可以分為兩步:1.系統(tǒng)初裝時,沒有用戶的信用度級別信息,這時采用無監(jiān)督分類算法(聚類),按照用戶的帳務(wù)行為信息將其分為若干類。在此基礎(chǔ)上,依照每類指標(biāo)的統(tǒng)計數(shù)據(jù)和一定的等級評定規(guī)則,將各類的信用度賦予高低級別;2(指本系統(tǒng)用戶)可能會對已有信用度級別提出異議,或加以修改,這樣,對做了相應(yīng)級別修正后的用戶數(shù)據(jù),采用有監(jiān)督的分類學(xué)習(xí),就會得到更為準(zhǔn)確的分類模型,而且,這個模型也是不斷在更新的。相應(yīng)地,隨著用戶信用行為特征的變化,其信用級別也會不斷變動。作為信用度類別分類依據(jù)的用戶帳務(wù)信息數(shù)據(jù)包括:1).開戶平均時長;2).欠費次數(shù);3).金額(如本月欠費,則為欠費金額,此值為負(fù),如本月不欠費,則為通話費用)。4).欠費時長;5).帳務(wù)人社會性質(zhì)。(一)信用度初始化:(圖中號碼表示相應(yīng)操作的先后順序)26圖4.1信用度初始化注:1.這里的聚類分析是無監(jiān)督分類學(xué)習(xí)算法,采用貝因斯聚類算法Autoclass;2.類別模型1是一個初始模型,說明樣本數(shù)據(jù)分為幾類,每一類都有哪些數(shù)據(jù)樣本,但每一類的信用度級別高低并沒有明確區(qū)分,按照每類用戶的各指標(biāo)的統(tǒng)計信息以及等級評定規(guī)則,分出各類級別高低順序,就得到修正的類別模型1。3.等級評定規(guī)則的制定較為困難,按照對影響信用度級別的各指標(biāo)的權(quán)重大小的理解不同,評定規(guī)則也不同,在這里,我們采取另外一種思路,從各類別用戶的利潤貢獻(xiàn)角度來考察其級別等級,利潤的計算可用如下公式:利潤=平均通話金額-平均欠費時長*平均欠費金額*0.01-平均壞帳其中:假設(shè)向用戶收取的滯納金為每天1%;平均通話金額=平均開戶時長*平均通話金額(反映在金額字段為正值);平均欠費金額反映在金額字段為負(fù)值;平均壞帳來自于壞帳歷史記錄表;4.抽樣過程:抽樣的原則是樣本盡量具有代表性,且數(shù)據(jù)量能保證學(xué)習(xí)耗時不是太多,在這里我們用一個隨機(jī)數(shù)產(chǎn)生器隨機(jī)產(chǎn)生要抽取的樣本:歷史帳務(wù)信息數(shù)據(jù)庫抽樣抽樣樣本數(shù)據(jù)聚類分析類別模型1等級定義修正的類別模型1等級評分等級評定規(guī)則12345統(tǒng)計類別統(tǒng)計信息677899信用度模型更新1011模塊27圖4.2數(shù)據(jù)抽樣(二)信用度模型更新:(圖中號碼表示操作先后順序)圖4.3信用度模型更新注:1.訓(xùn)練樣本的確定采用一定的抽樣算法,這里的樣本數(shù)據(jù)除了上一階段的用戶帳務(wù)信息外,還包括每一用戶的級別信息。所以此時的抽樣過程與信用度初始化時所用抽樣算法有所不同,因為是要采用有監(jiān)督的分類學(xué)習(xí)算法,故所有經(jīng)過人為信用度級別設(shè)定的帳務(wù)記錄,都要被抽取。2.有監(jiān)督的分類學(xué)習(xí)采用C5初始化后的帳務(wù)歷史數(shù)據(jù)庫信用度人為設(shè)定抽樣訓(xùn)練樣本數(shù)據(jù)有監(jiān)督分類學(xué)習(xí)分類模型1234上月帳務(wù)數(shù)據(jù)用戶基本信息庫信用度歷史記錄用戶信用度更新模塊15歷史帳務(wù)數(shù)據(jù)庫抽取帳務(wù)記錄ID抽樣隨機(jī)數(shù)發(fā)生器供學(xué)習(xí)用樣本數(shù)據(jù)28(三)用戶信用度級別更新:圖4.4信用度級別更新注:評分后用戶類別信息除了放入帳務(wù)數(shù)據(jù)庫以利于下一次模型更新外,同時插入用戶基本信息數(shù)據(jù)庫,同時觸發(fā)營銷及倉庫接口部分的數(shù)據(jù)作相應(yīng)更新。(四)新開用戶信用度設(shè)定:用戶的信用度級別設(shè)定是由用戶的帳務(wù)信息決定的,而新開用戶沒有任何帳務(wù)記錄,故根據(jù)已有的信用度模型無法設(shè)置其信用度。考慮到有不同帳務(wù)行為的用戶有不同的基本信息,即某種信用等級的用戶具有相似的基本信息,我們可以分析新開戶的基本信息,與各個信用等級的用戶基本信息做比較,以確定他屬于哪個信用級別,分為以下兩步:(1)分類模型確定(2)新開戶信用等級評定當(dāng)月帳務(wù)數(shù)據(jù)庫分類模型評分用戶基本信息庫信用度歷史記錄庫營銷接口倉庫接口29圖4.5新開用戶信用度設(shè)定注:1.這里的抽樣主要為保證分類學(xué)習(xí)效率而取少量數(shù)據(jù),在學(xué)習(xí)器容許的情況下,抽樣的比率即參與學(xué)習(xí)的樣本越大越好;2.參與學(xué)習(xí)的樣本數(shù)據(jù)是用戶基本信息數(shù)據(jù),樣本的標(biāo)記就是此用戶的信用度等級;3.根據(jù)新開用戶的基本信息評定信用等級后,要通知其他模塊作相應(yīng)更新。4.3.2客戶行為分析客戶行為分析的思路是將客戶的行為分為若干類別,對具有某一類行為特征的用戶,分析其基本信息,以期找出客戶行為和客戶基本特征兩者之間的若干潛在關(guān)系。(見圖4.6)圖4.6客戶行為分析抽樣訓(xùn)練樣本數(shù)據(jù)有監(jiān)督分類學(xué)習(xí)分類模型用戶基本信息數(shù)據(jù)等級評分營銷接口倉庫借口客戶行為信息數(shù)據(jù)庫抽樣抽樣樣本數(shù)據(jù)聚類分析類別模型評分1234556統(tǒng)計分析類別利潤等級信息7按利潤的等級排序規(guī)則7830第一步工作是采用無監(jiān)督分類算法對客戶的行為進(jìn)行分類,衡量一個客戶行為的特征有如下指標(biāo):客戶ID,時段,工作日性質(zhì)工作日和非工作日消費金額,業(yè)務(wù)類型(重要指長話,市話等通話業(yè)務(wù)),目的(重要指本地,長途,我網(wǎng)他網(wǎng)等信息)這里的聚類分析是采用無監(jiān)督分類學(xué)習(xí)算法Autoclass,根據(jù)得到的類別模型與客戶行為信息庫對個客戶行為進(jìn)行評分,結(jié)果寫回到客戶行為信息庫;第二步工作是統(tǒng)計分析各類別的行為特性,首先按照各行為類別的利潤貢獻(xiàn)大小對各類別進(jìn)行排序,類別利潤計算公式在此采用:類別平均利潤=Σ(各行為消費金額)/類別行為個數(shù)類別行為特性按不同主題有多種考察重點,如某一種業(yè)務(wù)或業(yè)務(wù)組合在各類別行為中出現(xiàn)的百分比,各行為的時間段分布情況等;這里得到兩類類別統(tǒng)計信息表:按類別組織和按各種主題(如業(yè)務(wù)類型,業(yè)務(wù)量)組織;4.3.3基于類別的潛在客戶挖掘在客戶行為類別統(tǒng)計分析的基礎(chǔ)上,統(tǒng)計分析各類別行為的用戶基本信息,找出具有某些行為的用戶基本特征,這樣,凡是具備這些特征而暫時還沒有相應(yīng)行為的客戶就是這類行為的的潛在客戶。這種聯(lián)系是通過客戶行為數(shù)據(jù)中用戶ID來建立的。這里的統(tǒng)計分析按照不同的主題進(jìn)行,也就是說按要尋找潛在客戶的業(yè)務(wù)或業(yè)務(wù)組合在不同類別中采用分布情況進(jìn)行統(tǒng)計。下面以一種業(yè)務(wù)或業(yè)務(wù)組合為例,則在這種業(yè)務(wù)或業(yè)務(wù)組合的類別統(tǒng)計信息庫的基礎(chǔ)上,尋找潛在客戶的過程為:31圖4.7潛在客戶挖掘注:1.‘抽取1’算法從類別統(tǒng)計信息庫中將采用這種業(yè)務(wù)或業(yè)務(wù)組合人數(shù)最多的兩個類別數(shù)據(jù)取出,得到類別數(shù)據(jù)1;‘抽取2’算法則將采用這種業(yè)務(wù)或業(yè)務(wù)組合人數(shù)最多和最少的兩個類別數(shù)據(jù)取出,得到類別數(shù)據(jù)。2.‘相似分析’尋找類別數(shù)據(jù)1中兩個類別中客戶基本信息的相似特征;而‘差別分析’則尋求類別數(shù)據(jù)2中兩個類別中客戶基本信息差別比較大的若干指標(biāo);3.‘潛在客戶分析’將上一階段的類別相似基本特征和類別差別基本特征取交集,得出的就是潛在客戶的基本信息。各種類別統(tǒng)計信息庫抽取1抽取2類別數(shù)據(jù)1用戶基本信息類別數(shù)據(jù)2相似分析差別分析類別相似基本特征潛在客戶分析類別差別基本特征潛在客戶基本信息模板用戶基本信息潛在客戶查找潛在客戶數(shù)據(jù)庫32第五章算法設(shè)計5.1概述上一章我們簡要介紹了一個DSS系統(tǒng),并給出數(shù)據(jù)挖掘子系統(tǒng)的詳細(xì)設(shè)計。在這一章,我們將討論相關(guān)算法。理論上,聚類屬于一種無監(jiān)督分類算法,在本系統(tǒng)中用于系統(tǒng)的初啟時的信用度初始化以及對客戶行為數(shù)據(jù)的分類操作。根據(jù)理論基礎(chǔ)的不同,有多種聚類算法可被應(yīng)用,下文我們將討論基于統(tǒng)計學(xué)的多重系統(tǒng)聚類算法。對于有監(jiān)督分類算法,本系統(tǒng)采用目前國際上較為流行的C5算法,本章的后一部分將做詳細(xì)介紹。5.2多重系統(tǒng)聚類算法5.2.1預(yù)備知識本文所討論的系統(tǒng)聚類是基于多元統(tǒng)計分析的一種聚類挖掘算法。所謂聚類,就是將一組個體按照相似性歸成若干類別,其目的是使得屬于同一類別的個體之間的距離盡可能小而不同類別的個體間的距離盡可能大。傳統(tǒng)的系統(tǒng)聚類僅考慮了樣本聚類,對樣本各指標(biāo)間差別因素沒有太多考慮,而筆者提出的多重聚類在一定程度上解決了這一問題,將樣本聚類與變量聚類結(jié)合起來,在被考察樣本的指標(biāo)個數(shù)較多時有著較高的準(zhǔn)確性。5.2.2基本概念假定我們要根據(jù)n個對象的p個指標(biāo)值進(jìn)行聚類,稱這n個對象為樣品,p個指標(biāo)為變量。把每一個樣品視為p維歐氏空間的一個點,則聚類分析問題可歸結(jié)為給p維空間中n個點作出一種恰當(dāng)?shù)姆诸惙椒ā悠肪嚯x:設(shè)n個樣品,每個樣品測得p項指標(biāo),樣本數(shù)據(jù)陣為:待考察的任意兩個樣品間的距離可定義為p維空間兩個點之間的距離。常用的距離有:Ⅰ,明考夫斯基(Minkowski)距離Ⅱ,蘭氏距離(Lance和Villians)nnnpppxxxxxxxxx,,,,,...,...1,221,22211,12133Ⅲ,斜交空間距離Ⅳ,馬氏距離類:設(shè)T為預(yù)先給定的閥值,樣品集合G中任意的兩個樣品Xi與Xj間的距離為Dij,如果Dij<T,則稱G為一個類。類間距離:針對不同的問題,類的定義和形式不盡相同,故類與類之間的距離也多種多樣,主要有:最短距離法、最長距離法、重心法、類平均法、離差平方和法等(詳見文獻(xiàn)[34])。5.2.3系統(tǒng)聚類基本思想是,先將n個樣品各自看成一類,然后計算各類兩兩之間的距離,選擇其中距離最小的兩類合并成一個新類,于是n類樣品就聚成n-1類,計算這一新類與其他各類之間的距離,再合并其中距離最小的兩類,如此反復(fù)進(jìn)行,每次減少一類,直到所有樣品歸為一類。根據(jù)類之間距離的不同定義,可以有不同的系統(tǒng)聚類法,可以把這些不同的聚類算法統(tǒng)一起來,這種統(tǒng)一關(guān)鍵在于不同距離定義的統(tǒng)一,有如下的遞推公式:設(shè)Gp類和Gq類合并為新類Gr,則上式中的Dir就是新類與任意類Gi間的距離。上式中系數(shù)取不同值,就可以得到不同的距離公式(見文獻(xiàn)[34]表6.1)。算法實現(xiàn):假設(shè)對含有p個指標(biāo)的n個樣品進(jìn)行聚類:input:n個樣品間的距離陣a[n][n],期望結(jié)果的類別數(shù)koutput:記錄最終聚類結(jié)果的二維數(shù)組b[k][n]FUNCCluster(a[n][n],k)FORi:=1TOnDO{b[i][1]:=1;b[i][2]:=i;b[i][3]:=0}//初始化b[n][n],//將n個樣品各自看作一類m=nWHILEm>kDO{a[p][q]=min(a[1..m][1..m]);//確定p,q,使得第p類和第q類間的距離最小adjust(b[1..m-2][1..m-2]);//重置類別記錄數(shù)組,撤銷第p類和第q類//將第p類與第q類合為一類b[m-1][1]:=b[p][1]+b[q][1];DirapDipaqDiqmDpqnDipDiq公式(1)34b[m-1][2..x]=b[p][2..x];b[m-1][x+1..z]=b[q][2..y];b[m-1][z+1]=0;adjust(a[1..m-2][1..m-2]);//重置距離陣,撤銷第p類和第q類FORi:=1TOm-1DO{a[m-1][i]=s1*a[i][p]+s2*a[i][q]+s3*a[p[q]+b4*|a[i][p]-a[i][q]|;}//利用公式(1),計算新類與其他各類間的距離m:=m-1}return(b[1..k][1..n]);ENDF;{Cluster}5.2.4多重系統(tǒng)聚類1.基本原理根據(jù)分類對象的不同,聚類分為樣本聚類和變量聚類,前者稱為Q型聚類分析、后者稱為R型聚類分析。上文的系統(tǒng)聚類算法關(guān)注的僅是樣本聚類,但在實際中,單純的樣本聚類有時并不準(zhǔn)確,主要原因是忽視了不同指標(biāo)間也存在一定的關(guān)系。因為考察的角度不同,所以不同指標(biāo)對最終樣本聚類結(jié)果會產(chǎn)生不同的影響,這就導(dǎo)致了結(jié)果的不準(zhǔn)確性,尤其是當(dāng)指標(biāo)個數(shù)很多時??朔@種缺點的途徑之一是先將指標(biāo)按一定的規(guī)則分成若干類別,對包含每一類別指標(biāo)的樣本數(shù)據(jù)分別進(jìn)行聚類,然后對聚類結(jié)果進(jìn)行二次聚類,這種方法就是多重聚類。考察p維的歐氏空間:按一定規(guī)則將p個n維變量分成若干類別,每一類別的指標(biāo)在實際中往往有具體的含義,則:這樣,整個p維歐氏空間劃分為q個多維子空間,對每一個Y分別進(jìn)行系統(tǒng)聚類??梢钥吹?,分別聚類的結(jié)果,仍可以構(gòu)成一個q維的歐氏空間,對這個包含q5.1)'M=(X1,X2,X3,...Xp)其中Xi(xi1,xi2,xi3,...xin)M(Y1、Y2、Y3...Yq)其中Yi(Xm,。。Xk),并且rmkT,T為某一閥值,rmk為Xm與Xk的相關(guān)系數(shù)352.算法實現(xiàn)設(shè)樣品個數(shù)為n,每一樣品有p個指標(biāo):input:樣本數(shù)據(jù)矩陣M[n][p];期望結(jié)果的類別數(shù)koutput:記錄最終聚類結(jié)果的二維數(shù)組b[k][n]PROCMulti_Cluster(M[n][p],k)按具體含義劃分p個指標(biāo)為q類,即將樣本數(shù)據(jù)的一個p維空間映射為q個子空間//先對每個子空間樣本進(jìn)行聚類FORi:=1TOqDO{計算ai[ni][ni];//對第i個子空間樣本計算距離陣,ni為其中指標(biāo)個數(shù)bi[k][k]:=Cluster(ai[ni][ni],k’);//調(diào)用系統(tǒng)聚類算法,對包含某特定指標(biāo)類的樣品聚類,k’為首次聚類結(jié)果的類別數(shù)}計算a0[q][q];//a0[q][q]存儲一次聚類后的結(jié)果樣本距離陣//對首次聚類結(jié)果進(jìn)行再聚類,得到最終結(jié)果b[k][n]=Cluster(a0[q][q],k)ENDP;{Multi_Cluster}3.幾點考慮首先是子空間劃分的粒度問題;多重聚類建立在對包含某一類指標(biāo)的樣品分別聚類的結(jié)果的基礎(chǔ)上,最后結(jié)果的準(zhǔn)確性與指標(biāo)的劃分是有著直接關(guān)系。因此,關(guān)鍵是對指標(biāo)的適當(dāng)劃分,但劃分的規(guī)則往往很難確定。在實際中,具體規(guī)則一般由指標(biāo)的具體含義來確定。還有一種可能的做法是將每一個指標(biāo)劃分為一類,即p維的歐氏空間映射為p個子空間,這種做法雖然最終的系統(tǒng)聚類仍要面對p維的歐氏空間,但由于對每個樣本來說,其數(shù)據(jù)是反映類別的無12..n..X1X2X3X4Xpx11x12x13x14x1px21x22x23x24x2pxn1xn2xn3xn4xnp12..n..X1X2X3X4Xpx11x12x13x14x1px21x22x23x24x2pxn1xn2xn3xn4xnpY1Y2Yq...Y1Y2...Yqn1212類別np維歐氏空間q個歐氏子空間首次聚類結(jié)果最終結(jié)果圖5.1多重系統(tǒng)聚類過程36綱量,這就克服了傳統(tǒng)系統(tǒng)聚類的指標(biāo)間的不可衡量性。這兩種劃分方法在實際應(yīng)用中可根據(jù)具體的問題靈活采用,但通過實踐驗證可以看出,一般情況下,前者更可靠一些。其次是對首次聚類結(jié)果的排序問題;因為多重聚類的第一步工作是對包含某類指標(biāo)的樣品分別聚類,因為不同類別指標(biāo)的衡量規(guī)則不同,所以聚類的結(jié)果往往缺乏一定的可比較性,而下一步聚類的就是針對這個結(jié)果,因此很有必要找到一種統(tǒng)一的規(guī)則來對這個結(jié)果作一排序。這樣,對某兩個特定樣本來說,它們根據(jù)每一指標(biāo)所進(jìn)行的首次聚類就有了一定的可比較性,也為下一步的聚類提供了前提。5.3有監(jiān)督分類算法—C55.3.1算法概述C5屬于一種歸納學(xué)習(xí)算法。歸納學(xué)習(xí)(inductivelearning)旨在從大量的經(jīng)驗數(shù)據(jù)中歸納抽取一般的判定規(guī)則和模式,它是機(jī)器學(xué)習(xí)(machinelearning)中最核心、最成熟的一個分支。根據(jù)有無導(dǎo)師指導(dǎo),歸納學(xué)習(xí)又分為有導(dǎo)師學(xué)習(xí)(supervisedlearning,又稱為示例學(xué)習(xí))與無導(dǎo)師學(xué)習(xí)(unsupervisedlearning)。C5屬于有導(dǎo)師學(xué)習(xí)算法。示例學(xué)習(xí)是對某些概念的正例與反例集合,通過歸納推理覆蓋所有正例并排除所有反例的概念描述。學(xué)習(xí)算法可分為兩大類:覆蓋算法(coveringalgorithms)和分治算法(divide-and-conqueralgorithms);前者歸納生成規(guī)則,后者歸納生成決策樹。決策樹方法是用屬性值對例子集逐級劃分,直到一個節(jié)點僅含有同一類的例子為止。它起源于Hunt等人提出的概念學(xué)習(xí)系統(tǒng)CLS(ConceptLearningSystem),然后發(fā)展到Quinlan的ID3(InteractiveDichotomicversion3)算法,最后演化為能處理連續(xù)屬性的C5。決策樹構(gòu)造的輸入是一組帶有類別標(biāo)記的例子,構(gòu)造的結(jié)果是一棵二叉或多叉樹。二叉樹的內(nèi)部節(jié)點(非葉子節(jié)點)一般表示為一個邏輯判斷,如形式為(ai=vi)的邏輯判斷,其中ai是屬性,vi是該屬性的某個屬性值;樹的邊是邏輯判斷的分支結(jié)果。多叉樹(ID3)的內(nèi)部節(jié)點是屬性,邊是該屬性的所有取值,有幾個屬性值,就有幾條邊。樹的葉子節(jié)點都是類別標(biāo)記。構(gòu)造決策樹的方法是采用自上而下的遞歸構(gòu)造。以多叉樹為例,它的構(gòu)造思路是,如果訓(xùn)練例子集合中的所有例子是同類的,則將之作為葉子節(jié)點,節(jié)點內(nèi)容即是該類別標(biāo)記。否則,根據(jù)某種策略選擇一個屬性,按照屬性的各個取值,把例子集合劃分為若干子集合,使得每個子集上的所有例子在該屬性上37具有同樣的屬性值。然后再依次遞歸處理各個子集。這種思路實際上就是“分而治之(divide-and-conquer)的道理。二叉樹同理,差別僅在于要選擇一個好的邏輯判斷。構(gòu)造好的決策樹的關(guān)鍵在于如何選擇好的邏輯判斷或?qū)傩?。對于同樣一組例子,可以有很多決策樹能符合這組例子。人們研究出,一般情況下或具有較大概率地說,樹越小則樹的預(yù)測能力越強(qiáng)。要構(gòu)造盡可能小的決策樹,關(guān)鍵在于選擇恰當(dāng)?shù)倪壿嬇袛嗷驅(qū)傩?。由于?gòu)造最小的樹是NP難題,因此只能采取用啟發(fā)式策略選擇好的邏輯判斷或?qū)傩?。在實際中,用于模型學(xué)習(xí)的訓(xùn)練數(shù)據(jù)往往不是完美的,可能是因為:①某些屬性字段上缺值(missingvalues);②缺少必須的數(shù)據(jù)而造成數(shù)據(jù)不完整;③數(shù)據(jù)不準(zhǔn)確含有噪聲甚至是錯誤的。這時就有克服噪聲和決策樹剪枝問題?;镜臎Q策樹構(gòu)造算法沒有考慮噪聲,生成的決策樹完全與訓(xùn)練例子擬合。有噪聲情況下,完全擬合將導(dǎo)致過分?jǐn)M合(overfitting),即對訓(xùn)練數(shù)據(jù)的完全擬合反而不具有很好的預(yù)測性能。剪枝是一種克服噪聲的技術(shù),同時它也能使樹得到簡化而變得更容易理解。有兩種剪枝策略:向前剪枝(forwardpruning)和向后剪枝(backwardpruning)。向前剪枝方法是,在生成樹的同時決定是繼續(xù)對不純的訓(xùn)練子集進(jìn)行劃分還是停機(jī);向后剪枝方法是一種兩階段法:擬合-化簡(fitting-and-simplifying),首先生成與訓(xùn)練數(shù)據(jù)完全擬合的一棵決策樹,然后從樹的葉子開始剪枝,逐步向根的方向剪。剪枝時要用到一個測試數(shù)據(jù)集合(tuningset或adjustingset),如果存在某個葉子剪去后能使得在測試集注意的是,剪枝并不是對所有的數(shù)據(jù)集都好,就象最小樹并不是最好(具有最over-pruning)。從某種bias正是由于不同的屬性選擇及剪枝過程的實現(xiàn),才產(chǎn)生了各種不同的歸納學(xué)習(xí)算法。一個簡單的決策樹的例子見下圖(圖5.2):38本例根據(jù)加薪百分比、工作時長、法定節(jié)假日、及醫(yī)療保險三個屬性來判斷一個企業(yè)的福利狀況(good或bad)。下面簡單介紹幾種決策樹算法的演進(jìn):CLS系統(tǒng)CLS的工作過程為:首先找出最有判別力的屬性A,把數(shù)據(jù)分成多個子集,每個子集再選擇最有判別力的屬性B進(jìn)行劃分,一直進(jìn)行到所有子集僅包含同一類型的數(shù)據(jù)為止。因此CLS以一棵空決策樹開始,并通過增加結(jié)點逐步求精,直到產(chǎn)生一棵能正確分類訓(xùn)練例子的決策樹,這是一個循環(huán)遞歸過程:已知訓(xùn)練子集PN,1.如果PN中的所有例子均為正例,則生成一個YES結(jié)點并終止;如果PN中的所有例子均為反例,則生成一個NO結(jié)點并終止;否則,根據(jù)某種啟發(fā)式策略選擇一個屬性A,設(shè)A取值為υ1,υ2…υr,并生成新結(jié)點。2.將PN中的例子根據(jù)其屬性A的取值加以劃分,生成r個子集記為PN1,PN2…PNr。3.遞歸地應(yīng)用該算法到每個子集PNi。ID3算法分類屬性的選擇決定了算法的效率與所生成的決策樹的繁簡程度、預(yù)測效果。選擇屬性是決策樹歸納算法的關(guān)鍵。CLS算法可以產(chǎn)生所有可能的決策樹,正確分類訓(xùn)練實例,并能選擇最簡單的決策樹。但是屬性選擇范圍的不確定,在實際應(yīng)用中往往受問題大小的限制。wageincreasefirstyearworkinghoursstatutoryholidayscontributiontohealthpathwageincreasefirstyear<=2.5%>2.5%<=36>36half>10<=10<=4>4goodgoodgoodgoodgoodbadbad圖5.2公司福利條件決策樹示例nonefull39Quinlan提出的ID3算法,在這方面對CLS算法做出了進(jìn)步。它的基本算法仍然來自于CLS系統(tǒng),主要工作是引進(jìn)了信息論中的互信息作為特征判別能力的度量。能正確分類訓(xùn)練集的決策樹不止一棵,Quinlan提出的ID3算法能得出結(jié)點最少的決策樹,效果非常理想?;陟氐膶傩赃x擇:設(shè)訓(xùn)練例子集PN含有p個正例和n個反例,則一個例子屬于正例集PE的概率為p/(p+n),屬于反例集NE的概率為n/(p+n)。一棵決策樹可以看作正、反例集的消息源,因而產(chǎn)生這些消息期望信息為:設(shè)屬性A取值為{A1,A2,…Ar},它們將PN分類為r個子集{PN1,PN2,…PNr}。設(shè)PNi含有pi個正例ni個反例,則子樹Pni所需要的期望信息為I(pi,ni)。并且以A為根所需要的期望信息的加權(quán)平均值,即:而以A為根進(jìn)行分類所得到的信息增益為:gain(A)=I(p,n)-E(A)一個好的分類屬性將使信息增益最大。關(guān)于ID3算法的詳細(xì)描述請參見文獻(xiàn)[38]。舉例:根據(jù)天氣狀況看某天早上是否合適打高爾夫球,合適的屬于正例記為P,不合適的屬于反例記為N。天氣由四個屬性描述,即outlook(天氣形勢),temperature(溫度),humidity(濕度),windy(風(fēng))。Outlook的取值為sunny、overcast、rain;temperature取值cool、mild、hot;humidity取值為normal、high;windy取值為false、true。訓(xùn)練例子共14個,如表5.1所示:outlooktemperaturehumiditywindyclass1sunnyhothighfalseN2sunnyhothightrueN3overcasthothighfalseP4rainwindhighfalsePpnnlogpnnpnplogpnpI(p,n)22ri1ii

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論