版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 招商銀行數(shù)據(jù)倉庫方案建議書I目 錄第一章 前言第二章 建議方案簡介第三章 硬件產品介紹第四章 軟件產品介紹第五章 項目計劃附錄一 成功案例附錄二 IBM可以提供的服務附錄三 項目進度計劃安排參考附錄四 產品報價第一章 前言作為一個發(fā)展中的銀行,總部位于我國南方著名經濟特區(qū)深圳市的招商銀行的成長令人矚目。為了在五年內成為全國著名的銀行,進入世界大銀行的排行榜,招商銀行的決策者們制訂了一整套行之有效的計劃,而作為現(xiàn)代化管理的一部分,與國際上先進的模式接軌,計算機管理自然成為相當重要的一部分。招商銀行與世界信息產業(yè)的領導者,美國國際商業(yè)機器公司,簡稱 IBM 合作,將其業(yè)務系統(tǒng)成功運行在AS/40
2、0 平臺之上,成功地邁出了計算機管理的第一步。但是他們并不滿足于目前的狀況,發(fā)揚一向緊跟新科技的傳統(tǒng),決定對目前的業(yè)務數(shù)據(jù)作進一步的處理,將靜態(tài)的數(shù)據(jù)轉化為決策支持的依據(jù)。所以,準備采用目前信息產業(yè)界極為先進的數(shù)據(jù)倉庫技術,完成招商銀行的決策支持系統(tǒng),以進一步提高公司的實力和競爭力。而世界上最大的軟件及咨詢服務公司 IBM,將以其在該行業(yè)雄厚的實力和數(shù)十年豐富的經驗,為招商銀行提供一套完整的解決方案,使招商銀行的管理能力再上一個臺階。本方案以先進性和可擴展性為原則,使招商銀行的數(shù)據(jù)倉庫系統(tǒng)既可以保證在幾年內技術和設備不落后,使之站在世界計算機發(fā)展潮流之上,又可以根據(jù)業(yè)務的高速發(fā)展,很方便地升級
3、,以達到業(yè)務發(fā)展需求的性能。先進性方面,IBM 提供的硬件平臺是具有最強勁處理能力的RS6000 SP 系列并行機,它綜合業(yè)界的最高端技術,具備無與倫比的處理能力和可擴展性、可靠性。例如戰(zhàn)勝世界冠軍、國際象棋特級大師卡斯帕羅夫的“深藍”就是這種機型,其每秒數(shù)億步的處理速度至今仍被人們稱道;軟件平臺是 IBM 提供最新推出的、業(yè)界好評如潮的通用數(shù)據(jù)庫產品 (Universal Database),這是 IBM 的又一大師級力作;還有榮獲本年度世界數(shù)據(jù)倉庫產品大獎的數(shù)據(jù)采掘工具:Intelligent Miner;在應用上,IBM有成熟的整套數(shù)據(jù)倉庫解決方案,和其他僅僅能提供某些方面產品的廠商有著
4、本質的區(qū)別??蓴U展性方面,因為數(shù)據(jù)量越來越大,用戶越來越多,為保證合理的響應速度,對機器的性能提高就會有一個幾乎線性增長的要求。硬件和軟件的可擴展性就成為一個重要的考慮因素。IBM 的 RS6000 SP 主機正是具備這種特性,從而成為硬件平臺的首選;通用數(shù)據(jù)庫在小到手提機,大到并行主機的任何平臺上,都能充分發(fā)揮硬件的性能。這樣就確保了整個數(shù)據(jù)倉庫系統(tǒng)的正常運作。也可以保證用戶在今后升級時,既可以保護現(xiàn)有投資,也使應用系統(tǒng)受到的影響降到最小,做到無縫升級。背景 中國的銀行業(yè)務正面臨深刻的改革,各種新生事物不斷涌現(xiàn),如新的業(yè)務,由于分工模糊而出現(xiàn)的很多非銀行業(yè)的競爭者,業(yè)務全球化的趨勢,由新舊競
5、爭者造成的越來越大的壓力,快速發(fā)展的信息技術,客戶的需求和總體人口組成也在不斷變化。全球范圍內的金融服務企業(yè)間的關系變得更加緊密,促使決策者重新研究金融市場,資源分配,組織結構和業(yè)務流程,從而采取更有創(chuàng)意的企業(yè)行為和策略,如企業(yè)兼并,市場定位,產品和服務推陳出新,保持營銷渠道暢通。 在銀行業(yè)內,越來越多的企業(yè)正在采用數(shù)倉庫工具來創(chuàng)造新的商業(yè)機會:深入分析客戶群的組成、發(fā)現(xiàn)特殊需求、設計新的產品、在新業(yè)務推出前開展詳細的建模和分析。分析客戶減少的可能原因,采取預防措施,提高服務質量和整體競爭力。分析重要客戶的來源,保證整體效益。預防和制止信用卡詐騙活動。 正如 IBM 一向在計算機業(yè)的發(fā)展中扮演
6、重要角色一樣,IBM 早在1988年,就發(fā)表了第一篇關于數(shù)據(jù)倉庫的文章,成為這一領域的先驅,從那時起,數(shù)據(jù)倉庫的技術,服務和解決方案就在來斷地完善,時至今日,IBM 公司的數(shù)據(jù)倉庫系統(tǒng)已經安裝了數(shù)百個,在各個行業(yè),各種平臺上運行。 1995年,IBM 重新評定了所有數(shù)據(jù)倉庫資源,成立一支核心隊伍,專門開發(fā)運用于各行業(yè)的數(shù)據(jù)倉庫解決方案,范圍涉及銀行及金融業(yè),電訊業(yè),零售業(yè),保險及衛(wèi)生業(yè)等。這個小組的任務是分析各行業(yè)的業(yè)務需求,選擇最好的軟件和硬件產品,為客戶提供咨詢服務。 在數(shù)據(jù)倉庫市場上,IBM 始終致力于提供全面解決方案,不但提供技術和咨詢服務,還為客戶介紹專門的行業(yè)經驗。我們的數(shù)據(jù)倉庫系
7、統(tǒng)運行在多種平臺上,保證一個開放系統(tǒng)供應商的地位,是目前最完整的全方位的集成式數(shù)據(jù)倉庫解決方案。 IDC 最近在加拿大市場上作了一次數(shù)據(jù)倉庫的調查,發(fā)現(xiàn)集成度是大家最關心的問題,除了嚴格遵循開放標準,IBM 還發(fā)展了一些有實力的策略聯(lián)盟伙伴,如 Vality、進展技術公司 ETI、Cognos 以及Information Advantage 等。通過聯(lián)合開發(fā)和集成調試,達到聯(lián)盟的主要目標:更高級的集成度。 IBM 始終致力于確立在以網(wǎng)絡為中心的計算技術方面的領導地位,我們也堅信目前我們站在潮流的尖端,公司內部建立起遍布全球100多個國家,700多個城市的全球性的大型數(shù)據(jù)網(wǎng)絡,在專門的互聯(lián)網(wǎng)部門
8、,在這一領域的技術成果不斷推出,都無可置疑地表明 IBM 是當之無愧的領導者。今天 IBM 更是提出了一套完整的解決方案。以下就數(shù)據(jù)倉庫的概念和作用做一些簡要的介紹。數(shù)據(jù)倉庫的概念及作用 所謂數(shù)據(jù)倉庫,數(shù)據(jù)倉庫之父 W.H.Inmon 曾對數(shù)據(jù)倉庫作了這樣的描述:“數(shù)據(jù)倉庫是九十年代信息技術構架的新焦點,它提供集成化的和歷史化的數(shù)據(jù);它集成種類不同的應用系統(tǒng);數(shù)據(jù)倉庫從發(fā)展和歷史的角度來組織和存儲數(shù)據(jù),以供信息化和分析化處理之用”。這里要強調的是必須將業(yè)務系統(tǒng)和數(shù)據(jù)倉庫分開。兩者功能不同,要求迥異。雖然業(yè)務系統(tǒng)為數(shù)據(jù)倉庫提供數(shù)據(jù)。但決不能將數(shù)據(jù)倉庫建立在業(yè)務系統(tǒng)之上。一來兩者所存的數(shù)據(jù)不同。業(yè)
9、務系統(tǒng)是存儲實時數(shù)據(jù)的地方;數(shù)據(jù)倉庫可能更關心的是整個歷史數(shù)據(jù)。兩者的數(shù)據(jù)傳遞不是簡單的復制,而是一個可能是比較復雜的轉換和傳遞過程。二來,這樣做對業(yè)務系統(tǒng)的影響太大。不僅會對數(shù)據(jù)的安全性造成一些不可預測的影響,還會影響業(yè)務系統(tǒng)的性能。查詢請求會使系統(tǒng)不堪重負,響應速度降低,嚴重時甚至導致系統(tǒng)的崩潰,使業(yè)務系統(tǒng)癱瘓。所以必須將兩者分開。 數(shù)據(jù)倉庫的作用主要在于通過對大量數(shù)據(jù)的分析,得出需要的統(tǒng)計結果。還可以找出其潛在的關系,從而作出正確的判斷。例如,如果銀行要了解它的一個客戶的情況,以目前的情況來看,需要查詢儲蓄庫,信用卡庫,借貸信息等。這些信息存儲在不同的業(yè)務系統(tǒng)中,不同的主機上,顯然要獲得
10、完整的客戶資料需要作大量的工作,消耗大量的時間。但是,如果這個銀行擁有數(shù)據(jù)倉庫系統(tǒng),要完成這個工作只需要一個最簡單的查詢命令,可能只需要幾秒鐘。因為數(shù)據(jù)倉庫中已經有了所有的數(shù)據(jù),而且都已經重新組織。特別是如果你要查的是一些歷史數(shù)據(jù),那么目前的系統(tǒng)就根本無能為力了。所以,建立一個數(shù)據(jù)倉庫對公司的許多正確決策的作出有著舉足輕重的影響。它可以以合理的代價取得有效的決策支持;促進企業(yè)中業(yè)務處理過程的重組;改善并強化對客戶的服務;強化企業(yè)的資產和負債管理;促進市場分析;幫助實現(xiàn)企業(yè)的規(guī)模優(yōu)化。數(shù)據(jù)倉庫的特點 由于差不多各個業(yè)務系統(tǒng)的各種數(shù)據(jù)都要放進數(shù)據(jù)倉庫,所以,隨著時間的增長數(shù)據(jù)倉庫的數(shù)據(jù)量是特別大的
11、。例如,某單位一天有10G 數(shù)據(jù),例如移動通訊局的計費系統(tǒng)(如果有幾本流水帳,可能還會超過這個數(shù)字),那么,僅僅過了兩年,數(shù)據(jù)倉庫中的數(shù)據(jù)量就有:10*365*2=7300G,相當于七個多 TB 的數(shù)據(jù)。那么五年后,十年后呢?簡直不能想象。由此可見,數(shù)據(jù)倉庫的特點:數(shù)據(jù)量大且有幾乎線性的增長性。數(shù)據(jù)倉庫對計算機系統(tǒng)的要求 根據(jù)上述特點,我們認為支持數(shù)據(jù)倉庫的計算機系統(tǒng)首先必須得有一臺不僅性能卓著,而且可擴展性也很好的主機。談到可擴展性,許多人會想到對稱多處理器系統(tǒng) (Symmetrical Multi-Processing) 系統(tǒng),其實 SMP 系統(tǒng)的 CPU 數(shù)增加到一定數(shù)目后,對系統(tǒng)性能的
12、提高已十分有限,甚至會起反作用。所以,主機的選用,一定要有非常好的線性增長性。這里,我們建議選用目前已經比較成熟的海量并行處理系統(tǒng)(Massive Parallel Processing),簡稱為 MPP。另外,數(shù)據(jù)庫的選用也是十分關鍵的。一是要支持超大的數(shù)據(jù)量??赡茉诔跏茧A段,數(shù)據(jù)量已經到了 TB 級。二是要有很強的穩(wěn)定性。數(shù)據(jù)倉庫是為決策支持系統(tǒng)提供準確的數(shù)據(jù)分析,如果數(shù)據(jù)庫不十分穩(wěn)定,那么,后果不堪設想。另外,數(shù)據(jù)庫必須有可擴展性,支持多平臺,高性能等等。整個網(wǎng)絡環(huán)境的穩(wěn)定和高速也應被列入計算機系統(tǒng)設計的考慮范疇。數(shù)據(jù)倉庫系統(tǒng)的體系結構 一個完整的數(shù)據(jù)倉庫系統(tǒng),應當由定義部分、數(shù)據(jù)獲取部
13、分、管理部分、數(shù)據(jù)分發(fā)部分、信息目錄、數(shù)據(jù)庫管理系統(tǒng)、數(shù)據(jù)存取與分析等部分組成。1.定義部分 數(shù)據(jù)倉庫系統(tǒng)的定義部分完成數(shù)據(jù)倉庫環(huán)境的定義和設置。這里包括相應的定義工具供數(shù)據(jù)倉庫的設計者和管理人員使用。他們使用這類工具進行:a.設計和定義數(shù)據(jù)倉庫數(shù)據(jù)庫;b.定義數(shù)據(jù)倉庫的數(shù)據(jù)源;c.指定一組規(guī)則用來約束當數(shù)據(jù)從外部源點進入數(shù)據(jù)倉庫時的系統(tǒng)行為。定義部分的工作結果是一批元數(shù)據(jù),這批數(shù)據(jù)將存放在信息目錄中。2.數(shù)據(jù)獲取部分 數(shù)據(jù)獲取部分負責從外部數(shù)據(jù)源析取數(shù)據(jù),并在數(shù)據(jù)倉庫內對所析取的數(shù)據(jù)實施后處理。為了實現(xiàn)數(shù)據(jù)倉庫系統(tǒng)的主要目標以最終用戶最容易理解和使用的方式組織和存儲數(shù)據(jù),進行后處理是必須的一
14、步。后處理包括對所析取數(shù)據(jù)的提煉和變換。在定義部分所建立的規(guī)則用來約束實施后處理時的系統(tǒng)行為。數(shù)據(jù)提煉包括以下內容:記錄或記錄內欄目的重構,刪去不需要的運行信息,字段值的解碼和翻譯,補充缺漏的值以及檢查數(shù)據(jù)的完整性和相容性。變換的內容如上所述。需補充的兩點是變換還可以包括對原數(shù)據(jù)加上時間標記及對導出數(shù)據(jù)的計算,在完成后處理后,即可將處理的結果加載到相應的數(shù)據(jù)倉庫數(shù)據(jù)庫中,這種加載可通過源數(shù)據(jù)庫的加載工具實現(xiàn),如果源庫是關系數(shù)據(jù)庫,一般可用 SQL 類的工具實現(xiàn)對日常數(shù)據(jù)清理和歸整,來自外部數(shù)據(jù)源的數(shù)據(jù)不會原封不動地進入數(shù)據(jù)倉庫,而是必須進行必要的變換以增強其可用性。最常見的數(shù)據(jù)變換有獲取瞬像數(shù)
15、據(jù)、實施集運算(求和、求平均量等)、分組、填寫缺漏值、預報趨勢(填入預測量)、數(shù)據(jù)結構與格式的轉換、提取樣本值、編碼值與可讀值間的轉化等等。3.管理部分 管理部分由一組系統(tǒng)服務工具構成,這類工具及其所提供的服務可為數(shù)據(jù)倉庫系統(tǒng)中其他部分所利用,還可以用于管理數(shù)據(jù)倉庫中的數(shù)據(jù)集,數(shù)據(jù)集是對特定的一個或一級用戶有用的一組數(shù)據(jù),這組數(shù)據(jù)是從數(shù)據(jù)獲取部分得到的基本數(shù)據(jù)導出的。 管理部分提供的服務包括數(shù)據(jù)的維護、數(shù)據(jù)的分發(fā)、數(shù)據(jù)倉庫的例行維護,其中,維護服務完成從基本倉庫數(shù)據(jù)導出特定數(shù)據(jù)集的任務;分發(fā)服務負責將集中的倉庫數(shù)據(jù)分發(fā)到多個分設的數(shù)據(jù)倉庫數(shù)據(jù)庫服務器和其他供最終用戶使用的決策支持系統(tǒng)上面;例行
16、維護服務包括了對數(shù)據(jù)倉庫的常規(guī)安全性服務、歸檔服務、備份、恢復以及對基本倉庫數(shù)據(jù)和數(shù)據(jù)集的監(jiān)督服務。在當前,例行維護服務多由基本操作系統(tǒng)和數(shù)據(jù)庫系統(tǒng)軟件來完成。4.信息目錄 數(shù)據(jù)倉庫所管理的數(shù)據(jù),不僅有供最終用戶(企業(yè)管理人員、各級決策者)使用的,還包括供數(shù)據(jù)倉庫系統(tǒng)的開發(fā)者和維護者使用的數(shù)據(jù)。后一類信息是用來描述倉庫數(shù)據(jù)庫結構的,稱之為元數(shù)據(jù)。元數(shù)據(jù)的管理是數(shù)據(jù)倉庫成功應用的關鍵。 數(shù)據(jù)倉庫系統(tǒng)中的信息目錄,用來反映本系統(tǒng)中元數(shù)據(jù)的組織情況。通過信息目錄,可幫助用戶了解在數(shù)據(jù)倉庫中都存放著什么信息以及如何訪問和使用這些信息。 一般來說,一個完整的信息目錄應當由幾部分組成,即技術目錄、業(yè)務目錄
17、和信息導航器。 數(shù)據(jù)倉庫的設計者和管理者所使用的數(shù)據(jù),其描述信息由技術目錄保持和管理。這類信息有關于數(shù)據(jù)源和目標、數(shù)據(jù)的提煉規(guī)則、數(shù)據(jù)源與倉庫數(shù)據(jù)庫之間的變換規(guī)則和映射等的描述信息。技術目錄中的信息,是在數(shù)據(jù)倉庫設計者在定義數(shù)據(jù)源和數(shù)據(jù)目標時,以及向數(shù)據(jù)倉庫拷貝數(shù)據(jù)而應用某些規(guī)則時產生的。如果外部系統(tǒng)擁有庫管理工具、DBMS 系統(tǒng)目錄或者 CASE 工具,也可以借用相應的工具從外部系統(tǒng)輸入這類信息。 為了使數(shù)據(jù)倉庫的設計者和管理者能有重構、調整和優(yōu)化數(shù)據(jù)倉庫的依據(jù),技術目錄還將保存和維護與上述目標相對應的信息,這類信息包括:數(shù)據(jù)倉庫中數(shù)據(jù)的總量、數(shù)據(jù)倉庫的創(chuàng)建的更新日期、倉庫中數(shù)據(jù)的存取和使用
18、方法等。 業(yè)務目錄包含的信息,是將倉庫中的數(shù)據(jù)以符合最終用戶業(yè)務習慣的方式表達出來。這類信息包括:同一倉庫數(shù)據(jù)的業(yè)務習慣叫法與相應的數(shù)據(jù)倉庫命名及別名對照、倉庫數(shù)據(jù)的來源、導出規(guī)則和數(shù)據(jù)的當前值、與數(shù)據(jù)擁有者的聯(lián)絡信息、預定義的查詢與報告的內容細節(jié)、授權要求等。這類信息通常是由數(shù)據(jù)倉庫的管理員生成,有的也可以由外部系統(tǒng)(CASE 工具、查詢或報告生成工具等)引入到數(shù)據(jù)倉庫中來。 業(yè)務目錄的使用和倉庫數(shù)據(jù)的存取需要簡單易用的工具來輔助,信息導航器就是這樣的工具,其基本功能是:對業(yè)務目錄中的信息實施查詢和搜索、經查詢而生成臨時性的或永久性的倉庫數(shù)據(jù)集、向倉庫管理員發(fā)送新的數(shù)據(jù)獲取請求的通訊、向數(shù)據(jù)
19、倉庫系統(tǒng)的數(shù)據(jù)分發(fā)部件發(fā)送分發(fā)請求、與系統(tǒng)的數(shù)據(jù)分發(fā)部件和數(shù)據(jù)存取與分析部件直接交互。5.數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)是數(shù)據(jù)倉庫的重要協(xié)同支持部分。整個系統(tǒng)都程度不同地依賴數(shù)據(jù)庫軟件的支持。其中最基本的支持是對倉庫數(shù)據(jù)檢索和維護。能夠有效支持數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)庫軟件,必須具備兩個能力:伸縮能力和運行效率。由于數(shù)據(jù)倉庫所維護的數(shù)據(jù)量一般都在 TB 之上,所以上述要求的道理是再明白不過的了。在當前,支持數(shù)據(jù)倉庫系統(tǒng)的主要是 RDBMS,所以效率問題更顯得重要。 為了解決在加載、存取和分析大批量倉庫數(shù)據(jù)時存在的效率問題,IBM 推出了具有廣泛并行處理能力的產品,這類產品充分利用大規(guī)模并行處理機的能力
20、和開放系統(tǒng)的優(yōu)勢,在伸縮性效率上均有實質性的改觀。數(shù)據(jù)倉庫系統(tǒng)需要數(shù)據(jù)庫軟件提供的基本支持包括并行查詢、并行建索引和并行常規(guī)維護(加載、備份和恢復等)。6.數(shù)據(jù)存取與分析部分存取與分析部分屬于倉庫系統(tǒng)的前端。這里主要由桌面信息系統(tǒng)的各種工具組成。在 C/S 計算環(huán)境下,這部分屬于客戶端。數(shù)據(jù)倉庫的最終用戶在這里提取信息、分析數(shù)據(jù)集、實施決策,從而可望取得競爭優(yōu)勢。能夠進入這一部分的軟件工具,主要是查詢生成工具、多維分析工具和數(shù)據(jù)提取工具等。第二章 建議方案簡介關于招商銀行如何實現(xiàn)數(shù)據(jù)倉庫的建議 經過前一段時間的調查研究,IBM 特向招商銀行提出這份建議,建議書的設計辦求體現(xiàn)以下要點: 在招商銀
21、行現(xiàn)有的技術和經驗的基礎上開展建設,保護貴行在這些方面的投資,充分考慮到貴行在數(shù)據(jù)庫技術如數(shù)據(jù)建模和數(shù)據(jù)庫管理等方面的經驗,以及正在使用的 IBM 產品,建議的新產品都是易于接受和使用的如 UNIX,DB2 UDB 系列產品等。 建議書編寫的過程中,咨詢了多位有豐富銀行業(yè)經驗的專業(yè)顧問,他們對于如何在銀行業(yè)內實現(xiàn)數(shù)據(jù)倉庫有多年的實踐經驗,可以保證盡量降低方案的風險。 為將來的發(fā)展打下良好的基礎,由于銀行金融企業(yè)業(yè)務的不斷發(fā)展,以及企業(yè)信息系統(tǒng)可采用的新技術不斷涌現(xiàn),所以絕對有必要保證系統(tǒng)有充分的可擴展性,能夠采納各種新技術,如數(shù)據(jù)采掘工具,互聯(lián)網(wǎng)和多媒體等。采用開放的,可重用的技術成份,盡量增
22、加系統(tǒng)的靈活性,使投資得到最大程度的保護。通過采用成熟的技術使系統(tǒng)建設的風險降到最低。采用聯(lián)接集成技術來降低總體運營成本,在本建議書中最明顯的例子就是采用數(shù)據(jù)復制技術,在 AS/400 主機系統(tǒng)和數(shù)據(jù)倉庫間傳輸數(shù)據(jù)??傮w建議的要點: 基于大規(guī)模并行技術的開放,可重用,緊密集成的組件,這個方案經過國際范圍內多個專業(yè)顧問的審核,如 Richard Finkelstien, IDC 及ColinWhite 等,并得到他們的一致同意。為開發(fā)完整的業(yè)務系統(tǒng)而選定的一整套來自 IBM 及其伙伴廠商的軟件產品。與招商銀行在數(shù)據(jù)分析發(fā)現(xiàn)方面建立數(shù)據(jù)發(fā)掘的合作關系,使貴行成為中國銀行界的領先企業(yè),通過準確的客戶
23、定位,需求顧測等手段獲得豐厚的利潤。 IBM 將召集來自世界各地的數(shù)據(jù)倉庫和數(shù)據(jù)發(fā)掘方面的專家,他們有多年為銀行客戶服務的經驗,將為貴行提供與業(yè)務相關的顧問服務。 從技術及財務方面為客戶考慮,提供單一而靈活的價格條款,以分期實現(xiàn)的方式,使系統(tǒng)的建設對現(xiàn)行系統(tǒng)的影響減到最少,在整個建設過程與客戶共擔風險。 本建議書的核心技術是 SP 系統(tǒng),SP 系統(tǒng)的機器已在世界各地的大銀行內普遍使用,如中國銀行和花旗銀行。方案內的另一個核心技術DB2 UDB 的并行版本(EEE) Enterprise-Extended Edition,它是目前最快的并行數(shù)據(jù)庫,也是目前唯一一個符合標準的全并行數(shù)據(jù)庫。其中還包
24、括了從 AS/400 到 SP 的數(shù)據(jù)復制工具 DataPropagator。 方案中的其他軟件產品有:數(shù)據(jù)集市工具 VisualWarehouse,數(shù)據(jù)采掘工具 Intelligent Miner,以及 DataGuide、ADSM 以及進展技術公司的 ETI 等。 在本方案中特定提出一個專門條款:與招商銀行的數(shù)據(jù)采掘合作。數(shù)據(jù)采掘是目前國際上各大企業(yè)普遍采用的一種用于增加和管理效益的手段,它是一種比多維分析工具更先進的數(shù)據(jù)分析技術。采用了這項技術的用戶普遍反映良好,認為能很好地幫助他們降低成本,增加收入,管理風險,招攬客戶和擴大市場。 IBM 研究中心根據(jù)數(shù)據(jù)倉庫的使用經驗,總結出一組需求
25、建模的算法,由各地的專業(yè)顧問指導了數(shù)百個客戶使用這些工具,選出最適合總結業(yè)務流程的8個算法,涉及的數(shù)據(jù)采掘技術包括聚集 (Clustering)、分類 (Classificaiton)、關聯(lián)發(fā)現(xiàn) (association discovery)、序列模式發(fā)現(xiàn)(sequential pattern discovery)、相似時間序列發(fā)現(xiàn) (similar time sequence discovery)和預測 (prediction)。數(shù)據(jù)采掘系統(tǒng)的開發(fā)中使用了多種技術和產品,如數(shù)據(jù)預備工具和可視化技術,為客戶實現(xiàn)滿意的效果。通過這些系統(tǒng)的建設,也證明了所用的工具和硬件 (RS/6000) 和數(shù)據(jù)
26、庫環(huán)境 (DB2 UDB) 有足夠的可擴展能力,能處理大型數(shù)據(jù)文件。 與目前市場上其他解決方案相比,IBM 的顧問組提供的服務明顯高出一籌,其他公司提供的算法只能適用于單一種特定的情況,IBM 的算法則能在各種企業(yè)中使用,所提供的 API 能集成其他表示和決策支持工具,全世界共有9個 IBM 的實驗室,50多個專業(yè)研究人員從事這方面的工作,他們提出的方案能分析數(shù)以百萬計的記錄,與關系型并行數(shù)據(jù)庫集成,而不再受限于由內存容量決定的小型文件。 我們向貴行推薦 DB2 并行版本 EEE,是因為我們有足夠的數(shù)據(jù)采掘技術和經驗,使之能處理非常大量的數(shù)據(jù),發(fā)現(xiàn)從來不曾發(fā)現(xiàn)過的模式和關聯(lián)。 在方案中,我們將
27、向貴行提供所有合適的工具和資源,并希望組織一些研討會,共同探計如何更好地選擇適用于中國銀行業(yè)的產品和技術。 根據(jù)招商銀行提供的資料,我們認為整個企業(yè)用的數(shù)據(jù)倉庫系統(tǒng)需要一臺裝有8個高節(jié)點的 SP 系統(tǒng),最初時需要 400GB 存儲空間,有必要時,可以在其他省的分行安裝數(shù)據(jù)倉庫或數(shù)據(jù)集市,具體方案視當?shù)氐臉I(yè)務量而定,我們設計了相應的兩個方案,第一個方案是在總行配備一個8個高節(jié)點的 SP 系統(tǒng),配備 650GB 存儲設備;第二個方案是在總行配備一個4個高節(jié)點的 SP 系統(tǒng),配備 325GB 存儲設備。然后在各個分行各配備一個2個高節(jié)點的 SP 系統(tǒng),配備 162GB 存儲設備。詳細方案見附圖。IB
28、M 建議使用第一種方案。因為 1. 整個數(shù)據(jù)倉庫系統(tǒng)在一個地方,易于管理和維護; 2. 降低費用,避免重復投資,可共享資源; 3. 從業(yè)務上看,數(shù)據(jù)倉庫得出的結論更具有整體性。建議方案企業(yè)級的數(shù)據(jù)倉庫與數(shù)據(jù)集市的比較 根據(jù)招商銀行提出的業(yè)務需求,我們建議采用一個分兩期的方案來實現(xiàn)數(shù)據(jù)集市的概念,第一步是建立一個全局的數(shù)據(jù)倉庫,它是建立數(shù)據(jù)集市的必由之路,數(shù)據(jù)倉庫和數(shù)據(jù)集市不應該是兩個完全分開的系統(tǒng),因為數(shù)據(jù)集市雖然向獨立的業(yè)務領域提供高質量的信息,但數(shù)據(jù)來源和基礎是與數(shù)據(jù)倉庫無法分開的,否則就會出現(xiàn)數(shù)據(jù)完整性,數(shù)據(jù)可管理性和元數(shù)據(jù)可管理性等問題,全局集中的企業(yè)數(shù)據(jù)倉庫為所有為特定業(yè)務領域服務的
29、數(shù)據(jù)集市提供一個可靠的基礎。 數(shù)據(jù)集市的定義邏輯成份較多,而不注重于物理角度,企業(yè)級的數(shù)據(jù)倉庫指把企業(yè)業(yè)務信息經提煉整理后作長期的保存,而數(shù)據(jù)集市保存的信息附屬于某一特定的業(yè)務范圍,相對比較動態(tài)化,因為數(shù)據(jù)集市相關的業(yè)務范圍會隨著時間和經營方針的改變而改變。 數(shù)據(jù)集市需要快速訪問原始業(yè)務數(shù)據(jù),這些數(shù)據(jù)可能是從幾個不同的時期收集來的,事先要經過業(yè)務規(guī)則的檢驗和凈化處理。這樣才能保證不同業(yè)務需求的數(shù)據(jù)集市都能快速訪問到所需的數(shù)據(jù)。正是這個原因,最成功的數(shù)據(jù)集市應用不是那些以應用為可心的業(yè)務系統(tǒng),而是由全局企業(yè)數(shù)據(jù)倉庫中提煉出來的數(shù)據(jù)集市系統(tǒng)。企業(yè)數(shù)據(jù)倉庫可以扮演過濾器的角色,執(zhí)行業(yè)務規(guī)則和檢驗數(shù)據(jù)
30、。 本建議書在實現(xiàn)數(shù)據(jù)集市方面推薦一種相當靈活的體系結構,數(shù)據(jù)集市的規(guī)??梢孕〉街挥袔讉€用戶,大到整個部門,甚至整企業(yè)務系統(tǒng),為了適應這種需求,推薦的方案能從核心的數(shù)據(jù)倉庫中抽取所需的特定數(shù)據(jù),跟蹤與建立數(shù)據(jù)集市有關的所有操作,以便作審計控制,并能在較長時間后重組數(shù)據(jù)。 數(shù)據(jù)集市的具體實現(xiàn)依賴于業(yè)務需求和企業(yè)數(shù)據(jù)模型,可以選擇的方案有很多,為確保安全性,可管理性,可靠性和可行性,數(shù)據(jù)集市可以在 SP 平臺上和企業(yè)的數(shù)據(jù)倉庫共存,這種配置使工作負載可以分布到多個節(jié)點上,從而使數(shù)據(jù)集市的應用獲得較好的性能效果,對于遠程節(jié)點和移動用戶而言,數(shù)據(jù)集市則可以從企業(yè)數(shù)據(jù)倉庫平臺轉移到其他平臺上,IBM 的
31、DB2 UDB 數(shù)據(jù)庫和數(shù)據(jù)復制產品降低了轉移過程的復雜性和難度,這些產品可運行在多種平臺上,如WindowsNT、 OS/2、AIX、Sun Solaris、HP-UX 和 SCO UNIX 等,使數(shù)據(jù)集市可靈活擴展。 對于小于 20 GB的數(shù)據(jù)集市,還可以把數(shù)據(jù)下載到多維數(shù)據(jù)和分析包中,如 Arbor 公司的 Essbase 可以從數(shù)據(jù)倉庫中切下部分數(shù)據(jù),專用于部門級的數(shù)據(jù)集市應用,Essbase 有一個多維數(shù)據(jù)庫,最終用戶可以從不同的維上分析數(shù)據(jù),在較短的響應時間內分析數(shù)據(jù)和匯總信息。 本建議書的其余部分將專注于論述如何建立一個集中式的全局數(shù)據(jù)倉庫,評估具體的業(yè)務需求時會進一步解釋數(shù)據(jù)集
32、市的實現(xiàn)。方案所用技術概述 本方案涉及七項最重要的技術:數(shù)據(jù)倉庫的管理和基礎結構,數(shù)據(jù)獲取,數(shù)據(jù)存儲,決策支持工具,數(shù)據(jù)采掘,企業(yè)數(shù)據(jù)倉庫目錄,咨詢及顧問服務,下面將分別介紹。每項技術都分類列出可能的選擇,我們在這個項目中的推薦方案以及原因。 我們的解決方案不但覆蓋了這七項技術,還有針對性地根據(jù)招商銀行的業(yè)務需求來使用這些技術,保證緊密地集成系統(tǒng),完成所有業(yè)務需要的功能,同時這些技術遵循開放標準,每個組成部分的模塊化結構使整個系統(tǒng)具有充分靈活性,可以在必要的時候升級改進。管理及基礎結構硬件技術 招商銀行可以選用的硬件平臺有 SMP,SMP 集群和 MPP。根據(jù)業(yè)務的規(guī)模,銀行業(yè)的動態(tài)性,以及為
33、將來的發(fā)展建立一個靈活的,可擴展的,有充分發(fā)展余地的基礎的需求,編寫這份建議書的專家一致認為應該選擇 MPP 平臺,其他評核的顧問如Richard Finkelstein、Colin White 和 IDC 的 ChrisWilliard 等都肯定這一選擇,根據(jù) Gartner 集團的統(tǒng)計,九成的 IT 經理為了更快,更靈活,更有效地執(zhí)行分析工作,都會選擇 MPP 平臺和并行數(shù)據(jù)庫。 IBM 有兩種 UNIX 環(huán)境下的 MPP 處理方案:SP 和大型主機上的 MVS 開放版本。我們推薦 SP 系統(tǒng),因為它穩(wěn)固的結構,成功的運行記錄,較好的性能價格比。 SP 在1994年推出,時至今日,全世界共
34、有2000多個系統(tǒng)在運行,總節(jié)點數(shù)超過20000個,現(xiàn)在在中國也安裝了近100個系統(tǒng)。大型的銀行企業(yè),一般會選用一個或多個 SP 平臺來執(zhí)行各種業(yè)務,如市場分析,客戶管理,利潤分析,服務跟蹤等。 SP 可以提供幾乎不受限制的可擴展能力,本項目建議的配置只及目前最強大的處理能力,最大的內存和硬盤容量的不足百分之五,有一些用戶甚至在使用超過400個節(jié)點的 SP 系統(tǒng)。系統(tǒng)管理 長期穩(wěn)定運行的業(yè)務系統(tǒng)有賴于穩(wěn)定的體系結構,而系統(tǒng)管理是整個數(shù)據(jù)倉庫穩(wěn)定性量度的重要指標。有超過一半的客戶/服務器項目是失敗的,其中超過90%的系統(tǒng)是因為沒有合適的系統(tǒng)管理結構。SP 平臺上有一整套系統(tǒng)管理軟件,能管理系統(tǒng)的
35、改變,重新配置,操作執(zhí)行以及作性能和故障管理。Tivoli 系列系統(tǒng)管理工具進一步完善這組軟件的功能,它是一套可靠的跨平臺的管理工具,能實現(xiàn)完善的數(shù)據(jù)倉庫管理功能,使整個系統(tǒng)發(fā)揮最大的交用。本方案中采用的 Tivoli 產品是ADSM(ADSTAR分布式存儲管理器)。數(shù)據(jù)獲取 數(shù)據(jù)獲取過程由幾步組成,有數(shù)據(jù)抽取和傳送,數(shù)據(jù)提煉,數(shù)據(jù)分發(fā)和裝載。數(shù)據(jù)獲取是一個不間斷的過程,要求自動化的處理能力,可靠性和可管理性,所以上節(jié)所說的系統(tǒng)管理能力也很重要。數(shù)據(jù)獲取的核心是企業(yè)數(shù)據(jù)倉庫目錄的分發(fā)和管理。該功能由 DB2 UDB EEE 中的產品 Data Propagator 完成。數(shù)據(jù)存儲 在 SP 硬
36、件平臺上,可選的數(shù)據(jù)存儲產品有 ORACLE、INFORMIX 和 DB2 并行版本,我們推薦 DB2 并行版本 UDB-EEE,該產品在加拿大實驗室開發(fā),得到多數(shù)顧問的一致推薦,因為 DB2 并行版本是目前市場上唯一完全符合標準的 MPP 數(shù)據(jù),通過廣泛的安裝和使用進一步證明了其能力。在 SP 平臺上實現(xiàn)數(shù)據(jù)倉庫選用 DB2 并行版本的占了超過50,遠遠超過第二位的 ORACLE,因為它目前唯一一個全并行的數(shù)據(jù)庫。 最近作了一個關于 VLDB (超大型數(shù)據(jù)庫)的調查中,DB2 成為最受歡迎的產品,在五大數(shù)據(jù)庫中無論是數(shù)據(jù)庫的容量還是用戶數(shù)都遠遠領先。例如一家叫 BellSygma 的公司,正
37、在使用 DB2/MVS 作市場分析,隨著 UNIX 平臺上的數(shù)據(jù)倉庫的不斷發(fā)展,他們在考慮轉型時決定采用 DB2 并行版本,因為他們已經有 DB2 的使用經驗,而且 IBM 在 VLDB 上令人信服的技術和經驗,可信的運行記錄等促使他們作出這種決定。時至今日,他們已經開發(fā)出幾個 VLDB 的數(shù)據(jù)倉庫應用,都有非常好的可擴展性和性能。 一向以來,DB2 因為其多樣化的功能而受世界各大型企業(yè)的普遍歡迎,美國最大的500家企業(yè)中有超過80采用了 DB2,其中前100家全部采用了 DB2。DB2 并行版本象 SP 平臺一樣,能幫助象招商銀行這樣的企業(yè)去應付各種類型的業(yè)務壓力,有足夠的靈活性去增加,刪除
38、,重新開發(fā)和管理應用和數(shù)據(jù),DB2 有獨特的可重用特點,能同時作數(shù)據(jù)倉庫、數(shù)據(jù)集市和內部網(wǎng)應用的數(shù)據(jù)庫服務器,將來還可以把DB2/400 的應用向下優(yōu)化到 DB2 上。 最新的 TPCD 測試表明,DB2 的性能是并行數(shù)據(jù)庫中最好的,這次測試模擬了一個實際的數(shù)據(jù)倉庫環(huán)境,從 TPC 量度上來看,與招商銀行目前的數(shù)據(jù)倉庫規(guī)模比較接近,IBM 公司在1996年共投入了1200個人年開發(fā) DB2 產品,今后仍會保持這種力度以保證并行數(shù)據(jù)庫領域的領先地位。決策分析支持工具 面向最終用戶的工具種類繁多,有 IBM的 Visualizer、Data Inter Pretation;其他公司的如 Cogon
39、s、Information Advantage、Business Objects、Brio-Query、CrystalReports、Microstrategy、Prodea、Arbor 的EssBase 等。匯集總體層次上的數(shù)據(jù),從多個角度去分析,發(fā)現(xiàn)有價值的信息,但每個工具的功能范圍都比較單一而固定。 經過專家的討論,我們推薦 Arbor 的 EssBase,作部門級數(shù)據(jù)集市方案中的多維數(shù)據(jù)庫。我們也希望建立數(shù)據(jù)采掘的合作關系,以便更好地發(fā)揮 IBM 最新的數(shù)據(jù)采掘和發(fā)現(xiàn)技術的作用。IBM 的數(shù)據(jù)采掘技術 數(shù)據(jù)倉庫最重要的作用就是發(fā)掘信息,更好地支持業(yè)務決策,增加客戶忠誠度,提高市場占有率
40、和利潤,信息發(fā)掘的應用有市場分析,利潤評估,成本審核等。 現(xiàn)在的技術趨勢是以信息發(fā)現(xiàn)為驅動,提高上述應用的效率,IBM在這方面的研究和開發(fā)工作一直處于領先地位,與幾個重大的金融和零售業(yè)客戶合作,開發(fā)出一些有針對性的解決方案。在此基礎上匯集成一個完整的數(shù)據(jù)采掘工具包,Intelligent Miner.已在1996年六月推出,支持RS/6000 和 SP 平臺上的 DB2,該項技術在業(yè)界內堪稱一絕。第一版的產品內含有八個獨立的算法。 META 集團的 AaronZornes 曾高度評價這一技術“IBM 的數(shù)據(jù)采掘工具包和提供的相關的服務,相信會對大型企業(yè)的數(shù)據(jù)倉庫技術帶來決定性的影響?!?這項技
41、術是一項新技術,對招商銀行而言很有好處,采用這項技術可以使貴行與其他銀行在技術上拉開差距,這項技術必然會進一步發(fā)展,同時也就保證了貴行在數(shù)據(jù)倉庫上的投資能發(fā)揮更大的作用。企業(yè)數(shù)據(jù)倉庫目錄 數(shù)據(jù)倉庫的元數(shù)據(jù)是數(shù)據(jù)倉庫完整性、自動化程度和可用性的基礎,元數(shù)據(jù)定義了數(shù)據(jù)倉庫的處理過程,記錄下來并支配整個運行過程,對業(yè)務型用戶而言,元數(shù)據(jù)是一種信息目錄,從中可以較容易地理解和使用數(shù)據(jù)倉庫中的信息。 元數(shù)據(jù)的來源,信息模型和存儲技術有很多種,通常相互之間是沖突的,為了使各種工具可以順利地互相交換元數(shù)據(jù),需要 Metadata Interchange Coalition 的幫助,提供元數(shù)據(jù)的標準化的交換。
42、IBM,ETI,Infromation Advantage 和 Vality 等公司都支持這種標準,我們與其他數(shù)據(jù)倉庫廠商也正在共同合作,以達成最終的標準。 IBM 的方法與 Coalition 的策略完全一致,技術性的元數(shù)據(jù)和業(yè)務性的元數(shù)據(jù)的內容和使用方式都是比較獨立的,針對不同的用戶,應該有不同的元數(shù)據(jù)存儲,優(yōu)化信息結構。IBM 推薦的方案中,技術性的元數(shù)據(jù)可以用ETI,業(yè)務性的元數(shù)據(jù)用 IBM 的 DataGuide,這些相互獨立的產品雖然來自不同的廠商,但組合起來能發(fā)揮更大的作用,因為它們是所在領域中最好的產品,否則無論如何都要維護兩套元數(shù)據(jù)目錄,還要保證它們之間的同步。 ETI 和
43、DataGuide 的同步由 ETI 負責,因為 ETI 有一種很特別的功能,能象處理其他數(shù)據(jù)源一樣處理 ETI 的元數(shù)據(jù)存儲,ETI 最大的長處就是有選擇的查詢、傳送數(shù)據(jù),不受軟件和硬件的影響,能在任何格式的數(shù)據(jù)庫或文件間傳送大量的數(shù)據(jù),所有操作都是在元數(shù)據(jù)的控制下進行。ETI 的元數(shù)據(jù)存儲能卸出,然后卸入 DataGuide,或與DataGuide 的數(shù)據(jù)合并,整個處理過程可在圖形界面中完成,最后能生成相關的報告,ETI 還支持版本控制,建立并維護詳細的審計記錄。 DataGuide 是 IBM 的信息目錄工具,集成工作組級和企業(yè)級上的最終用戶業(yè)務元數(shù)據(jù),DataGuide 中的元數(shù)據(jù)按業(yè)
44、務性質劃分成多個業(yè)務組,最終用戶很容易瀏覽,分析時如果要查找某一對象,如報告、電子表格、數(shù)據(jù)庫、程序、ETI 元數(shù)據(jù)存儲或數(shù)據(jù)采掘工具等,DataGuide 都能把所需的數(shù)據(jù)連同信息抽調出來,DataGuide 的目錄信息存儲在 DB2 中,與數(shù)據(jù)倉庫中的業(yè)務數(shù)據(jù)放在相同的地方。咨詢與顧問服務概述 招商銀行已有開發(fā)大型項目的技術和經驗。根據(jù) IBM 在數(shù)百個數(shù)據(jù)倉庫項目中的經驗,其中有幾個與招商銀行的情況相類似,我們有信心幫助貴行利用已有的技術和經驗,把系統(tǒng)升級,擴展數(shù)據(jù)倉庫的范圍和業(yè)務應用的廣度。 IBM 一向是通過增加商業(yè)價值來推動項目的進展,保證用戶花在數(shù)據(jù)倉庫上的每一分錢都是物有所值的
45、,所采用的技術都是絕對有必要的,與業(yè)務需求相適應的,我們的方案進展是分期進行的,保證整個項目按步就班,達至最后完全成功。 IBM 是世界最大的顧問服務公司,提供全面的顧問服務,在招商銀行項目中我們有三個突出的長處: IBM 充分認識到數(shù)據(jù)倉庫的重要性,專門建立一個技術中心,由數(shù)百個專業(yè)人員組成,設計、實現(xiàn)并管理數(shù)據(jù)倉庫項目中的所有部件。 IBM 已有多年為客戶提供數(shù)據(jù)倉庫咨詢與顧問服務的歷史,附錄中列出了 IBM 數(shù)據(jù)倉庫顧問服務的方式。 IBM 有數(shù)據(jù)采掘方面領先的技術,在過去十年中,超過50個研究人員專注于超大型數(shù)據(jù)環(huán)境中的數(shù)據(jù)發(fā)掘的研究,研究工作在遍布世界各地的9個實驗室中進行,前后共研
46、制了42種數(shù)據(jù)發(fā)掘的算法,所有這些成果,再加上我們提供的專業(yè)顧問服務,幫助客戶設計方案,實現(xiàn)和開展培訓,構成了數(shù)據(jù)采掘的強大力量。第三章 硬件產品介紹 在仔細研究招商銀行總行目前的運行環(huán)境,以及總行對數(shù)據(jù)倉庫計劃的需求后,IBM 提出 SP 解決方案。IBM 方案結合了在不同平臺(IBM RS/6000 及 IBM AS/400) 間數(shù)據(jù)移動 (data movement),系統(tǒng)連接 (system connectivity) 以及系統(tǒng)可擴展性 (system scalability) 等許多新的技術,這些技術不僅可以滿足總行目前的需求,而且提供了滿足未來需求的基礎。解決方案: 因為目前總行每
47、天的日常操作是在 AS/400 上運 行,為確保不影響 日常的運行,以及滿足數(shù)據(jù)倉庫大量運算的需求,IBM 建議使用IBM 最高檔的 UNIX 平臺 RS/6000 SP,因為 SP 具有(1)開放式系統(tǒng)功能。(2)高可擴 展性等優(yōu)點,足以滿足總行目前及未來的需求。 IBM 解決方案的主機硬件需求: 八個 R50 節(jié)點的 RS/6000 SP,每節(jié)點配置有8個 CPU,4GB 內存,4.5 GB 內置硬盤,外置硬盤為 81.1GB。各節(jié)點的外置硬盤不互連。八個節(jié)點通 過SP SWITCH 相聯(lián),構成 SP 的 MPP 結構,而每個節(jié)點內采用8 CPU 的 SMP 結構。 物理上八個 R50 節(jié)
48、點占用兩個 SP 機柜,每個 SP 機柜可放置四個 R50 節(jié)點。八個7133-020磁盤組占用兩個 R00 機柜,每個 R00 機柜可放置四組 7133硬盤(每組16個)。IBM RS/6000 Scaleable POWER Parallel (SP) 介紹 SP 是 RS/6000 系列產品線中最高檔的產品,是 IBM 專門為需要大量高速計算客戶 所設計的并行機,SP 的結構是高度可伸縮的,最小的 SP 可以只有一個節(jié)點,最大的 SP 可以到512個節(jié)點。 SP 有三種節(jié)點:窄節(jié)點、寬節(jié)點、高節(jié)點,每個 SP 機框 (System Frame) 可以放置16個窄節(jié)點,或8個寬節(jié)點,或4個
49、高節(jié)點。所謂的高節(jié)點即是 RS/6000 SMP 機 R50,每個高節(jié)點最多可以有8個CPU,4 GB 內存及6900GB SSA 硬盤 (或2700GB SCSI硬 盤)。 節(jié)點之間的通訊是通過 IBM 專門為 SP 設計的 SP Switch 來實現(xiàn),節(jié)點與外部的通訊則可選擇用以太網(wǎng),F(xiàn)DDI 或 ATM。每個節(jié)點都運行 AIX 操作系統(tǒng)。一個低檔的 RS/6000 工作站用來作控制臺,控制整個 SP 系統(tǒng)的運行。 整個 SP 系統(tǒng)可以當作一個系統(tǒng)運行一個大的并行作業(yè),或者可以區(qū)分為幾個小系統(tǒng),每個小系統(tǒng)運行自己的作業(yè)。SP 是高可伸縮性的并行計算機 SP Shared-nothing 和
50、離散式內存的結構,比共享內存 SMP 結構及松散耦合式的服務器集群 (Loosely-Coupled Cluster) 在可擴展性上有顯著的優(yōu)勢,SMP (對稱式處理器) 結構,由于共享內存及使用單一的操作系統(tǒng),在可擴展性的限制上是眾所周知的。 SMP 結構的第一個瓶頸在于所有的 CPU 均需通過一條系統(tǒng)總線,到內存獲取數(shù)據(jù),CPU 之間往往需要彼此競爭來取得系統(tǒng)總線的使用權。 SMP 結構的第二個瓶頸在于緩存的一致性 (Cache Coherence),也就是說每個 CPU 必須消耗極多的時間來確定每個緩存中的數(shù)據(jù)是一致的,當某個 CPU 改動它緩存中的數(shù)據(jù),它必須把這個更改通知到其他各個
51、CPU,這對 CPU 及系統(tǒng)總線的開銷都是很大的。 SMP 結構的第三個瓶頸在于它使用一個操作系統(tǒng),這個操作系統(tǒng)由所有的 CPU 所共享,許多內核 (kernel) 的結構需要加鎖 (Locking )與解鎖 (unlocking),來確保數(shù)據(jù)的一致性,這種 Locking 機制對 SMP結構是一項極大的系統(tǒng)開銷。 SMP or MPP For Data Warehousing 目前有愈來愈多的數(shù)據(jù)倉庫應用使用像 IBM RS/6000 SP 這種多功能并行機 (MPP) 作為硬件平臺,這是因為: 1.并行數(shù)據(jù)庫 UDB的 Enterprise-Extended Edition(早期版本為DB
52、2 PE) 已成熟地運行在 SP 上,而并行運算的復雜性均被數(shù)據(jù)庫所涵蓋,原有的應用不需要經過任何改變,即可充分利用 SP 的結構達到并行的效果。 2.數(shù)據(jù)倉庫的操作本身就具有高度的并行性,就以數(shù)據(jù) Scan 為例:各數(shù)據(jù)庫均有很好的方法把數(shù)據(jù)放在不同的硬盤上,由不同的節(jié)點對之操作達到線性加速的效果。 3.愈來愈多的客戶使用 SP 作為數(shù)據(jù)倉庫平臺,而且成功的案例越來越多。 由于數(shù)據(jù)倉庫計算量及數(shù)據(jù)量均極為巨大,選擇一個具有高度可擴展性的平臺是十分重要的,以下是關于何時該選 SMP 平臺,何時該選MPP 平臺的幾點標準: 1. 數(shù)據(jù)庫及最大表 (Table) 的大小。 2. 同時使用的用戶數(shù)。
53、通常一個數(shù)據(jù)倉庫大多有50至200個人同 時使用 。 3. 數(shù)據(jù)庫查詢的復雜程度。 4. 系統(tǒng)總線的速度,處理器的速度和I/0的速度。 5. 每個查詢會訪問多少數(shù)據(jù),100多行或在百萬行。 6. 用戶希望的反應時間:幾分鐘或幾小時。 7. 數(shù)據(jù)庫的功能。 8. 數(shù)據(jù)庫和終端用戶數(shù)增長的速度。 IBM 曾就這個問題(何時該選 SMP,何時該選 MPP)對許多專家進行調研,比較中肯的意見是:如果數(shù)據(jù)量超過100 GB (也有的專家認為200GB) 用戶最好認真考慮 MPP 機型,因為它有較好的擴展性,當然最好在實施前即對終端用戶的需求有充分的了解,可是在實際的情形中,這種事先有充分準備的例子不多,
54、所以在實施數(shù)據(jù)倉庫后兩三年內,數(shù)據(jù)量增長三到四倍的情形非常普遍。 很多數(shù)據(jù)倉庫在實施前都有一個實驗計劃,一個有趣的現(xiàn)象是:實驗計劃愈成功,客戶對數(shù)據(jù)的需求就愈大。因此,在考慮平臺時,一定要注意這個平臺的可擴展性,即使要用一臺 SMP 的機型,也要考慮它是否有很高的擴展性,是否可以很平滑的升級到 MPP 結構,以避免硬件平臺的功能無法滿足用戶的需求。 SP 比起松散耦合式服務器集群 (Loosely Coupled Cluster) 的方式有很大的優(yōu)越性,服務器集群的主要缺點在于服務器之間數(shù)據(jù)傳達速度太慢,以及有太多的服務器要管理,IBM 特別為中國設計了 SP Switch,來提供節(jié)點間快速的
55、數(shù)據(jù)傳送,而且 IBM 也專門為 SP 設計了一套管理系統(tǒng)來管理SP,不論 SP 有多少個節(jié)點,對系統(tǒng)管理人員而言 SP 只是一個系統(tǒng)。SP 的結構可以擴展到幾千個節(jié)點,目前最大的 SP 有512個節(jié)點,美國花旗銀行使用116個節(jié)點的 SP 運行數(shù)據(jù)倉庫應用。 SP SWITCH SP 的技術核心是 SP SWITCH,它提供了極高的速度連接各節(jié)點。SP SWITCH 給每兩個節(jié)點提供四條數(shù)據(jù)通道,每兩個節(jié)點之間的帶寬高達100 MB /S 雙向傳送(讀與寫可以同時進行)。SP 系統(tǒng)管理: IBM 特別為 SP 開發(fā)了一個系統(tǒng)管理軟件 Parallel System Support Progr
56、am (PSSP), 裝在控制工作臺上(一臺低檔的 RS/6000) 來管理整個 SP。 PSSP 有下列的功能: 硬件的監(jiān)視與控制 配置管理 用戶管理 軟件安裝與升級 用戶作業(yè)管理 SP 的 RAS(Reliability,Availability and Serviceability) IBM 對 SP 的 RAS 非常重視,每個重要配件如電源、風扇均有冗余。SP Switch 每個重要芯片均有備份,來確保 SP Switch 數(shù)據(jù)傳輸?shù)恼_性以及可靠性,兩個節(jié)點之間則可利用 IBM 高可靠性軟件產品HACMP 提供互為備份。節(jié)點內部則有 SystemGuard 芯片提供實時監(jiān)控。(Sys
57、temGuard 的詳述見后) 在 SP 內的 R50 高結點采用了 IBM 獨特的 SMP 技術的對稱多處理系統(tǒng)。在整體 SP 為 MPP 計算結構的同時,在每個 SP 結點內部采用 SMP 處理,使每個結點所完成的任務亦可分散到多個處理器運行,這樣就充分利用了 MPP 及 SMP 兩種技術各自的優(yōu)越性。以下再對 IBM RS/6000 的 SMP 技術作一介紹:IBM RS/6000 Symmetric Multi-Processing(SMP )對稱式多處理器系統(tǒng) 在系統(tǒng)設計及制造上,IBM 的 SMP 服務器代表工業(yè)界科技的一項主要成就,在中央處理器的結構,設計,科技及包裝上有很多領先
58、的突破,與其它競爭對手的 SMP 設計比較,RS/6000 表現(xiàn)出顯著的優(yōu)勢,它的可擴展性能力及高可伸縮性給客戶提供了充分的投資保護。 下 表 顯 示 IBM 的 SMP 設 計 在 科 技 及 包 裝 上 的 優(yōu) 勢: 傳統(tǒng) SMP 的限制IBM SMP 的創(chuàng)新 Internal contention for Memory Access and Constrained Data MovementNon - Blocking Data Cross bar and Advanced Memory Implementation Single Points of Failure and Overal
59、l System Reliability Independent onboard service processor (IBM system guard)System reliability and availability Suite of improved start-up , runtime and Recovery FacilitiesLimited expansion capability within the same ChassisAdvanced expandability design Limited scalability, constrained performanceP
60、ower PC road map binary compatibilityNon - Blocking data cross bar and advanced memory implementation: 在傳統(tǒng)的 SMP 設計中,各個 CPU 均由同一條系統(tǒng)總線(SYSTEM BUS) 從內存獲得所需要的數(shù)據(jù) (DATA),IBM 在設計 SMP時,使用交換開關的技術 (CROSSBAR SWITCH),各個 CPU 均可由自己的通道到內存獲取所需的數(shù)據(jù),因此多個 CPU 可同時由內存獲取數(shù)據(jù),R50 的系統(tǒng)帶寬可高達1.8GB/Sec。 這種設計對客戶的好處有:1.IBM 把這種比較昂貴,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 職場壓力管理的策略計劃
- 秘書日常安排計劃
- 會計人員職業(yè)倦怠及應對策略計劃
- 探索幼兒園教育創(chuàng)新方法的學期計劃
- 《設備維修新技術B》課件
- T-CFA 02020501042-2023 鑄造熔煉用碳化硅
- 【8物(科)期末】合肥市新站區(qū)2023-2024學年八年級上學期期末學習質量檢測物理試題
- 2024-2025學年人教版八年級上冊物理期末考試模擬測試卷
- 管理技能開發(fā)課件-整合
- 離職報告規(guī)范范文
- 2023-2024學年初三物理第一學期期末模擬試題和答案
- 一元二次方程基礎練習50題含詳細答案
- 李白杜甫酒詩
- 2024秋期國家開放大學本科《國際私法》一平臺在線形考(形考任務1至5)試題及答案
- 建筑垃圾清理運輸服務方案
- 統(tǒng)編版(2024新版)七年級上冊歷史第四單元 三國兩晉南北朝時期:復習課件
- 山東省青島市2023-2024學年七年級上學期期末考試數(shù)學試題(含答案)2
- 隧道施工泥漿處置協(xié)議
- 設備吊裝作業(yè)施工方案
- 部編人教版三年級道德與法治上冊:期末測試卷(含答案)
- 高標準農田 建設項目驗收規(guī)程DB41-T 2415-2023
評論
0/150
提交評論