數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第一章-數(shù)據(jù)倉庫和數(shù)據(jù)挖掘概述_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第一章-數(shù)據(jù)倉庫和數(shù)據(jù)挖掘概述_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第一章-數(shù)據(jù)倉庫和數(shù)據(jù)挖掘概述_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第一章-數(shù)據(jù)倉庫和數(shù)據(jù)挖掘概述_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第一章-數(shù)據(jù)倉庫和數(shù)據(jù)挖掘概述_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第1章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘概述第1章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的概述1.1概述1.2數(shù)據(jù)中心1.3混合型數(shù)據(jù)中心參考1.1概述數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的企業(yè)級應(yīng)用體經(jīng)歷了三個階段:傳統(tǒng)數(shù)據(jù)倉庫時代動態(tài)數(shù)據(jù)倉庫時代數(shù)據(jù)中心時代數(shù)據(jù)中心分為:關(guān)系型數(shù)據(jù)中心、非關(guān)系型數(shù)據(jù)中心(基于Hadoop或企業(yè)內(nèi)容管理)和混合型數(shù)據(jù)中心(大數(shù)據(jù)平臺)企業(yè)離不開數(shù)據(jù)分析和利用企業(yè)面臨的問題:業(yè)務(wù)不確定,競爭提高,客戶忠誠度下降解決方法:全面利用數(shù)據(jù)分析技術(shù)例如:銀行——如何有效識別信貸風險,更高效地進行交叉銷售和提升銷售電信公司——如何對市場業(yè)務(wù)發(fā)展和競爭環(huán)境進行精準分析,從而為市場決策提供深入的分析支撐,提升營銷活動的精確性,提高客戶滿意度,培育新的商務(wù)模式等保險公司——哪些理賠客戶騙保的可能性更高以及哪些客戶是高價值低風險的客戶群等1.1概述1.1.1數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的目標1.1.2發(fā)展歷程1.1.1數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的目標構(gòu)建數(shù)據(jù)倉庫和應(yīng)用數(shù)據(jù)挖掘的共同目標:(1) 通過跨系統(tǒng)實現(xiàn)數(shù)據(jù)共享,解決信息孤島問題,提升數(shù)據(jù)質(zhì)量;(2) 構(gòu)建企業(yè)信息單一視圖,實現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理和洞察;(3) 提供完善的業(yè)務(wù)模型挖掘、定義和管理,并在此基礎(chǔ)上提供實時決策支持;(4) 提供準確有效的客戶特征管理機制,為客戶細分、提升銷售、交叉銷售、市場營銷和客戶維護挽留等提供深入洞察;(5) 構(gòu)建企業(yè)級數(shù)據(jù)倉庫、主數(shù)據(jù)管理、企業(yè)內(nèi)容管理和大數(shù)據(jù)管理等,為企業(yè)提供統(tǒng)一的數(shù)據(jù)服務(wù);(6) 構(gòu)建完整統(tǒng)一的元數(shù)據(jù)管理體系,制定完善的元數(shù)據(jù)管理策略,為企業(yè)提供統(tǒng)一高效的元數(shù)據(jù)管理服務(wù);1.1.1數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的目標構(gòu)建數(shù)據(jù)倉庫和應(yīng)用數(shù)據(jù)挖掘的共同目標:(7)構(gòu)建數(shù)據(jù)治理體系,保證數(shù)據(jù)的一致性,消除信息的冗余、沖突和缺失等問題;(8)提供高效、實時和準確的多維數(shù)據(jù)分析、報表統(tǒng)計、即時查詢、廣告版、多媒體分析、流分析和內(nèi)容分析等功能,為企業(yè)運營分析提供全面支持;(9)提供簡潔易用的數(shù)據(jù)挖掘和預測分析支撐,為企業(yè)分析提供全面支持;(10)提供協(xié)同工作、規(guī)則引擎和事件處理功能,為基于全面分析能力的各種應(yīng)用間有效協(xié)作提供支撐;(11)提供完善的IT安全管理、綜合監(jiān)控和企業(yè)資產(chǎn)管理等。1.1.1數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的目標構(gòu)建數(shù)據(jù)倉庫和應(yīng)用數(shù)據(jù)挖掘面臨的挑戰(zhàn):如何構(gòu)建企業(yè)面向數(shù)據(jù)文化如何打破組織壁壘如何控制整合項目的實施周期和風險如何克服整合在技術(shù)上的復雜度。。。。。。1.1.2發(fā)展歷程1——報表查詢系統(tǒng)隨著時間的推移,這些報表查詢系統(tǒng)越來越不能滿足企業(yè)的需求。例如:查詢訪問性能比較慢報表統(tǒng)計相對固定難以滿足企業(yè)靈活的業(yè)務(wù)需求無法進行多維分析等1.1.2發(fā)展歷程2——傳統(tǒng)數(shù)據(jù)倉庫技術(shù)使用ETL(Extract,Transform,Load)或ETCL(Extract,Transform,Clean,Load)工具實現(xiàn)數(shù)據(jù)的導出、轉(zhuǎn)換、清洗和裝入工具,使用操作型數(shù)據(jù)存儲(OperationalDataStore,ODS)存儲明細數(shù)據(jù),使用數(shù)據(jù)集市和數(shù)據(jù)倉庫技術(shù)實現(xiàn)面向主題的歷史數(shù)據(jù)存儲,使用多維分析工具進行前端展現(xiàn),以及使用數(shù)據(jù)倉庫工具提供的挖掘引擎或基于單獨的數(shù)據(jù)挖掘工具進行預測分析等。相比之前的報表查詢系統(tǒng)。1.1.2發(fā)展歷程2——傳統(tǒng)數(shù)據(jù)倉庫技術(shù)傳統(tǒng)數(shù)據(jù)倉庫技術(shù)具有以下優(yōu)點:通過完善的數(shù)據(jù)清洗轉(zhuǎn)換保證了ODS數(shù)據(jù)的準確性和一致性;通過數(shù)據(jù)倉庫技術(shù)提升了BI系統(tǒng)的性能;通過多維分析展現(xiàn)工具,給客戶提供了全面的多維分析,報表統(tǒng)計和即席查詢等功能;通過數(shù)據(jù)挖掘技術(shù),幫助客戶靈活地進行預測分析。1.1.2發(fā)展歷程2——傳統(tǒng)數(shù)據(jù)倉庫技術(shù)傳統(tǒng)數(shù)據(jù)倉庫技術(shù)面臨新的問題:隨著競爭的進一步加劇,企業(yè)需要對市場變化及時進行響應(yīng),對數(shù)據(jù)倉庫時效性的要求越來越高,而傳統(tǒng)數(shù)據(jù)倉庫中的數(shù)據(jù)都是經(jīng)過批量定期更新的,難以滿足時效性的要求;越來越多的一線用戶需要使用數(shù)據(jù)倉庫,而傳統(tǒng)數(shù)據(jù)倉庫用戶通常只針對高端管理層或少數(shù)管理人員,更多的一線用戶無法訪問數(shù)據(jù)倉庫,例如銀行,就有成千上萬的客戶經(jīng)理和客戶代表期望訪問數(shù)據(jù)倉庫;業(yè)務(wù)系統(tǒng)越來越需要傳統(tǒng)數(shù)據(jù)倉庫主動提供相應(yīng)的分析能力,而傳統(tǒng)數(shù)據(jù)倉庫通常不會主動推送分析能力。1.1.2發(fā)展歷程3——動態(tài)數(shù)據(jù)倉庫技術(shù)1.1.2發(fā)展歷程3——動態(tài)數(shù)據(jù)倉庫技術(shù)動態(tài)數(shù)據(jù)倉庫優(yōu)點:一線用戶可以動態(tài)(或者說實時地)地訪問數(shù)據(jù)倉庫以便獲取其所需的信息;使用動態(tài)數(shù)據(jù)加載方式,相比傳統(tǒng)數(shù)據(jù)倉庫采用批量形式加載數(shù)據(jù),動態(tài)數(shù)據(jù)倉庫通常以準實時的方式連續(xù)加載數(shù)據(jù)(以增量數(shù)據(jù)加載為主),最低可以到秒級的時間間隔,從而在根本上保證數(shù)據(jù)倉庫數(shù)據(jù)的實時性;采用事件驅(qū)動和主動推送的方式為業(yè)務(wù)系統(tǒng)提供分析能力,例如銀行的信貸風險管理員,當審批某人的貸款請求時,關(guān)于該申請人的相關(guān)風險評級等信息就會被主動推送過來。1.1.2發(fā)展歷程4——數(shù)據(jù)中心通過數(shù)據(jù)中心的構(gòu)建,企業(yè)從傳統(tǒng)的交易系統(tǒng)(記錄系統(tǒng))和各種差分系統(tǒng)(DifferentSystem)逐漸轉(zhuǎn)向構(gòu)建創(chuàng)新系統(tǒng),通過使用分析技術(shù)創(chuàng)造獨特的競爭優(yōu)勢,將分析技術(shù)慢慢融入到企業(yè)的核心戰(zhàn)略制定和日常運營管理中。1.1.2發(fā)展歷程4——數(shù)據(jù)中心通過構(gòu)建新一代數(shù)據(jù)中心,可以在各行各業(yè)實現(xiàn)智慧的分析洞察。例如在交通行業(yè)進行實時交通流優(yōu)化、公交線路優(yōu)化、基于交通流量預測進行出行線路推薦等;在銀行業(yè)進行反欺詐、反洗錢和風險管理整合等;以及在零售行業(yè)預測客戶購買意向等1.2數(shù)據(jù)中心1.2.1關(guān)系型數(shù)據(jù)中心1.2.2非關(guān)系型數(shù)據(jù)中心(基于Hadoop或企業(yè)內(nèi)容管理)1.2.3混合型數(shù)據(jù)中心(大數(shù)據(jù)平臺)1.2.1關(guān)系型數(shù)據(jù)中心以數(shù)據(jù)倉庫或關(guān)系型數(shù)據(jù)庫為基礎(chǔ)構(gòu)建數(shù)據(jù)存儲層,數(shù)據(jù)以關(guān)系型數(shù)據(jù)為主(結(jié)合少量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)),實現(xiàn)企業(yè)全部或部分結(jié)構(gòu)化數(shù)據(jù)的物理或邏輯集中,通過完善的數(shù)據(jù)治理和統(tǒng)一元數(shù)據(jù)管理構(gòu)建企業(yè)信息單一視圖(關(guān)系型),并提供全面的分析能力,為企業(yè)快速決策、風險管理以及個性化服務(wù)提供支持,幫助企業(yè)優(yōu)化業(yè)務(wù)流程,構(gòu)建創(chuàng)新型應(yīng)用1.2.1關(guān)系型數(shù)據(jù)中心與動態(tài)數(shù)據(jù)倉庫技術(shù)相比,關(guān)系型數(shù)據(jù)中心不再局限于在現(xiàn)有應(yīng)用程序的基礎(chǔ)上提供有限的分析能力,而是基于企業(yè)信息單一視圖提供全面的分析能力,并在分析能力之上全面構(gòu)建創(chuàng)新型應(yīng)用。1.2.2非關(guān)系型數(shù)據(jù)中心在數(shù)據(jù)倉庫以及后來的關(guān)系型數(shù)據(jù)中心發(fā)展的同時,企業(yè)也從未放棄對大量非結(jié)構(gòu)化數(shù)據(jù)(全世界80%的信息資產(chǎn)是非結(jié)構(gòu)化的)的管理,開始的時候多采用企業(yè)內(nèi)容管理的方式將大量的音頻、視頻、圖像、文本和電子掃描件等非結(jié)構(gòu)化數(shù)據(jù)進行管理,并通過企業(yè)內(nèi)容分析獲取對非結(jié)構(gòu)化數(shù)據(jù)的洞察力。1.2.2非關(guān)系型數(shù)據(jù)中心Hadoop的興起企業(yè)級Hadoop可以跨廉價機器和磁盤進行大規(guī)模擴展以處理大數(shù)據(jù)問題,通過內(nèi)置在環(huán)境中的冗余性,數(shù)據(jù)冗余地存儲在整個集群內(nèi)多個地方(默認存儲三份),編程模型同樣如此,通過在集群中多個服務(wù)器上運行程序的多個部分,可預期失敗并自動解決問題,有效地解決了廉價基礎(chǔ)設(shè)施易損壞的問題,因此企業(yè)級Hadoop平臺的“每計算成本(與每字節(jié)價值相對應(yīng),通常傳統(tǒng)業(yè)務(wù)系統(tǒng)的每計算成本比Hadoop系統(tǒng)高,但同樣的傳統(tǒng)業(yè)務(wù)系統(tǒng)對應(yīng)的每字節(jié)價值也高。)”同樣較低。基于Hadoop的非關(guān)系型數(shù)據(jù)中心簡單示例1.2.3混合型數(shù)據(jù)中心(大數(shù)據(jù)平臺)為了既使用關(guān)系型數(shù)據(jù)(倉)庫的高效,又想把非結(jié)構(gòu)化數(shù)據(jù)納入到數(shù)據(jù)中心,許多企業(yè)開始構(gòu)建混合型數(shù)據(jù)中心(即大數(shù)據(jù)平臺)?;旌闲蛿?shù)據(jù)中心對關(guān)系型數(shù)據(jù)使用數(shù)據(jù)倉庫(或關(guān)系型數(shù)據(jù)庫)進行存儲,對非結(jié)構(gòu)化數(shù)據(jù)使用企業(yè)級Hadoop平臺進行存儲,對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)實施全面的數(shù)據(jù)治理,對業(yè)務(wù)規(guī)則、流程和邏輯以及信息供應(yīng)鏈所有組件進行統(tǒng)一的元數(shù)據(jù)管理,構(gòu)建貫穿整個企業(yè)的信息單一視圖(涵蓋所有數(shù)據(jù)類型),使用聯(lián)邦發(fā)現(xiàn)和可視化工具為企業(yè)提供內(nèi)部信息導航,通過流計算工具進行實時地數(shù)據(jù)處理和分析,為企業(yè)提供深入的洞察力和實時決策支持。1.2.3混合型數(shù)據(jù)中心(大數(shù)據(jù)平臺)在構(gòu)建混合型數(shù)據(jù)中心的過程中,大數(shù)據(jù)的管理不應(yīng)該僅僅側(cè)重存儲、分析和可視化,更應(yīng)該注重元數(shù)據(jù)管理和數(shù)據(jù)治理,如果沒有合理的元數(shù)據(jù)管理,企業(yè)將無法從大數(shù)據(jù)分析中獲取有效信息,更無法獲得持續(xù)深入的洞察力和實時決策支持。完善的元數(shù)據(jù)管理可以讓企業(yè)數(shù)據(jù)更加完整和準確,在大數(shù)據(jù)時代元數(shù)據(jù)管理的重要性非但沒有減弱反而大大增強了。在構(gòu)建關(guān)系型數(shù)據(jù)中心時,數(shù)據(jù)都是結(jié)構(gòu)化的,即便沒有完整的元數(shù)據(jù)管理也可以通過多種方法(使用數(shù)據(jù)探索分析工具和業(yè)務(wù)系統(tǒng)文檔,詢問業(yè)務(wù)人員和技術(shù)人員等)了解數(shù)據(jù)的含義,而在非關(guān)系型數(shù)據(jù)中心和混合型數(shù)據(jù)中心中,數(shù)據(jù)無論是容量、類型還是速度都比關(guān)系型數(shù)據(jù)中心大(快)的多,企業(yè)比以往任何時候都更迫切地需要了解數(shù)據(jù)是什么。同樣,除了需要對關(guān)系型數(shù)據(jù)進行數(shù)據(jù)治理外,對非關(guān)系型數(shù)據(jù)進行數(shù)據(jù)治理也很重要,只有解決信息冗余、沖突、缺失和錯誤等問題才能保證信息的一致性和完整性。1.3混合型數(shù)據(jù)中心參考架構(gòu)1.3.1基礎(chǔ)設(shè)施層1.3.2數(shù)據(jù)源層1.3.3交換服務(wù)體系1.3.4數(shù)據(jù)層數(shù)據(jù)交換1.3.5應(yīng)用層數(shù)據(jù)交換1.3.6數(shù)據(jù)存儲區(qū)1.3.7基礎(chǔ)服務(wù)層1.3.8應(yīng)用層1.3.9用戶終端層1.3混合型數(shù)據(jù)中心參考架構(gòu)1.3.10數(shù)據(jù)治理1.3.11元數(shù)據(jù)管理1.3.12IT安全運維管理1.3.13IT綜合監(jiān)控1.3.14企業(yè)資產(chǎn)管理1.3混合型數(shù)據(jù)中心參考架構(gòu)以構(gòu)建銀行新一代數(shù)據(jù)中心為例,假設(shè)銀行上下級之間存在三級結(jié)構(gòu),分別是總行、異地分行/支行和支行/網(wǎng)點。其中核心賬務(wù)系統(tǒng)、貸記卡系統(tǒng)、信貸審批管理系統(tǒng)、國際業(yè)務(wù)和票據(jù)中心等數(shù)據(jù)存放在總行數(shù)據(jù)中心,異地支行/分行也會有部分數(shù)據(jù)例如呼叫中心、風險管理和事后監(jiān)督等??傂泻徒鹂?、銀聯(lián)、SWIFT、國家現(xiàn)代化支付系統(tǒng)和人行等之間存在數(shù)據(jù)交互,數(shù)據(jù)中心可以為銀行提供一個關(guān)于業(yè)務(wù)的全面準確的視圖,幫助銀行更加有效地進行反欺詐和反洗錢管理、風險管理、信貸管理、理財管理和實時決策等數(shù)據(jù)中心整體體系結(jié)構(gòu)銀行新一代數(shù)據(jù)中心整體分為十層,分別為“基礎(chǔ)設(shè)施層”、“數(shù)據(jù)源層”、“交換服務(wù)體系”、“數(shù)據(jù)存儲區(qū)”、“基礎(chǔ)服務(wù)層”、“應(yīng)用層”、“用戶終端層”、“數(shù)據(jù)治理、元數(shù)據(jù)管理層”、“IT安全運維管理”和“IT綜合監(jiān)控、企業(yè)資產(chǎn)管理”等。1.3.1基礎(chǔ)設(shè)施層主要包括整個企業(yè)所涉及的硬件、系統(tǒng)軟件、網(wǎng)絡(luò)設(shè)備和各種存儲等,實現(xiàn)的方式可以基于企業(yè)私有云的方式實現(xiàn),也可以基于公有云的方式實現(xiàn),從而實現(xiàn)自動化、虛擬化和標準化管理等。1.3.2數(shù)據(jù)源層主要包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源等:結(jié)構(gòu)化數(shù)據(jù)源主要指各種關(guān)系型數(shù)據(jù)庫例如DB2,Oracle和MSSqlServer等。半結(jié)構(gòu)化數(shù)據(jù)源主要指各種包含半結(jié)構(gòu)化數(shù)據(jù)(如XML、EXCEL、文本和日志等)的數(shù)據(jù)源。非結(jié)構(gòu)化數(shù)據(jù)源主要指包含如圖像、音頻、視頻和掃描件等非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)源。1.3.3交換服務(wù)體系數(shù)據(jù)交換服務(wù)體系層主要用來完成數(shù)據(jù)中心存儲層與結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源之間的數(shù)據(jù)交換,可以采用數(shù)據(jù)層和應(yīng)用層兩種實現(xiàn)方式來實現(xiàn)。1.3.4數(shù)據(jù)層數(shù)據(jù)交換數(shù)據(jù)層信息交互主要通過數(shù)據(jù)聯(lián)邦、復制、清洗、轉(zhuǎn)換、流計算和消息傳輸?shù)燃夹g(shù)實現(xiàn)。數(shù)據(jù)層信息交互技術(shù)——聯(lián)邦聯(lián)邦技術(shù)是指通過對同構(gòu)或異構(gòu)關(guān)系型數(shù)據(jù)源以及半結(jié)構(gòu)化數(shù)據(jù)源的虛擬化基礎(chǔ),從而使應(yīng)用程序可以訪問和集成不同數(shù)據(jù)和內(nèi)容源(就如同它們是單個資源一樣)。在本小節(jié)銀行新一代數(shù)據(jù)中心示例中,通過聯(lián)邦技術(shù),可以透明和實時地訪問分布在總行和分行各個業(yè)務(wù)系統(tǒng)中的各種異構(gòu)數(shù)據(jù),可以把關(guān)系數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)(如Excel文件、XML文件、Web搜索引擎、IBMWebSphereMQ查詢和內(nèi)容源)組成一個邏輯數(shù)據(jù)庫,對這些數(shù)據(jù)源中的表(半結(jié)構(gòu)化的數(shù)據(jù)會被映射成表)可以像操作本地數(shù)據(jù)庫表一樣進行操作,而不必關(guān)心操作的這些昵稱底層是什么數(shù)據(jù)源,以及物理在什么位置等。數(shù)據(jù)層信息交互技術(shù)——復制復制技術(shù)是指通過捕獲數(shù)據(jù)源端表中數(shù)據(jù)的變化(增加、刪除或修改),并將這些變化發(fā)送到目的數(shù)據(jù)源,最終將其應(yīng)用到相應(yīng)的表中。在本小節(jié)銀行新一代數(shù)據(jù)中心示例中,為了不對(關(guān)系型)數(shù)據(jù)源造成比較大的壓力,通常針對大數(shù)據(jù)量的數(shù)據(jù)訪問或高并發(fā)的數(shù)據(jù)訪問使用增量(準)實時復制技術(shù)將數(shù)據(jù)從數(shù)據(jù)源復制到目的數(shù)據(jù)源,再由目的數(shù)據(jù)源提供數(shù)據(jù)訪問功能。通過對源數(shù)據(jù)庫的日志進行捕獲,獲取增量數(shù)據(jù),并基于消息傳輸機制將其復制到目的數(shù)據(jù)庫,復制的過程中可以實現(xiàn)數(shù)據(jù)的合并、拆分和轉(zhuǎn)換等操作。由于是對日志文件進行增量捕獲而不是對源庫中的表進行操作,所以對源庫業(yè)務(wù)壓力不大。數(shù)據(jù)層信息交互技術(shù)——清洗、轉(zhuǎn)換、加載數(shù)據(jù)清洗:主要是去除冗余數(shù)據(jù),將零散字段合并成全局記錄,并解決重疊和矛盾的數(shù)據(jù),然后通過添加關(guān)系和層次結(jié)構(gòu)完善豐富信息。在對現(xiàn)有數(shù)據(jù)足夠了解的基礎(chǔ)上(完成了數(shù)據(jù)分析),接下來就要制定數(shù)據(jù)的清洗規(guī)則以及轉(zhuǎn)換規(guī)則,其中,清洗規(guī)則又分為兩種情況:(1)清洗規(guī)則是明確的;(2)清洗規(guī)則是模糊的。清晰的數(shù)據(jù)清洗規(guī)則比較好處理,直接制定數(shù)據(jù)轉(zhuǎn)換規(guī)則并借助數(shù)據(jù)轉(zhuǎn)化工具(例如InfoSphereDataStage)進行轉(zhuǎn)換即可。針對模糊的清洗規(guī)則就需要使用數(shù)據(jù)概率算法匹配重復的數(shù)據(jù)記錄并自動地將數(shù)據(jù)轉(zhuǎn)換為經(jīng)過檢驗的標準格式(可以借助InfoSphereQualityStage來實現(xiàn)),消除數(shù)據(jù)源中的重復內(nèi)容,確保數(shù)據(jù)的一致性。模糊清洗規(guī)則例如在銀行不同業(yè)務(wù)系統(tǒng)中都存有地址信息。某業(yè)務(wù)系統(tǒng)中,某條客戶記錄地址信息為“北京市朝陽區(qū)北四環(huán)中路盤古大觀21層”,另一業(yè)務(wù)系統(tǒng)中某條客戶記錄了地址信息為“北京市北四環(huán)(中)路盤古大廈21層”。通過手工方式,可以判斷這兩個地址實際上是同一個地址,但計算機會當成兩個地址來處理,這時候就需要用到模糊匹配功能,數(shù)據(jù)層信息交互技術(shù)——流計算通過使用流計算工具(例如IBMInfoSphereSteams)監(jiān)控海量數(shù)據(jù)流,可以實時處理、過濾和分析流數(shù)據(jù),實現(xiàn)業(yè)務(wù)實時預警和事件處理等,同時可以將獲取的高價值結(jié)構(gòu)化分析結(jié)果存儲到數(shù)據(jù)倉庫中以便進一步分析,還可以將大量有價值數(shù)據(jù)(去除噪音后的原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))存儲到企業(yè)級Hadoop中以便后續(xù)分析處理。1.3.5應(yīng)用層數(shù)據(jù)交換應(yīng)用層數(shù)據(jù)交換主要基于程序接口、適配器、ESB總線和WebService等多種技術(shù)實現(xiàn)。同時,數(shù)據(jù)層很多數(shù)據(jù)交換作業(yè)也可以發(fā)布為WebService,從而允許用戶在應(yīng)用層對其進行調(diào)用。銀行新一代數(shù)據(jù)中心示例中,可以使用WebsphereMB和MQ構(gòu)建支持各種協(xié)議和數(shù)據(jù)格式的企業(yè)服務(wù)總線,各系統(tǒng)可以通過服務(wù)使用企業(yè)服務(wù)總線進行交互。系統(tǒng)間的信息格式、傳輸協(xié)議和采用技術(shù)的差異,以及物理位置的不同等問題都將被企業(yè)服務(wù)總線屏蔽,還可以將服務(wù)按照業(yè)務(wù)流程的需要重新進行編排,以便滿足業(yè)務(wù)的需要。1.3.6數(shù)據(jù)存儲區(qū)數(shù)據(jù)存儲區(qū)是數(shù)據(jù)中心所有數(shù)據(jù)的集中(物理或邏輯)存放地,主要用來存放各種歷史數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))、預測數(shù)據(jù)和匯總數(shù)據(jù)等,客戶特征庫和模型庫也在數(shù)據(jù)存儲區(qū),其他數(shù)據(jù)還有主數(shù)據(jù)管理集線器(MDMHub)相關(guān)的主數(shù)據(jù),地理信息系統(tǒng)相關(guān)的地理數(shù)據(jù)以及需要共享的數(shù)據(jù)等。需要注意的是,數(shù)據(jù)存儲區(qū)的結(jié)構(gòu)是一種邏輯描述,客戶實際部署時需要根據(jù)具體情況進行部署。1.3.6數(shù)據(jù)存儲區(qū)操作型數(shù)據(jù)存儲(OperationalDataStore,ODS):存放了數(shù)據(jù)中心需要用到的業(yè)務(wù)明細數(shù)據(jù)數(shù)據(jù)倉庫(Datawarehouse,DW):數(shù)據(jù)倉庫是用來存儲面向主題的、集成的、相對穩(wěn)定的和反映歷史變化的數(shù)據(jù),用于支持決策管理特征庫和模型庫:特征庫主要用來存儲經(jīng)過客戶分析生成的每個客戶分群的群組特征,(如年齡、單位、工作年限和地理位置,客戶選擇商家的心理特征、購買商品的可能性以及客戶對公司的累積價值等)。模型庫主要用來存放數(shù)據(jù)挖掘建模生成的業(yè)務(wù)模型,這些業(yè)務(wù)模型經(jīng)過評估合格后,將被用來支持企業(yè)的各種業(yè)務(wù)流程和決策。1.3.6數(shù)據(jù)存儲區(qū)預測數(shù)據(jù):主要用來存放依據(jù)業(yè)務(wù)模型預測的各種數(shù)據(jù),特別是無法明確描述出規(guī)則的業(yè)務(wù)模型,其預測的數(shù)據(jù)會直接存放在數(shù)據(jù)存儲區(qū)地理數(shù)據(jù):通常會單獨存儲在一個空間數(shù)據(jù)庫,別的應(yīng)用程序可以通過接口或WebService方式調(diào)用GIS地理數(shù)據(jù)引擎獲得想要的地理數(shù)據(jù)。共享數(shù)據(jù):存放需要進行共享的數(shù)據(jù),可以和數(shù)據(jù)倉庫或ODS等存儲在一起也可以分開存儲MDMHub:用來存儲主數(shù)據(jù),為主數(shù)據(jù)管理引擎提供數(shù)據(jù)支撐大數(shù)據(jù):大數(shù)據(jù)主要指各種原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),為大數(shù)據(jù)分析提供數(shù)據(jù)支持。常采用HDFS或GPFSFilePlaceOptimizer(GPFS-FPO)文件系統(tǒng)1.3.7基礎(chǔ)服務(wù)層基礎(chǔ)服務(wù)層主要包括構(gòu)建創(chuàng)新型應(yīng)用所需的各種核心引擎,除了傳統(tǒng)的應(yīng)用服務(wù)器、關(guān)系型數(shù)據(jù)庫(數(shù)據(jù)倉庫)引擎、ESB和流程整合引擎、消息中間件以外,還包括OLAP引擎、數(shù)據(jù)挖掘引擎、規(guī)則引擎、協(xié)同引擎、事件驅(qū)動、主數(shù)據(jù)管理引擎和GIS引擎等,另外還有針對原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)分析引擎,針對所有的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的聯(lián)邦和可視化工具以及針對流數(shù)據(jù)的流分析引擎。1.3.8應(yīng)用層基于數(shù)據(jù)中心提供的全面的預測分析能力和信息單一視圖,銀行可以構(gòu)建各種全新的應(yīng)用。例如反欺詐/反洗錢、風險和合規(guī)管理、分析型CRM(CustomRelationshipManagement)、新一代CoreBanking、風險信貸管理、渠道整合和實時決策等。基于越來越多的創(chuàng)新型應(yīng)用,銀行可以有效地提升業(yè)務(wù)流程處理速度和決策速度,給客戶提供各種個性化的服務(wù),從而提升競爭優(yōu)勢,降低生產(chǎn)成本和風險。1.3.9用戶終端層在用戶終端層,用戶可以通過各種終端訪問多種應(yīng)用(如門戶系統(tǒng)、新一代網(wǎng)銀、MDM管理和各種運營分析系統(tǒng)),銀行工作人員可以通過門戶系統(tǒng)隨時查看待辦任務(wù)、定制個性化頁面和查詢各種內(nèi)容和圖表,可以基于各種移動互聯(lián)接入設(shè)備如智能手機、平板電腦、掌上電腦等訪問各種創(chuàng)新型應(yīng)用;用戶可以通過PC(PersonalComputer)、移動互聯(lián)設(shè)備和ATM等使用各種自助服務(wù)。1.3.10數(shù)據(jù)治理數(shù)據(jù)治理(DataGovernance)也被稱為數(shù)據(jù)管控或數(shù)據(jù)監(jiān)管,是指通過對貫穿整個企業(yè)信息的完整管理,解決信息冗余、沖突、缺失和錯誤等問題從而保證數(shù)據(jù)一致性和相關(guān)性。數(shù)據(jù)治理其實是將企業(yè)信息作為一種資源加以管理并實施領(lǐng)導和控制,保證其滿足企業(yè)的需求而不偏離方向。數(shù)據(jù)治理是實現(xiàn)智慧的分析洞察、構(gòu)建數(shù)據(jù)中心的一個關(guān)鍵流程,可以幫助企業(yè)避免各種操作違規(guī),降低合規(guī)性風險。同時,數(shù)據(jù)治理和元數(shù)據(jù)管理相結(jié)合可以更好的了解數(shù)據(jù)以及管理數(shù)據(jù)。1.3.11元數(shù)據(jù)管理元數(shù)據(jù)管理(MetadataManagement)會貫穿整個企業(yè)的所有層面,具體包括業(yè)務(wù)元數(shù)據(jù)、操作元數(shù)據(jù)和技術(shù)元數(shù)據(jù)等,通過公共倉庫元模型CWM(CommonWarehouseMetamodel)構(gòu)建公共元數(shù)據(jù)存儲庫、元模型(Metamodel)、元元模型(Meta-metamodel)和CWM元數(shù)據(jù)交換適配器(Adapter)等,可以實現(xiàn)企業(yè)級元數(shù)據(jù)的完整管理。通過元數(shù)據(jù)管理,用戶可以進行元數(shù)據(jù)分析并為整個信息供應(yīng)鏈提供全程的數(shù)據(jù)流報告、基于字段或作業(yè)的數(shù)據(jù)世系分析、影響分析和系統(tǒng)相關(guān)性分析等。數(shù)據(jù)世系分析示例當用戶在查看客戶購買行為的年度報表時,可以依據(jù)圖形化的方式對客戶姓名等字段進行正向追溯或逆向追溯(數(shù)據(jù)世系分析或血緣分析),了解客戶姓名字段都經(jīng)歷了哪些變化,并查看字段在信息供應(yīng)鏈各組件間轉(zhuǎn)換是否正確等數(shù)據(jù)世系分析示例當需要改變ETL作業(yè)中的某個字段(如CUST_NAME)時,通過圖形化的字段影響分析可以清楚的看到哪些作業(yè)和報表會受到這種改變的影響,從而及時通知相關(guān)系統(tǒng)進行變更。1.3.12IT安全運維管理隨著信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論