園區(qū)大數(shù)據(jù)治理解決方案相關(guān)兩份資料_第1頁
園區(qū)大數(shù)據(jù)治理解決方案相關(guān)兩份資料_第2頁
園區(qū)大數(shù)據(jù)治理解決方案相關(guān)兩份資料_第3頁
園區(qū)大數(shù)據(jù)治理解決方案相關(guān)兩份資料_第4頁
園區(qū)大數(shù)據(jù)治理解決方案相關(guān)兩份資料_第5頁
已閱讀5頁,還剩162頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

園區(qū)園區(qū)大數(shù)據(jù)治理解決方案目錄CONTENTS1園區(qū)大數(shù)據(jù)治理綜述2園區(qū)大數(shù)據(jù)治理總體架構(gòu)3園區(qū)大數(shù)據(jù)治理演進路線4園區(qū)大數(shù)據(jù)治理建設實施5園區(qū)大數(shù)據(jù)治理治理目錄CONTENTS1園區(qū)大數(shù)據(jù)治理綜述智慧園區(qū)分析類應用建設現(xiàn)狀基本分析智慧園區(qū)是綜合運用以物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)和移動互聯(lián)網(wǎng)等為代表的現(xiàn)代科學技術(shù)和手段,是集高端發(fā)展的網(wǎng)絡化、信息化、智能化和現(xiàn)代化于一體的智慧園區(qū),是以智慧管理、智慧產(chǎn)業(yè)、智慧民生等為重要內(nèi)容的園區(qū)發(fā)展的新模式。智慧管理、智慧產(chǎn)業(yè)、智慧民生三大工程助力智慧園區(qū)建設。智慧園區(qū)智慧園區(qū)分析類應用建設現(xiàn)狀基本分析智慧園區(qū)分析類應用建設現(xiàn)狀基本分析智慧園區(qū)分析類應用建設現(xiàn)狀基本分析全面物聯(lián)充分整合協(xié)同運作激勵創(chuàng)新即智能傳感設備將園區(qū)公共設施物聯(lián)成網(wǎng)。物聯(lián)網(wǎng)與互聯(lián)網(wǎng)系統(tǒng)完全對接融合。園區(qū)的各個關(guān)鍵系統(tǒng)和參與者進行和諧高效地協(xié)作。園區(qū)、企業(yè)在智慧基礎設施之上進行科技和業(yè)務的創(chuàng)新應用。大數(shù)據(jù)服務內(nèi)容大數(shù)據(jù)全鏈路解決方案產(chǎn)業(yè)融合數(shù)據(jù)規(guī)劃硬件體系智慧運營數(shù)據(jù)中臺的開發(fā)與部署數(shù)據(jù)治理數(shù)據(jù)鏈接數(shù)據(jù)資產(chǎn)化數(shù)據(jù)挖掘大數(shù)據(jù)產(chǎn)品的開發(fā)及應用智慧展廳智慧園區(qū)企業(yè)服務人工智能數(shù)據(jù)產(chǎn)業(yè)運營支持大數(shù)據(jù)產(chǎn)業(yè)研究傳統(tǒng)產(chǎn)業(yè)促進人才培養(yǎng)技術(shù)創(chuàng)新邏輯關(guān)系感知層手機呼叫中心無線網(wǎng)絡攝像頭傳感器網(wǎng)絡internet平臺層系統(tǒng)層應用層游客管理系統(tǒng)智慧展廳企業(yè)畫像園區(qū)管理企業(yè)服務行業(yè)監(jiān)測企業(yè)服務系統(tǒng)幸福園區(qū)APP一個數(shù)據(jù)平臺五大業(yè)務應用三大工作步驟一套硬件體系數(shù)據(jù)治理數(shù)據(jù)資產(chǎn)化數(shù)據(jù)產(chǎn)品化一個數(shù)據(jù)平臺:數(shù)據(jù)中臺數(shù)據(jù)治理數(shù)據(jù)管理數(shù)據(jù)模型算法服務數(shù)據(jù)產(chǎn)品1、對于一個智慧園區(qū)或者產(chǎn)業(yè)園區(qū)來講,肯定包含了很多的系統(tǒng),如:停車系統(tǒng),企業(yè)服務系統(tǒng)、政務系統(tǒng)、網(wǎng)站、APP等等,這些系統(tǒng)所產(chǎn)生的數(shù)據(jù)需要有統(tǒng)一的數(shù)據(jù)中臺來進行管理;2、通過業(yè)務對中臺的字滋養(yǎng),可以培育產(chǎn)生新的業(yè)務,培養(yǎng)新的人才數(shù)據(jù)應用架構(gòu)第三方數(shù)據(jù)各管理系統(tǒng)、園區(qū)APP等企業(yè)數(shù)據(jù)C端數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)管理后臺數(shù)據(jù)流動數(shù)據(jù)過程數(shù)據(jù)數(shù)據(jù)Minpping數(shù)據(jù)清洗數(shù)據(jù)歸一智慧園區(qū)標簽類目體系(初擬)服務引擎可視化組件項目信息智能設備物業(yè)公司入駐企業(yè)消費者投資者物業(yè)服務企業(yè)服務員工服務投資者服務網(wǎng)絡輿情供應鏈網(wǎng)絡數(shù)據(jù)………IBMS交通探針wifi安防通訊能耗管理建筑設備全壽命管理智慧交通智慧安防中央控制中心第三方應用應用1應用2應用3應用n數(shù)據(jù)采集層數(shù)據(jù)中臺數(shù)據(jù)應用層…企業(yè)監(jiān)管企業(yè)服務可視化應用員工服務……能耗設施設備物聯(lián)網(wǎng)數(shù)據(jù)旅游數(shù)據(jù)政務數(shù)據(jù)文化體育產(chǎn)業(yè)服務企業(yè)服務智慧園區(qū)智慧生態(tài)鏈

執(zhí)法監(jiān)督智慧旅游行業(yè)發(fā)展信用融資智慧招商智慧教育設備預警智慧交通企業(yè)風控智慧物管員工服務智慧展廳

創(chuàng)新引導智慧安防能耗管理智慧體育智慧園區(qū)智慧政務智慧管理智慧產(chǎn)業(yè)智慧服務大數(shù)據(jù)對園區(qū)的意義

實現(xiàn)由智能化到智慧化的轉(zhuǎn)變?yōu)閳@區(qū)園區(qū)提供大數(shù)據(jù)管理模式大數(shù)據(jù)為企業(yè)提供全生命周期的服務構(gòu)建園區(qū)與產(chǎn)業(yè)之間的大數(shù)據(jù)生態(tài)體系業(yè)務數(shù)據(jù)化:數(shù)據(jù)來源系統(tǒng)集成平臺數(shù)據(jù)門禁信息數(shù)據(jù)、車輛管理信息數(shù)據(jù)、探針數(shù)據(jù)、WIFI信息數(shù)據(jù)、攝像頭數(shù)據(jù)、電梯運行數(shù)據(jù)、能耗數(shù)據(jù)、刷卡數(shù)據(jù)、設備使用數(shù)據(jù)、硬件設備日志、智能化數(shù)據(jù)等等平臺系統(tǒng)數(shù)據(jù)商務數(shù)據(jù)、企業(yè)基礎服務數(shù)據(jù)、繳費數(shù)據(jù)、政策數(shù)據(jù)、商旅數(shù)據(jù)、接待數(shù)據(jù)、設備使用數(shù)據(jù)、企業(yè)活動數(shù)據(jù)、企業(yè)裝修信息,園區(qū)消費者信息、日常生活數(shù)據(jù)、通勤數(shù)據(jù)、招商數(shù)據(jù)、租金管理數(shù)據(jù)等等業(yè)態(tài)綜合數(shù)據(jù)酒店數(shù)據(jù)(酒店公司數(shù)據(jù)、客人數(shù)據(jù)、會員數(shù)據(jù)、交易數(shù)據(jù)、網(wǎng)絡數(shù)據(jù)等等);商業(yè)數(shù)據(jù)(運營數(shù)據(jù)、管理數(shù)據(jù)、C端數(shù)據(jù)、交易數(shù)據(jù)、網(wǎng)絡數(shù)據(jù)、偏好信息);體育中心數(shù)據(jù)(運營數(shù)據(jù)、管理數(shù)、活動數(shù)據(jù)、比賽數(shù)據(jù)、會員數(shù)據(jù),人流數(shù)據(jù)、運動數(shù)據(jù))等等物業(yè)管理數(shù)據(jù)項目基礎信息,設備供應商信息,服務商信息,物業(yè)公司信息、無關(guān)員工信息、物業(yè)歸屬信息、物業(yè)管理日志、物業(yè)服務日志、報修信息、工單信息、滿意度信息、投訴信息等等企業(yè)信息數(shù)據(jù)企業(yè)數(shù)量、企業(yè)名稱、企業(yè)類型、法人代表、企業(yè)規(guī)模、企業(yè)發(fā)展、業(yè)務業(yè)務、財務數(shù)據(jù)、稅務數(shù)據(jù)、員工信息、員工數(shù)量、員工結(jié)構(gòu)、人員流動、薪資變動等等第三方數(shù)據(jù)用電信息、用水信息、通信數(shù)據(jù)、銀行數(shù)據(jù)、工商數(shù)據(jù)、稅務數(shù)據(jù)、園區(qū)管委會數(shù)據(jù)、行政數(shù)據(jù)、執(zhí)法數(shù)據(jù)、質(zhì)監(jiān)質(zhì)檢數(shù)據(jù)、媒體信息、信用機構(gòu)數(shù)據(jù)、協(xié)會數(shù)據(jù)等等智慧智慧園區(qū)分析類應用建設現(xiàn)狀基本分析關(guān)注的內(nèi)容存在的問題基本的現(xiàn)狀園區(qū)大數(shù)據(jù)治理累積數(shù)據(jù)沒有充分利用缺乏面向整個園區(qū)的統(tǒng)一、完整的數(shù)據(jù)視圖;缺乏支撐園區(qū)日常應急運轉(zhuǎn)的風險評估體系;缺乏園區(qū)服務360度視圖,服務行為分析和預測無法實現(xiàn);缺乏面向銀行應急運營管理的關(guān)鍵績效指標體系;……園區(qū)已建立面向整個園區(qū)服務的數(shù)據(jù)倉庫,整合了前臺應急運營數(shù)據(jù)和后臺管理數(shù)據(jù),建立了面向園區(qū)服務的管理分析應用;園區(qū)已開展服務民生等多種應急,積累了一定量的應急數(shù)據(jù),同時應急人員也從服務管理、風險評級和經(jīng)營規(guī)模預測等方面,提出了大量分析預測需求;……數(shù)據(jù)平臺、數(shù)據(jù)應用、數(shù)據(jù)管控……基礎數(shù)據(jù)平臺和BI應用建設是未來一段時間的重點!數(shù)據(jù)平臺整體架構(gòu);數(shù)據(jù)平臺各層建設的標準;較成熟的銀行業(yè)數(shù)據(jù)模型;數(shù)據(jù)質(zhì)量治理;元數(shù)據(jù)管理;

數(shù)據(jù)標準建設數(shù)據(jù)整合;

數(shù)據(jù)應用建設;數(shù)據(jù)平臺的軟硬環(huán)境……園區(qū)大數(shù)據(jù)治理建設目標外部非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一制定目標和分析模型統(tǒng)一劃分分析主題統(tǒng)一設計數(shù)據(jù)模式統(tǒng)一規(guī)劃分析方法統(tǒng)一部署技術(shù)基礎統(tǒng)一定義BI應用自定義報表工具行+列的簡單定義方式多種格式報表園區(qū)決策層園區(qū)職能管控層各級應急操作層關(guān)注園區(qū)主要經(jīng)營指標應急人員使用BI應用實現(xiàn)應急協(xié)作和創(chuàng)新BI分析工具供應鏈銀行系統(tǒng)POP系統(tǒng)其他應急系統(tǒng)云數(shù)據(jù)推送平臺已實現(xiàn)了主要園區(qū)服務及銀行應急系統(tǒng)數(shù)據(jù)清洗、整合,為未來園區(qū)數(shù)據(jù)平臺提供了豐富的數(shù)據(jù)源。通過數(shù)據(jù)平臺和BI應用建設,園區(qū)將搭建統(tǒng)一的大數(shù)據(jù)共享和分析平臺,對各類應急進行前瞻性預測及分析,為園區(qū)各層次用戶提供統(tǒng)一的決策分析支持,提升數(shù)據(jù)共享與流轉(zhuǎn)能力采購管理系統(tǒng)查看職能單位的應急經(jīng)營情況智慧園區(qū)大數(shù)據(jù)治理頂層框架智慧園區(qū)大數(shù)據(jù)治理建設預期收益2.加強應急協(xié)作實現(xiàn)分散在服務民生等各個應急系統(tǒng)中的數(shù)據(jù)在數(shù)據(jù)平臺中的集中和整合,建立單一的產(chǎn)品、服務等數(shù)據(jù)的園區(qū)級視圖,有效促進應急的集成和協(xié)作,并為園區(qū)級分析、交叉銷售提供基礎3.促進應急創(chuàng)新園區(qū)應急人員可以基于明細、可信的數(shù)據(jù),進行多維分析和數(shù)據(jù)挖掘,為銀行應急創(chuàng)新(服務服務創(chuàng)新、產(chǎn)品創(chuàng)新等)創(chuàng)造了有利條件4.提升建設效率通過數(shù)據(jù)平臺對數(shù)據(jù)進行集中,為管理分析、挖掘預測類等系統(tǒng)提供一致的數(shù)據(jù)基礎,改變現(xiàn)有系統(tǒng)數(shù)據(jù)來源多、數(shù)據(jù)處理復雜的現(xiàn)狀,實現(xiàn)應用系統(tǒng)建設模式的轉(zhuǎn)變,提升相關(guān)IT系統(tǒng)的建設和運行效率5.改善數(shù)據(jù)質(zhì)量從中長期看,數(shù)據(jù)倉庫對園區(qū)分散在各個應急系統(tǒng)中的數(shù)據(jù)整合、清洗,有助于園區(qū)整體數(shù)據(jù)質(zhì)量的改善,提高的數(shù)據(jù)的實用性通過數(shù)據(jù)平臺實現(xiàn)數(shù)據(jù)集中,確保園區(qū)各級單位均可在保證數(shù)據(jù)隱私和安全的前提下使用數(shù)據(jù),充分發(fā)揮數(shù)據(jù)作為園區(qū)重要資產(chǎn)的應急價值1.實現(xiàn)數(shù)據(jù)共享智慧園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)管控體系運轉(zhuǎn)機制管控組織數(shù)據(jù)管控委員會數(shù)據(jù)所有人數(shù)據(jù)認責人IT支持……管控流程數(shù)據(jù)接入流程數(shù)據(jù)變更流程數(shù)據(jù)授權(quán)流程數(shù)據(jù)退役流程標準/政策制定流程評價考核流程……評價與考核標準(數(shù)據(jù)標準、質(zhì)量要求、安全要求)遵守標準所需要的政策政策與標準遵從考評定義……數(shù)據(jù)產(chǎn)生者數(shù)據(jù)使用者………流程支撐流程支撐制定管控平臺工具支撐明確了數(shù)據(jù)管控過程中的組織結(jié)構(gòu)、角色、職責等。管控組織除了要負責制定數(shù)據(jù)標準、質(zhì)量、安全等要求外,還需要負責制定管控的相關(guān)流程和評價考核指標等內(nèi)容??荚u制定通過建立一些定性或定量的數(shù)據(jù)管控評價考核指標,去評估及考核數(shù)據(jù)相關(guān)責任人職責履行情況、數(shù)據(jù)管控標準及數(shù)據(jù)政策的執(zhí)行情況等。規(guī)范了數(shù)據(jù)管控過程中,各個環(huán)節(jié)日常任務處理的運作模式,例如數(shù)據(jù)定義如何變更、數(shù)據(jù)沖突如何協(xié)調(diào)等。采用專門的技術(shù)平臺支撐管控流程的自動化,發(fā)布管控組織制定的一些相關(guān)標準和規(guī)范,及時反映管控過程中存在的一些問題等。管控綜合管理標準/規(guī)范管理流程管理考核儀表盤……元數(shù)據(jù)管理應急元數(shù)據(jù)管理技術(shù)元數(shù)據(jù)管理管理元數(shù)據(jù)分析……數(shù)據(jù)質(zhì)量管理稽核規(guī)則管理數(shù)據(jù)稽核質(zhì)量報告……工具支撐組織架構(gòu)、評價與考核、管控流程、管控工具這四個域相互作用、相互支撐,提供對各信息系統(tǒng)數(shù)據(jù)的管控。目錄CONTENTS2園區(qū)大數(shù)據(jù)治理總體架構(gòu)智慧園區(qū)大數(shù)據(jù)治理總體架構(gòu)智慧園區(qū)大數(shù)據(jù)治理總體架構(gòu)智慧園區(qū)大數(shù)據(jù)治理總體架構(gòu)智慧園區(qū)大數(shù)據(jù)治理總體架構(gòu)智慧園區(qū)大數(shù)據(jù)治理總體架構(gòu)智慧園區(qū)大數(shù)據(jù)治理總體架構(gòu)智慧園區(qū)大數(shù)據(jù)治理總體架構(gòu)智慧園區(qū)大數(shù)據(jù)治理總體架構(gòu)智慧園區(qū)大數(shù)據(jù)治理總體架構(gòu)智慧園區(qū)大數(shù)據(jù)治理總體架構(gòu)歷史數(shù)據(jù)查詢數(shù)據(jù)交換平臺應用集市數(shù)據(jù)區(qū)園區(qū)園區(qū)服務公檢法系統(tǒng)輿情控制系統(tǒng)金融系統(tǒng)……系統(tǒng)園區(qū)內(nèi)外部半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)交換組件數(shù)據(jù)庫數(shù)據(jù)交換組件數(shù)據(jù)區(qū)數(shù)據(jù)交換組件數(shù)據(jù)計算層大數(shù)據(jù)區(qū)沙盤演練數(shù)據(jù)區(qū)數(shù)據(jù)應用層實時數(shù)據(jù)區(qū)服務主題協(xié)議主題產(chǎn)品主題應急沙盤演練數(shù)據(jù)增值產(chǎn)品園區(qū)服務數(shù)據(jù)供應鏈數(shù)據(jù)增值產(chǎn)品數(shù)據(jù)區(qū)主題數(shù)據(jù)區(qū)……用戶訪問層服務匯總賬戶匯總機構(gòu)匯總……社交媒體移動互聯(lián)用戶評價訪問日志處理后大數(shù)據(jù)待處理大數(shù)據(jù)流程調(diào)度監(jiān)控告警數(shù)據(jù)標準數(shù)據(jù)質(zhì)量元數(shù)據(jù)數(shù)據(jù)安全流程調(diào)度平臺……數(shù)據(jù)管控平臺流程調(diào)度層數(shù)據(jù)管控層數(shù)據(jù)產(chǎn)生層數(shù)據(jù)交換層實時數(shù)據(jù)查詢服務管理財務管理……外部用戶貼源數(shù)據(jù)區(qū)……管理分析用戶歷史歸檔數(shù)據(jù)區(qū)IT人員風險管理智慧園區(qū)大數(shù)據(jù)治理總體產(chǎn)品框架非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)管理分析平臺(X86MPP集群)應急系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)基礎計算平臺(貼源數(shù)據(jù)區(qū)+主題數(shù)據(jù)區(qū)+大數(shù)據(jù)區(qū))(Hadoop集群+Hive)數(shù)據(jù)交換平臺(自主開發(fā)交換組件+NAS存儲)實時分析平臺(內(nèi)存數(shù)據(jù)庫)沙盤演練平臺(Hadoop集群)數(shù)據(jù)大腦管控平臺FTPSFTP/HTTP/APICopyfromloalQueue云數(shù)據(jù)推送平臺增值產(chǎn)品平臺(Hadoop集群)歷史歸檔查詢平臺(Hadoop集群+Hive)Load(Hive)DistcpHQL+LoadDistcpDistcpHQL+LoadDistcpHQL+LoadSqoopSqoopSqoopMR流程調(diào)度平臺園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)產(chǎn)生層應急系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)園區(qū)日常園區(qū)服務處理過程中產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),存儲在關(guān)系型數(shù)據(jù)庫中,如:……園區(qū)日常應急處理過程中產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),存儲在關(guān)系型數(shù)據(jù)庫中,如:……園區(qū)非結(jié)構(gòu)化數(shù)據(jù)日常應急處理過程中產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),存儲形式多樣,主要包括用戶訪問日志、用戶投訴、用戶點評……園區(qū)外部數(shù)據(jù)園區(qū)外部數(shù)據(jù)以非結(jié)構(gòu)化為主,主要包括國家政策法規(guī)、論壇等互聯(lián)網(wǎng)信息、地理位置等移動信息、微博等社交媒體信息……

源數(shù)據(jù)內(nèi)容在本次項目實施中將采用以增量為主、全量為輔結(jié)合的方式獲取源數(shù)據(jù)園區(qū)和園區(qū)應急系統(tǒng)的數(shù)據(jù)增量數(shù)據(jù)識別、獲取由云數(shù)據(jù)推送平臺負責,云數(shù)據(jù)推送平臺采用分析、對比源系統(tǒng)日志方式實現(xiàn)對于無法通過上述方式獲取增量的源系統(tǒng)數(shù)據(jù),則采用某一個時間范圍內(nèi)的全部數(shù)據(jù)作為增量初始數(shù)據(jù)加載均采用全量模式源數(shù)據(jù)增量園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)交換層數(shù)據(jù)交換層設計目標傳輸組件是根據(jù)數(shù)據(jù)源存儲的不同分類而設計的,本質(zhì)是通過分析數(shù)據(jù)存儲結(jié)構(gòu)和數(shù)據(jù)存儲庫的特點來針對性的設計工具,以追求卓越的性能保證數(shù)據(jù)在平臺內(nèi)高速流轉(zhuǎn)保證數(shù)據(jù)交換過程中不失真保證數(shù)據(jù)交換過程中不丟失保證數(shù)據(jù)交換過程安全可靠數(shù)據(jù)區(qū)數(shù)據(jù)交換組件數(shù)據(jù)庫數(shù)據(jù)交換組件大數(shù)據(jù)交換組件園區(qū)系統(tǒng)數(shù)據(jù)服務層外部大數(shù)據(jù)園區(qū)系統(tǒng)Hadoop元數(shù)據(jù)云數(shù)據(jù)推送平臺數(shù)據(jù)平臺導入臨時區(qū)數(shù)據(jù)平臺導出臨時區(qū)NAS存儲ETL程序區(qū)園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)交換層NAS存儲Hadoop集群元數(shù)據(jù)區(qū)ETL數(shù)據(jù)處理程序區(qū)數(shù)據(jù)平臺臨時數(shù)據(jù)區(qū)存儲數(shù)據(jù)平臺各個Hadoop集群的元數(shù)據(jù)信息,如:HDFS文件系統(tǒng)元數(shù)據(jù)園區(qū)數(shù)據(jù)交換平臺每日獲取運輸局推送平臺提供的應急系統(tǒng)變化數(shù)據(jù),暫存在NAS臨時數(shù)據(jù)區(qū)銀行數(shù)據(jù)平臺加工計算結(jié)果返回給應急系統(tǒng),暫存在NAS臨時數(shù)據(jù)區(qū)數(shù)據(jù)平臺ETL加工處理程序(數(shù)據(jù)壓縮、數(shù)據(jù)加載、各數(shù)據(jù)數(shù)據(jù)處理等)統(tǒng)一存儲在NAS集群指定目錄,各接口服務器通過文件系統(tǒng)Link建立映射園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)交換層大數(shù)據(jù)交換組件園區(qū)非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),如:音頻、視頻、郵件、Office文檔、抵押品掃描件等園區(qū)外部非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),如:微博、貼吧、論壇、用戶點擊流、用戶移動位置等批量采集:大數(shù)據(jù)源以SFTP協(xié)議批量傳輸數(shù)據(jù)文件在線訪問:開發(fā)Java或C應用,調(diào)用大據(jù)源API,或以網(wǎng)絡平臺爬蟲方式抓取源系統(tǒng)非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)組件以實時和批量兩種模式實現(xiàn)下列功能:數(shù)據(jù)采集數(shù)據(jù)傳輸?shù)綌?shù)據(jù)交換平臺(接口服務器)NAS指定目錄存儲數(shù)據(jù)到數(shù)據(jù)平臺大數(shù)據(jù)區(qū)指定HDFS目錄定時抽取用戶訪問日志,加載到數(shù)據(jù)平臺大數(shù)據(jù)區(qū)HDFS指定目錄,MR程序加工處理開發(fā)網(wǎng)絡爬蟲程序,掃描用戶微博,抓取用戶微博內(nèi)容,社交圈信息,存入大數(shù)據(jù)區(qū)處理對象實現(xiàn)技術(shù)實現(xiàn)功能應用場景智慧園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)交換層數(shù)據(jù)庫數(shù)據(jù)交換組件園區(qū)應急系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),包括兩大來源:園區(qū)園區(qū)服務數(shù)據(jù),數(shù)據(jù)存儲在Oracle、SQLServer、MySQL和MongoDB四類數(shù)據(jù)庫園區(qū)互聯(lián)網(wǎng)銀行應急數(shù)據(jù),數(shù)據(jù)存儲在MySQL數(shù)據(jù)庫Perl程序數(shù)據(jù)采集,調(diào)用Perl文件模塊相關(guān)函數(shù),輪詢指定目錄,獲取數(shù)據(jù)文件數(shù)據(jù)核查,Perl執(zhí)行文件級數(shù)據(jù)質(zhì)量檢查數(shù)據(jù)加載,調(diào)用HiveLoad數(shù)據(jù)命令,加載到數(shù)據(jù)平臺臨時數(shù)據(jù)區(qū)的HiveTable組件以實時和批量模式實現(xiàn)下列功能:數(shù)據(jù)采集,輪詢NAS集群指定目錄,獲取數(shù)據(jù)文件(LZO壓縮)數(shù)據(jù)核查,對數(shù)據(jù)文件進行質(zhì)量校驗數(shù)據(jù)加載,加載數(shù)據(jù)到臨時數(shù)據(jù)區(qū)云數(shù)據(jù)推送平臺連接供應鏈銀行系統(tǒng)數(shù)據(jù)庫,分析供應鏈銀行MySQL數(shù)據(jù)庫日志,識別增量數(shù)據(jù),存儲到銀行平臺NAS存儲的指定目錄,銀行平臺加載數(shù)據(jù)文件到數(shù)據(jù)平臺臨時區(qū)Hive表處理對象實現(xiàn)技術(shù)實現(xiàn)功能應用場景園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)交換層數(shù)據(jù)區(qū)數(shù)據(jù)交換組件數(shù)據(jù)平臺計算層各數(shù)據(jù)區(qū)貼源數(shù)據(jù)區(qū)主題數(shù)據(jù)區(qū)集市數(shù)據(jù)區(qū)沙盤數(shù)據(jù)區(qū)大數(shù)據(jù)區(qū)歸檔數(shù)據(jù)區(qū)Sqoop實現(xiàn)集市數(shù)據(jù)區(qū)與數(shù)據(jù)平臺其他Hadoop數(shù)據(jù)區(qū)的數(shù)據(jù)交換Hadoop命令、Hive外部表、MR程序?qū)崿F(xiàn)數(shù)據(jù)平臺Hadoop數(shù)據(jù)區(qū)間的數(shù)據(jù)交換組件以批量方式實現(xiàn)下列數(shù)據(jù)交換功能:貼源數(shù)據(jù)區(qū)和主題數(shù)據(jù)區(qū)到集市數(shù)據(jù)區(qū)大數(shù)據(jù)區(qū)到主題數(shù)據(jù)區(qū)和集市數(shù)據(jù)區(qū)主題數(shù)據(jù)區(qū)、貼源數(shù)據(jù)區(qū)、集市數(shù)據(jù)區(qū)到沙盤數(shù)據(jù)區(qū)各個數(shù)據(jù)區(qū)數(shù)據(jù)歸檔數(shù)據(jù)集市的數(shù)據(jù)按照據(jù)生命周期規(guī)劃,統(tǒng)一將過期數(shù)據(jù)歸檔到歷史數(shù)據(jù)歸檔區(qū)處理對象實現(xiàn)技術(shù)實現(xiàn)功能應用場景智慧園區(qū)大數(shù)據(jù)治理總體架構(gòu)——流程調(diào)度層批量處理流程批量數(shù)據(jù)處理由流程調(diào)度層部署的自定義開發(fā)WorkFlow組件調(diào)度運行整個流程主要完成如下工作:獲取應急系統(tǒng)結(jié)構(gòu)化數(shù)據(jù),存入臨時數(shù)據(jù)區(qū)獲取園區(qū)內(nèi)外部非結(jié)構(gòu)化數(shù)據(jù),并進行結(jié)構(gòu)化處理,存入主題或集市數(shù)據(jù)區(qū)按照貼源數(shù)據(jù)模型整合數(shù)據(jù)(標準化、數(shù)據(jù)更新/追加)按照主題數(shù)據(jù)模型整合數(shù)據(jù)并生成匯總數(shù)據(jù)加工計算后,結(jié)果交付到數(shù)據(jù)集市,支持分析類應用園區(qū)大數(shù)據(jù)治理總體架構(gòu)——流程調(diào)度層實時數(shù)據(jù)處理流程實時數(shù)據(jù)處理強調(diào)的是實時或準實時獲取并處理數(shù)據(jù),通常采取消息隊列等技術(shù)構(gòu)建“數(shù)據(jù)流”整個處理流程由流程調(diào)度層部署的自定義開發(fā)WorkFlow組件調(diào)度運行整個流程主要完成如下工作:通過數(shù)據(jù)庫數(shù)據(jù)交換組件獲取增量數(shù)據(jù),加載到實時數(shù)據(jù)區(qū)通過大數(shù)據(jù)交換組件獲取非結(jié)構(gòu)化數(shù)據(jù),并利用Storm處理數(shù)據(jù),加載到實時數(shù)據(jù)區(qū)針對實時數(shù)據(jù)區(qū)數(shù)據(jù)執(zhí)行標準化處理和貼源整合園區(qū)大數(shù)據(jù)治理總體架構(gòu)——流程調(diào)度層歸檔數(shù)據(jù)處理流程數(shù)據(jù)歸檔的對象包括應急系統(tǒng)數(shù)據(jù)文件、貼源數(shù)據(jù)區(qū)數(shù)據(jù)、主題數(shù)據(jù)區(qū)數(shù)據(jù)、大數(shù)據(jù)區(qū)數(shù)據(jù)和集市數(shù)據(jù)區(qū)數(shù)據(jù)數(shù)據(jù)按照生命周期規(guī)劃存儲到歸檔區(qū)Hadoop集群,歸檔后原數(shù)據(jù)區(qū)刪除此數(shù)據(jù)整個處理流程由流程調(diào)度層部署的自定義開發(fā)WorkFlow組件調(diào)度運行整個流程主要完成如下工作:數(shù)據(jù)文件通過HDFS命令行copyfromlocal進行歸檔貼源、主題和大數(shù)據(jù)區(qū)通過HDFS命令行distcp或自定義開發(fā)的MR程序執(zhí)行歸檔集市數(shù)據(jù)區(qū)通過Sqoop或數(shù)據(jù)庫提供的Hadoop集成技術(shù)(如:外部表)執(zhí)行歸檔園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)存儲層應急系統(tǒng)前日增量數(shù)據(jù)緩存數(shù)據(jù),支持后續(xù)ELT數(shù)據(jù)處理數(shù)據(jù)內(nèi)容主要用途數(shù)據(jù)模型保留周期用戶

訪問模式工作負載平臺要求貼源數(shù)據(jù)模型保存最近7天數(shù)據(jù)貼源數(shù)據(jù)區(qū)和主題數(shù)據(jù)區(qū)批量作業(yè)訪問無最終用戶訪問I/O敏感,連續(xù)小批量的數(shù)據(jù)抽取和加載少量量數(shù)據(jù)使用Hive的Load命令,大量數(shù)據(jù)使用MR程序與主題區(qū)/貼源區(qū)/集市區(qū)構(gòu)成一個Hadoop集群(Hive)無單點故障,7×24小時+非工作日有限停機主題數(shù)據(jù)區(qū)、集市數(shù)據(jù)區(qū)和沙盤演練數(shù)據(jù)區(qū)批量作業(yè)訪問無最終用戶訪問I/O敏感,日終批量ETL以ELT形式通過HiveSQL執(zhí)行與主題區(qū)/貼源區(qū)/集市區(qū)構(gòu)成一個Hadoop集群(Hive)無單點故障,7×24小時+非工作日有限停機貼源數(shù)據(jù)模型不保存歷史應急系統(tǒng)前日快照數(shù)據(jù)和一段時間的流水數(shù)據(jù)數(shù)據(jù)標準化,為后續(xù)主題模型、集市和沙盤演練提供數(shù)據(jù)臨時數(shù)據(jù)區(qū)貼源數(shù)據(jù)區(qū)園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)存儲層(續(xù))園區(qū)內(nèi)外部非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)采集并存儲數(shù)據(jù),進行結(jié)構(gòu)化處理,最終得到結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)內(nèi)容主要用途數(shù)據(jù)模型保留周期用戶

訪問模式工作負載平臺要求數(shù)據(jù)按照HDFS文件存儲建議保留1年集市區(qū)/沙盤區(qū)/增值產(chǎn)品區(qū)/主題區(qū)/歸檔區(qū)批量作業(yè)訪問少量高級應急人員進行智慧園區(qū)大數(shù)據(jù)云MapReduce分布式計算,半/非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理(包括文本檢索、語義分詞、圖像識別、音頻識別等)與主題區(qū)/貼源區(qū)構(gòu)成一個Hadoop集群(HDFS)無單點故障,7×24小時+非工作日有限停機集市區(qū)/沙盤區(qū)/增值產(chǎn)品區(qū)/主題區(qū)/高時效區(qū)批量作業(yè)訪問應急人員執(zhí)行歷史數(shù)據(jù)查詢MapReduce分布式計算,HDFS命令實現(xiàn)Hadoop集群內(nèi)歸檔,Sqoop實現(xiàn)數(shù)據(jù)庫歸檔,通過Hive提供歷史查詢獨立的Hadoop集群(HDFS+Hive)無單點故障,7×24小時+非工作日有限停機數(shù)據(jù)按照HDFS文件存儲數(shù)據(jù)文件按照數(shù)據(jù)區(qū)劃分目錄,建議保留7年其他各數(shù)據(jù)區(qū)歷史數(shù)據(jù)按數(shù)據(jù)生命周期規(guī)劃歸檔平臺過期數(shù)據(jù),支撐歷史數(shù)據(jù)查詢大數(shù)據(jù)區(qū)歷史歸檔數(shù)據(jù)區(qū)園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)存儲層(續(xù))應急系統(tǒng)歷史明細數(shù)據(jù)打破應急條線整合數(shù)據(jù)數(shù)據(jù)內(nèi)容主要用途數(shù)據(jù)模型保留周期用戶

訪問模式工作負載可用性要求第三范式模型保留長期歷史,需要根據(jù)主題細化主題區(qū)/集市區(qū)/沙盤區(qū)/增值產(chǎn)品區(qū)/歸檔區(qū)批量作業(yè)訪問少量高級應急人員進行靈活查詢、挖掘預測I/O敏感,日終批量ETL(合并、拉鏈、關(guān)聯(lián)、匯總等等)以ELT形式通過HiveSQL執(zhí)行,復雜處理使用MR定制UDF與大數(shù)據(jù)區(qū)/貼源區(qū)構(gòu)成一個Hadoop集群(Hive)無單點故障,7×24小時+非工作日有限停機集市區(qū)/沙盤區(qū)/增值產(chǎn)品區(qū)/歸檔區(qū)批量作業(yè)訪問少量高級應急人員進行靈活查詢、挖掘預測I/O敏感,日終批量ETL(連接、聚合、匯總等等)以ELT形式通過HiveSQL執(zhí)行,復雜處理使用MR定制UDF與大數(shù)據(jù)區(qū)/貼源區(qū)構(gòu)成一個Hadoop集群(Hive)無單點故障,7×24小時+非工作日有限停機逆范式寬表依賴于集市數(shù)據(jù)需求對主題數(shù)據(jù)預加工后的結(jié)果數(shù)據(jù)針對應用需求進行數(shù)據(jù)預連接、預匯總,為集市提供數(shù)據(jù)主題數(shù)據(jù)區(qū)—明細主題數(shù)據(jù)區(qū)—匯總園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)存儲層(續(xù))按沙盤演練需求,準備的明細或匯總應急數(shù)據(jù)為數(shù)據(jù)科學家的挖掘預測操作提供數(shù)據(jù)服務數(shù)據(jù)內(nèi)容主要用途數(shù)據(jù)模型保留周期用戶

訪問模式工作負載可用性要求模型依賴于沙盤演練需求在整個沙盤演練周期內(nèi)保留集市區(qū)/沙盤區(qū)/歸檔區(qū)批量作業(yè)訪問少量高級應急人員進行靈活查詢、挖掘預測I/O敏感,終批量ETL(合并、拉鏈、關(guān)聯(lián)、匯總等等)以ELT形式通過HiveSQL執(zhí)行,復雜處理使用MR定制UDF獨立的Hadoop集群(HDFS)無單點故障,7×24小時+非工作日有限停機沙盤區(qū)/歸檔區(qū)批量作業(yè)訪問決策人員、管理人員、應急人員訪問I/O敏感型,BI工具提交的報表、查詢、分析SQL命令和日終批量ETL(匯總、聚集等操作,以ELT形式通過SQL執(zhí)行)基于開放平臺的完全無共享

MPP數(shù)據(jù)庫集群+內(nèi)存數(shù)據(jù)庫無單點故障,7×24小時+非工作日有限停機維度數(shù)據(jù)模型依賴應急需求面向園區(qū)管理分析類應用需求的匯總數(shù)據(jù)為服務、運營等管理分析主題和數(shù)據(jù)增值產(chǎn)品提供數(shù)據(jù)服務沙盤演練數(shù)據(jù)區(qū)應用集市數(shù)據(jù)區(qū)園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)存儲層(續(xù))根據(jù)外部用戶的數(shù)據(jù)使用需求數(shù)據(jù)平臺加工計算的結(jié)果數(shù)據(jù)為部署在數(shù)據(jù)平臺上的園區(qū)內(nèi)外部增值產(chǎn)品提供數(shù)據(jù)支持數(shù)據(jù)內(nèi)容主要用途數(shù)據(jù)模型保留周期用戶

訪問模式工作負載可用性要求應用模型,依賴于用戶應急需求依賴于用戶應急需求園區(qū)外部人員,如:服務通過自己部署在Paas平臺上的應用訪問I/O敏感型,BI工具提交的報表、查詢、分析SQL命令和日終批量ETL(匯總、聚集等操作,以ELT形式通過SQL執(zhí)行)獨立的Paas平臺,部署Hadoop集群無單點故障,7×24小時+非工作日有限停機園區(qū)應急人員高時效、高并發(fā)、高可靠性的聯(lián)機交易類查詢CPU敏感,BI工具或應急系統(tǒng)高并發(fā)、高時效查詢,以及準實時連續(xù)ETL處理+SQL批量處理獨立的內(nèi)存數(shù)據(jù)庫集群無單點故障,365×24小時不停機貼源數(shù)據(jù)模型依賴用戶應急需求面向應用的應急系統(tǒng)快照數(shù)據(jù)和一段時間的交易流水為實時獲準實時分析應用提供數(shù)據(jù)服務增值產(chǎn)品數(shù)據(jù)區(qū)實時數(shù)據(jù)區(qū)園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)存儲層數(shù)據(jù)流數(shù)據(jù)集成層操作型聚合數(shù)據(jù)臨時數(shù)據(jù)區(qū)實時數(shù)據(jù)區(qū)公共匯總數(shù)據(jù)主題明細數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化&半結(jié)構(gòu)化數(shù)據(jù)沙盤演練數(shù)據(jù)區(qū)實驗室數(shù)據(jù)集市數(shù)據(jù)區(qū)POP自營數(shù)據(jù)貼源數(shù)據(jù)區(qū)銀行應急數(shù)據(jù)主題數(shù)據(jù)區(qū)智慧園區(qū)集市財務管理集市運營管理集市風險管理集市……集市大物流系統(tǒng)數(shù)據(jù)供應鏈系統(tǒng)數(shù)據(jù)財務審計數(shù)據(jù)財務研發(fā)數(shù)據(jù)操作型明細據(jù)歸檔數(shù)據(jù)區(qū)大數(shù)據(jù)區(qū)源系統(tǒng)數(shù)據(jù)文件貼源數(shù)據(jù)主題數(shù)據(jù)集市數(shù)據(jù)高時效數(shù)據(jù)大數(shù)據(jù)增值產(chǎn)品數(shù)據(jù)區(qū)園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)應用層大數(shù)據(jù)平臺應用針對公檢法查詢需求、內(nèi)外部審計需求和最終用戶的歷史交易查詢需求,以貼源存儲的歸檔數(shù)據(jù)為基礎,實現(xiàn)的查詢類應用歷史查詢類應用通常使用BI工具或自主開發(fā)實現(xiàn)服務經(jīng)理等最終應急人員針對當前應急的發(fā)生(如:用戶交易、用戶訪問日志),進行實時查詢、分析的應用管理分析類應用主要實現(xiàn)了園區(qū)服務管理、運營管理、財務管理、風險管理、監(jiān)管信息披露五大分析體系功能管理分析類應用通常采用套裝軟件和BI工具(MicroStrategy等)實現(xiàn)應急人員根據(jù)應急需求或自己對應急的理解,設計計算模型,準備各類明細或匯總數(shù)據(jù),導入模型運算,驗證應急結(jié)果沙盤演練類應用通常使用R語言在Hadoop分布式體系下實現(xiàn)園區(qū)數(shù)據(jù)科學家根據(jù)自己對應急需求的理解或者對市場的判斷,設計并運行模型,發(fā)掘數(shù)據(jù)價值,并封裝成商業(yè)產(chǎn)品數(shù)據(jù)增值產(chǎn)品通常采用R語言和BI工具實現(xiàn),面向園區(qū)內(nèi)外部用戶管理分析類應用1沙盤演練類應用3歷史查詢類應用4高時效類分析應用5數(shù)據(jù)增值類產(chǎn)品2實時分析類應用通常使用CEP、ESB等技術(shù)實現(xiàn)園區(qū)大數(shù)據(jù)治理總體架構(gòu)——平臺發(fā)展不同階段對應應用工作負載復雜度大數(shù)據(jù)平臺發(fā)展階段劃分操作為主階段什么正在發(fā)生?動態(tài)數(shù)據(jù)倉庫階段

讓正確的事情發(fā)生!分析為主階段為什么會發(fā)生報表為主階段發(fā)生了什么預測為主階段將會發(fā)生什么?批量隨機查詢數(shù)據(jù)分析持續(xù)更新加載/短查詢基于事件的動態(tài)觸發(fā)數(shù)據(jù)量增長用戶數(shù)增長查詢復雜度增長ETL處理復雜度增長管理分析類應用歷史查詢類應用實時分析類應用沙盤演練類應用數(shù)據(jù)增值類產(chǎn)品園區(qū)大數(shù)據(jù)治理總體架構(gòu)——管理分析類應用總賬分析資產(chǎn)負債表分析損益表分析現(xiàn)金流量表分析財務指標分析盈利分析機構(gòu)貢獻度產(chǎn)品貢獻度服務細分貢獻度渠道績效資產(chǎn)負債分析主要指標報告,如:凈利息收入、凈收入、凈現(xiàn)值、市場價值等頭寸報告現(xiàn)金流報告風險價值(VaR)計算財務預算與計劃財務預算財務計劃執(zhí)行監(jiān)控執(zhí)行過程分析年末財務計劃執(zhí)行分析預測與場景分析應急規(guī)模預測收益預測……領導管理駕駛艙機構(gòu)績效考核服務經(jīng)理考核服務經(jīng)理工作量評估服務經(jīng)理服務服務收益評估產(chǎn)品績效考核應急量考核供應鏈銀行應急人人貸應急保理應急基金應急其它中間應急……渠道成本與收益……風險監(jiān)控報表/信息披露流動性報表利率敏感性報表資本充足率報表……市場風險市場風險暴露值流動性管理、利率管理信用風險信用風險暴露值計算信用風險控制(貸前控制、貸中監(jiān)控、貸后分析)操作風險異常交易預警后督差錯檢查……防欺詐/反洗錢定義欺詐交易模型可能性欺詐交易預警欺詐交易分布分析全面風險管理……目前監(jiān)管機構(gòu)沒有明確要求服務單一視圖園區(qū)服務信息管理個人服務信息管理同業(yè)服務信息管理目標服務搜索重點服務關(guān)懷服務風險服務異動服務服務細分個人服務細分園區(qū)服務細分服務行為分析服務輪廓分析產(chǎn)品交叉銷售分析百分比分析渠道偏好分析營銷活動管理營銷活動規(guī)劃營銷活動定義營銷活動執(zhí)行營銷活動蘋果營銷活動自動化渠道接口與集成流程自動化……服務管理運營管理財務管理風險管理監(jiān)管披露示例園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)訪問層即席查詢:通過即席查詢工具或手工書寫SQL語句,完成應急信息的即席查看多維分析:從多個維度靈活組合對目標值進行分析,常見功能包括上下鉆取、透明鉆取、旋轉(zhuǎn)、分頁、層鉆、跨維鉆取等主動問題發(fā)現(xiàn):通過事件觸發(fā)、規(guī)則匹配等方式發(fā)現(xiàn)園區(qū)運營中的問題,通過手機、郵件等方式報警決策層管理層應急人員即席查詢靜態(tài)報表多維分析儀表盤挖掘預測儀表盤:通過儀表盤及其它展現(xiàn)方式對園區(qū)關(guān)鍵績效指標進行展示,為領導層決策提供直觀的數(shù)據(jù)支持靜態(tài)報表:按照預先定義格式,批處理報表,在線查詢報表等Office集成:將分析應用嵌入到Office界面中,利用Office的方便、易用特性,降低用戶使用難度問題發(fā)現(xiàn)Office集成Web服務挖掘預測:使用專業(yè)的軟件工具,通過數(shù)理統(tǒng)計等高級統(tǒng)計分析算法,分析結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),通過數(shù)據(jù)模型去挖掘隱藏在數(shù)據(jù)中的價值數(shù)據(jù)科學家應急系統(tǒng)Web服務:將分析應用的功能發(fā)布為Web服務,注冊在園區(qū)服務總線上,供其它應急系統(tǒng)或分析應用調(diào)用,獲取分析結(jié)果多種展現(xiàn)形式滿足各層級用戶及應用系統(tǒng)使用需求園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)管控層銀行數(shù)據(jù)管控體系涵蓋組織架構(gòu)、評價與考核、管控流程、管控平臺四個域。數(shù)據(jù)標準管理數(shù)據(jù)質(zhì)量管理元數(shù)據(jù)管理工作流管理……組織數(shù)據(jù)與信息標準化委員會數(shù)據(jù)管理人數(shù)據(jù)所有人數(shù)據(jù)生產(chǎn)人數(shù)據(jù)使用人IT支持團隊考核指標責任評價標準執(zhí)行評價政策執(zhí)行評價評價標準數(shù)據(jù)類型數(shù)據(jù)格式應急分類真實性定義及時性定義完整性定義技術(shù)元數(shù)據(jù)流程評價與考核流程考核指標建立/維護流程標準建立/維護流程組織建立/維護流程評價與考核應急含義一致性定義數(shù)據(jù)認責平臺安全等級權(quán)限定義數(shù)據(jù)停用數(shù)據(jù)共享數(shù)據(jù)移動數(shù)據(jù)存儲數(shù)據(jù)創(chuàng)建應急元數(shù)據(jù)管理元數(shù)據(jù)數(shù)據(jù)全生命周期數(shù)據(jù)安全管理數(shù)據(jù)標準數(shù)據(jù)質(zhì)量元數(shù)據(jù)數(shù)據(jù)安全…………審計定義保留策略……園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)管控體系運轉(zhuǎn)機制管控組織數(shù)據(jù)管控委員會數(shù)據(jù)所有人數(shù)據(jù)認責人IT支持……管控流程數(shù)據(jù)接入流程數(shù)據(jù)變更流程數(shù)據(jù)授權(quán)流程數(shù)據(jù)退役流程標準/政策制定流程評價考核流程……評價與考核標準(數(shù)據(jù)標準、質(zhì)量要求、安全要求)遵守標準所需要的政策政策與標準遵從考評定義……數(shù)據(jù)產(chǎn)生者數(shù)據(jù)使用者………流程支撐流程支撐制定管控平臺工具支撐明確了數(shù)據(jù)管控過程中的組織結(jié)構(gòu)、角色、職責等。管控組織除了要負責制定數(shù)據(jù)標準、質(zhì)量、安全等要求外,還需要負責制定管控的相關(guān)流程和評價考核指標等內(nèi)容。考評制定通過建立一些定性或定量的數(shù)據(jù)管控評價考核指標,去評估及考核數(shù)據(jù)相關(guān)責任人職責履行情況、數(shù)據(jù)管控標準及數(shù)據(jù)政策的執(zhí)行情況等。規(guī)范了數(shù)據(jù)管控過程中,各個環(huán)節(jié)日常任務處理的運作模式,例如數(shù)據(jù)定義如何變更、數(shù)據(jù)沖突如何協(xié)調(diào)等。采用專門的技術(shù)平臺支撐管控流程的自動化,發(fā)布管控組織制定的一些相關(guān)標準和規(guī)范,及時反映管控過程中存在的一些問題等。管控綜合管理標準/規(guī)范管理流程管理考核儀表盤……元數(shù)據(jù)管理應急元數(shù)據(jù)管理技術(shù)元數(shù)據(jù)管理管理元數(shù)據(jù)分析……數(shù)據(jù)質(zhì)量管理稽核規(guī)則管理數(shù)據(jù)稽核質(zhì)量報告……工具支撐組織架構(gòu)、評價與考核、管控流程、管控工具這四個域相互作用、相互支撐,提供對各信息系統(tǒng)數(shù)據(jù)的管控。園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)管控組織數(shù)據(jù)管控組織是數(shù)據(jù)管控體系中最重要的因素,它負責定義和管理應急數(shù)據(jù)相關(guān)標準,制定遵尋標準所必須的政策,監(jiān)測正在進行的數(shù)據(jù)管控行動。數(shù)據(jù)管控組織是否有完整與合理的角色定義、是否有高層領導的參與,是整個數(shù)據(jù)管控的成敗的關(guān)鍵。典型的數(shù)據(jù)管控組織如下所示:數(shù)據(jù)管控負責單位崗位角色數(shù)據(jù)管控主導方信息管理委員會

數(shù)據(jù)標準管理員數(shù)據(jù)質(zhì)量管理員數(shù)據(jù)產(chǎn)生單位數(shù)據(jù)管控參與方應急協(xié)調(diào)人數(shù)據(jù)分析員數(shù)據(jù)主管數(shù)據(jù)使用單位應急協(xié)調(diào)人數(shù)據(jù)分析員數(shù)據(jù)主管數(shù)據(jù)擁有單位應急協(xié)調(diào)人數(shù)據(jù)分析員數(shù)據(jù)主管數(shù)據(jù)管理單位運維組織實施項目組數(shù)據(jù)安全管理員數(shù)據(jù)管控經(jīng)理元數(shù)據(jù)管理員園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)標準管理消除一數(shù)多義,提升數(shù)據(jù)的唯一性、一致性,將逐步形成的數(shù)據(jù)標準納入一個規(guī)范的管理流程中,進行數(shù)據(jù)標準的更新、發(fā)布、使用監(jiān)督等工作。數(shù)據(jù)標準管理工作可以分為以下幾個部分:數(shù)據(jù)標準建立和維護、數(shù)據(jù)標準執(zhí)行、數(shù)據(jù)標準管理的考評。數(shù)據(jù)標準建立和維護數(shù)據(jù)分類數(shù)據(jù)結(jié)構(gòu)關(guān)鍵應急對象關(guān)鍵代碼數(shù)據(jù)維度代碼映射服務類數(shù)據(jù)標準產(chǎn)品類數(shù)據(jù)標準。。。類數(shù)據(jù)標準數(shù)據(jù)標準執(zhí)行數(shù)據(jù)標準管理的考評定性考評定量考評數(shù)據(jù)標準分析報告數(shù)據(jù)標準理念推廣歸檔系統(tǒng)……ODS園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)質(zhì)量管理數(shù)據(jù)質(zhì)量管理框架藍圖如下,其中數(shù)據(jù)質(zhì)量提升是改進數(shù)據(jù)質(zhì)量的手段和質(zhì)量考評的目的:數(shù)據(jù)質(zhì)量要求確認,根據(jù)應急要求制定和明確數(shù)據(jù)質(zhì)量要求,同時也需要符合數(shù)據(jù)標準的要求;數(shù)據(jù)質(zhì)量考評,對數(shù)據(jù)質(zhì)量的量化評價制定數(shù)據(jù)質(zhì)量問題解決方案,根據(jù)數(shù)據(jù)質(zhì)量考評和日常工作中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題,實施相應的措施,提升數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量要求應急規(guī)則數(shù)據(jù)一致性要求數(shù)據(jù)完整性要求數(shù)據(jù)唯一性要求數(shù)據(jù)準確性要求數(shù)據(jù)及時性要求數(shù)據(jù)質(zhì)量標準數(shù)據(jù)質(zhì)量驗證規(guī)則數(shù)據(jù)質(zhì)量考核指標數(shù)據(jù)質(zhì)量提升數(shù)據(jù)補錄手工修正自動修正數(shù)據(jù)質(zhì)量考評數(shù)據(jù)質(zhì)量監(jiān)控不定期數(shù)據(jù)質(zhì)量檢查數(shù)據(jù)質(zhì)量分析報告園區(qū)大數(shù)據(jù)治理總體架構(gòu)——元數(shù)據(jù)管理應急元數(shù)據(jù):面向應急人員,從應急術(shù)語、應急描述、應急指標和應急規(guī)則等幾個方面對數(shù)據(jù)進行描述管理元數(shù)據(jù):面向數(shù)據(jù)管理人員,從運維管理的角度描述數(shù)據(jù)處理、數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全的狀態(tài)信息技術(shù)元數(shù)據(jù):面向技術(shù)人員,從數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)處理細節(jié)方面對數(shù)據(jù)進行技術(shù)化描述園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)安全管理數(shù)據(jù)安全管理可分為數(shù)據(jù)安全分級管理和數(shù)據(jù)訪問授權(quán)管理兩個部分:數(shù)據(jù)安全分級:根據(jù)應急要求,制定一系列的數(shù)據(jù)安全分級標準和政策,為數(shù)據(jù)應用以及數(shù)據(jù)管理中實施數(shù)據(jù)安全保護和訪問提供數(shù)據(jù)安全控制的基礎。數(shù)據(jù)訪問授權(quán):數(shù)據(jù)訪問授權(quán)的主要工作是根據(jù)數(shù)據(jù)安全分級標準,定義數(shù)據(jù)訪問的授權(quán)方法及流程,建立基于數(shù)據(jù)安全分級的數(shù)據(jù)使用授權(quán)機制,實現(xiàn)數(shù)據(jù)訪問和信息披露的安全。數(shù)據(jù)安全分級數(shù)據(jù)敏感度數(shù)據(jù)安全等級定義數(shù)據(jù)訪問授權(quán)數(shù)據(jù)重要性數(shù)據(jù)使用需求數(shù)據(jù)使用者權(quán)責數(shù)據(jù)訪問授權(quán)規(guī)則安全技術(shù)園區(qū)大數(shù)據(jù)治理總體架構(gòu)——高階工作流程應急數(shù)據(jù)規(guī)劃管理高階流程數(shù)據(jù)認責流程數(shù)據(jù)治理考核體系數(shù)據(jù)治理考核流程數(shù)據(jù)治理考核指標體系數(shù)據(jù)標準管理管理高階流程數(shù)據(jù)標準建立流程數(shù)據(jù)標準維護流程數(shù)據(jù)質(zhì)量管理管理高階流程數(shù)據(jù)質(zhì)量要求確定流程元數(shù)據(jù)管理高階流程元數(shù)據(jù)變更流程數(shù)據(jù)安全管理管理高階流程數(shù)據(jù)安全審批流程數(shù)據(jù)認責流程數(shù)據(jù)標準、質(zhì)量、元數(shù)據(jù)、安全管理流程協(xié)調(diào)會議考核流程園區(qū)大數(shù)據(jù)治理總體架構(gòu)——數(shù)據(jù)管控平臺數(shù)據(jù)管控平臺從總體上來說分為數(shù)據(jù)層、應用層、展現(xiàn)層三個主要層面,以數(shù)據(jù)層的數(shù)據(jù)庫及相關(guān)基礎系統(tǒng)為主要信息來源,通過應用層的運算處理,以不同的形式,不同的功能在展現(xiàn)層提供用戶接口首頁標準管理主菜單指標速遞待辦事項信息地圖標準瀏覽標準維護工作管理流程管理績效指標系統(tǒng)管理用戶管理權(quán)限管理規(guī)范管理數(shù)據(jù)管控平臺統(tǒng)一用戶集成界面數(shù)據(jù)標準知識庫數(shù)據(jù)管控平臺知識庫……元數(shù)據(jù)管理元數(shù)據(jù)采集……元數(shù)據(jù)知識庫質(zhì)量管理規(guī)則配置……質(zhì)量稽核庫數(shù)據(jù)層應用層展現(xiàn)層園區(qū)大數(shù)據(jù)治理總體產(chǎn)品框架非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)管理分析平臺(X86MPP集群)應急系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)基礎計算平臺(貼源數(shù)據(jù)區(qū)+主題數(shù)據(jù)區(qū)+大數(shù)據(jù)區(qū))(Hadoop集群+Hive)數(shù)據(jù)交換平臺(自主開發(fā)交換組件+NAS存儲)實時分析平臺(內(nèi)存數(shù)據(jù)庫)沙盤演練平臺(Hadoop集群)數(shù)據(jù)管控平臺FTPSFTP/HTTP/APICopyfromloalQueue云數(shù)據(jù)推送平臺增值產(chǎn)品平臺(Hadoop集群)歷史歸檔查詢平臺(Hadoop集群+Hive)Load(Hive)DistcpHQL+LoadDistcpDistcpHQL+LoadDistcpHQL+LoadSqoopSqoopSqoopMR流程調(diào)度平臺目錄CONTENTS3園區(qū)大數(shù)據(jù)治理演進路線園區(qū)大數(shù)據(jù)治理演進路線以基礎平臺搭建為主,配合園區(qū)初期應急開展,應用建設從服務信息管理、風險管理和運營管理三方面開展搭建大數(shù)據(jù)處理平臺和實時分析平臺,應用方面開展實時分析和數(shù)據(jù)產(chǎn)品封裝開展服務信息管理、信用風險評級和應急統(tǒng)計分析三類應用建設開展貼源數(shù)據(jù)整合,初步建立園區(qū)級數(shù)據(jù)視圖,實現(xiàn)對管理分析類應用和實時分析類應用的支撐規(guī)劃數(shù)據(jù)管控藍圖,初步實施數(shù)據(jù)質(zhì)量和技術(shù)元數(shù)據(jù)管理2013年2014年——2015年2015年以后對園區(qū)價值的創(chuàng)造應管技應急分析框架基礎數(shù)據(jù)平臺數(shù)據(jù)管控體系應技管全面開展管理分析、實時分析和沙盤演練應用建設,初步展開增值數(shù)據(jù)產(chǎn)品開發(fā)工作全面開展園區(qū)大數(shù)據(jù)治理建設,引入更多數(shù)據(jù)源,豐富并完善平臺數(shù)據(jù)區(qū)建設隨著應用體系的搭建,完善數(shù)據(jù)質(zhì)量和元數(shù)據(jù)建設,開展數(shù)據(jù)標準化工作應技管深化分析體系,形成深度智能化應急分析性能持續(xù)優(yōu)化、數(shù)據(jù)平臺持續(xù)完善、持續(xù)深化數(shù)據(jù)管控體系,形成園區(qū)園區(qū)級的數(shù)據(jù)管控體系應技管一期2013.10當前位置未來持續(xù)優(yōu)化提升階段第一階段第二階段第三階段園區(qū)大數(shù)據(jù)治理演進說明——基礎數(shù)據(jù)平臺階段劃分建設內(nèi)容預期效果第一階段搭建數(shù)據(jù)交換平臺,部署NAS存儲集群,設計并實施數(shù)據(jù)庫交換組件和數(shù)據(jù)區(qū)交換組件搭建基礎計算平臺,設計并實施貼源數(shù)據(jù)區(qū),以T+1頻率整合園區(qū)和銀行應急數(shù)據(jù)搭建歷史歸檔查詢平臺,歸檔園區(qū)和銀行應急數(shù)據(jù)文件搭建管理分析應用平臺,部署MPP集群和BI分析應用環(huán)境搭建實時分析平臺,部署內(nèi)存數(shù)據(jù)庫和實時BI分析環(huán)境實現(xiàn)了數(shù)據(jù)平臺個數(shù)據(jù)區(qū)之間、數(shù)據(jù)平臺與外部系統(tǒng)間的雙向數(shù)據(jù)傳輸實現(xiàn)了應急數(shù)據(jù)按照貼源數(shù)據(jù)模整合實現(xiàn)了數(shù)據(jù)按照生命周期的歸檔管理實現(xiàn)了管理分析環(huán)境搭建實現(xiàn)實時分析環(huán)境搭建第二階段數(shù)據(jù)交換平臺增強和優(yōu)化,包括:大數(shù)據(jù)交換組件設計實施基礎計算平臺增強,包括:引入更多的數(shù)據(jù)源,增強貼源數(shù)據(jù)區(qū);設計并實施主題數(shù)據(jù)區(qū),打破應急條線整合數(shù)據(jù);設計并實施大數(shù)據(jù)區(qū),實現(xiàn)園區(qū)內(nèi)外部非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)加工、處理搭建沙盤演練平臺實時分析平臺增強和優(yōu)化,包括:引入更多應用及相關(guān)數(shù)據(jù)源實現(xiàn)了基礎數(shù)據(jù)一次存儲、一次計算、多次使用建立了數(shù)據(jù)分析人員的實驗環(huán)境,實現(xiàn)了用戶自主用數(shù)為實時、準實時類分析用提供平臺為封裝、銷售數(shù)據(jù)類產(chǎn)品提供了平臺第三階段基礎計算平臺持續(xù)增強和優(yōu)化,引入更多的數(shù)據(jù)源、優(yōu)化模型和ETL處理搭建增值產(chǎn)品平臺,設計并實施增值產(chǎn)品數(shù)據(jù)區(qū)數(shù)據(jù)交換平臺、沙盤演練平臺、實時分析平臺進一步增強和優(yōu)化數(shù)據(jù)平臺納入盡可能多的園區(qū)內(nèi)外部數(shù)據(jù)數(shù)據(jù)平臺以最優(yōu)的性能支持各類數(shù)據(jù)應用園區(qū)大數(shù)據(jù)治理演進說明——數(shù)據(jù)管控階段劃分建設內(nèi)容預期效果第一階段分析和梳理當前數(shù)據(jù)管理方面的成果和現(xiàn)狀,數(shù)據(jù)管控藍圖和路線圖設計,數(shù)據(jù)管控工作的組織、技術(shù)和流程高階設計梳理園區(qū)大數(shù)據(jù)平臺ETL流程各環(huán)節(jié)的數(shù)據(jù)質(zhì)量要求,指定數(shù)據(jù)質(zhì)量檢查規(guī)則、評價指標、管控流程,并落地實施數(shù)據(jù)質(zhì)量管理系統(tǒng)梳理園區(qū)大數(shù)據(jù)平臺包含的技術(shù)元數(shù)據(jù),如:數(shù)據(jù)字典、ETL任務、ETL流程、BI語義層等,制定相應的管控流程并落地實施元數(shù)據(jù)管理系統(tǒng)同步園區(qū)大數(shù)據(jù)治理ETL建設,實現(xiàn)了數(shù)據(jù)質(zhì)量管理系統(tǒng)收集并整合了園區(qū)所有技術(shù)元數(shù)據(jù),實現(xiàn)了數(shù)據(jù)生命周管理、血緣分析和影響分析等功能第二階段隨著更多數(shù)據(jù)源的引入,進一步增強數(shù)據(jù)質(zhì)量管理系統(tǒng)隨著更多數(shù)據(jù)源的引入、更多平臺的建立,梳理并整合更多技術(shù)元數(shù)據(jù)梳理園區(qū)大數(shù)據(jù)平臺包含的應急和管理類元數(shù)據(jù),如應急術(shù)語、應急指標、應急定義等,制定相應的管控流程并落地實施元數(shù)據(jù)管理系統(tǒng)開展基礎類數(shù)據(jù)標準建設,基礎數(shù)據(jù)標準、管控流程、評價指標、落地策略完善了數(shù)據(jù)質(zhì)量管理體系,實現(xiàn)了問題及時發(fā)現(xiàn)、及時解決實現(xiàn)了園區(qū)全方位的元數(shù)據(jù)管理,打通了應急和技術(shù)元數(shù)據(jù)關(guān)聯(lián)關(guān)系為園區(qū)數(shù)據(jù)平臺建設提供了基礎類數(shù)據(jù)標準第三階段數(shù)據(jù)質(zhì)量管理持續(xù)優(yōu)化并增強元數(shù)據(jù)管理持續(xù)優(yōu)化并增強基礎類數(shù)據(jù)標準逐步落地實施開展指標類數(shù)據(jù)標準建設基礎數(shù)據(jù)標準、管控流程、評價指標、落地策略通過完善的數(shù)據(jù)管控體系,提升數(shù)據(jù)質(zhì)量、避免數(shù)據(jù)二義性、建立數(shù)據(jù)間的血緣關(guān)系,使得應急人員可以方便、有效的使用數(shù)據(jù),提高數(shù)據(jù)實用性園區(qū)大數(shù)據(jù)治理演進說明——應用體系階段劃分建設內(nèi)容預期效果第一階段開展服務信息管理建設,設計并實施個人服務和供應商360°視圖、服務目標搜索、服務細分等功能開展風險管理建設,設計并實施供應商和個人服務風險評級模型開展運營管理建設,設計并實施服務民生等應急條線應急量統(tǒng)計分析初步梳理實時、準實時分析需求,進行高時效分析應用試點可以方便的對個人服務和供應商進行分群,以及全方位信息查詢和展示供應商和個人服務風險等級評定針對目前開展的應急進行經(jīng)營情況統(tǒng)計分析搭建并驗證高時效應用體系第二階段隨著園區(qū)應急的展開,逐步開展管理分析體系的建設,本階段重點為服務關(guān)系管理、運營管理等高級應急人員利用沙盤演練平臺進行數(shù)據(jù)挖掘、預測和科學試驗進一步樹立實時、準實時分析需求,深化開展高時效分析應用開始梳理市場上的數(shù)據(jù)應用需求,嘗試封裝增值數(shù)據(jù)產(chǎn)品通過管理分析體系的建設、滿足了園區(qū)日常經(jīng)營管理、決策分析和進一步提高價值創(chuàng)造力的需要實現(xiàn)了應急人員自主用數(shù)實現(xiàn)了高時效分析,與應急流程的整合實現(xiàn)了數(shù)據(jù)產(chǎn)品的封裝,提升了數(shù)據(jù)價值第三階段隨著園區(qū)應急的展開,進一步完善管理分析體系的建設,包括:市場風險管理、操作風險管理、財務管理等收集實時分析需求,進一步增強并優(yōu)化實時分析應用體系增值數(shù)據(jù)產(chǎn)品設計逐漸成為重點,數(shù)據(jù)分析師收集園區(qū)內(nèi)外部數(shù)據(jù)需求,設計更完善的增值數(shù)據(jù)產(chǎn)品通過管理分析應用體系建設進一步實現(xiàn)數(shù)據(jù)共享、應急協(xié)作與創(chuàng)新通過實時分析應用體系建設,實現(xiàn)大數(shù)據(jù)平臺應急系統(tǒng)的交互,與應急流程的融合增值數(shù)據(jù)產(chǎn)品的開發(fā)進一步發(fā)揮的數(shù)據(jù)平臺的數(shù)據(jù)價值目錄CONTENTS4園區(qū)大數(shù)據(jù)治理建設實施銀行園區(qū)大數(shù)據(jù)治理一期架構(gòu)基礎計算平臺:基于Hadoop集群構(gòu)建,按照應急條線、以貼源數(shù)據(jù)模型存儲了應急系統(tǒng)明細數(shù)據(jù)數(shù)據(jù)交換平臺:NAS集群實現(xiàn)了進出數(shù)據(jù)平臺數(shù)據(jù)的暫存,應急數(shù)據(jù)交換組件實現(xiàn)了應急系統(tǒng)每日增量數(shù)據(jù)加載,數(shù)據(jù)區(qū)數(shù)據(jù)交換組件實現(xiàn)了基礎計算平臺與管理分析平臺間的數(shù)據(jù)交換流程調(diào)度平臺:自主開發(fā)的流程調(diào)度引擎實現(xiàn)整個數(shù)據(jù)平臺的數(shù)據(jù)處理任務調(diào)度和運行管理分析平臺:由X86分析型數(shù)據(jù)庫集群、BI軟件1J2EE應用構(gòu)成,實現(xiàn)了面向應用的數(shù)據(jù)加工、管理、分析服務實時分析平臺:由高檔X86服務器組成的集群,實現(xiàn)高時效、高并發(fā)的實時、準實時類管理分析需求數(shù)據(jù)交換平臺—平臺邏輯架構(gòu)云數(shù)據(jù)推送平臺實現(xiàn)源系統(tǒng)數(shù)據(jù)一次獲取獲、按需分發(fā)。平臺采用GoldenGate、JBUS、Flume等技術(shù)獲取增量數(shù)據(jù),存儲在MySQL集群平臺按照接口規(guī)范生成文件,LZO壓縮后,通過FTP傳輸?shù)絅AS指定目錄POP銀行園區(qū)大數(shù)據(jù)治理NAS集群物流財務供應鏈人人貸……云數(shù)據(jù)推送平臺數(shù)據(jù)交換平臺由FTP服務器、加載服務器和NAS存儲組成,完成應急系統(tǒng)數(shù)據(jù)的獲取、加載和歸檔FTP服務器:利用LVS構(gòu)成的FTP集群,接收云數(shù)據(jù)推送平臺處理后的數(shù)據(jù),存儲在NAS集群的指定目錄加載服務器:部署ETL任務,實現(xiàn)指定目錄的文件到達監(jiān)控、文件級檢核、數(shù)據(jù)加載(HiveLoad)到臨時數(shù)據(jù)區(qū),同時歸檔(copyfromlocal)歷史數(shù)據(jù)區(qū)NAS集群:按照日期和源系統(tǒng)劃分目錄,緩存數(shù)據(jù),支持日常數(shù)據(jù)交換和ETL…………LVS集群:FTP服務器#3加載服務器#1文件加載文件歸檔文件到達事件監(jiān)控文件級檢核加載服務器#4文件加載文件歸檔文件到達事件監(jiān)控文件級檢核LVS集群:FTP服務器#1LVS集群:負載均衡服務器…………數(shù)據(jù)交換平臺—參與方責任劃分設計并實施云數(shù)據(jù)推送平臺;按照園區(qū)接口定義,抽取應急系統(tǒng)數(shù)據(jù);按照園區(qū)接口規(guī)范要求,按時生成數(shù)據(jù)文件、控制文件和DDL文件,并通過FTP傳輸?shù)絅AS指定目錄;若源系統(tǒng)有變更,則要求在變更前提供變更內(nèi)容說明,升級平臺版本,根據(jù)園區(qū)更新接口規(guī)范提供數(shù)據(jù);應及時解決接口數(shù)據(jù)提供過程中出現(xiàn)的問題;對于未盡事宜,應同園區(qū)協(xié)商解決。云計算安裝部署園區(qū)園區(qū)大數(shù)據(jù)治理物理環(huán)境、應用軟件,并進行基礎設施運維;在應急系統(tǒng)數(shù)據(jù)庫服務器安裝并部署云數(shù)據(jù)推送平臺服務端,并提供數(shù)據(jù)庫訪問。運維單位制定接口規(guī)范,并提交給云數(shù)據(jù)推送項目組;梳理應急系統(tǒng)數(shù)據(jù)字典,制定接口定義,并提交給云數(shù)據(jù)推送項目組;開發(fā)數(shù)據(jù)交換組件,從NAS獲取數(shù)據(jù)并處理;對接收的數(shù)據(jù)提供驗證功能,并返回驗證結(jié)果到云數(shù)據(jù)推送平臺;根據(jù)云數(shù)據(jù)推送平臺提交的變更通知修改接口定義和數(shù)據(jù)交換組件;對于未盡事宜,應同云計算方協(xié)商解決。園區(qū)針對園區(qū)需求,指定接口人、提供文檔;應急系統(tǒng)因版本升級等原因?qū)е聰?shù)據(jù)模型發(fā)生變化,及時通知云數(shù)據(jù)推送平臺接口責任人。研發(fā)單位數(shù)據(jù)交換平臺—應急系統(tǒng)數(shù)據(jù)抽取實現(xiàn)方式每張源系統(tǒng)表都對應一個獨立的數(shù)據(jù)接口數(shù)據(jù)接口由數(shù)據(jù)文件和控制文件構(gòu)成(文件命名和具體內(nèi)容參見接口規(guī)范)文件統(tǒng)一采用UTF-8編碼,統(tǒng)一存在在JSS指定目錄(參見接口規(guī)范)如果在抽取周期內(nèi)沒有數(shù)據(jù)變更,云數(shù)據(jù)推送平臺應該生成空的數(shù)據(jù)接口傳輸方式FTP傳輸,利用LVS技術(shù)構(gòu)建FTP集群,接收數(shù)據(jù)傳輸頻率云數(shù)據(jù)推送平臺通常按照T+1頻率為園區(qū)提供數(shù)據(jù),具體頻率要求參見接口定義接口處理模式云數(shù)據(jù)推送平臺根據(jù)不同接口單元定義,準備數(shù)據(jù)、生成接口數(shù)據(jù)文件;云數(shù)據(jù)推送平臺根據(jù)接口規(guī)范生成相應的接口控制文件;云數(shù)據(jù)推送平臺壓縮數(shù)據(jù)(LZO),并通過FTP將數(shù)據(jù)接口存入NAS指定目錄;銀行園區(qū)大數(shù)據(jù)治理部署在不同加載服務器上的數(shù)據(jù)交換組件完成:定時輪詢NAS指定目錄,獲取接口(包括數(shù)據(jù)文件、控制文件和DDL文件);執(zhí)行文件級檢核;通過檢核后,將數(shù)據(jù)文件和控制文件移動到NAS集群指定目錄,觸發(fā)后續(xù)ETL處理;在TaskAutomation調(diào)度下執(zhí)行數(shù)據(jù)加載和數(shù)據(jù)歸檔任務。數(shù)據(jù)交換平臺—平臺部署架構(gòu)數(shù)據(jù)交換平臺由8臺X86服務器和一個NAS集群構(gòu)成X86服務器按照功能分為2組,一組實現(xiàn)數(shù)據(jù)獲取,一組實現(xiàn)數(shù)據(jù)加載和歸檔NAS集群作為公共數(shù)據(jù)區(qū),由8臺服務器共享訪問(讀寫)PythonruntimePythonJSSModuleFTPRedhatLinuxLVS服務器4HDFSClientHive加載任務歸檔任務RedhatLinux加載服務器1HDFSClientHive加載任務歸檔任務RedhatLinux加載服務器4LANPythonruntimePythonJSSModuleLVSRedhatLinuxLVS服務器1…………NAS集群負責源系統(tǒng)數(shù)據(jù)文件加載和歸檔每臺服務器負責多個源系統(tǒng)支持按需擴展/減少服務器LVS1負載均衡其它LVS服務器負責接收接口文件,寫入NAS集群目錄支持按需擴展/減少服務器部署數(shù)據(jù)交換平臺和流程調(diào)度平臺程序,各服務器通過文件鏈接使用按日期和源系統(tǒng)建立數(shù)據(jù)目錄,緩存每日接口文件,供交換平臺訪問流程調(diào)度平臺—平臺邏輯架構(gòu)TaskAutomation驅(qū)動各個平臺、實現(xiàn)從數(shù)據(jù)存入NAS平臺到數(shù)據(jù)集市生成整個處理過程的工作流管理數(shù)據(jù)交換平臺負責數(shù)據(jù)抽取、文件級質(zhì)量檢核、調(diào)用HiveLoad加載數(shù)據(jù)基礎計算平臺使用HiveSQL實現(xiàn)貼源數(shù)據(jù)整合、公共匯總數(shù)據(jù)處理管理分析平臺使用關(guān)系型數(shù)據(jù)庫的SQL實現(xiàn)集市數(shù)據(jù)的處理歷史歸檔查詢平臺負責數(shù)據(jù)文件和Hadoop集群數(shù)據(jù)歸檔流程調(diào)度平臺—流程調(diào)度元數(shù)據(jù)TaskAutomation的元數(shù)據(jù)統(tǒng)一存儲在MySQL數(shù)據(jù)庫中任務定義,包括任務名稱、描述、運行服務器、運行狀態(tài)、運行時間、相關(guān)數(shù)據(jù)源等屬性任務依賴,任務的執(zhí)行依賴與其他上游任務任務觸發(fā),任務成功執(zhí)行后觸發(fā)的下游任務任務組,一組有相互關(guān)系的任務,全部完成后會觸發(fā)頭任務運行……元數(shù)據(jù)由所有流程調(diào)度服務器共享流程調(diào)度平臺—任務調(diào)度引擎通過偵測器偵測事件,按照任務定義和任務依賴關(guān)系觸發(fā)任務運行,觸發(fā)方式把主要包括自動觸發(fā)定時觸發(fā),按照預先定義的時間周期,如每日、每周、每月,或任何有規(guī)律的時間間隔執(zhí)行任務。目前可明確的任務主要是每月執(zhí)行的基礎計算平臺、管理分析平臺數(shù)據(jù)歸檔。事件觸發(fā),按照特定的事件觸發(fā)、執(zhí)行任務。如:數(shù)據(jù)文件到達指定目錄,會觸發(fā)數(shù)據(jù)加載任務。同樣,流程失敗也會觸發(fā)新的job,如錯誤處理、例外處理等。手動觸發(fā)系統(tǒng)管理員可以使用TaskAutomation提供的界面或命令接口執(zhí)行一些job。這些job的功能通常包括對特定范圍的數(shù)據(jù)進行審計與驗證、對特定范圍的數(shù)據(jù)進行針對性很強的數(shù)據(jù)清洗、或者是對某流程失敗后的修復。每個要執(zhí)行的任務均由任務執(zhí)行代理啟動運行流程調(diào)度平臺—集群可靠性和可擴展性高可用性流程調(diào)度所需的元數(shù)據(jù)信息統(tǒng)一保存在MySQL數(shù)據(jù)庫中,集群中任何服務器發(fā)生故障不會破壞元數(shù)據(jù)完整性。服務器故障時,只需要修改ETL任務屬性,指定其他服務器執(zhí)行任務即可,故障不會影響任務依賴關(guān)系、任務組關(guān)系。擴展能力流程調(diào)度集群由多臺服務器構(gòu)成,按工作負載劃分不同角色,分別實現(xiàn)ETL處理過程中不同類型任務的調(diào)度。當某類調(diào)度工作負載較大時,可通過增加服務器的方式,實現(xiàn)集群的橫向擴展流程調(diào)度平臺—平臺部署架構(gòu)流程調(diào)度平臺由八臺X86服務器構(gòu)成,服務器按照功能分為兩類兩臺X86服務器部署MySQL數(shù)據(jù)庫集群,存儲流程調(diào)度元數(shù)據(jù)六臺X86服務器部署流程調(diào)度引擎,負責各數(shù)據(jù)區(qū)數(shù)據(jù)處理流程調(diào)度與運行TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient臨時/歸檔區(qū)調(diào)度服務器1TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient貼源區(qū)調(diào)度服務器TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient匯總區(qū)調(diào)度服務器TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient臨時/歸檔區(qū)調(diào)度服務器4MasterNodeMySQL主服務器MasterNodeMySQL從服務器……LANMySQL主-從集群,存儲臨時區(qū)、歸檔區(qū)、貼源區(qū)和匯總區(qū)數(shù)據(jù)處理任務定義,任務依賴關(guān)系按數(shù)據(jù)區(qū)劃分工作流,工作流不跨數(shù)據(jù)區(qū)臨時區(qū)數(shù)據(jù)處理的工作流部署在數(shù)據(jù)交換換平臺的加載服務器貼園區(qū)和匯總區(qū)工作流分別部署獨立的服務器基礎計算平臺—平臺邏輯架構(gòu)基礎計算平臺基于Hadoop集群搭建集群采用標準的X86服務器集群彈性架構(gòu),按需分配計算資源,支持添加X86服務器的方式實現(xiàn)橫向擴展集群中的數(shù)據(jù)保留三份,保證任何節(jié)點故障,不影響集群對外提供服務基礎計算平臺有三個數(shù)據(jù)區(qū)構(gòu)成臨時數(shù)據(jù)區(qū),緩存當日源系統(tǒng)變化(新增、修改、刪除)數(shù)據(jù),支持后續(xù)ELT數(shù)據(jù)處理貼源數(shù)據(jù)區(qū),按照源系統(tǒng)數(shù)據(jù)模型整合的明細歷史數(shù)據(jù),作為基礎數(shù)據(jù)層實現(xiàn)數(shù)據(jù)一次整合、多次使用匯總數(shù)據(jù)區(qū),根據(jù)應用需求,對貼源數(shù)據(jù)區(qū)明細數(shù)據(jù)進行預連接、預聚合、預匯總處理的數(shù)據(jù),實現(xiàn)了數(shù)據(jù)的一次計算、多次使用VMVMVMVMVMVMVMVMVMVMVMVMVMVMVM節(jié)點VMVMVMVMVM節(jié)點VMVMVMVMVM節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點Hadoop臨時數(shù)據(jù)區(qū)貼源數(shù)據(jù)區(qū)匯總數(shù)據(jù)區(qū)基礎計算平臺—臨時數(shù)據(jù)區(qū)包含內(nèi)容主要用途園區(qū)大數(shù)據(jù)治理要整合的源系統(tǒng),包括:POP、財務審計、財務研發(fā)、大物流、供應鏈、銀行、網(wǎng)站交易、數(shù)據(jù)部和移動服務端等研發(fā)體系的各應急系統(tǒng)。建立數(shù)據(jù)緩沖區(qū),臨時存放從源系統(tǒng)抽取過來的增量/全量數(shù)據(jù),支撐后續(xù)ELT處理。設計原則數(shù)據(jù)庫設計原則臨時數(shù)據(jù)區(qū)對應獨立的Hive數(shù)據(jù)庫不對外提供訪問,ETL用戶對數(shù)據(jù)庫有增、刪、查、改權(quán)限模型設計原則邏輯模型參考源系統(tǒng)和接口規(guī)范定義,為每個接口單元設計實體、屬性物理模型與邏輯模型保持一致,每個實體對應一張Hive表,表采用LZO壓縮存儲物理模型設計不建議考慮索引、物化視圖等技術(shù)特性以天為單位,按應急日期建立分區(qū)歷史保留原則緩存當日應急數(shù)據(jù)、為數(shù)據(jù)重跑方便可保留7天歷史過期數(shù)據(jù)直接刪除對應分區(qū),不需要歸檔基礎計算平臺—貼源數(shù)據(jù)區(qū)包含內(nèi)容主要用途與緩沖層相對應,貼源整合層主要包括:POP、財務審計、財務研發(fā)、大物流、供應鏈、銀行、網(wǎng)站交易、數(shù)據(jù)部和移動服務端等研發(fā)體系的各應急系統(tǒng),所有數(shù)據(jù)保留歷史。作為整個數(shù)據(jù)平臺的基礎數(shù)據(jù)層,累計歷史,為主題層、集市層等數(shù)據(jù)區(qū)提供數(shù)據(jù)支撐。設計原則數(shù)據(jù)庫設計原則貼源數(shù)據(jù)區(qū)對應獨立的Hive數(shù)據(jù)庫不對外提供訪問,ETL用戶對數(shù)據(jù)庫有增、刪、查、改權(quán)限模型設計原則針對不需要記錄變化的實體,其邏輯模型參考緩沖層,按照貼源設計針對需要記錄變化的數(shù)據(jù),需要增加時間字段,設計拉鏈數(shù)據(jù)模型,記錄歷史物理模型考慮分區(qū),流水表按應急日期建立分區(qū),拉鏈表按終止日期建立分區(qū)歷史保留原則拉鏈表數(shù)據(jù)保留最近37個月的歷史快照表數(shù)據(jù)永久保留交易流水表數(shù)據(jù)保留最近25個月的歷史過期數(shù)據(jù)歸檔到歷史歸檔區(qū),需要時回遷基礎計算平臺—匯總數(shù)據(jù)區(qū)包含內(nèi)容主要用途針對服務管理、風險評級和應急量統(tǒng)計設計明細數(shù)據(jù)進行預匯總、預連接和預加工后的結(jié)果數(shù)據(jù)。對明細數(shù)據(jù)進行預匯總、預連接和預加工,為應用數(shù)據(jù)集市準備數(shù)據(jù)。設計原則數(shù)據(jù)庫設計原則匯總數(shù)據(jù)區(qū)對應獨立的Hive數(shù)據(jù)庫不對外提供訪問,ETL用戶對數(shù)據(jù)庫有增、刪、查、改權(quán)限模型設計原則匯總層采用了逆范式寬表設計,某種程度上采用維度建模的方法模型設計首先需要根據(jù)應急和應用的需要盡量包含更多的屬性和指標,同時兼顧空間匯總層需要針對維度數(shù)據(jù)執(zhí)行標準化處理匯總層模型增加數(shù)據(jù)日期記錄歷史,建議根據(jù)數(shù)據(jù)日期建立分區(qū)歷史保留原則不同實體采取不同的歷史保留策略建議以支持應用為輸入,避免永久保留過期數(shù)據(jù)歸檔到歷史歸檔區(qū),需要時回遷基礎計算平臺—平臺部署架構(gòu)基礎計算平臺由73臺X86服務器構(gòu)成,3臺服務器作為NameNode和JobTrackerNode,70臺服務器作為DataNode和TaskTrackerNode……DataNodeTaskTrackerNode服務器1DataNodeTaskTrackerNode服務器70Name&JobTrackerNode(Secondary)NameNodeJobTrackerNode互聯(lián)70臺服務器是HDFS數(shù)據(jù)節(jié)點,臨時數(shù)據(jù)區(qū)和貼源整合區(qū)作為獨立的數(shù)據(jù)庫部署在此服務器上,并按照3份冗余存儲NN負責HDFS元數(shù)據(jù)管理,元數(shù)據(jù)信息存儲在NAS集群指定目錄通過硬件冗余、RAID0+1、SlaveNN等技術(shù)實現(xiàn)高可用性70臺服務器是MR計算節(jié)點,Hive提交的SQL語句,轉(zhuǎn)化成MR任務,由JobTracker分配到每臺服務器上執(zhí)行SecondaryNN負責HDFS元數(shù)據(jù)備份管理,SecondaryJobTracker負責MR計算集群JobTracker高可用性JobTracker

Node負責MR任務分配通過心跳信號檢測TaskTracker活動狀態(tài),排除失效節(jié)點基礎計算平臺—平臺網(wǎng)絡拓撲NodeNodeNodeNodeNode20NodesRACK1……NodeNodeNodeNodeNode20NodesRACK2……NodeNodeNodeNodeNode20NodesRACK3……NodeNodeNodeNodeNode20NodesRACK3……管理分析平臺—平臺邏輯架構(gòu)服務信息管理,采用J2EE框架自主開發(fā),數(shù)據(jù)集市構(gòu)建于分析型數(shù)據(jù)庫集群運營績效管理,采用MicroStrategy開發(fā),數(shù)據(jù)集市構(gòu)建于分析型數(shù)據(jù)庫集群園區(qū)服務靈活分析,采用MicroStrategy開發(fā),數(shù)據(jù)集市構(gòu)建于內(nèi)存數(shù)據(jù)庫集群HANA管理分析平臺—安全管理個人服務信息管理園區(qū)服務信息管理銀行應急經(jīng)營分析銀行應急規(guī)模預測認證管理用戶BI應用門戶審計管理授權(quán)管理身份管理授權(quán)管理認證管理審計管理安全管理員安全管理員安全管理員賬戶管理平臺安全管理信息庫LDAP賬戶信息權(quán)限信息日志信息園區(qū)大數(shù)據(jù)治理物理架構(gòu)說明平臺所有服務器均采用標準X86PC服務器系統(tǒng)劃分為三個子網(wǎng)WEB服務子網(wǎng),兩臺服務器構(gòu)成的Tomcat集群應用服務子網(wǎng),兩臺服務器構(gòu)成的MicroStrategy集群數(shù)據(jù)服務子網(wǎng)基礎計算平臺,73臺服務器構(gòu)成的Hadoop集群數(shù)據(jù)集市平臺,30臺服務器構(gòu)成的?集群流程調(diào)度平臺,7臺服務器構(gòu)成的TaskAutomation集群數(shù)據(jù)交換平臺,5臺服務器與云數(shù)據(jù)推送平臺接口,分別實現(xiàn)不同應急系統(tǒng)的數(shù)據(jù)獲取園區(qū)大數(shù)據(jù)治理一期硬件配置所有服務器均采用開放的X86架構(gòu),單臺服務器建議配置如下:服務器類型服務器功能數(shù)量CPU內(nèi)存網(wǎng)口操作系統(tǒng)內(nèi)置盤基礎計算平臺(Hadoop集群)DataNode&TaskTracker服務器7032128G2*1GbCentos6.312*2TB7200RPMSATAdisksNameNode&JobTracker服務器332128G2*1GbCentos6.34*600GB15KSASdisksRAID0+1

歷史歸檔查詢平臺(Hadoop集群)DataNode&TaskTracker服務器301224G2*1GbCentos6.316*3TB7200RPMSATAdisksNameNode&JobTracker服務器31224G2*1GbCentos6.34*600GB15KSASdisksRAID0+1

沙盤演練平臺(Hadoop集群)DataNode&TaskTracker服務器3032128G2*1GbCentos6.312*2TB7200RPMSATAdisksNameNode&JobTracker服務器332128G2*1GbCentos6.34*600GB15KSASdisksRAID0+1

園區(qū)大數(shù)據(jù)治理一期硬件配置(續(xù))所有服務器均采用開放的X86架構(gòu),單臺服務器建議配置如下:服務器類型服務器功能數(shù)量CPU內(nèi)存網(wǎng)口操作系統(tǒng)內(nèi)置盤數(shù)據(jù)交換平臺數(shù)據(jù)接口服務器51664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1流程調(diào)度&ETL平臺流程調(diào)度&ETL服務器71664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1元數(shù)據(jù)服務器Hive元數(shù)據(jù)庫服務器21664G2*10GbCentos6.34*600GB15KSASdisksRAID0+1管理分析平臺數(shù)據(jù)集市服務器432128G4*10GbCentos6.32*300GB15KSASdisksRAID0+11632128G2*10GbCentos6.314*300GB15KSASdisksRAID0+1內(nèi)存數(shù)據(jù)庫服務器420256G2*10GbSLESforSAPapplications11SP28*600GB10kSASdisksRAID5BI應用服務器21664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1WEB服務器21664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1園區(qū)大數(shù)據(jù)治理一期硬件配置(續(xù))光前交換機配置要求千兆端口:278萬兆端口:100帶寬:8GBNAS集群配置如下:總存儲容量:40TB磁盤:15000RPMSASDisks網(wǎng)絡接口:萬兆網(wǎng)絡傳輸協(xié)議:TCP/IP網(wǎng)絡文件協(xié)議:CIFS、NFS單臺Cache:8GB園區(qū)大數(shù)據(jù)治理一期軟件清單類型軟件清單基礎計算平臺Hadoop0.2Centos6.3歷史歸檔查詢平臺Hadoop0.2Centos6.3沙盤演練平臺Hadoop0.2Centos6.3數(shù)據(jù)交換平臺HadoopClient&HiveCentos6.3流程調(diào)度&ETL平臺TaskAutomationMySQLClientPerlRuntime&MySQLDBDCentos6.3類型軟件清單管理分析平臺數(shù)據(jù)集市服務器?Centos6.3實時分析平臺內(nèi)存數(shù)據(jù)庫服務器SAPHanaEnterprise1.0Centos6.3管理分析&實時分析平臺BI應用服務器Mi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論