




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、企業(yè)數(shù)據(jù)中心系統(tǒng)平臺技術(shù)方案建議書第1章 總體建設(shè)方案1.1 總體建設(shè)思路圖、數(shù)據(jù)中心構(gòu)建思路圖按照對數(shù)據(jù)中心的理解,完整的數(shù)據(jù)中心應(yīng)該具備IT基礎(chǔ)設(shè)施(主機(jī)、存儲、網(wǎng)絡(luò))、企業(yè)級ETL平臺、數(shù)據(jù)存儲中心、數(shù)據(jù)共享服務(wù)、應(yīng)用層、統(tǒng)一門戶、數(shù)據(jù)管控平臺。1.2 功能框架圖、功能框架系統(tǒng)功能框架分為企業(yè)級ETL平臺、存儲與計(jì)算中心、服務(wù)層、應(yīng)用層、統(tǒng)一門戶、統(tǒng)一平臺管控。企業(yè)級ETL平臺:負(fù)責(zé)企業(yè)數(shù)據(jù)中心數(shù)據(jù)采集、加工、匯總、分發(fā)的過程,完成企業(yè)級數(shù)據(jù)標(biāo)準(zhǔn)化、集中化,實(shí)現(xiàn)數(shù)據(jù)脈絡(luò)化、關(guān)系化,實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)處理加工,包括:非實(shí)時數(shù)據(jù)處理和實(shí)時數(shù)據(jù)處理,提供數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載、數(shù)據(jù)匯總、數(shù)據(jù)
2、分發(fā)、數(shù)據(jù)挖掘等能力。存儲與計(jì)算中心:建立統(tǒng)一的數(shù)據(jù)中心數(shù)據(jù)模型,以及統(tǒng)一的數(shù)據(jù)存儲與計(jì)算,具體提供關(guān)系數(shù)據(jù)庫、分布式非關(guān)系數(shù)據(jù)庫、分布式文件、分布式計(jì)算,實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)存儲與計(jì)算。數(shù)據(jù)共享服務(wù):通過數(shù)據(jù)服務(wù)標(biāo)準(zhǔn)化開放訪問,幫助企業(yè)IT建設(shè)中,應(yīng)用和數(shù)據(jù)分離,引入更多的應(yīng)用開發(fā)商,促進(jìn)應(yīng)用的百花齊放和應(yīng)用的專業(yè)性;基于標(biāo)準(zhǔn)化接口,實(shí)現(xiàn)對標(biāo)簽、客戶視圖、指標(biāo)等數(shù)據(jù)查詢API封裝,實(shí)現(xiàn)與周邊系統(tǒng)實(shí)時互動,體現(xiàn)數(shù)據(jù)價值,減少數(shù)據(jù)冗余,保證數(shù)據(jù)安全,保證數(shù)據(jù)的一致性。應(yīng)用層:應(yīng)用層的應(yīng)用使用服務(wù)層提供的各種數(shù)據(jù)服務(wù)。本期應(yīng)用層包括:經(jīng)分應(yīng)用、流量運(yùn)營、ESOP應(yīng)用、VGOP應(yīng)用、指標(biāo)庫、流量運(yùn)營戰(zhàn)略地
3、圖、掌上分析、自助業(yè)務(wù)分析、區(qū)域洞察、渠道運(yùn)營、自助分析、客戶標(biāo)簽庫、實(shí)時營銷、LTE互聯(lián)網(wǎng)管控策略。統(tǒng)一門戶:提供統(tǒng)一域名分配、負(fù)載均衡、鑒權(quán)管理、統(tǒng)一管控平臺接入、應(yīng)用注冊、應(yīng)用發(fā)布、應(yīng)用訪問數(shù)據(jù)信息等功能,同時提供數(shù)據(jù)中心被應(yīng)用訪問的頻次,被應(yīng)用訪問的數(shù)據(jù)范圍,提供數(shù)據(jù)資產(chǎn)的評估,為應(yīng)用上下線和數(shù)據(jù)開放提供依據(jù)。統(tǒng)一平臺管控:面向開發(fā)人員、運(yùn)維人員實(shí)現(xiàn)數(shù)據(jù)、應(yīng)用、資源的統(tǒng)一管控,包括:數(shù)據(jù)資產(chǎn)管控、開發(fā)管理、監(jiān)控管理、調(diào)度管理、系統(tǒng)管理、安全管理。1.3 技術(shù)架構(gòu)圖、技術(shù)架構(gòu)系統(tǒng)技術(shù)架構(gòu)分為數(shù)據(jù)采集、計(jì)算存儲服務(wù)、數(shù)據(jù)共享服務(wù)、平臺管控。采用Hadoop云技術(shù),可以滿足計(jì)算能力線性擴(kuò)展、
4、多租戶能力、數(shù)據(jù)匯總能力;批處理場景采取Hadoop的Map/Reduce、Hive或者Spark來完成;流式數(shù)據(jù)處理,采用Esper計(jì)算引擎實(shí)現(xiàn)。數(shù)據(jù)采集:采用Flume計(jì)算框架,實(shí)現(xiàn)文件和消息采集與解析;采用流式爬蟲、中文分詞、圖片識別技術(shù),實(shí)現(xiàn)互聯(lián)網(wǎng)網(wǎng)頁信息實(shí)時采集;采用FTP文件方式實(shí)現(xiàn)對數(shù)據(jù)文件的采集;采用Socket消息方式實(shí)現(xiàn)對消息數(shù)據(jù)的采集;采用sqoop方式實(shí)現(xiàn)將數(shù)據(jù)庫數(shù)據(jù)裝載到HDFS文件系統(tǒng)。計(jì)算存儲服務(wù):采用Hadoop中HDFS文件系統(tǒng)提供統(tǒng)一的大數(shù)據(jù)數(shù)據(jù)存儲,滿足全量數(shù)據(jù)留存;基于Yarn提供跨平臺的資源管理,滿足資源的統(tǒng)一調(diào)度與管理;采用Hadoop實(shí)現(xiàn)非實(shí)時ET
5、L,實(shí)現(xiàn)海量數(shù)據(jù)的批處理,主要處理ODS層-DWD層-DW層-ST層的數(shù)據(jù)處理;視業(yè)務(wù)數(shù)據(jù)情況部分DW層-ST層的數(shù)據(jù)處理采用Spark計(jì)算框架實(shí)現(xiàn);采用Esper和rabbitmq支撐流數(shù)據(jù)處理與復(fù)雜事件處理;利舊DB2提供ST層數(shù)據(jù)的存儲與計(jì)算,支持高并發(fā)的指標(biāo)級數(shù)據(jù)共享。數(shù)據(jù)共享:數(shù)據(jù)開放共享采用基于HTTP協(xié)議REST風(fēng)格的OpenAPI完成同步處理與基于消息隊(duì)列(MQ)完成異步處理,實(shí)現(xiàn)類SOA面向服務(wù)的架構(gòu)體系。支持OAuth提供一個安全的、開放而又簡易的授權(quán)協(xié)議。數(shù)據(jù)共享服務(wù)部署在集群環(huán)境中以應(yīng)對高并發(fā)的訪問請求,并實(shí)現(xiàn)集群的負(fù)載均衡。統(tǒng)一平臺管控:采用Java EE技術(shù),通過M
6、VC模式(Model View Controller,是模型視圖控制器)把業(yè)務(wù)邏輯、數(shù)據(jù)、界面顯示分離的方法組織代碼,將業(yè)務(wù)邏輯聚集到一個部件里面,在改進(jìn)和個性化定制界面及用戶交互的同時,不需要重新編寫業(yè)務(wù)邏輯。1.4 數(shù)據(jù)流圖Mc信令(實(shí)時)數(shù)據(jù)通過Socket消息適配模塊接入至Esper計(jì)算引擎進(jìn)行實(shí)時處理,向應(yīng)用提供事件API服務(wù),支撐實(shí)時營銷應(yīng)用;后期如Gn信令、LTE信令也提供實(shí)時數(shù)據(jù),可滿足基于Gn信令、LTE信令的實(shí)時處理。除Mc信令(實(shí)時)數(shù)據(jù)外,Gn信令、Mc信令、自有業(yè)務(wù)訂購與使用行為等數(shù)據(jù)通過非實(shí)時ETL方式裝載到Hadoop的HDFS文件系統(tǒng),實(shí)現(xiàn)全量數(shù)據(jù)留存;由Hiv
7、e承擔(dān)主庫的職能,實(shí)現(xiàn)海量數(shù)據(jù)的批處理,承載ODS-DWD-DW-ST各層數(shù)據(jù)處理,其中DW層部分?jǐn)?shù)據(jù)提供給Spark,由Spark完成數(shù)據(jù)處理工作。對外數(shù)據(jù)服務(wù)可以由不同種類的API來完成:1、 針對諸如客戶統(tǒng)一視圖、客戶標(biāo)簽庫的數(shù)據(jù)探索查詢服務(wù):將數(shù)據(jù)加載到Spark的RDD中,通過API將數(shù)據(jù)共享出去;2、 針對諸如客戶標(biāo)簽信息查詢、客戶詳單查詢類的數(shù)據(jù)查詢服務(wù)(特點(diǎn)是通過一個Key來查詢數(shù)據(jù)):將數(shù)據(jù)加載到Hbase中,通過API將數(shù)據(jù)共享出去;3、 針對諸如指標(biāo)數(shù)據(jù)查詢、KPI數(shù)據(jù)查詢服務(wù)(特點(diǎn)是高并發(fā)、多維度的數(shù)據(jù)查詢):將數(shù)據(jù)加載到DB2數(shù)據(jù)庫(利舊)中,通過API將數(shù)據(jù)共享出去
8、;4、 針對多租戶的數(shù)據(jù)共享服務(wù),詳見5.3章節(jié);第2章 企業(yè)ETL數(shù)據(jù)處理平臺2.1 功能框架 根據(jù)數(shù)據(jù)中心的建設(shè)需求,企業(yè)級的ETL平臺實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)采集、轉(zhuǎn)換、加載、處理以及統(tǒng)一調(diào)度、管控等功能。這里的ETL指的是廣義的ETL,具備以下的特點(diǎn): 統(tǒng)一數(shù)據(jù)獲取接入,支持B域數(shù)據(jù)、M域數(shù)據(jù)、O域數(shù)據(jù)或其他外部數(shù)據(jù)統(tǒng)一接入數(shù)據(jù)中心平臺。 支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)采集、加工;對非結(jié)構(gòu)化數(shù)據(jù)要實(shí)現(xiàn)從非結(jié)構(gòu)化到結(jié)構(gòu)化的處理過程。 支持?jǐn)?shù)據(jù)采集、轉(zhuǎn)換、加載等關(guān)鍵 ,.數(shù)據(jù)處理過程,實(shí)現(xiàn)企業(yè)數(shù)據(jù)的標(biāo)準(zhǔn)。 從周期上,支持批量的數(shù)據(jù)采集,實(shí)時的數(shù)據(jù)采集 滿足數(shù)據(jù)中心數(shù)據(jù)加工,處理以及對外提供數(shù)據(jù)分發(fā)、同步
9、支持全過程的數(shù)據(jù)稽核。包括事前、事中、事后的稽核方式。以及靈活的稽核規(guī)則管理,算法管理 全過程的可視化開發(fā)配置管理。通過可視化的開發(fā)配置,測試和部署上線。 全過程元數(shù)據(jù)管理。重點(diǎn)要實(shí)現(xiàn)事前的元數(shù)據(jù)管理。管理的內(nèi)容包括:支持?jǐn)?shù)據(jù)模型、數(shù)據(jù)流程、轉(zhuǎn)換規(guī)則、數(shù)據(jù)關(guān)系和轉(zhuǎn)換映射規(guī)則。企業(yè)級的ETL平臺產(chǎn)品DACP可以很好支持上述的關(guān)鍵功能特點(diǎn)。第3章 數(shù)據(jù)存儲層3.1 總體概述 Mc信令(實(shí)時)數(shù)據(jù)通過Socket消息適配模塊接入至Esper計(jì)算引擎進(jìn)行實(shí)時處理,向應(yīng)用提供事件API服務(wù),支撐實(shí)時營銷應(yīng)用;后期如Gn信令、LTE信令也提供實(shí)時數(shù)據(jù),可滿足基于Gn信令、LTE信令的實(shí)時處理。除Mc信令(
10、實(shí)時)數(shù)據(jù)外,Gn信令、Mc信令、自有業(yè)務(wù)訂購與使用行為等數(shù)據(jù)通過非實(shí)時ETL方式裝載到Hadoop的HDFS文件系統(tǒng),實(shí)現(xiàn)全量數(shù)據(jù)留存;由Hive承擔(dān)主庫的職能,實(shí)現(xiàn)海量數(shù)據(jù)的批處理,承載ODS-DWD-DW-ST各層數(shù)據(jù)處理,其中DW層部分?jǐn)?shù)據(jù)提供給Spark,由Spark完成數(shù)據(jù)處理工作。3.2 存儲規(guī)劃HiveHbasedb2ODS層3+1月3+1月-DWD層6+1月-DW層12+1月-ST層36月-36月客戶標(biāo)簽/視圖3月12+1月-指標(biāo)3+1月-永久3.3 模型設(shè)計(jì)數(shù)據(jù)模型設(shè)計(jì)按照層次,主題的數(shù)據(jù)模型設(shè)計(jì)的思路。系統(tǒng)根據(jù)模型設(shè)計(jì)會自動轉(zhuǎn)成hadoop上存儲。層次、主題映射到相應(yīng)的目
11、錄。3.4 模型規(guī)范化管理3.4.1 分層規(guī)范依據(jù)數(shù)據(jù)倉庫建模理論,結(jié)合實(shí)際經(jīng)驗(yàn),數(shù)據(jù)計(jì)算平臺承載數(shù)據(jù)模型分為四層:ODS、DWD、DW和ST,即接口層、存儲層、匯總層、應(yīng)用層。模型分層說明:接口層:ODS模型的數(shù)據(jù)結(jié)構(gòu)與業(yè)務(wù)系統(tǒng)接口文件結(jié)構(gòu)保持一致,接口層的數(shù)據(jù)在數(shù)據(jù)計(jì)算平臺進(jìn)行暫存。存儲層:即明細(xì)數(shù)據(jù)層,是數(shù)據(jù)計(jì)算核心層數(shù)據(jù)模型之一,用于存放由清洗、轉(zhuǎn)換層來的數(shù)據(jù)或者接口層直接來的數(shù)據(jù),其設(shè)計(jì)目標(biāo)是為后續(xù)的匯總數(shù)據(jù)層和信息子層提供數(shù)據(jù)基礎(chǔ)。匯總層:即輕度匯總數(shù)據(jù)層,也是數(shù)據(jù)計(jì)算核心層數(shù)據(jù)模型之一,該層實(shí)現(xiàn)對主題內(nèi)的數(shù)據(jù)做輕量匯總。設(shè)計(jì)目標(biāo)是為應(yīng)用層提供足夠靈活、方便的基礎(chǔ)數(shù)據(jù),并保證從該層
12、獲取數(shù)據(jù)是性能最優(yōu)。應(yīng)用層:在匯總數(shù)據(jù)層之上,數(shù)據(jù)按照應(yīng)用需求做數(shù)據(jù)聚合,生成相關(guān)應(yīng)用所需數(shù)據(jù)的數(shù)據(jù)層。應(yīng)用數(shù)據(jù)層是面向應(yīng)用的,但是也不是每個應(yīng)用都在應(yīng)用數(shù)據(jù)層對應(yīng)一個表,對應(yīng)用要在數(shù)據(jù)應(yīng)用層中進(jìn)行整合。3.4.2 表命名規(guī)范OMG標(biāo)準(zhǔn)化組織建議,采用5分段的命名規(guī)范:如下3.4.3 字段命名規(guī)范建立字段的命名規(guī)范,并固化為domain類型,指導(dǎo)模型設(shè)計(jì)字段命名。當(dāng)有變更,可以做到跨平臺的統(tǒng)一建模。3.4.4 模型版本管理第4章 數(shù)據(jù)開放服務(wù)層4.1 建設(shè)目標(biāo)l 通過數(shù)據(jù)服務(wù)標(biāo)準(zhǔn)化開放訪問,幫助企業(yè)IT建設(shè)中,應(yīng)用和數(shù)據(jù)分離,引入更多的應(yīng)用開發(fā)商,促進(jìn)應(yīng)用的百花齊放和應(yīng)用的專業(yè)性。l 基于標(biāo)準(zhǔn)
13、化接口,實(shí)現(xiàn)對標(biāo)簽、客戶視圖、指標(biāo)等數(shù)據(jù)查詢API封裝,實(shí)現(xiàn)與周邊系統(tǒng)實(shí)時互動,體現(xiàn)數(shù)據(jù)價值,減少數(shù)據(jù)冗余,保證數(shù)據(jù)安全,保證數(shù)據(jù)的一致性。l 對于詳單級數(shù)據(jù),支持通過文件或授權(quán)的方式共享給周邊系統(tǒng)。l 通過統(tǒng)一的技術(shù)平臺框架,制定企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)體系規(guī)范,基礎(chǔ)數(shù)據(jù)采集處理,加工匯總,可以引入多家廠商或多租戶進(jìn)行標(biāo)準(zhǔn)化開發(fā)。要實(shí)現(xiàn)上述目標(biāo),需要解決的關(guān)鍵問題:1) 需要什么樣平臺功能?2) 開放的對象。給誰開放?3) 開放什么內(nèi)容。包含兩部分,基礎(chǔ)數(shù)據(jù)的集成開發(fā)的開放和應(yīng)用訪問層數(shù)據(jù)開放。4) 開放的安全保障機(jī)制5) 如何保證開放對象開發(fā)提交的結(jié)果的規(guī)范化、質(zhì)量。6) 開放平臺運(yùn)營的組織結(jié)構(gòu)和流程
14、制度。4.2 概述要滿足建設(shè)目標(biāo)的要求,數(shù)據(jù)服務(wù)開放的整個功能框架如下:4.2.1 開放對象示例說明如下開放對象說明使用形式相關(guān)數(shù)據(jù)多租戶通過授權(quán)的機(jī)制,給租戶開放通過sql查詢數(shù)據(jù)能力,租戶可以在此基礎(chǔ)上匯總加工自己私有的數(shù)據(jù)SQL,進(jìn)行數(shù)據(jù)處理在保障數(shù)據(jù)安全性、數(shù)據(jù)可控性的前提下,將Hive倉庫的ODS、DWD、DW各層的開放授權(quán)給數(shù)據(jù)處理開放給租戶。 ESOP,VGOP通過文件接口將數(shù)據(jù)分發(fā)給對端系統(tǒng),滿足其數(shù)據(jù)分析需求文件客戶視圖,匯總模型等手機(jī)經(jīng)分通過在線同步API調(diào)用的方式獲取數(shù)據(jù)開放API指標(biāo)類數(shù)據(jù)實(shí)時營銷客戶端通過事件注冊的方式監(jiān)聽服務(wù)接口,當(dāng)服務(wù)滿足觸發(fā)條件是主動通知監(jiān)聽客戶
15、端消息服務(wù)信令位置信息等4.2.2 開放共享方式共享方式說明應(yīng)用場景示例文件接口數(shù)據(jù)中心將數(shù)據(jù)主動導(dǎo)出文件,發(fā)送給數(shù)據(jù)需求方1、boss的互動接口2、即席查詢臨時周期性生成數(shù)據(jù)開放API通過API查詢獲取結(jié)果數(shù)據(jù),即查即用,不落地。按查詢數(shù)據(jù)對象粒度分為三類:1)ST表查詢1、通過對發(fā)布的數(shù)據(jù)模型發(fā)起LSQL進(jìn)行查詢獲取數(shù)據(jù)2)指標(biāo)類查詢2、如手機(jī)經(jīng)分查詢指標(biāo),原來是通過接口表導(dǎo)入數(shù)據(jù),可以通過API來查詢數(shù)據(jù)3)單用戶清單信息查詢API數(shù)據(jù)分發(fā)將數(shù)據(jù)中心的數(shù)據(jù)分發(fā)到目標(biāo)數(shù)據(jù)庫。需求方提出申請審批通過后,系統(tǒng)通過分發(fā)平臺定期將數(shù)據(jù)分發(fā)到目標(biāo)庫定期數(shù)據(jù)同步。如將用戶行為匯總數(shù)據(jù)定期同步到經(jīng)營分析
16、系統(tǒng)即席查詢業(yè)務(wù)分析人員通過封裝好的數(shù)據(jù)模型和提供在線即席查詢分析工具,進(jìn)行查詢分析獲取數(shù)據(jù)臨時統(tǒng)計(jì),臨時取數(shù)消息服務(wù)通過消息傳遞數(shù)據(jù)。適合于系統(tǒng)之間的實(shí)時協(xié)助,如用戶事件信息。需求方作為消息的消費(fèi)者,同時傳遞消息事件和內(nèi)容4.3 多租戶管理4.3.1 概述采用多租戶的思路,將數(shù)據(jù)能力和數(shù)據(jù)平臺數(shù)據(jù)處理能力按需、可控的進(jìn)行開放,在保障數(shù)據(jù)安全性、數(shù)據(jù)可控性的前提下,通過標(biāo)準(zhǔn)化封裝的數(shù)據(jù)操作,可視化開發(fā)工具開放給業(yè)務(wù)運(yùn)營部門,由其自行進(jìn)行數(shù)據(jù)操作開發(fā)。 使用企業(yè)級數(shù)據(jù)中心提供統(tǒng)一開發(fā)平臺來實(shí)現(xiàn)多租戶數(shù)據(jù)開發(fā),其功能結(jié)構(gòu)如下圖: 系統(tǒng)包括兩部分:開發(fā)管控和技術(shù)平臺。通過這兩部分互相配合實(shí)現(xiàn)系統(tǒng)開發(fā)
17、能力的開放。這種模式下需要解決的關(guān)鍵問題包括如下:如何進(jìn)行資源控制,數(shù)據(jù)權(quán)限管理,跨系統(tǒng)之間的數(shù)據(jù)交互,自動調(diào)度運(yùn)行,元數(shù)據(jù)管理。4.3.2 角色功能系統(tǒng)管理員:對開發(fā)團(tuán)隊(duì)進(jìn)行管理,數(shù)據(jù)權(quán)限和系統(tǒng)資源的分配、審批。1、設(shè)置開發(fā)團(tuán)隊(duì)使用資源和賬號2、對開發(fā)團(tuán)隊(duì)提出的數(shù)據(jù)權(quán)限申請進(jìn)行審批授權(quán)3、表的敏感級別和敏感字段。不同團(tuán)隊(duì)對同一數(shù)據(jù)安全級別可以不一樣4、對開發(fā)團(tuán)隊(duì)上線進(jìn)行審批。檢查性能,開發(fā)規(guī)范的滿足情況,調(diào)度申請周期是否合理5、對開發(fā)團(tuán)隊(duì)數(shù)據(jù)導(dǎo)出安全進(jìn)行審計(jì)租戶開發(fā):使用統(tǒng)一的技術(shù)架構(gòu)和開發(fā)工具,在可以使用的數(shù)據(jù)的基礎(chǔ),加工出私有數(shù)據(jù)1、查看詳細(xì)的數(shù)據(jù)結(jié)構(gòu)2、新申請數(shù)據(jù)權(quán)限,如果需要新的數(shù)據(jù)
18、,可以進(jìn)行申請,由管理員審批后就可以使用3、數(shù)據(jù)加工開發(fā),進(jìn)行數(shù)據(jù)匯總、關(guān)聯(lián)查詢,數(shù)據(jù)導(dǎo)出等類型數(shù)據(jù)數(shù)據(jù)加工開發(fā)4、臨時上線、正式上線。5、對其所開發(fā)的程序數(shù)據(jù)運(yùn)行情況監(jiān)控。4.3.3 統(tǒng)一開發(fā)平臺技術(shù)詳解 租戶用戶管理n 租戶與系統(tǒng)用戶映射通過映射開發(fā)管理平臺帳號及執(zhí)行平臺帳號,以租戶的方式實(shí)現(xiàn)用戶及用戶組管理,以達(dá)到資源管控及數(shù)據(jù)權(quán)限控制的目的。如下圖,在管控平臺進(jìn)行開發(fā)團(tuán)隊(duì)的管理和對應(yīng)賬號的設(shè)置,在數(shù)據(jù)平臺完成對租戶的資源、權(quán)限進(jìn)行控制。每個開發(fā)團(tuán)隊(duì)根據(jù)需要指定其在hadoop或關(guān)系數(shù)據(jù)庫上的執(zhí)行賬號。在數(shù)據(jù)平臺上實(shí)現(xiàn)賬號的權(quán)限、資源的控制。在查詢或運(yùn)行某個數(shù)據(jù)處理任務(wù)時,
19、用其對應(yīng)的賬號進(jìn)行執(zhí)行。從而實(shí)現(xiàn)對開發(fā)團(tuán)隊(duì)開發(fā)運(yùn)行的任務(wù)資源、權(quán)限的控制。在管理平臺新建租戶的賬號或數(shù)據(jù)權(quán)限變更時,管理平臺根據(jù)配置參數(shù),實(shí)時調(diào)用OCDC的相關(guān)API自動進(jìn)行授權(quán)、修改、創(chuàng)建賬號。 系統(tǒng)計(jì)算資源分配控制在管控平臺統(tǒng)一對租戶進(jìn)行計(jì)算資源的分配,分配完的參數(shù)部署到hadoop或關(guān)系數(shù)據(jù)庫,實(shí)現(xiàn)控制。實(shí)現(xiàn)資源控制,包括兩部分: hadoop上的資源分配和關(guān)系數(shù)據(jù)庫的資源分配(DB2)。n Hadoop計(jì)算資源控制要實(shí)現(xiàn)計(jì)算資源的控制,hadoop需要OCHadoop3.2以上,安裝安全組件(sentry) 計(jì)算資源控制原理資源池跟系統(tǒng)的賬號相關(guān)。一個系統(tǒng)賬號只能屬于一個
20、資源池,YARN支持采用資源池方式對系統(tǒng)用戶進(jìn)行CPU,內(nèi)存的運(yùn)行控制。資源池控制參數(shù):獨(dú)占資源:最小分配的資源。系統(tǒng)確保此用戶有最小的資源。共享資源:系統(tǒng)空閑時可以使用的最大資源其中單位:虛擬的cpu核和內(nèi)存單位。如何設(shè)置租戶的資源參數(shù),是一個需要不斷根據(jù)運(yùn)行情況進(jìn)行優(yōu)化的過程。注:Spark同hadoop的資源管理n DB2資源控制要實(shí)現(xiàn)DB2的資源控制,要求:DB2 9.5 版本。目前db2的版本已經(jīng)滿足,需要開通WLM的生效參數(shù)。在DB2 9.5版本推出了工作負(fù)載管理WLM(參考附錄,不用額外收費(fèi)),但只能限制CPU數(shù)量。控制參數(shù)如下:參數(shù)名說明min分配給某個服務(wù)類的最小資源百分比。
21、缺省值為 0。softmax在有沖突的情況下(這里可以理解為資源緊張時),服務(wù)類可獲得的最少資源比例。在沒有沖突的情況下,服務(wù)類可獲得的資源可以超過該值設(shè)定的比例。缺省值 100hardmax在沒有沖突的情況下,服務(wù)類可獲得的最大資源比例。缺省值為 100 系統(tǒng)存儲資源分配Hadoop存儲資源控制,每個租戶獨(dú)立一個文件跟目錄,設(shè)置文件目錄大小;db2的存儲資源控制,對每個租戶獨(dú)立一個表空間,設(shè)置表空間大??;說明:hadoop存儲控制采用的是操作系統(tǒng)的目錄大小的控制。缺陷是無法高度自動共享可用空間。即一個目錄大小分配出去之后,意味其就占有了這個空間。因此一般做法是由小到大慢慢分配空
22、間。 數(shù)據(jù)權(quán)限分配與控制在開發(fā)管理平臺進(jìn)行對數(shù)據(jù)權(quán)限的分配。根據(jù)分配的結(jié)果在數(shù)據(jù)平臺進(jìn)行授權(quán)、回收等操作。數(shù)據(jù)權(quán)限的控制包括:表級權(quán)限控制和字段級的權(quán)限控制:l 表級權(quán)限分配:系統(tǒng)根據(jù)分配的結(jié)果,產(chǎn)生授權(quán)或權(quán)限回收的腳本到db2,hadoop進(jìn)行執(zhí)行完成權(quán)限控制。注:在管理平臺分配的是邏輯模板表,數(shù)據(jù)平臺控制的是實(shí)際的表。因此有一個模塊專門按模板表的權(quán)限規(guī)則轉(zhuǎn)換為物理表的授權(quán)腳本執(zhí)行。l 字段級權(quán)限分配:在表級授權(quán)的基礎(chǔ)上,對表的字段的權(quán)限進(jìn)行授權(quán)分配。由于目前db2,hadoop不能直接實(shí)現(xiàn)對字段級的權(quán)限控制。所以我們采用兩種方式實(shí)現(xiàn)這個功能:方式1:建立視圖,過濾掉沒有權(quán)限的
23、字段,然后將視圖授權(quán)給相關(guān)賬號。實(shí)現(xiàn)字段級的權(quán)限控制。方式2:通過應(yīng)用級的控制。通過開發(fā)人員編寫的sql語句解析,分析其查詢中所用到的字段,如果字段超出權(quán)限范圍,則給出提示,不允許執(zhí)行。資源控制手段列表:控制項(xiàng)目db2hadoop表級權(quán)限通過db2的權(quán)限管理,通過腳本實(shí)現(xiàn)數(shù)據(jù)權(quán)限的分配通過kerbors的權(quán)限管理,通過腳本實(shí)現(xiàn)數(shù)據(jù)權(quán)限的分配字段級權(quán)限通過視圖通過視圖資源-CPU通過wlm進(jìn)行設(shè)置通過YARN資源池進(jìn)行控制資源-內(nèi)存無法實(shí)現(xiàn)通過YARN資源池進(jìn)行控制資源-存儲每個租戶獨(dú)立一個表空間,設(shè)置表空間大小每個租戶獨(dú)立一個文件跟目錄,設(shè)置文件目錄大小系統(tǒng)文件目錄每個租戶在數(shù)據(jù)主機(jī)上建立文件
24、目錄,存放源代碼,可執(zhí)行程序每個租戶在數(shù)據(jù)主機(jī)上建立文件目錄,存放源代碼,可執(zhí)行程序 租戶的數(shù)據(jù)開發(fā)過程1. 查看數(shù)據(jù)字典開發(fā)人員可以查看到所有的數(shù)據(jù)字典。查看內(nèi)容包括數(shù)據(jù)表名,中文名稱,描述信息,存儲位置、數(shù)據(jù)結(jié)構(gòu)。通過調(diào)用基礎(chǔ)平臺的元數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)字典查看。2. 開發(fā)界面通過開發(fā)平臺配置數(shù)據(jù)處理流程,可支持庫內(nèi)與庫外、云平臺與關(guān)系數(shù)據(jù)庫的混搭數(shù)據(jù)處理,示例如下:上述的處理流程實(shí)現(xiàn):在hadoop上對ods_cdr通過sql腳本匯總dw_cdr,再通過數(shù)據(jù)分發(fā)到db2上的dw_cdr_yyyymmdd表上。開發(fā)人員需要對輸出表dw_cdr設(shè)置表結(jié)構(gòu),sql處理匯總處編寫sql腳本
25、。在一個處理的任務(wù)流程中,節(jié)點(diǎn)包括數(shù)據(jù)節(jié)點(diǎn),數(shù)據(jù)函數(shù)節(jié)點(diǎn)拼接起來的一個處理流程。其中數(shù)據(jù)處理函數(shù)節(jié)點(diǎn)包括:Sql,tcl,java,shell,數(shù)據(jù)分發(fā),數(shù)據(jù)加載,數(shù)據(jù)導(dǎo)出,ftp、創(chuàng)建表,刪除表等。3. 測試在界面上可以立即執(zhí)行某個節(jié)點(diǎn)或整個處理流程,執(zhí)行過程和日志信息會實(shí)時輸出到前臺界面進(jìn)行查看。如下示意圖:4. 上線開發(fā)人員在界面上直接提交上線。包括臨時上線和正式上線兩種。臨時上線需要開發(fā)人員填寫生效的開始日期,結(jié)束日期,調(diào)度周期。正式上線,系統(tǒng)管理管理員會進(jìn)行審批。審批的項(xiàng)目包括:程序名稱,表名是否規(guī)范,字段名稱和中文信息是否完整。在上線時,系統(tǒng)會自動將程序代碼、數(shù)據(jù)結(jié)構(gòu)從開發(fā)環(huán)境的配
26、置信息部署到生產(chǎn)環(huán)境下。5. 運(yùn)行程序上線后,調(diào)度平臺就會根據(jù)程序數(shù)據(jù)依賴關(guān)系自動進(jìn)行調(diào)度。如果是臨時上線的只有調(diào)度運(yùn)行在有效期內(nèi)的程序才會被調(diào)度執(zhí)行。程序開發(fā)人員可以申請延長有效期或申請固定上線。 調(diào)度執(zhí)行多租戶調(diào)度使用平臺提供的統(tǒng)一調(diào)度功能,實(shí)現(xiàn)過程如下:1. 調(diào)度運(yùn)行依據(jù)輸入表關(guān)系,根據(jù)數(shù)據(jù)關(guān)系實(shí)現(xiàn)正確調(diào)度依賴運(yùn)行。對租戶的臨時程序調(diào)度時,只會調(diào)度在有效期的程序才會調(diào)度。2. SQL腳本執(zhí)行開發(fā)人員開發(fā)好的SQL腳本,可以到多個數(shù)據(jù)平臺上運(yùn)行,系統(tǒng)需要進(jìn)行正確選擇投入到相應(yīng)的數(shù)據(jù)平臺運(yùn)行。a) 開發(fā)人員可以指定節(jié)點(diǎn)運(yùn)行的數(shù)據(jù)庫,如下圖b) 系統(tǒng)會對開發(fā)人員的編寫的sql進(jìn)行
27、解析,獲取其依賴的輸入表和輸出表。再跟元數(shù)據(jù)進(jìn)行對比自動選擇相應(yīng)數(shù)據(jù)庫。選擇策略如下:所有輸入表都在同一個庫則選擇那個庫輸入表分布在兩個庫系統(tǒng)給出錯誤提示。建議其采用數(shù)據(jù)同步再進(jìn)行開發(fā)。如果涉及到的表涉及到兩個庫都存在如果有關(guān)聯(lián)表,則跟著關(guān)聯(lián)表同個庫,否則優(yōu)先選擇大數(shù)據(jù)平臺。3. 跨數(shù)據(jù)平臺命令的運(yùn)行比如:如何實(shí)現(xiàn)在hadoop平臺執(zhí)行匯總數(shù)據(jù),導(dǎo)入到db2,在進(jìn)行匯總。Server端在讀取這個一個處理任務(wù)時,將命令發(fā)送匯總命令給hadoop Agent執(zhí)行,然后在發(fā)送命令給hadoop Agent進(jìn)行分發(fā)到db2,然后在發(fā)送命令給db2 agent進(jìn)行數(shù)據(jù)處理。第5章 應(yīng)用開發(fā)與部署5.1
28、應(yīng)用開發(fā)流程應(yīng)用層的所有業(yè)務(wù)應(yīng)用具備與底層數(shù)據(jù)松耦合特性,通過接口層提供的各種數(shù)據(jù)接口,向業(yè)務(wù)人員或第三方廠商提供開放API服務(wù)。根據(jù)不同的應(yīng)用場景,通過對相應(yīng)的API進(jìn)行選擇和組合,從而快速生成所需要的業(yè)務(wù)應(yīng)用,以滿足對應(yīng)用的快速開發(fā)、部署、上線的能力。對于應(yīng)用的開發(fā)可通過兩種方式進(jìn)行實(shí)現(xiàn):1、 數(shù)據(jù)中心平臺內(nèi)應(yīng)用開發(fā):通過數(shù)據(jù)中心提供的應(yīng)用開發(fā)平臺直接進(jìn)行應(yīng)用開發(fā),開發(fā)平臺提供高效的可視化開發(fā)界面,包括對各類API可以追根溯源,展現(xiàn)詳細(xì)API元數(shù)據(jù)信息等。同時對應(yīng)用設(shè)計(jì)、應(yīng)用開發(fā)、應(yīng)用測試、應(yīng)用上線、應(yīng)用下線進(jìn)行全流程、全生命周期的開發(fā)管控。此類開發(fā)場景主要適用于不具備硬件資源的用戶(如業(yè)
29、務(wù)部門開發(fā)人員)進(jìn)行應(yīng)用開發(fā)。2、 數(shù)據(jù)中心平臺外應(yīng)用開發(fā):通過Http協(xié)議數(shù)據(jù)服務(wù)接口,直接調(diào)用數(shù)據(jù)中心服務(wù)層中的各類API服務(wù),通過開發(fā)編寫相應(yīng)的計(jì)算過程形成對應(yīng)的業(yè)務(wù)應(yīng)用。此類開發(fā)場景主要適用于具備硬件資源(如第三方廠商)的用戶進(jìn)行應(yīng)用開發(fā)。5.2 應(yīng)用部署建議本期從外部系統(tǒng)接入8類數(shù)據(jù)源,所有清單數(shù)據(jù)在企業(yè)數(shù)據(jù)中心進(jìn)行基礎(chǔ)匯總,提供數(shù)據(jù)、存儲和API接口服務(wù)能力,供14類應(yīng)用調(diào)用。標(biāo)簽庫應(yīng)用:所有標(biāo)簽數(shù)據(jù)計(jì)算、存儲在數(shù)據(jù)中心,標(biāo)簽結(jié)果數(shù)據(jù)在HIVE和HBASE分別存儲一份數(shù)據(jù),HIVE上存儲的數(shù)據(jù)通過Spark的RDD對外提供“根據(jù)標(biāo)簽查用戶群”API,HBASE上存儲的數(shù)據(jù)對外提供“
30、根據(jù)號碼查標(biāo)簽信息”API。指標(biāo)庫:所有指標(biāo)計(jì)算、存儲在數(shù)據(jù)中心,結(jié)果數(shù)據(jù)存儲在RDB,通過“KPI查詢”API對外提供服務(wù)。掌上經(jīng)分應(yīng)用支撐:掌上經(jīng)分需要的KPI由經(jīng)分提供,改為由數(shù)據(jù)中心“KPI查詢”API提供。實(shí)時營銷支撐:將MC位置信令事件集成到數(shù)據(jù)中心,由數(shù)據(jù)中心提供消息事件給實(shí)時營銷平臺。LTE互聯(lián)網(wǎng)管控策略(PCC)、自有業(yè)務(wù)分析平臺、區(qū)域價值洞察:對于這些規(guī)劃中的系統(tǒng),建議采用多租戶的方式,在企業(yè)數(shù)據(jù)中心完成數(shù)據(jù)處理和存儲都在數(shù)據(jù)中心,應(yīng)用通過調(diào)用API獲取數(shù)據(jù)。經(jīng)分系統(tǒng)一經(jīng)接口、MIS接口、財(cái)務(wù)報(bào)表、ESOP、VGOP、戰(zhàn)略地圖、渠道運(yùn)營平臺、所需的數(shù)據(jù)源,統(tǒng)一由數(shù)據(jù)中心將D
31、WD、DW層數(shù)據(jù)分發(fā)文件給各系統(tǒng),由應(yīng)用系統(tǒng)自行進(jìn)行數(shù)據(jù)加工及展現(xiàn)。經(jīng)分其他應(yīng)用(除去一經(jīng)接口、MIS接口、財(cái)務(wù)報(bào)表):數(shù)據(jù)處理和存儲都在數(shù)據(jù)中心,ST層數(shù)據(jù)保存在db2。第6章 統(tǒng)一門戶6.1 概述企業(yè)數(shù)據(jù)中心統(tǒng)一門戶的建設(shè)是為了降低系統(tǒng)使用人員訪問數(shù)據(jù)中心的難度,提高系統(tǒng)的易用性,并且實(shí)現(xiàn)數(shù)據(jù)中心的資源有機(jī)整合和統(tǒng)籌管理。1. 數(shù)據(jù)開放服務(wù)門戶:對于數(shù)據(jù)開放服務(wù)提供開發(fā)者門戶,含有數(shù)據(jù)服務(wù)授權(quán)申請、開發(fā)者幫助文檔、服務(wù)注冊、創(chuàng)建、注銷等。2. 管控平臺門戶:對整個數(shù)據(jù)中心管控平臺使用者門戶,系統(tǒng)管理、運(yùn)維調(diào)度、質(zhì)量監(jiān)控等。3. 應(yīng)用使用門戶:對于應(yīng)用使用者的門戶,支持多租戶應(yīng)用、第三方應(yīng)用
32、的集成統(tǒng)一呈現(xiàn)。6.2 門戶功能框架統(tǒng)一門戶功能框架如下圖所示門戶功能框架包括門戶接入、門戶功能兩部分;通過功能適配到角色工作臺形成不同的角色視圖。 門戶接入:主要負(fù)責(zé)企業(yè)數(shù)據(jù)中心用戶訪問渠道的接入管理;接入應(yīng)用的日志管理、負(fù)載均衡與訪問授權(quán)。 門戶功能:包括角色工作臺、認(rèn)證管理、權(quán)限管理、用戶管理、流程審批、數(shù)據(jù)開發(fā)、應(yīng)用開發(fā)、數(shù)據(jù)授權(quán)、運(yùn)維監(jiān)控、多租戶管理等界面。第7章 管控平臺7.1 概述7.2 元數(shù)據(jù)管理7.2.1 功能框架元數(shù)據(jù)管理是需要將各系統(tǒng)的信息、設(shè)計(jì)工具信息、生產(chǎn)平臺信息,進(jìn)行收集管理,統(tǒng)一管理。提供一個視圖,以幫助使用人員了解系統(tǒng)的數(shù)據(jù)分布、數(shù)據(jù)關(guān)系、業(yè)務(wù)規(guī)則、指標(biāo)口徑等。
33、元數(shù)據(jù)包括:系統(tǒng)類元數(shù)據(jù)、技術(shù)類元數(shù)、管理類元數(shù)據(jù)??傮w功能框架圖針對數(shù)據(jù)中心的要求,元數(shù)據(jù)管理需要具備的關(guān)鍵的特性如下:1) 要求提供標(biāo)準(zhǔn)化的應(yīng)用開發(fā)工具,滿足在不同平臺上的開發(fā)需求2) 100%的ETL開發(fā)、數(shù)據(jù)模型開發(fā)、應(yīng)用開發(fā)能基于開發(fā)工具實(shí)現(xiàn)3) 95%以上的元數(shù)據(jù)能自動采集、解析與管理,元數(shù)據(jù)的范圍包括但不局限于數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)詞典、字段維度、程序映射邏輯、數(shù)據(jù)生命周期等4) 多租戶的統(tǒng)一元數(shù)據(jù)管理7.2.2 基于元數(shù)據(jù)的應(yīng)用開發(fā)工具提供統(tǒng)一的應(yīng)用開發(fā)工具,完成高效應(yīng)用的開發(fā),并可以自動完成應(yīng)用元數(shù)據(jù)的采集。提供諸如數(shù)據(jù)展示包括報(bào)表工具,儀表盤分析等工具如1、 支持常見的各種報(bào)表樣式
34、2、 支持常見各種分析圖,同時支持圖表組合分析3、 支持各種數(shù)據(jù)源方式支持oracle,db2,mysql等常見的關(guān)系型數(shù)據(jù)庫支持gp,gbase等mpp數(shù)據(jù)庫支持hdfs,hbase等大數(shù)據(jù)平臺提供數(shù)據(jù)支持webservice獲取數(shù)據(jù)7.2.3 基于元數(shù)據(jù)的數(shù)據(jù)開發(fā)工具采用元數(shù)據(jù)驅(qū)動(MDA)設(shè)計(jì)理念,去規(guī)劃元數(shù)據(jù)對象的創(chuàng)建、運(yùn)行、評估、維護(hù)各環(huán)節(jié)節(jié)。屏蔽大數(shù)據(jù)平臺差異性,統(tǒng)一模型設(shè)計(jì)、統(tǒng)一程序開發(fā),將元數(shù)據(jù)融入到開發(fā)各個環(huán)節(jié),利于管理。 數(shù)據(jù)模型設(shè)計(jì)支持IDE數(shù)據(jù)模型設(shè)計(jì),同時支持模型設(shè)計(jì)工具power design、Erwin批量導(dǎo)入功能。提供數(shù)據(jù)周期、數(shù)據(jù)表級字段級銘感設(shè)置、字段口徑定
35、義。 數(shù)據(jù)流程設(shè)計(jì)設(shè)計(jì)程序輸入表和輸出表的元數(shù)據(jù)信息。 程序開發(fā)根據(jù)設(shè)計(jì)的內(nèi)容轉(zhuǎn)換成開發(fā)內(nèi)容。開發(fā)人員就可以在此基礎(chǔ)上進(jìn)行開發(fā)。提供各個接入平臺統(tǒng)一封裝函數(shù),降低開發(fā)難度 數(shù)據(jù)質(zhì)量控制1.常規(guī)檢查。包括及時性,運(yùn)行狀態(tài),運(yùn)行時長,處理記錄數(shù)等進(jìn)行常規(guī)檢查。2.對程序日志進(jìn)行稽核。包括單步的處理時長,記錄數(shù)的波動等3.對程序的目標(biāo)表啟動檢查。檢查目標(biāo)的統(tǒng)計(jì)指標(biāo)值,關(guān)鍵字段維度、層次間數(shù)據(jù)的一致性進(jìn)行檢查 提供程序界面測試功能對開發(fā)內(nèi)容進(jìn)行測試和調(diào)優(yōu),檢查質(zhì)量規(guī)范,性能,質(zhì)量是否滿足期望發(fā)布應(yīng)用到正式運(yùn)行環(huán)境元數(shù)據(jù)收集存儲: 程序的基本信息。包括程序的名稱,中文名稱,備注,周期,層次,主題,創(chuàng)建人
36、,開發(fā)人員 程序的處理步驟信息。包括程序步驟編號,調(diào)用函數(shù),執(zhí)行腳本 程序輸入輸出關(guān)系。輸入模型,輸出模型程序的字段映射規(guī)則。輸入模型到輸出模型的轉(zhuǎn)換規(guī)則 數(shù)據(jù)流設(shè)計(jì)設(shè)計(jì)數(shù)據(jù)模型,設(shè)置數(shù)據(jù)存儲周期,敏感級別,數(shù)據(jù)模型數(shù)據(jù)流設(shè)計(jì),支持模型字段映射關(guān)系設(shè)計(jì)1. 數(shù)據(jù)流程設(shè)計(jì)設(shè)計(jì)程序輸入表和輸出表.輸入表可以是文件,也可以是遠(yuǎn)程數(shù)據(jù)庫上的某個表。目標(biāo)表可以是文件也可以是遠(yuǎn)程目標(biāo)數(shù)據(jù)庫上的表。2. 數(shù)據(jù)模型設(shè)計(jì)對輸入表和輸出表,進(jìn)行表結(jié)構(gòu)的設(shè)計(jì)。包括表的基本信息,存儲信息和表的關(guān)系。根據(jù)不同的存儲類別,會有設(shè)計(jì)參數(shù)上的差異。3. 轉(zhuǎn)換映射規(guī)則設(shè)計(jì)根據(jù)表的關(guān)系和表模型信息,進(jìn)行轉(zhuǎn)換映射。映
37、射規(guī)則包括合并,拆分,規(guī)則轉(zhuǎn)換,函數(shù)轉(zhuǎn)換等常見的操作 可視化程序開發(fā) 統(tǒng)一封裝的函數(shù)庫,屏蔽底層差異性,通過類sql編寫,或函數(shù)調(diào)度,實(shí)現(xiàn)跨平臺統(tǒng)一開發(fā)。根據(jù)數(shù)據(jù)倉庫處理過程抽象出5大類通用函數(shù)庫,統(tǒng)一調(diào)用參數(shù)接口,開發(fā)人員針對不同不平臺實(shí)現(xiàn)無差異的開發(fā)。如將某類數(shù)據(jù)文件加載到數(shù)據(jù)庫中,開發(fā)人員只要指定數(shù)據(jù)文件路徑和目標(biāo)表。系統(tǒng)執(zhí)行時如果是要入庫到DB2調(diào)用DB2的命令,如果是Hadoop平臺,調(diào)用Hadoop的命令。 通過可視化的流程界面,拖拽方式實(shí)現(xiàn)對函數(shù)的編排,對每個節(jié)點(diǎn)函數(shù)編寫參數(shù),實(shí)現(xiàn)數(shù)據(jù)加工功能。降低開發(fā)難度。開發(fā)時候,對函數(shù)進(jìn)行編排,填寫節(jié)點(diǎn)函數(shù)參數(shù)。實(shí)現(xiàn)一個具體的
38、數(shù)據(jù)處理過程 支持多種腳本開發(fā),提供基于web腳本開發(fā)工具編寫如tcl、python開發(fā)程序;能夠從開發(fā)的腳本中自動解析建立元數(shù)據(jù):輸入表和輸出表的關(guān)系;腳本類的開發(fā)工具,集成了開發(fā),測試,上線集成操作。同時將函數(shù)庫,數(shù)據(jù)模型統(tǒng)一進(jìn)行集成;7.2.4 關(guān)鍵技術(shù)說明 前向元數(shù)據(jù)管理1、在開發(fā)過程中通過IDE工具產(chǎn)生結(jié)構(gòu)化的元數(shù)據(jù)信息。2、在上線時,對元數(shù)據(jù)內(nèi)容進(jìn)行稽核檢查,保證元數(shù)據(jù)信息的完整性,合理性。通過統(tǒng)一的上線作為管理的控制點(diǎn)。每個團(tuán)隊(duì)提交要上線的內(nèi)容,存到統(tǒng)一元數(shù)據(jù)庫進(jìn)行標(biāo)準(zhǔn)化檢查稽核。上線時檢查的內(nèi)容:程序需要提交的內(nèi)容:程序本身的信息和程序輸出表的信息。
39、 多租戶的元數(shù)據(jù)管理 每個開發(fā)團(tuán)隊(duì)輸出到不同的開發(fā)目錄。內(nèi)容包括現(xiàn)有的數(shù)據(jù)字典、業(yè)務(wù)口徑、程序代碼等。這些輸出到同一的元數(shù)據(jù)中心,進(jìn)行統(tǒng)一的標(biāo)準(zhǔn)化和規(guī)范化檢查 統(tǒng)一的標(biāo)準(zhǔn)與規(guī)范,統(tǒng)制定基本的規(guī)范和標(biāo)準(zhǔn),不管哪個開發(fā)小組開發(fā)的內(nèi)容必須滿足這些基本的標(biāo)準(zhǔn)。7.3 流程管理通過流程管理實(shí)現(xiàn)對數(shù)據(jù)處理過程的統(tǒng)一管控,并提供一系列工具實(shí)現(xiàn)數(shù)據(jù)處理過程可視化、可管控,它包括對系統(tǒng)資源、軟件資源、業(yè)務(wù)應(yīng)用、參與人員等各種資源統(tǒng)一管理,綜合監(jiān)控平臺,隨時重現(xiàn)大數(shù)據(jù)環(huán)境中各個組成部分相互依賴,為各級IT管理人員提供從資源規(guī)劃、資源收集、性能分析、故障定位與處理、統(tǒng)計(jì)分析、知識沉淀與管理過程的支持7.3.1 流程
40、引擎流程管理集成自有輕量型流程引擎來完成各類流程快速配置開發(fā)。功能如下:1、流程的建模和實(shí)現(xiàn)在流程定義、執(zhí)行、管理控制等階段,業(yè)務(wù)和IT人員的高度一致流程運(yùn)行,以及整體性能查看和監(jiān)控可視化提供靈活的手段實(shí)現(xiàn)流程的修改和演進(jìn)支持流程模式以及部門協(xié)同,支持流程中的附件添加和查看自帶的業(yè)務(wù)規(guī)則和決策表支持分支選擇,路由到特定用戶、用戶組、角色、投票規(guī)則、例外和事件處理、服務(wù)水平監(jiān)控規(guī)則等2、流程仿真、優(yōu)化和分析3、 開發(fā)管控、版本控制4、 流程評估和監(jiān)控分析7.4 作業(yè)任務(wù)管理通過元數(shù)據(jù)獲取作業(yè)輸入表作為作業(yè)啟動的前置條件1、通過數(shù)據(jù)流程設(shè)計(jì)來確定數(shù)據(jù)關(guān)系2、人工進(jìn)行修改作業(yè)輸入、輸出3、支持手工設(shè)
41、置前置作業(yè)作業(yè)任務(wù)資源占用類型評估采集程序的歷史運(yùn)行時長,處理記錄數(shù)等關(guān)鍵指標(biāo),支持系統(tǒng)自動測算和人工指定,對程序的資源占用類型分為三類:1、高:運(yùn)行時長特別長,處理記錄數(shù)比較多2、中:處理記錄數(shù)相對較小,處理步驟多,時間較長。3、低:運(yùn)行時間很短的程序作業(yè)任務(wù)靜態(tài)優(yōu)先級按照應(yīng)用的重要性,根據(jù)血緣分析,尋找路徑上的所有處理任務(wù)。1、重要越高的應(yīng)用,其路徑上的節(jié)點(diǎn)的任務(wù)優(yōu)先級越高。2、人工進(jìn)行修改維護(hù)7.5 數(shù)據(jù)管理7.5.1 數(shù)據(jù)生命周期管理 上線不管通過什么方式完成開發(fā),上線必須保證數(shù)據(jù)的相關(guān)的信息完整性,合理性。由數(shù)據(jù)管理員負(fù)責(zé)對上線要素信息的檢查。保證在上線時信息要素被正確
42、保存,以作為后續(xù)使用。 上線檢查基本信息要素權(quán)限信息要素:存儲信息要素:數(shù)據(jù)關(guān)系要素: 表的基本信息檢查 表結(jié)構(gòu) 表存儲信息設(shè)置 系統(tǒng)規(guī)范性自動檢測 數(shù)據(jù)監(jiān)控.1 存儲策略情況檢查表的實(shí)際存儲情況和規(guī)劃存儲周期情況進(jìn)行對比,發(fā)現(xiàn)規(guī)劃與實(shí)際的差距,查找原因。為下期擴(kuò)容做準(zhǔn)備。.2 安全漏洞檢測安全策略管理:對數(shù)據(jù)加密的密鑰管理,敏感數(shù)據(jù)定義,賬號權(quán)限,離線數(shù)據(jù)終端的注冊等。安全策略檢測:對安全策略是否實(shí)施到位進(jìn)行自動檢測。如敏感信息是否有加密,賬號的權(quán)限是否超出范圍。安全審計(jì)監(jiān)控:對數(shù)據(jù)所有的使用日志進(jìn)行審計(jì),是否涉及到敏感數(shù)據(jù)非法使用。.
43、3 存儲空間監(jiān)控檢查文件空間,表空間等信息是否滿足生產(chǎn)的要求。 數(shù)據(jù)評估.1 數(shù)據(jù)價值評估功能說明:對數(shù)據(jù)價值成本進(jìn)行評估,對數(shù)據(jù)存儲、處理、應(yīng)用進(jìn)行優(yōu)化。評估算法:科目分?jǐn)偡椒▋r值前臺應(yīng)用使用次數(shù)應(yīng)用的點(diǎn)擊次數(shù)平均分?jǐn)偨o應(yīng)用鏈路上的所有表支持kpi,指標(biāo)統(tǒng)計(jì)的個數(shù)KPI應(yīng)用次數(shù)平均分?jǐn)偨oKPI的統(tǒng)計(jì)表鏈路上的所有表分發(fā)給外部系統(tǒng)接口可數(shù)據(jù)(分發(fā)給外部表,平均分?jǐn)偨o分發(fā)接口表鏈路上的所有表)*加權(quán)系數(shù)外部應(yīng)用調(diào)用次數(shù)(外部應(yīng)用調(diào)用表次數(shù)平均分?jǐn)偨o應(yīng)用表鏈路上的所有表)*加權(quán)系數(shù)成本項(xiàng)目存儲成本表的大小*(存儲擴(kuò)容的投資總額/總空間大小)計(jì)算成本處理表數(shù)據(jù)總時長*(主
44、機(jī)擴(kuò)容的投資總額/所有程序的運(yùn)行總時長)開發(fā)成本表的字段數(shù)*(每年新業(yè)務(wù)開發(fā)費(fèi)用/表的總字段數(shù)據(jù))運(yùn)維成本維護(hù)費(fèi)用/表的總數(shù)管理成本分?jǐn)偣芾砜偝杀?表的總數(shù)應(yīng)用場景:.2 數(shù)據(jù)重要性評估從表的在數(shù)據(jù)使用過程中和數(shù)據(jù)應(yīng)用中對表的重要性進(jìn)行評估,輸出表重要性級別。.3 存儲周期評估包括存儲規(guī)則的配置示例如下:數(shù)據(jù)內(nèi)容集團(tuán)建議數(shù)據(jù)保存周期用戶資料及接觸記錄在線存儲:三年近線存儲:永久保存(Hadoop Erasure Code)各類話單在線存儲:一年近線存儲:三年(Hadoop Erasure Code)信令和日志在線存儲:一個月近線存儲:六個月(Hadoop Erasu
45、re Code)各類匯總數(shù)據(jù)在線存儲:永久保存存儲周期的計(jì)算,計(jì)算表到期時間。如果到期了,則這個表可以進(jìn)行刪除或轉(zhuǎn)儲。.4 時效性評估通過對數(shù)據(jù)關(guān)系的分析,發(fā)現(xiàn)孤立表或無效表。根據(jù)表名判斷此表大約含義,建表日期、狀態(tài)日期,表內(nèi)數(shù)據(jù)時間等判斷此表最后更新時間。通過數(shù)據(jù)的使用日志,對孤立表和無效表進(jìn)行判斷是否有使用如果滿足以上3點(diǎn),就可以判斷此表無使用和處理.就可以進(jìn)行下線處理。.5 冗余數(shù)據(jù)評估系統(tǒng)中存在著大量的冗余的數(shù)據(jù)。比如從清單上的進(jìn)行匯總的表就非常多,這些匯總表中有些存在相識性,這就造成了大量的冗余數(shù)據(jù),這些大量的冗余數(shù)據(jù),一方面給數(shù)據(jù)的精確性和可靠性將帶來影
46、響,同時也影響著數(shù)據(jù)庫的性能。要解決這個問題有兩個環(huán)節(jié):發(fā)現(xiàn)冗余數(shù)據(jù)和冗余進(jìn)行消除合并。.6 數(shù)據(jù)關(guān)系評估數(shù)據(jù)關(guān)系的類別可以分為以下幾種:l 主外鍵關(guān)系。由上線時進(jìn)行登記。l 參考關(guān)系。主要描述實(shí)體表與維度表的關(guān)系。在上線時登記。l 輸入與輸出。通過元數(shù)據(jù)解析建立。l 歷史拍照。通過處理程序解析發(fā)現(xiàn)建立。l 冗余備份。從目的可以劃分為:分工提速、轉(zhuǎn)儲優(yōu)化、應(yīng)用分流、數(shù)據(jù)統(tǒng)計(jì)臨時備份。系統(tǒng)根據(jù)以上的關(guān)系類別,通過相識表的發(fā)現(xiàn)分析,自動建立數(shù)據(jù)之間的關(guān)系。 數(shù)據(jù)優(yōu)化.1 優(yōu)化策略類別條件優(yōu)化策略執(zhí)行策略下線清理1、表滿足存儲評估的到期條件2、同時滿足數(shù)據(jù)在
47、各個已經(jīng)同步到位清理或轉(zhuǎn)儲自動執(zhí)行下線清理1、滿足時效性分析發(fā)現(xiàn)的無效表清理人工確認(rèn)性能優(yōu)化1、發(fā)現(xiàn)高查詢使用的表轉(zhuǎn)存高端設(shè)備或內(nèi)存數(shù)據(jù)人工確認(rèn)冗余消除1、發(fā)現(xiàn)相似表或冗余表數(shù)據(jù)合并人工確認(rèn)冗余字段1、發(fā)現(xiàn)抽取過多的字段但沒有使用到優(yōu)化抽取策略人工確認(rèn).2 優(yōu)化執(zhí)行多系統(tǒng)協(xié)同生命周期管理:可以制定在不同的庫不同存儲策略,如最近數(shù)據(jù)和歷史數(shù)據(jù)分布策略;自動管理與手工管理:支持系統(tǒng)自動管理,自動清理,同時對一些重點(diǎn)的表進(jìn)行手工審批管理; 數(shù)據(jù)下線對滿足下線的表的進(jìn)行數(shù)據(jù)下線。.1 預(yù)下線為了安全起見,對重要的表、不確定的冗余表等,可以先預(yù)下線,再下線。將表
48、的權(quán)限都收回,確保所有的使用者都無法使用此表。標(biāo)識此表狀態(tài)為:預(yù)下線狀態(tài)。過了預(yù)下線期限后,就可以執(zhí)行下線的操作了。如果此期間,有人提出需要此表,就可以進(jìn)行回退,恢復(fù)權(quán)限配置、狀態(tài)。.2 下線分析對下線的表,刪除表,同時需要清理數(shù)據(jù)、程序。系統(tǒng)根據(jù)元數(shù)據(jù)信息自動分析給出,此表的獨(dú)有程序和輸入表。這些表和程序就是要下線的內(nèi)容。.3 下線根據(jù)這些表獨(dú)有的程序和輸入表,從后臺調(diào)度系統(tǒng)停止移除相關(guān)的程序,清理的獨(dú)有表的數(shù)據(jù)。完成下線工作。7.5.2 數(shù)據(jù)質(zhì)量管理數(shù)據(jù)質(zhì)量管理的總體目標(biāo):常態(tài)化、體系化、標(biāo)準(zhǔn)化、自動化的全面數(shù)據(jù)質(zhì)量管理,以達(dá)到數(shù)據(jù)質(zhì)量控制的全面性、可控性、可度
49、量性、可迅速定位和有效解決。通過流程制度建設(shè)、質(zhì)量評估體系建設(shè)、質(zhì)量檢測IT平臺建設(shè)實(shí)現(xiàn)TDQM(Total Data Quality Manage),即企業(yè)級全面數(shù)據(jù)質(zhì)量管理。提供數(shù)據(jù)質(zhì)量稽核規(guī)則統(tǒng)一配置,并支持對質(zhì)量規(guī)則的定義和任意節(jié)點(diǎn)的附加。根據(jù)時間發(fā)生的順序,可分為事前質(zhì)量檢查、事中運(yùn)行監(jiān)控、事后歸納總結(jié),并能對各過程中所產(chǎn)生事件及信息形成告警信息,通過短信、彩信、郵件的形式進(jìn)行發(fā)送。從上表格中可以看出在經(jīng)分的日常生產(chǎn)中產(chǎn)生的問題大部分都可以上線前的嚴(yán)格控制來避免,這說明了數(shù)據(jù)質(zhì)量的重要性。 質(zhì)量規(guī)則定義支持質(zhì)量規(guī)則的增、刪、改、查操作。支持定義元數(shù)據(jù)對象的質(zhì)量規(guī)則,如接
50、口質(zhì)量規(guī)則,程序質(zhì)量規(guī)則,數(shù)據(jù)模型質(zhì)量規(guī)則,指標(biāo)質(zhì)量規(guī)則,報(bào)表質(zhì)量規(guī)則?;藢ο竽0迮渲檬菚π枰藢ο蟮幕拘畔?,包括稽核對象的基礎(chǔ)實(shí)體配置,稽核所需要的數(shù)據(jù)實(shí)體,對象的稽核結(jié)果匯總及詳細(xì)信息。 質(zhì)量規(guī)則附加支持將質(zhì)量規(guī)則根據(jù)相關(guān)性附加到各個節(jié)點(diǎn),分別進(jìn)行不同類別的質(zhì)量規(guī)則檢查。在點(diǎn)擊編輯后編輯規(guī)則的詳細(xì)配置,平臺提供十多種的檢查函數(shù)函數(shù)名稱函數(shù)說明變量定義增加變量定義,如增加sql變量,在引用是$tabinfo.dataname數(shù)組比較比較單列數(shù)組是否一樣腳本規(guī)則如:1000=新增用戶數(shù)100000;如果指標(biāo)計(jì)算結(jié)果為0,則告警。字符串比較如:是否通過SQL解析建立映射關(guān)系
51、;檢查是否存在沒有與任何數(shù)據(jù)處理過程建立數(shù)據(jù)處理關(guān)系的數(shù)據(jù)實(shí)體跨庫字符串比較滿足約定條件,得到預(yù)訂的結(jié)果,注意:else沒有條件時 寫成非空檢查選擇某個參數(shù),此參數(shù)不能為空數(shù)值比較選擇數(shù)值進(jìn)行比較,比較參數(shù)可以是sql語句,也可以是常量或變量跨庫數(shù)值比較進(jìn)行多庫之間的數(shù)值比較值域檢查判斷某個值是否在指定范圍之內(nèi)時間比較判斷某個時間是否在指定時間之前,每日7:30,每月3日5:00之前,5:00,M3數(shù)組屬性對比取數(shù)組中某個時間的所有屬性值跟指定時間的所有屬性值進(jìn)行對比,先要確保數(shù)組定義中包含時間字段和對比時間的數(shù)據(jù)數(shù)組維度波動對比取數(shù)組中某個時間的所有屬性值跟指定時間的所有屬性值進(jìn)行對比,先要
52、確保數(shù)組定義中包含時間字段和對比時間的數(shù)據(jù)數(shù)組分量與總量波動對比總體波動與成員波動的允許范圍相關(guān)性比較相關(guān)性對比,取相關(guān)對象的指標(biāo)值范圍波動檢查靜態(tài)表屬性變動檢查檢查新增或減少的成員或當(dāng)新增或減少的成員占比大于指定范圍時告警靜態(tài)表屬性波動檢查檢查成員自身的波動率范圍SQL腳本按SQL語句返回檢查結(jié)果,如果結(jié)果集為空則檢查通過,否則不通過 事前質(zhì)量檢查上線前檢查在開發(fā)階段定義好各元數(shù)據(jù)對象的質(zhì)量規(guī)則,在上線時,調(diào)用檢查規(guī)則對上線的指標(biāo)進(jìn)行檢查是否滿足質(zhì)量的規(guī)則,在一開始規(guī)避一些常見的錯誤。源系統(tǒng)變更檢查A、 表結(jié)構(gòu)變更監(jiān)控:對表中字段的變更、增加、刪除時產(chǎn)生的變化進(jìn)行監(jiān)控(如BOS
53、S上線對表進(jìn)行了修改)。能夠跟接口程序結(jié)合起來,當(dāng)字段變更時,能夠判斷出對應(yīng)接口的對應(yīng)接口號和對應(yīng)接口文件哪個字段發(fā)生了變更。B、 字段維值監(jiān)控:字段維值主要將一個表的某個字段的不同值的數(shù)量和值的大小與之前的快照進(jìn)行對比,可發(fā)現(xiàn)值的數(shù)目或者值的大小的變化情況。C、 業(yè)務(wù)規(guī)則監(jiān)控:檢查邏輯上的合理性,如成為大客戶時間必須晚于開戶時間,狀態(tài)在用的號碼必須是唯一的。 事中運(yùn)行監(jiān)控運(yùn)行過程監(jiān)控:對運(yùn)行過程的對象設(shè)置質(zhì)量規(guī)則,在運(yùn)行過程中及時調(diào)用這些規(guī)則對運(yùn)行結(jié)果第一時間進(jìn)行稽核,以及時發(fā)現(xiàn)問題。發(fā)現(xiàn)問題后,及時展示監(jiān)控到的當(dāng)前告警信息,并將錯誤信息發(fā)送至告警集中管理??梢詫Ω婢M(jìn)行定位分析、相似問題分析、轉(zhuǎn)問題單或解除(誤報(bào)的告警信息)。業(yè)務(wù)指標(biāo)監(jiān)控將指標(biāo)的管理進(jìn)行集中化、標(biāo)準(zhǔn)化、管理體系化和檢查自動化。1)指標(biāo)界面監(jiān)控框架分級:支持將指標(biāo)的監(jiān)控展示框架分為四級框架L0:總體狀況L1:詳細(xì)列表 L2:告警點(diǎn)明細(xì) L3:告警點(diǎn)表現(xiàn)2)表現(xiàn)形式分類:不同類型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報(bào)書 周以華
- 初中課題立項(xiàng)申報(bào)書
- 廠房委托招商合同范本
- 省級高校教改課題申報(bào)書
- 醫(yī)療維修托管合同范本
- 咨詢產(chǎn)品服務(wù)合同范本
- 美學(xué)課題申報(bào)書格式要求
- 研究生課題申報(bào)書分工
- 出境加工合同范例
- 關(guān)于郵寄合同范本
- 認(rèn)識常用電子元件圖解課件
- 2025年鐵嶺衛(wèi)生職業(yè)學(xué)院單招職業(yè)技能測試題庫1套
- 2025年黑龍江商業(yè)職業(yè)學(xué)院單招職業(yè)技能測試題庫及參考答案
- GB/T 20840.10-2025互感器第10部分:低功率無源電流互感器的補(bǔ)充技術(shù)要求
- 稅法(第5版) 課件 第13章 印花稅
- 建加油站申請書
- 2024-2025學(xué)年廣州市高二語文上學(xué)期期末考試卷附答案解析
- 課題申報(bào)參考:中外文藝交流互鑒研究
- 少年商學(xué)院《DeepSeek中小學(xué)生使用手冊》
- 2025年山東鋁業(yè)職業(yè)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2025年上半年天津中煤進(jìn)出口限公司招聘電力及新能源專業(yè)人才易考易錯模擬試題(共500題)試卷后附參考答案
評論
0/150
提交評論