版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
智慧公安大數(shù)據(jù)平臺(tái)與
資源中心建設(shè)方案目錄01平臺(tái)總體建設(shè)方案02平臺(tái)功能建設(shè)方案03資源中心建設(shè)方案04平臺(tái)建設(shè)應(yīng)用效果大數(shù)據(jù)平臺(tái)與資源中心構(gòu)建TB級(jí)大數(shù)據(jù)采集、存儲(chǔ)、計(jì)算、挖掘、分析與應(yīng)用能力匯聚數(shù)據(jù)資源形成數(shù)據(jù)資產(chǎn)保護(hù)數(shù)據(jù)安全挖掘數(shù)據(jù)價(jià)值形成業(yè)務(wù)洞察建立數(shù)據(jù)服務(wù)城市管理者城市運(yùn)營(yíng)者城市企業(yè)城市監(jiān)管機(jī)構(gòu)城市居民G安各系統(tǒng)數(shù)據(jù)物聯(lián)網(wǎng)數(shù)據(jù)社會(huì)數(shù)據(jù)政府機(jī)構(gòu)相關(guān)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)…智慧G安數(shù)據(jù)檢索數(shù)據(jù)計(jì)算決策依據(jù)洞察&建議數(shù)據(jù)統(tǒng)計(jì)、經(jīng)營(yíng)分析、風(fēng)險(xiǎn)預(yù)警、智能服務(wù)、輔助決策&兌現(xiàn)數(shù)據(jù)價(jià)值、賦能G安實(shí)戰(zhàn)、提升治安水平、推動(dòng)社會(huì)發(fā)展平臺(tái)定位:信息引擎&決策中樞平臺(tái)總體建設(shè)目標(biāo)GA大數(shù)據(jù)中心數(shù)據(jù)應(yīng)用自助化數(shù)據(jù)運(yùn)行可視化數(shù)據(jù)組織知識(shí)化數(shù)據(jù)監(jiān)控智能化數(shù)據(jù)處理自動(dòng)化數(shù)據(jù)接入標(biāo)準(zhǔn)化建設(shè)目標(biāo)聚:推進(jìn)G安、交通、應(yīng)急、社保相關(guān)數(shù)據(jù)資源的整合,促進(jìn)政務(wù)數(shù)據(jù)的對(duì)接利用。并逐步推進(jìn)社會(huì)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等數(shù)據(jù)的采集與匯聚。管:構(gòu)建一站式數(shù)據(jù)資產(chǎn)可視化管理,通過對(duì)數(shù)據(jù)資產(chǎn)的血緣譜系和信息資源目錄的統(tǒng)一管理,實(shí)現(xiàn)GA數(shù)據(jù)的全過程治理與管理,以及各環(huán)節(jié)的安全與質(zhì)量監(jiān)管。通:實(shí)現(xiàn)基于應(yīng)用場(chǎng)景的數(shù)據(jù)資源共享與管理機(jī)制,推動(dòng)GA大數(shù)據(jù)資源的充分共享,讓數(shù)據(jù)為解決交通擁堵、環(huán)境保護(hù)等各類社會(huì)問題賦能,發(fā)揮g安大數(shù)據(jù)資源的價(jià)值。用:整合數(shù)據(jù)資源并開展數(shù)據(jù)應(yīng)用模型及算法研究,探索數(shù)據(jù)應(yīng)用于服務(wù)模式創(chuàng)新。通過主題庫、智能應(yīng)用等方式推動(dòng)在公共安全、城市治理、社會(huì)管理等領(lǐng)域的廣泛深度應(yīng)用。安:打造整體安全管控體系,保證平臺(tái)上各類數(shù)據(jù)在數(shù)據(jù)匯聚、數(shù)據(jù)管理與治理、數(shù)據(jù)加工處理、數(shù)據(jù)應(yīng)用開發(fā)、數(shù)據(jù)共享與開放等全生命周期中的安全防護(hù)能力。平臺(tái)總體建設(shè)方案市g(shù)安大數(shù)據(jù)平臺(tái)與資源中心大數(shù)據(jù)云計(jì)算數(shù)據(jù)整合功能設(shè)計(jì)應(yīng)用發(fā)布需求分析應(yīng)用展示模型設(shè)計(jì)流口管理一R一檔全息感知公共安全數(shù)據(jù)采集數(shù)據(jù)存儲(chǔ)數(shù)據(jù)計(jì)算數(shù)據(jù)模型治理管理計(jì)算模型數(shù)據(jù)源關(guān)聯(lián)業(yè)務(wù)目標(biāo)業(yè)務(wù)邏輯計(jì)算任務(wù)調(diào)度數(shù)據(jù)安全數(shù)據(jù)應(yīng)用服務(wù)數(shù)據(jù)服務(wù)/能力共享G安社會(huì)資源…交警輿情整合系統(tǒng)數(shù)據(jù)數(shù)據(jù)開放攝像其他…Mac整合設(shè)備數(shù)據(jù)監(jiān)管人員應(yīng)用廠家運(yùn)營(yíng)人員管理人員服務(wù)各方角色CL平臺(tái)總體技術(shù)架構(gòu)平臺(tái)總體應(yīng)用流程抽取配置數(shù)據(jù)摸底數(shù)據(jù)校核模型設(shè)計(jì)元數(shù)據(jù)配置標(biāo)簽維護(hù)分布式文件系統(tǒng)搭建組件適配構(gòu)建抽取平臺(tái)產(chǎn)線服務(wù)部署產(chǎn)線適配產(chǎn)線功能拓展開發(fā)數(shù)據(jù)需求數(shù)據(jù)建模數(shù)據(jù)開發(fā)數(shù)據(jù)調(diào)度數(shù)據(jù)維護(hù)規(guī)范制定平臺(tái)功能建設(shè)數(shù)據(jù)對(duì)接實(shí)施數(shù)據(jù)治理運(yùn)營(yíng)平臺(tái)總體實(shí)施方案資源中心建設(shè)目錄01平臺(tái)總體建設(shè)方案02平臺(tái)功能建設(shè)方案03資源中心建設(shè)方案04平臺(tái)建設(shè)應(yīng)用效果平臺(tái)功能設(shè)計(jì)g安大數(shù)據(jù)中心是一個(gè)系統(tǒng)工程,如果把大數(shù)據(jù)匯聚中心比如成建一棟大樓,平臺(tái)功能建設(shè)相當(dāng)于打地基,把房子的框架搭好,框架穩(wěn)不穩(wěn),好不好,決定了大樓的基本質(zhì)量。大數(shù)據(jù)平臺(tái)由9大模塊組成,支持至少10000個(gè)數(shù)據(jù)任務(wù)并發(fā)執(zhí)行,系統(tǒng)響應(yīng)時(shí)間均值<=1s,日處理數(shù)據(jù)量峰值10T(相當(dāng)于50億條數(shù)據(jù))數(shù)據(jù)服務(wù)數(shù)據(jù)安全數(shù)據(jù)運(yùn)維數(shù)據(jù)應(yīng)用數(shù)據(jù)采集平臺(tái)數(shù)據(jù)中心層數(shù)據(jù)開發(fā)調(diào)度平臺(tái)數(shù)據(jù)管理數(shù)據(jù)分析大數(shù)據(jù)中心組成部分平臺(tái)功能架構(gòu)基于g安大數(shù)據(jù)中心的建設(shè)目標(biāo),結(jié)合市G安G安數(shù)據(jù)與業(yè)務(wù)特點(diǎn),采用了當(dāng)前最主流的大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu),構(gòu)設(shè)了g安大數(shù)據(jù)中心平臺(tái)。大數(shù)據(jù)基礎(chǔ)平臺(tái)(數(shù)據(jù)存儲(chǔ)、計(jì)算與采集)數(shù)據(jù)管理治理(數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)質(zhì)量管理、統(tǒng)一開發(fā)調(diào)度)數(shù)據(jù)安全管理數(shù)據(jù)可視化統(tǒng)一數(shù)據(jù)門戶基礎(chǔ)支撐平臺(tái)流數(shù)據(jù)接入批數(shù)據(jù)接入源數(shù)據(jù)G安數(shù)據(jù)物聯(lián)設(shè)備數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)流外部數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)…非結(jié)構(gòu)化數(shù)據(jù)支持結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、實(shí)時(shí)流數(shù)據(jù)、設(shè)備數(shù)據(jù)等數(shù)據(jù)的采集處理與存儲(chǔ);批數(shù)據(jù)處理通過數(shù)據(jù)采集任務(wù)調(diào)度的方式,根據(jù)時(shí)間戳定時(shí)探查數(shù)據(jù)源數(shù)據(jù)以及結(jié)構(gòu)化文件的變動(dòng),通過數(shù)據(jù)采集平臺(tái)的解析,抽取增量數(shù)據(jù)到數(shù)據(jù)資源平臺(tái);流數(shù)據(jù)處理通過數(shù)據(jù)資源平臺(tái)內(nèi)獨(dú)立部署kafka消息系統(tǒng),采用數(shù)據(jù)源推送或自動(dòng)拉取的方式,將流數(shù)據(jù)接入數(shù)據(jù)資源平臺(tái)。主動(dòng)采集&數(shù)據(jù)推送通過對(duì)數(shù)據(jù)資產(chǎn)的治理,讓系統(tǒng)數(shù)據(jù)更加準(zhǔn)確、一致、完整、安全,降低IT成本;針對(duì)數(shù)據(jù)資產(chǎn)應(yīng)用使得系統(tǒng)數(shù)據(jù)的使用過程更為人性、便捷、智能,從而提升管理決策水平。關(guān)于數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)是支持系統(tǒng)數(shù)據(jù)資產(chǎn)的分發(fā)、開發(fā)、交易等數(shù)據(jù)嫁接的實(shí)現(xiàn)。從而促進(jìn)數(shù)據(jù)資產(chǎn)的價(jià)值實(shí)現(xiàn)。數(shù)據(jù)資產(chǎn)資產(chǎn)管理主要是針對(duì)數(shù)據(jù)資產(chǎn)類目編制的過程梳理、明確職責(zé)等內(nèi)容,同時(shí)也可以對(duì)數(shù)據(jù)表的元數(shù)據(jù)信息進(jìn)行有效管理資產(chǎn)總覽從數(shù)據(jù)規(guī)模、類目分布、熱門訪問等多個(gè)角度,對(duì)數(shù)據(jù)資源平臺(tái)上的數(shù)據(jù)資產(chǎn)狀況進(jìn)行全景式展現(xiàn)。資產(chǎn)目錄對(duì)平臺(tái)元數(shù)據(jù)的有序組織,是記錄數(shù)據(jù)體系的保障數(shù)據(jù)類目是目錄信息與服務(wù)、保障與支撐所組成的一個(gè)整體針對(duì)資產(chǎn)的合理組織,需要對(duì)資產(chǎn)進(jìn)行對(duì)應(yīng)分類資產(chǎn)報(bào)告針對(duì)整體平臺(tái)上的對(duì)應(yīng)數(shù)據(jù),提供定周期了解其對(duì)應(yīng)資產(chǎn)情況,對(duì)總體資產(chǎn)情況進(jìn)行分析。資產(chǎn)地圖通過元數(shù)據(jù)信息收集、數(shù)據(jù)血緣探查、數(shù)據(jù)權(quán)限申請(qǐng)授權(quán)等手段,幫助數(shù)據(jù)資源平臺(tái)完成數(shù)據(jù)信息的收集和管理,解決數(shù)據(jù)資源平臺(tái)數(shù)據(jù)開發(fā)者有哪些數(shù)據(jù)可用、到哪里可以找到數(shù)據(jù)的難題,并且提升數(shù)據(jù)資源的利用率。實(shí)時(shí)數(shù)據(jù)管理提供針對(duì)實(shí)時(shí)數(shù)據(jù)的元數(shù)據(jù)管理功能,包括:元數(shù)據(jù)采集、元數(shù)據(jù)存儲(chǔ)、元數(shù)據(jù)運(yùn)維、數(shù)據(jù)質(zhì)量檢查、元數(shù)據(jù)分析、權(quán)限管理、數(shù)據(jù)生命周期管理、元數(shù)據(jù)服務(wù)。數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)質(zhì)量管理主要包含對(duì)數(shù)據(jù)完整性、準(zhǔn)確性、鮮活性、權(quán)威性的分析和管理,并對(duì)數(shù)據(jù)進(jìn)行跟蹤、處理和解決,實(shí)現(xiàn)對(duì)數(shù)據(jù)質(zhì)量的全程管理,提高數(shù)據(jù)的質(zhì)量。質(zhì)量模型一套規(guī)則質(zhì)檢方案一質(zhì)檢方案二質(zhì)檢方案……and╋╋質(zhì)量模型實(shí)體表數(shù)據(jù)質(zhì)量基礎(chǔ)單元完整性準(zhǔn)確性鮮活性權(quán)威性根據(jù)業(yè)務(wù)需要選擇實(shí)體表和規(guī)則,方案與方案之間相互獨(dú)立,互不干擾。通過執(zhí)行模型下的質(zhì)檢方案,可以得到用戶關(guān)心的數(shù)據(jù)質(zhì)量分析結(jié)果,如問題數(shù)據(jù)明細(xì)信息、數(shù)據(jù)質(zhì)量分析結(jié)果等。平臺(tái)能夠提供質(zhì)量規(guī)則配置、質(zhì)量監(jiān)控、問題處理等功能,及時(shí)發(fā)現(xiàn)并分析數(shù)據(jù)質(zhì)量問題,不斷改善數(shù)據(jù)的使用質(zhì)量,從而提升數(shù)據(jù)的可用性,挖掘數(shù)據(jù)更大的價(jià)值空值檢查值域檢查規(guī)范檢查邏輯檢查重復(fù)數(shù)據(jù)檢查及時(shí)性檢查缺失記錄檢查引用完整性檢查……檢查質(zhì)量規(guī)則數(shù)據(jù)質(zhì)量管理數(shù)據(jù)開發(fā)平臺(tái)數(shù)據(jù)開發(fā)完成多種環(huán)境的全量與增量數(shù)據(jù)處理能力,簡(jiǎn)化開發(fā)過程。統(tǒng)一數(shù)據(jù)開發(fā)入口,支持可視化開發(fā)和原生態(tài)開發(fā)兩種開發(fā)模式,實(shí)現(xiàn)原生態(tài)開發(fā)與可視化編排的互相轉(zhuǎn)換,提升開發(fā)效率,支撐多種混搭數(shù)據(jù)庫環(huán)境的開發(fā)調(diào)度功能?!芽梢暬_發(fā)⊙原生態(tài)開發(fā)統(tǒng)一調(diào)度平臺(tái)以一個(gè)流水線生產(chǎn)為例:傳統(tǒng)做法是單條生產(chǎn)線依賴產(chǎn)品的生產(chǎn)工序進(jìn)行協(xié)同生產(chǎn)。在統(tǒng)一開發(fā)調(diào)度平臺(tái)可以通過控制中心進(jìn)行作業(yè)命令下發(fā),狀態(tài)收集進(jìn)行控制,達(dá)到多個(gè)工廠,多條生產(chǎn)線的協(xié)同調(diào)度,實(shí)現(xiàn)數(shù)據(jù)從“采集→加工→對(duì)外應(yīng)用服務(wù)”的全生命周期管理統(tǒng)一調(diào)度管理流程設(shè)計(jì)與管理調(diào)度策略管控任務(wù)調(diào)度控制標(biāo)準(zhǔn)化控件……作業(yè)/任務(wù)管理作業(yè)/任務(wù)調(diào)度作業(yè)/任務(wù)執(zhí)行采集轉(zhuǎn)換加載調(diào)度監(jiān)控?cái)?shù)據(jù)安全管理安全服務(wù)體系平臺(tái)基礎(chǔ)設(shè)備信息源身份認(rèn)證信息數(shù)據(jù)授權(quán)信息安全服務(wù)信息數(shù)據(jù)使用信息g安大數(shù)據(jù)平臺(tái)數(shù)據(jù)流數(shù)據(jù)流安全運(yùn)營(yíng)中心安全服務(wù)信息平臺(tái)安全運(yùn)營(yíng)安全規(guī)范審計(jì)事前:統(tǒng)一身份訪問控制事中:數(shù)據(jù)脫敏數(shù)據(jù)分類分級(jí)事后:安全日志審計(jì)分析風(fēng)險(xiǎn)告警監(jiān)控整體:數(shù)據(jù)安全合規(guī)審查數(shù)據(jù)可視化可視化分析工具提供以簡(jiǎn)單拖拽操作方式,靈活、快速的生成各種報(bào)表,用戶可對(duì)有權(quán)限的數(shù)據(jù)資源進(jìn)行快速的數(shù)據(jù)探索及數(shù)據(jù)可視化分析。專題數(shù)據(jù),主題數(shù)據(jù)加工完成后,用戶可利用可視化工具開發(fā)可視化報(bào)表,經(jīng)過測(cè)試發(fā)布上線后,對(duì)外提供可視化服務(wù)拖拽編輯可視化圖表豐富的圖表組件,有多種樣式主題可選基于角色、用戶的權(quán)限管理,以及空間的數(shù)據(jù)隔離圖表數(shù)據(jù)支持導(dǎo)出csv,以便離線分析。統(tǒng)一數(shù)據(jù)門戶構(gòu)建統(tǒng)一的數(shù)據(jù)門戶集成數(shù)據(jù)采集、治理管理、數(shù)據(jù)開發(fā)與數(shù)據(jù)應(yīng)用分析能力,全面打造面向各各角色的一體化數(shù)據(jù)管理與應(yīng)用門戶,對(duì)外提供統(tǒng)一的數(shù)據(jù)管理、集成和應(yīng)用服務(wù),實(shí)現(xiàn)對(duì)數(shù)據(jù)資產(chǎn)與服務(wù)的協(xié)同管理和應(yīng)用。通過大,中,小屏實(shí)現(xiàn)數(shù)據(jù)目錄、數(shù)據(jù)應(yīng)用、數(shù)據(jù)地圖、個(gè)人管理等各項(xiàng)門戶目錄的建設(shè);它提供應(yīng)用集成功能,通過多種方式整合決策分析應(yīng)用系統(tǒng)開發(fā)的應(yīng)用功能;可根據(jù)角色提供數(shù)據(jù)管理者、數(shù)據(jù)開發(fā)者與數(shù)據(jù)應(yīng)用者門戶;門戶集成的各個(gè)系統(tǒng)界面風(fēng)格上實(shí)現(xiàn)統(tǒng)一,包括列表樣式、頁面布局頁面顏色搭配、字體大小、按鈕風(fēng)格等。提供統(tǒng)一數(shù)據(jù)集成、管理與應(yīng)用門戶平臺(tái)技術(shù)特性先進(jìn)的混合計(jì)算架構(gòu)采用離線計(jì)算引擎、流式計(jì)算引擎和分布式數(shù)據(jù)庫引擎融合技術(shù)架構(gòu)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)提供低成本存儲(chǔ),并提供低時(shí)延、高并發(fā)查詢和分析功能;結(jié)構(gòu)化數(shù)據(jù)采用分布式數(shù)據(jù)庫引擎,支持列式存儲(chǔ)、分布式計(jì)算、智能索引等功能,實(shí)現(xiàn)高性能結(jié)構(gòu)化數(shù)據(jù)分析處理;計(jì)算能力強(qiáng),數(shù)據(jù)分析輔助決策,擴(kuò)展能力強(qiáng)。高性價(jià)比的分布式集群基于x86服務(wù)器本地的計(jì)算與存儲(chǔ)資源,計(jì)算集群可以動(dòng)態(tài)調(diào)整,從數(shù)臺(tái)到數(shù)千臺(tái)之間彈性擴(kuò)展,按需構(gòu)建應(yīng)用,減少總體成本;同時(shí),在設(shè)計(jì)時(shí)充分考慮了硬件設(shè)備的不可靠因素,在軟件層面提供計(jì)算和存儲(chǔ)的高可靠保證;分布式集群,若干節(jié)點(diǎn)服務(wù)器出問題,數(shù)據(jù)庫仍可正常使用。云化ETL結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一匯聚接入,“不挑食”;將不同業(yè)務(wù)系統(tǒng)中分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的各種源數(shù)據(jù)中的數(shù)據(jù)進(jìn)行匯聚;支持從DBMS、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、政企單位等各種數(shù)據(jù)源中提取數(shù)據(jù)。數(shù)據(jù)分層和分級(jí)存儲(chǔ)不同數(shù)據(jù)分開存儲(chǔ),互不影響,防止數(shù)據(jù)相互滲透,保證數(shù)據(jù)安全;把數(shù)據(jù)按照不同階段分為ODS、DWD、DW和ADS數(shù)據(jù),分別存儲(chǔ)在大數(shù)據(jù)平臺(tái)和數(shù)據(jù)倉庫,滿足不同階段的計(jì)算需求。g安大數(shù)據(jù)平臺(tái)技術(shù)特點(diǎn)平臺(tái)應(yīng)用特性數(shù)據(jù)接入標(biāo)準(zhǔn)化通過制定接口規(guī)范,支持多源頭采集、多種形態(tài)的數(shù)據(jù)形式,同時(shí)數(shù)據(jù)對(duì)賬清晰明了,同時(shí)通過設(shè)置預(yù)警閾值,對(duì)源頭的數(shù)據(jù)監(jiān)控,及時(shí)發(fā)現(xiàn)源頭采集問題。數(shù)據(jù)處理自動(dòng)化通過自動(dòng)化對(duì)標(biāo)、自動(dòng)化作業(yè)等產(chǎn)品、工具,以機(jī)器算法代替人力勞動(dòng),大大提高生產(chǎn)力。數(shù)據(jù)監(jiān)控智能化通過定義多種監(jiān)控點(diǎn)及接口規(guī)范,實(shí)現(xiàn)運(yùn)維監(jiān)控的統(tǒng)一管理,結(jié)合多種提醒方式,及時(shí)發(fā)現(xiàn)并解決問題。數(shù)據(jù)組織知識(shí)化通過分析各系統(tǒng)共享數(shù)據(jù)集,提煉權(quán)威數(shù)據(jù),形成主數(shù)據(jù)模型。通過人、車、地址等主題域建模,掌握各主題的內(nèi)在關(guān)系,深度整合,形成以實(shí)體為單位的復(fù)雜的關(guān)系網(wǎng)絡(luò)。數(shù)據(jù)運(yùn)行可視化ETL工具與數(shù)據(jù)治理平臺(tái)有機(jī)結(jié)合,將數(shù)據(jù)治理實(shí)施流程各環(huán)節(jié)通過平臺(tái)去實(shí)現(xiàn),由平臺(tái)驅(qū)動(dòng)各產(chǎn)品協(xié)作完成整個(gè)數(shù)據(jù)治理過程。數(shù)據(jù)應(yīng)用自助化依托服務(wù)總線,建設(shè)統(tǒng)一的服務(wù)平臺(tái),服務(wù)大廳,通過服務(wù)權(quán)限和數(shù)據(jù)權(quán)限控制,用戶可自助申請(qǐng)、自助使用、自助評(píng)價(jià)反饋。目錄01平臺(tái)總體建設(shè)方案02平臺(tái)功能建設(shè)方案03資源中心建設(shè)方案04平臺(tái)建設(shè)應(yīng)用效果資源中心總體規(guī)劃共享數(shù)據(jù)對(duì)內(nèi)共享區(qū)大數(shù)據(jù)資源區(qū)離線數(shù)據(jù)區(qū)實(shí)時(shí)數(shù)據(jù)平臺(tái)中心庫專題庫融合庫基礎(chǔ)庫主題庫結(jié)構(gòu)化數(shù)據(jù)公共數(shù)據(jù)庫層非結(jié)構(gòu)化數(shù)據(jù)重點(diǎn)RY庫流動(dòng)RK庫JIN種庫YU情信息庫RK主題庫AN件主題庫CL主題庫位置主題庫貼源數(shù)據(jù)層G安資源社會(huì)資源智能物聯(lián)設(shè)備基礎(chǔ)標(biāo)簽庫數(shù)據(jù)資源中心建設(shè)相當(dāng)于裝飾整棟大樓,讓大樓更加實(shí)用,滿足入客戶的個(gè)性化需求,為各類應(yīng)用建設(shè)提供基礎(chǔ)數(shù)據(jù)環(huán)境和云計(jì)算支撐?;ヂ?lián)網(wǎng)數(shù)據(jù)數(shù)據(jù)采集范圍數(shù)據(jù)匯聚流程數(shù)據(jù)流向圖數(shù)據(jù)標(biāo)簽建設(shè)構(gòu)建基礎(chǔ)庫數(shù)據(jù)標(biāo)簽?zāi)0鍞?shù)據(jù)標(biāo)簽管理分類查詢功能分類統(tǒng)計(jì)提供數(shù)據(jù)標(biāo)簽?zāi)0婀芾砉δ?,可?duì)數(shù)據(jù)標(biāo)簽?zāi)0暹M(jìn)行編輯修改。提供數(shù)據(jù)標(biāo)簽管理功能,滿足數(shù)據(jù)資產(chǎn)業(yè)務(wù)屬性隨業(yè)務(wù)發(fā)生變化時(shí)數(shù)據(jù)資產(chǎn)標(biāo)簽?zāi)軌蜢`活變化。提供數(shù)據(jù)資產(chǎn)分類查詢功能,可通過選取分類標(biāo)簽中具體的屬性標(biāo)簽對(duì)數(shù)據(jù)資產(chǎn)進(jìn)行篩查。提供數(shù)據(jù)資產(chǎn)分類統(tǒng)計(jì)功能,可對(duì)各種標(biāo)簽屬性的數(shù)據(jù)資產(chǎn)進(jìn)行分類統(tǒng)計(jì),并形成統(tǒng)計(jì)報(bào)表,供使用人員查詢不同屬性數(shù)據(jù)資產(chǎn)的整體統(tǒng)計(jì)情況。數(shù)據(jù)標(biāo)簽體系數(shù)據(jù)治理涵蓋了數(shù)據(jù)的全局治理和過程管控,是數(shù)據(jù)可用的前提,只有確保數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化,可信可用,才能進(jìn)一步通過數(shù)據(jù)運(yùn)營(yíng)與應(yīng)用實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)管理,發(fā)現(xiàn)數(shù)據(jù)問題、發(fā)掘數(shù)據(jù)價(jià)值,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的盤活和有效利用。數(shù)據(jù)管理平臺(tái)基于元模型驅(qū)動(dòng)模式,構(gòu)建一體化的數(shù)據(jù)資產(chǎn)管控,實(shí)現(xiàn)全流程、全生命周期和全景式的“三全”治理,確保每一份數(shù)據(jù)資產(chǎn)皆可靠、可信、可用;通過對(duì)數(shù)據(jù)、應(yīng)用、系統(tǒng)綜合管理,構(gòu)建標(biāo)準(zhǔn)化、流程化、自動(dòng)化、一體化的數(shù)據(jù)管理體系。數(shù)據(jù)匯聚,融合管理從市g(shù)安大數(shù)據(jù)、各類物聯(lián)數(shù)據(jù)預(yù)源采集數(shù)據(jù)形成大數(shù)據(jù)平臺(tái)基礎(chǔ),并對(duì)匯集的原始數(shù)據(jù)開展基于數(shù)據(jù)管理視角和業(yè)務(wù)應(yīng)用視角的治理及應(yīng)用工作。提煉抽象信息,形成知識(shí)基于業(yè)務(wù)需求引導(dǎo)和對(duì)數(shù)據(jù)資源信息的價(jià)值梳理,對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步提煉,將數(shù)據(jù)標(biāo)簽化,構(gòu)建全息畫像等標(biāo)簽庫,支撐專題應(yīng)用庫建設(shè),并通過標(biāo)簽中心產(chǎn)品對(duì)用戶及開發(fā)者開放。構(gòu)建應(yīng)用,服務(wù)業(yè)務(wù)按照業(yè)務(wù)場(chǎng)景需求,將基礎(chǔ)庫、主題庫和專題庫等進(jìn)一步組合利用,可構(gòu)建起各類業(yè)務(wù)創(chuàng)新應(yīng)用,如監(jiān)控大屏、全息畫像、預(yù)警中心等應(yīng)用。通過數(shù)據(jù)服務(wù)平臺(tái),可以把數(shù)據(jù)和標(biāo)簽在線服務(wù)化提供給開發(fā)者和用戶。數(shù)據(jù)深度治理構(gòu)建業(yè)務(wù)庫目錄01平臺(tái)總體建設(shè)方案02平臺(tái)功能建設(shè)方案03資源中心建設(shè)方案04平臺(tái)建設(shè)應(yīng)用效果構(gòu)建了大數(shù)據(jù)管理整體能力數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)資產(chǎn)管理能力是指數(shù)據(jù)倉庫(實(shí)時(shí)數(shù)倉、離線數(shù)倉)建設(shè)、數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)指標(biāo)體系等數(shù)據(jù)管理能力,將數(shù)據(jù)定義為一種資產(chǎn)或服務(wù)為業(yè)務(wù)賦能數(shù)據(jù)開放能力數(shù)據(jù)不能僅僅止步于數(shù)據(jù)倉庫,變成死數(shù)據(jù),流轉(zhuǎn)起來的數(shù)據(jù)才能發(fā)揮其價(jià)值,數(shù)據(jù)開放共享能力需要做到對(duì)市G安G安在數(shù)據(jù)需求方面的予取予求,指哪打哪,精準(zhǔn)賦能開發(fā)協(xié)作調(diào)度開發(fā)協(xié)作調(diào)度能力主要解決數(shù)據(jù)處理的效率問題,通過開發(fā)平臺(tái)的方式提升離線分析、實(shí)時(shí)分析等數(shù)據(jù)處理效率,提升數(shù)據(jù)流通速度數(shù)據(jù)采集遷移數(shù)據(jù)采集遷移能力解決數(shù)據(jù)源頭問題,通過統(tǒng)一的方式收集業(yè)務(wù)數(shù)據(jù),在合規(guī)合法的范圍內(nèi)采集所需要的數(shù)據(jù)。同時(shí)能夠完成數(shù)據(jù)在遷移流轉(zhuǎn)匯聚了大量數(shù)據(jù)資產(chǎn)g安大數(shù)據(jù)中心數(shù)據(jù)匯聚了大量各類物聯(lián)設(shè)備等非結(jié)構(gòu)化熱數(shù)據(jù)以及結(jié)構(gòu)化數(shù)據(jù),近半年來平臺(tái)匯聚的數(shù)據(jù)資源量如下:實(shí)現(xiàn)了數(shù)據(jù)管理可視化盤點(diǎn)、規(guī)劃、獲取數(shù)據(jù)資源,并將所有數(shù)據(jù)資源進(jìn)行完整呈現(xiàn);通過元數(shù)據(jù)信息收集、數(shù)據(jù)探查、數(shù)據(jù)權(quán)限申請(qǐng)授權(quán)等手段,解決”哪些數(shù)據(jù)可用“、”到哪里可以找到數(shù)據(jù)“的難題,提升數(shù)據(jù)資源的利用率。同時(shí),可以直接為管理者和決策者提供數(shù)據(jù)支撐,降低了管理成本,讓數(shù)據(jù)變得看得見、摸得著。形成了大數(shù)據(jù)應(yīng)用支撐體系
圍繞數(shù)據(jù)、標(biāo)簽與服務(wù)打造層級(jí)化的大數(shù)據(jù)能力中臺(tái),通過數(shù)據(jù)管理平臺(tái)提供數(shù)據(jù)開發(fā)及挖掘能力,通過主題庫、專題庫等數(shù)據(jù)治理提升應(yīng)用支撐能力,通過深度融合計(jì)算平臺(tái)支持定制化的業(yè)務(wù)模型開發(fā),現(xiàn)階段可為流動(dòng)RK管理、民意感知、指揮作戰(zhàn)等應(yīng)用賦能,后續(xù)為市G安百花齊放的應(yīng)用建設(shè)提供數(shù)據(jù)養(yǎng)料,實(shí)現(xiàn)從數(shù)據(jù)到應(yīng)用的端到端支撐賦能。建立了大量大數(shù)據(jù)應(yīng)用場(chǎng)景RK主題庫??跀?shù)據(jù)、流口數(shù)據(jù)、在T人員數(shù)據(jù)、重點(diǎn)人員數(shù)據(jù)....AN件專題庫
J情信息數(shù)據(jù)、S案R員數(shù)據(jù)、AN件作案人刻畫數(shù)據(jù)......社會(huì)關(guān)系專題庫社保數(shù)據(jù)、房W數(shù)據(jù)........行W專題庫交通數(shù)據(jù)、住S數(shù)據(jù).....一R一檔應(yīng)用數(shù)據(jù)源:謝謝!湖倉一體大數(shù)據(jù)平臺(tái)解決方案湖倉一體大數(shù)據(jù)平臺(tái)概述湖倉一體大數(shù)據(jù)平臺(tái),承擔(dān)了企業(yè)數(shù)據(jù)治理、開發(fā)、管理等職責(zé),往下集成數(shù)據(jù),往上搭載應(yīng)用。通過數(shù)據(jù)同步、研發(fā)、運(yùn)維、服務(wù)及治理等過程,對(duì)企業(yè)大數(shù)據(jù)進(jìn)行智能管理,形成企業(yè)的數(shù)據(jù)資產(chǎn)。湖倉一體大數(shù)據(jù)平臺(tái)架構(gòu)基礎(chǔ)設(shè)施阿里云本地IDC…H為云電信云騰訊云AzureAWS京東云引擎層S-EMR阿里云-EMRAWS-EMRH為云-MRS星環(huán)-TDH數(shù)據(jù)集成數(shù)據(jù)研發(fā)數(shù)據(jù)運(yùn)維數(shù)據(jù)服務(wù)數(shù)據(jù)治理數(shù)據(jù)工廠規(guī)范建模指標(biāo)管理參數(shù)配置API工廠腳本/向?qū)J阶远x函數(shù)導(dǎo)入在線測(cè)試數(shù)據(jù)查詢標(biāo)簽工廠實(shí)體管理標(biāo)簽管理任務(wù)管理算法工廠算法開發(fā)資源管理指標(biāo)運(yùn)維指標(biāo)任務(wù)監(jiān)控指標(biāo)查詢常規(guī)運(yùn)維數(shù)據(jù)生產(chǎn)運(yùn)維數(shù)據(jù)質(zhì)量運(yùn)維API中心
API授權(quán)API調(diào)用數(shù)據(jù)訂閱標(biāo)簽中心量級(jí)、覆蓋率標(biāo)簽值分布控制臺(tái)項(xiàng)目管理子賬號(hào)管理角色權(quán)限管理工作空間管理AccessKey管理平臺(tái)安全設(shè)置數(shù)據(jù)地圖數(shù)據(jù)管理類目管理常規(guī)開發(fā)離線開發(fā)實(shí)時(shí)開發(fā)數(shù)據(jù)安全數(shù)據(jù)脫敏數(shù)據(jù)加密數(shù)據(jù)規(guī)劃資產(chǎn)盤點(diǎn)資產(chǎn)盤點(diǎn)報(bào)告元數(shù)據(jù)管理生命周期治理項(xiàng)管理治理效果分析全鏈血緣元數(shù)據(jù)檢索元數(shù)據(jù)分析數(shù)據(jù)探查探查報(bào)告探查任務(wù)配置探查實(shí)例管理數(shù)據(jù)源管理數(shù)據(jù)源數(shù)據(jù)文件規(guī)范建表可視化建表DDL建表數(shù)據(jù)同步離線同步實(shí)時(shí)同步API運(yùn)維配置、告警安全組配置標(biāo)簽運(yùn)維標(biāo)簽任務(wù)監(jiān)控標(biāo)簽查詢算法運(yùn)維算法任務(wù)監(jiān)控配置及告警數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)標(biāo)準(zhǔn)管理標(biāo)準(zhǔn)覆蓋率評(píng)估2.湖倉一體數(shù)倉建設(shè)思路傳統(tǒng)數(shù)倉的問題技術(shù)架構(gòu)實(shí)時(shí)指標(biāo)煙囪式開發(fā)效率低門檻高平臺(tái)管理開發(fā)效率實(shí)時(shí)離線架構(gòu)不統(tǒng)一依賴離線T+1導(dǎo)出報(bào)表缺少實(shí)時(shí)元數(shù)據(jù)管理未打通實(shí)時(shí)離線數(shù)據(jù)的聯(lián)系寬表建設(shè)平臺(tái)治理批流統(tǒng)一湖倉一體數(shù)倉建設(shè)思路統(tǒng)一數(shù)倉標(biāo)準(zhǔn)與元數(shù)據(jù)基于SQL統(tǒng)一開發(fā)流程引入Hudi加速寬表產(chǎn)出基于FlinkSQL構(gòu)建實(shí)時(shí)數(shù)倉數(shù)倉平臺(tái)化建設(shè)數(shù)據(jù)統(tǒng)一接入開發(fā)元數(shù)據(jù)管理統(tǒng)一規(guī)范體系(1/3)設(shè)計(jì)規(guī)范命名規(guī)范模型規(guī)范數(shù)倉規(guī)范開發(fā)規(guī)范存儲(chǔ)規(guī)范流程規(guī)范業(yè)務(wù)板塊規(guī)范定義模型設(shè)計(jì)數(shù)據(jù)應(yīng)用業(yè)務(wù)系統(tǒng)業(yè)務(wù)板塊2業(yè)務(wù)板塊1業(yè)務(wù)源數(shù)據(jù)1業(yè)務(wù)源數(shù)據(jù)2業(yè)務(wù)源數(shù)據(jù)3……數(shù)據(jù)域/主題域統(tǒng)計(jì)粒度(維度組合)一致性維度修飾詞派生指標(biāo)原子指標(biāo)(業(yè)務(wù)過程+度量)維表(DIM)把邏輯維度物理化的寬表統(tǒng)計(jì)周期(時(shí)間維)匯總事實(shí)表(DWS)把明細(xì)事實(shí)聚合的事實(shí)表數(shù)據(jù)應(yīng)用層(ADS)業(yè)務(wù)過程事務(wù)事實(shí)表(DWD)最原始粒度的明細(xì)數(shù)據(jù)維度屬性統(tǒng)一規(guī)范,OneData建模方法論(2/3)統(tǒng)一規(guī)范,可視化建模工具(3/3)統(tǒng)一元數(shù)據(jù)價(jià)值主張:理清數(shù)據(jù)字典,了解數(shù)據(jù)來龍去脈特點(diǎn):豐富的采集適配器、智能識(shí)別關(guān)系、豐富的元數(shù)據(jù)分析和檢核元數(shù)據(jù)采集元數(shù)據(jù)分析元數(shù)據(jù)變更數(shù)據(jù)地圖適配器管理采集源采集任務(wù)配置采集日志入庫審核影響分析依賴分析血緣分析全鏈分析關(guān)聯(lián)度分析屬性差異分析表關(guān)聯(lián)關(guān)系字段關(guān)系變更查詢變更訂閱元數(shù)據(jù)核檢一致性核檢組合關(guān)系數(shù)據(jù)處理關(guān)系屬性填充率名稱重復(fù)率基于SQL統(tǒng)一開發(fā)流程afhaTableSQL離線批處理實(shí)時(shí)流處理即席查詢Lambda架構(gòu)Lambda架構(gòu)的主要思想:將大數(shù)據(jù)系統(tǒng)架構(gòu)分為三層:批處理層(BatchLayer)、實(shí)時(shí)計(jì)算層(SpeedLayer)、服務(wù)層(ServingLayer)優(yōu)點(diǎn):(1)數(shù)據(jù)的不可變性(2)強(qiáng)調(diào)了數(shù)據(jù)的重新計(jì)算問題缺點(diǎn):雙重計(jì)算+雙重服務(wù),且要求查詢得到的是兩個(gè)系統(tǒng)結(jié)果的合并,增加了運(yùn)維成本輸入數(shù)據(jù)流批處理數(shù)據(jù)流實(shí)時(shí)計(jì)算數(shù)據(jù)流預(yù)處理結(jié)果增量處理結(jié)果批處理流處理批處理層即席查詢API服務(wù)自助取數(shù)批處理視圖增量處理視圖服務(wù)層實(shí)時(shí)計(jì)算層Lambda架構(gòu)-數(shù)倉分層結(jié)構(gòu)DIMRedisHBaseESMySQLADSKafkaESHBaseHiveHiveHiveDWSKafkaDWDKafkaETLPrestoOLAPClichHouseDorisDBSourceMessae
QueueRDS/
binlogSQLSQLSQLSQLSQLCDCSQLETLKafkaHiveODS大數(shù)據(jù)平臺(tái)技術(shù)棧實(shí)時(shí)計(jì)算總體技術(shù)架構(gòu):實(shí)時(shí)同步業(yè)務(wù)系統(tǒng)數(shù)據(jù)、IoT等數(shù)據(jù)到Flink,實(shí)時(shí)計(jì)算指標(biāo)和標(biāo)簽大數(shù)據(jù)平臺(tái)Kafka數(shù)據(jù)源Flink數(shù)據(jù)處理Data
APIPrestoimpala數(shù)據(jù)服務(wù)報(bào)表應(yīng)用數(shù)據(jù)消費(fèi)預(yù)警數(shù)據(jù)存儲(chǔ)OGGPG數(shù)據(jù)源MySQL解析層分布式消息隊(duì)列流計(jì)算平臺(tái)結(jié)果數(shù)據(jù)層數(shù)據(jù)接口層應(yīng)用層Oracle數(shù)據(jù)源MySQL數(shù)據(jù)源層clickhouseIoTMQTTkuduStarRocks原DorisDBKappa架構(gòu)針對(duì)Lambda架構(gòu)的缺點(diǎn),LinkedIn的JayKreps提出了Kappa架構(gòu):統(tǒng)一的計(jì)算引擎代替多個(gè)引擎優(yōu)點(diǎn):(1)架構(gòu)簡(jiǎn)單,生產(chǎn)統(tǒng)一(2)一套邏輯,維護(hù)簡(jiǎn)單缺點(diǎn):(1)適用場(chǎng)景的通用性不高(2)大數(shù)據(jù)量回溯成本高,生產(chǎn)壓力大(3)流式計(jì)算結(jié)果不準(zhǔn)確,和實(shí)時(shí)計(jì)算結(jié)果逐漸形成差異,最終需要對(duì)賬輸入數(shù)據(jù)流FlinkODSDWDDWSKafkaKafkaKafka流處理服務(wù)DB應(yīng)用Kappa架構(gòu)-數(shù)倉分層結(jié)構(gòu)DIMRedisHBaseESMySQLADSKafkaESHBaseHiveDWS
DWD
ETLPrestoOLAPClichHouseDorisDBSourceMessae
QueueRDS/
binlogSQLSQLSQLSQLSQLCDCSQLKafkaODSKafkaKafka方案對(duì)比與實(shí)際需求引入數(shù)據(jù)湖Hudi加速寬表構(gòu)建KafkaOff-lineETLFull
Dataincrementdata
databasesKafkaDorisDBkuduclickhouseHudi架構(gòu)圖增量實(shí)時(shí)更新時(shí)間漫游Hudi數(shù)據(jù)湖典型PipelineHudi數(shù)據(jù)湖關(guān)鍵特性引入數(shù)據(jù)湖Hudi-湖倉一體架構(gòu)
MySQLOracleSQLServerPostgreSQLRedis結(jié)構(gòu)化數(shù)據(jù)MongoDBJSONXMLCSVKafkaORC半結(jié)構(gòu)化數(shù)據(jù)Parquet音頻視頻文檔電子郵件非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)源DataX(批量同步)API接口(Restful)數(shù)據(jù)集成文件直傳Flink-CDC(流式寫入)Flink計(jì)算/分析引擎計(jì)算引擎SparkHive機(jī)器學(xué)習(xí)訓(xùn)練Presto分析引擎Impala元數(shù)據(jù)管理ApacheHudi數(shù)據(jù)湖-存儲(chǔ)存儲(chǔ)對(duì)象S3OSSCOSHDFSAPI服務(wù)機(jī)器學(xué)習(xí)推理數(shù)據(jù)服務(wù)消息訂閱數(shù)據(jù)應(yīng)用大數(shù)據(jù)平臺(tái)湖倉一體平臺(tái)智能推薦BI報(bào)表即席查詢?nèi)四樧R(shí)別數(shù)據(jù)大屏引入數(shù)據(jù)湖Hudi-湖倉一體數(shù)倉分層結(jié)構(gòu)DIMRedisHBaseESMySQLADSKafkaESHBaseHiveHiveHiveDWSKafkaDWDKafkaETLPrestoOLAPClichHouseDorisDBSourceMessae
QueueRDS/
binlogSQLSQLSQLSQLSQLCDCSQLETLHudi
on
FlinkHudi
on
FlinkHudi
on
FlinkKafkaHive引入數(shù)據(jù)湖Hudi-湖倉一體產(chǎn)品核心功能批量集成適用于需要進(jìn)行復(fù)雜數(shù)據(jù)清理和轉(zhuǎn)換、數(shù)據(jù)量較大的場(chǎng)景實(shí)時(shí)集成適用于需要高可用性和對(duì)數(shù)據(jù)源影響小的場(chǎng)景。使用基于日志的CDC捕獲數(shù)據(jù)變更,實(shí)時(shí)獲取數(shù)據(jù)消息集成通常通過API捕獲或提取數(shù)據(jù),適用于處理不同數(shù)據(jù)結(jié)構(gòu)以及需要高可靠性和復(fù)雜轉(zhuǎn)換的場(chǎng)景數(shù)據(jù)集成:結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)的發(fā)現(xiàn)與更新,在數(shù)據(jù)湖創(chuàng)建數(shù)據(jù)庫、表及分區(qū)半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)發(fā)現(xiàn),在數(shù)據(jù)湖中存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)發(fā)現(xiàn),在數(shù)據(jù)湖中存儲(chǔ)數(shù)據(jù)湖管理:數(shù)據(jù)智能加工通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等智能算法對(duì)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行學(xué)習(xí),訓(xùn)練加工成結(jié)構(gòu)化數(shù)據(jù),供數(shù)據(jù)研發(fā)和分析使用離線計(jì)算大規(guī)模數(shù)據(jù)周期性批量計(jì)算數(shù)據(jù)研發(fā):實(shí)時(shí)計(jì)算根據(jù)業(yè)務(wù)需求進(jìn)行數(shù)據(jù)實(shí)時(shí)研發(fā)與分析湖倉一體-HudiOnFlink的實(shí)現(xiàn)KafkaKafkaSourceGeneratorBinlogRecordInstantTimeFileIndexerWriteProcessOperatorFileIndexerWriteProcessOperator
CommitSinkMetadataPartitionerFileIndexerWriteProcessOperatorcheckpoint湖倉一體平臺(tái)建設(shè)Table&SQL數(shù)據(jù)開發(fā)數(shù)據(jù)接入元數(shù)據(jù)管理實(shí)時(shí)數(shù)倉3.湖倉一體大數(shù)據(jù)平臺(tái)產(chǎn)品湖倉一體大數(shù)據(jù)平臺(tái)核心功能-①實(shí)時(shí)數(shù)據(jù)接入獲取Schema
選擇數(shù)據(jù)源自動(dòng)接入接入配置湖倉一體大數(shù)據(jù)平臺(tái)產(chǎn)品核心功能·實(shí)時(shí)同步+實(shí)時(shí)開發(fā)+實(shí)時(shí)運(yùn)維配置來源表信息實(shí)時(shí)同步配置目標(biāo)表Kafka信息通道控制設(shè)置實(shí)時(shí)開發(fā)源表中配置Kafka信息結(jié)果表中配置Kafka寫入的目標(biāo)庫信息維表信息實(shí)時(shí)運(yùn)維發(fā)布至運(yùn)維設(shè)置啟停與告警設(shè)置告警規(guī)則設(shè)置監(jiān)控范圍湖倉一體大數(shù)據(jù)平臺(tái)產(chǎn)品核心功能-⑤元數(shù)據(jù)實(shí)時(shí)更新CDCSourceDatabaseSchemaTransformDDLDML
BinlogKafka
SinkAVROKafka
BinlogKafka
SourceHudiSinkCheckpointMetadataReportFetch湖倉一體大數(shù)據(jù)平臺(tái)產(chǎn)品核心功能-⑥數(shù)據(jù)資產(chǎn)管理體系湖倉一體大數(shù)據(jù)平臺(tái)產(chǎn)品核心功能-⑦性能壓測(cè)壓測(cè)場(chǎng)景:Oracle數(shù)據(jù)源數(shù)據(jù)實(shí)時(shí)計(jì)算寫到MySQL目標(biāo)數(shù)據(jù)庫,內(nèi)含Oracle數(shù)據(jù)源到Kafka、Kafka消費(fèi)、寫入MySQL目標(biāo)數(shù)據(jù)庫數(shù)據(jù)準(zhǔn)備:?jiǎn)螚l數(shù)據(jù)20個(gè)字段,228個(gè)字節(jié),Oracle源數(shù)據(jù)庫200w條壓測(cè)結(jié)果:壓測(cè)場(chǎng)景單條數(shù)據(jù)量壓測(cè)數(shù)據(jù)量壓測(cè)鏈路壓測(cè)結(jié)果Kafka生產(chǎn)與消費(fèi)20個(gè)字段,228個(gè)字節(jié)40WMySQL數(shù)據(jù)源到Kafka耗時(shí)46s(qps:8700)Kafka消費(fèi)耗時(shí)4.6s(qps:8.7W)實(shí)時(shí)計(jì)算Oracle-MySQL20個(gè)字段,228個(gè)字節(jié)40WOracle數(shù)據(jù)源數(shù)據(jù)新增到新增數(shù)據(jù)寫到目標(biāo)數(shù)據(jù)庫MySQL(3進(jìn)程,分配內(nèi)存3G)qps:377840W*5qps:3715實(shí)時(shí)計(jì)算MySQL-Kudu20個(gè)字段,228個(gè)字節(jié)40WMySQL數(shù)據(jù)新增,經(jīng)過Flink實(shí)時(shí)計(jì)算寫到Kudu表中qps:5250結(jié)論:實(shí)時(shí)計(jì)算支持主流數(shù)據(jù)庫1500萬/小時(shí)的數(shù)據(jù)處理能力,且資源占用較低湖倉一體大數(shù)據(jù)平臺(tái)產(chǎn)品未來支持功能-①增強(qiáng)SQL能力更多語法與特性支持更多數(shù)據(jù)源支持任務(wù)自動(dòng)調(diào)優(yōu)湖倉一體大數(shù)據(jù)平臺(tái)產(chǎn)品未來支持功能-②精細(xì)化資源管理自動(dòng)擴(kuò)容縮容細(xì)粒度資源調(diào)度FlinkonK8s4、Hudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景問題不支持事務(wù)由于傳統(tǒng)大數(shù)據(jù)方案不支持事務(wù),有可能會(huì)讀到未寫完成的數(shù)據(jù),造成數(shù)據(jù)統(tǒng)計(jì)錯(cuò)誤。數(shù)據(jù)更新效率低業(yè)務(wù)系統(tǒng)庫的數(shù)據(jù),除流水表類的數(shù)據(jù)都是新增數(shù)據(jù)外,還有很多狀態(tài)類數(shù)據(jù)表需要更新操作(例如:賬戶余額表,客戶狀態(tài)表,設(shè)備狀態(tài)表等),而傳統(tǒng)大數(shù)據(jù)方案無法滿足增量更新,常采用拉鏈方式,先進(jìn)行join操作再進(jìn)行insertoverwrite操作,通過覆蓋寫的方式完成更新操作,該操作往往需要T+1的批處理模式,從而導(dǎo)致端到端數(shù)據(jù)時(shí)延T+1,存在效率低、成本高等問題。無法及時(shí)應(yīng)對(duì)業(yè)務(wù)表變化上游業(yè)務(wù)系統(tǒng)對(duì)數(shù)據(jù)schema發(fā)生變更后,會(huì)導(dǎo)致數(shù)據(jù)無法入倉,需要數(shù)據(jù)倉庫的表schema進(jìn)行同步調(diào)整。從技術(shù)實(shí)現(xiàn)上采用數(shù)據(jù)表重建的方式來滿足該場(chǎng)景,導(dǎo)致數(shù)據(jù)倉庫的數(shù)據(jù)表的管理與維護(hù)方案復(fù)雜,實(shí)現(xiàn)成本高。歷史快照表數(shù)據(jù)冗余傳統(tǒng)數(shù)據(jù)倉庫方案需要對(duì)歷史的快照表進(jìn)行存儲(chǔ),采用全量歷史存儲(chǔ)的方式實(shí)現(xiàn),例如:天級(jí)歷史快照表,每天都會(huì)全量存儲(chǔ)全表數(shù)據(jù)。這樣就造成了大量的數(shù)據(jù)存儲(chǔ)冗余,占用大量的存儲(chǔ)資源。小批量增量數(shù)據(jù)處理成本高傳統(tǒng)數(shù)據(jù)倉庫為了實(shí)現(xiàn)增量ETL,通常將增量數(shù)據(jù)按照分區(qū)的方式進(jìn)行存儲(chǔ),若為了實(shí)現(xiàn)T+0的數(shù)據(jù)處理,增量數(shù)據(jù)需要按照小時(shí)級(jí)或者分鐘級(jí)的分區(qū)粒度。該種實(shí)現(xiàn)形式會(huì)導(dǎo)致小文件問題,大量分區(qū)也會(huì)導(dǎo)致元數(shù)據(jù)服務(wù)壓力增大。傳統(tǒng)數(shù)據(jù)倉庫解決方案中,常用Hive來構(gòu)建T+1級(jí)別的數(shù)據(jù)倉庫,通過HDFS存儲(chǔ)實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)與水平擴(kuò)容,通過Hive實(shí)現(xiàn)元數(shù)據(jù)的管理以及數(shù)據(jù)操作的SQL化。雖然能夠在海量批處理場(chǎng)景中取得不錯(cuò)的效果,但依然存在如下現(xiàn)狀問題:傳統(tǒng)數(shù)倉面臨的問題與挑戰(zhàn)
MySQLOracleSQLServerPostgreSQLRedisMongoDBKafka01場(chǎng)景說明無需直接對(duì)接數(shù)據(jù)庫,數(shù)據(jù)由已有采集工具發(fā)送到Kafka或者由業(yè)務(wù)系統(tǒng)直接發(fā)送到Kafka。不需要實(shí)時(shí)同步DDL操作事件。02方案介紹支持了對(duì)Hudi中COW表以及MOR表的讀寫操作。作業(yè)開發(fā)與作業(yè)維護(hù)可視化操作。03方案收益入湖代碼開發(fā)簡(jiǎn)單,通過FlinkSQL實(shí)現(xiàn)入湖的語句如下:Insertintotable_hudiselect*fromtable_kafkaCDHHudi數(shù)據(jù)湖flinksqlHudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景①:傳統(tǒng)CDC基于Flink-SQL入湖(1/2)Hudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景①:傳統(tǒng)CDC基于Flink-SQL入湖(2/2)
MySQLOracleSQLServerPostgreSQLRedisMongoDBFlink-CDC(流式寫入)01場(chǎng)景說明可以從業(yè)務(wù)數(shù)據(jù)庫中直接抽取數(shù)據(jù)數(shù)據(jù)入湖支持高實(shí)時(shí)性,秒級(jí)延遲數(shù)據(jù)表變更需要與數(shù)據(jù)湖表結(jié)構(gòu)實(shí)時(shí)同步02方案介紹該方案基于Flink-CDC組件構(gòu)建,由Flink-CDC組件實(shí)現(xiàn)業(yè)務(wù)庫的操作事件捕獲并寫入的基于Hudi數(shù)據(jù)湖存儲(chǔ)03方案收益入湖操作簡(jiǎn)單,全程零代碼開發(fā)。入湖時(shí)效快,從業(yè)務(wù)系統(tǒng)數(shù)據(jù)調(diào)整到入湖,可在分鐘內(nèi)完成。Hudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景②:基于Flink-CDC入湖(1/2)CDHHudi數(shù)據(jù)湖Hudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景②:基于Flink-CDC入湖(2/2)開源CDC對(duì)比
MySQLOracleSQLServerPostgreSQLRedisMongoDB貼源層ODS01場(chǎng)景說明湖內(nèi)數(shù)據(jù)通常會(huì)采用數(shù)倉分層存儲(chǔ),例如:貼源層(ODS)、匯總層(DWS)、集市層(ADS)。02方案介紹增量ETL作業(yè)與傳統(tǒng)ETL作業(yè)業(yè)務(wù)邏輯完全一樣,涉及到的增量表讀取采用commit_time來獲取增量數(shù)據(jù)。Hudi支持ACID特性、Upsert特性和增量數(shù)據(jù)查詢特性,可以實(shí)現(xiàn)增量的ETL,在不同層之間快速的流轉(zhuǎn)。03方案收益單個(gè)ETL作業(yè)處理時(shí)延降低,端到端時(shí)間縮短。消耗資源下降,單位ETL作業(yè)所處理數(shù)據(jù)量大幅下降,所需計(jì)算資源也會(huì)相應(yīng)下降。原有湖內(nèi)存儲(chǔ)的模型無需調(diào)整。匯總層DWSflinksqlHudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景③:湖內(nèi)數(shù)據(jù)快速ETL集市層ADS增量ETLflinksql增量ETL
MySQLOracleSQLServerPostgreSQLRedisMongoDB貼源層ODS01場(chǎng)景說明數(shù)據(jù)湖存儲(chǔ)的數(shù)據(jù)具有數(shù)據(jù)種類全、維度多、歷史周期長(zhǎng)的特點(diǎn),直接交互式分析引擎直接對(duì)接數(shù)據(jù)湖可以滿足業(yè)務(wù)各類需求數(shù)據(jù)需求。在數(shù)據(jù)探索、BI分析、報(bào)表展示等業(yè)務(wù)場(chǎng)景需要具備針對(duì)海量數(shù)據(jù)查詢秒級(jí)返回的能力,同時(shí)要求分析接口簡(jiǎn)單SQL化。02方案介紹Presto/Trino是分布式高性能的交互式分析引擎,主要用于數(shù)據(jù)的快速實(shí)時(shí)查詢場(chǎng)景。03方案收益結(jié)合flink-cdc數(shù)據(jù)入湖,業(yè)務(wù)系統(tǒng)庫數(shù)據(jù)變更可在分鐘內(nèi)實(shí)現(xiàn)在數(shù)據(jù)湖內(nèi)可見。對(duì)TB級(jí)到PB的數(shù)據(jù)量的交互式查詢可達(dá)到秒級(jí)結(jié)果返回??蓪?duì)湖內(nèi)各層數(shù)據(jù)進(jìn)行分析。Hudi數(shù)據(jù)湖典型應(yīng)用場(chǎng)景④:交互式分析場(chǎng)景Presto/Trino引擎匯總層DWS集市層ADS快照查詢?cè)隽坎樵冏x優(yōu)化查詢交互式分析
MySQLOracleSQLServerPostgreSQLRedisMongoDB貼源層ODS01場(chǎng)景說明傳統(tǒng)處理架構(gòu)中采用Lambda或者Kappa架構(gòu)。Lambda使用比較靈活,也可以解決業(yè)務(wù)場(chǎng)景,但是在該架構(gòu)中需要兩套系統(tǒng)來存儲(chǔ)數(shù)據(jù)(hive存儲(chǔ)離線數(shù)據(jù)/kafka存儲(chǔ)實(shí)時(shí)數(shù)據(jù)),維護(hù)比較復(fù)雜。數(shù)據(jù)分流以后也很難再關(guān)聯(lián)應(yīng)用。02方案介紹在實(shí)時(shí)場(chǎng)景中,對(duì)時(shí)延要求可以是分鐘級(jí)的,這樣可以通過
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 煤廠入股合同范例
- 售賣羊肉分割合同范例
- 寧夏清洗空調(diào)合同范例
- 定制家具簽單合同范例
- 物流車輛托管合同范例
- 玩具代理代銷合同范例
- 2025年三明如何考貨運(yùn)從業(yè)資格證
- 催乳師合同范例
- 2025年本溪貨運(yùn)資格證試題及答案
- 冷餐冰箱租賃合同范例
- GB/T 3217-1992永磁(硬磁)材料磁性試驗(yàn)方法
- GB/T 24531-2009高爐和直接還原用鐵礦石轉(zhuǎn)鼓和耐磨指數(shù)的測(cè)定
- 【原創(chuàng)課件】中班音樂游戲:《老鼠今天真快樂》PPT
- GB 2758-2012食品安全國(guó)家標(biāo)準(zhǔn)發(fā)酵酒及其配制酒
- 高考考前心理、復(fù)習(xí)指導(dǎo)-調(diào)整心態(tài)、積極備考
- 第三單元教學(xué)設(shè)計(jì)及實(shí)踐 課件 統(tǒng)編版高中語文選擇性必修中冊(cè)
- 可愛的四川精編版課件
- 鴻升聯(lián)合試運(yùn)轉(zhuǎn)報(bào)告
- 泌尿外科醫(yī)療質(zhì)量控制指標(biāo)(2022版)
- 分布式光伏電站培訓(xùn)課件
- 畢業(yè)設(shè)計(jì) 鋅電解車間的工藝流程和生產(chǎn)方法
評(píng)論
0/150
提交評(píng)論