應(yīng)急管理綜合應(yīng)用平臺數(shù)據(jù)治理系統(tǒng)解決方案_第1頁
應(yīng)急管理綜合應(yīng)用平臺數(shù)據(jù)治理系統(tǒng)解決方案_第2頁
應(yīng)急管理綜合應(yīng)用平臺數(shù)據(jù)治理系統(tǒng)解決方案_第3頁
應(yīng)急管理綜合應(yīng)用平臺數(shù)據(jù)治理系統(tǒng)解決方案_第4頁
應(yīng)急管理綜合應(yīng)用平臺數(shù)據(jù)治理系統(tǒng)解決方案_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

應(yīng)急管理數(shù)據(jù)治理系統(tǒng)建設(shè)方案TOC\o"1-5"\h\z5.系統(tǒng)功能 10\o"CurrentDocument"信息資源規(guī)劃 10\o"CurrentDocument"信息資源 11\o"CurrentDocument"信息要素規(guī)劃 11\o"CurrentDocument"信息資源目錄編制 11\o"CurrentDocument"分類管理 11\o"CurrentDocument"綜合查詢 11\o"CurrentDocument"定期更新 11\o"CurrentDocument"績效考核 12\o"CurrentDocument"數(shù)據(jù)接入 12\o"CurrentDocument"數(shù)據(jù)接入方式 12外部關(guān)聯(lián)部門數(shù)據(jù)接入方式 12應(yīng)急管理廳內(nèi)部業(yè)務(wù)部門數(shù)據(jù)接入方式 12互聯(lián)網(wǎng)公開數(shù)據(jù)接入方式 12感知數(shù)據(jù)接入方式 12其他數(shù)據(jù) 12\o"CurrentDocument"系統(tǒng)功能 13數(shù)據(jù)探查 13數(shù)據(jù)讀取 13數(shù)據(jù)對賬 13斷點(diǎn)續(xù)傳 13任務(wù)管理 13數(shù)據(jù)分發(fā) 13\o"CurrentDocument"數(shù)據(jù)處理 13\o"CurrentDocument"數(shù)據(jù)處理場景 14從前置庫到原始庫 14從原始庫到資源庫 14從資源庫到主題庫 14從主題庫到專題庫 14\o"CurrentDocument"系統(tǒng)功能 14數(shù)據(jù)探查 14數(shù)據(jù)提取 15半結(jié)構(gòu)化文件內(nèi)容提取 15非結(jié)構(gòu)化文件內(nèi)容提取 15數(shù)據(jù)清洗 16數(shù)據(jù)轉(zhuǎn)換 16數(shù)據(jù)關(guān)聯(lián) 17數(shù)據(jù)比對 17數(shù)據(jù)標(biāo)識 17數(shù)據(jù)融合 17數(shù)據(jù)去重 18數(shù)據(jù)補(bǔ)全 18\o"CurrentDocument"數(shù)據(jù)資源池 18\o"CurrentDocument"應(yīng)急管理數(shù)據(jù)庫 18原始庫 18資源庫 19主題庫 19專題庫 20\o"CurrentDocument"應(yīng)急管理配置庫 21標(biāo)簽規(guī)則庫 21基礎(chǔ)標(biāo)簽規(guī)則庫 21業(yè)務(wù)標(biāo)簽規(guī)則庫 21智能標(biāo)簽庫 21知識庫 21應(yīng)急基本信息 21應(yīng)急速查手冊 21應(yīng)急處置流程 22應(yīng)急案例信息 22應(yīng)急專家信息 22應(yīng)急法規(guī)政策 22索引庫 22日志庫 22\o"CurrentDocument"數(shù)據(jù)支撐 22\o"CurrentDocument"數(shù)據(jù)集成 23批量數(shù)據(jù)集成 23實(shí)時(shí)數(shù)據(jù)集成 24分布式消息隊(duì)列 24\o"CurrentDocument"數(shù)據(jù)存儲 24分布式文件存儲 25分布式列數(shù)據(jù)庫 25\o"CurrentDocument"數(shù)據(jù)倉庫 26分布式關(guān)系型數(shù)據(jù)倉庫 26內(nèi)存數(shù)據(jù)庫 26全文檢索庫 27數(shù)據(jù)計(jì)算 27離線計(jì)算能力 28實(shí)時(shí)流處理能力 29交互查詢能力 29實(shí)時(shí)檢索能力 29\o"CurrentDocument"數(shù)據(jù)安全管理 29用戶認(rèn)證與角色授權(quán) 30用戶認(rèn)證 30角色授權(quán) 30數(shù)據(jù)加密 30數(shù)據(jù)傳輸加密 31大數(shù)據(jù)平臺傳輸加密 31共享交換傳輸加密 31多租戶隔離 31安全審計(jì) 31\o"CurrentDocument"統(tǒng)一調(diào)度管理 32資源調(diào)度框架 32管理平臺 32\o"CurrentDocument"數(shù)據(jù)服務(wù) 32\o"CurrentDocument"數(shù)據(jù)基礎(chǔ)訪問服務(wù) 33\o"CurrentDocument"數(shù)據(jù)索引服務(wù) 33\o"CurrentDocument"元數(shù)據(jù)訪問服務(wù) 33\o"CurrentDocument"數(shù)據(jù)字典服務(wù) 33\o"CurrentDocument"數(shù)據(jù)授權(quán)服務(wù) 33\o"CurrentDocument"數(shù)據(jù)鑒權(quán)服務(wù) 33\o"CurrentDocument"數(shù)據(jù)接口服務(wù) 34數(shù)據(jù)查詢類服務(wù) 34數(shù)據(jù)比對類服務(wù) 34數(shù)據(jù)訂閱/推送類服務(wù) 34數(shù)據(jù)分析類服務(wù) 34動態(tài)數(shù)據(jù)獲取服務(wù) 34\o"CurrentDocument"可視化組件服務(wù) 35數(shù)據(jù)治理可視化 35數(shù)據(jù)治理概況 35數(shù)據(jù)質(zhì)量可視化 35數(shù)據(jù)接入可視化 35數(shù)據(jù)處理可視化 35數(shù)據(jù)管控可視化 36數(shù)據(jù)資源可視化 36數(shù)據(jù)應(yīng)用情況可視化 36\o"CurrentDocument"數(shù)據(jù)管控 36\o"CurrentDocument"數(shù)據(jù)標(biāo)準(zhǔn)管理 36\o"CurrentDocument"元數(shù)據(jù)管理 37元數(shù)據(jù)分類 37元數(shù)據(jù)管理 37元數(shù)據(jù)分析 38\o"CurrentDocument"資源目錄管理 38\o"CurrentDocument"數(shù)據(jù)鑒權(quán)管理 39\o"CurrentDocument"數(shù)據(jù)質(zhì)量管理 39\o"CurrentDocument"數(shù)據(jù)運(yùn)維管理 40\o"CurrentDocument"數(shù)據(jù)血緣管理 41\o"CurrentDocument"生產(chǎn)庫管理 42\o"CurrentDocument"5.8數(shù)據(jù)共享交換 42\o"CurrentDocument"服務(wù)共享管理 42服務(wù)目錄 42服務(wù)注冊 42服務(wù)申請 42服務(wù)發(fā)布 43服務(wù)訂閱 43服務(wù)審核 43通用服務(wù)接口 43\o"CurrentDocument"數(shù)據(jù)交換管理 43數(shù)據(jù)交換服務(wù) 43共享資源配置 43\o"CurrentDocument"算法模型 44\o"CurrentDocument"算法工程 44算法管理 44算法組件 44算法庫 45\o"CurrentDocument"模型工程 45模型創(chuàng)建 45模型分析 45模型管理 46\o"CurrentDocument"工具引擎 46\o"CurrentDocument"通用工具 46可視化工具 46智能查詢工具 46\o"CurrentDocument"業(yè)務(wù)流程引擎 47中間件 47基礎(chǔ)服務(wù)組件 47\o"CurrentDocument"工作流引擎 48\o"CurrentDocument"搜索引擎 48\o"CurrentDocument"表單引擎 48\o"CurrentDocument"標(biāo)簽工程 48\o"CurrentDocument"標(biāo)簽體系管理 48標(biāo)簽主體管理 49\o"CurrentDocument"標(biāo)簽?zāi)夸浌芾?49標(biāo)簽管理 49標(biāo)簽分類管理 50業(yè)務(wù)分類 50管理分類 51技術(shù)分類 51標(biāo)簽規(guī)則管理 52標(biāo)簽元數(shù)據(jù)管理 52標(biāo)簽規(guī)則管理 52標(biāo)簽生命周期管理 53標(biāo)簽計(jì)算 53標(biāo)簽畫像 54知識圖譜 55知識圖譜創(chuàng)建 55知識圖譜庫構(gòu)建 55知識圖譜服務(wù) 55知識圖譜檢索服務(wù) 56關(guān)聯(lián)分析/圖析服務(wù) 56多維展示/全息檔案服務(wù) 56地理展示和時(shí)空比對服務(wù) 56通用應(yīng)用服務(wù) 56統(tǒng)一機(jī)構(gòu)管理 56統(tǒng)一用戶管理 56統(tǒng)一權(quán)限管理 57統(tǒng)一身份認(rèn)證 57統(tǒng)一消息服務(wù) 57日志管理 57安全審計(jì) 58數(shù)據(jù)治理門戶 58資源目錄 58元數(shù)據(jù)資源目錄 58數(shù)據(jù)資源目錄 58標(biāo)簽資源目錄 58算法資源目錄 59模型資源目錄 59服務(wù)接口資源目錄 59數(shù)據(jù)服務(wù)總線 59服務(wù)注冊 59服務(wù)編排 59服務(wù)路由 59協(xié)議適配 60事務(wù)管理 60服務(wù)監(jiān)控 606.技術(shù)指標(biāo) 605.系統(tǒng)功能信息資源規(guī)劃地方應(yīng)急管理部門應(yīng)在應(yīng)急管理部編制的信息資源目錄的基礎(chǔ)上,補(bǔ)充梳理本省應(yīng)急管理信息資源,并按照相關(guān)規(guī)范要求進(jìn)行編目,為應(yīng)急管理業(yè)務(wù)系統(tǒng)和政務(wù)服務(wù)提供數(shù)據(jù)資源清單,并定期與部級數(shù)據(jù)治理系統(tǒng)的資源目錄實(shí)現(xiàn)同步,為數(shù)據(jù)接入、數(shù)據(jù)匯聚、數(shù)據(jù)存儲、數(shù)據(jù)交換、數(shù)據(jù)應(yīng)用提供技術(shù)約束,確保數(shù)據(jù)治理工作規(guī)范、統(tǒng)一、有據(jù)。信息資源應(yīng)急管理數(shù)據(jù)治理系統(tǒng)建設(shè)是一項(xiàng)長期的工作,數(shù)據(jù)資源池中存儲和接入的信息資源類型不斷豐富、數(shù)據(jù)量不斷增長數(shù)據(jù)來源單位范圍逐步擴(kuò)大。本期信息資源的采集范圍主要包括以下單位:應(yīng)急管理各轉(zhuǎn)錄部門以及林業(yè)、交通運(yùn)輸、國土資源、地震、城管、消防、民政、氣象等單位。采集數(shù)據(jù)類型主要包括:1、各單位應(yīng)急相關(guān)基礎(chǔ)數(shù)據(jù),危險(xiǎn)源、防護(hù)目標(biāo)、地理信息等。2、各單位應(yīng)急資源數(shù)據(jù),包括救援隊(duì)伍信息、應(yīng)急專家、應(yīng)急救援物資裝備信息等。3、各單位實(shí)時(shí)監(jiān)測監(jiān)控?cái)?shù)據(jù),如氣象信息、輿情信息等。4、各單位應(yīng)急相關(guān)業(yè)務(wù)數(shù)據(jù),包括預(yù)案、案例、法律法規(guī)信息、安全生產(chǎn)監(jiān)管的相關(guān)信息等。5、各單位專業(yè)預(yù)測信息,如氣象預(yù)測信息、地震預(yù)測預(yù)警信息等。信息要素規(guī)劃根據(jù)應(yīng)急管理業(yè)務(wù)的數(shù)據(jù)特征,以相關(guān)要素為基礎(chǔ),將應(yīng)急管理業(yè)務(wù)中可以進(jìn)行信息化處理的數(shù)據(jù)進(jìn)行分類。信息資源目錄編制本項(xiàng)目將依照《政務(wù)信息資源目錄編制指南(試行)》、GB/T21063.1-2007及GB/T21063.3-2007等相關(guān)指南和標(biāo)準(zhǔn)的要求,結(jié)合應(yīng)急管理部的管理需要,梳理應(yīng)急管理信息資源,規(guī)劃應(yīng)急管理元數(shù)據(jù)范圍,編制完成標(biāo)準(zhǔn)《應(yīng)急管理信息資源資源目錄》?;趹?yīng)急管理信息要素,將應(yīng)急管理信息資源進(jìn)行匯總?cè)诤?,可形成包括最小的一級分類?;谝患壏诸悾瑢㈥P(guān)聯(lián)于同一信息要素的不同職能或不同對象進(jìn)行子類劃分,形成信息資源二級分類。對二級分類下的業(yè)務(wù)流程或業(yè)務(wù)處理對象進(jìn)行信息資源再劃分, 形成信息資源三級分類。分類管理按類別管理。綜合查詢綜合查詢。定期更新形成完備的更新機(jī)制??冃Э己烁鶕?jù)資源規(guī)劃情況進(jìn)行考核。數(shù)據(jù)接入數(shù)據(jù)接入主要提供統(tǒng)一的數(shù)據(jù)匯聚功能,將紛繁復(fù)雜、格式各樣的外部關(guān)聯(lián)部門業(yè)務(wù)系統(tǒng)、應(yīng)急管理內(nèi)部業(yè)務(wù)系統(tǒng)、互聯(lián)網(wǎng)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)接入到數(shù)據(jù)治理平臺中,方便和外部系統(tǒng)進(jìn)行數(shù)據(jù)交換,為上層大數(shù)據(jù)應(yīng)用支撐平臺的業(yè)務(wù)分析工作提供數(shù)據(jù)源。數(shù)據(jù)接入方式從數(shù)據(jù)來源分布來看,本次項(xiàng)目建設(shè)接入數(shù)據(jù)包括外部關(guān)聯(lián)部門數(shù)據(jù)、應(yīng)急管理廳內(nèi)部業(yè)務(wù)部門數(shù)據(jù)、互聯(lián)網(wǎng)公開數(shù)據(jù)、感知數(shù)據(jù)等。針對不同來源數(shù)據(jù)采用不同的數(shù)據(jù)接入方式。外部關(guān)聯(lián)部門數(shù)據(jù)接入方式對于林業(yè)、交通運(yùn)輸、國土資源、地震、城管、消防、民政、氣象等外部相關(guān)部門業(yè)務(wù)系統(tǒng)數(shù)據(jù)可通過數(shù)據(jù)交換平臺獲取,引接方式遵從平臺規(guī)定方式進(jìn)行,目前主要提供庫表交換、服務(wù)接口調(diào)用、文件上傳方式。應(yīng)急管理廳內(nèi)部業(yè)務(wù)部門數(shù)據(jù)接入方式對于黑龍江應(yīng)急管理廳等應(yīng)急管理廳內(nèi)部業(yè)務(wù)部門的數(shù)據(jù),可通過前置系統(tǒng)采用數(shù)據(jù)抽取、接口調(diào)用、消息服務(wù)的方式進(jìn)行數(shù)據(jù)接入。互聯(lián)網(wǎng)公開數(shù)據(jù)接入方式對于來自互聯(lián)網(wǎng)以及社會企業(yè)的輿情數(shù)據(jù)可通過互聯(lián)網(wǎng)單向傳輸設(shè)備接入到數(shù)據(jù)資源池。感知數(shù)據(jù)接入方式對于來源于GPS與北斗定位及速度、方向等實(shí)時(shí)定位設(shè)備、各單位實(shí)時(shí)監(jiān)測監(jiān)控?cái)?shù)據(jù),可通過接口實(shí)時(shí)接入或定點(diǎn)接收的方式實(shí)現(xiàn)數(shù)據(jù)接入。其他數(shù)據(jù)對于沒有IT系統(tǒng)支撐的業(yè)務(wù)數(shù)據(jù),還可采用人工填報(bào),XLS表格導(dǎo)入的方式實(shí)現(xiàn)數(shù)據(jù)接入。系統(tǒng)功能數(shù)據(jù)接入子系統(tǒng)提供數(shù)據(jù)探查、數(shù)據(jù)讀取、數(shù)據(jù)對賬等功能模塊。數(shù)據(jù)探查數(shù)據(jù)探查是指通過對來源數(shù)據(jù)存儲位置、提供方式、總量和更新情況、業(yè)務(wù)含義、字段格式語義和取值分布、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)質(zhì)量等進(jìn)行多維度探查,以達(dá)到認(rèn)識數(shù)據(jù)的目的,為數(shù)據(jù)定義提供依據(jù)。數(shù)據(jù)讀取數(shù)據(jù)讀取是指從源系統(tǒng)抽取數(shù)據(jù)或從指定位置讀取數(shù)據(jù),檢查數(shù)據(jù)是否與數(shù)據(jù)定義一致:不一致的停止接入,并重新進(jìn)行數(shù)據(jù)的探查和定義;一致的執(zhí)行進(jìn)一步接入,對數(shù)據(jù)進(jìn)行必要的解密、解壓操作,生成作用于數(shù)據(jù)全生命周期的記錄 ID,并對數(shù)據(jù)進(jìn)行字符集轉(zhuǎn)換等,將其轉(zhuǎn)成符合數(shù)據(jù)處理要求的格式。數(shù)據(jù)對賬數(shù)據(jù)對賬是針對數(shù)據(jù)接入環(huán)節(jié),對數(shù)據(jù)提供方和數(shù)據(jù)接入方在某一對賬節(jié)點(diǎn)的完整性、一致性、正確性進(jìn)行核對和檢驗(yàn)的過程。如果在某一對賬時(shí)間點(diǎn)數(shù)據(jù)提供方和數(shù)據(jù)接入方分別對應(yīng)的數(shù)據(jù)條數(shù)不一致,說明對賬出現(xiàn)異常,記錄異常,在必要時(shí)需告警。斷點(diǎn)續(xù)傳系統(tǒng)應(yīng)該提供基于消息的數(shù)據(jù)傳輸服務(wù),從一個(gè)應(yīng)用系統(tǒng)傳輸數(shù)據(jù)實(shí)體和數(shù)據(jù)格式到另一個(gè)應(yīng)用系統(tǒng),每個(gè)傳輸服務(wù)可以運(yùn)行多個(gè)傳輸實(shí)體。另外系統(tǒng)也提供斷點(diǎn)處理功能,用戶可以通過流程診斷工具查看流程發(fā)生錯(cuò)誤的斷點(diǎn),用戶可以只修改發(fā)生錯(cuò)誤的斷點(diǎn)處的消息,然后把該消息重新發(fā)送,而不是回退和重新發(fā)送整個(gè)流程。任務(wù)管理主要實(shí)現(xiàn)對數(shù)據(jù)接入任務(wù)的管理,支持?jǐn)?shù)據(jù)接入任務(wù)的創(chuàng)建、查詢、刪除等功能,并可指定接入任務(wù)所使用的抽取方法、轉(zhuǎn)換規(guī)則和加載方式,并根據(jù)指定類型進(jìn)行任務(wù)的調(diào)度執(zhí)行。數(shù)據(jù)分發(fā)將預(yù)處理后的數(shù)據(jù)按需分發(fā)到資源庫、主題庫、業(yè)務(wù)庫,更新維護(hù)原始庫,以及向請求方反饋數(shù)據(jù)。數(shù)據(jù)處理半結(jié)構(gòu)化文本等具體數(shù)據(jù)內(nèi)數(shù)據(jù)處理主要是針對數(shù)據(jù)接入系統(tǒng)匯聚的結(jié)構(gòu)化數(shù)據(jù)記錄、容建立標(biāo)準(zhǔn)化的數(shù)據(jù)處理模式,經(jīng)過處理后的數(shù)據(jù)存儲在應(yīng)急管理數(shù)據(jù)資源池中。數(shù)據(jù)處理子系統(tǒng)提供數(shù)據(jù)探查、提取、清洗、轉(zhuǎn)換、關(guān)聯(lián)、比對、標(biāo)識、融合等功能模塊。半結(jié)構(gòu)化文本等具體數(shù)據(jù)內(nèi)數(shù)據(jù)處理場景從前置庫到原始庫數(shù)據(jù)處理系統(tǒng)通過數(shù)據(jù)接入系統(tǒng)接入到前置庫中的數(shù)據(jù),這些數(shù)據(jù)包括各業(yè)務(wù)系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),通過數(shù)據(jù)探查和數(shù)據(jù)提取等手段,對前置庫的數(shù)據(jù)進(jìn)行探查分析,提取出數(shù)據(jù)源信息,并將非結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵文字信息如森林草原林火視頻監(jiān)控?cái)?shù)據(jù)中的時(shí)間等提取出來,整個(gè)數(shù)據(jù)處理過程處理后的數(shù)據(jù)會落入原始庫中。從原始庫到資源庫原始庫的數(shù)據(jù)經(jīng)過數(shù)據(jù)比對、數(shù)據(jù)提取、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗等處理過程,將數(shù)據(jù)加工成符合標(biāo)準(zhǔn)規(guī)范的數(shù)據(jù)。例如人員傷亡表的數(shù)據(jù)處理工作,經(jīng)過比對人員傷亡表中的各個(gè)字段和標(biāo)準(zhǔn)數(shù)據(jù)元的差異,將標(biāo)準(zhǔn)數(shù)據(jù)元與原始表進(jìn)行關(guān)聯(lián),如身份證號,然后進(jìn)行轉(zhuǎn)換和清洗。從資源庫到主題庫資源庫的數(shù)據(jù)經(jīng)過數(shù)據(jù)比對、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)融合、數(shù)據(jù)標(biāo)識的處理過程,將資源庫的數(shù)據(jù)映射到災(zāi)害事故、管理對象、應(yīng)急環(huán)境、救援資源、動態(tài)感知五大信息分類中,并詳細(xì)對應(yīng)到各信息分類中與森林防火相關(guān)的二級、三級主題庫中。例如“地”主題中的關(guān)鍵基礎(chǔ)設(shè)施主題,需要比對關(guān)鍵基礎(chǔ)設(shè)施表與資源庫中表的數(shù)據(jù)結(jié)構(gòu)差異,選擇有效的字段關(guān)聯(lián)、融合數(shù)據(jù)到關(guān)鍵基礎(chǔ)設(shè)施主題中。從主題庫到專題庫主題庫的數(shù)據(jù)經(jīng)過數(shù)據(jù)比對、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)融合、數(shù)據(jù)表示的處理過程,將災(zāi)害事故、管理對象、應(yīng)急環(huán)境、救援資源、動態(tài)感知五大信息分類中的數(shù)據(jù)提取出來,按照森林防火專題庫所需要的方式進(jìn)行組織。系統(tǒng)功能數(shù)據(jù)探查數(shù)據(jù)探查功能組件主要對業(yè)務(wù)緩沖庫和原始庫中的數(shù)據(jù)進(jìn)行探查分析,以便對待匯聚整合的數(shù)據(jù)有一個(gè)清晰的了解,進(jìn)而提取出數(shù)據(jù)源頭的元數(shù)據(jù)信息,為后續(xù)的數(shù)據(jù)處理過程提供管理、業(yè)務(wù)、技術(shù)等方面的支撐。業(yè)務(wù)探查:對來源表的業(yè)務(wù)含義進(jìn)行探查,以便能準(zhǔn)確地理解和描述數(shù)據(jù)。接入方式探查:對來源表的存儲位置、提供方式進(jìn)行探查,為數(shù)據(jù)接入規(guī)則定義和數(shù)據(jù)處理、組織提供依據(jù)。字段探查:對具體字段的數(shù)據(jù)內(nèi)容進(jìn)行探查,識別其代表的含義和統(tǒng)計(jì)分布情況??罩德侍讲椋航y(tǒng)計(jì)字段空值占比情況,一方面可重點(diǎn)關(guān)注空值率高的重要字段,另一方面可通過與歷史情況比較及時(shí)發(fā)現(xiàn)數(shù)據(jù)質(zhì)量的動態(tài)變化。值域及分布探查:對字段的值域范圍以及分布情況進(jìn)行探查。命名實(shí)體探查:根據(jù)數(shù)據(jù)內(nèi)容識別人名、地名、機(jī)構(gòu)名、手機(jī)號等命名實(shí)體,幫助理解字段語義。數(shù)據(jù)元探查:根據(jù)字段名字及內(nèi)容,探查字段的確切語義,并與數(shù)據(jù)元標(biāo)準(zhǔn)進(jìn)行映射。類型及格式探查:探查字段的類型及格式是否符合規(guī)范。數(shù)據(jù)集探查:對來源數(shù)據(jù)集表名、引用數(shù)據(jù)元等進(jìn)行探查,確定數(shù)據(jù)集是否是標(biāo)準(zhǔn)數(shù)據(jù)集。探查數(shù)據(jù)總量、增量及更新情況,為數(shù)據(jù)接入、處理和組織提供依據(jù)。問題數(shù)據(jù)探查:探查字段中不符合規(guī)范的數(shù)據(jù),為后續(xù)數(shù)據(jù)清洗規(guī)則的制定提供依據(jù)。數(shù)據(jù)推送:把數(shù)據(jù)探查的結(jié)果信息推送到數(shù)據(jù)清洗組件、數(shù)據(jù)轉(zhuǎn)換組件以及元數(shù)據(jù)庫中,為相關(guān)組件的規(guī)則制定,流程分發(fā)等提供必要的信息。數(shù)據(jù)提取數(shù)據(jù)提取是原始數(shù)據(jù)進(jìn)行規(guī)范化處理的過程,主要針對半結(jié)構(gòu)化數(shù)據(jù),通過數(shù)據(jù)提取過程,從這些半結(jié)構(gòu)化數(shù)據(jù)中提取出人員、機(jī)構(gòu)、應(yīng)急物資、事件等相關(guān)信息,并將提取的信息以結(jié)構(gòu)化形式進(jìn)行存儲。半結(jié)構(gòu)化文件內(nèi)容提取主要針對存在于原始庫中的半結(jié)構(gòu)化數(shù)據(jù),根據(jù)文件中的內(nèi)容,提取出業(yè)務(wù)需要的數(shù)據(jù)內(nèi)容。常見的半結(jié)構(gòu)化數(shù)據(jù)類型包括: XML、CSV、TXT、Word、Excel等文件。數(shù)據(jù)緩存:對XML、CSV、TXT、Word、Excel文件解析出來的結(jié)構(gòu)化信息緩存的功能。數(shù)據(jù)封裝:對解析出來的數(shù)據(jù)進(jìn)行數(shù)據(jù)封裝,形成標(biāo)準(zhǔn)化的數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)推送:推送封裝好的結(jié)構(gòu)化數(shù)據(jù)到資源庫、主題庫。源數(shù)據(jù)索引:需實(shí)現(xiàn)對原始半結(jié)構(gòu)化數(shù)據(jù)的索引能力,便于對提取后的結(jié)果進(jìn)行溯源追非結(jié)構(gòu)化文件內(nèi)容提取多媒體信息提取:從圖片、語音、視頻等多媒體數(shù)據(jù)中提取文字、圖片等信息。如從相關(guān)圖片中提取文本信息,從視頻信息中提取關(guān)鍵幀信息,對圖片中出現(xiàn)的二維碼進(jìn)行解析識別,提取包含的文字信息、鏈接信息等。生物特征提取:從海量圖像、視頻、音頻信息中提取人臉、人聲等信息,為應(yīng)急救援提供數(shù)據(jù)支撐。如從人事管理系統(tǒng)中的人員照片信息提取人臉特征信息、從各類視頻信息中提取人臉信息,識別出涉及的領(lǐng)導(dǎo)人員信息等。全文信息提?。褐饕菑暮A课谋緮?shù)據(jù)中提取姓名、身份證號、電話號碼、車牌號碼、社會統(tǒng)一信用代碼、企業(yè)名稱、地址、時(shí)間等信息。如從安全生產(chǎn)誠信管理系統(tǒng)的黑白紅名單中提取企業(yè)名稱、社會統(tǒng)一信用代碼等企業(yè)組織要素信息,從評估報(bào)告信息中提取災(zāi)害事故的發(fā)生時(shí)間、地點(diǎn)、傷亡情況等結(jié)構(gòu)化要素信息。如從業(yè)務(wù)信息系統(tǒng)中對接的 Word格式的文獻(xiàn)文件內(nèi)容中提取單位名稱、姓名等要素信息。數(shù)據(jù)清洗數(shù)據(jù)清洗是對業(yè)務(wù)數(shù)據(jù)中不符合標(biāo)準(zhǔn)規(guī)范或者無效的數(shù)據(jù)進(jìn)行相關(guān)操作。在進(jìn)行數(shù)據(jù)整合之前先定義數(shù)據(jù)的清洗規(guī)則,并對符合清洗規(guī)則的數(shù)據(jù)設(shè)置數(shù)據(jù)的錯(cuò)誤級別。當(dāng)進(jìn)行數(shù)據(jù)整合過程中遇到符合清洗規(guī)則的數(shù)據(jù)時(shí),系統(tǒng)將把這些業(yè)務(wù)數(shù)據(jù)置為問題數(shù)據(jù),并根據(jù)錯(cuò)誤的嚴(yán)重程度進(jìn)行歸類。對出現(xiàn)的問題數(shù)據(jù)進(jìn)行標(biāo)記后存入問題數(shù)據(jù)庫中,經(jīng)確認(rèn)后再決定是通過清洗轉(zhuǎn)換后入庫,還是直接放棄,抑或其他方式處理。對于清洗前后的數(shù)據(jù)還需進(jìn)行一致性檢查,以保證清洗結(jié)果集的質(zhì)量。數(shù)據(jù)轉(zhuǎn)換本次數(shù)據(jù)治理項(xiàng)目涉及多個(gè)部門、多個(gè)業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)。不同系統(tǒng)有不同的數(shù)據(jù)結(jié)構(gòu)定義,數(shù)據(jù)匯聚在一起后就會產(chǎn)生數(shù)據(jù)格式不規(guī)范統(tǒng)一、數(shù)據(jù)命名不規(guī)范統(tǒng)一、數(shù)據(jù)編碼不規(guī)范統(tǒng)一、數(shù)據(jù)標(biāo)識不規(guī)范統(tǒng)一。這樣的數(shù)據(jù)是無法支撐業(yè)務(wù)應(yīng)用需要的,因此需要對匯集的數(shù)據(jù)進(jìn)行數(shù)據(jù)格式規(guī)范統(tǒng)一、數(shù)據(jù)命名規(guī)范統(tǒng)一、數(shù)據(jù)編碼規(guī)范統(tǒng)一、數(shù)據(jù)標(biāo)識不規(guī)范統(tǒng)一等數(shù)據(jù)轉(zhuǎn)換處理。具體數(shù)據(jù)轉(zhuǎn)換組件包括以下功能:數(shù)據(jù)命名轉(zhuǎn)換:通過比對標(biāo)準(zhǔn)數(shù)據(jù)元和實(shí)際數(shù)據(jù)表中的數(shù)據(jù)項(xiàng),如果比對結(jié)果一致,則不需要轉(zhuǎn)換處理,如果比對結(jié)果不一致,要按照標(biāo)準(zhǔn)數(shù)據(jù)元中規(guī)定的命名進(jìn)行轉(zhuǎn)換。數(shù)據(jù)類型轉(zhuǎn)換:通過比對標(biāo)準(zhǔn)數(shù)據(jù)元和實(shí)際數(shù)據(jù)表中的數(shù)據(jù)項(xiàng),如果比對結(jié)果一致,則不需要轉(zhuǎn)換處理,如果比對結(jié)果不一致,要按照標(biāo)準(zhǔn)數(shù)據(jù)元中規(guī)定的數(shù)據(jù)類型進(jìn)行轉(zhuǎn)換。按照標(biāo)準(zhǔn)規(guī)范將不同來源、不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的標(biāo)準(zhǔn)化數(shù)據(jù)格式。平臺將建立一系列的數(shù)據(jù)標(biāo)準(zhǔn),進(jìn)入平臺的數(shù)據(jù)都必須遵循這些標(biāo)準(zhǔn),只有這樣才能保證平臺上層應(yīng)用的調(diào)用數(shù)據(jù)的通用性和應(yīng)用之間充分的信息共享。需要做的格式統(tǒng)一有以下幾種:全角轉(zhuǎn)半角、電話號碼轉(zhuǎn)換、URL形式轉(zhuǎn)換、身份證件號碼轉(zhuǎn)換、社會統(tǒng)一信用代碼轉(zhuǎn)換、時(shí)間格式轉(zhuǎn)換、經(jīng)緯度等數(shù)據(jù)標(biāo)準(zhǔn)化類型。身份證號碼和社會統(tǒng)一信用代碼標(biāo)準(zhǔn)化是將身份證位數(shù)統(tǒng)一為18位半角字符,字母字符轉(zhuǎn)為大寫字符,電話號碼標(biāo)準(zhǔn)化主要是保留源數(shù)據(jù)的數(shù)字字符部分,去除加減號、空格等特殊字符,僅保留有效的數(shù)字字符內(nèi)容。特定字段全角轉(zhuǎn)半角(URL、賬號等信息)。時(shí)間標(biāo)準(zhǔn)化即將“yyyy-MM-ddHH:mm:ss”、“yyyyMMddHHmm”ss等各種時(shí)間格式值,這些格式也統(tǒng)一轉(zhuǎn)成平臺定義的標(biāo)準(zhǔn)時(shí)間格式。經(jīng)緯度標(biāo)準(zhǔn)化主要將各種經(jīng)緯度坐標(biāo)系統(tǒng)一轉(zhuǎn)換為2000國家大地坐標(biāo)系,經(jīng)緯度數(shù)值統(tǒng)一為十進(jìn)制數(shù)值格式。所有數(shù)據(jù)格式標(biāo)準(zhǔn)化后的字段單獨(dú)存儲,原字段予以保留。數(shù)據(jù)編碼轉(zhuǎn)換:比對標(biāo)準(zhǔn)數(shù)據(jù)元和實(shí)際數(shù)據(jù)表中的數(shù)據(jù)項(xiàng),如果比對結(jié)果一致,則不需要轉(zhuǎn)換處理,如果比對結(jié)果不一致,需要按照標(biāo)準(zhǔn)數(shù)據(jù)元中規(guī)定的標(biāo)準(zhǔn)編碼進(jìn)行轉(zhuǎn)換。將來源于不同系統(tǒng)的不同數(shù)據(jù)字典轉(zhuǎn)化為標(biāo)準(zhǔn)數(shù)據(jù)字典。視頻轉(zhuǎn)碼:由于應(yīng)急管理數(shù)據(jù)治理工程中的視頻信息來源于不同終端設(shè)備,且多經(jīng)由異構(gòu)通信網(wǎng)絡(luò)進(jìn)行傳輸,因此需要進(jìn)行視頻轉(zhuǎn)碼,將已經(jīng)壓縮編碼的視頻碼流轉(zhuǎn)換成另一個(gè)視頻碼流,以適應(yīng)不同的網(wǎng)絡(luò)帶寬、不同的終端處理能力和不同的用戶需求,并保證服務(wù)質(zhì)量。數(shù)據(jù)標(biāo)識轉(zhuǎn)換:通過數(shù)據(jù)元和數(shù)據(jù)表字段的關(guān)聯(lián),根據(jù)關(guān)聯(lián)關(guān)系自動生成可執(zhí)行的轉(zhuǎn)換規(guī)則,進(jìn)行數(shù)據(jù)標(biāo)識的轉(zhuǎn)換。標(biāo)準(zhǔn)地址轉(zhuǎn)換:對地址要素不完整、文字表達(dá)不一致的地址信息進(jìn)行標(biāo)準(zhǔn)化處理。依托民政的標(biāo)準(zhǔn)化地址庫及互聯(lián)網(wǎng)公開的POI地址信息庫,形成應(yīng)急相關(guān)的地址標(biāo)準(zhǔn)基礎(chǔ)庫,對應(yīng)急采集的地址信息進(jìn)行標(biāo)準(zhǔn)化處理。為保障數(shù)據(jù)轉(zhuǎn)換處理過程不會造成數(shù)據(jù)丟失,數(shù)據(jù)轉(zhuǎn)換模塊需要支持?jǐn)帱c(diǎn)功能。數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)關(guān)聯(lián)組件需要完成在不同數(shù)據(jù)集之間的關(guān)聯(lián),實(shí)現(xiàn)在不同數(shù)據(jù)集的聯(lián)動,為數(shù)據(jù)治理、業(yè)務(wù)應(yīng)用的需求提供支撐。根據(jù)數(shù)據(jù)處理流程設(shè)計(jì)的要求,數(shù)據(jù)關(guān)聯(lián)組件的功能包括:標(biāo)準(zhǔn)關(guān)聯(lián)、字典關(guān)聯(lián)、半結(jié)構(gòu)化關(guān)聯(lián)、關(guān)聯(lián)回填。標(biāo)準(zhǔn)關(guān)聯(lián):在資源庫中設(shè)計(jì)了標(biāo)準(zhǔn)的數(shù)據(jù)元體系,作為數(shù)據(jù)資源中心的數(shù)據(jù)規(guī)范基礎(chǔ)。數(shù)據(jù)元是最小的數(shù)據(jù)單位。在數(shù)據(jù)關(guān)聯(lián)系統(tǒng)中,需要通過手工或更智能的方式實(shí)現(xiàn)各種不同編碼的原始數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)元的關(guān)聯(lián)。數(shù)據(jù)字典、屬性及相關(guān)含義的關(guān)聯(lián):如災(zāi)害等級與災(zāi)害類別關(guān)聯(lián)、自然災(zāi)害和災(zāi)害地點(diǎn)關(guān)聯(lián)、單位代碼和單位名稱關(guān)聯(lián)、救援物資與物資類別關(guān)聯(lián)等。半結(jié)構(gòu)化與結(jié)構(gòu)化的關(guān)聯(lián):對半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行提取結(jié)構(gòu)化信息后,按照關(guān)鍵字(如災(zāi)害地點(diǎn)相同、災(zāi)害時(shí)間相同、災(zāi)害誘因相同)等進(jìn)行關(guān)聯(lián),構(gòu)建數(shù)據(jù)關(guān)聯(lián)關(guān)系。如從業(yè)務(wù)信息系統(tǒng)中對接的Word格式的文獻(xiàn)文件,通過提取出的文獻(xiàn)內(nèi)容,通過事件的時(shí)間、地點(diǎn)查詢相應(yīng)火災(zāi)災(zāi)情庫中的災(zāi)情信息進(jìn)行關(guān)聯(lián)。關(guān)聯(lián)回填:兩個(gè)或兩個(gè)以上數(shù)據(jù)集之間通過某種信息建立關(guān)聯(lián)關(guān)系之后,根據(jù)實(shí)際業(yè)務(wù)的需要,可以對這兩個(gè)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行相互補(bǔ)充。數(shù)據(jù)比對通過數(shù)據(jù)比對功能實(shí)現(xiàn)對兩個(gè)數(shù)據(jù)集中的數(shù)據(jù)內(nèi)容、數(shù)據(jù)格式的比較核查,找出相同的數(shù)據(jù)或不同的數(shù)據(jù)。在業(yè)務(wù)應(yīng)用場景上主要實(shí)現(xiàn)以下數(shù)據(jù)比對功能。數(shù)據(jù)項(xiàng)與標(biāo)準(zhǔn)數(shù)據(jù)元比對:實(shí)現(xiàn)原始數(shù)據(jù)表中的數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)元數(shù)據(jù)的比對,比對的內(nèi)容包括數(shù)據(jù)命名、數(shù)據(jù)標(biāo)識、數(shù)據(jù)格式、數(shù)據(jù)值域、數(shù)據(jù)編碼、數(shù)據(jù)類型等數(shù)據(jù)的比對,數(shù)據(jù)比對的結(jié)果為一致或不一致。不同數(shù)據(jù)項(xiàng)集比對:實(shí)現(xiàn)兩個(gè)數(shù)據(jù)項(xiàng)集的交集、補(bǔ)集,以滿足數(shù)據(jù)檢索的需求。數(shù)據(jù)標(biāo)識數(shù)據(jù)標(biāo)識模塊依托標(biāo)簽引擎結(jié)合應(yīng)急業(yè)務(wù)知識庫、標(biāo)簽規(guī)則庫對數(shù)據(jù)進(jìn)行標(biāo)識。標(biāo)簽規(guī)則庫提供標(biāo)簽的定義、內(nèi)容、版本、關(guān)聯(lián)等,通過讀取標(biāo)簽規(guī)則庫的內(nèi)容,對數(shù)據(jù)進(jìn)行映射,通過人工或智能的方式實(shí)現(xiàn)對數(shù)據(jù)打標(biāo),以便提升數(shù)據(jù)的價(jià)值密度,并為上層應(yīng)用提供支撐。根據(jù)標(biāo)簽規(guī)則庫提供的規(guī)則接口,數(shù)據(jù)標(biāo)識過程分為以下三類:基礎(chǔ)標(biāo)簽標(biāo)識:根據(jù)基礎(chǔ)標(biāo)簽定義的規(guī)則,對數(shù)據(jù)進(jìn)行規(guī)則篩選,符合規(guī)則的數(shù)據(jù)增添一列基礎(chǔ)標(biāo)簽。業(yè)務(wù)標(biāo)簽標(biāo)識:按照業(yè)務(wù)數(shù)據(jù)模型管理數(shù)據(jù),根據(jù)標(biāo)簽規(guī)則庫提供的標(biāo)簽元數(shù)據(jù)信息,在資源庫中找到標(biāo)簽所需的相關(guān)聯(lián)的數(shù)據(jù),根據(jù)規(guī)則進(jìn)行合并、匯總等工作,得到的數(shù)據(jù)按照標(biāo)簽定義增加一列內(nèi)容到目標(biāo)數(shù)據(jù)中。智能標(biāo)簽標(biāo)識:據(jù)標(biāo)簽規(guī)則庫提供的模型接口,將相應(yīng)的數(shù)據(jù)輸入模型進(jìn)行計(jì)算,將計(jì)算后的結(jié)果按照標(biāo)簽規(guī)則庫定義的標(biāo)簽內(nèi)容增加一列業(yè)務(wù)標(biāo)簽到目標(biāo)數(shù)據(jù)中。數(shù)據(jù)融合標(biāo)準(zhǔn)化去噪后的數(shù)據(jù)需要采取必要的數(shù)據(jù)融合手段,按照應(yīng)急管理的主題庫、專題庫以及數(shù)據(jù)應(yīng)用需要的方式組織,以支撐應(yīng)急管理單位的數(shù)據(jù)需求。在數(shù)據(jù)融合的過程中,應(yīng)該以合理的方式設(shè)計(jì)數(shù)據(jù)結(jié)構(gòu),保障數(shù)據(jù)應(yīng)用對數(shù)據(jù)高效分析查詢的同時(shí),盡可能的減少冗余。

數(shù)據(jù)融合處理過程貫穿主題庫、專題庫和數(shù)據(jù)應(yīng)用的建設(shè)過程,詳細(xì)如下:數(shù)據(jù)融合的關(guān)鍵功能模塊包括模型加工和匯總加工。各功能模塊的詳細(xì)描述如下:模型加工:主要包含數(shù)據(jù)合并、數(shù)據(jù)覆蓋、數(shù)據(jù)切分功能,其中數(shù)據(jù)合并需要通過函數(shù)、分組或轉(zhuǎn)列的方式完成數(shù)據(jù)的表合并和列合并。數(shù)據(jù)覆蓋功能需要依賴數(shù)據(jù)比對的結(jié)果,將新增和修改的記錄覆蓋到目標(biāo)表中。數(shù)據(jù)切分需要通過行篩選、列提取或表提取等方式將相同數(shù)據(jù)對象的結(jié)果表進(jìn)行切分合并。匯總加工:按照公共匯總的原則,明確哪些數(shù)據(jù)需要匯總合后,采用聚合函數(shù)或窗口函數(shù)等方式,完成對跨數(shù)據(jù)域且需要被頻繁公用的數(shù)據(jù)的匯總。數(shù)據(jù)去重對重復(fù)數(shù)據(jù)合并處理。數(shù)據(jù)補(bǔ)全對一條數(shù)據(jù)各個(gè)字段的缺失,通過技術(shù)手段進(jìn)行補(bǔ)全,例如:黑龍江省,需要補(bǔ)充機(jī)構(gòu)代碼23。數(shù)據(jù)資源池按照數(shù)據(jù)使用目的分級分類建庫的要求,統(tǒng)一規(guī)劃資源,通過對數(shù)據(jù)資源進(jìn)行標(biāo)準(zhǔn)統(tǒng)按照數(shù)據(jù)使用目的分級分類建庫的要求,統(tǒng)一規(guī)劃資源,通過對數(shù)據(jù)資源進(jìn)行標(biāo)準(zhǔn)統(tǒng)專題庫等的應(yīng)急管理數(shù)據(jù)資源為綜合展示、數(shù)據(jù)服務(wù)、領(lǐng)導(dǎo)專題庫等的應(yīng)急管理數(shù)據(jù)資源為綜合展示、數(shù)據(jù)服務(wù)、領(lǐng)導(dǎo)應(yīng)急管理數(shù)據(jù)庫原始庫大數(shù)據(jù)資源中心的原始庫應(yīng)該包含應(yīng)急管理單位內(nèi)部、外部所有需要組織的數(shù)據(jù)。在數(shù)據(jù)來源上,包括外部委數(shù)據(jù)(如公共安全數(shù)據(jù)、交通運(yùn)輸數(shù)據(jù)等),應(yīng)急管理單位內(nèi)部數(shù)據(jù)(如省市重大安全風(fēng)險(xiǎn)監(jiān)測預(yù)警數(shù)據(jù)、部級安全生產(chǎn)行政執(zhí)法數(shù)據(jù)等),社會及互聯(lián)網(wǎng)數(shù)據(jù)(如微信、微博及其他輿情數(shù)據(jù)等)。在數(shù)據(jù)類型上,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。原始庫的合理設(shè)計(jì)可以在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)資源中心之間形成一個(gè)良好的過渡,既保障了數(shù)據(jù)資源中心數(shù)據(jù)的穩(wěn)定性,不會受源業(yè)務(wù)系統(tǒng)數(shù)據(jù)頻繁變化的影響,又可減輕前置系統(tǒng)被反復(fù)抽取的壓力,數(shù)據(jù)資源中心的數(shù)據(jù)需求統(tǒng)一由原始庫為基礎(chǔ)來抽取和分發(fā)。由于數(shù)據(jù)來源多、種類豐富,原始庫的數(shù)據(jù)應(yīng)該采取清晰、合理的方式去組織。對于不同來源的數(shù)據(jù),應(yīng)該按照其數(shù)據(jù)來源進(jìn)行清晰的標(biāo)識,包括表名標(biāo)識、表元數(shù)據(jù)標(biāo)識等。對于不同種類的數(shù)據(jù),應(yīng)該采取不同的存儲機(jī)制進(jìn)行存取。存儲域分為結(jié)構(gòu)化域、半結(jié)構(gòu)化域和非結(jié)構(gòu)化域,其中半結(jié)構(gòu)化域和非結(jié)構(gòu)化域的數(shù)據(jù)應(yīng)該采用相應(yīng)的數(shù)據(jù)提取手段提取關(guān)鍵信息保存至結(jié)構(gòu)化域,便于數(shù)據(jù)的溯源和使用。原始庫的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)原則上和業(yè)務(wù)生產(chǎn)庫的表結(jié)構(gòu)一致,并在業(yè)務(wù)生產(chǎn)庫基礎(chǔ)上增添數(shù)據(jù)接入過程中的操作字段,表示數(shù)據(jù)的更新和刪除等狀態(tài)。以此向大數(shù)據(jù)資源中心提供原始、準(zhǔn)確的數(shù)據(jù),便于后續(xù)的分析和使用。原始庫中的數(shù)據(jù)是大數(shù)據(jù)資源中心最基礎(chǔ)的數(shù)據(jù),需要對數(shù)據(jù)設(shè)置不同的生命周期和質(zhì)量監(jiān)控標(biāo)準(zhǔn),從而保障數(shù)據(jù)的鮮活性和準(zhǔn)確性。原始庫的結(jié)構(gòu)按數(shù)據(jù)的類別分為結(jié)構(gòu)化數(shù)據(jù)域、半結(jié)構(gòu)化數(shù)據(jù)域和非結(jié)構(gòu)化數(shù)據(jù)域三個(gè)邏輯的數(shù)據(jù)域。(1)結(jié)構(gòu)化數(shù)據(jù)域用于保存由各業(yè)務(wù)系統(tǒng)抽取的關(guān)系型數(shù)據(jù),如火災(zāi)檔案表等,這部分?jǐn)?shù)據(jù)需基于云計(jì)算平臺所提供的關(guān)系型數(shù)據(jù)庫組件來組織。(2)半結(jié)構(gòu)化數(shù)據(jù)域用于保存從各業(yè)務(wù)系統(tǒng)或各部門抽取的半結(jié)構(gòu)化數(shù)據(jù),如互聯(lián)網(wǎng)輿情數(shù)據(jù)等XML格式、XLS格式數(shù)據(jù)或文件,該類型數(shù)據(jù)需基于云計(jì)算平臺所提供的 NoSQL數(shù)據(jù)庫組件來組織。(3)非結(jié)構(gòu)化數(shù)據(jù)域用于保存從各業(yè)務(wù)系統(tǒng)或各部門抽取的非結(jié)構(gòu)化數(shù)據(jù), 包括圖片、音視頻、文本等類型數(shù)據(jù),如衛(wèi)星遙感數(shù)據(jù)、火災(zāi)圖傳錄像、救援總結(jié)報(bào)告等,該類型數(shù)據(jù)需基于云計(jì)算平臺所提供的分布式文件系統(tǒng)進(jìn)行存儲。非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)需在原始庫中建立索引表來記錄該數(shù)據(jù)的來源和存儲路徑等。索引表主要以關(guān)系型數(shù)據(jù)形式存儲在結(jié)構(gòu)化數(shù)據(jù)域中。資源庫資源庫的數(shù)據(jù)是由原始庫的數(shù)據(jù)經(jīng)過清洗、轉(zhuǎn)換、 關(guān)聯(lián)、比對等數(shù)據(jù)處理過程后形成的標(biāo)準(zhǔn)數(shù)據(jù)。資源庫的設(shè)計(jì)包括數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)、數(shù)據(jù)表結(jié)構(gòu)設(shè)計(jì)和加工過程設(shè)計(jì)。在資源庫的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)上,以原始庫數(shù)據(jù)結(jié)構(gòu)為基礎(chǔ),補(bǔ)充必要的數(shù)據(jù)字段。在數(shù)據(jù)表設(shè)計(jì)上,將相同表結(jié)構(gòu)的數(shù)據(jù)表進(jìn)行適當(dāng)?shù)暮喜ⅲ⒈A粼紟斓谋砻苑奖氵M(jìn)行溯源。數(shù)據(jù)加工過程設(shè)計(jì)是資源庫設(shè)計(jì)中最核心的部分,這部分要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)元的設(shè)計(jì),以及原始數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)元的關(guān)聯(lián)設(shè)計(jì),從而將資源庫的數(shù)據(jù)處理成符合標(biāo)準(zhǔn)的數(shù)據(jù)。主題庫主題庫是按照應(yīng)急管理信息要素將應(yīng)急數(shù)據(jù)按災(zāi)害事故、救援物資與裝備、組織機(jī)構(gòu)、危險(xiǎn)源等進(jìn)行分類,為數(shù)據(jù)應(yīng)用和產(chǎn)品提供公共數(shù)據(jù)服務(wù),降低用戶理解和獲取數(shù)據(jù)的難度,降低數(shù)據(jù)加工的深度和復(fù)雜度,提升數(shù)據(jù)應(yīng)用和產(chǎn)品獲取數(shù)據(jù)的效率,保持系統(tǒng)內(nèi)各個(gè)軟件模塊和應(yīng)用服務(wù)間數(shù)據(jù)的一致性。主題庫的設(shè)計(jì)需遵循下述規(guī)則:1、提供統(tǒng)一的數(shù)據(jù)出口主題庫中包含了主題相關(guān)的實(shí)體表和實(shí)體間的關(guān)聯(lián)表,以及實(shí)體表的來源表信息。通過關(guān)聯(lián)表以及來源表信息,用戶能快速清晰地了解實(shí)體的數(shù)據(jù)來源,減少了去數(shù)據(jù)庫中尋找實(shí)體相關(guān)表的時(shí)間,并且由于各個(gè)用戶統(tǒng)一從主題庫獲取數(shù)據(jù),數(shù)據(jù)口徑的一致性得到了有效保障。2、保證實(shí)體的一致性主題庫包含災(zāi)害事故、救援物資與裝備、組織機(jī)構(gòu)、危險(xiǎn)源等實(shí)體,每個(gè)實(shí)體都會在主題庫中有唯一的ID,通過這個(gè)唯一的ID,可以獲取實(shí)體在主題庫中的所有信息,從而保證了實(shí)體的一致性。3、提供匯總的業(yè)務(wù)數(shù)據(jù),滿足查詢、統(tǒng)計(jì)、分析等多類應(yīng)用產(chǎn)品的數(shù)據(jù)需求主題庫會根據(jù)業(yè)務(wù)類別,將數(shù)據(jù)從各個(gè)業(yè)務(wù)表中匯聚起來變成匯總后的實(shí)體表和關(guān)聯(lián)表,并且在實(shí)體表和關(guān)聯(lián)表中還會包含常用的業(yè)務(wù)字段,使得用戶可以方便得從較少的表中

獲取所需數(shù)據(jù),降低了數(shù)據(jù)獲取成本。主題庫在數(shù)據(jù)治理體系中位于DWD明細(xì)數(shù)據(jù)層(資源庫)和DM專題層(專題庫)中間,對上游的明細(xì)數(shù)據(jù)打散重構(gòu)形成主題表,對下游的專題層提供了標(biāo)準(zhǔn)化、一致性的數(shù)據(jù)。上游的明細(xì)數(shù)據(jù)里面包含了不同系統(tǒng)、不同部門的數(shù)據(jù),數(shù)據(jù)之間存在關(guān)聯(lián),但是由于沒有進(jìn)行一致性處理,無法達(dá)到數(shù)據(jù)準(zhǔn)確的互通,因此主題庫將不同系統(tǒng)間的數(shù)據(jù)通過信息要素等實(shí)體進(jìn)行有效的關(guān)聯(lián),打通了不同系統(tǒng)間的數(shù)據(jù)。主題層完成后,專題層就能根據(jù)特定應(yīng)用需求,快速選取有效數(shù)據(jù)形成專題數(shù)據(jù)。主題庫邏輯模型的設(shè)計(jì)應(yīng)采用自頂而下的方法,首先將需求涉及范圍內(nèi)的業(yè)務(wù)對象從高度概括的信息要素概念層次歸類,即劃分主題域,再針對各個(gè)主題設(shè)計(jì)實(shí)體關(guān)系圖。專題庫專題庫是主題庫的數(shù)據(jù)按照專題應(yīng)用的需要重新整合形成的數(shù)據(jù)庫。專題庫的建庫按照專題應(yīng)用業(yè)務(wù)模型,通過二次抽取裝載的方法重新組織數(shù)據(jù),建立形成滿足應(yīng)急管理專題業(yè)務(wù)應(yīng)用需要的數(shù)據(jù)庫。根據(jù)應(yīng)急管理業(yè)務(wù)需求,專題庫包括包括預(yù)案、案例、應(yīng)急資源、專家等數(shù)據(jù)的收集、整理、清洗、入庫。預(yù)案主要包括突發(fā)事件總體應(yīng)急預(yù)案、專項(xiàng)預(yù)案、部門預(yù)案、下級政府應(yīng)急預(yù)案、大型活動應(yīng)急預(yù)案和企事業(yè)單位應(yīng)急預(yù)案等。應(yīng)急預(yù)案按內(nèi)容和形式分為兩種:文本預(yù)案和數(shù)字預(yù)案。文本預(yù)案主要以文本方式組織存儲各級政府或機(jī)構(gòu)編制好的應(yīng)急預(yù)案。數(shù)字預(yù)案是對文本預(yù)案中的救援組織、救援隊(duì)伍、程序步驟、措施、職責(zé)、協(xié)調(diào)等內(nèi)容進(jìn)行結(jié)構(gòu)化處理后形成的可程序化執(zhí)行的預(yù)案,包括預(yù)案手冊中所記錄的所有信息。各部門收集的與其專業(yè)領(lǐng)域相關(guān)的專業(yè)包括案例基本信息和案例要素。案例包括數(shù)量、內(nèi)容及應(yīng)急救援物資生產(chǎn)企業(yè),以各部門收集的與其專業(yè)領(lǐng)域相關(guān)的專業(yè)包括案例基本信息和案例要素。案例包括數(shù)量、內(nèi)容及應(yīng)急救援物資生產(chǎn)企業(yè),以案例數(shù)據(jù)及國內(nèi)外突發(fā)事件典型案例等相關(guān)信息。自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生、社會安全四大類。應(yīng)急資源庫主要存儲應(yīng)急救援物資儲備場所、及救援隊(duì)伍數(shù)據(jù)等數(shù)據(jù)。應(yīng)急資源數(shù)據(jù)實(shí)體包括應(yīng)急物資儲備庫、應(yīng)急物資、應(yīng)急裝備、應(yīng)急物資生產(chǎn)企業(yè)、救援隊(duì)伍等。應(yīng)急物資儲備庫數(shù)據(jù)描述應(yīng)急物資儲備庫的基本情況,包括名稱、類型、級別、地址、負(fù)責(zé)人、聯(lián)系人、周邊交通狀況、儲備物資等信息。應(yīng)急物資數(shù)據(jù)描述應(yīng)急物資的基本情況,包括名稱、類型、級別、存放地點(diǎn)、數(shù)量、保質(zhì)期等信息。應(yīng)急裝備包括個(gè)人防護(hù)裝備、通信設(shè)備、探測設(shè)備、洗消設(shè)備、醫(yī)療設(shè)備、能源設(shè)備、應(yīng)急運(yùn)輸工具等。應(yīng)急裝備數(shù)據(jù)描述各類應(yīng)急裝備的基本情況,包括名稱、類型、級別、負(fù)責(zé)人、聯(lián)系人、裝備數(shù)量、運(yùn)輸方式等。應(yīng)急物資生產(chǎn)企業(yè)數(shù)據(jù)描述應(yīng)急物資生產(chǎn)企業(yè)的基本情況,包括名稱、類型、級別、地址、負(fù)責(zé)人、聯(lián)系人、生產(chǎn)物資、生產(chǎn)能力等信息。救援隊(duì)伍數(shù)據(jù)庫存儲全市綜合性、專業(yè)性應(yīng)急救援機(jī)構(gòu)、府建立或確定的綜合性應(yīng)急救援隊(duì)伍信息。伍信息。應(yīng)急志愿者隊(duì)伍信息。據(jù)庫存儲全市綜合性、專業(yè)性應(yīng)急救援機(jī)構(gòu)、府建立或確定的綜合性應(yīng)急救援隊(duì)伍信息。伍信息。應(yīng)急志愿者隊(duì)伍信息。專家?guī)齑鎯κ姓褪杏嘘P(guān)單位、區(qū)縣、隊(duì)伍信息,主要包括:本市區(qū)縣級以上人民政各市級部門、各專業(yè)領(lǐng)域建立的專業(yè)應(yīng)急救援隊(duì)企業(yè)的各類應(yīng)急管理專家信息。包括自然災(zāi)害專家、公共衛(wèi)生專家、事故災(zāi)難專家、社會安全專家、綜合類專家。專家組數(shù)據(jù)描述專家組(庫)的基本情況,包括專家組名稱、類型、負(fù)責(zé)人、聯(lián)系人、組建單位、人數(shù)、專家組介紹等。專家數(shù)據(jù)描述專家的基本情況,包括姓名、專家類型、性別、出生日期、工作單位、專業(yè)特長、應(yīng)急工作經(jīng)歷等信息。應(yīng)急管理配置庫標(biāo)簽規(guī)則庫標(biāo)簽規(guī)則庫是按照標(biāo)簽?zāi)夸涍M(jìn)行組織的標(biāo)簽規(guī)則集合,每一個(gè)標(biāo)簽規(guī)則由標(biāo)簽名稱、標(biāo)簽加工源數(shù)據(jù)信息、轉(zhuǎn)換規(guī)則信息、統(tǒng)計(jì)周期等信息組成。根據(jù)規(guī)則的定義方式,標(biāo)簽規(guī)則庫可分為基礎(chǔ)規(guī)則庫、業(yè)務(wù)規(guī)則庫、智能標(biāo)簽規(guī)則庫。基礎(chǔ)標(biāo)簽規(guī)則庫基礎(chǔ)標(biāo)簽規(guī)則是對數(shù)據(jù)的某一屬性字段信息進(jìn)行計(jì)算的處理規(guī)則,主要用于生成刻畫災(zāi)害事故、管理對象、應(yīng)急環(huán)境、救援資源等應(yīng)急管理要素的基礎(chǔ)特征的標(biāo)簽。業(yè)務(wù)標(biāo)簽規(guī)則庫業(yè)務(wù)標(biāo)簽規(guī)則是基于應(yīng)急管理人員的業(yè)務(wù)經(jīng)驗(yàn),對基礎(chǔ)標(biāo)簽規(guī)則進(jìn)行模型關(guān)聯(lián)和邏輯計(jì)算,形成的固化知識標(biāo)簽生成規(guī)則。智能標(biāo)簽庫智能標(biāo)簽規(guī)則庫是基于特征工程、機(jī)器學(xué)習(xí)算法,建立的智能標(biāo)簽?zāi)P图稀V悄軜?biāo)簽?zāi)P涂捎糜趶幕ヂ?lián)網(wǎng)信息、文檔等大量信息中提取可直觀展現(xiàn)對業(yè)務(wù)主觀認(rèn)識的標(biāo)簽。知識庫知識庫是結(jié)構(gòu)化、易操作、易利用、全面的、有組織的、互相聯(lián)系的知識集合,是相關(guān)部門在應(yīng)急管理過程中與該領(lǐng)域相關(guān)的基本概念、理論知識、事實(shí)數(shù)據(jù),以及所獲得的規(guī)律、常識性認(rèn)識、啟發(fā)式規(guī)則和經(jīng)驗(yàn)教訓(xùn)的集合。本項(xiàng)目針對常用森林火災(zāi)、地震、危險(xiǎn)化學(xué)品泄漏、臺風(fēng)暴雨等事故災(zāi)害現(xiàn)場救援必須掌握的知識,整合森林消防、減災(zāi)中心等部門的應(yīng)急管理知識,構(gòu)建應(yīng)急管理知識庫,為應(yīng)急指揮中的前期處置、物資調(diào)用提供支撐。知識庫建設(shè)內(nèi)容包括應(yīng)急基本信息、應(yīng)急速查手冊、應(yīng)急處置流程、應(yīng)急案例信息、應(yīng)急專家信息與應(yīng)急法規(guī)政策信息。應(yīng)急基本信息應(yīng)急基本信息包括應(yīng)急資源、場景、情況定義和詳細(xì)描述,不同要素的分類,等級和標(biāo)準(zhǔn)。應(yīng)急速查手冊應(yīng)急速查手冊包括災(zāi)害事故的名稱及詳細(xì)描述、應(yīng)急救援過程中應(yīng)急指揮和處置人員應(yīng)特別注意的問題、危險(xiǎn)性類別、作業(yè)人應(yīng)采取的防護(hù)措施以及應(yīng)采取的緊急措施等。應(yīng)急處置流程應(yīng)急處置流程信息包括處置的基本原則、應(yīng)急處置流程圖、處置的基本流程及詳細(xì)描述和各類事故處置的詳細(xì)流程。應(yīng)急案例信息應(yīng)急案例信息主要包括處置突發(fā)事件的歷史案例數(shù)據(jù)、各部門收集的與應(yīng)急專業(yè)領(lǐng)域相關(guān)的專業(yè)案例數(shù)據(jù)及國內(nèi)外突發(fā)事件典型案例等相關(guān)信息。包括案例基本信息和案例要素。應(yīng)急專家信息應(yīng)急專家信息應(yīng)急管理單位以及有關(guān)單位、區(qū)縣、企業(yè)的各類事件響應(yīng)處置專家信息,包括自然災(zāi)害專家、事故災(zāi)難專家、綜合類專家。專家信息又分為專家組與專家個(gè)人數(shù)據(jù)。其中,專家組數(shù)據(jù)描述專家組(庫)的基本情況,包括專家組名稱、類型、負(fù)責(zé)人、聯(lián)系人、組建單位、人數(shù)、專家組介紹等。專家數(shù)據(jù)描述專家的基本情況,包括姓名、專家類型、性別、出生日期、工作單位、專業(yè)特長、城市聯(lián)動指揮工作經(jīng)歷等信息。應(yīng)急法規(guī)政策匯集國內(nèi)外應(yīng)對突發(fā)事件制定的法規(guī)、政策、應(yīng)對措施等規(guī)范性文件??梢匀轿坏牧私馐澜缟细鱾€(gè)國家、地區(qū),國內(nèi)各級政府為應(yīng)對突發(fā)事件所采取的措施。索引庫為應(yīng)用查詢、業(yè)務(wù)搭建提供數(shù)據(jù)索引。日志庫軟件全流程、全方位日志記錄。數(shù)據(jù)支撐基于Hadoop架構(gòu)采用分布式數(shù)據(jù)處理技術(shù),對外提供海量數(shù)據(jù)的存儲、分析查詢和實(shí)時(shí)流式數(shù)據(jù)處理分析能力。提供數(shù)據(jù)集成、數(shù)據(jù)存儲、數(shù)據(jù)計(jì)算、數(shù)據(jù)安全管理以及統(tǒng)一資源調(diào)度能力,用于承載數(shù)據(jù)資源池建設(shè),包括原始庫、資源庫、主題庫、專題庫、配置庫、共享庫等。架構(gòu)安全:大數(shù)據(jù)支撐平臺基于開源組件實(shí)現(xiàn)功能增強(qiáng),保持 100%的開放性,不使用私有架構(gòu)和組件。認(rèn)證安全:基于用戶和角色的認(rèn)證統(tǒng)一體系,遵從帳戶/角色RBAC(Role-BasedAccessControl)模型,實(shí)現(xiàn)通過角色進(jìn)行權(quán)限管理,對用戶進(jìn)行批量授權(quán)管理。提供單點(diǎn)登錄,統(tǒng)一了Manager系統(tǒng)用戶和組件用戶的管理及認(rèn)證。對登錄管理平臺的用戶進(jìn)行審計(jì)。文件系統(tǒng)層加密:Hive、HBase可以對表、字段加密,集群內(nèi)部用戶信息禁止明文存儲。加密靈活:加密算法插件化,可進(jìn)行擴(kuò)充,亦可自行開發(fā)。非敏感數(shù)據(jù)可不加密,不影響性能(加密約有5%性能開銷)。業(yè)務(wù)透明:上層業(yè)務(wù)只需指定敏感數(shù)據(jù)(Hive表級、HBase列族級加密),加解密過程業(yè)務(wù)完全不感知??煽浚篘ameNode、HiveServer、HMaster、ResourcesManager等所有管理節(jié)點(diǎn)組件均實(shí)現(xiàn)HA(HighAvailability )部署,確保數(shù)據(jù)的可靠性、一致性。數(shù)據(jù)備份恢復(fù)支持表級別全量備份、增量備份,數(shù)據(jù)恢復(fù)(對本地存儲的業(yè)務(wù)數(shù)據(jù)進(jìn)行完整性校驗(yàn),在發(fā)現(xiàn)數(shù)據(jù)遭破壞或丟失時(shí)進(jìn)行自恢復(fù))。易用:統(tǒng)一運(yùn)維管理,提供界面化的統(tǒng)一安裝、告警、監(jiān)控和集群管理。易集成:提供北向接口,實(shí)現(xiàn)與企業(yè)現(xiàn)有網(wǎng)管系統(tǒng)集成;當(dāng)前支持Syslog接口,接口消息可通過配置適配現(xiàn)有系統(tǒng);整個(gè)集群采用統(tǒng)一的集中管理,未來北向接口可根據(jù)需求靈活擴(kuò)展。易開發(fā),提供自動化的二次開發(fā)助手和開發(fā)樣例,幫助軟件開發(fā)人員快速上手。數(shù)據(jù)集成數(shù)據(jù)集成服務(wù)是一個(gè)以設(shè)計(jì)、調(diào)度、監(jiān)控和管理ETL過程為核心功能的服務(wù)。提供同構(gòu)/異構(gòu)數(shù)據(jù)源之間批量數(shù)據(jù)遷移服務(wù),幫助客戶實(shí)現(xiàn)數(shù)據(jù)自由流動。支持客戶各種類型數(shù)據(jù)源之間的數(shù)據(jù)遷移,支持的類型包括:文件系統(tǒng),關(guān)系數(shù)據(jù)庫,數(shù)據(jù)倉庫, NoSQL,大數(shù)據(jù)服務(wù)等數(shù)據(jù)源。平臺提供批量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)、流式數(shù)據(jù)的集成能力,具備接入和遷移各種類型海量數(shù)據(jù)的能力。數(shù)據(jù)接入來源多樣,既有內(nèi)部數(shù)據(jù)也有其他部門數(shù)據(jù),還有互聯(lián)網(wǎng)數(shù)據(jù),各數(shù)據(jù)來源的數(shù)據(jù)格式也不一致,在收集的過程中需對數(shù)據(jù)進(jìn)行規(guī)范化處理,以便于管理使用。大數(shù)據(jù)基礎(chǔ)平臺軟件要完成從傳統(tǒng)數(shù)據(jù)庫到大數(shù)據(jù)平臺的數(shù)據(jù)采集,包含批量采集和基于流處理的實(shí)時(shí)采集,主要提供如下組件能力:支持從傳統(tǒng)數(shù)據(jù)庫到大數(shù)據(jù)平臺的雙向數(shù)據(jù)傳輸,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(例如:MySQL,Oracle,SQLServer等)中的數(shù)據(jù)導(dǎo)入到大數(shù)據(jù)分布式文件系統(tǒng)中,也可以將分布式文件系統(tǒng)的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。提供高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。提供實(shí)時(shí)的、分布式以及具備高容錯(cuò)的流處理系統(tǒng),能夠與實(shí)時(shí)消息系統(tǒng)交互,完成實(shí)時(shí)數(shù)據(jù)的采集。提供高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),通過消息的封裝完成實(shí)時(shí)數(shù)據(jù)的傳遞。批量數(shù)據(jù)集成實(shí)現(xiàn)大數(shù)據(jù)平臺與關(guān)系型數(shù)據(jù)庫、文件系統(tǒng)之間交換“數(shù)據(jù)”、“文件”,既可以將數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫或者文件服務(wù)器導(dǎo)入到 HDFS/HBase中,同時(shí)也支持反過來從HDFS/HBase導(dǎo)出到關(guān)系型數(shù)據(jù)庫或者文件服務(wù)器中。Loader是在開源Sqoop組件的基礎(chǔ)上進(jìn)行了一些擴(kuò)展,實(shí)現(xiàn)大數(shù)據(jù)平臺與關(guān)系型數(shù)據(jù)庫、文件系統(tǒng)之間交換“數(shù)據(jù)”、“文件”,既可以將數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫或者文件服務(wù)器導(dǎo)入到 HDFS/HBase中,同時(shí)也支持反過來從HDFS/HBase導(dǎo)出到關(guān)系型數(shù)據(jù)庫或者文件服務(wù)器中。Loader功能包括:通過MapReduce實(shí)現(xiàn)并行執(zhí)行和容錯(cuò)Loader通過MapReduce作業(yè)實(shí)現(xiàn)并行的導(dǎo)入或者導(dǎo)出作業(yè)任務(wù),不同類型的導(dǎo)入導(dǎo)出作業(yè)可能只包含 Map階段或者同時(shí)Map和Reduce階段。Loader同時(shí)利用MapReduce實(shí)現(xiàn)容錯(cuò),在作業(yè)任務(wù)執(zhí)行失敗時(shí),可以重新調(diào)度。數(shù)據(jù)導(dǎo)入到HBase在MapReduce作業(yè)的Map階段中從外部數(shù)據(jù)源抽取數(shù)據(jù)。在Reduce階段中,按Region的個(gè)數(shù)啟動同樣個(gè)數(shù)的ReduceTask,ReduceTask從Map接收數(shù)據(jù),然后按Region生成HFile,存放在HDFS臨時(shí)目錄中。在MapReduce作業(yè)的提交階段,將HFile從臨時(shí)目錄遷移到HBase目錄中。數(shù)據(jù)導(dǎo)入HDFS在MapReduce作業(yè)的Map階段中從外部數(shù)據(jù)源抽取數(shù)據(jù),并將數(shù)據(jù)輸出到HDFS臨時(shí)目錄下。在MapReduce作業(yè)的提交階段,將文件從臨時(shí)目錄遷移到輸出目錄中。數(shù)據(jù)導(dǎo)出到關(guān)系型數(shù)據(jù)庫在MapReduce作業(yè)的Map階段,從HDFS或者HBase中抽取數(shù)據(jù),然后將數(shù)據(jù)通過JDBC接口插入到臨時(shí)表(StagingTable)中。在MapReduce作業(yè)的提交階段,將數(shù)據(jù)從臨時(shí)表遷移到正式表中。數(shù)據(jù)導(dǎo)出到文件系統(tǒng)在MapReduce作業(yè)的Map階段,從HDFS或者HBase中抽取數(shù)據(jù),然后將數(shù)據(jù)寫入到文件服務(wù)器臨時(shí)目錄中。在MapReduce作業(yè)的提交階段,將文件從臨時(shí)目錄遷移到正式目錄中。實(shí)時(shí)數(shù)據(jù)集成ApacheFlume是一個(gè)廣泛使用的大規(guī)模分布式數(shù)據(jù)收集工具,它可以監(jiān)聽特定的端口(UDP、RPC端口),從而獲得流過端口的數(shù)據(jù),并且支持多樣化的插件體系,在收集端對數(shù)據(jù)進(jìn)行過濾等處理,在匯聚端則允許將數(shù)據(jù)直接輸入到大數(shù)據(jù)分布式存儲 HDFS。Flume作為一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。其中Flume-NG是Flume的一個(gè)分支,其目的是要明顯簡單,體積更小,更容易部署。分布式消息隊(duì)列Kafka是一個(gè)分布式的、分區(qū)的、多副本的消息發(fā)布 -訂閱系統(tǒng),它提供了類似于 JMS的特性,但在設(shè)計(jì)上完全不同,它具有消息持久化、高吞吐、分布式、多客戶端支持、實(shí)時(shí)等特性,適用于離線和在線的消息消費(fèi),如常規(guī)的消息收集、網(wǎng)站活性跟蹤、聚合統(tǒng)計(jì)系統(tǒng)運(yùn)營數(shù)據(jù)(監(jiān)控?cái)?shù)據(jù))、日志收集等大量數(shù)據(jù)的互聯(lián)網(wǎng)服務(wù)的數(shù)據(jù)收集場景。數(shù)據(jù)存儲應(yīng)急管理接入的數(shù)據(jù)類型包含數(shù)據(jù)庫表等結(jié)構(gòu)化數(shù)據(jù)、視頻圖片等非結(jié)構(gòu)化數(shù)據(jù),要求大數(shù)據(jù)基礎(chǔ)平臺采用分布式文件系統(tǒng)實(shí)現(xiàn)對匯聚的多類型海量數(shù)據(jù)的存儲,要求提供如下組件及能力:提供高度容錯(cuò)性的分布式文件系統(tǒng),適合部署在廉價(jià)的機(jī)器上。它能提供高吞吐量的數(shù)據(jù)訪問,適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。提供高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),以鍵值對的形式承載海量結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)。支持大數(shù)據(jù)計(jì)算與存儲分離技術(shù),解決應(yīng)急數(shù)據(jù)治理系統(tǒng)中存儲架構(gòu)適配性,提供大數(shù)據(jù)多集群的統(tǒng)一數(shù)據(jù)存儲底座,解決計(jì)算、存儲非等比擴(kuò)容需求,提高大數(shù)據(jù)存儲資源利用率。CPU資源不足時(shí),擴(kuò)容計(jì)算型服務(wù)節(jié)點(diǎn),存儲資源不足時(shí),擴(kuò)容存儲型服務(wù)節(jié)點(diǎn)。分布式文件存儲HDFS是Hadoop的分布式文件系統(tǒng),實(shí)現(xiàn)大規(guī)模數(shù)據(jù)可靠的分布式讀寫。HDFS針對的使用場景是數(shù)據(jù)讀寫具有“一次寫,多次讀”的特征,而數(shù)據(jù)“寫”操作是順序?qū)?,也就是在文件?chuàng)建時(shí)的寫入或者在現(xiàn)有文件之后的添加操作。HDFS保證一個(gè)文件在一個(gè)時(shí)刻只被一個(gè)調(diào)用者執(zhí)行寫操作,而可以被多個(gè)調(diào)用者執(zhí)行讀操作。HDFS分布式文件存儲采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu),提供了海量數(shù)據(jù)的分布式存儲。對于以文件方式存儲的數(shù)據(jù),比較適合該類存儲方式。但采集的數(shù)據(jù)存在著不同大小文件并存的情況,按大小可大致劃分為小文件(1MB以下)、中文件(1MB到500MB)、大文件(500MB以上),且文件數(shù)量非常多,為保證存儲這些文件的同時(shí)能夠提供快速讀取的能力,分布式存儲要能夠滿足該目標(biāo)而提供相應(yīng)小文件、中文件和大文件的存儲檢索方案,對外能提供統(tǒng)一接口進(jìn)行訪問,客戶端在訪問分布式存儲時(shí)不需了解底層存儲方式, 由分布式存儲統(tǒng)一調(diào)配相應(yīng)優(yōu)化方式實(shí)現(xiàn)文件快速存儲和檢索。分布式文件系統(tǒng)要支持6億以上文件存儲能力。HDFS支持?jǐn)?shù)據(jù)分級存儲,把不同熱度的數(shù)據(jù)存儲于不同的介質(zhì)(SSD/SAS/SATA)。同時(shí)針對冷數(shù)據(jù),可采用HDFS-EC通過ErasuredCode機(jī)制來降低副本數(shù)量的同時(shí)確保 HDFS數(shù)據(jù)的可用性沒有下降。分布式文件存儲能夠提供FTP/SFTP接口,以便傳統(tǒng)應(yīng)用可以不修改代碼訪問 HDFS。分布式列數(shù)據(jù)庫HBase是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)。HBase適合于存儲大表數(shù)據(jù)(表的規(guī)??梢赃_(dá)到數(shù)十億行以及數(shù)百萬列),并且對大表數(shù)據(jù)的讀、寫訪問可以達(dá)到實(shí)時(shí)級別。利用HadoopHDFS作為其文件存儲系統(tǒng),提供高可靠性、高性能、列存儲、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫系統(tǒng)。為Spark和HadoopMapReduce提供海量數(shù)據(jù)實(shí)時(shí)處理能力。以HBase為代表的NoSQL數(shù)據(jù)庫適合于存儲較簡單的數(shù)據(jù)模型,并且可以不受模式的約束。因而其可存儲管理的數(shù)據(jù)類型更豐富;大數(shù)據(jù)技術(shù)同時(shí)適合進(jìn)行一致性與事務(wù)性要求不高的計(jì)算(主要是指NoSQL的查詢操作),以及對超大規(guī)模海量數(shù)據(jù)的、批量的分布式并行計(jì)算。需要注意的是,NoSQL數(shù)據(jù)庫由于擺脫了繁瑣的SQL體系約束,其查詢與插入的效率比傳統(tǒng)關(guān)系型數(shù)據(jù)庫要更高。NoSQL數(shù)據(jù)存儲一般采用面向列的存儲方式,其存儲結(jié)構(gòu)保證了數(shù)據(jù)表的列可擴(kuò)展性和讀寫I/O的高吞吐性。Key-Value方式存儲,Rowkey用戶自由定制,用戶可根據(jù)應(yīng)用的具體需要將相關(guān)的一些查詢邏輯封裝在Rowkey生成規(guī)則中,從而提高系統(tǒng)查詢效率。在大數(shù)據(jù)應(yīng)用中,經(jīng)常遇到結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)共同組成一個(gè)完整的數(shù)據(jù),并且兩個(gè)數(shù)據(jù)加起來都不大的情況。比如銀行辦理業(yè)務(wù)時(shí)產(chǎn)生的交易數(shù)據(jù)和高拍儀拍攝的圖像數(shù)據(jù),交警卡口產(chǎn)生的過車識別結(jié)構(gòu)化數(shù)據(jù)和車相關(guān)的視頻關(guān)鍵幀數(shù)據(jù)等。伴隨結(jié)構(gòu)化數(shù)據(jù)的是一些大小為幾百K字節(jié)、幾兆字節(jié)大小的非結(jié)構(gòu)化文件,也有少部分幾十兆或者更大的文件。HBase具有能夠存儲海量結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢, HDFS具有存儲海量大小的超大文件的優(yōu)勢,本次大數(shù)據(jù)中心建設(shè)將結(jié)合二者合,基于兩個(gè)部件的接口封裝,提供超混合存儲HFS(HBaseFileStream),封裝后的接口允許應(yīng)用能夠自由的進(jìn)行大小文件的讀寫, HFS將會自動的把結(jié)構(gòu)化數(shù)據(jù)信息存儲到HBase,將與之對應(yīng)的非結(jié)構(gòu)化文件進(jìn)行打包,確保 HDFS文件系統(tǒng)看到的是遠(yuǎn)大于單個(gè)塊(Block)大小的大文件,降低對NameNodede元數(shù)據(jù)容量沖擊。數(shù)據(jù)倉庫Hive是建立在Hadoop上的數(shù)據(jù)倉庫框架,提供大數(shù)據(jù)平臺批處理計(jì)算能力,能夠?qū)Y(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行批量分析匯總完成數(shù)據(jù)計(jì)算。 提供類似SQL的HiveQueryLanguage語言操作結(jié)構(gòu)化數(shù)據(jù),其基本原理是將 HQL語言自動轉(zhuǎn)換成MapReduce任務(wù),從而完成對Hadoop集群中存儲的海量數(shù)據(jù)進(jìn)行查詢和分析。Hive支持對表的某一列或者多列進(jìn)行加密。在創(chuàng)建Hive表時(shí),可以指定要加密的列和加密算法。當(dāng)使用insert語句向表中插入數(shù)據(jù)時(shí),即可將對應(yīng)的列進(jìn)行加密。由于底層存儲系統(tǒng)的原因,Hive并不能支持對單條表數(shù)據(jù)進(jìn)行刪除操作,但在HiveonHBase功能中,提供了對HBase表的單條數(shù)據(jù)的刪除功能,通過特定的語法,Hive可以將自己的HBase表中符合條件的一條或者多條數(shù)據(jù)清除。分布式關(guān)系型數(shù)據(jù)倉庫適合于存儲關(guān)系復(fù)雜的數(shù)據(jù)模型,并且需要限制為基于二維表的關(guān)系模型;同時(shí)適合進(jìn)行一致性與事務(wù)性要求高的計(jì)算,因此元數(shù)據(jù)、統(tǒng)計(jì)值等結(jié)構(gòu)化數(shù)據(jù)存儲在分布式關(guān)系數(shù)據(jù)庫中。在查詢時(shí)調(diào)度多節(jié)點(diǎn)并發(fā)執(zhí)行提升響應(yīng)性能,采用基于代價(jià)模型的查詢優(yōu)化能力,結(jié)合數(shù)據(jù)分布情況選擇最優(yōu)的查詢和處理方案,支持復(fù)雜多維分析查詢。同時(shí),在數(shù)據(jù)庫組織結(jié)構(gòu)、訪問接口(JDBC等)、SQL語法、存儲過程、權(quán)限管理等多方面高度兼容關(guān)系型數(shù)據(jù)庫。支持通過開放標(biāo)準(zhǔn)SQL接口實(shí)現(xiàn)復(fù)雜查詢。通過分布列散列算法和分區(qū)路由算法避免數(shù)據(jù)偏斜導(dǎo)致單節(jié)點(diǎn)計(jì)算或存儲性能瓶頸,提供整集群近似線性擴(kuò)展能力。支持標(biāo)準(zhǔn)的SQL92/SQL2003規(guī)范,支持GBK和UTF-8字符集,支持SQL標(biāo)準(zhǔn)函數(shù)與分析函數(shù),支持存儲過程。支持表空間,支持在線擴(kuò)容功能。提供組件管理和數(shù)據(jù)節(jié)點(diǎn) HA。支持?jǐn)?shù)據(jù)庫事務(wù)ACID特性(即原子性Atomicity、一致性Consistency、隔離性Isolation和持久性Durability),支持單節(jié)點(diǎn)故障恢復(fù),支持負(fù)載均衡等。支持標(biāo)準(zhǔn)JDBC4.0的特性和ODBC3.5特性。支持SSL安全網(wǎng)絡(luò)連接、用戶權(quán)限管理、密碼管理、安全審計(jì)等功能,保證數(shù)據(jù)庫在管理層、應(yīng)用層、系統(tǒng)層和網(wǎng)絡(luò)層的安全性?;诤A繑?shù)據(jù)查詢統(tǒng)計(jì)分析能力與事務(wù)處理能力,行列混存技術(shù)同時(shí)滿足聯(lián)機(jī)事務(wù)處理OLTP(On-LineTransactionProcessing )與聯(lián)機(jī)分析處理 OLAP(OnlineAnalyticalProcessing)混合負(fù)載場景。支持分布式x86架構(gòu)、與ARM架構(gòu),客戶硬件投資成本低。支持標(biāo)準(zhǔn)的SQL92/SQL2003規(guī)范,支持客戶應(yīng)用系統(tǒng)平滑遷移。支持集群最大可擴(kuò)展至1000個(gè)節(jié)點(diǎn),滿足PB級大數(shù)據(jù)分析能力。內(nèi)存數(shù)據(jù)庫Redis是一個(gè)開源的,基于網(wǎng)絡(luò)的,高性能的key-value數(shù)據(jù)庫,彌補(bǔ)了memcached這類key-value存儲的不足,在部分場合可以對關(guān)系數(shù)據(jù)庫起到很好的補(bǔ)充作用,滿足實(shí)時(shí)的高并發(fā)需求。Redis跟memcached類似,不過數(shù)據(jù)可以持久化,而且支持的數(shù)據(jù)類型很豐富。支持在服務(wù)器端計(jì)算集合的并、交和補(bǔ)集(difference)等,還支持多種排序功能。支持一主一從模式的Redis集群,系統(tǒng)自動計(jì)算節(jié)點(diǎn)上可安裝的Redis實(shí)例個(gè)數(shù)并分配主從關(guān)系。當(dāng)集群需要提供大規(guī)模的處理能力時(shí),可以一鍵式擴(kuò)容一對或多對主從實(shí)例。在此過程中,系統(tǒng)會自動完成數(shù)據(jù)遷移和數(shù)據(jù)平衡,用戶無需關(guān)注。出現(xiàn)擴(kuò)容異常、部分實(shí)例掉線等異常場景時(shí),Redis集群中的數(shù)據(jù)可能會分布不均勻,此時(shí)可以通過管理界面上提供的Balance功能,讓系統(tǒng)自動對集群數(shù)據(jù)進(jìn)行平衡,保證集群的健康運(yùn)行。系統(tǒng)提供Redis集群的性能監(jiān)控功能,可以通過直觀的曲線圖方式,了解當(dāng)前Redis集群、實(shí)例的TPS吞吐量情況。系統(tǒng)為Redis集群提供了多種告警,例如集群下線告警、持久化失敗告警、槽位分布不均告警、主備倒換事件、集群高可靠性受損告警等,甚至主從實(shí)例內(nèi)存大小不一致都可以自動上報(bào)告警。豐富的告警幫助用戶更加輕松的進(jìn)行Redis集群的監(jiān)控和管理。全文檢索庫ElasticSearch是一個(gè)基于Lucene的搜索服務(wù)器。它提供了一個(gè)分布式多用戶能力的全文搜索引擎,基于RESTfulweb接口。Elasticsearch是用Java開發(fā)的,并作為Apache許可條款下的開放源碼發(fā)布,是當(dāng)前流行的企業(yè)級搜索引擎。Elasticsearch通過API提供豐富訪問接口,使用集群發(fā)現(xiàn)機(jī)制,支持腳本語言,支持豐富的插件。底層基于 Lucene,保持Lucene絕對的獨(dú)立性,通過本地文件、共享文件、 HDFS完成索引存儲。實(shí)現(xiàn)Elasticsearch實(shí)例的內(nèi)存、CPU和磁盤IO的監(jiān)控,以及index、shard狀態(tài)監(jiān)控和告警。提供基于用戶/角色劃分的index權(quán)限控制功能。提供Kerberos認(rèn)證,保障了索引數(shù)據(jù)的安全性。Solr是一個(gè)高性能,基于Lucene的全文檢索服務(wù)器。Solr對Lucene進(jìn)行了擴(kuò)展,提供了比Lucene更為豐富的查詢語言,同時(shí)實(shí)現(xiàn)了可配置、可擴(kuò)展,并對查詢性能進(jìn)行了優(yōu)化,并且提供了一個(gè)完善的功能管理界面,是一款非常優(yōu)秀的全文檢索引擎。SolrCloud是從Solr4.0版本開始開發(fā)出的具有開創(chuàng)意義的分布式索引和搜索方案,基于Solr和Zookeeper進(jìn)行開發(fā)的;Solr可以以多種方式部署,例如單機(jī)方式,多機(jī)Master-Slaver方式,但這些方式部署的Solr不具有SolrCloud的特色功能:利用ZooKeeper作為協(xié)同服務(wù),啟動時(shí)可以指定把Solr的相關(guān)配置文件上傳Zookeeper,多機(jī)器共用。這些Zookeeper中的配置不會再拿到本地緩存,Solr直接讀取Zookeeper中的配置信息。配置文件的變動,所有機(jī)器都可以感知到。自動容錯(cuò),SolrCloud對索引(collection)進(jìn)行分片(shard),并對每個(gè)分片創(chuàng)建多個(gè)Replica。每個(gè)Replica都可以獨(dú)立對外提供服務(wù)。一個(gè)Replica掛掉不會影響整個(gè)索引搜索服務(wù);更強(qiáng)大的是,它還能自動的在其它機(jī)器上把失敗機(jī)器上的索引Replica重建并投入使用。索引和查詢時(shí)的自動負(fù)載均衡,SolrCloud索引(collection)的多個(gè)Replica可以分布在多臺機(jī)器上,均衡索引和查詢壓力。如果索引和查詢壓力大,可以通過擴(kuò)展機(jī)器,增加Replica來減緩壓力。因此,下面的介紹主要是圍繞SolrCloud展開描述的。Solr索引數(shù)據(jù)存放到本地磁盤,提供了更加快速的索引和查詢速度;SolrCloud可以多實(shí)例部署,可以實(shí)現(xiàn)并發(fā)寫與讀,提高索引與查詢性數(shù)據(jù)計(jì)算大數(shù)據(jù)基礎(chǔ)平臺軟件提供對海量數(shù)據(jù)匯總后的多種數(shù)據(jù)并行處理框架,大數(shù)據(jù)分析的處理速度、準(zhǔn)確度對實(shí)戰(zhàn)的及時(shí)性、高效性都有至關(guān)重要的影響。大數(shù)據(jù)資源池提供分布式計(jì)算、流式計(jì)算、內(nèi)存計(jì)算多種數(shù)據(jù)計(jì)算引擎,能夠針對不同的場景采用不同的計(jì)算模型,對數(shù)據(jù)進(jìn)行大規(guī)模批量處理或者實(shí)時(shí)處理,大大提升大數(shù)據(jù)管理中心的實(shí)戰(zhàn)能力。同時(shí)面向領(lǐng)域的分析語言(DSL),包括面向數(shù)倉的Hive,面向數(shù)據(jù)挖掘的SpakrSQL和面向流處理的次處理的能力,具備離線計(jì)算、流式計(jì)算、實(shí)時(shí)分析、機(jī)器學(xué)習(xí)等能力。計(jì)算框架本身,也是在快速的發(fā)展中,幾年前MarpReduce是唯一,目前已經(jīng)快速出現(xiàn)并開始廣泛流行的是Spark/Storm,同時(shí)包括Tez、Flink等計(jì)算框架也在借助自己的優(yōu)勢在推動中。不同計(jì)算框架具有各自獨(dú)特的優(yōu)勢,選擇時(shí)的考慮點(diǎn)如下:MapReduce具有超大數(shù)據(jù)量處理非常穩(wěn)定的優(yōu)勢,其追求在穩(wěn)定,Tez在性能方面有很大提升,同時(shí)借助支持 Hive,構(gòu)成了基于Hive運(yùn)算的鐵三角,對于大容量表的碰撞,可以考慮使用Hive(基于MapReduce或者Tez)的技術(shù)。Spark由于專門針對大內(nèi)容和迭代計(jì)算進(jìn)行了優(yōu)化,在進(jìn)行機(jī)器學(xué)習(xí)等算法運(yùn)行的時(shí)候具有優(yōu)勢,一些最新的機(jī)器學(xué)習(xí)庫(SparkMLlib等)也構(gòu)筑在Spark之上,所以進(jìn)行機(jī)器學(xué)習(xí)時(shí)Spark是首選。同時(shí)目前行業(yè)中也在進(jìn)行將Hive遷移到Spark的實(shí)踐,希望在具有對應(yīng)用接口不變(為 Hive)的同時(shí),獲取到Spark的高性能優(yōu)勢,目前這塊還在發(fā)展中,對于大容量數(shù)據(jù)集的計(jì)算(比如多個(gè)超大表的碰撞)有時(shí)還不夠穩(wěn)定。Flink是一個(gè)批處理和流處理結(jié)合的統(tǒng)一計(jì)算框架,其核心是一個(gè)提供了數(shù)據(jù)分發(fā)以及并行化計(jì)算的流數(shù)據(jù)處理引擎。它的最大亮點(diǎn)是流處理,是業(yè)界最頂級的開源流處理引擎。Flink最適合的應(yīng)用場景是低時(shí)延的數(shù)據(jù)處理(DataProcessing)場景:高并發(fā)pipeline處理數(shù)據(jù),時(shí)延毫秒級,且兼具可靠性。綜合以上討論,建議計(jì)算引擎的選擇考慮以下幾個(gè)基本準(zhǔn)則:需要進(jìn)行超大容量的多表碰撞的,選擇Hive需要進(jìn)行機(jī)器學(xué)習(xí)等迭代計(jì)算為主要特征的,選擇Spark需要與傳統(tǒng)的數(shù)據(jù)分析、展示系統(tǒng)對接,數(shù)據(jù)為結(jié)構(gòu)化,要求高性能的數(shù)據(jù),采用SQL引擎作為計(jì)算引擎(MPPD)B實(shí)時(shí)流處理采用Flink離線計(jì)算能力離線處理,通常是指對海量數(shù)據(jù)進(jìn)分析和處理,形成結(jié)果數(shù)據(jù),供下一步數(shù)據(jù)應(yīng)用使用的場景。離線處理對處理時(shí)間要求不高,但是所處理數(shù)據(jù)量較大,占用計(jì)算存儲資源較多,通常通過MR或者Spark作業(yè)或者SQL作業(yè)實(shí)現(xiàn)。離線處理場景的典型特點(diǎn)和核心能力是:集群規(guī)模最大能力——數(shù)據(jù)量大,用戶數(shù)據(jù)量最大超過 5PB,大于1000節(jié)點(diǎn)數(shù)據(jù)權(quán)限和資源隔離(多租戶)——多種離線處理作業(yè)同時(shí)運(yùn)行,需要不同的數(shù)據(jù)權(quán)限和資源調(diào)度,避免越權(quán)訪問和搶占資源接口與開源兼容——客戶通常存在存量離線處理應(yīng)用,需要遷移到數(shù)據(jù)治理系統(tǒng)支持多數(shù)據(jù)源,多種數(shù)據(jù)加載方式——數(shù)據(jù)源存放在多種類型來源,存在多種類型數(shù)據(jù),存在多種數(shù)據(jù)格式滾動升級——離線處理是客戶大數(shù)據(jù)系統(tǒng)的基礎(chǔ),停機(jī)升級無法忍受支持作業(yè)調(diào)度管理——多種離線作業(yè)存在不同的優(yōu)先級,不同的運(yùn)行時(shí)間,需要多種調(diào)度策略管理,對異常、失敗作業(yè)進(jìn)行監(jiān)控支持異構(gòu)設(shè)備——支持異構(gòu)設(shè)備,客戶擴(kuò)容時(shí)支持配置升級的設(shè)備,并且支持新舊設(shè)備區(qū)分使用支持冷熱數(shù)據(jù)分級存儲——用戶數(shù)據(jù)熱度不同,希望有分級存儲策略,達(dá)到性能和成本的平衡支持與第三方軟件對接(可視化、分析挖掘、報(bào)表、元數(shù)據(jù)等)——對接多種第三方工具,方便進(jìn)行數(shù)據(jù)進(jìn)一步的分析和管理實(shí)時(shí)流處理能力實(shí)時(shí)流處理,通常是指對實(shí)時(shí)數(shù)據(jù)源進(jìn)行快速分析,迅速觸發(fā)下一步動作的場景。實(shí)時(shí)數(shù)據(jù)對分析處理速度要求極高,數(shù)據(jù)處理規(guī)模巨大,對CPU和內(nèi)存要求很高,但是通常數(shù)據(jù)不落地,對存儲量要求不高。實(shí)時(shí)處理,通常通過 SparkStreaming或者Flink任務(wù)實(shí)現(xiàn)。實(shí)時(shí)流處理場景的典型特點(diǎn)和核心能力是:處理速度快:端到端處理需要達(dá)到秒級,流處理平臺負(fù)責(zé)的數(shù)據(jù)采集和數(shù)據(jù)處理要在1秒內(nèi)完成。如風(fēng)控項(xiàng)目要求單條數(shù)據(jù)處理時(shí)間達(dá)到秒級,單節(jié)點(diǎn) TPS大于2000。吞吐量高:需在短時(shí)內(nèi)接收并處理大量數(shù)據(jù)記錄,吞吐量需要達(dá)到數(shù)十兆/秒/節(jié)點(diǎn)??拐鹦詮?qiáng):為應(yīng)對數(shù)據(jù)源端業(yè)務(wù)數(shù)據(jù)產(chǎn)生速度會突然出現(xiàn)峰值的情形,需提供數(shù)據(jù)緩存機(jī)制??煽啃愿撸壕W(wǎng)絡(luò)、軟件等故障發(fā)生時(shí),需保證每條數(shù)據(jù)不丟失,數(shù)據(jù)處理不遺漏、不重復(fù)。水平擴(kuò)展:當(dāng)系統(tǒng)處理能力出現(xiàn)瓶頸后,可通過節(jié)點(diǎn)的水平擴(kuò)展提升處理性能。多數(shù)據(jù)源支持:支持網(wǎng)絡(luò)流、文件、數(shù)據(jù)庫表、IOT等格式的數(shù)據(jù)源。對于文件數(shù)據(jù)源,可以處理增量數(shù)據(jù)的加載。數(shù)據(jù)權(quán)限和資源隔離:消息處理、流處理需要有數(shù)據(jù)權(quán)限控制,不同的作業(yè)、用戶可以訪問、處理不同的消息和數(shù)據(jù)。多種流處理應(yīng)用之間要進(jìn)行資源控制和隔離,防止發(fā)生資源爭搶。第三方工具對接:支持與第三方規(guī)則引擎、決策系統(tǒng)、實(shí)時(shí)推薦系統(tǒng)等對接。交互查詢能力交互查詢平臺主要承載對數(shù)據(jù)進(jìn)行交互式的分析和查詢,查詢響應(yīng)要求較高,能夠?qū)崿F(xiàn)人機(jī)之間交互,查詢通常比較復(fù)雜。專題庫的數(shù)據(jù)通常已經(jīng)被預(yù)處理過,按照適合交互查詢的數(shù)據(jù)模型進(jìn)行組織。專題庫數(shù)據(jù)量巨大,對 CPU和內(nèi)存要求很高,對于存儲要求也很高。交互查詢方式,以復(fù)雜SQL查詢最為常見,也有簡單的快讀檢索,多維 Cube分析也比較常見。實(shí)時(shí)檢索能力實(shí)時(shí)檢索,通常是指數(shù)據(jù)實(shí)時(shí)寫入,對海量數(shù)據(jù)基于索引主鍵實(shí)時(shí)查詢,查詢響應(yīng)要求較高,查詢條件相對比較簡單。查詢條件復(fù)雜的可以根據(jù)關(guān)鍵詞在全域數(shù)據(jù)中通過索引搜索主鍵后,通過主鍵查詢。全域數(shù)據(jù)既包含了結(jié)構(gòu)化數(shù)據(jù)又包含了文本等非結(jié)構(gòu)化數(shù)據(jù)。實(shí)時(shí)檢索處理場景的典型特點(diǎn)和核心能力是:查詢速度快:查詢響應(yīng)時(shí)間要求較高,通常要求在1秒內(nèi)返回結(jié)果高并發(fā)能力:需要同時(shí)支持多用戶查詢,如 1秒千級并發(fā)查詢數(shù)據(jù)量大:處理數(shù)據(jù)量巨大,通常在 PB級別能夠同時(shí)處理結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)支持全文檢索功能數(shù)據(jù)安全管理應(yīng)急數(shù)據(jù)涉采集面廣,涉及政府單位涉密信息、企事業(yè)單位商業(yè)機(jī)密等,數(shù)據(jù)安全風(fēng)險(xiǎn)高。整體架構(gòu)應(yīng)遵循“零信任”的設(shè)計(jì)理念,建設(shè)數(shù)據(jù)安全防護(hù)系統(tǒng),從數(shù)據(jù)的采集、交換、存儲、使用、分享等幾個(gè)方面進(jìn)行防護(hù),確保數(shù)據(jù)在整個(gè)生命周期中的安全性和保密性。用戶認(rèn)證與角色授權(quán)用戶認(rèn)證大數(shù)據(jù)平臺提供對外訪問時(shí),用戶需通過安全認(rèn)證,提供:pki身份認(rèn)證、WebUI身份認(rèn)證、CLI命令行身份認(rèn)證、API身份認(rèn)證等三種方式。單點(diǎn)登錄功能用戶在任意Web界頁面登錄后,組件客戶端登錄,訪問其他各組件Web頁面,無需再次輸入用戶口令進(jìn)行認(rèn)證。大數(shù)據(jù)平臺需提供基于Kerberos的統(tǒng)一認(rèn)證,客戶端訪問組件服務(wù)時(shí),需要經(jīng)過Kerberos機(jī)制認(rèn)證,認(rèn)證通過后才能訪問組件服務(wù)。應(yīng)用組件API認(rèn)證大數(shù)據(jù)平臺的應(yīng)用組件提供對外的API,用戶在使用這些API時(shí),必須先進(jìn)行Kerberos認(rèn)證,認(rèn)證通過后才能使用對應(yīng)的 API。命令行方式訪問大數(shù)據(jù)平臺的應(yīng)用組件支持命令行操作,當(dāng)用戶登錄到應(yīng)用組件的節(jié)點(diǎn)上使用應(yīng)用組件的命令之前,需要先進(jìn)行Kerberos認(rèn)證,認(rèn)證通過后,才能使用應(yīng)用組件提供的命令。.2角色授權(quán)大數(shù)據(jù)資源池提供可視化的多組件統(tǒng)一的集中用戶權(quán)限管理,簡單易用。同時(shí)提供基于角色的訪問控制(RBAC),預(yù)定義權(quán)限集(角色)可重復(fù)使用,靈活。大數(shù)據(jù)資源池提供統(tǒng)一的用戶管理界面。通過這個(gè)界面,管理員可以進(jìn)行常規(guī)的添加、刪除用戶,以及重置密碼等操作,并可以對用戶訪問權(quán)限進(jìn)行設(shè)置。支持對用戶進(jìn)行劃分,為不同的用戶賦予不同的訪問權(quán)限。對每個(gè)用戶群設(shè)定最大的訪問權(quán)限,再對用戶群中具體用戶進(jìn)行權(quán)限設(shè)置,實(shí)現(xiàn)細(xì)粒度劃分,不允許任何用戶超過為其設(shè)定的最大權(quán)限。依據(jù)數(shù)據(jù)敏感性規(guī)則,對數(shù)據(jù)查詢、數(shù)據(jù)管理、決策系統(tǒng)等功能功能設(shè)置不同的用戶角色,如數(shù)據(jù)查詢、數(shù)據(jù)訪問、數(shù)據(jù)調(diào)用、數(shù)據(jù)管理等。并根據(jù)部門提供的用戶清單設(shè)置不同的角色,分配不同的用戶權(quán)限。數(shù)據(jù)加密應(yīng)急數(shù)據(jù)基于HBase、Hive、MPP等組件進(jìn)行存儲,為了保證數(shù)據(jù)存儲的安全,數(shù)據(jù)應(yīng)以密文的形式存儲在硬盤上,不會因?yàn)橛脖P泄露、或底層 OS被攻破導(dǎo)致數(shù)據(jù)泄露。大數(shù)據(jù)平臺的HBase、Hive,以及MPPDB等組件均需支持透明加密。實(shí)現(xiàn)上層業(yè)務(wù)只需指定敏感數(shù)據(jù),加解密過程業(yè)務(wù)完全不感知。同時(shí)大數(shù)據(jù)平臺各組件支持本地?cái)?shù)據(jù)目錄訪問權(quán)限設(shè)置,無權(quán)限用戶禁止訪問數(shù)據(jù),同時(shí)所有集群內(nèi)部用戶信息禁止明文存儲。加密算法支持AES128、SM4。密鑰管理:密鑰由獨(dú)立部署、安全隔離的加密機(jī)生成,可通過角色和權(quán)限配置由專人管理,其他用戶僅可使用;每種加密算法均有各自的密鑰,所有密鑰在數(shù)據(jù)庫中均加密存儲,讀

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論