市大數(shù)據(jù)云平臺(tái)實(shí)施方案_第1頁
市大數(shù)據(jù)云平臺(tái)實(shí)施方案_第2頁
市大數(shù)據(jù)云平臺(tái)實(shí)施方案_第3頁
市大數(shù)據(jù)云平臺(tái)實(shí)施方案_第4頁
市大數(shù)據(jù)云平臺(tái)實(shí)施方案_第5頁
已閱讀5頁,還剩149頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)云平臺(tái)實(shí)施方案項(xiàng)目編號(hào):某大數(shù)據(jù)云平臺(tái)項(xiàng)目建設(shè)實(shí)施方案目錄1.1 建設(shè)目標(biāo)、規(guī)模、內(nèi)容、建設(shè)期 11.1.1 建設(shè)目標(biāo) 11.1.2 建設(shè)內(nèi)容 11.1.3 建設(shè)周期 4第二章 需求分析 62.1 政務(wù)業(yè)務(wù)目標(biāo)需求分析結(jié)論 62.2 系統(tǒng)功能指標(biāo) 82.2.1 基礎(chǔ)設(shè)施服務(wù)層(Iaas) 82.2.2 平臺(tái)服務(wù)層(Paas) 82.2.3 應(yīng)用服務(wù)層(Saas) 102.3 信息量指標(biāo) 112.4 系統(tǒng)性能指標(biāo) 122.4.1 總體性能指標(biāo) 122.4.2 網(wǎng)絡(luò)平臺(tái)性能 132.4.3 系統(tǒng)平臺(tái)性能 132.4.4 應(yīng)用系統(tǒng)性能 13第三章 總體建設(shè)方案 153.1 總體設(shè)計(jì)原則 153.1.1 分期目標(biāo) 173.2 總體建設(shè)任務(wù)與分期建設(shè)內(nèi)容 183.2.1 總體建設(shè)任務(wù) 183.3 系統(tǒng)總體結(jié)構(gòu)和邏輯結(jié)構(gòu) 193.3.1 總體架構(gòu) 193.3.2 技術(shù)架構(gòu) 243.4 信息資源規(guī)劃和數(shù)據(jù)庫設(shè)計(jì) 253.4.1 數(shù)據(jù)模型規(guī)劃 253.4.2 數(shù)據(jù)整合原則 273.4.3 技術(shù)緩沖層設(shè)計(jì) 283.4.4 整合模型層設(shè)計(jì) 293.4.5 共性加工層設(shè)計(jì) 433.4.6 數(shù)據(jù)應(yīng)用層設(shè)計(jì) 473.4.7 數(shù)據(jù)庫服務(wù)架構(gòu) 483.5 應(yīng)用支撐系統(tǒng)設(shè)計(jì) 503.5.1 大數(shù)據(jù)基礎(chǔ)平臺(tái)設(shè)計(jì) 503.5.2 ETL設(shè)計(jì) 623.5.3 調(diào)度架構(gòu)設(shè)計(jì) 753.5.4 數(shù)據(jù)管控設(shè)計(jì) 813.6 應(yīng)用系統(tǒng)設(shè)計(jì) 1063.6.1 分析決策支持系統(tǒng) 1063.7 數(shù)據(jù)處理和存儲(chǔ)系統(tǒng)設(shè)計(jì) 147建設(shè)目標(biāo)、規(guī)模、內(nèi)容、建設(shè)期建設(shè)目標(biāo)以“海信息、網(wǎng)關(guān)聯(lián)、云計(jì)算、塊數(shù)據(jù)、條運(yùn)用、促和諧”為建設(shè)方針,建設(shè)以基礎(chǔ)設(shè)施層、系統(tǒng)平臺(tái)層、應(yīng)用平臺(tái)層為框架結(jié)構(gòu),多個(gè)系統(tǒng)應(yīng)用為支撐的社會(huì)治理大數(shù)據(jù)云平臺(tái),實(shí)現(xiàn)社會(huì)治理從條塊分制向整體聯(lián)動(dòng)轉(zhuǎn)變,從被動(dòng)應(yīng)付向主動(dòng)服務(wù)轉(zhuǎn)變,從傳統(tǒng)管理方式向信息化支撐轉(zhuǎn)變,從分級(jí)管理向扁平化管理轉(zhuǎn)變,從單打獨(dú)斗向協(xié)作共治轉(zhuǎn)變,不斷推動(dòng)社會(huì)治理體系和社會(huì)治理能力現(xiàn)代化。項(xiàng)目建成后,將覆蓋全市十個(gè)區(qū)市縣,使用對象包括社區(qū)服務(wù)中心(鄉(xiāng)鎮(zhèn))工作人員、居委會(huì)(行政村)工作人員、社區(qū)網(wǎng)格員,也包括市、區(qū)縣兩級(jí)相關(guān)部門工作人員。建設(shè)內(nèi)容市大數(shù)據(jù)云平臺(tái)工程分為兩期建設(shè),從建設(shè)內(nèi)容上來說,兩期的建設(shè)內(nèi)容是逐步完善、優(yōu)化、擴(kuò)展的關(guān)系。大數(shù)據(jù)云平臺(tái)工程的總體建設(shè)任務(wù)為:1、系統(tǒng)運(yùn)行環(huán)境基于市統(tǒng)一的基礎(chǔ)設(shè)施層技術(shù)體系,搭建大數(shù)據(jù)云平臺(tái)工程,主要是指支撐系統(tǒng)運(yùn)行的軟硬件基礎(chǔ)環(huán)境。其中硬件基礎(chǔ)環(huán)境包括:計(jì)算資源、存儲(chǔ)資源、安全防護(hù)、網(wǎng)絡(luò)資源等等;軟件基礎(chǔ)環(huán)境包括:數(shù)據(jù)庫、中間件、數(shù)據(jù)備份等等。2、共享數(shù)據(jù)建設(shè)共享數(shù)據(jù)建設(shè)主要是指大數(shù)據(jù)云平臺(tái)工程運(yùn)行的數(shù)據(jù)基礎(chǔ)。在大數(shù)據(jù)云平臺(tái)工程的建設(shè)過程中主要包括了結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包括:基礎(chǔ)空間數(shù)據(jù)和網(wǎng)格塊數(shù)據(jù)關(guān)系數(shù)據(jù)庫;非結(jié)構(gòu)化數(shù)據(jù)主要包括海量行為數(shù)據(jù)、網(wǎng)頁、各類報(bào)表、圖像和音頻/視頻信息等等;基礎(chǔ)空間數(shù)據(jù)利用現(xiàn)有的基礎(chǔ)數(shù)據(jù)成果,進(jìn)行修補(bǔ)測或數(shù)據(jù)時(shí)相、內(nèi)容的更新,形成大數(shù)據(jù)云平臺(tái)工程的基礎(chǔ)空間數(shù)據(jù)庫。網(wǎng)格塊數(shù)據(jù)關(guān)系數(shù)據(jù)庫以網(wǎng)格化管理數(shù)據(jù)、政府各專業(yè)職能部門數(shù)據(jù)為基礎(chǔ),以網(wǎng)格化管理為中心建設(shè)“網(wǎng)格塊數(shù)據(jù)關(guān)系數(shù)據(jù)庫”,其核心是要建立社區(qū)網(wǎng)格內(nèi)“人與人”、“人與物”、“人與組織”、“物與物”、“組織與物”、“組織與組織”等的關(guān)聯(lián)關(guān)系。海量行為數(shù)據(jù)依托開放式社會(huì)共享數(shù)據(jù)平臺(tái),建立大數(shù)據(jù)云平臺(tái)工程所需的海量社會(huì)數(shù)據(jù)。各類報(bào)表針對目前尚未進(jìn)行結(jié)構(gòu)化數(shù)據(jù)梳理的業(yè)務(wù)數(shù)據(jù),如Word、Excel等形式存儲(chǔ)的業(yè)務(wù)數(shù)據(jù);圖像和音頻/視頻信息針對視頻監(jiān)控、人口信息的照片等信息的數(shù)據(jù)處理。3、支撐能力建設(shè)支撐內(nèi)容的建設(shè)為應(yīng)用系統(tǒng)建設(shè)提供組件式服務(wù),主要建設(shè):地理信息平臺(tái)、數(shù)據(jù)分析平臺(tái)、流程管理平臺(tái)、安全平臺(tái)等。地理信息平臺(tái)立足市現(xiàn)有城市地理空間信息建設(shè)應(yīng)用基礎(chǔ),從大數(shù)據(jù)云平臺(tái)工程的應(yīng)用實(shí)際需求出發(fā),遵循“資源重用、節(jié)約投資”的原則,采用基于面向服務(wù)架構(gòu)(SOA)的ServiceGIS等技術(shù),實(shí)現(xiàn)對市分散的空間信息資源整合、共享和充分利用,為大數(shù)據(jù)云平臺(tái)工程提供地理信息與業(yè)務(wù)數(shù)據(jù)的在線共享與交換支撐。數(shù)據(jù)分析平臺(tái)數(shù)據(jù)分析平臺(tái)是集數(shù)據(jù)的目錄管理、數(shù)據(jù)交換、數(shù)據(jù)處理的分析與挖掘、數(shù)據(jù)的可視化展現(xiàn)為一體的綜合支撐平臺(tái)。流程管理平臺(tái)通過對網(wǎng)格化服務(wù)管理的梳理,再造社會(huì)治理工作流程,將信任服務(wù)、授權(quán)服務(wù)和工作流等業(yè)務(wù)流程有機(jī)融合緊密結(jié)合在一起,構(gòu)成安全的工作流業(yè)務(wù)系統(tǒng),為不同業(yè)務(wù)流程提供實(shí)現(xiàn)的技術(shù)手段。安全平臺(tái)基于云計(jì)算安全架構(gòu),同時(shí)根據(jù)大數(shù)據(jù)云平臺(tái)工程的系統(tǒng)安全需求特點(diǎn)和風(fēng)險(xiǎn)狀況,從物理安全、網(wǎng)絡(luò)安全、云平臺(tái)安全、系統(tǒng)安全、應(yīng)用安全,數(shù)據(jù)安全六個(gè)層面,進(jìn)行安全體系架構(gòu)設(shè)計(jì)。4、應(yīng)用系統(tǒng)建設(shè)應(yīng)用系統(tǒng)建設(shè)著眼大數(shù)據(jù)未來發(fā)展趨勢,以網(wǎng)格化服務(wù)管理系統(tǒng)為基礎(chǔ),提供涵蓋政府、企業(yè)、社會(huì)組織、軍民等內(nèi)容的社會(huì)治理綜合業(yè)務(wù)系統(tǒng),既實(shí)現(xiàn)市統(tǒng)籌、創(chuàng)新、推動(dòng)社會(huì)治理的需求,又滿足部門、社區(qū)和社會(huì)組織對大數(shù)據(jù)云平臺(tái)工程的應(yīng)用需求。應(yīng)用系統(tǒng)建設(shè)包括“網(wǎng)格化管理系統(tǒng)”、“社會(huì)動(dòng)員管理系統(tǒng)”、“社區(qū)綜合服務(wù)系統(tǒng)”、“社會(huì)分析決策支持系統(tǒng)”。5、接入系統(tǒng)建設(shè)接入系統(tǒng)包括PC系統(tǒng)、移動(dòng)應(yīng)用系統(tǒng)和微信應(yīng)用系統(tǒng)。建設(shè)周期大數(shù)據(jù)云平臺(tái)工程涵蓋業(yè)務(wù)內(nèi)容多、涉及范圍廣、建設(shè)周期長,為了完成工程的總體建設(shè)目標(biāo),需要一個(gè)逐步推進(jìn)和逐漸完善的過程,必須依據(jù)循序漸進(jìn)、分階段、有步驟、重點(diǎn)突破的建設(shè)原則。一期工程計(jì)劃于2019年底建成。其中,一期建設(shè)階段5個(gè)月,運(yùn)維應(yīng)用(試運(yùn)行)階段為6個(gè)月,系統(tǒng)計(jì)劃于2019年底完成終驗(yàn)。需求分析政務(wù)業(yè)務(wù)目標(biāo)需求分析結(jié)論大數(shù)據(jù)云平臺(tái)工程是一個(gè)基于大數(shù)據(jù)的概念,利用大數(shù)據(jù)技術(shù),以構(gòu)建大數(shù)據(jù)云平臺(tái)工程數(shù)據(jù)平臺(tái)為基礎(chǔ),以提供標(biāo)準(zhǔn)化的數(shù)據(jù)服務(wù)、網(wǎng)格化服務(wù)、流程服務(wù)為中心,支撐和協(xié)同市各部門和社會(huì)公眾的社會(huì)治理工作。大數(shù)據(jù)云平臺(tái)工程貫穿于市規(guī)劃、發(fā)展、建設(shè)、運(yùn)行、服務(wù)、管理的全過程,是一個(gè)復(fù)雜而龐大的系統(tǒng)工程,在描述與其他業(yè)務(wù)系統(tǒng)關(guān)聯(lián)的同時(shí),我們對大數(shù)據(jù)云平臺(tái)工程有了一個(gè)清晰的定位:1、大數(shù)據(jù)云平臺(tái)工程建設(shè)是打造社會(huì)治理升級(jí)版的重要內(nèi)容。隨著大數(shù)據(jù)時(shí)代的到來,社會(huì)治理面臨著新機(jī)遇和新挑戰(zhàn)。市委九屆四次全會(huì)提出,要實(shí)施社會(huì)治理工程,打造法治升級(jí)版,積極探索以網(wǎng)格為基礎(chǔ)的大數(shù)據(jù)建設(shè)。大數(shù)據(jù)云平臺(tái)工程以塊數(shù)據(jù)為基礎(chǔ),運(yùn)用大數(shù)據(jù)技術(shù),創(chuàng)新社會(huì)治理方式方法,提高社會(huì)治理能力,為打造法治“升級(jí)版”提供了有力的工作抓手,具有重大的實(shí)踐意義和社會(huì)價(jià)值。2、大數(shù)據(jù)云平臺(tái)工程建設(shè)是推進(jìn)治理能力現(xiàn)代化的支撐平臺(tái)。我市大力發(fā)展大數(shù)據(jù)產(chǎn)業(yè),為社會(huì)治理工作帶來了前所未有的契機(jī)。2015年全市加強(qiáng)群眾工作創(chuàng)新社會(huì)治理大會(huì)提出,要狠抓平臺(tái)建設(shè),在以‘大數(shù)據(jù)’手段提升社會(huì)治理水平上實(shí)現(xiàn)新突破。通過實(shí)施大數(shù)據(jù)云平臺(tái)工程建設(shè),能夠強(qiáng)化“條專塊統(tǒng)”,倒逼體制改革,打破數(shù)據(jù)“壁壘”,鏈接數(shù)據(jù)“孤島”,激發(fā)社會(huì)活力,發(fā)揮黨政部門、社會(huì)組織、企事業(yè)單位、居民群眾等多元主體的作用,構(gòu)建眾聯(lián)、眾包、眾創(chuàng)、眾籌的社會(huì)治理新局面。3、大數(shù)據(jù)云平臺(tái)工程建設(shè)是完善民生服務(wù)體系的惠民工程。創(chuàng)新社會(huì)治理,要以最廣大人民根本利益為根本坐標(biāo),從人民群眾最關(guān)心最直接最現(xiàn)實(shí)的利益問題入手。大數(shù)據(jù)云平臺(tái)工程建設(shè)能夠通過大數(shù)據(jù)運(yùn)用,統(tǒng)計(jì)分析與民生相關(guān)的海量數(shù)據(jù),準(zhǔn)確把握不同社會(huì)成員和不同地區(qū)的社會(huì)需求,實(shí)施精細(xì)化的服務(wù)管理,推動(dòng)建立多層次的服務(wù)體系,營造和諧穩(wěn)定的社會(huì)環(huán)境。大數(shù)據(jù)云平臺(tái)工程覆蓋至最基層的網(wǎng)格信息員,由網(wǎng)格信息員采集的民生需求,拓寬社情民意的采集渠道,打通居民與政府之間的溝通橋梁。同時(shí),將民生數(shù)據(jù)匯總至“數(shù)據(jù)民生”的民生資源池,依托大數(shù)據(jù)手段,整合線下群眾的社情民意信息,為下一步政策的制定和實(shí)施,提供決策依據(jù)。是政府由被動(dòng)服務(wù)向主動(dòng)服務(wù)、由基本服務(wù)向更好服務(wù)、由普惠服務(wù)向個(gè)性化服務(wù)轉(zhuǎn)變的重要手段。4、大數(shù)據(jù)云平臺(tái)工程建設(shè)是數(shù)據(jù)民生考核的組成部分。大數(shù)據(jù)云平臺(tái)工程具有完整的考核體系,通過對案件處置的情況進(jìn)行統(tǒng)計(jì)分析,對各級(jí)聯(lián)動(dòng)單位進(jìn)行科學(xué)的評價(jià)。在大數(shù)據(jù)云平臺(tái)工程的設(shè)計(jì)過程中,同樣考慮了與“數(shù)據(jù)民生”考核的對接,其數(shù)據(jù)是“數(shù)據(jù)民生”面向社會(huì)考核的重要組成部分。系統(tǒng)功能指標(biāo)基礎(chǔ)設(shè)施服務(wù)層(Iaas)結(jié)合大數(shù)據(jù)云平臺(tái)工程前端應(yīng)用,依托市政務(wù)數(shù)據(jù)中心,基于市統(tǒng)一的基礎(chǔ)設(shè)施層技術(shù)體系,結(jié)合市統(tǒng)一的云服務(wù)平臺(tái)相關(guān)技術(shù)規(guī)范和參數(shù),選擇配置完善主機(jī)、存儲(chǔ)、網(wǎng)絡(luò)、操作系統(tǒng)等基礎(chǔ)設(shè)施標(biāo)準(zhǔn),考慮采用虛擬化硬件技術(shù)、分布式存儲(chǔ)技術(shù)、并行編程模式、分布式資源管理、云計(jì)算平臺(tái)管理、認(rèn)證服務(wù)、證書服務(wù)、加密服務(wù)等技術(shù)功能,實(shí)現(xiàn)數(shù)據(jù)容災(zāi)、快速回復(fù)、快速部署、客戶服務(wù)、業(yè)務(wù)與運(yùn)營支撐系統(tǒng),具備大數(shù)據(jù)計(jì)算能力、存儲(chǔ)能力、安全防護(hù)能力,打造集數(shù)據(jù)存儲(chǔ)、管理、統(tǒng)計(jì)、分析等功能為一體的“數(shù)據(jù)中樞”,構(gòu)建大數(shù)據(jù)云平臺(tái)工程建設(shè)基礎(chǔ)設(shè)施層。平臺(tái)服務(wù)層(Paas)在基礎(chǔ)設(shè)施服務(wù)層基礎(chǔ)上構(gòu)建大數(shù)據(jù)云平臺(tái)工程建設(shè)和升級(jí)所必需基礎(chǔ)服務(wù)平臺(tái),主要包括地理信息服務(wù)、流程服務(wù)、建設(shè)數(shù)據(jù)分析服務(wù)、系統(tǒng)和權(quán)限管理等。升級(jí)完善地理信息服務(wù)升級(jí)改造流程服務(wù)建設(shè)數(shù)據(jù)分析服務(wù)大數(shù)據(jù)云平臺(tái)工程要依托自身建立的“塊數(shù)據(jù)關(guān)系庫”進(jìn)行社會(huì)治理數(shù)據(jù)的分析和挖掘。大數(shù)據(jù)云平臺(tái)工程進(jìn)行數(shù)據(jù)分析和挖掘的目的可以分為決策支持、精準(zhǔn)推送和態(tài)勢感知三個(gè)方面。大數(shù)據(jù)云平臺(tái)工程的決策支持有別于傳統(tǒng)專業(yè)化系統(tǒng)通過數(shù)據(jù)分析生成的支持?jǐn)?shù)據(jù)報(bào)表。基于“塊數(shù)據(jù)”的大數(shù)據(jù)云平臺(tái)工程,其數(shù)據(jù)分析重點(diǎn)在于“關(guān)系”。它通過分析人與人、人與物、人與事、事與事之間的關(guān)系。例如留守兒童與當(dāng)?shù)貙W(xué)校類型和數(shù)量的關(guān)系、低保人員的低保金額與地區(qū)平均消費(fèi)水平的關(guān)系、空巢老人與當(dāng)?shù)鼐蜆I(yè)崗位之間的關(guān)系等等。通過這些關(guān)系的分析讓政府管理者能夠找到社會(huì)問題的根源,避免了傳統(tǒng)管理方式中出現(xiàn)的“頭疼醫(yī)頭、腳疼醫(yī)腳”現(xiàn)象,使政府的資源能夠發(fā)揮出最大效果。政府對老百姓的精準(zhǔn)推送也是需要大數(shù)據(jù)云平臺(tái)工程中對“塊數(shù)據(jù)”進(jìn)行分析和挖掘作為基礎(chǔ)的。通過大數(shù)據(jù)云平臺(tái)工程對社區(qū)百姓生活狀態(tài)分析,結(jié)合醫(yī)療、教育、房屋、車輛等相關(guān)信息進(jìn)行挖掘,可以找到社區(qū)百姓近期所需要的政府服務(wù)項(xiàng)目。例如大數(shù)據(jù)云平臺(tái)工程通過數(shù)據(jù)的分析,得知某一居民處于適婚年齡,并在醫(yī)院建立孕婦檔案。大數(shù)據(jù)云平臺(tái)工程通過這些數(shù)據(jù)的分析可以判斷出此居民在未來幾個(gè)月中辦理準(zhǔn)生證、新生兒戶口的可能性較大。此時(shí)大數(shù)據(jù)云平臺(tái)工程可以通過社區(qū)、APP等應(yīng)用向社區(qū)工作人員推送提醒信息。對“塊數(shù)據(jù)”的分析和挖掘?qū)榇髷?shù)據(jù)云平臺(tái)工程賦予態(tài)勢感知的能力。所謂態(tài)勢感知在大規(guī)模系統(tǒng)環(huán)境和數(shù)據(jù)中,對能夠引起系統(tǒng)態(tài)勢發(fā)生變化的安全要素進(jìn)行獲取、理解、顯示以及預(yù)測未來的發(fā)展趨勢。立足于政府的社會(huì)治理,大數(shù)據(jù)云平臺(tái)工程對“塊數(shù)據(jù)”進(jìn)行分析和挖掘所產(chǎn)生的態(tài)勢感知的能力將有助于政府部門感知和預(yù)測社會(huì)風(fēng)險(xiǎn),做到提前部署、防患于未然。例如對于社會(huì)敏感人員,通過大數(shù)據(jù)云平臺(tái)工程的數(shù)據(jù)分析發(fā)現(xiàn)其在某一特殊時(shí)期的交通行動(dòng)軌跡、通信聯(lián)絡(luò)范圍存在異常,則相關(guān)部門管理人員可以提前部署,將社會(huì)風(fēng)險(xiǎn)扼殺在搖籃中。系統(tǒng)和權(quán)限管理系統(tǒng)和權(quán)限管理模塊是對應(yīng)用系統(tǒng)用戶按照權(quán)限進(jìn)行訪問控制的管理,負(fù)責(zé)整個(gè)大數(shù)據(jù)云平臺(tái)工程的配置、維護(hù)和管理工作,該系統(tǒng)采用工具化思想,實(shí)現(xiàn)不同功能的參數(shù)配置,實(shí)現(xiàn)不同的業(yè)務(wù)使用單位和不同級(jí)別的用戶分別賦予其業(yè)務(wù)系統(tǒng)的使用權(quán)限。應(yīng)用服務(wù)層(Saas)應(yīng)用層系統(tǒng)功能指標(biāo)包括:1、實(shí)現(xiàn)社區(qū)“一次錄入、多部門共用”的功能,網(wǎng)格員采集數(shù)據(jù)、共享數(shù)據(jù)通過大數(shù)據(jù)云平臺(tái)工程平臺(tái)分發(fā)至其他部門業(yè)務(wù)系統(tǒng);2、實(shí)現(xiàn)問題的受理、立案、派遣、處置、復(fù)核、結(jié)案的閉環(huán)工作處理路程;3、搭建社會(huì)組織、社工機(jī)構(gòu)、志愿者與居民群眾的溝通橋梁,實(shí)現(xiàn)公益活動(dòng)供需管理;4、PC端采用瀏覽器方式訪問,支持IE7.0、IE8.0、Chrome16.0、Firefox6.0等以上版本的主流瀏覽器;5、網(wǎng)格員上報(bào)和處置應(yīng)用、各級(jí)管理者應(yīng)用、公眾訪問應(yīng)用等支持手機(jī)APP方式訪問;支持iOS和android系統(tǒng);6、公眾訪問支持微信和APP訪問。信息量指標(biāo)針對調(diào)研的結(jié)果,大數(shù)據(jù)云平臺(tái)工程設(shè)計(jì)為主要存儲(chǔ)關(guān)系信息、事件信息、以及相關(guān)的照片等信息資源。其中關(guān)系型數(shù)據(jù)估算前期數(shù)據(jù)如下表:表SEQ表\*ARABIC1信息量指標(biāo)表描述信息數(shù)據(jù)量(單位:條)信息量(單位:MB)評估存儲(chǔ)(單位:GB)人口信息50000000.1500.0企業(yè)信息800000.18.0社會(huì)組織信息50000.10.5設(shè)施信息15000000.1150.0房屋信息1000000.110.0城區(qū)地理信息3001500450.0農(nóng)村地理信息7734100773.4呼叫中心信息20000000.1200.0公益信息100000.11.0社區(qū)服務(wù)信息1000000.110.0合計(jì)2102.9再加上其他信息(包括主鍵、外鍵、索引、冗余的存儲(chǔ),按信息總量的40%計(jì)算),建議需要數(shù)據(jù)庫存儲(chǔ)空間3T(前期可以先租用較小的空間,根據(jù)實(shí)際需要再擴(kuò)大容量)。針對所有的證照資料(包括照片、身份證掃描信息、證明材料圖片、事件上報(bào)圖片等),初步預(yù)計(jì)存放5000萬張照片,平均每張大小0.2M,需要10T磁盤存儲(chǔ)空間。針對12345熱線本身的事件數(shù)據(jù)(按照目前每月5萬條,每條0.2M計(jì)算),每年的數(shù)據(jù)增量為120G,按照系統(tǒng)10年的設(shè)計(jì)壽命計(jì)算,即需要1.2T磁盤存儲(chǔ)空間。針對門戶網(wǎng)站、APP、微信的訪問來看,每年的業(yè)務(wù)數(shù)據(jù)增量為100G足有,10年需要1T磁盤存儲(chǔ)空間。綜上所述,大數(shù)據(jù)云平臺(tái)工程所需的信息量指標(biāo)為15T左右。系統(tǒng)性能指標(biāo)總體性能指標(biāo)互聯(lián)網(wǎng)應(yīng)用支持并發(fā)終端數(shù)≥500;政務(wù)網(wǎng)應(yīng)用支持并發(fā)終端數(shù)≥500;系統(tǒng)控制操作響應(yīng)時(shí)間≤2s;數(shù)據(jù)瀏覽響應(yīng)時(shí)間≤2s;一般數(shù)據(jù)查詢響應(yīng)時(shí)間≤4s;大數(shù)據(jù)分析處理時(shí)間≤1min;統(tǒng)計(jì)輸出時(shí)間≤5s;雙機(jī)負(fù)載均衡/熱備用切換時(shí)間≤25s;平均年故障時(shí)間<24小時(shí);平均故障修復(fù)時(shí)間<30分鐘當(dāng)系統(tǒng)處理能力不足時(shí),可通過增加相應(yīng)的節(jié)點(diǎn)和處理能力來實(shí)現(xiàn)系統(tǒng)處理能力的動(dòng)態(tài)增長。網(wǎng)絡(luò)平臺(tái)性能要求數(shù)據(jù)傳輸網(wǎng)絡(luò)暢通、快捷、可擴(kuò)展。核心網(wǎng)絡(luò)要求設(shè)備、線路均具有冗余,設(shè)備處理能力滿足業(yè)務(wù)高峰期需要。整網(wǎng)帶寬滿足業(yè)務(wù)高峰期需要。系統(tǒng)平臺(tái)性能要求采用通用性好、安全可靠的操作系統(tǒng)以及大型數(shù)據(jù)庫系統(tǒng),以保證系統(tǒng)良好的性能。應(yīng)用系統(tǒng)性能應(yīng)用系統(tǒng)性能應(yīng)滿足用戶的要求,穩(wěn)定、可靠、實(shí)用。人機(jī)界面友好,輸出、輸入方便,圖表生成美觀,檢索、查詢簡單快捷。系統(tǒng)采用便于升級(jí)的模塊化設(shè)計(jì),包括采用軟件升級(jí)來簡化系統(tǒng)擴(kuò)展和修改,模塊組合可以根據(jù)需要來選擇。提供標(biāo)準(zhǔn)的網(wǎng)絡(luò)通信應(yīng)用層協(xié)議和應(yīng)用基本函數(shù)及調(diào)用接口。總體建設(shè)方案總體設(shè)計(jì)原則總體規(guī)劃、分步實(shí)施大數(shù)據(jù)云平臺(tái)工程建設(shè)涉及到各地區(qū)和多個(gè)部門,要進(jìn)行統(tǒng)籌規(guī)劃、總體設(shè)計(jì)和分級(jí)實(shí)施。為了避免各業(yè)務(wù)系統(tǒng)獨(dú)立建設(shè)而導(dǎo)致的無法共享和數(shù)據(jù)交互的問題,在建設(shè)之處需要按照國家制定的相關(guān)標(biāo)準(zhǔn)規(guī)范進(jìn)行建設(shè),實(shí)現(xiàn)社會(huì)治理業(yè)務(wù)系統(tǒng)和技術(shù)支撐系統(tǒng)的有機(jī)結(jié)合。先易后難、循序漸進(jìn)大數(shù)據(jù)云平臺(tái)工程的建設(shè)從建設(shè)規(guī)模、建設(shè)思路、建設(shè)內(nèi)容和建設(shè)所用的技術(shù)都是一種全新嘗試和摸索,是對建設(shè)單位能力的考驗(yàn)。在大數(shù)據(jù)云平臺(tái)工程建設(shè)過程中要將遇到的問題和困難進(jìn)行排序,優(yōu)先解決簡單問題,穩(wěn)扎穩(wěn)打,分階段出成果,逐步見效、逐步優(yōu)化。利用現(xiàn)有、整合資源本著節(jié)約的原則,突出建設(shè)重點(diǎn),注重高效實(shí)用,充分利用已有基礎(chǔ),防止推倒重來、重復(fù)建設(shè)。整合各級(jí)、各部門社會(huì)治理所需資源,尤其在數(shù)據(jù)層面,針對已經(jīng)建成的平臺(tái)要采用多種技術(shù)手段進(jìn)行整合和共享。在應(yīng)用層面,大數(shù)據(jù)云平臺(tái)工程處理利用好政府資源以外,還要整合社會(huì)服務(wù)資源,為群眾提供更好、更全面的服務(wù)。數(shù)據(jù)集中、標(biāo)準(zhǔn)統(tǒng)一大數(shù)據(jù)云平臺(tái)工程的建設(shè),需要將各級(jí)政府部門開始將數(shù)據(jù)相對集中起來,保證資源的高度利用以及通過相關(guān)的技術(shù)保證數(shù)據(jù)和應(yīng)用的絕對安全和穩(wěn)定。同時(shí),統(tǒng)一各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)字典,減少數(shù)據(jù)定義的二義性。對數(shù)據(jù)實(shí)行單點(diǎn)維護(hù),明確數(shù)據(jù)責(zé)任部門和使用部門,確?;A(chǔ)信息的可靠性和一致性。建立統(tǒng)一的存儲(chǔ)資源標(biāo)準(zhǔn)、性能標(biāo)準(zhǔn)、安全標(biāo)準(zhǔn),提高數(shù)據(jù)訪問控制能力,降低關(guān)鍵業(yè)務(wù)數(shù)據(jù)的安全隱患。模式創(chuàng)新、不走老路大數(shù)據(jù)云平臺(tái)工程建設(shè)以“大數(shù)據(jù)”為創(chuàng)新模式,以“網(wǎng)格化管理”數(shù)據(jù)為基礎(chǔ),融合政府各專業(yè)職能數(shù)據(jù)和社會(huì)數(shù)據(jù),以數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)應(yīng)用,從而避免傳統(tǒng)信息化建設(shè)中出現(xiàn)的“信息孤島”、“信息壁壘”的問題。定位準(zhǔn)確、邊界清晰大數(shù)據(jù)云平臺(tái)工程的建設(shè)是要搭建一個(gè)政府與社區(qū)群眾暢通的溝通橋梁,要通過大數(shù)據(jù)的分析挖掘社會(huì)群眾的服務(wù)需求、識(shí)別社會(huì)風(fēng)險(xiǎn),并將社會(huì)需求和風(fēng)險(xiǎn)傳遞和提示給政府相關(guān)部門進(jìn)行處理。大數(shù)據(jù)云平臺(tái)工程的建設(shè)要避免與其他政府專業(yè)部門的應(yīng)用交叉,避免重復(fù)建設(shè)和職責(zé)不清。功能齊全、先進(jìn)適用在系統(tǒng)的總體設(shè)計(jì)上,借鑒各類系統(tǒng)的成功經(jīng)驗(yàn),同時(shí)注重吸取同類系統(tǒng)的建設(shè)教訓(xùn)。在技術(shù)上,充分考慮大數(shù)據(jù)云平臺(tái)工程的現(xiàn)狀和特點(diǎn),在注重系統(tǒng)的實(shí)用性的前提下,應(yīng)著重考慮云計(jì)算、大數(shù)據(jù)等先進(jìn)的技術(shù)理念。在軟件的開發(fā)思想上,加強(qiáng)核心技術(shù)的自主研發(fā)和應(yīng)用,嚴(yán)格按照軟件工程的標(biāo)準(zhǔn)和面向?qū)ο蟮睦碚搧碓O(shè)計(jì),保證系統(tǒng)的先進(jìn)性。安全穩(wěn)定、保護(hù)資源由于整個(gè)系統(tǒng)所涉及的很多數(shù)據(jù)不宜對外開放,這些數(shù)據(jù)的安全性至關(guān)重要。因此,系統(tǒng)應(yīng)遵循安全性的原則。大數(shù)據(jù)云平臺(tái)工程設(shè)計(jì)時(shí)將安全性問題分為以下三種情況:一是防止外部非法用戶訪問網(wǎng)絡(luò);二是防止內(nèi)部合法用戶的越權(quán)訪問;三是意外的數(shù)據(jù)損害。為了提高系統(tǒng)的安全性,在設(shè)計(jì)時(shí)就需要考慮整個(gè)系統(tǒng)安全性。立足當(dāng)前、著眼長遠(yuǎn)大數(shù)據(jù)云平臺(tái)工程建設(shè)工作要以需求為向?qū)?,以?yīng)用促發(fā)展,把當(dāng)前和長遠(yuǎn)結(jié)合起來,既要滿足當(dāng)前工作需要,又要適應(yīng)未來技術(shù)的應(yīng)用和發(fā)展,不斷提升應(yīng)急平臺(tái)技術(shù)應(yīng)用水平分期目標(biāo)本著“總體規(guī)劃、分步實(shí)施”和“先易后難、循序漸進(jìn)”的建設(shè)原則,大數(shù)據(jù)云平臺(tái)工程建設(shè)將分兩期完成。一期建設(shè)目標(biāo)1、搭建政府與社會(huì)群眾之間的溝通渠道,政府能夠第一時(shí)間通過各個(gè)渠道了解社會(huì)群眾的需求。2、建立全市各級(jí)社工委事件處置平臺(tái),跟蹤社會(huì)群眾問題事件的處置過程,對各級(jí)部門問題事件的處置數(shù)量和質(zhì)量進(jìn)行考核。3、打造數(shù)據(jù)平臺(tái)數(shù)據(jù)管控體系,定義數(shù)據(jù)管控組織和職能;定義數(shù)據(jù)管控工作辦法和管理流程;搭建數(shù)據(jù)管控平臺(tái),包括數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)和數(shù)據(jù)質(zhì)量管理平臺(tái),重點(diǎn)是元數(shù)據(jù)管理平臺(tái);制定數(shù)據(jù)標(biāo)準(zhǔn);4、建立社區(qū)網(wǎng)格化“塊數(shù)據(jù)關(guān)系庫”,以社區(qū)網(wǎng)格為中心管理網(wǎng)格內(nèi)人、地、物、事、組織、情的關(guān)聯(lián)關(guān)系。5、強(qiáng)化社會(huì)公益和社區(qū)服務(wù)支撐能力,為社會(huì)團(tuán)體、志愿者、社區(qū)服務(wù)人員精準(zhǔn)推送需求信息。6、整合數(shù)據(jù)資源,通過大數(shù)據(jù)分析,挖掘社會(huì)群眾需求,識(shí)別社會(huì)風(fēng)險(xiǎn),為領(lǐng)導(dǎo)決策提供支持??傮w建設(shè)任務(wù)與分期建設(shè)內(nèi)容總體建設(shè)任務(wù)市大數(shù)據(jù)云平臺(tái)工程分為兩期建設(shè),從建設(shè)內(nèi)容上來說,兩期的建設(shè)內(nèi)容是逐步完善、優(yōu)化、擴(kuò)展的關(guān)系。大數(shù)據(jù)云平臺(tái)工程的總體任務(wù)包括:建立政府和社會(huì)、和民眾暢通的溝通渠道,從多個(gè)渠道收集、分析、挖掘居民群眾的迫切需求;強(qiáng)化黨委統(tǒng)籌,加快向社會(huì)組織、居委會(huì)等方面的延伸,引導(dǎo)社會(huì)組織入駐,強(qiáng)化社區(qū)黨委的統(tǒng)籌功能,形成了社會(huì)共治的良好局面。依托市數(shù)據(jù)交換平臺(tái),建設(shè)網(wǎng)格化社會(huì)治理的塊數(shù)據(jù),并優(yōu)化升級(jí)網(wǎng)格化管理系統(tǒng),夯實(shí)基層社會(huì)治理工作;采用租用的統(tǒng)一云平臺(tái)的方式搭建系統(tǒng)運(yùn)行環(huán)境,促進(jìn)市云平臺(tái)產(chǎn)業(yè)的應(yīng)用落地;系統(tǒng)總體結(jié)構(gòu)和邏輯結(jié)構(gòu)總體架構(gòu)大數(shù)據(jù)云平臺(tái)工程的總體架構(gòu)分為應(yīng)用層、支撐層、數(shù)據(jù)層和基礎(chǔ)設(shè)施層,系統(tǒng)載體包括PC端系統(tǒng)、移動(dòng)應(yīng)用系統(tǒng)和微信應(yīng)用系統(tǒng)三部分,總體架構(gòu)圖如下所示:圖SEQ圖\*ARABIC1總體架構(gòu)應(yīng)用層大數(shù)據(jù)云平臺(tái)工程是一個(gè)數(shù)據(jù)驅(qū)動(dòng)應(yīng)用的“大數(shù)據(jù)”系統(tǒng),其應(yīng)用的深度、數(shù)量、功能會(huì)根據(jù)系統(tǒng)所融合的數(shù)據(jù)量和數(shù)據(jù)范圍有所變化和調(diào)整。目前已確定的應(yīng)用包括“網(wǎng)格化管理系統(tǒng)”、“社會(huì)動(dòng)員管理系統(tǒng)”、“社區(qū)綜合服務(wù)系統(tǒng)”和“社會(huì)分析決策支持系統(tǒng)”四大系統(tǒng),以及相應(yīng)的移動(dòng)化應(yīng)用。應(yīng)用系統(tǒng)的詳細(xì)介紹將在第五章進(jìn)行闡述。支撐層支撐層保證應(yīng)用系統(tǒng)正常運(yùn)行的核心。大數(shù)據(jù)云平臺(tái)工程的支撐層包括“地理信息平臺(tái)”、“流程引擎”、“ETL”、“數(shù)據(jù)調(diào)度”、“數(shù)據(jù)管控”等。各個(gè)支撐平臺(tái)的應(yīng)用是將成熟的技術(shù)進(jìn)行封裝,便于系統(tǒng)開發(fā)人員調(diào)用,使開發(fā)人員可以將主要精力放在業(yè)務(wù)應(yīng)用系統(tǒng)的開發(fā)中,從復(fù)雜的底層技術(shù)中脫離出來,從而提高系統(tǒng)的建設(shè)效率。源系統(tǒng)數(shù)據(jù)抽取為保證業(yè)務(wù)數(shù)據(jù)的安全性,一般數(shù)據(jù)采用源系統(tǒng)主動(dòng)落地的方案。源系統(tǒng)將導(dǎo)出的數(shù)據(jù)以文本文件的形式存儲(chǔ)在統(tǒng)一數(shù)據(jù)交換共享平臺(tái)中,供數(shù)據(jù)平臺(tái)獲取使用。技術(shù)緩沖層技術(shù)緩沖層直接對統(tǒng)一數(shù)據(jù)交換共享平臺(tái)的文本文件進(jìn)行加載,采用hdfs并行加載的方案,將數(shù)據(jù)存儲(chǔ)到hadoop平臺(tái)中。為保證數(shù)據(jù)的上傳效率,可采用壓縮算法對數(shù)據(jù)文件進(jìn)行壓縮,提供數(shù)據(jù)傳輸?shù)男?。并且由于hadoop平臺(tái)在數(shù)據(jù)處理時(shí),可以對壓縮文件進(jìn)行自動(dòng)解壓,因此可以提供數(shù)據(jù)處理的效率,減少IO傳輸時(shí)間。整合層整合層對于業(yè)務(wù)數(shù)據(jù)的存儲(chǔ),采用第三范式關(guān)系表的形式,這樣可以方便后續(xù)數(shù)據(jù)分析時(shí)直接采用SQL方式進(jìn)行表的關(guān)聯(lián)處理。因此在整合層,歷史數(shù)據(jù)存儲(chǔ)一般采用HIVE存儲(chǔ)方式,并結(jié)合分區(qū)方案進(jìn)行處理。在數(shù)據(jù)從技術(shù)緩沖層到整合層過程中,可以采用PIG對抽取的增量數(shù)據(jù)進(jìn)行過濾、轉(zhuǎn)換、格式控制等。在進(jìn)行元數(shù)據(jù)管理方面,各層數(shù)據(jù)統(tǒng)一采用Hcatalog進(jìn)行管理,保證pig、hive能同時(shí)進(jìn)行相同數(shù)據(jù)的訪問,保存處理的數(shù)據(jù)格式統(tǒng)一。由于采用統(tǒng)一的hcatalog管理,因此在pig進(jìn)行數(shù)據(jù)清洗后,可以直接將數(shù)據(jù)存儲(chǔ)到整合層的hive表中。匯總層匯總層又叫共性加工層,主要特點(diǎn)是針對特定應(yīng)用邏輯,對數(shù)據(jù)平臺(tái)中存儲(chǔ)的業(yè)務(wù)歷史數(shù)據(jù)進(jìn)行加工匯總和分析,供后續(xù)的業(yè)務(wù)應(yīng)用和集市使用。例如客戶數(shù)統(tǒng)計(jì)、客戶交易筆記統(tǒng)計(jì)等。匯總層的作用即時(shí)提取常用的共性分析結(jié)果進(jìn)行存儲(chǔ),為后續(xù)應(yīng)用提供系統(tǒng)的數(shù)據(jù)支撐。數(shù)據(jù)層數(shù)據(jù)層作為大數(shù)據(jù)云平臺(tái)工程的核心建設(shè)內(nèi)容,采用目前最先進(jìn)的Hadoop大數(shù)據(jù)技術(shù),存儲(chǔ)來自于網(wǎng)格化管理、社區(qū)、各專業(yè)部門、社會(huì)組織、互聯(lián)網(wǎng)等若干渠道的數(shù)據(jù)。在大數(shù)據(jù)云平臺(tái)工程工程的數(shù)據(jù)層,將為這些數(shù)據(jù)建立各自的主題域,更重的是建立各類實(shí)體數(shù)據(jù)的關(guān)聯(lián)關(guān)系。數(shù)據(jù)層的建設(shè)情況主要涉及以下幾個(gè)方面:源系統(tǒng)指數(shù)據(jù)層上游的業(yè)務(wù)數(shù)據(jù)產(chǎn)生系統(tǒng)。是數(shù)據(jù)平臺(tái)的主要數(shù)據(jù)來源。主要包括:公安系統(tǒng)的人口基本信息數(shù)據(jù)、房管系統(tǒng)的房屋信息數(shù)據(jù)、交通系統(tǒng)的交管信息等。這些數(shù)據(jù)可能包含結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、多媒體數(shù)據(jù)等。數(shù)據(jù)層需要統(tǒng)一處理和存儲(chǔ),為后續(xù)的數(shù)據(jù)消費(fèi)系統(tǒng)的使用提供數(shù)據(jù)支撐基礎(chǔ)。統(tǒng)一數(shù)據(jù)交換共享平臺(tái)基于市政府?dāng)?shù)據(jù)交換共享平臺(tái)進(jìn)行,是源系統(tǒng)與大數(shù)據(jù)云平臺(tái)工程數(shù)據(jù)層之間數(shù)據(jù)傳輸與交換的主要通道。統(tǒng)一數(shù)據(jù)管控平臺(tái)主要是對元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行統(tǒng)一的管理。元數(shù)據(jù)管理主要包括元數(shù)據(jù)抽取、元數(shù)據(jù)分析、元數(shù)據(jù)導(dǎo)出等功能;數(shù)據(jù)質(zhì)量管理主要包括制定數(shù)據(jù)質(zhì)量規(guī)則、分析數(shù)據(jù)質(zhì)量問題、跟蹤數(shù)據(jù)問題和生產(chǎn)報(bào)告;數(shù)據(jù)標(biāo)準(zhǔn)管理主要包含制定數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)標(biāo)準(zhǔn)導(dǎo)入、數(shù)據(jù)標(biāo)準(zhǔn)分析等功能。統(tǒng)一調(diào)度平臺(tái)用于管理數(shù)據(jù)層批處理任務(wù)的依賴關(guān)系配置、系統(tǒng)資源配置、任務(wù)并發(fā)與互斥、系統(tǒng)跑批進(jìn)度監(jiān)控、作業(yè)跑批狀態(tài)監(jiān)控、數(shù)據(jù)抽取與下發(fā)監(jiān)控等。數(shù)據(jù)整合平臺(tái)數(shù)據(jù)整合平臺(tái)是數(shù)據(jù)層的建設(shè)核心。會(huì)對上游數(shù)據(jù)生成系統(tǒng)的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一的抽取、清洗、處理、加工、匯總、下發(fā)等。為下游的業(yè)務(wù)系統(tǒng)運(yùn)行、業(yè)務(wù)系統(tǒng)分析、決策支持等提供強(qiáng)大的數(shù)據(jù)服務(wù)支持。基礎(chǔ)設(shè)施層本次建設(shè)的大數(shù)據(jù)云平臺(tái)工程將利用成熟的云架構(gòu)Issa服務(wù)平臺(tái)作為基礎(chǔ)設(shè)施層。在Issa平臺(tái)中要為大數(shù)據(jù)云平臺(tái)工程提供基礎(chǔ)的網(wǎng)絡(luò)設(shè)備、服務(wù)器設(shè)備、存儲(chǔ)設(shè)備等基礎(chǔ)設(shè)施,并且通過防火墻等網(wǎng)絡(luò)安全設(shè)備和機(jī)制保證大數(shù)據(jù)云平臺(tái)工程的網(wǎng)絡(luò)和設(shè)備級(jí)的安全保障。安全防護(hù)體系大數(shù)據(jù)云平臺(tái)工程建設(shè)將從應(yīng)用級(jí)、數(shù)據(jù)級(jí)、網(wǎng)絡(luò)級(jí)、設(shè)備級(jí)多層次考慮和建設(shè)系統(tǒng)的安全防護(hù)體系,同時(shí)應(yīng)用先進(jìn)的安全技術(shù)配合相應(yīng)的安全管理機(jī)制來保證大數(shù)據(jù)云平臺(tái)工程工程的整體安全。標(biāo)準(zhǔn)規(guī)范體系大數(shù)據(jù)云平臺(tái)工程的建設(shè)將遵循國家、省、市及行業(yè)相關(guān)的各項(xiàng)標(biāo)準(zhǔn)和規(guī)范進(jìn)行設(shè)計(jì)和建設(shè)。技術(shù)架構(gòu)本系統(tǒng)技術(shù)架構(gòu)采用現(xiàn)階段比較流行的Web應(yīng)用程序開源框架,即struts+spring+hibernate的一個(gè)集成框架。具體架構(gòu)圖如下:圖SEQ圖\*ARABIC2技術(shù)架構(gòu)圖本系統(tǒng)框架從職責(zé)上分為四層:表示層、業(yè)務(wù)邏輯層、數(shù)據(jù)訪問層和數(shù)據(jù)持久層,以幫助開發(fā)人員在短期內(nèi)搭建結(jié)構(gòu)清晰、可復(fù)用性好、維護(hù)方便的Web應(yīng)用程序。其中使用Struts作為系統(tǒng)的整體基礎(chǔ)架構(gòu),負(fù)責(zé)MVC的分離,在Struts框架的模型部分,控制業(yè)務(wù)跳轉(zhuǎn),利用Hibernate框架對持久層提供支持,Spring做管理,管理struts和hibernate。具體做法是:用面向?qū)ο蟮姆治龇椒ǜ鶕?jù)需求提出一些模型,將這些模型實(shí)現(xiàn)為基本的Java對象,然后編寫基本的DAO(DataAccessObjects)接口,并給出Hibernate的DAO實(shí)現(xiàn),采用Hibernate架構(gòu)實(shí)現(xiàn)的DAO類來實(shí)現(xiàn)Java類與數(shù)據(jù)庫之間的轉(zhuǎn)換和訪問,最后由Spring做管理,管理struts和hibernate。信息資源規(guī)劃和數(shù)據(jù)庫設(shè)計(jì)數(shù)據(jù)模型規(guī)劃大數(shù)據(jù)平臺(tái)主要實(shí)現(xiàn)對明細(xì)數(shù)據(jù)的存儲(chǔ)、整合和加工處理,以及涉及歷史數(shù)據(jù)的深度復(fù)雜處理,大數(shù)據(jù)平臺(tái)是管理分析型系統(tǒng)的主要數(shù)據(jù)來源。從數(shù)據(jù)架構(gòu)的角度大數(shù)據(jù)平臺(tái)劃分為四大數(shù)據(jù)層次,分別是數(shù)據(jù)緩沖層、整合模型層、共性加工層和應(yīng)用層。這四層的劃分并不是簡單的遞進(jìn)關(guān)系,而是相互補(bǔ)充相互完善的關(guān)系。具體數(shù)據(jù)架構(gòu)見下圖:圖3數(shù)據(jù)架構(gòu)數(shù)據(jù)緩沖層數(shù)據(jù)緩沖層與源系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)一一對應(yīng),它是數(shù)據(jù)存儲(chǔ)的臨時(shí)存儲(chǔ)區(qū)域。方便數(shù)據(jù)處理重跑及應(yīng)用系統(tǒng)數(shù)據(jù)過渡至大數(shù)據(jù)平臺(tái)。整合模型層面向分析型業(yè)務(wù)主題建立三范式模型,構(gòu)建全系統(tǒng)級(jí)的單一數(shù)據(jù)視圖,模型擴(kuò)展性強(qiáng)且具有業(yè)務(wù)中立性,用于支持各類整合型的分析型應(yīng)用。共性加工層依賴于對應(yīng)用共性需求的的分析,提煉出對數(shù)據(jù)集成平臺(tái)具有共性的數(shù)據(jù)訪問、統(tǒng)計(jì)需求,從而構(gòu)建出的一個(gè)面向應(yīng)用的、提供共享的數(shù)據(jù)訪問服務(wù)的公共數(shù)據(jù)。共性加工層主要基于整合模型層實(shí)現(xiàn)。數(shù)據(jù)應(yīng)用層各應(yīng)用系統(tǒng)存放的用于前端應(yīng)用訪問數(shù)據(jù),方便用戶靈活、動(dòng)態(tài)、快速、多角度、多層次的業(yè)務(wù)數(shù)據(jù)。數(shù)據(jù)整合原則數(shù)據(jù)來源數(shù)據(jù)包含的是社會(huì)和云系統(tǒng)內(nèi)部和社會(huì)和云系統(tǒng)外的業(yè)務(wù)系統(tǒng)數(shù)據(jù)。外部系統(tǒng)包括公安、民政、計(jì)生、稅務(wù)、國土等系統(tǒng)的數(shù)據(jù),數(shù)據(jù)來自于數(shù)據(jù)交換共享平臺(tái)。表SEQ表\*ARABIC2大數(shù)據(jù)平臺(tái)數(shù)據(jù)來源標(biāo)準(zhǔn)表系統(tǒng)歸屬數(shù)據(jù)來源數(shù)據(jù)內(nèi)容外部系統(tǒng)公安系統(tǒng)人口戶籍信息,人口的親屬關(guān)系人社部門城市人口社保信息,人口與公司關(guān)系衛(wèi)計(jì)部門農(nóng)村人口社保信息工商部門公司基礎(chǔ)信息民政部門社會(huì)組織信息編辦組織機(jī)構(gòu)單位信息住建部門房屋基礎(chǔ)信息禁毒辦吸毒信息教育局教育信息內(nèi)部系統(tǒng)網(wǎng)格化管理系統(tǒng)投訴、建議、咨詢事件信息、事件處置信息、社情民意信息、重點(diǎn)特殊人群信息社會(huì)動(dòng)員管理系統(tǒng)公益活動(dòng)信息、社會(huì)求助信息、公眾服務(wù)信息和志愿者信息社區(qū)綜合服務(wù)系統(tǒng)社會(huì)綜合服務(wù)信息數(shù)據(jù)整合概述數(shù)據(jù)整合的將多個(gè)數(shù)據(jù)來源系統(tǒng)的數(shù)據(jù)按照大數(shù)據(jù)云平臺(tái)工程的要求,將數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、加載并將數(shù)據(jù)重新組織,形成有利于業(yè)務(wù)人員理解和分析使用的正確數(shù)據(jù)存儲(chǔ)形式。從一個(gè)人口信息查看整個(gè)大數(shù)據(jù)平臺(tái)信息。技術(shù)緩沖層設(shè)計(jì)設(shè)計(jì)原則技術(shù)緩沖層需要保持源系統(tǒng)的原貌,不對數(shù)據(jù)進(jìn)行大量的改造和調(diào)整,只進(jìn)行一些常用的標(biāo)準(zhǔn)化處理。數(shù)據(jù)特點(diǎn)1、數(shù)據(jù)結(jié)構(gòu)和源系統(tǒng)保持一致。2、數(shù)據(jù)按照抽取的頻率和增全量進(jìn)行存儲(chǔ),每個(gè)頻率單獨(dú)保存一個(gè)表文件,而且存儲(chǔ)周期不需太長,能滿足后續(xù)其他層次的需求即可。3、技術(shù)緩沖層是為ETL服務(wù)的純技術(shù)層,不對外提供數(shù)據(jù)服務(wù)。數(shù)據(jù)來源技術(shù)緩沖層的數(shù)據(jù)包含的是社會(huì)和云系統(tǒng)外的業(yè)務(wù)系統(tǒng)數(shù)據(jù),例如:公安、民政、計(jì)生、稅務(wù)、國土等系統(tǒng)的數(shù)據(jù)。數(shù)據(jù)來自于數(shù)據(jù)交換共享平臺(tái),包含增量和全量的數(shù)據(jù)。整合模型層設(shè)計(jì)模型設(shè)計(jì)思路借鑒數(shù)據(jù)模型的建設(shè)思路、利用在政府?dāng)?shù)據(jù)模型領(lǐng)域的實(shí)踐經(jīng)驗(yàn)、結(jié)合市網(wǎng)格中心的需求進(jìn)行整合層模型層的設(shè)計(jì)。整合層模型采用面向主題的設(shè)計(jì)方法,有效組織來源多樣的業(yè)務(wù)數(shù)據(jù),使用統(tǒng)一的邏輯語言描述相關(guān)業(yè)務(wù),保證了數(shù)據(jù)的一致性。在此基礎(chǔ)上可以進(jìn)行多種不同應(yīng)用的開發(fā)設(shè)計(jì),滿足不同部門的業(yè)務(wù)需求和不同的數(shù)據(jù)訪問方式,真正實(shí)現(xiàn)數(shù)據(jù)一次導(dǎo)入,多次使用。它所遵循的設(shè)計(jì)原則主要包括:中性整合模型層具有應(yīng)用中性的特征。整合層模型從業(yè)務(wù)邏輯角度以關(guān)系模型方法進(jìn)行建模,涵蓋了所有的業(yè)務(wù)范圍,并可以滿足不斷產(chǎn)生的業(yè)務(wù)發(fā)展需求。整合模型層采用的這種語義關(guān)系建模的設(shè)計(jì)方式,保存了各種分析性應(yīng)用需要的所有業(yè)務(wù)數(shù)據(jù)以及這些數(shù)據(jù)之間重要的業(yè)務(wù)規(guī)則,體現(xiàn)了其作為大數(shù)據(jù)云平臺(tái)工程基礎(chǔ)數(shù)據(jù)層滿足不同應(yīng)用對數(shù)據(jù)的使用需求的功能。整合層模型不為任何特定的應(yīng)用進(jìn)行針對性的設(shè)計(jì),模型不會(huì)由于現(xiàn)有應(yīng)用的變動(dòng)或者對新應(yīng)用的支持而在結(jié)構(gòu)上重構(gòu),這體現(xiàn)了模型對應(yīng)用支持的中立性。一致性作為基礎(chǔ)數(shù)據(jù)平臺(tái)設(shè)計(jì)基礎(chǔ)的邏輯數(shù)據(jù)模型必須在設(shè)計(jì)過程中保持一個(gè)統(tǒng)一的業(yè)務(wù)定義,比如人口的分類等應(yīng)該在整個(gè)系統(tǒng)內(nèi)部保持一致,將來各種分析應(yīng)用都使用同樣的數(shù)據(jù),這些數(shù)據(jù)應(yīng)按照預(yù)先約定的規(guī)則進(jìn)行刷新,保證同步和一致。如外部系統(tǒng)和社會(huì)和云內(nèi)部系統(tǒng)數(shù)據(jù)必須依照一套相同的存放規(guī)則進(jìn)行處理,它們和其他數(shù)據(jù)的關(guān)聯(lián)以及刷新的頻率等都應(yīng)該保持同步。靈活性整合層模型是一個(gè)基本上滿足第三范式要求的語義關(guān)系模型,這種設(shè)計(jì)方法能夠最大程度上減少冗余。第三范式的設(shè)計(jì)同時(shí)保證了整合層模型的靈活性和擴(kuò)展性。面對新的需求,整合層模型的這種結(jié)構(gòu)能夠進(jìn)行簡單、自然的擴(kuò)展。這種特性使得整合層模型在設(shè)計(jì)過程可以“想大做小”——在有一個(gè)全局規(guī)劃的同時(shí),選定某些部分入手,然后再逐步進(jìn)行完善。比如可以從通過一個(gè)居民的基本信息資料、房產(chǎn)信息入手進(jìn)行簡單的分析,然后補(bǔ)充居民的公安、民政、稅務(wù)等信息,延伸至全面的人口統(tǒng)一視圖。滿足詳細(xì)粒度要求為了滿足將來不同的應(yīng)用分析需要,整合層模型能夠提供最小粒度的詳細(xì)數(shù)據(jù)以支持各種可能的分析查詢。以這些最小粒度的詳細(xì)數(shù)據(jù)為基礎(chǔ),可以根據(jù)不同的統(tǒng)計(jì)分析口徑匯總生成所需的各種結(jié)果。在整合層模型中,不對詳細(xì)數(shù)據(jù)按特定需求進(jìn)行篩選或者加工。滿足歷史數(shù)據(jù)存儲(chǔ)要求為了滿足存儲(chǔ)歷史數(shù)據(jù),又盡量考慮減少數(shù)據(jù)存儲(chǔ)空間。對于非事件的數(shù)據(jù),采用歷史拉鏈表的存儲(chǔ)方式;對于事件數(shù)據(jù),采用只保留最新數(shù)據(jù)的存儲(chǔ)方式。主題劃分此數(shù)據(jù)區(qū)按主題存放數(shù)據(jù),主題劃分如下:表SEQ表\*ARABIC3整合模型的十大主題主題中文名稱主題英文名稱模型英文簡稱人口PopulationPOP組織OrganizationORG事件EventEVT服務(wù)ServiceSRV民情ConditionCON房屋房產(chǎn)EstateEST公共設(shè)施CommunalFacilitiesCMF空間地理GeographyGGP參考項(xiàng)ReferenceREF代碼表CodeCD每個(gè)主題不是孤立存在的,相互之間是有關(guān)系的。例如:人口主題與組織、空間地理、房屋、事件、民情和服務(wù)六個(gè)主題有關(guān)系。這些關(guān)系數(shù)據(jù)會(huì)存放在相應(yīng)的關(guān)系表中。圖SEQ圖\*ARABIC4主題關(guān)系圖以一個(gè)居民的視角,查看到與其相關(guān)的所有信息。包括:其基本的屬性信息、其居住的房屋的信息、其投訴的事件、其工作的單位、其居住地區(qū)的周圍設(shè)施等信息。圖SEQ圖\*ARABIC5主題關(guān)系示例圖數(shù)據(jù)使用主題劃分的方式存放后,數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系更為清晰,對進(jìn)一步的分析決策提供了數(shù)據(jù)基礎(chǔ)。由上面的例子數(shù)據(jù),我們可以進(jìn)一步進(jìn)行數(shù)據(jù)分析。通過對居住房屋的數(shù)據(jù)和戶籍?dāng)?shù)據(jù)的分析,得出張老伯是獨(dú)自居住,若該社區(qū)開展老人服務(wù)活動(dòng)時(shí),應(yīng)該是重點(diǎn)關(guān)注對象。其反映了希望建設(shè)社區(qū)醫(yī)院的民情需求,對該網(wǎng)格數(shù)據(jù)的分析我們得出該網(wǎng)格周邊沒有醫(yī)院,同時(shí)該網(wǎng)格人口分布情況為65歲的老人占其比例的45%,因此,我們可以得出張三老人反映的民情是應(yīng)該采信,并相應(yīng)提出解決方案。主題說明如下:POPULATION(人口)人口(Population):是指全市的全部人口,包括常住人口和流動(dòng)人口。數(shù)據(jù)項(xiàng)包括人口基本信息、公安數(shù)據(jù)、社保數(shù)據(jù)、計(jì)生數(shù)據(jù)、民政數(shù)據(jù)、稅務(wù)數(shù)據(jù)、教育數(shù)據(jù)等,使用證件類型、證件號(hào)碼、姓名作為人口的唯一識(shí)別信息,將網(wǎng)格員補(bǔ)錄的人口數(shù)據(jù)與外圍系統(tǒng)(公安、社保、計(jì)生、民政、稅務(wù))數(shù)據(jù)進(jìn)行整合,形成完整、全面的人口數(shù)據(jù)。借助人口主題的建立可以實(shí)現(xiàn)基于人口信息的分析,是實(shí)現(xiàn)以人口為中心的各種分析應(yīng)用的重要基礎(chǔ)。POPULATION主題的數(shù)據(jù)是社會(huì)和云系統(tǒng)的關(guān)鍵數(shù)據(jù)要素,也是構(gòu)建基于大數(shù)據(jù)平臺(tái)的各類應(yīng)用的不可或缺的數(shù)據(jù)基礎(chǔ),在以人口為中心的數(shù)據(jù)分析決策過程中,這些信息顯得尤其重要。圖SEQ圖\*ARABIC6人口主題模型以一個(gè)人口信息為例,看數(shù)據(jù)是如何存放的。圖SEQ圖\*ARABIC7人口主題關(guān)系數(shù)據(jù)示例人口與其他主題的關(guān)系模型示例如下:圖SEQ圖\*ARABIC8人口與其他主題的關(guān)系模型關(guān)系表將人之間的關(guān)系和人與房屋、組織的關(guān)系統(tǒng)一存放,當(dāng)新增關(guān)系種類時(shí),不需要修改模型,只需要增加關(guān)系種類代碼,模型擴(kuò)展性強(qiáng)。例如:人口關(guān)系歷史將存放人與人之間的關(guān)系,包括從戶籍信息取得的親屬關(guān)系、從教育信息得到的同學(xué)關(guān)系、從工作信息得到的同事關(guān)系等各種關(guān)系。通過該表可以展示出人與人之間的結(jié)構(gòu)圖,如下圖所示:圖SEQ圖\*ARABIC9人與人關(guān)系圖圖SEQ圖\*ARABIC10親屬關(guān)系圖ORGANIZATION(組織)組織(ORGANIZATION)是指人們?yōu)閷?shí)現(xiàn)一定的目標(biāo),互相協(xié)作結(jié)合而成的集體或團(tuán)體,如法人單位,非營利性社會(huì)組織、個(gè)體戶、政府機(jī)關(guān)、事業(yè)單位。組織主題分為機(jī)關(guān)事業(yè)單位、社會(huì)組織和經(jīng)濟(jì)組織三類等。數(shù)據(jù)包括組織登記數(shù)據(jù)、組織資質(zhì)數(shù)據(jù)和組織監(jiān)管數(shù)據(jù),數(shù)據(jù)來源于編辦、稅務(wù)局、工商局、質(zhì)量技監(jiān)局、社團(tuán)局及其他相關(guān)委辦單位。圖SEQ圖\*ARABIC11組織主題模型EVENT(事件)事件(EVENT):包括群眾來訪、群眾來信、群眾來電、領(lǐng)導(dǎo)批辦、上級(jí)交辦、其他部門轉(zhuǎn)來、排查發(fā)現(xiàn)、新聞媒體曝光和其他方式收集的咨詢、建議和投訴。事件分為社會(huì)糾紛、安全生產(chǎn)、環(huán)境秩序、社會(huì)治安、出租房屋。事件主題所包含的信息是進(jìn)行決策統(tǒng)計(jì)分析所需的核心數(shù)據(jù)。圖SEQ圖\*ARABIC12事件主題數(shù)據(jù)存儲(chǔ)關(guān)系示例圖SERVICE(服務(wù))服務(wù)(SERVICE):包括是政府機(jī)關(guān)、社會(huì)群體、企事業(yè)單位提供的各類服務(wù)于廣大居民的服務(wù),包括公益活動(dòng)、證件辦理等的相關(guān)數(shù)據(jù)。公益活動(dòng)的數(shù)據(jù)主要來源于社工委社會(huì)組織工作處、各類樞紐型社會(huì)組織等,其他部門的服務(wù)數(shù)據(jù)來源于相應(yīng)的部門的業(yè)務(wù)系統(tǒng)。圖SEQ圖\*ARABIC13服務(wù)信息關(guān)系示例圖CONDITION(民情)民情(CONDITION):包括是以社區(qū)為單位,形成居民反映的基本民情信息。ESTATE(房屋房產(chǎn))房屋房產(chǎn)(ESTATE):是指房屋的物理數(shù)據(jù)(丘、幢、戶)和權(quán)屬數(shù)據(jù),包括公用建筑、民用建筑、工業(yè)廠房、商業(yè)建筑。數(shù)據(jù)來源于房管局和網(wǎng)格員采集的數(shù)據(jù)。圖SEQ圖\*ARABIC14房屋主題模型COMMUNALFACILITIES(公共設(shè)施)公共設(shè)施(COMMUNALFACILITIES):通過城市公共設(shè)施的普查,構(gòu)建全市公共設(shè)施的基礎(chǔ)信息。圖SEQ圖\*ARABIC15公共設(shè)施主題模型GEOGRAPHY(空間地理)空間地理(GEOGRAPHY):從國土、測繪等部門獲取基礎(chǔ)地形圖,經(jīng)過地理信息的補(bǔ)測、修正形成大數(shù)據(jù)云平臺(tái)工程系統(tǒng)的空間地理信息,同時(shí)包含網(wǎng)格數(shù)據(jù)。REFERENCE(參考項(xiàng))參考項(xiàng)(REFERENCE):包含宏觀經(jīng)濟(jì)、政策指引等決策支持信息。CODE(代碼表)代碼表(CODE):包含所有的代碼表信息。數(shù)據(jù)整合數(shù)據(jù)整合的輸入是從數(shù)據(jù)交換共享平臺(tái)取得的各個(gè)部門系統(tǒng)的數(shù)據(jù)文件。系統(tǒng)先要對文件進(jìn)行預(yù)處理,然后再加載源系統(tǒng)表,最后根據(jù)數(shù)據(jù)整合規(guī)則將源系統(tǒng)數(shù)據(jù)加載到整合層數(shù)據(jù)模型。1、文件預(yù)處理系統(tǒng)需要在收取數(shù)據(jù)文件之后自動(dòng)開始文件預(yù)處理(文件解壓,去文件尾),并將處理完的文件放到特定的服務(wù)器目錄下。文件預(yù)處理需要充分考慮效率和資源占用情況,保證處理過程正確完整。由于源系統(tǒng)文件有些按日下傳,注意解壓文件最好按照數(shù)據(jù)日期的目錄存儲(chǔ)。同時(shí)需要有文件清理的機(jī)制,保證系統(tǒng)不會(huì)過量的占用存儲(chǔ)資源。2、數(shù)據(jù)加載預(yù)處理完的文本文件需要按照源系統(tǒng)數(shù)據(jù)字典的定義加載到數(shù)據(jù)庫中。加載方式可以采用LOAD方式或者外表方式。注意制定源數(shù)據(jù)表的命名規(guī)范,避免重名的數(shù)據(jù)表定義出現(xiàn)。3、數(shù)據(jù)整合數(shù)據(jù)整合主要是將源數(shù)據(jù)表里的數(shù)據(jù)加載到整合層數(shù)據(jù)模型,將從十幾個(gè)部門系統(tǒng)的數(shù)據(jù)在整合層中按照主題存放。對于代碼字段要按照市統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行標(biāo)準(zhǔn)化處理,例如:婚姻狀況屬性在公安、民政、計(jì)生的編碼不一致,在整合層存儲(chǔ)時(shí)要將其進(jìn)行標(biāo)準(zhǔn)化,將其代碼統(tǒng)一。4、整合數(shù)據(jù)的范圍包括網(wǎng)格化管理系統(tǒng)、12345公共服務(wù)熱線、社會(huì)動(dòng)員管理系統(tǒng)、社區(qū)綜合服務(wù)系統(tǒng)、公安局、社保局、計(jì)生委、民政局、稅務(wù)局、教委、工商局、質(zhì)量技監(jiān)局、社團(tuán)局、房管局等系統(tǒng)數(shù)據(jù)。屬性覆蓋因從多個(gè)部門取數(shù),會(huì)出現(xiàn)屬性不一致的現(xiàn)象,原則上以數(shù)據(jù)產(chǎn)生系統(tǒng)的數(shù)據(jù)為準(zhǔn)。對于有明確來源系統(tǒng)的屬性項(xiàng),在數(shù)據(jù)整合時(shí)會(huì)以該系統(tǒng)為準(zhǔn),例如:房屋信息以房管局的信息為準(zhǔn),不再取其他系統(tǒng)的數(shù)據(jù)。對于沒有明確來源系統(tǒng)的屬性項(xiàng),在整合層會(huì)將多個(gè)數(shù)據(jù)源的信息都保存。當(dāng)出現(xiàn)多個(gè)數(shù)據(jù)源數(shù)據(jù)不一致時(shí),將向網(wǎng)格人員生成信息核對任務(wù),由網(wǎng)格人員進(jìn)戶核對信息維護(hù)到網(wǎng)格化管理系統(tǒng)中,同時(shí)將確定本系統(tǒng)最終認(rèn)定的屬性項(xiàng)。以婚姻狀況為例,公安、民政、計(jì)生都有婚姻狀況,但不能認(rèn)定其以哪個(gè)部門為準(zhǔn),因此在其數(shù)據(jù)存放如下:圖SEQ圖\*ARABIC16數(shù)據(jù)屬性覆蓋存放模型共性加工層設(shè)計(jì)設(shè)計(jì)原則需求驅(qū)動(dòng)共性加工層是因?yàn)樾枨蠖a(chǎn)生的,所以一定要基于需求。提煉共性共性加工層是提煉不同應(yīng)用公共指標(biāo),提煉的程度太高會(huì)失去共性加工層的意義。架構(gòu)分明在共性加工層再分明細(xì)層和共性加工層,明細(xì)層是主要是人口主題的擴(kuò)展。共性加工層是除人口外的其他主題業(yè)務(wù)呈現(xiàn)。為了便于使用和管理,可根據(jù)數(shù)據(jù)匯總加工的粒度不同,明確其分層分類方法,使其層次清晰。迭代開發(fā)共性加工層的建設(shè)是一個(gè)循環(huán)往復(fù)的過程,不可能一步到位。隨著應(yīng)用的增加,共性加工層會(huì)不斷的豐富,提升其業(yè)務(wù)價(jià)值。設(shè)計(jì)思路共性加工層的設(shè)計(jì)思路通常有視圖和物理表兩種方式:1、視圖視圖的加工邏輯寫在視圖定義中,由數(shù)據(jù)集市開發(fā)人員建立。當(dāng)業(yè)務(wù)應(yīng)用人員需要訪問這些加工數(shù)據(jù)時(shí),直接通過視圖進(jìn)行檢索。當(dāng)然數(shù)據(jù)庫實(shí)際執(zhí)行時(shí)還是要按視圖定義,到基礎(chǔ)層進(jìn)行查詢。視圖的優(yōu)勢在于:視圖本身并不存儲(chǔ)數(shù)據(jù),不需要額外的空間開銷;視圖的邏輯是寫在視圖定義中,不會(huì)提前按此邏輯預(yù)加工生成數(shù)據(jù),修改邏輯時(shí)就很容易;視圖本身不存儲(chǔ)數(shù)據(jù),對于稍有不同的需求就可以建多個(gè)視圖來實(shí)現(xiàn),不會(huì)形成任何額外存儲(chǔ)開銷。視圖的劣勢在于:在視圖的實(shí)際操作訪問時(shí),是按視圖定義中的邏輯展開,在基礎(chǔ)層中進(jìn)行查詢。視圖邏輯很復(fù)雜時(shí),實(shí)際的數(shù)據(jù)庫資源開銷還是很大的,查詢速度也會(huì)比較慢;當(dāng)多個(gè)人在同一天要多次訪問同一個(gè)視圖時(shí),就會(huì)重復(fù)消耗數(shù)據(jù)庫資源,同時(shí)每個(gè)人都會(huì)面對較長的查詢等待時(shí)間。2、預(yù)加工物理表預(yù)加工物理表將加工邏輯寫在ETL程序中,由開發(fā)人員開發(fā),定期運(yùn)行這些程序?qū)⒆罱K所需的數(shù)據(jù)加工好放在物理表中。當(dāng)業(yè)務(wù)應(yīng)用人員需要訪問這些數(shù)據(jù)時(shí),直接訪問這些已經(jīng)預(yù)加工好的物理表即可。預(yù)加工物理表的優(yōu)勢在于:復(fù)雜的加工邏輯已經(jīng)在ETL程序運(yùn)行時(shí)一次性的處理完畢,訪問效率會(huì)比視圖要好;基于物理表上有很多提高查詢效率的技術(shù)可用,而視圖可能就無法使用這些技術(shù),預(yù)加工物理表可以適當(dāng)采用這樣的技術(shù)以進(jìn)一步提高查詢效率;基于基礎(chǔ)層表的復(fù)雜的加工邏輯已經(jīng)在ETL程序運(yùn)行時(shí)一次性的處理完畢,當(dāng)需要多次訪問時(shí)節(jié)約開銷和提高效率的優(yōu)勢就會(huì)體現(xiàn)的更充分。預(yù)加工物理表的劣勢在于:預(yù)加工物理表本身需要存儲(chǔ)數(shù)據(jù),需要額外的空間開銷,特別是當(dāng)目標(biāo)數(shù)據(jù)集較大時(shí),這些開銷還是非??捎^的,還會(huì)引出一個(gè)數(shù)據(jù)保留周期的問題;預(yù)加工物理表的邏輯是寫在ETL程序定義中,會(huì)提前按此邏輯預(yù)加工生成數(shù)據(jù),因此修改邏輯時(shí)就很復(fù)雜,而且還涉及歷史數(shù)據(jù)的問題;預(yù)加工物理表管理相對復(fù)雜,成本較高,增加刪除需謹(jǐn)慎,且數(shù)量亦不適合太多。在共性加工層設(shè)計(jì)時(shí)視圖和物理表的選擇是一個(gè)比較復(fù)雜的問題,不可一概而論。最重要的決定因素是系統(tǒng)的配置情況,其次還有用戶對于查詢的效率期望值,中間表數(shù)據(jù)被重用的可能性,表數(shù)據(jù)量的大小等。實(shí)現(xiàn)方式共性加工層的實(shí)現(xiàn)方式主要有三種,分別為預(yù)鏈接、預(yù)計(jì)算和預(yù)聚合。1、預(yù)連接預(yù)連接指的是原來分散在整合模型層中的很多信息根據(jù)應(yīng)用的需要進(jìn)行預(yù)連接,這種預(yù)連接可以有不同的實(shí)現(xiàn)方式,比如可以采用物理表,也可以采用視圖。2、預(yù)計(jì)算預(yù)計(jì)算在整合模型層中難于計(jì)算,通常是規(guī)則比較復(fù)雜,或者計(jì)算一次所需的時(shí)間比較長的數(shù)據(jù)預(yù)先計(jì)算出來,但粒度不變,仍為最細(xì)的人口粒度;對于需要預(yù)計(jì)算的數(shù)據(jù),因?yàn)闃I(yè)務(wù)邏輯比較復(fù)雜,建議采用物理表的方式。3、預(yù)聚合預(yù)聚合維度建模方式對整合模型層和共性加工明細(xì)層進(jìn)行匯總和聚合,不再是最細(xì)粒度了。對于預(yù)聚合,也將采用物理表與視圖結(jié)合的方式,但因?yàn)轭A(yù)聚合的粒度已經(jīng)比較粗了,所以數(shù)據(jù)量上也會(huì)減少很多,所以可以適當(dāng)?shù)亩嗖捎梦锢肀淼姆绞?,以?jié)約系統(tǒng)資源,提高查詢效率。數(shù)據(jù)應(yīng)用層設(shè)計(jì)數(shù)據(jù)應(yīng)用層定位四大應(yīng)用系統(tǒng)做為社會(huì)和云系統(tǒng)的一個(gè)子集,他主要面向某個(gè)特定的應(yīng)用。其定位包括:1、大數(shù)據(jù)平臺(tái)有大量的數(shù)據(jù);應(yīng)用系統(tǒng)中的數(shù)據(jù)更多的是大數(shù)據(jù)平臺(tái)的子集,主要是基于大數(shù)據(jù)平臺(tái)之上來建立的。2、大數(shù)據(jù)平臺(tái)只適于少量的靈活訪問;而應(yīng)用系統(tǒng)適合大量的非預(yù)知的數(shù)據(jù)的訪問和分析。3、應(yīng)用層主要是面向應(yīng)用而設(shè)計(jì)的,可以面向特定應(yīng)用需求而設(shè)計(jì)數(shù)據(jù)結(jié)構(gòu);4、應(yīng)用層的建設(shè)可以以3NF方式進(jìn)行設(shè)計(jì),也可以采用星型模型或多維模型的方式進(jìn)行設(shè)計(jì);5、大數(shù)據(jù)平臺(tái)內(nèi)存儲(chǔ)了很長時(shí)間范圍內(nèi)的數(shù)據(jù)—從5年到10年,而應(yīng)用集市數(shù)據(jù)則可根據(jù)應(yīng)用的需要靈活掌握;6、大數(shù)據(jù)平臺(tái)允許分析人員以受限的形式訪問數(shù)據(jù),而應(yīng)用集市允許自由的訪問。設(shè)計(jì)原則應(yīng)用數(shù)據(jù)與系統(tǒng)數(shù)據(jù)字典的數(shù)據(jù)分開存儲(chǔ)于不同的表空間。按應(yīng)用劃分?jǐn)?shù)據(jù),不同應(yīng)用的數(shù)據(jù)應(yīng)存儲(chǔ)于不同的表空間,便以數(shù)據(jù)處理及前端查詢。按業(yè)務(wù)管理需要獨(dú)立處理或維護(hù)的數(shù)據(jù),例如獨(dú)立進(jìn)行數(shù)據(jù)備份或清理,應(yīng)考慮存儲(chǔ)在獨(dú)立的表空間。表和索引分開存儲(chǔ)于不同的表空間,以便分布到不同的數(shù)據(jù)文件、硬盤上,并分別進(jìn)行不同的物理存儲(chǔ)參數(shù)優(yōu)化。并行存取的多個(gè)分區(qū),應(yīng)考慮存放在不同的表空間,以控制分區(qū)分布到不同的數(shù)據(jù)文件、硬盤上。相對靜態(tài)的表和頻繁變動(dòng)的表分開存放在不同的表空間,以便分別進(jìn)行不同的物理參數(shù)優(yōu)化。數(shù)據(jù)庫服務(wù)架構(gòu)基于云計(jì)算平臺(tái),將關(guān)系型數(shù)據(jù)庫的能力以服務(wù)的形式提供給用戶,同時(shí)具有傳統(tǒng)關(guān)系型數(shù)據(jù)庫軟件系統(tǒng)常見的功能,又具備更多優(yōu)勢。目前需要支持MySQL數(shù)據(jù)庫,后期會(huì)擴(kuò)展到Oracle、MSSQLServer和PostgreSQL等。數(shù)據(jù)庫服務(wù)能夠?qū)崿F(xiàn)對Oracle、MSSQLServer等資源的應(yīng)用,可以采用物理機(jī)和虛機(jī)的方式整機(jī)部署分發(fā)的方式,也可以采用高性能物理機(jī)部署后采用數(shù)據(jù)庫自身的管理系統(tǒng)進(jìn)行實(shí)例的分發(fā)。圖SEQ圖\*ARABIC17數(shù)據(jù)庫整體架構(gòu)其主要功能包括:實(shí)例管理,包括創(chuàng)建實(shí)例、增刪改實(shí)例、重啟實(shí)例、讀寫分離主從設(shè)置等;數(shù)據(jù)遷移,將數(shù)據(jù)導(dǎo)入導(dǎo)出實(shí)例;數(shù)據(jù)備份與恢復(fù),可設(shè)置自動(dòng)備份策略或者隨時(shí)手動(dòng)備份,支持物理備份和邏輯備份,支持全量備份和增量備份,支持刪除備份,支持從備份點(diǎn)文件恢復(fù);數(shù)據(jù)庫與帳號(hào)管理,對數(shù)據(jù)庫及數(shù)據(jù)庫帳號(hào)進(jìn)行增刪改查等操作;數(shù)據(jù)庫參數(shù)配置,用戶可靈活自定義數(shù)據(jù)庫參數(shù),使數(shù)據(jù)庫性能最優(yōu)化;運(yùn)行監(jiān)控,直觀呈現(xiàn)實(shí)例的資源使用情況,以及數(shù)據(jù)庫引擎的各項(xiàng)參數(shù)指標(biāo)運(yùn)行狀況;日志管理,對錯(cuò)誤日志和慢日志進(jìn)行統(tǒng)計(jì)分析,為用戶優(yōu)化數(shù)據(jù)庫性能提供參考信息。應(yīng)用支撐系統(tǒng)設(shè)計(jì)大數(shù)據(jù)基礎(chǔ)平臺(tái)設(shè)計(jì)概述大數(shù)據(jù)數(shù)據(jù)應(yīng)用平臺(tái)以Hadoop及其相關(guān)技術(shù)為核心,提供海量數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)查詢、挖掘分析能力。通過集成系統(tǒng)中各來源的結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),一方面將各級(jí)職能部門結(jié)構(gòu)化信息進(jìn)行統(tǒng)一管理,另一方面將內(nèi)網(wǎng)上相關(guān)信息加以融合。大數(shù)據(jù)平臺(tái)將結(jié)合其他各個(gè)業(yè)務(wù)系統(tǒng),集成各種數(shù)據(jù)源后,搭建統(tǒng)一集中大數(shù)據(jù)處理和分析平臺(tái),從全方位,多角度為運(yùn)營決策提供強(qiáng)有力的幫助。Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺(tái),可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn):高可靠性Hadoop在文件存儲(chǔ)和處理數(shù)據(jù)的能力值得信賴。高擴(kuò)展性Hadoop是在可用的計(jì)算機(jī)集群間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集群可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。高效性Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???。高容錯(cuò)性Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。技術(shù)方案物理架構(gòu)設(shè)計(jì)方案大數(shù)據(jù)平臺(tái)的物理架構(gòu)實(shí)現(xiàn)是十分復(fù)雜且技術(shù)難度較大的過程。參考目前流行的大數(shù)據(jù)設(shè)計(jì)理念和先進(jìn)技術(shù),設(shè)計(jì)大數(shù)據(jù)平臺(tái)集群物理架構(gòu)圖如下:圖SEQ圖\*ARABIC18大數(shù)據(jù)平臺(tái)集群示意圖其中主要包括的機(jī)器節(jié)點(diǎn)描述如下:ResourceManage此節(jié)點(diǎn)用于運(yùn)行計(jì)算框架YARN的主服務(wù)節(jié)點(diǎn),控制整個(gè)集群的計(jì)算資源的分配和調(diào)度。需要有兩個(gè)節(jié)點(diǎn)。NameNode此節(jié)點(diǎn)用于Hadoop集群中的HDFS文件系統(tǒng)的存儲(chǔ)主節(jié)點(diǎn)服務(wù),控制所有集群中的文件存儲(chǔ)相關(guān)分析和管理。需要兩個(gè)節(jié)點(diǎn)。HMaster此為Hbase的數(shù)據(jù)庫相關(guān)服務(wù)的主節(jié)點(diǎn),需要部署兩份。DataNode此節(jié)點(diǎn)主要用于分布式的存儲(chǔ)、計(jì)算應(yīng)用。會(huì)部署Hbase、HFDS、YARN等相應(yīng)的從節(jié)點(diǎn)服務(wù)。OtherComponents機(jī)器用于規(guī)劃安裝一個(gè)額外的計(jì)算組件、數(shù)據(jù)庫、監(jiān)控工具等。WebService用于集群的對應(yīng)服務(wù)應(yīng)用的安裝,如歷史數(shù)據(jù)查詢的接口服務(wù)。關(guān)鍵點(diǎn)設(shè)計(jì)及推薦架構(gòu)1、Hadoop集群高可用設(shè)計(jì)方案Hadoop采用zookeeper集群實(shí)現(xiàn)HDFS、YARN、HBASE、HIVE等集群組件的高可用。所有的重要服務(wù)都是雙份,通過Zookeeper實(shí)現(xiàn)實(shí)時(shí)的監(jiān)控。若出現(xiàn)活動(dòng)狀態(tài)的主節(jié)點(diǎn)故障時(shí),Zookeeper監(jiān)測到故障,立即將另一個(gè)備用狀態(tài)的主節(jié)點(diǎn)激活為活動(dòng)狀態(tài),保證了集群不會(huì)出現(xiàn)運(yùn)行中斷。同時(shí),在Hadoop集群中,最重要的是保證HDFS數(shù)據(jù)不會(huì)丟失,實(shí)現(xiàn)的方式就是通過JournalNode集群,實(shí)現(xiàn)兩個(gè)NameNode節(jié)點(diǎn)間的元數(shù)據(jù)實(shí)時(shí)同步,保證元數(shù)據(jù)不會(huì)丟失,也保障也集群的數(shù)據(jù)安全性。圖SEQ圖\*ARABIC19Hadoop集群高可用性架構(gòu)圖2、Hadoop集群中各節(jié)點(diǎn)的功能及安裝的組件規(guī)劃以下列表為Hadoop集群中的核心組件、客戶端、應(yīng)用程序的安裝規(guī)劃列表。描述了各主節(jié)點(diǎn)、監(jiān)控節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)等需要安裝的核心組件。另外需要說明的是,一些核心組件由于只需要安裝客戶端,因此沒有詳細(xì)體現(xiàn)在列表中(見表格最后一列),這些組件包括:Spark、Flume、Kafka、Pig、solr、nutch等,可根據(jù)實(shí)現(xiàn)應(yīng)用需要進(jìn)行安裝。表SEQ表\*ARABIC4Hadoop集群核心組件安裝規(guī)劃機(jī)器序號(hào)分類HDFSYARNHbaseJournalNodezookeeperHive應(yīng)用程序及客戶端組件1主節(jié)點(diǎn)namenode2主節(jié)點(diǎn)namenode3主節(jié)點(diǎn)ResourceManagerHmaster4主節(jié)點(diǎn)ResourceManagerHmaster5監(jiān)控節(jié)點(diǎn)、客戶端節(jié)點(diǎn)JournalNodezookeeperHiveServerMYSQL各Hadoop客戶端組件6監(jiān)控節(jié)點(diǎn)、客戶端節(jié)點(diǎn)JournalNodezookeeperHiveServerMYSQL各Hadoop客戶端組件7監(jiān)控節(jié)點(diǎn)、客戶端節(jié)點(diǎn)JournalNodezookeeper各Hadoop客戶端組件8應(yīng)用程序節(jié)點(diǎn)HiveClientWebService、調(diào)度服務(wù)9應(yīng)用程序節(jié)點(diǎn)HiveClientWebService調(diào)度服務(wù)10數(shù)據(jù)節(jié)點(diǎn)datanodeNodeManagerHRegionServer11數(shù)據(jù)節(jié)點(diǎn)datanodeNodeManagerHRegionServer12數(shù)據(jù)節(jié)點(diǎn)datanodeNodeManagerHRegionServer17數(shù)據(jù)節(jié)點(diǎn)datanodeNodeManagerHRegionServer18數(shù)據(jù)節(jié)點(diǎn)datanodeNodeManagerHRegionServer3、集群的物理部署架構(gòu)推薦Hadoop集群中推薦的節(jié)點(diǎn)部署架構(gòu)如下圖所示,以機(jī)架為單位,每個(gè)機(jī)器上存放若干個(gè)機(jī)器節(jié)點(diǎn)。所有的主節(jié)點(diǎn)分別分一個(gè)機(jī)器(實(shí)現(xiàn)部署在兩套機(jī)架上,因?yàn)樗兄鞴?jié)點(diǎn)都是雙份的);從節(jié)點(diǎn)按實(shí)際的機(jī)架容量分別放到多臺(tái)機(jī)架上,需要注意的是在Hadoop中可以通過配置機(jī)器對應(yīng)的機(jī)架來提高訪問的效率,hdfs會(huì)優(yōu)先訪問本機(jī)架所對應(yīng)的節(jié)點(diǎn)上的數(shù)據(jù),以提高訪問的效率。機(jī)架內(nèi)部的節(jié)點(diǎn)之前以千兆網(wǎng)絡(luò)進(jìn)行聯(lián)結(jié),機(jī)架之前通過萬兆交換機(jī)進(jìn)行聯(lián)結(jié)。圖SEQ圖\*ARABIC20集群部署物理架構(gòu)推薦系統(tǒng)資源及配置規(guī)劃表SEQ表\*ARABIC5系統(tǒng)資源配置規(guī)劃表MachineTypeWorkloadPattern/ClusterTypeStorageProcessor(#ofCores)Memory(GB)NetworkSlavesBalancedworkloadTwelve2-3TBdisks8128-2561GBonboard,2*10GBEmezzanine/externalCompute-intensiveworkloadTwelve1-2TBdisks10128-2561GBonboard,2*10GBEmezzanine/externalStorage-heavyworkloadTwelve4+TBdisks8128-2561GBonboard,2*10GBEmezzanine/externalNameNodeBalancedworkloadFourormore2-3TBRAID10withspares8128-2561GBonboard,2*10GBEmezzanine/externalResourceManagerBalancedworkloadFourormore2-3TBRAID10withspares8128-2561GBonboard,2*10GBEmezzanine/external網(wǎng)絡(luò)資源規(guī)劃網(wǎng)絡(luò)資源規(guī)劃如下圖所示。機(jī)架內(nèi)部的節(jié)點(diǎn)機(jī)器之前最少采用千兆網(wǎng)連接,并且采用雙網(wǎng)卡,各機(jī)架與主節(jié)點(diǎn)的聯(lián)結(jié)采用萬兆網(wǎng)連接,保證集群的網(wǎng)絡(luò)高可用性和傳輸速度。圖SEQ圖\*ARABIC21大數(shù)據(jù)平臺(tái)網(wǎng)絡(luò)資源規(guī)劃圖計(jì)算架構(gòu)實(shí)現(xiàn)整合層計(jì)算方案大數(shù)據(jù)平臺(tái)歷史數(shù)據(jù)存儲(chǔ)在整合模型層,建議以整合數(shù)據(jù)模型進(jìn)行存儲(chǔ),保持?jǐn)?shù)據(jù)格式的一致性。業(yè)務(wù)系統(tǒng)在將每日增量數(shù)據(jù)加載到hadoop平臺(tái)之后,通過hdfs文件進(jìn)行存儲(chǔ);為方便后續(xù)數(shù)據(jù)分析和應(yīng)用,數(shù)據(jù)在進(jìn)行歷史存儲(chǔ)時(shí),一般采用二維表的形式,也就是采用hive進(jìn)行保存。針對每日的增量數(shù)據(jù),可以采用按日分區(qū)的方式,將數(shù)據(jù)加載到hive表中,區(qū)分?jǐn)?shù)據(jù)的歷史。具體的計(jì)算架構(gòu)如下圖所示:圖SEQ圖\*ARABIC22緩沖層到整合層計(jì)算框架數(shù)據(jù)清洗在從源系統(tǒng)抽取的數(shù)據(jù)存儲(chǔ)到hdfs平臺(tái)后,數(shù)據(jù)以文件的形式進(jìn)行存儲(chǔ),各字段間和字段內(nèi)容可以存在不規(guī)范的情況,或數(shù)據(jù)存在錯(cuò)誤的情況。這時(shí)若直接將數(shù)據(jù)存儲(chǔ)到歷史表中,將引發(fā)后續(xù)數(shù)據(jù)計(jì)算的錯(cuò)誤,或者解析的失敗。例如,字段包括特殊字符、代碼類型錯(cuò)誤等。這時(shí)就需要在數(shù)據(jù)入庫前,先進(jìn)行數(shù)據(jù)的清洗和轉(zhuǎn)換。對于非結(jié)構(gòu)化的數(shù)據(jù),需要自定義mapreduce程序來處理;而對于大多數(shù)的業(yè)務(wù)數(shù)據(jù)表,我們可以采用pig流式處理直接對數(shù)據(jù)進(jìn)行解析,然后存儲(chǔ)hive表中。數(shù)據(jù)存儲(chǔ)在hadoop平臺(tái)中,存在有統(tǒng)一的元數(shù)據(jù)管理工具HCatalog。HCatalog可以對各組件進(jìn)行統(tǒng)一的數(shù)據(jù)格式管理,保證各種工具可以該問相同的一份數(shù)據(jù)。例如,注冊了Hive表之后,我們可以利用Pig對數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換,然后直接訪問Hive表,將數(shù)據(jù)存儲(chǔ)進(jìn)入。在進(jìn)行數(shù)據(jù)存儲(chǔ)的同時(shí),我們通過hive的分區(qū)技術(shù),按日將數(shù)據(jù)進(jìn)行分區(qū),采用覆蓋存儲(chǔ)的方式,保證每日的數(shù)據(jù)不會(huì)出現(xiàn)重復(fù)的情況。共性加工層計(jì)算方案共性加工層用于將源數(shù)據(jù)按業(yè)務(wù)需求,將數(shù)據(jù)進(jìn)行加工統(tǒng)計(jì)、匯總等,供各業(yè)務(wù)系統(tǒng)使用。此處數(shù)據(jù)存儲(chǔ)需要根據(jù)實(shí)際應(yīng)用方式來確定。針對實(shí)時(shí)查詢和統(tǒng)計(jì)的數(shù)據(jù),可以采用hbase進(jìn)行數(shù)據(jù)存儲(chǔ),保證查詢的高效性。針對集市應(yīng)用等需求,可以將加工統(tǒng)計(jì)的數(shù)據(jù)采用hive表進(jìn)行存儲(chǔ),方便數(shù)據(jù)的導(dǎo)出和批量處理。在進(jìn)行數(shù)據(jù)處理時(shí),采用Hcatalog統(tǒng)一進(jìn)行元數(shù)據(jù)的管理,保證近源層和共性加工層的數(shù)據(jù)處理統(tǒng)一性。也就是在通過hbase進(jìn)行存儲(chǔ)時(shí),同樣可以采用hive、pig進(jìn)行數(shù)據(jù)的訪問。所有的數(shù)據(jù)在加工到共性加工層時(shí),都可以通過Hive的查詢語言進(jìn)行處理,通過python腳本進(jìn)行處理邏輯的包裝。圖SEQ圖\*ARABIC23共性加工層計(jì)算框架圖數(shù)據(jù)應(yīng)用于查詢方案Hadoop中可以提供兩種數(shù)據(jù)查詢的方案,可針對報(bào)表應(yīng)用、數(shù)據(jù)挖掘工具的接入進(jìn)行直接的訪問,同時(shí)也可以進(jìn)行自定義數(shù)據(jù)查詢的開發(fā)。查詢服務(wù)邏輯功能如下圖:圖SEQ圖\*ARABIC24應(yīng)用集市層應(yīng)用框架圖1、Hive數(shù)據(jù)查詢Hadoop大數(shù)據(jù)平臺(tái)可提供全面的數(shù)據(jù)查詢服務(wù),具有如下特點(diǎn):適用于大規(guī)模的數(shù)據(jù)導(dǎo)出;利用Mapreduce/Tez引擎,適合復(fù)雜的SQL邏輯分析;較適合結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ);可應(yīng)用于歷史數(shù)據(jù)的統(tǒng)計(jì)分析,負(fù)責(zé)的數(shù)據(jù)查詢運(yùn)算等,非常適合為下游系統(tǒng)提供數(shù)據(jù)導(dǎo)出服務(wù)。2、Hbase數(shù)據(jù)查詢適用于實(shí)時(shí)響應(yīng)的查詢Phoenix提供SQL查詢接口,同時(shí)提供表索引功能Solr提供快速的全文檢索,適合模糊匹配的索引功能HBASE更適合結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)由于HBaze數(shù)據(jù)查詢具備的以上特點(diǎn),可用于支持下游應(yīng)用系統(tǒng)的數(shù)據(jù)服務(wù)、全文檢索查詢服務(wù)、模糊匹配查詢服務(wù)等??芍С秩缇W(wǎng)格化管理系統(tǒng)的數(shù)據(jù)支持服務(wù)、數(shù)據(jù)導(dǎo)出服務(wù)、決策系統(tǒng)的數(shù)據(jù)分析與挖掘服務(wù)等。并且支持ETL設(shè)計(jì)ETL是指數(shù)據(jù)的抽?。‥xtract),轉(zhuǎn)換(Transform)和加載(Load),是大數(shù)據(jù)平臺(tái)實(shí)施的一個(gè)非常重要的環(huán)節(jié),在項(xiàng)目實(shí)施的第一階段中是項(xiàng)目實(shí)施的工作重點(diǎn),建立一套完整、正確、高效的數(shù)據(jù)抽取、轉(zhuǎn)換和加載機(jī)制,是大數(shù)據(jù)平臺(tái)的基礎(chǔ)性目標(biāo)。需要指出的是,由于并行數(shù)據(jù)庫的發(fā)展,目前更主流的大數(shù)據(jù)平臺(tái)ETL模式是“E”“L”“T”的模式,即數(shù)據(jù)抽取、加載、轉(zhuǎn)換。轉(zhuǎn)換操作一般是庫內(nèi)進(jìn)行。因此在項(xiàng)目實(shí)施過程中,Extract部分既可以采用已有ETL工具如InformaticPowerCenter,亦可以采自行開發(fā)的腳本,Load部分采用已有ETL工具或者數(shù)據(jù)庫客戶端加載工具,最后在進(jìn)行轉(zhuǎn)換(Transform)時(shí)采用腳本開發(fā)語言+SQL腳本實(shí)現(xiàn)。該ETL架構(gòu)充分考慮在大數(shù)據(jù)查詢、大批量大數(shù)據(jù)文件加載、卸載處理情況下,系統(tǒng)仍能保證高效、穩(wěn)定的運(yùn)行。大數(shù)據(jù)平臺(tái)的ETL過程是數(shù)據(jù)處理的核心過程。通過使用ETL的相關(guān)技術(shù),對從源系統(tǒng)輸入的數(shù)據(jù)進(jìn)行清洗、比對、處理、加工等處理步驟,完成數(shù)據(jù)集中、數(shù)據(jù)整合、數(shù)據(jù)標(biāo)準(zhǔn)化等過程。為下游業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)支持。圖SEQ圖\*ARABIC25ETL架構(gòu)設(shè)計(jì)圖數(shù)據(jù)抽取對源系統(tǒng)的數(shù)據(jù)進(jìn)行抽取,只有在源系統(tǒng)不具備自行導(dǎo)出文件的前提下,才需要大數(shù)據(jù)平臺(tái)主動(dòng)抽取數(shù)據(jù)。雖然可以做到直連源系統(tǒng)將數(shù)據(jù)抽取到緩沖層,但在時(shí)間充裕的情況下不建議這樣做。將數(shù)據(jù)抽取成文件可以保證系統(tǒng)的一致性,并在文件層對源系統(tǒng)的數(shù)據(jù)進(jìn)行管理和歸檔。本模塊還需要包含檢查源系統(tǒng)是否就緒和對源系統(tǒng)進(jìn)行抽取通知等功能??梢允褂霉驳臄?shù)據(jù)庫表和源系統(tǒng)交換信息,源系統(tǒng)具備開發(fā)條件的,也可以使用socket開發(fā)通信接口。抽取過程的提取增量問題,優(yōu)先使用時(shí)間戳提取增量。在沒有時(shí)間戳的情況下,如果源表很大,可以申請?jiān)聪到y(tǒng)建立觸發(fā)器或者建立輔助表記錄源表每行的哈希值來輔助提取增量,但不建議這種辦法,會(huì)對源系統(tǒng)造成較大影響。通過數(shù)據(jù)庫日志提取增量只能通過IBM或Oracle的工具實(shí)現(xiàn),需要額外購買。如今的硬件吞吐能力很強(qiáng),在不具備增量抽取條件時(shí)建議直接抽取全量,在大數(shù)據(jù)平臺(tái)的近源層可以為下游提供增量。數(shù)據(jù)加載數(shù)據(jù)由文件加載至數(shù)據(jù)緩沖層,該層的數(shù)據(jù)特點(diǎn):短期的,細(xì)節(jié)地反應(yīng)業(yè)務(wù)原貌的數(shù)據(jù)存儲(chǔ),直接提供基于源系統(tǒng)結(jié)構(gòu)的簡單原貌訪問,為BI環(huán)境中適合的業(yè)務(wù)需求提供支持。在此層只對數(shù)據(jù)進(jìn)行簡單處理,不考慮整合??紤]到數(shù)據(jù)量,對于非關(guān)鍵字段不保留歷史,加載前需要對文件進(jìn)行校驗(yàn)。滿足特定的需求:有些就需要原始數(shù)據(jù),滿足業(yè)務(wù)人員使用;可考慮對此層數(shù)據(jù)會(huì)做一些數(shù)據(jù)類型的規(guī)范化,減少錯(cuò)誤發(fā)生的可能性;上游數(shù)據(jù)標(biāo)準(zhǔn)發(fā)生變化,整合層將標(biāo)準(zhǔn)化為整合層提供數(shù)據(jù)源,以便及時(shí)修正整合層數(shù)據(jù)對于源系統(tǒng)刪除的,建議打上刪除標(biāo)簽與整合層類似,采用集中標(biāo)準(zhǔn)的算法。近源層加工緩沖層的數(shù)據(jù)通過不同算法進(jìn)入近源層。本層的模型基本和源系統(tǒng)相同,所以這層主要做如下工作:標(biāo)準(zhǔn)化本層并不做代碼轉(zhuǎn)換,但是會(huì)對日期,金額,等字段類型進(jìn)行標(biāo)準(zhǔn)化處理,以不影響數(shù)據(jù)原貌為前提。全量覆蓋代碼表等不需要保留歷史的表進(jìn)行全量覆蓋操作。增量對比對緩沖層的數(shù)據(jù)進(jìn)行增量對比,加載入歷史表中。歷史拉鏈可以用最經(jīng)濟(jì)的方式保存相當(dāng)長期的數(shù)據(jù)。整合層加工近源層的數(shù)據(jù)經(jīng)過轉(zhuǎn)換整合進(jìn)入主題模型層,該層的數(shù)據(jù)特點(diǎn):長期的,細(xì)節(jié)的,整合的數(shù)據(jù)存儲(chǔ),為大數(shù)據(jù)平臺(tái)環(huán)境中適合的各類業(yè)務(wù)需求提供支持,此層的數(shù)據(jù)處理主要是面向全局的數(shù)據(jù)整合,中性設(shè)計(jì),靈活擴(kuò)展,提供規(guī)范和共享。面向主題設(shè)計(jì),采用主題設(shè)計(jì);主要存放細(xì)節(jié)的和歷史的數(shù)據(jù)。共性加工層主題模型層數(shù)據(jù)經(jīng)過一定的轉(zhuǎn)換加工進(jìn)入共性加工層,該層的數(shù)據(jù)特點(diǎn):共性加工層是從業(yè)務(wù)的視角出發(fā),提煉出對大數(shù)據(jù)平臺(tái)具有共性的數(shù)據(jù)訪問、統(tǒng)計(jì)需求,從而構(gòu)建出的一個(gè)面向支持應(yīng)用的、提供共享的數(shù)據(jù)訪問服務(wù)的公共數(shù)據(jù)。共性加工層通常是提煉一些應(yīng)用的共性加工,并在此層一次加工后供下游應(yīng)用多次使用。其作用是:同時(shí)服務(wù)于多個(gè)不同應(yīng)用,實(shí)現(xiàn)數(shù)據(jù)加工結(jié)果的共享,減少系統(tǒng)重復(fù)加工的開銷;提高使用時(shí)的查詢效率;降低應(yīng)用開發(fā)和數(shù)據(jù)查詢的復(fù)雜程度;實(shí)現(xiàn)對常用業(yè)務(wù)統(tǒng)計(jì)口徑統(tǒng)一的定義和維護(hù),而不致于不同的應(yīng)用加工出不同口徑的數(shù)據(jù);加快新應(yīng)用的實(shí)施進(jìn)度;便于業(yè)務(wù)分析人員直接使用數(shù)據(jù)服務(wù)子系統(tǒng)的數(shù)據(jù)進(jìn)行查詢分析;應(yīng)用集市層應(yīng)用集市層的數(shù)據(jù)來源于主題模型層和共性加工層,應(yīng)用集市層完全針對具體應(yīng)用需求而建,按照標(biāo)準(zhǔn)的建模規(guī)范,應(yīng)用集市層的實(shí)施要點(diǎn)為:采用遵從業(yè)務(wù)應(yīng)用需求的建模方式,以方便使用為主要目的;注意數(shù)據(jù)保留周期不宜過長;在性能允許的情況,本層部分表也可以以視圖實(shí)現(xiàn);ETL異常處理策略ETL異常處理策略主要對本項(xiàng)目的ETL的校驗(yàn)點(diǎn)重啟機(jī)制進(jìn)行詳細(xì)描述。如果由于各種異常情況的發(fā)生而導(dǎo)致數(shù)據(jù)ETL過程出錯(cuò)時(shí),通過回溯操作可使數(shù)據(jù)庫中的數(shù)據(jù)恢復(fù)到數(shù)據(jù)正確最近的時(shí)點(diǎn),從而進(jìn)行恢復(fù)性加載。保證數(shù)據(jù)集成平臺(tái)數(shù)據(jù)的可恢復(fù)性和數(shù)據(jù)處理的靈活性。出錯(cuò)處理首先要制定標(biāo)準(zhǔn)而規(guī)范的出錯(cuò)處理流程,在流程內(nèi)部要針對各種不同出錯(cuò)的原因進(jìn)行針對性處理,出錯(cuò)的原因和處理的方法需要在ETL運(yùn)行的過程中不斷的總結(jié)和整理,形成一份《ETL故障錯(cuò)誤恢復(fù)說明書》。在出錯(cuò)的情況中,比較嚴(yán)重的是當(dāng)數(shù)據(jù)庫中的數(shù)據(jù)出現(xiàn)較多錯(cuò)誤時(shí),需要對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行回溯到前一天或數(shù)據(jù)正確最近的時(shí)點(diǎn)。ETL處理的異常主要包括:硬件、操作系統(tǒng)、網(wǎng)絡(luò)導(dǎo)致異常;數(shù)據(jù)源數(shù)據(jù)傳輸、質(zhì)量導(dǎo)致異常;ETL過程處理導(dǎo)致異常;目標(biāo)數(shù)據(jù)模型導(dǎo)致異常;人工干預(yù)導(dǎo)致異常等;處理的方法包括:手工干預(yù),重新調(diào)整ETL過程;終止流程,通知管理員;拒絕數(shù)據(jù),記錄原因;清洗數(shù)據(jù),部分入庫;監(jiān)控資源,反復(fù)嘗試;ETL恢復(fù)策略包括有:除了應(yīng)用集市層,其他層幾乎所有任務(wù)都可以在故障修復(fù)后直接重跑每條記錄中有數(shù)據(jù)ETL的時(shí)間戳,對小數(shù)據(jù)量的數(shù)據(jù)表,可以通過該時(shí)間戳清除掉本次加載的數(shù)據(jù)對于大數(shù)據(jù)量的表,可以利用時(shí)間窗口功能,如果大表某一天的數(shù)據(jù)出現(xiàn)錯(cuò)誤后,可以直接進(jìn)行一天數(shù)據(jù)的recover;數(shù)據(jù)接口目標(biāo)及內(nèi)容大數(shù)據(jù)云平臺(tái)工程數(shù)據(jù)接口標(biāo)準(zhǔn)定義目的是規(guī)范社會(huì)和云源系統(tǒng)或數(shù)據(jù)交換共享平臺(tái)通過FTP/DB直連獲取相關(guān)數(shù)據(jù)源提供的數(shù)據(jù)文件標(biāo)準(zhǔn)和大數(shù)據(jù)平臺(tái)為下游數(shù)據(jù)集市提供的數(shù)據(jù)文件標(biāo)準(zhǔn)。標(biāo)準(zhǔn)包含但不限于以下內(nèi)容:文件傳送方式文件命名規(guī)則輸出頻度文件格式文件就緒標(biāo)識(shí)字段填寫規(guī)則定義原則及策略1、文件目錄定義原則文件目錄涉及業(yè)務(wù)源系統(tǒng)為大數(shù)據(jù)平臺(tái)供數(shù)的文件目錄和大數(shù)據(jù)平臺(tái)為下游數(shù)據(jù)消費(fèi)系統(tǒng)供數(shù)的文件目錄。目錄定義原則如下:能夠快速定位文件的存放目錄能夠有效區(qū)分文件的用途能夠有效區(qū)分不同時(shí)間點(diǎn)的文件目錄結(jié)構(gòu)用英文簡稱或者數(shù)字串(例如時(shí)間)同一系統(tǒng)拋出的、同一目標(biāo)系統(tǒng)接入的,必須存放在同一目錄下文件目錄結(jié)構(gòu)建議:~/源系統(tǒng)英文簡稱或者目標(biāo)系統(tǒng)英文簡稱/日期(YYYYMMDD/大數(shù)據(jù)平臺(tái)接入數(shù)據(jù)源文件:/BDF_IN/源系統(tǒng)英文簡稱/日期(YYYYMMDD)/2、文件命名原則文件涉及大數(shù)據(jù)平臺(tái)系統(tǒng)加載文件和大數(shù)據(jù)平臺(tái)卸出文件,命名原則如下:英文文件名,且文件名長度現(xiàn)在系統(tǒng)規(guī)定的長度內(nèi)統(tǒng)一文件后綴統(tǒng)一的文件命名格式:增量/全量標(biāo)識(shí)_三位源系統(tǒng)英文簡稱/三位目標(biāo)系統(tǒng)英文簡稱_原系統(tǒng)表名_8位日期.后綴3、文件格式定制原則命名原則如下:定義字段間分割符,充分考慮市網(wǎng)格中心業(yè)務(wù)系統(tǒng)的實(shí)際情況,定義通用的分隔符定義每條完整數(shù)據(jù)的區(qū)分方式對于異常字段,例如空字段,如何在正確的識(shí)別信息等嚴(yán)格的要求卸出字段的內(nèi)容,比如:是否含有異常字符,是否有空格等,以及對異常字段的處理方式或者建議4、文件就緒標(biāo)識(shí)原則就緒文件用于記錄數(shù)據(jù)文件來自系統(tǒng)、數(shù)據(jù)日期、文件大小、記錄數(shù)、生成時(shí)間等屬性信息,標(biāo)識(shí)數(shù)據(jù)文件導(dǎo)出結(jié)束,與數(shù)據(jù)文件為一一對應(yīng)關(guān)系,命名為數(shù)據(jù)文件命名.ctl。如果數(shù)據(jù)文件名為CBS_GLMAST_20120101.dat,則其對應(yīng)就緒文件命名為CBS_GLMAST_20120101.ctl就緒文件以逗號(hào)分隔,填寫示例:系統(tǒng)簡稱,數(shù)據(jù)日期,文件名,記錄數(shù),大小,生成時(shí)間戳名詞定義如下:表SEQ表\*ARABIC6名詞定義表名詞定義系統(tǒng)簡稱數(shù)據(jù)源系統(tǒng)簡稱,如核心為CBS數(shù)據(jù)日期數(shù)據(jù)日期,格式Y(jié)YYYMMDD文件名對應(yīng)數(shù)據(jù)文件名稱記錄數(shù)文件記錄數(shù)大小數(shù)據(jù)文件物理大小生成時(shí)間戳文件生成時(shí)間,格式為YYYY-MM-DDTHH:MM:SS,其中T為大寫字母,如2012-01-01T12:00:00就緒文件示例:CB,20120101,CB_ADPXX_20120101.dat,2512335,1232345454,2012-01-02T12:00:005、字段填寫規(guī)則充分考慮不同字段的格式要求,對于特殊要求的字段,提供樣例說明。例如:時(shí)間傳輸格式為:YYYYMMDD,2011年1月1日為:20110101;金額:默認(rèn)單位都是“元”,保存小數(shù)點(diǎn)后兩位等ETL作業(yè)設(shè)計(jì)作業(yè)設(shè)計(jì)原則:作業(yè)設(shè)計(jì)以目標(biāo)表為導(dǎo)向,一般情況下,目標(biāo)表與作業(yè)一一對應(yīng)存在多個(gè)作業(yè)處理一個(gè)目標(biāo)表:目標(biāo)表字段來自多個(gè)源表,可通過多個(gè)作業(yè)處理;目標(biāo)表記錄來自單一源表,可通過單一作業(yè)處理目標(biāo)表中既有直接映射字段,也有源表計(jì)算字段、自身衍生字段,可以拆分為多個(gè)JOB,目標(biāo)表在一定場景下可以當(dāng)做源表使用如從源表到目標(biāo)表,需要建立中間臨時(shí)表,可將每個(gè)臨時(shí)表當(dāng)作一個(gè)目標(biāo)表處理,可通過多個(gè)JOB完成從源表到目標(biāo)表如出現(xiàn)同字段多源表優(yōu)先順序更新規(guī)則,只設(shè)計(jì)獲取優(yōu)先級(jí)最高的源表屬性字段JOB原則上不允許一個(gè)作業(yè)處理多個(gè)目標(biāo)ETL作業(yè)流設(shè)計(jì)1、作業(yè)組流是階段內(nèi)的相關(guān)作業(yè)組的集合。提供數(shù)據(jù)塊的流向控制。劃分作業(yè)組流原則:ETL分為兩個(gè)階段:基礎(chǔ)數(shù)據(jù)加工、應(yīng)用數(shù)據(jù)加工。每個(gè)階段內(nèi)的時(shí)間獨(dú)立按照作業(yè)組翻牌;作業(yè)組流在階段內(nèi)劃分,不允許跨階段劃分;以源系統(tǒng)+主題(或子主題)為作業(yè)組流劃分依據(jù),不同源系統(tǒng)或不同主題作業(yè)組不放同一作業(yè)組流中2、作業(yè)組是相關(guān)作業(yè)流的集合。劃分作業(yè)組原則:在作業(yè)組流中劃分作業(yè)組;作業(yè)組可滿足獨(dú)立翻牌;作業(yè)組界定:一個(gè)JOB是多個(gè)JOB的前置JOB,該JOB可界定為作業(yè)組的起點(diǎn);一個(gè)JOB是多個(gè)JOB的后續(xù)JOB,該JOB可界定為作業(yè)組的終點(diǎn);作業(yè)組內(nèi)的作業(yè)流可并行或串行執(zhí)行;作業(yè)組在過程內(nèi)劃分,不允許跨過程劃分作業(yè)組;作業(yè)流不能跨作業(yè)組依賴;占用資源大的多個(gè)作業(yè)組之間串行;作業(yè)組內(nèi)并行的作業(yè)流之間執(zhí)行時(shí)間應(yīng)相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論