版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)云平臺實施方案項目編號:某大數(shù)據(jù)云平臺項目建設(shè)實施方案目錄1.1 建設(shè)目標、規(guī)模、內(nèi)容、建設(shè)期 11.1.1 建設(shè)目標 11.1.2 建設(shè)內(nèi)容 11.1.3 建設(shè)周期 4第二章 需求分析 62.1 政務(wù)業(yè)務(wù)目標需求分析結(jié)論 62.2 系統(tǒng)功能指標 82.2.1 基礎(chǔ)設(shè)施服務(wù)層(Iaas) 82.2.2 平臺服務(wù)層(Paas) 82.2.3 應(yīng)用服務(wù)層(Saas) 102.3 信息量指標 112.4 系統(tǒng)性能指標 122.4.1 總體性能指標 122.4.2 網(wǎng)絡(luò)平臺性能 132.4.3 系統(tǒng)平臺性能 132.4.4 應(yīng)用系統(tǒng)性能 13第三章 總體建設(shè)方案 153.1 總體設(shè)計原則 153.1.1 分期目標 173.2 總體建設(shè)任務(wù)與分期建設(shè)內(nèi)容 183.2.1 總體建設(shè)任務(wù) 183.3 系統(tǒng)總體結(jié)構(gòu)和邏輯結(jié)構(gòu) 193.3.1 總體架構(gòu) 193.3.2 技術(shù)架構(gòu) 243.4 信息資源規(guī)劃和數(shù)據(jù)庫設(shè)計 253.4.1 數(shù)據(jù)模型規(guī)劃 253.4.2 數(shù)據(jù)整合原則 273.4.3 技術(shù)緩沖層設(shè)計 283.4.4 整合模型層設(shè)計 293.4.5 共性加工層設(shè)計 433.4.6 數(shù)據(jù)應(yīng)用層設(shè)計 473.4.7 數(shù)據(jù)庫服務(wù)架構(gòu) 483.5 應(yīng)用支撐系統(tǒng)設(shè)計 503.5.1 大數(shù)據(jù)基礎(chǔ)平臺設(shè)計 503.5.2 ETL設(shè)計 623.5.3 調(diào)度架構(gòu)設(shè)計 753.5.4 數(shù)據(jù)管控設(shè)計 813.6 應(yīng)用系統(tǒng)設(shè)計 1063.6.1 分析決策支持系統(tǒng) 1063.7 數(shù)據(jù)處理和存儲系統(tǒng)設(shè)計 147建設(shè)目標、規(guī)模、內(nèi)容、建設(shè)期建設(shè)目標以“海信息、網(wǎng)關(guān)聯(lián)、云計算、塊數(shù)據(jù)、條運用、促和諧”為建設(shè)方針,建設(shè)以基礎(chǔ)設(shè)施層、系統(tǒng)平臺層、應(yīng)用平臺層為框架結(jié)構(gòu),多個系統(tǒng)應(yīng)用為支撐的社會治理大數(shù)據(jù)云平臺,實現(xiàn)社會治理從條塊分制向整體聯(lián)動轉(zhuǎn)變,從被動應(yīng)付向主動服務(wù)轉(zhuǎn)變,從傳統(tǒng)管理方式向信息化支撐轉(zhuǎn)變,從分級管理向扁平化管理轉(zhuǎn)變,從單打獨斗向協(xié)作共治轉(zhuǎn)變,不斷推動社會治理體系和社會治理能力現(xiàn)代化。項目建成后,將覆蓋全市十個區(qū)市縣,使用對象包括社區(qū)服務(wù)中心(鄉(xiāng)鎮(zhèn))工作人員、居委會(行政村)工作人員、社區(qū)網(wǎng)格員,也包括市、區(qū)縣兩級相關(guān)部門工作人員。建設(shè)內(nèi)容市大數(shù)據(jù)云平臺工程分為兩期建設(shè),從建設(shè)內(nèi)容上來說,兩期的建設(shè)內(nèi)容是逐步完善、優(yōu)化、擴展的關(guān)系。大數(shù)據(jù)云平臺工程的總體建設(shè)任務(wù)為:1、系統(tǒng)運行環(huán)境基于市統(tǒng)一的基礎(chǔ)設(shè)施層技術(shù)體系,搭建大數(shù)據(jù)云平臺工程,主要是指支撐系統(tǒng)運行的軟硬件基礎(chǔ)環(huán)境。其中硬件基礎(chǔ)環(huán)境包括:計算資源、存儲資源、安全防護、網(wǎng)絡(luò)資源等等;軟件基礎(chǔ)環(huán)境包括:數(shù)據(jù)庫、中間件、數(shù)據(jù)備份等等。2、共享數(shù)據(jù)建設(shè)共享數(shù)據(jù)建設(shè)主要是指大數(shù)據(jù)云平臺工程運行的數(shù)據(jù)基礎(chǔ)。在大數(shù)據(jù)云平臺工程的建設(shè)過程中主要包括了結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包括:基礎(chǔ)空間數(shù)據(jù)和網(wǎng)格塊數(shù)據(jù)關(guān)系數(shù)據(jù)庫;非結(jié)構(gòu)化數(shù)據(jù)主要包括海量行為數(shù)據(jù)、網(wǎng)頁、各類報表、圖像和音頻/視頻信息等等;基礎(chǔ)空間數(shù)據(jù)利用現(xiàn)有的基礎(chǔ)數(shù)據(jù)成果,進行修補測或數(shù)據(jù)時相、內(nèi)容的更新,形成大數(shù)據(jù)云平臺工程的基礎(chǔ)空間數(shù)據(jù)庫。網(wǎng)格塊數(shù)據(jù)關(guān)系數(shù)據(jù)庫以網(wǎng)格化管理數(shù)據(jù)、政府各專業(yè)職能部門數(shù)據(jù)為基礎(chǔ),以網(wǎng)格化管理為中心建設(shè)“網(wǎng)格塊數(shù)據(jù)關(guān)系數(shù)據(jù)庫”,其核心是要建立社區(qū)網(wǎng)格內(nèi)“人與人”、“人與物”、“人與組織”、“物與物”、“組織與物”、“組織與組織”等的關(guān)聯(lián)關(guān)系。海量行為數(shù)據(jù)依托開放式社會共享數(shù)據(jù)平臺,建立大數(shù)據(jù)云平臺工程所需的海量社會數(shù)據(jù)。各類報表針對目前尚未進行結(jié)構(gòu)化數(shù)據(jù)梳理的業(yè)務(wù)數(shù)據(jù),如Word、Excel等形式存儲的業(yè)務(wù)數(shù)據(jù);圖像和音頻/視頻信息針對視頻監(jiān)控、人口信息的照片等信息的數(shù)據(jù)處理。3、支撐能力建設(shè)支撐內(nèi)容的建設(shè)為應(yīng)用系統(tǒng)建設(shè)提供組件式服務(wù),主要建設(shè):地理信息平臺、數(shù)據(jù)分析平臺、流程管理平臺、安全平臺等。地理信息平臺立足市現(xiàn)有城市地理空間信息建設(shè)應(yīng)用基礎(chǔ),從大數(shù)據(jù)云平臺工程的應(yīng)用實際需求出發(fā),遵循“資源重用、節(jié)約投資”的原則,采用基于面向服務(wù)架構(gòu)(SOA)的ServiceGIS等技術(shù),實現(xiàn)對市分散的空間信息資源整合、共享和充分利用,為大數(shù)據(jù)云平臺工程提供地理信息與業(yè)務(wù)數(shù)據(jù)的在線共享與交換支撐。數(shù)據(jù)分析平臺數(shù)據(jù)分析平臺是集數(shù)據(jù)的目錄管理、數(shù)據(jù)交換、數(shù)據(jù)處理的分析與挖掘、數(shù)據(jù)的可視化展現(xiàn)為一體的綜合支撐平臺。流程管理平臺通過對網(wǎng)格化服務(wù)管理的梳理,再造社會治理工作流程,將信任服務(wù)、授權(quán)服務(wù)和工作流等業(yè)務(wù)流程有機融合緊密結(jié)合在一起,構(gòu)成安全的工作流業(yè)務(wù)系統(tǒng),為不同業(yè)務(wù)流程提供實現(xiàn)的技術(shù)手段。安全平臺基于云計算安全架構(gòu),同時根據(jù)大數(shù)據(jù)云平臺工程的系統(tǒng)安全需求特點和風險狀況,從物理安全、網(wǎng)絡(luò)安全、云平臺安全、系統(tǒng)安全、應(yīng)用安全,數(shù)據(jù)安全六個層面,進行安全體系架構(gòu)設(shè)計。4、應(yīng)用系統(tǒng)建設(shè)應(yīng)用系統(tǒng)建設(shè)著眼大數(shù)據(jù)未來發(fā)展趨勢,以網(wǎng)格化服務(wù)管理系統(tǒng)為基礎(chǔ),提供涵蓋政府、企業(yè)、社會組織、軍民等內(nèi)容的社會治理綜合業(yè)務(wù)系統(tǒng),既實現(xiàn)市統(tǒng)籌、創(chuàng)新、推動社會治理的需求,又滿足部門、社區(qū)和社會組織對大數(shù)據(jù)云平臺工程的應(yīng)用需求。應(yīng)用系統(tǒng)建設(shè)包括“網(wǎng)格化管理系統(tǒng)”、“社會動員管理系統(tǒng)”、“社區(qū)綜合服務(wù)系統(tǒng)”、“社會分析決策支持系統(tǒng)”。5、接入系統(tǒng)建設(shè)接入系統(tǒng)包括PC系統(tǒng)、移動應(yīng)用系統(tǒng)和微信應(yīng)用系統(tǒng)。建設(shè)周期大數(shù)據(jù)云平臺工程涵蓋業(yè)務(wù)內(nèi)容多、涉及范圍廣、建設(shè)周期長,為了完成工程的總體建設(shè)目標,需要一個逐步推進和逐漸完善的過程,必須依據(jù)循序漸進、分階段、有步驟、重點突破的建設(shè)原則。一期工程計劃于2019年底建成。其中,一期建設(shè)階段5個月,運維應(yīng)用(試運行)階段為6個月,系統(tǒng)計劃于2019年底完成終驗。需求分析政務(wù)業(yè)務(wù)目標需求分析結(jié)論大數(shù)據(jù)云平臺工程是一個基于大數(shù)據(jù)的概念,利用大數(shù)據(jù)技術(shù),以構(gòu)建大數(shù)據(jù)云平臺工程數(shù)據(jù)平臺為基礎(chǔ),以提供標準化的數(shù)據(jù)服務(wù)、網(wǎng)格化服務(wù)、流程服務(wù)為中心,支撐和協(xié)同市各部門和社會公眾的社會治理工作。大數(shù)據(jù)云平臺工程貫穿于市規(guī)劃、發(fā)展、建設(shè)、運行、服務(wù)、管理的全過程,是一個復(fù)雜而龐大的系統(tǒng)工程,在描述與其他業(yè)務(wù)系統(tǒng)關(guān)聯(lián)的同時,我們對大數(shù)據(jù)云平臺工程有了一個清晰的定位:1、大數(shù)據(jù)云平臺工程建設(shè)是打造社會治理升級版的重要內(nèi)容。隨著大數(shù)據(jù)時代的到來,社會治理面臨著新機遇和新挑戰(zhàn)。市委九屆四次全會提出,要實施社會治理工程,打造法治升級版,積極探索以網(wǎng)格為基礎(chǔ)的大數(shù)據(jù)建設(shè)。大數(shù)據(jù)云平臺工程以塊數(shù)據(jù)為基礎(chǔ),運用大數(shù)據(jù)技術(shù),創(chuàng)新社會治理方式方法,提高社會治理能力,為打造法治“升級版”提供了有力的工作抓手,具有重大的實踐意義和社會價值。2、大數(shù)據(jù)云平臺工程建設(shè)是推進治理能力現(xiàn)代化的支撐平臺。我市大力發(fā)展大數(shù)據(jù)產(chǎn)業(yè),為社會治理工作帶來了前所未有的契機。2015年全市加強群眾工作創(chuàng)新社會治理大會提出,要狠抓平臺建設(shè),在以‘大數(shù)據(jù)’手段提升社會治理水平上實現(xiàn)新突破。通過實施大數(shù)據(jù)云平臺工程建設(shè),能夠強化“條專塊統(tǒng)”,倒逼體制改革,打破數(shù)據(jù)“壁壘”,鏈接數(shù)據(jù)“孤島”,激發(fā)社會活力,發(fā)揮黨政部門、社會組織、企事業(yè)單位、居民群眾等多元主體的作用,構(gòu)建眾聯(lián)、眾包、眾創(chuàng)、眾籌的社會治理新局面。3、大數(shù)據(jù)云平臺工程建設(shè)是完善民生服務(wù)體系的惠民工程。創(chuàng)新社會治理,要以最廣大人民根本利益為根本坐標,從人民群眾最關(guān)心最直接最現(xiàn)實的利益問題入手。大數(shù)據(jù)云平臺工程建設(shè)能夠通過大數(shù)據(jù)運用,統(tǒng)計分析與民生相關(guān)的海量數(shù)據(jù),準確把握不同社會成員和不同地區(qū)的社會需求,實施精細化的服務(wù)管理,推動建立多層次的服務(wù)體系,營造和諧穩(wěn)定的社會環(huán)境。大數(shù)據(jù)云平臺工程覆蓋至最基層的網(wǎng)格信息員,由網(wǎng)格信息員采集的民生需求,拓寬社情民意的采集渠道,打通居民與政府之間的溝通橋梁。同時,將民生數(shù)據(jù)匯總至“數(shù)據(jù)民生”的民生資源池,依托大數(shù)據(jù)手段,整合線下群眾的社情民意信息,為下一步政策的制定和實施,提供決策依據(jù)。是政府由被動服務(wù)向主動服務(wù)、由基本服務(wù)向更好服務(wù)、由普惠服務(wù)向個性化服務(wù)轉(zhuǎn)變的重要手段。4、大數(shù)據(jù)云平臺工程建設(shè)是數(shù)據(jù)民生考核的組成部分。大數(shù)據(jù)云平臺工程具有完整的考核體系,通過對案件處置的情況進行統(tǒng)計分析,對各級聯(lián)動單位進行科學的評價。在大數(shù)據(jù)云平臺工程的設(shè)計過程中,同樣考慮了與“數(shù)據(jù)民生”考核的對接,其數(shù)據(jù)是“數(shù)據(jù)民生”面向社會考核的重要組成部分。系統(tǒng)功能指標基礎(chǔ)設(shè)施服務(wù)層(Iaas)結(jié)合大數(shù)據(jù)云平臺工程前端應(yīng)用,依托市政務(wù)數(shù)據(jù)中心,基于市統(tǒng)一的基礎(chǔ)設(shè)施層技術(shù)體系,結(jié)合市統(tǒng)一的云服務(wù)平臺相關(guān)技術(shù)規(guī)范和參數(shù),選擇配置完善主機、存儲、網(wǎng)絡(luò)、操作系統(tǒng)等基礎(chǔ)設(shè)施標準,考慮采用虛擬化硬件技術(shù)、分布式存儲技術(shù)、并行編程模式、分布式資源管理、云計算平臺管理、認證服務(wù)、證書服務(wù)、加密服務(wù)等技術(shù)功能,實現(xiàn)數(shù)據(jù)容災(zāi)、快速回復(fù)、快速部署、客戶服務(wù)、業(yè)務(wù)與運營支撐系統(tǒng),具備大數(shù)據(jù)計算能力、存儲能力、安全防護能力,打造集數(shù)據(jù)存儲、管理、統(tǒng)計、分析等功能為一體的“數(shù)據(jù)中樞”,構(gòu)建大數(shù)據(jù)云平臺工程建設(shè)基礎(chǔ)設(shè)施層。平臺服務(wù)層(Paas)在基礎(chǔ)設(shè)施服務(wù)層基礎(chǔ)上構(gòu)建大數(shù)據(jù)云平臺工程建設(shè)和升級所必需基礎(chǔ)服務(wù)平臺,主要包括地理信息服務(wù)、流程服務(wù)、建設(shè)數(shù)據(jù)分析服務(wù)、系統(tǒng)和權(quán)限管理等。升級完善地理信息服務(wù)升級改造流程服務(wù)建設(shè)數(shù)據(jù)分析服務(wù)大數(shù)據(jù)云平臺工程要依托自身建立的“塊數(shù)據(jù)關(guān)系庫”進行社會治理數(shù)據(jù)的分析和挖掘。大數(shù)據(jù)云平臺工程進行數(shù)據(jù)分析和挖掘的目的可以分為決策支持、精準推送和態(tài)勢感知三個方面。大數(shù)據(jù)云平臺工程的決策支持有別于傳統(tǒng)專業(yè)化系統(tǒng)通過數(shù)據(jù)分析生成的支持數(shù)據(jù)報表?;凇皦K數(shù)據(jù)”的大數(shù)據(jù)云平臺工程,其數(shù)據(jù)分析重點在于“關(guān)系”。它通過分析人與人、人與物、人與事、事與事之間的關(guān)系。例如留守兒童與當?shù)貙W校類型和數(shù)量的關(guān)系、低保人員的低保金額與地區(qū)平均消費水平的關(guān)系、空巢老人與當?shù)鼐蜆I(yè)崗位之間的關(guān)系等等。通過這些關(guān)系的分析讓政府管理者能夠找到社會問題的根源,避免了傳統(tǒng)管理方式中出現(xiàn)的“頭疼醫(yī)頭、腳疼醫(yī)腳”現(xiàn)象,使政府的資源能夠發(fā)揮出最大效果。政府對老百姓的精準推送也是需要大數(shù)據(jù)云平臺工程中對“塊數(shù)據(jù)”進行分析和挖掘作為基礎(chǔ)的。通過大數(shù)據(jù)云平臺工程對社區(qū)百姓生活狀態(tài)分析,結(jié)合醫(yī)療、教育、房屋、車輛等相關(guān)信息進行挖掘,可以找到社區(qū)百姓近期所需要的政府服務(wù)項目。例如大數(shù)據(jù)云平臺工程通過數(shù)據(jù)的分析,得知某一居民處于適婚年齡,并在醫(yī)院建立孕婦檔案。大數(shù)據(jù)云平臺工程通過這些數(shù)據(jù)的分析可以判斷出此居民在未來幾個月中辦理準生證、新生兒戶口的可能性較大。此時大數(shù)據(jù)云平臺工程可以通過社區(qū)、APP等應(yīng)用向社區(qū)工作人員推送提醒信息。對“塊數(shù)據(jù)”的分析和挖掘?qū)榇髷?shù)據(jù)云平臺工程賦予態(tài)勢感知的能力。所謂態(tài)勢感知在大規(guī)模系統(tǒng)環(huán)境和數(shù)據(jù)中,對能夠引起系統(tǒng)態(tài)勢發(fā)生變化的安全要素進行獲取、理解、顯示以及預(yù)測未來的發(fā)展趨勢。立足于政府的社會治理,大數(shù)據(jù)云平臺工程對“塊數(shù)據(jù)”進行分析和挖掘所產(chǎn)生的態(tài)勢感知的能力將有助于政府部門感知和預(yù)測社會風險,做到提前部署、防患于未然。例如對于社會敏感人員,通過大數(shù)據(jù)云平臺工程的數(shù)據(jù)分析發(fā)現(xiàn)其在某一特殊時期的交通行動軌跡、通信聯(lián)絡(luò)范圍存在異常,則相關(guān)部門管理人員可以提前部署,將社會風險扼殺在搖籃中。系統(tǒng)和權(quán)限管理系統(tǒng)和權(quán)限管理模塊是對應(yīng)用系統(tǒng)用戶按照權(quán)限進行訪問控制的管理,負責整個大數(shù)據(jù)云平臺工程的配置、維護和管理工作,該系統(tǒng)采用工具化思想,實現(xiàn)不同功能的參數(shù)配置,實現(xiàn)不同的業(yè)務(wù)使用單位和不同級別的用戶分別賦予其業(yè)務(wù)系統(tǒng)的使用權(quán)限。應(yīng)用服務(wù)層(Saas)應(yīng)用層系統(tǒng)功能指標包括:1、實現(xiàn)社區(qū)“一次錄入、多部門共用”的功能,網(wǎng)格員采集數(shù)據(jù)、共享數(shù)據(jù)通過大數(shù)據(jù)云平臺工程平臺分發(fā)至其他部門業(yè)務(wù)系統(tǒng);2、實現(xiàn)問題的受理、立案、派遣、處置、復(fù)核、結(jié)案的閉環(huán)工作處理路程;3、搭建社會組織、社工機構(gòu)、志愿者與居民群眾的溝通橋梁,實現(xiàn)公益活動供需管理;4、PC端采用瀏覽器方式訪問,支持IE7.0、IE8.0、Chrome16.0、Firefox6.0等以上版本的主流瀏覽器;5、網(wǎng)格員上報和處置應(yīng)用、各級管理者應(yīng)用、公眾訪問應(yīng)用等支持手機APP方式訪問;支持iOS和android系統(tǒng);6、公眾訪問支持微信和APP訪問。信息量指標針對調(diào)研的結(jié)果,大數(shù)據(jù)云平臺工程設(shè)計為主要存儲關(guān)系信息、事件信息、以及相關(guān)的照片等信息資源。其中關(guān)系型數(shù)據(jù)估算前期數(shù)據(jù)如下表:表SEQ表\*ARABIC1信息量指標表描述信息數(shù)據(jù)量(單位:條)信息量(單位:MB)評估存儲(單位:GB)人口信息50000000.1500.0企業(yè)信息800000.18.0社會組織信息50000.10.5設(shè)施信息15000000.1150.0房屋信息1000000.110.0城區(qū)地理信息3001500450.0農(nóng)村地理信息7734100773.4呼叫中心信息20000000.1200.0公益信息100000.11.0社區(qū)服務(wù)信息1000000.110.0合計2102.9再加上其他信息(包括主鍵、外鍵、索引、冗余的存儲,按信息總量的40%計算),建議需要數(shù)據(jù)庫存儲空間3T(前期可以先租用較小的空間,根據(jù)實際需要再擴大容量)。針對所有的證照資料(包括照片、身份證掃描信息、證明材料圖片、事件上報圖片等),初步預(yù)計存放5000萬張照片,平均每張大小0.2M,需要10T磁盤存儲空間。針對12345熱線本身的事件數(shù)據(jù)(按照目前每月5萬條,每條0.2M計算),每年的數(shù)據(jù)增量為120G,按照系統(tǒng)10年的設(shè)計壽命計算,即需要1.2T磁盤存儲空間。針對門戶網(wǎng)站、APP、微信的訪問來看,每年的業(yè)務(wù)數(shù)據(jù)增量為100G足有,10年需要1T磁盤存儲空間。綜上所述,大數(shù)據(jù)云平臺工程所需的信息量指標為15T左右。系統(tǒng)性能指標總體性能指標互聯(lián)網(wǎng)應(yīng)用支持并發(fā)終端數(shù)≥500;政務(wù)網(wǎng)應(yīng)用支持并發(fā)終端數(shù)≥500;系統(tǒng)控制操作響應(yīng)時間≤2s;數(shù)據(jù)瀏覽響應(yīng)時間≤2s;一般數(shù)據(jù)查詢響應(yīng)時間≤4s;大數(shù)據(jù)分析處理時間≤1min;統(tǒng)計輸出時間≤5s;雙機負載均衡/熱備用切換時間≤25s;平均年故障時間<24小時;平均故障修復(fù)時間<30分鐘當系統(tǒng)處理能力不足時,可通過增加相應(yīng)的節(jié)點和處理能力來實現(xiàn)系統(tǒng)處理能力的動態(tài)增長。網(wǎng)絡(luò)平臺性能要求數(shù)據(jù)傳輸網(wǎng)絡(luò)暢通、快捷、可擴展。核心網(wǎng)絡(luò)要求設(shè)備、線路均具有冗余,設(shè)備處理能力滿足業(yè)務(wù)高峰期需要。整網(wǎng)帶寬滿足業(yè)務(wù)高峰期需要。系統(tǒng)平臺性能要求采用通用性好、安全可靠的操作系統(tǒng)以及大型數(shù)據(jù)庫系統(tǒng),以保證系統(tǒng)良好的性能。應(yīng)用系統(tǒng)性能應(yīng)用系統(tǒng)性能應(yīng)滿足用戶的要求,穩(wěn)定、可靠、實用。人機界面友好,輸出、輸入方便,圖表生成美觀,檢索、查詢簡單快捷。系統(tǒng)采用便于升級的模塊化設(shè)計,包括采用軟件升級來簡化系統(tǒng)擴展和修改,模塊組合可以根據(jù)需要來選擇。提供標準的網(wǎng)絡(luò)通信應(yīng)用層協(xié)議和應(yīng)用基本函數(shù)及調(diào)用接口??傮w建設(shè)方案總體設(shè)計原則總體規(guī)劃、分步實施大數(shù)據(jù)云平臺工程建設(shè)涉及到各地區(qū)和多個部門,要進行統(tǒng)籌規(guī)劃、總體設(shè)計和分級實施。為了避免各業(yè)務(wù)系統(tǒng)獨立建設(shè)而導(dǎo)致的無法共享和數(shù)據(jù)交互的問題,在建設(shè)之處需要按照國家制定的相關(guān)標準規(guī)范進行建設(shè),實現(xiàn)社會治理業(yè)務(wù)系統(tǒng)和技術(shù)支撐系統(tǒng)的有機結(jié)合。先易后難、循序漸進大數(shù)據(jù)云平臺工程的建設(shè)從建設(shè)規(guī)模、建設(shè)思路、建設(shè)內(nèi)容和建設(shè)所用的技術(shù)都是一種全新嘗試和摸索,是對建設(shè)單位能力的考驗。在大數(shù)據(jù)云平臺工程建設(shè)過程中要將遇到的問題和困難進行排序,優(yōu)先解決簡單問題,穩(wěn)扎穩(wěn)打,分階段出成果,逐步見效、逐步優(yōu)化。利用現(xiàn)有、整合資源本著節(jié)約的原則,突出建設(shè)重點,注重高效實用,充分利用已有基礎(chǔ),防止推倒重來、重復(fù)建設(shè)。整合各級、各部門社會治理所需資源,尤其在數(shù)據(jù)層面,針對已經(jīng)建成的平臺要采用多種技術(shù)手段進行整合和共享。在應(yīng)用層面,大數(shù)據(jù)云平臺工程處理利用好政府資源以外,還要整合社會服務(wù)資源,為群眾提供更好、更全面的服務(wù)。數(shù)據(jù)集中、標準統(tǒng)一大數(shù)據(jù)云平臺工程的建設(shè),需要將各級政府部門開始將數(shù)據(jù)相對集中起來,保證資源的高度利用以及通過相關(guān)的技術(shù)保證數(shù)據(jù)和應(yīng)用的絕對安全和穩(wěn)定。同時,統(tǒng)一各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)字典,減少數(shù)據(jù)定義的二義性。對數(shù)據(jù)實行單點維護,明確數(shù)據(jù)責任部門和使用部門,確保基礎(chǔ)信息的可靠性和一致性。建立統(tǒng)一的存儲資源標準、性能標準、安全標準,提高數(shù)據(jù)訪問控制能力,降低關(guān)鍵業(yè)務(wù)數(shù)據(jù)的安全隱患。模式創(chuàng)新、不走老路大數(shù)據(jù)云平臺工程建設(shè)以“大數(shù)據(jù)”為創(chuàng)新模式,以“網(wǎng)格化管理”數(shù)據(jù)為基礎(chǔ),融合政府各專業(yè)職能數(shù)據(jù)和社會數(shù)據(jù),以數(shù)據(jù)驅(qū)動業(yè)務(wù)應(yīng)用,從而避免傳統(tǒng)信息化建設(shè)中出現(xiàn)的“信息孤島”、“信息壁壘”的問題。定位準確、邊界清晰大數(shù)據(jù)云平臺工程的建設(shè)是要搭建一個政府與社區(qū)群眾暢通的溝通橋梁,要通過大數(shù)據(jù)的分析挖掘社會群眾的服務(wù)需求、識別社會風險,并將社會需求和風險傳遞和提示給政府相關(guān)部門進行處理。大數(shù)據(jù)云平臺工程的建設(shè)要避免與其他政府專業(yè)部門的應(yīng)用交叉,避免重復(fù)建設(shè)和職責不清。功能齊全、先進適用在系統(tǒng)的總體設(shè)計上,借鑒各類系統(tǒng)的成功經(jīng)驗,同時注重吸取同類系統(tǒng)的建設(shè)教訓。在技術(shù)上,充分考慮大數(shù)據(jù)云平臺工程的現(xiàn)狀和特點,在注重系統(tǒng)的實用性的前提下,應(yīng)著重考慮云計算、大數(shù)據(jù)等先進的技術(shù)理念。在軟件的開發(fā)思想上,加強核心技術(shù)的自主研發(fā)和應(yīng)用,嚴格按照軟件工程的標準和面向?qū)ο蟮睦碚搧碓O(shè)計,保證系統(tǒng)的先進性。安全穩(wěn)定、保護資源由于整個系統(tǒng)所涉及的很多數(shù)據(jù)不宜對外開放,這些數(shù)據(jù)的安全性至關(guān)重要。因此,系統(tǒng)應(yīng)遵循安全性的原則。大數(shù)據(jù)云平臺工程設(shè)計時將安全性問題分為以下三種情況:一是防止外部非法用戶訪問網(wǎng)絡(luò);二是防止內(nèi)部合法用戶的越權(quán)訪問;三是意外的數(shù)據(jù)損害。為了提高系統(tǒng)的安全性,在設(shè)計時就需要考慮整個系統(tǒng)安全性。立足當前、著眼長遠大數(shù)據(jù)云平臺工程建設(shè)工作要以需求為向?qū)?,以?yīng)用促發(fā)展,把當前和長遠結(jié)合起來,既要滿足當前工作需要,又要適應(yīng)未來技術(shù)的應(yīng)用和發(fā)展,不斷提升應(yīng)急平臺技術(shù)應(yīng)用水平分期目標本著“總體規(guī)劃、分步實施”和“先易后難、循序漸進”的建設(shè)原則,大數(shù)據(jù)云平臺工程建設(shè)將分兩期完成。一期建設(shè)目標1、搭建政府與社會群眾之間的溝通渠道,政府能夠第一時間通過各個渠道了解社會群眾的需求。2、建立全市各級社工委事件處置平臺,跟蹤社會群眾問題事件的處置過程,對各級部門問題事件的處置數(shù)量和質(zhì)量進行考核。3、打造數(shù)據(jù)平臺數(shù)據(jù)管控體系,定義數(shù)據(jù)管控組織和職能;定義數(shù)據(jù)管控工作辦法和管理流程;搭建數(shù)據(jù)管控平臺,包括數(shù)據(jù)標準、元數(shù)據(jù)和數(shù)據(jù)質(zhì)量管理平臺,重點是元數(shù)據(jù)管理平臺;制定數(shù)據(jù)標準;4、建立社區(qū)網(wǎng)格化“塊數(shù)據(jù)關(guān)系庫”,以社區(qū)網(wǎng)格為中心管理網(wǎng)格內(nèi)人、地、物、事、組織、情的關(guān)聯(lián)關(guān)系。5、強化社會公益和社區(qū)服務(wù)支撐能力,為社會團體、志愿者、社區(qū)服務(wù)人員精準推送需求信息。6、整合數(shù)據(jù)資源,通過大數(shù)據(jù)分析,挖掘社會群眾需求,識別社會風險,為領(lǐng)導(dǎo)決策提供支持??傮w建設(shè)任務(wù)與分期建設(shè)內(nèi)容總體建設(shè)任務(wù)市大數(shù)據(jù)云平臺工程分為兩期建設(shè),從建設(shè)內(nèi)容上來說,兩期的建設(shè)內(nèi)容是逐步完善、優(yōu)化、擴展的關(guān)系。大數(shù)據(jù)云平臺工程的總體任務(wù)包括:建立政府和社會、和民眾暢通的溝通渠道,從多個渠道收集、分析、挖掘居民群眾的迫切需求;強化黨委統(tǒng)籌,加快向社會組織、居委會等方面的延伸,引導(dǎo)社會組織入駐,強化社區(qū)黨委的統(tǒng)籌功能,形成了社會共治的良好局面。依托市數(shù)據(jù)交換平臺,建設(shè)網(wǎng)格化社會治理的塊數(shù)據(jù),并優(yōu)化升級網(wǎng)格化管理系統(tǒng),夯實基層社會治理工作;采用租用的統(tǒng)一云平臺的方式搭建系統(tǒng)運行環(huán)境,促進市云平臺產(chǎn)業(yè)的應(yīng)用落地;系統(tǒng)總體結(jié)構(gòu)和邏輯結(jié)構(gòu)總體架構(gòu)大數(shù)據(jù)云平臺工程的總體架構(gòu)分為應(yīng)用層、支撐層、數(shù)據(jù)層和基礎(chǔ)設(shè)施層,系統(tǒng)載體包括PC端系統(tǒng)、移動應(yīng)用系統(tǒng)和微信應(yīng)用系統(tǒng)三部分,總體架構(gòu)圖如下所示:圖SEQ圖\*ARABIC1總體架構(gòu)應(yīng)用層大數(shù)據(jù)云平臺工程是一個數(shù)據(jù)驅(qū)動應(yīng)用的“大數(shù)據(jù)”系統(tǒng),其應(yīng)用的深度、數(shù)量、功能會根據(jù)系統(tǒng)所融合的數(shù)據(jù)量和數(shù)據(jù)范圍有所變化和調(diào)整。目前已確定的應(yīng)用包括“網(wǎng)格化管理系統(tǒng)”、“社會動員管理系統(tǒng)”、“社區(qū)綜合服務(wù)系統(tǒng)”和“社會分析決策支持系統(tǒng)”四大系統(tǒng),以及相應(yīng)的移動化應(yīng)用。應(yīng)用系統(tǒng)的詳細介紹將在第五章進行闡述。支撐層支撐層保證應(yīng)用系統(tǒng)正常運行的核心。大數(shù)據(jù)云平臺工程的支撐層包括“地理信息平臺”、“流程引擎”、“ETL”、“數(shù)據(jù)調(diào)度”、“數(shù)據(jù)管控”等。各個支撐平臺的應(yīng)用是將成熟的技術(shù)進行封裝,便于系統(tǒng)開發(fā)人員調(diào)用,使開發(fā)人員可以將主要精力放在業(yè)務(wù)應(yīng)用系統(tǒng)的開發(fā)中,從復(fù)雜的底層技術(shù)中脫離出來,從而提高系統(tǒng)的建設(shè)效率。源系統(tǒng)數(shù)據(jù)抽取為保證業(yè)務(wù)數(shù)據(jù)的安全性,一般數(shù)據(jù)采用源系統(tǒng)主動落地的方案。源系統(tǒng)將導(dǎo)出的數(shù)據(jù)以文本文件的形式存儲在統(tǒng)一數(shù)據(jù)交換共享平臺中,供數(shù)據(jù)平臺獲取使用。技術(shù)緩沖層技術(shù)緩沖層直接對統(tǒng)一數(shù)據(jù)交換共享平臺的文本文件進行加載,采用hdfs并行加載的方案,將數(shù)據(jù)存儲到hadoop平臺中。為保證數(shù)據(jù)的上傳效率,可采用壓縮算法對數(shù)據(jù)文件進行壓縮,提供數(shù)據(jù)傳輸?shù)男?。并且由于hadoop平臺在數(shù)據(jù)處理時,可以對壓縮文件進行自動解壓,因此可以提供數(shù)據(jù)處理的效率,減少IO傳輸時間。整合層整合層對于業(yè)務(wù)數(shù)據(jù)的存儲,采用第三范式關(guān)系表的形式,這樣可以方便后續(xù)數(shù)據(jù)分析時直接采用SQL方式進行表的關(guān)聯(lián)處理。因此在整合層,歷史數(shù)據(jù)存儲一般采用HIVE存儲方式,并結(jié)合分區(qū)方案進行處理。在數(shù)據(jù)從技術(shù)緩沖層到整合層過程中,可以采用PIG對抽取的增量數(shù)據(jù)進行過濾、轉(zhuǎn)換、格式控制等。在進行元數(shù)據(jù)管理方面,各層數(shù)據(jù)統(tǒng)一采用Hcatalog進行管理,保證pig、hive能同時進行相同數(shù)據(jù)的訪問,保存處理的數(shù)據(jù)格式統(tǒng)一。由于采用統(tǒng)一的hcatalog管理,因此在pig進行數(shù)據(jù)清洗后,可以直接將數(shù)據(jù)存儲到整合層的hive表中。匯總層匯總層又叫共性加工層,主要特點是針對特定應(yīng)用邏輯,對數(shù)據(jù)平臺中存儲的業(yè)務(wù)歷史數(shù)據(jù)進行加工匯總和分析,供后續(xù)的業(yè)務(wù)應(yīng)用和集市使用。例如客戶數(shù)統(tǒng)計、客戶交易筆記統(tǒng)計等。匯總層的作用即時提取常用的共性分析結(jié)果進行存儲,為后續(xù)應(yīng)用提供系統(tǒng)的數(shù)據(jù)支撐。數(shù)據(jù)層數(shù)據(jù)層作為大數(shù)據(jù)云平臺工程的核心建設(shè)內(nèi)容,采用目前最先進的Hadoop大數(shù)據(jù)技術(shù),存儲來自于網(wǎng)格化管理、社區(qū)、各專業(yè)部門、社會組織、互聯(lián)網(wǎng)等若干渠道的數(shù)據(jù)。在大數(shù)據(jù)云平臺工程工程的數(shù)據(jù)層,將為這些數(shù)據(jù)建立各自的主題域,更重的是建立各類實體數(shù)據(jù)的關(guān)聯(lián)關(guān)系。數(shù)據(jù)層的建設(shè)情況主要涉及以下幾個方面:源系統(tǒng)指數(shù)據(jù)層上游的業(yè)務(wù)數(shù)據(jù)產(chǎn)生系統(tǒng)。是數(shù)據(jù)平臺的主要數(shù)據(jù)來源。主要包括:公安系統(tǒng)的人口基本信息數(shù)據(jù)、房管系統(tǒng)的房屋信息數(shù)據(jù)、交通系統(tǒng)的交管信息等。這些數(shù)據(jù)可能包含結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、多媒體數(shù)據(jù)等。數(shù)據(jù)層需要統(tǒng)一處理和存儲,為后續(xù)的數(shù)據(jù)消費系統(tǒng)的使用提供數(shù)據(jù)支撐基礎(chǔ)。統(tǒng)一數(shù)據(jù)交換共享平臺基于市政府數(shù)據(jù)交換共享平臺進行,是源系統(tǒng)與大數(shù)據(jù)云平臺工程數(shù)據(jù)層之間數(shù)據(jù)傳輸與交換的主要通道。統(tǒng)一數(shù)據(jù)管控平臺主要是對元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)標準進行統(tǒng)一的管理。元數(shù)據(jù)管理主要包括元數(shù)據(jù)抽取、元數(shù)據(jù)分析、元數(shù)據(jù)導(dǎo)出等功能;數(shù)據(jù)質(zhì)量管理主要包括制定數(shù)據(jù)質(zhì)量規(guī)則、分析數(shù)據(jù)質(zhì)量問題、跟蹤數(shù)據(jù)問題和生產(chǎn)報告;數(shù)據(jù)標準管理主要包含制定數(shù)據(jù)標準、數(shù)據(jù)標準導(dǎo)入、數(shù)據(jù)標準分析等功能。統(tǒng)一調(diào)度平臺用于管理數(shù)據(jù)層批處理任務(wù)的依賴關(guān)系配置、系統(tǒng)資源配置、任務(wù)并發(fā)與互斥、系統(tǒng)跑批進度監(jiān)控、作業(yè)跑批狀態(tài)監(jiān)控、數(shù)據(jù)抽取與下發(fā)監(jiān)控等。數(shù)據(jù)整合平臺數(shù)據(jù)整合平臺是數(shù)據(jù)層的建設(shè)核心。會對上游數(shù)據(jù)生成系統(tǒng)的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)進行統(tǒng)一的抽取、清洗、處理、加工、匯總、下發(fā)等。為下游的業(yè)務(wù)系統(tǒng)運行、業(yè)務(wù)系統(tǒng)分析、決策支持等提供強大的數(shù)據(jù)服務(wù)支持?;A(chǔ)設(shè)施層本次建設(shè)的大數(shù)據(jù)云平臺工程將利用成熟的云架構(gòu)Issa服務(wù)平臺作為基礎(chǔ)設(shè)施層。在Issa平臺中要為大數(shù)據(jù)云平臺工程提供基礎(chǔ)的網(wǎng)絡(luò)設(shè)備、服務(wù)器設(shè)備、存儲設(shè)備等基礎(chǔ)設(shè)施,并且通過防火墻等網(wǎng)絡(luò)安全設(shè)備和機制保證大數(shù)據(jù)云平臺工程的網(wǎng)絡(luò)和設(shè)備級的安全保障。安全防護體系大數(shù)據(jù)云平臺工程建設(shè)將從應(yīng)用級、數(shù)據(jù)級、網(wǎng)絡(luò)級、設(shè)備級多層次考慮和建設(shè)系統(tǒng)的安全防護體系,同時應(yīng)用先進的安全技術(shù)配合相應(yīng)的安全管理機制來保證大數(shù)據(jù)云平臺工程工程的整體安全。標準規(guī)范體系大數(shù)據(jù)云平臺工程的建設(shè)將遵循國家、省、市及行業(yè)相關(guān)的各項標準和規(guī)范進行設(shè)計和建設(shè)。技術(shù)架構(gòu)本系統(tǒng)技術(shù)架構(gòu)采用現(xiàn)階段比較流行的Web應(yīng)用程序開源框架,即struts+spring+hibernate的一個集成框架。具體架構(gòu)圖如下:圖SEQ圖\*ARABIC2技術(shù)架構(gòu)圖本系統(tǒng)框架從職責上分為四層:表示層、業(yè)務(wù)邏輯層、數(shù)據(jù)訪問層和數(shù)據(jù)持久層,以幫助開發(fā)人員在短期內(nèi)搭建結(jié)構(gòu)清晰、可復(fù)用性好、維護方便的Web應(yīng)用程序。其中使用Struts作為系統(tǒng)的整體基礎(chǔ)架構(gòu),負責MVC的分離,在Struts框架的模型部分,控制業(yè)務(wù)跳轉(zhuǎn),利用Hibernate框架對持久層提供支持,Spring做管理,管理struts和hibernate。具體做法是:用面向?qū)ο蟮姆治龇椒ǜ鶕?jù)需求提出一些模型,將這些模型實現(xiàn)為基本的Java對象,然后編寫基本的DAO(DataAccessObjects)接口,并給出Hibernate的DAO實現(xiàn),采用Hibernate架構(gòu)實現(xiàn)的DAO類來實現(xiàn)Java類與數(shù)據(jù)庫之間的轉(zhuǎn)換和訪問,最后由Spring做管理,管理struts和hibernate。信息資源規(guī)劃和數(shù)據(jù)庫設(shè)計數(shù)據(jù)模型規(guī)劃大數(shù)據(jù)平臺主要實現(xiàn)對明細數(shù)據(jù)的存儲、整合和加工處理,以及涉及歷史數(shù)據(jù)的深度復(fù)雜處理,大數(shù)據(jù)平臺是管理分析型系統(tǒng)的主要數(shù)據(jù)來源。從數(shù)據(jù)架構(gòu)的角度大數(shù)據(jù)平臺劃分為四大數(shù)據(jù)層次,分別是數(shù)據(jù)緩沖層、整合模型層、共性加工層和應(yīng)用層。這四層的劃分并不是簡單的遞進關(guān)系,而是相互補充相互完善的關(guān)系。具體數(shù)據(jù)架構(gòu)見下圖:圖3數(shù)據(jù)架構(gòu)數(shù)據(jù)緩沖層數(shù)據(jù)緩沖層與源系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)一一對應(yīng),它是數(shù)據(jù)存儲的臨時存儲區(qū)域。方便數(shù)據(jù)處理重跑及應(yīng)用系統(tǒng)數(shù)據(jù)過渡至大數(shù)據(jù)平臺。整合模型層面向分析型業(yè)務(wù)主題建立三范式模型,構(gòu)建全系統(tǒng)級的單一數(shù)據(jù)視圖,模型擴展性強且具有業(yè)務(wù)中立性,用于支持各類整合型的分析型應(yīng)用。共性加工層依賴于對應(yīng)用共性需求的的分析,提煉出對數(shù)據(jù)集成平臺具有共性的數(shù)據(jù)訪問、統(tǒng)計需求,從而構(gòu)建出的一個面向應(yīng)用的、提供共享的數(shù)據(jù)訪問服務(wù)的公共數(shù)據(jù)。共性加工層主要基于整合模型層實現(xiàn)。數(shù)據(jù)應(yīng)用層各應(yīng)用系統(tǒng)存放的用于前端應(yīng)用訪問數(shù)據(jù),方便用戶靈活、動態(tài)、快速、多角度、多層次的業(yè)務(wù)數(shù)據(jù)。數(shù)據(jù)整合原則數(shù)據(jù)來源數(shù)據(jù)包含的是社會和云系統(tǒng)內(nèi)部和社會和云系統(tǒng)外的業(yè)務(wù)系統(tǒng)數(shù)據(jù)。外部系統(tǒng)包括公安、民政、計生、稅務(wù)、國土等系統(tǒng)的數(shù)據(jù),數(shù)據(jù)來自于數(shù)據(jù)交換共享平臺。表SEQ表\*ARABIC2大數(shù)據(jù)平臺數(shù)據(jù)來源標準表系統(tǒng)歸屬數(shù)據(jù)來源數(shù)據(jù)內(nèi)容外部系統(tǒng)公安系統(tǒng)人口戶籍信息,人口的親屬關(guān)系人社部門城市人口社保信息,人口與公司關(guān)系衛(wèi)計部門農(nóng)村人口社保信息工商部門公司基礎(chǔ)信息民政部門社會組織信息編辦組織機構(gòu)單位信息住建部門房屋基礎(chǔ)信息禁毒辦吸毒信息教育局教育信息內(nèi)部系統(tǒng)網(wǎng)格化管理系統(tǒng)投訴、建議、咨詢事件信息、事件處置信息、社情民意信息、重點特殊人群信息社會動員管理系統(tǒng)公益活動信息、社會求助信息、公眾服務(wù)信息和志愿者信息社區(qū)綜合服務(wù)系統(tǒng)社會綜合服務(wù)信息數(shù)據(jù)整合概述數(shù)據(jù)整合的將多個數(shù)據(jù)來源系統(tǒng)的數(shù)據(jù)按照大數(shù)據(jù)云平臺工程的要求,將數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、加載并將數(shù)據(jù)重新組織,形成有利于業(yè)務(wù)人員理解和分析使用的正確數(shù)據(jù)存儲形式。從一個人口信息查看整個大數(shù)據(jù)平臺信息。技術(shù)緩沖層設(shè)計設(shè)計原則技術(shù)緩沖層需要保持源系統(tǒng)的原貌,不對數(shù)據(jù)進行大量的改造和調(diào)整,只進行一些常用的標準化處理。數(shù)據(jù)特點1、數(shù)據(jù)結(jié)構(gòu)和源系統(tǒng)保持一致。2、數(shù)據(jù)按照抽取的頻率和增全量進行存儲,每個頻率單獨保存一個表文件,而且存儲周期不需太長,能滿足后續(xù)其他層次的需求即可。3、技術(shù)緩沖層是為ETL服務(wù)的純技術(shù)層,不對外提供數(shù)據(jù)服務(wù)。數(shù)據(jù)來源技術(shù)緩沖層的數(shù)據(jù)包含的是社會和云系統(tǒng)外的業(yè)務(wù)系統(tǒng)數(shù)據(jù),例如:公安、民政、計生、稅務(wù)、國土等系統(tǒng)的數(shù)據(jù)。數(shù)據(jù)來自于數(shù)據(jù)交換共享平臺,包含增量和全量的數(shù)據(jù)。整合模型層設(shè)計模型設(shè)計思路借鑒數(shù)據(jù)模型的建設(shè)思路、利用在政府數(shù)據(jù)模型領(lǐng)域的實踐經(jīng)驗、結(jié)合市網(wǎng)格中心的需求進行整合層模型層的設(shè)計。整合層模型采用面向主題的設(shè)計方法,有效組織來源多樣的業(yè)務(wù)數(shù)據(jù),使用統(tǒng)一的邏輯語言描述相關(guān)業(yè)務(wù),保證了數(shù)據(jù)的一致性。在此基礎(chǔ)上可以進行多種不同應(yīng)用的開發(fā)設(shè)計,滿足不同部門的業(yè)務(wù)需求和不同的數(shù)據(jù)訪問方式,真正實現(xiàn)數(shù)據(jù)一次導(dǎo)入,多次使用。它所遵循的設(shè)計原則主要包括:中性整合模型層具有應(yīng)用中性的特征。整合層模型從業(yè)務(wù)邏輯角度以關(guān)系模型方法進行建模,涵蓋了所有的業(yè)務(wù)范圍,并可以滿足不斷產(chǎn)生的業(yè)務(wù)發(fā)展需求。整合模型層采用的這種語義關(guān)系建模的設(shè)計方式,保存了各種分析性應(yīng)用需要的所有業(yè)務(wù)數(shù)據(jù)以及這些數(shù)據(jù)之間重要的業(yè)務(wù)規(guī)則,體現(xiàn)了其作為大數(shù)據(jù)云平臺工程基礎(chǔ)數(shù)據(jù)層滿足不同應(yīng)用對數(shù)據(jù)的使用需求的功能。整合層模型不為任何特定的應(yīng)用進行針對性的設(shè)計,模型不會由于現(xiàn)有應(yīng)用的變動或者對新應(yīng)用的支持而在結(jié)構(gòu)上重構(gòu),這體現(xiàn)了模型對應(yīng)用支持的中立性。一致性作為基礎(chǔ)數(shù)據(jù)平臺設(shè)計基礎(chǔ)的邏輯數(shù)據(jù)模型必須在設(shè)計過程中保持一個統(tǒng)一的業(yè)務(wù)定義,比如人口的分類等應(yīng)該在整個系統(tǒng)內(nèi)部保持一致,將來各種分析應(yīng)用都使用同樣的數(shù)據(jù),這些數(shù)據(jù)應(yīng)按照預(yù)先約定的規(guī)則進行刷新,保證同步和一致。如外部系統(tǒng)和社會和云內(nèi)部系統(tǒng)數(shù)據(jù)必須依照一套相同的存放規(guī)則進行處理,它們和其他數(shù)據(jù)的關(guān)聯(lián)以及刷新的頻率等都應(yīng)該保持同步。靈活性整合層模型是一個基本上滿足第三范式要求的語義關(guān)系模型,這種設(shè)計方法能夠最大程度上減少冗余。第三范式的設(shè)計同時保證了整合層模型的靈活性和擴展性。面對新的需求,整合層模型的這種結(jié)構(gòu)能夠進行簡單、自然的擴展。這種特性使得整合層模型在設(shè)計過程可以“想大做小”——在有一個全局規(guī)劃的同時,選定某些部分入手,然后再逐步進行完善。比如可以從通過一個居民的基本信息資料、房產(chǎn)信息入手進行簡單的分析,然后補充居民的公安、民政、稅務(wù)等信息,延伸至全面的人口統(tǒng)一視圖。滿足詳細粒度要求為了滿足將來不同的應(yīng)用分析需要,整合層模型能夠提供最小粒度的詳細數(shù)據(jù)以支持各種可能的分析查詢。以這些最小粒度的詳細數(shù)據(jù)為基礎(chǔ),可以根據(jù)不同的統(tǒng)計分析口徑匯總生成所需的各種結(jié)果。在整合層模型中,不對詳細數(shù)據(jù)按特定需求進行篩選或者加工。滿足歷史數(shù)據(jù)存儲要求為了滿足存儲歷史數(shù)據(jù),又盡量考慮減少數(shù)據(jù)存儲空間。對于非事件的數(shù)據(jù),采用歷史拉鏈表的存儲方式;對于事件數(shù)據(jù),采用只保留最新數(shù)據(jù)的存儲方式。主題劃分此數(shù)據(jù)區(qū)按主題存放數(shù)據(jù),主題劃分如下:表SEQ表\*ARABIC3整合模型的十大主題主題中文名稱主題英文名稱模型英文簡稱人口PopulationPOP組織OrganizationORG事件EventEVT服務(wù)ServiceSRV民情ConditionCON房屋房產(chǎn)EstateEST公共設(shè)施CommunalFacilitiesCMF空間地理GeographyGGP參考項ReferenceREF代碼表CodeCD每個主題不是孤立存在的,相互之間是有關(guān)系的。例如:人口主題與組織、空間地理、房屋、事件、民情和服務(wù)六個主題有關(guān)系。這些關(guān)系數(shù)據(jù)會存放在相應(yīng)的關(guān)系表中。圖SEQ圖\*ARABIC4主題關(guān)系圖以一個居民的視角,查看到與其相關(guān)的所有信息。包括:其基本的屬性信息、其居住的房屋的信息、其投訴的事件、其工作的單位、其居住地區(qū)的周圍設(shè)施等信息。圖SEQ圖\*ARABIC5主題關(guān)系示例圖數(shù)據(jù)使用主題劃分的方式存放后,數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系更為清晰,對進一步的分析決策提供了數(shù)據(jù)基礎(chǔ)。由上面的例子數(shù)據(jù),我們可以進一步進行數(shù)據(jù)分析。通過對居住房屋的數(shù)據(jù)和戶籍數(shù)據(jù)的分析,得出張老伯是獨自居住,若該社區(qū)開展老人服務(wù)活動時,應(yīng)該是重點關(guān)注對象。其反映了希望建設(shè)社區(qū)醫(yī)院的民情需求,對該網(wǎng)格數(shù)據(jù)的分析我們得出該網(wǎng)格周邊沒有醫(yī)院,同時該網(wǎng)格人口分布情況為65歲的老人占其比例的45%,因此,我們可以得出張三老人反映的民情是應(yīng)該采信,并相應(yīng)提出解決方案。主題說明如下:POPULATION(人口)人口(Population):是指全市的全部人口,包括常住人口和流動人口。數(shù)據(jù)項包括人口基本信息、公安數(shù)據(jù)、社保數(shù)據(jù)、計生數(shù)據(jù)、民政數(shù)據(jù)、稅務(wù)數(shù)據(jù)、教育數(shù)據(jù)等,使用證件類型、證件號碼、姓名作為人口的唯一識別信息,將網(wǎng)格員補錄的人口數(shù)據(jù)與外圍系統(tǒng)(公安、社保、計生、民政、稅務(wù))數(shù)據(jù)進行整合,形成完整、全面的人口數(shù)據(jù)。借助人口主題的建立可以實現(xiàn)基于人口信息的分析,是實現(xiàn)以人口為中心的各種分析應(yīng)用的重要基礎(chǔ)。POPULATION主題的數(shù)據(jù)是社會和云系統(tǒng)的關(guān)鍵數(shù)據(jù)要素,也是構(gòu)建基于大數(shù)據(jù)平臺的各類應(yīng)用的不可或缺的數(shù)據(jù)基礎(chǔ),在以人口為中心的數(shù)據(jù)分析決策過程中,這些信息顯得尤其重要。圖SEQ圖\*ARABIC6人口主題模型以一個人口信息為例,看數(shù)據(jù)是如何存放的。圖SEQ圖\*ARABIC7人口主題關(guān)系數(shù)據(jù)示例人口與其他主題的關(guān)系模型示例如下:圖SEQ圖\*ARABIC8人口與其他主題的關(guān)系模型關(guān)系表將人之間的關(guān)系和人與房屋、組織的關(guān)系統(tǒng)一存放,當新增關(guān)系種類時,不需要修改模型,只需要增加關(guān)系種類代碼,模型擴展性強。例如:人口關(guān)系歷史將存放人與人之間的關(guān)系,包括從戶籍信息取得的親屬關(guān)系、從教育信息得到的同學關(guān)系、從工作信息得到的同事關(guān)系等各種關(guān)系。通過該表可以展示出人與人之間的結(jié)構(gòu)圖,如下圖所示:圖SEQ圖\*ARABIC9人與人關(guān)系圖圖SEQ圖\*ARABIC10親屬關(guān)系圖ORGANIZATION(組織)組織(ORGANIZATION)是指人們?yōu)閷崿F(xiàn)一定的目標,互相協(xié)作結(jié)合而成的集體或團體,如法人單位,非營利性社會組織、個體戶、政府機關(guān)、事業(yè)單位。組織主題分為機關(guān)事業(yè)單位、社會組織和經(jīng)濟組織三類等。數(shù)據(jù)包括組織登記數(shù)據(jù)、組織資質(zhì)數(shù)據(jù)和組織監(jiān)管數(shù)據(jù),數(shù)據(jù)來源于編辦、稅務(wù)局、工商局、質(zhì)量技監(jiān)局、社團局及其他相關(guān)委辦單位。圖SEQ圖\*ARABIC11組織主題模型EVENT(事件)事件(EVENT):包括群眾來訪、群眾來信、群眾來電、領(lǐng)導(dǎo)批辦、上級交辦、其他部門轉(zhuǎn)來、排查發(fā)現(xiàn)、新聞媒體曝光和其他方式收集的咨詢、建議和投訴。事件分為社會糾紛、安全生產(chǎn)、環(huán)境秩序、社會治安、出租房屋。事件主題所包含的信息是進行決策統(tǒng)計分析所需的核心數(shù)據(jù)。圖SEQ圖\*ARABIC12事件主題數(shù)據(jù)存儲關(guān)系示例圖SERVICE(服務(wù))服務(wù)(SERVICE):包括是政府機關(guān)、社會群體、企事業(yè)單位提供的各類服務(wù)于廣大居民的服務(wù),包括公益活動、證件辦理等的相關(guān)數(shù)據(jù)。公益活動的數(shù)據(jù)主要來源于社工委社會組織工作處、各類樞紐型社會組織等,其他部門的服務(wù)數(shù)據(jù)來源于相應(yīng)的部門的業(yè)務(wù)系統(tǒng)。圖SEQ圖\*ARABIC13服務(wù)信息關(guān)系示例圖CONDITION(民情)民情(CONDITION):包括是以社區(qū)為單位,形成居民反映的基本民情信息。ESTATE(房屋房產(chǎn))房屋房產(chǎn)(ESTATE):是指房屋的物理數(shù)據(jù)(丘、幢、戶)和權(quán)屬數(shù)據(jù),包括公用建筑、民用建筑、工業(yè)廠房、商業(yè)建筑。數(shù)據(jù)來源于房管局和網(wǎng)格員采集的數(shù)據(jù)。圖SEQ圖\*ARABIC14房屋主題模型COMMUNALFACILITIES(公共設(shè)施)公共設(shè)施(COMMUNALFACILITIES):通過城市公共設(shè)施的普查,構(gòu)建全市公共設(shè)施的基礎(chǔ)信息。圖SEQ圖\*ARABIC15公共設(shè)施主題模型GEOGRAPHY(空間地理)空間地理(GEOGRAPHY):從國土、測繪等部門獲取基礎(chǔ)地形圖,經(jīng)過地理信息的補測、修正形成大數(shù)據(jù)云平臺工程系統(tǒng)的空間地理信息,同時包含網(wǎng)格數(shù)據(jù)。REFERENCE(參考項)參考項(REFERENCE):包含宏觀經(jīng)濟、政策指引等決策支持信息。CODE(代碼表)代碼表(CODE):包含所有的代碼表信息。數(shù)據(jù)整合數(shù)據(jù)整合的輸入是從數(shù)據(jù)交換共享平臺取得的各個部門系統(tǒng)的數(shù)據(jù)文件。系統(tǒng)先要對文件進行預(yù)處理,然后再加載源系統(tǒng)表,最后根據(jù)數(shù)據(jù)整合規(guī)則將源系統(tǒng)數(shù)據(jù)加載到整合層數(shù)據(jù)模型。1、文件預(yù)處理系統(tǒng)需要在收取數(shù)據(jù)文件之后自動開始文件預(yù)處理(文件解壓,去文件尾),并將處理完的文件放到特定的服務(wù)器目錄下。文件預(yù)處理需要充分考慮效率和資源占用情況,保證處理過程正確完整。由于源系統(tǒng)文件有些按日下傳,注意解壓文件最好按照數(shù)據(jù)日期的目錄存儲。同時需要有文件清理的機制,保證系統(tǒng)不會過量的占用存儲資源。2、數(shù)據(jù)加載預(yù)處理完的文本文件需要按照源系統(tǒng)數(shù)據(jù)字典的定義加載到數(shù)據(jù)庫中。加載方式可以采用LOAD方式或者外表方式。注意制定源數(shù)據(jù)表的命名規(guī)范,避免重名的數(shù)據(jù)表定義出現(xiàn)。3、數(shù)據(jù)整合數(shù)據(jù)整合主要是將源數(shù)據(jù)表里的數(shù)據(jù)加載到整合層數(shù)據(jù)模型,將從十幾個部門系統(tǒng)的數(shù)據(jù)在整合層中按照主題存放。對于代碼字段要按照市統(tǒng)一的數(shù)據(jù)標準進行標準化處理,例如:婚姻狀況屬性在公安、民政、計生的編碼不一致,在整合層存儲時要將其進行標準化,將其代碼統(tǒng)一。4、整合數(shù)據(jù)的范圍包括網(wǎng)格化管理系統(tǒng)、12345公共服務(wù)熱線、社會動員管理系統(tǒng)、社區(qū)綜合服務(wù)系統(tǒng)、公安局、社保局、計生委、民政局、稅務(wù)局、教委、工商局、質(zhì)量技監(jiān)局、社團局、房管局等系統(tǒng)數(shù)據(jù)。屬性覆蓋因從多個部門取數(shù),會出現(xiàn)屬性不一致的現(xiàn)象,原則上以數(shù)據(jù)產(chǎn)生系統(tǒng)的數(shù)據(jù)為準。對于有明確來源系統(tǒng)的屬性項,在數(shù)據(jù)整合時會以該系統(tǒng)為準,例如:房屋信息以房管局的信息為準,不再取其他系統(tǒng)的數(shù)據(jù)。對于沒有明確來源系統(tǒng)的屬性項,在整合層會將多個數(shù)據(jù)源的信息都保存。當出現(xiàn)多個數(shù)據(jù)源數(shù)據(jù)不一致時,將向網(wǎng)格人員生成信息核對任務(wù),由網(wǎng)格人員進戶核對信息維護到網(wǎng)格化管理系統(tǒng)中,同時將確定本系統(tǒng)最終認定的屬性項。以婚姻狀況為例,公安、民政、計生都有婚姻狀況,但不能認定其以哪個部門為準,因此在其數(shù)據(jù)存放如下:圖SEQ圖\*ARABIC16數(shù)據(jù)屬性覆蓋存放模型共性加工層設(shè)計設(shè)計原則需求驅(qū)動共性加工層是因為需求而產(chǎn)生的,所以一定要基于需求。提煉共性共性加工層是提煉不同應(yīng)用公共指標,提煉的程度太高會失去共性加工層的意義。架構(gòu)分明在共性加工層再分明細層和共性加工層,明細層是主要是人口主題的擴展。共性加工層是除人口外的其他主題業(yè)務(wù)呈現(xiàn)。為了便于使用和管理,可根據(jù)數(shù)據(jù)匯總加工的粒度不同,明確其分層分類方法,使其層次清晰。迭代開發(fā)共性加工層的建設(shè)是一個循環(huán)往復(fù)的過程,不可能一步到位。隨著應(yīng)用的增加,共性加工層會不斷的豐富,提升其業(yè)務(wù)價值。設(shè)計思路共性加工層的設(shè)計思路通常有視圖和物理表兩種方式:1、視圖視圖的加工邏輯寫在視圖定義中,由數(shù)據(jù)集市開發(fā)人員建立。當業(yè)務(wù)應(yīng)用人員需要訪問這些加工數(shù)據(jù)時,直接通過視圖進行檢索。當然數(shù)據(jù)庫實際執(zhí)行時還是要按視圖定義,到基礎(chǔ)層進行查詢。視圖的優(yōu)勢在于:視圖本身并不存儲數(shù)據(jù),不需要額外的空間開銷;視圖的邏輯是寫在視圖定義中,不會提前按此邏輯預(yù)加工生成數(shù)據(jù),修改邏輯時就很容易;視圖本身不存儲數(shù)據(jù),對于稍有不同的需求就可以建多個視圖來實現(xiàn),不會形成任何額外存儲開銷。視圖的劣勢在于:在視圖的實際操作訪問時,是按視圖定義中的邏輯展開,在基礎(chǔ)層中進行查詢。視圖邏輯很復(fù)雜時,實際的數(shù)據(jù)庫資源開銷還是很大的,查詢速度也會比較慢;當多個人在同一天要多次訪問同一個視圖時,就會重復(fù)消耗數(shù)據(jù)庫資源,同時每個人都會面對較長的查詢等待時間。2、預(yù)加工物理表預(yù)加工物理表將加工邏輯寫在ETL程序中,由開發(fā)人員開發(fā),定期運行這些程序?qū)⒆罱K所需的數(shù)據(jù)加工好放在物理表中。當業(yè)務(wù)應(yīng)用人員需要訪問這些數(shù)據(jù)時,直接訪問這些已經(jīng)預(yù)加工好的物理表即可。預(yù)加工物理表的優(yōu)勢在于:復(fù)雜的加工邏輯已經(jīng)在ETL程序運行時一次性的處理完畢,訪問效率會比視圖要好;基于物理表上有很多提高查詢效率的技術(shù)可用,而視圖可能就無法使用這些技術(shù),預(yù)加工物理表可以適當采用這樣的技術(shù)以進一步提高查詢效率;基于基礎(chǔ)層表的復(fù)雜的加工邏輯已經(jīng)在ETL程序運行時一次性的處理完畢,當需要多次訪問時節(jié)約開銷和提高效率的優(yōu)勢就會體現(xiàn)的更充分。預(yù)加工物理表的劣勢在于:預(yù)加工物理表本身需要存儲數(shù)據(jù),需要額外的空間開銷,特別是當目標數(shù)據(jù)集較大時,這些開銷還是非常可觀的,還會引出一個數(shù)據(jù)保留周期的問題;預(yù)加工物理表的邏輯是寫在ETL程序定義中,會提前按此邏輯預(yù)加工生成數(shù)據(jù),因此修改邏輯時就很復(fù)雜,而且還涉及歷史數(shù)據(jù)的問題;預(yù)加工物理表管理相對復(fù)雜,成本較高,增加刪除需謹慎,且數(shù)量亦不適合太多。在共性加工層設(shè)計時視圖和物理表的選擇是一個比較復(fù)雜的問題,不可一概而論。最重要的決定因素是系統(tǒng)的配置情況,其次還有用戶對于查詢的效率期望值,中間表數(shù)據(jù)被重用的可能性,表數(shù)據(jù)量的大小等。實現(xiàn)方式共性加工層的實現(xiàn)方式主要有三種,分別為預(yù)鏈接、預(yù)計算和預(yù)聚合。1、預(yù)連接預(yù)連接指的是原來分散在整合模型層中的很多信息根據(jù)應(yīng)用的需要進行預(yù)連接,這種預(yù)連接可以有不同的實現(xiàn)方式,比如可以采用物理表,也可以采用視圖。2、預(yù)計算預(yù)計算在整合模型層中難于計算,通常是規(guī)則比較復(fù)雜,或者計算一次所需的時間比較長的數(shù)據(jù)預(yù)先計算出來,但粒度不變,仍為最細的人口粒度;對于需要預(yù)計算的數(shù)據(jù),因為業(yè)務(wù)邏輯比較復(fù)雜,建議采用物理表的方式。3、預(yù)聚合預(yù)聚合維度建模方式對整合模型層和共性加工明細層進行匯總和聚合,不再是最細粒度了。對于預(yù)聚合,也將采用物理表與視圖結(jié)合的方式,但因為預(yù)聚合的粒度已經(jīng)比較粗了,所以數(shù)據(jù)量上也會減少很多,所以可以適當?shù)亩嗖捎梦锢肀淼姆绞?,以?jié)約系統(tǒng)資源,提高查詢效率。數(shù)據(jù)應(yīng)用層設(shè)計數(shù)據(jù)應(yīng)用層定位四大應(yīng)用系統(tǒng)做為社會和云系統(tǒng)的一個子集,他主要面向某個特定的應(yīng)用。其定位包括:1、大數(shù)據(jù)平臺有大量的數(shù)據(jù);應(yīng)用系統(tǒng)中的數(shù)據(jù)更多的是大數(shù)據(jù)平臺的子集,主要是基于大數(shù)據(jù)平臺之上來建立的。2、大數(shù)據(jù)平臺只適于少量的靈活訪問;而應(yīng)用系統(tǒng)適合大量的非預(yù)知的數(shù)據(jù)的訪問和分析。3、應(yīng)用層主要是面向應(yīng)用而設(shè)計的,可以面向特定應(yīng)用需求而設(shè)計數(shù)據(jù)結(jié)構(gòu);4、應(yīng)用層的建設(shè)可以以3NF方式進行設(shè)計,也可以采用星型模型或多維模型的方式進行設(shè)計;5、大數(shù)據(jù)平臺內(nèi)存儲了很長時間范圍內(nèi)的數(shù)據(jù)—從5年到10年,而應(yīng)用集市數(shù)據(jù)則可根據(jù)應(yīng)用的需要靈活掌握;6、大數(shù)據(jù)平臺允許分析人員以受限的形式訪問數(shù)據(jù),而應(yīng)用集市允許自由的訪問。設(shè)計原則應(yīng)用數(shù)據(jù)與系統(tǒng)數(shù)據(jù)字典的數(shù)據(jù)分開存儲于不同的表空間。按應(yīng)用劃分數(shù)據(jù),不同應(yīng)用的數(shù)據(jù)應(yīng)存儲于不同的表空間,便以數(shù)據(jù)處理及前端查詢。按業(yè)務(wù)管理需要獨立處理或維護的數(shù)據(jù),例如獨立進行數(shù)據(jù)備份或清理,應(yīng)考慮存儲在獨立的表空間。表和索引分開存儲于不同的表空間,以便分布到不同的數(shù)據(jù)文件、硬盤上,并分別進行不同的物理存儲參數(shù)優(yōu)化。并行存取的多個分區(qū),應(yīng)考慮存放在不同的表空間,以控制分區(qū)分布到不同的數(shù)據(jù)文件、硬盤上。相對靜態(tài)的表和頻繁變動的表分開存放在不同的表空間,以便分別進行不同的物理參數(shù)優(yōu)化。數(shù)據(jù)庫服務(wù)架構(gòu)基于云計算平臺,將關(guān)系型數(shù)據(jù)庫的能力以服務(wù)的形式提供給用戶,同時具有傳統(tǒng)關(guān)系型數(shù)據(jù)庫軟件系統(tǒng)常見的功能,又具備更多優(yōu)勢。目前需要支持MySQL數(shù)據(jù)庫,后期會擴展到Oracle、MSSQLServer和PostgreSQL等。數(shù)據(jù)庫服務(wù)能夠?qū)崿F(xiàn)對Oracle、MSSQLServer等資源的應(yīng)用,可以采用物理機和虛機的方式整機部署分發(fā)的方式,也可以采用高性能物理機部署后采用數(shù)據(jù)庫自身的管理系統(tǒng)進行實例的分發(fā)。圖SEQ圖\*ARABIC17數(shù)據(jù)庫整體架構(gòu)其主要功能包括:實例管理,包括創(chuàng)建實例、增刪改實例、重啟實例、讀寫分離主從設(shè)置等;數(shù)據(jù)遷移,將數(shù)據(jù)導(dǎo)入導(dǎo)出實例;數(shù)據(jù)備份與恢復(fù),可設(shè)置自動備份策略或者隨時手動備份,支持物理備份和邏輯備份,支持全量備份和增量備份,支持刪除備份,支持從備份點文件恢復(fù);數(shù)據(jù)庫與帳號管理,對數(shù)據(jù)庫及數(shù)據(jù)庫帳號進行增刪改查等操作;數(shù)據(jù)庫參數(shù)配置,用戶可靈活自定義數(shù)據(jù)庫參數(shù),使數(shù)據(jù)庫性能最優(yōu)化;運行監(jiān)控,直觀呈現(xiàn)實例的資源使用情況,以及數(shù)據(jù)庫引擎的各項參數(shù)指標運行狀況;日志管理,對錯誤日志和慢日志進行統(tǒng)計分析,為用戶優(yōu)化數(shù)據(jù)庫性能提供參考信息。應(yīng)用支撐系統(tǒng)設(shè)計大數(shù)據(jù)基礎(chǔ)平臺設(shè)計概述大數(shù)據(jù)數(shù)據(jù)應(yīng)用平臺以Hadoop及其相關(guān)技術(shù)為核心,提供海量數(shù)據(jù)存儲和數(shù)據(jù)查詢、挖掘分析能力。通過集成系統(tǒng)中各來源的結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),一方面將各級職能部門結(jié)構(gòu)化信息進行統(tǒng)一管理,另一方面將內(nèi)網(wǎng)上相關(guān)信息加以融合。大數(shù)據(jù)平臺將結(jié)合其他各個業(yè)務(wù)系統(tǒng),集成各種數(shù)據(jù)源后,搭建統(tǒng)一集中大數(shù)據(jù)處理和分析平臺,從全方位,多角度為運營決策提供強有力的幫助。Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺,可以輕松地在Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個優(yōu)點:高可靠性Hadoop在文件存儲和處理數(shù)據(jù)的能力值得信賴。高擴展性Hadoop是在可用的計算機集群間分配數(shù)據(jù)并完成計算任務(wù)的,這些集群可以方便地擴展到數(shù)以千計的節(jié)點中。高效性Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非常快。高容錯性Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。技術(shù)方案物理架構(gòu)設(shè)計方案大數(shù)據(jù)平臺的物理架構(gòu)實現(xiàn)是十分復(fù)雜且技術(shù)難度較大的過程。參考目前流行的大數(shù)據(jù)設(shè)計理念和先進技術(shù),設(shè)計大數(shù)據(jù)平臺集群物理架構(gòu)圖如下:圖SEQ圖\*ARABIC18大數(shù)據(jù)平臺集群示意圖其中主要包括的機器節(jié)點描述如下:ResourceManage此節(jié)點用于運行計算框架YARN的主服務(wù)節(jié)點,控制整個集群的計算資源的分配和調(diào)度。需要有兩個節(jié)點。NameNode此節(jié)點用于Hadoop集群中的HDFS文件系統(tǒng)的存儲主節(jié)點服務(wù),控制所有集群中的文件存儲相關(guān)分析和管理。需要兩個節(jié)點。HMaster此為Hbase的數(shù)據(jù)庫相關(guān)服務(wù)的主節(jié)點,需要部署兩份。DataNode此節(jié)點主要用于分布式的存儲、計算應(yīng)用。會部署Hbase、HFDS、YARN等相應(yīng)的從節(jié)點服務(wù)。OtherComponents機器用于規(guī)劃安裝一個額外的計算組件、數(shù)據(jù)庫、監(jiān)控工具等。WebService用于集群的對應(yīng)服務(wù)應(yīng)用的安裝,如歷史數(shù)據(jù)查詢的接口服務(wù)。關(guān)鍵點設(shè)計及推薦架構(gòu)1、Hadoop集群高可用設(shè)計方案Hadoop采用zookeeper集群實現(xiàn)HDFS、YARN、HBASE、HIVE等集群組件的高可用。所有的重要服務(wù)都是雙份,通過Zookeeper實現(xiàn)實時的監(jiān)控。若出現(xiàn)活動狀態(tài)的主節(jié)點故障時,Zookeeper監(jiān)測到故障,立即將另一個備用狀態(tài)的主節(jié)點激活為活動狀態(tài),保證了集群不會出現(xiàn)運行中斷。同時,在Hadoop集群中,最重要的是保證HDFS數(shù)據(jù)不會丟失,實現(xiàn)的方式就是通過JournalNode集群,實現(xiàn)兩個NameNode節(jié)點間的元數(shù)據(jù)實時同步,保證元數(shù)據(jù)不會丟失,也保障也集群的數(shù)據(jù)安全性。圖SEQ圖\*ARABIC19Hadoop集群高可用性架構(gòu)圖2、Hadoop集群中各節(jié)點的功能及安裝的組件規(guī)劃以下列表為Hadoop集群中的核心組件、客戶端、應(yīng)用程序的安裝規(guī)劃列表。描述了各主節(jié)點、監(jiān)控節(jié)點、數(shù)據(jù)節(jié)點等需要安裝的核心組件。另外需要說明的是,一些核心組件由于只需要安裝客戶端,因此沒有詳細體現(xiàn)在列表中(見表格最后一列),這些組件包括:Spark、Flume、Kafka、Pig、solr、nutch等,可根據(jù)實現(xiàn)應(yīng)用需要進行安裝。表SEQ表\*ARABIC4Hadoop集群核心組件安裝規(guī)劃機器序號分類HDFSYARNHbaseJournalNodezookeeperHive應(yīng)用程序及客戶端組件1主節(jié)點namenode2主節(jié)點namenode3主節(jié)點ResourceManagerHmaster4主節(jié)點ResourceManagerHmaster5監(jiān)控節(jié)點、客戶端節(jié)點JournalNodezookeeperHiveServerMYSQL各Hadoop客戶端組件6監(jiān)控節(jié)點、客戶端節(jié)點JournalNodezookeeperHiveServerMYSQL各Hadoop客戶端組件7監(jiān)控節(jié)點、客戶端節(jié)點JournalNodezookeeper各Hadoop客戶端組件8應(yīng)用程序節(jié)點HiveClientWebService、調(diào)度服務(wù)9應(yīng)用程序節(jié)點HiveClientWebService調(diào)度服務(wù)10數(shù)據(jù)節(jié)點datanodeNodeManagerHRegionServer11數(shù)據(jù)節(jié)點datanodeNodeManagerHRegionServer12數(shù)據(jù)節(jié)點datanodeNodeManagerHRegionServer17數(shù)據(jù)節(jié)點datanodeNodeManagerHRegionServer18數(shù)據(jù)節(jié)點datanodeNodeManagerHRegionServer3、集群的物理部署架構(gòu)推薦Hadoop集群中推薦的節(jié)點部署架構(gòu)如下圖所示,以機架為單位,每個機器上存放若干個機器節(jié)點。所有的主節(jié)點分別分一個機器(實現(xiàn)部署在兩套機架上,因為所有主節(jié)點都是雙份的);從節(jié)點按實際的機架容量分別放到多臺機架上,需要注意的是在Hadoop中可以通過配置機器對應(yīng)的機架來提高訪問的效率,hdfs會優(yōu)先訪問本機架所對應(yīng)的節(jié)點上的數(shù)據(jù),以提高訪問的效率。機架內(nèi)部的節(jié)點之前以千兆網(wǎng)絡(luò)進行聯(lián)結(jié),機架之前通過萬兆交換機進行聯(lián)結(jié)。圖SEQ圖\*ARABIC20集群部署物理架構(gòu)推薦系統(tǒng)資源及配置規(guī)劃表SEQ表\*ARABIC5系統(tǒng)資源配置規(guī)劃表MachineTypeWorkloadPattern/ClusterTypeStorageProcessor(#ofCores)Memory(GB)NetworkSlavesBalancedworkloadTwelve2-3TBdisks8128-2561GBonboard,2*10GBEmezzanine/externalCompute-intensiveworkloadTwelve1-2TBdisks10128-2561GBonboard,2*10GBEmezzanine/externalStorage-heavyworkloadTwelve4+TBdisks8128-2561GBonboard,2*10GBEmezzanine/externalNameNodeBalancedworkloadFourormore2-3TBRAID10withspares8128-2561GBonboard,2*10GBEmezzanine/externalResourceManagerBalancedworkloadFourormore2-3TBRAID10withspares8128-2561GBonboard,2*10GBEmezzanine/external網(wǎng)絡(luò)資源規(guī)劃網(wǎng)絡(luò)資源規(guī)劃如下圖所示。機架內(nèi)部的節(jié)點機器之前最少采用千兆網(wǎng)連接,并且采用雙網(wǎng)卡,各機架與主節(jié)點的聯(lián)結(jié)采用萬兆網(wǎng)連接,保證集群的網(wǎng)絡(luò)高可用性和傳輸速度。圖SEQ圖\*ARABIC21大數(shù)據(jù)平臺網(wǎng)絡(luò)資源規(guī)劃圖計算架構(gòu)實現(xiàn)整合層計算方案大數(shù)據(jù)平臺歷史數(shù)據(jù)存儲在整合模型層,建議以整合數(shù)據(jù)模型進行存儲,保持數(shù)據(jù)格式的一致性。業(yè)務(wù)系統(tǒng)在將每日增量數(shù)據(jù)加載到hadoop平臺之后,通過hdfs文件進行存儲;為方便后續(xù)數(shù)據(jù)分析和應(yīng)用,數(shù)據(jù)在進行歷史存儲時,一般采用二維表的形式,也就是采用hive進行保存。針對每日的增量數(shù)據(jù),可以采用按日分區(qū)的方式,將數(shù)據(jù)加載到hive表中,區(qū)分數(shù)據(jù)的歷史。具體的計算架構(gòu)如下圖所示:圖SEQ圖\*ARABIC22緩沖層到整合層計算框架數(shù)據(jù)清洗在從源系統(tǒng)抽取的數(shù)據(jù)存儲到hdfs平臺后,數(shù)據(jù)以文件的形式進行存儲,各字段間和字段內(nèi)容可以存在不規(guī)范的情況,或數(shù)據(jù)存在錯誤的情況。這時若直接將數(shù)據(jù)存儲到歷史表中,將引發(fā)后續(xù)數(shù)據(jù)計算的錯誤,或者解析的失敗。例如,字段包括特殊字符、代碼類型錯誤等。這時就需要在數(shù)據(jù)入庫前,先進行數(shù)據(jù)的清洗和轉(zhuǎn)換。對于非結(jié)構(gòu)化的數(shù)據(jù),需要自定義mapreduce程序來處理;而對于大多數(shù)的業(yè)務(wù)數(shù)據(jù)表,我們可以采用pig流式處理直接對數(shù)據(jù)進行解析,然后存儲hive表中。數(shù)據(jù)存儲在hadoop平臺中,存在有統(tǒng)一的元數(shù)據(jù)管理工具HCatalog。HCatalog可以對各組件進行統(tǒng)一的數(shù)據(jù)格式管理,保證各種工具可以該問相同的一份數(shù)據(jù)。例如,注冊了Hive表之后,我們可以利用Pig對數(shù)據(jù)進行清洗轉(zhuǎn)換,然后直接訪問Hive表,將數(shù)據(jù)存儲進入。在進行數(shù)據(jù)存儲的同時,我們通過hive的分區(qū)技術(shù),按日將數(shù)據(jù)進行分區(qū),采用覆蓋存儲的方式,保證每日的數(shù)據(jù)不會出現(xiàn)重復(fù)的情況。共性加工層計算方案共性加工層用于將源數(shù)據(jù)按業(yè)務(wù)需求,將數(shù)據(jù)進行加工統(tǒng)計、匯總等,供各業(yè)務(wù)系統(tǒng)使用。此處數(shù)據(jù)存儲需要根據(jù)實際應(yīng)用方式來確定。針對實時查詢和統(tǒng)計的數(shù)據(jù),可以采用hbase進行數(shù)據(jù)存儲,保證查詢的高效性。針對集市應(yīng)用等需求,可以將加工統(tǒng)計的數(shù)據(jù)采用hive表進行存儲,方便數(shù)據(jù)的導(dǎo)出和批量處理。在進行數(shù)據(jù)處理時,采用Hcatalog統(tǒng)一進行元數(shù)據(jù)的管理,保證近源層和共性加工層的數(shù)據(jù)處理統(tǒng)一性。也就是在通過hbase進行存儲時,同樣可以采用hive、pig進行數(shù)據(jù)的訪問。所有的數(shù)據(jù)在加工到共性加工層時,都可以通過Hive的查詢語言進行處理,通過python腳本進行處理邏輯的包裝。圖SEQ圖\*ARABIC23共性加工層計算框架圖數(shù)據(jù)應(yīng)用于查詢方案Hadoop中可以提供兩種數(shù)據(jù)查詢的方案,可針對報表應(yīng)用、數(shù)據(jù)挖掘工具的接入進行直接的訪問,同時也可以進行自定義數(shù)據(jù)查詢的開發(fā)。查詢服務(wù)邏輯功能如下圖:圖SEQ圖\*ARABIC24應(yīng)用集市層應(yīng)用框架圖1、Hive數(shù)據(jù)查詢Hadoop大數(shù)據(jù)平臺可提供全面的數(shù)據(jù)查詢服務(wù),具有如下特點:適用于大規(guī)模的數(shù)據(jù)導(dǎo)出;利用Mapreduce/Tez引擎,適合復(fù)雜的SQL邏輯分析;較適合結(jié)構(gòu)化數(shù)據(jù)存儲;可應(yīng)用于歷史數(shù)據(jù)的統(tǒng)計分析,負責的數(shù)據(jù)查詢運算等,非常適合為下游系統(tǒng)提供數(shù)據(jù)導(dǎo)出服務(wù)。2、Hbase數(shù)據(jù)查詢適用于實時響應(yīng)的查詢Phoenix提供SQL查詢接口,同時提供表索引功能Solr提供快速的全文檢索,適合模糊匹配的索引功能HBASE更適合結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)存儲由于HBaze數(shù)據(jù)查詢具備的以上特點,可用于支持下游應(yīng)用系統(tǒng)的數(shù)據(jù)服務(wù)、全文檢索查詢服務(wù)、模糊匹配查詢服務(wù)等??芍С秩缇W(wǎng)格化管理系統(tǒng)的數(shù)據(jù)支持服務(wù)、數(shù)據(jù)導(dǎo)出服務(wù)、決策系統(tǒng)的數(shù)據(jù)分析與挖掘服務(wù)等。并且支持ETL設(shè)計ETL是指數(shù)據(jù)的抽取(Extract),轉(zhuǎn)換(Transform)和加載(Load),是大數(shù)據(jù)平臺實施的一個非常重要的環(huán)節(jié),在項目實施的第一階段中是項目實施的工作重點,建立一套完整、正確、高效的數(shù)據(jù)抽取、轉(zhuǎn)換和加載機制,是大數(shù)據(jù)平臺的基礎(chǔ)性目標。需要指出的是,由于并行數(shù)據(jù)庫的發(fā)展,目前更主流的大數(shù)據(jù)平臺ETL模式是“E”“L”“T”的模式,即數(shù)據(jù)抽取、加載、轉(zhuǎn)換。轉(zhuǎn)換操作一般是庫內(nèi)進行。因此在項目實施過程中,Extract部分既可以采用已有ETL工具如InformaticPowerCenter,亦可以采自行開發(fā)的腳本,Load部分采用已有ETL工具或者數(shù)據(jù)庫客戶端加載工具,最后在進行轉(zhuǎn)換(Transform)時采用腳本開發(fā)語言+SQL腳本實現(xiàn)。該ETL架構(gòu)充分考慮在大數(shù)據(jù)查詢、大批量大數(shù)據(jù)文件加載、卸載處理情況下,系統(tǒng)仍能保證高效、穩(wěn)定的運行。大數(shù)據(jù)平臺的ETL過程是數(shù)據(jù)處理的核心過程。通過使用ETL的相關(guān)技術(shù),對從源系統(tǒng)輸入的數(shù)據(jù)進行清洗、比對、處理、加工等處理步驟,完成數(shù)據(jù)集中、數(shù)據(jù)整合、數(shù)據(jù)標準化等過程。為下游業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)支持。圖SEQ圖\*ARABIC25ETL架構(gòu)設(shè)計圖數(shù)據(jù)抽取對源系統(tǒng)的數(shù)據(jù)進行抽取,只有在源系統(tǒng)不具備自行導(dǎo)出文件的前提下,才需要大數(shù)據(jù)平臺主動抽取數(shù)據(jù)。雖然可以做到直連源系統(tǒng)將數(shù)據(jù)抽取到緩沖層,但在時間充裕的情況下不建議這樣做。將數(shù)據(jù)抽取成文件可以保證系統(tǒng)的一致性,并在文件層對源系統(tǒng)的數(shù)據(jù)進行管理和歸檔。本模塊還需要包含檢查源系統(tǒng)是否就緒和對源系統(tǒng)進行抽取通知等功能??梢允褂霉驳臄?shù)據(jù)庫表和源系統(tǒng)交換信息,源系統(tǒng)具備開發(fā)條件的,也可以使用socket開發(fā)通信接口。抽取過程的提取增量問題,優(yōu)先使用時間戳提取增量。在沒有時間戳的情況下,如果源表很大,可以申請源系統(tǒng)建立觸發(fā)器或者建立輔助表記錄源表每行的哈希值來輔助提取增量,但不建議這種辦法,會對源系統(tǒng)造成較大影響。通過數(shù)據(jù)庫日志提取增量只能通過IBM或Oracle的工具實現(xiàn),需要額外購買。如今的硬件吞吐能力很強,在不具備增量抽取條件時建議直接抽取全量,在大數(shù)據(jù)平臺的近源層可以為下游提供增量。數(shù)據(jù)加載數(shù)據(jù)由文件加載至數(shù)據(jù)緩沖層,該層的數(shù)據(jù)特點:短期的,細節(jié)地反應(yīng)業(yè)務(wù)原貌的數(shù)據(jù)存儲,直接提供基于源系統(tǒng)結(jié)構(gòu)的簡單原貌訪問,為BI環(huán)境中適合的業(yè)務(wù)需求提供支持。在此層只對數(shù)據(jù)進行簡單處理,不考慮整合??紤]到數(shù)據(jù)量,對于非關(guān)鍵字段不保留歷史,加載前需要對文件進行校驗。滿足特定的需求:有些就需要原始數(shù)據(jù),滿足業(yè)務(wù)人員使用;可考慮對此層數(shù)據(jù)會做一些數(shù)據(jù)類型的規(guī)范化,減少錯誤發(fā)生的可能性;上游數(shù)據(jù)標準發(fā)生變化,整合層將標準化為整合層提供數(shù)據(jù)源,以便及時修正整合層數(shù)據(jù)對于源系統(tǒng)刪除的,建議打上刪除標簽與整合層類似,采用集中標準的算法。近源層加工緩沖層的數(shù)據(jù)通過不同算法進入近源層。本層的模型基本和源系統(tǒng)相同,所以這層主要做如下工作:標準化本層并不做代碼轉(zhuǎn)換,但是會對日期,金額,等字段類型進行標準化處理,以不影響數(shù)據(jù)原貌為前提。全量覆蓋代碼表等不需要保留歷史的表進行全量覆蓋操作。增量對比對緩沖層的數(shù)據(jù)進行增量對比,加載入歷史表中。歷史拉鏈可以用最經(jīng)濟的方式保存相當長期的數(shù)據(jù)。整合層加工近源層的數(shù)據(jù)經(jīng)過轉(zhuǎn)換整合進入主題模型層,該層的數(shù)據(jù)特點:長期的,細節(jié)的,整合的數(shù)據(jù)存儲,為大數(shù)據(jù)平臺環(huán)境中適合的各類業(yè)務(wù)需求提供支持,此層的數(shù)據(jù)處理主要是面向全局的數(shù)據(jù)整合,中性設(shè)計,靈活擴展,提供規(guī)范和共享。面向主題設(shè)計,采用主題設(shè)計;主要存放細節(jié)的和歷史的數(shù)據(jù)。共性加工層主題模型層數(shù)據(jù)經(jīng)過一定的轉(zhuǎn)換加工進入共性加工層,該層的數(shù)據(jù)特點:共性加工層是從業(yè)務(wù)的視角出發(fā),提煉出對大數(shù)據(jù)平臺具有共性的數(shù)據(jù)訪問、統(tǒng)計需求,從而構(gòu)建出的一個面向支持應(yīng)用的、提供共享的數(shù)據(jù)訪問服務(wù)的公共數(shù)據(jù)。共性加工層通常是提煉一些應(yīng)用的共性加工,并在此層一次加工后供下游應(yīng)用多次使用。其作用是:同時服務(wù)于多個不同應(yīng)用,實現(xiàn)數(shù)據(jù)加工結(jié)果的共享,減少系統(tǒng)重復(fù)加工的開銷;提高使用時的查詢效率;降低應(yīng)用開發(fā)和數(shù)據(jù)查詢的復(fù)雜程度;實現(xiàn)對常用業(yè)務(wù)統(tǒng)計口徑統(tǒng)一的定義和維護,而不致于不同的應(yīng)用加工出不同口徑的數(shù)據(jù);加快新應(yīng)用的實施進度;便于業(yè)務(wù)分析人員直接使用數(shù)據(jù)服務(wù)子系統(tǒng)的數(shù)據(jù)進行查詢分析;應(yīng)用集市層應(yīng)用集市層的數(shù)據(jù)來源于主題模型層和共性加工層,應(yīng)用集市層完全針對具體應(yīng)用需求而建,按照標準的建模規(guī)范,應(yīng)用集市層的實施要點為:采用遵從業(yè)務(wù)應(yīng)用需求的建模方式,以方便使用為主要目的;注意數(shù)據(jù)保留周期不宜過長;在性能允許的情況,本層部分表也可以以視圖實現(xiàn);ETL異常處理策略ETL異常處理策略主要對本項目的ETL的校驗點重啟機制進行詳細描述。如果由于各種異常情況的發(fā)生而導(dǎo)致數(shù)據(jù)ETL過程出錯時,通過回溯操作可使數(shù)據(jù)庫中的數(shù)據(jù)恢復(fù)到數(shù)據(jù)正確最近的時點,從而進行恢復(fù)性加載。保證數(shù)據(jù)集成平臺數(shù)據(jù)的可恢復(fù)性和數(shù)據(jù)處理的靈活性。出錯處理首先要制定標準而規(guī)范的出錯處理流程,在流程內(nèi)部要針對各種不同出錯的原因進行針對性處理,出錯的原因和處理的方法需要在ETL運行的過程中不斷的總結(jié)和整理,形成一份《ETL故障錯誤恢復(fù)說明書》。在出錯的情況中,比較嚴重的是當數(shù)據(jù)庫中的數(shù)據(jù)出現(xiàn)較多錯誤時,需要對數(shù)據(jù)庫中的數(shù)據(jù)進行回溯到前一天或數(shù)據(jù)正確最近的時點。ETL處理的異常主要包括:硬件、操作系統(tǒng)、網(wǎng)絡(luò)導(dǎo)致異常;數(shù)據(jù)源數(shù)據(jù)傳輸、質(zhì)量導(dǎo)致異常;ETL過程處理導(dǎo)致異常;目標數(shù)據(jù)模型導(dǎo)致異常;人工干預(yù)導(dǎo)致異常等;處理的方法包括:手工干預(yù),重新調(diào)整ETL過程;終止流程,通知管理員;拒絕數(shù)據(jù),記錄原因;清洗數(shù)據(jù),部分入庫;監(jiān)控資源,反復(fù)嘗試;ETL恢復(fù)策略包括有:除了應(yīng)用集市層,其他層幾乎所有任務(wù)都可以在故障修復(fù)后直接重跑每條記錄中有數(shù)據(jù)ETL的時間戳,對小數(shù)據(jù)量的數(shù)據(jù)表,可以通過該時間戳清除掉本次加載的數(shù)據(jù)對于大數(shù)據(jù)量的表,可以利用時間窗口功能,如果大表某一天的數(shù)據(jù)出現(xiàn)錯誤后,可以直接進行一天數(shù)據(jù)的recover;數(shù)據(jù)接口目標及內(nèi)容大數(shù)據(jù)云平臺工程數(shù)據(jù)接口標準定義目的是規(guī)范社會和云源系統(tǒng)或數(shù)據(jù)交換共享平臺通過FTP/DB直連獲取相關(guān)數(shù)據(jù)源提供的數(shù)據(jù)文件標準和大數(shù)據(jù)平臺為下游數(shù)據(jù)集市提供的數(shù)據(jù)文件標準。標準包含但不限于以下內(nèi)容:文件傳送方式文件命名規(guī)則輸出頻度文件格式文件就緒標識字段填寫規(guī)則定義原則及策略1、文件目錄定義原則文件目錄涉及業(yè)務(wù)源系統(tǒng)為大數(shù)據(jù)平臺供數(shù)的文件目錄和大數(shù)據(jù)平臺為下游數(shù)據(jù)消費系統(tǒng)供數(shù)的文件目錄。目錄定義原則如下:能夠快速定位文件的存放目錄能夠有效區(qū)分文件的用途能夠有效區(qū)分不同時間點的文件目錄結(jié)構(gòu)用英文簡稱或者數(shù)字串(例如時間)同一系統(tǒng)拋出的、同一目標系統(tǒng)接入的,必須存放在同一目錄下文件目錄結(jié)構(gòu)建議:~/源系統(tǒng)英文簡稱或者目標系統(tǒng)英文簡稱/日期(YYYYMMDD/大數(shù)據(jù)平臺接入數(shù)據(jù)源文件:/BDF_IN/源系統(tǒng)英文簡稱/日期(YYYYMMDD)/2、文件命名原則文件涉及大數(shù)據(jù)平臺系統(tǒng)加載文件和大數(shù)據(jù)平臺卸出文件,命名原則如下:英文文件名,且文件名長度現(xiàn)在系統(tǒng)規(guī)定的長度內(nèi)統(tǒng)一文件后綴統(tǒng)一的文件命名格式:增量/全量標識_三位源系統(tǒng)英文簡稱/三位目標系統(tǒng)英文簡稱_原系統(tǒng)表名_8位日期.后綴3、文件格式定制原則命名原則如下:定義字段間分割符,充分考慮市網(wǎng)格中心業(yè)務(wù)系統(tǒng)的實際情況,定義通用的分隔符定義每條完整數(shù)據(jù)的區(qū)分方式對于異常字段,例如空字段,如何在正確的識別信息等嚴格的要求卸出字段的內(nèi)容,比如:是否含有異常字符,是否有空格等,以及對異常字段的處理方式或者建議4、文件就緒標識原則就緒文件用于記錄數(shù)據(jù)文件來自系統(tǒng)、數(shù)據(jù)日期、文件大小、記錄數(shù)、生成時間等屬性信息,標識數(shù)據(jù)文件導(dǎo)出結(jié)束,與數(shù)據(jù)文件為一一對應(yīng)關(guān)系,命名為數(shù)據(jù)文件命名.ctl。如果數(shù)據(jù)文件名為CBS_GLMAST_20120101.dat,則其對應(yīng)就緒文件命名為CBS_GLMAST_20120101.ctl就緒文件以逗號分隔,填寫示例:系統(tǒng)簡稱,數(shù)據(jù)日期,文件名,記錄數(shù),大小,生成時間戳名詞定義如下:表SEQ表\*ARABIC6名詞定義表名詞定義系統(tǒng)簡稱數(shù)據(jù)源系統(tǒng)簡稱,如核心為CBS數(shù)據(jù)日期數(shù)據(jù)日期,格式Y(jié)YYYMMDD文件名對應(yīng)數(shù)據(jù)文件名稱記錄數(shù)文件記錄數(shù)大小數(shù)據(jù)文件物理大小生成時間戳文件生成時間,格式為YYYY-MM-DDTHH:MM:SS,其中T為大寫字母,如2012-01-01T12:00:00就緒文件示例:CB,20120101,CB_ADPXX_20120101.dat,2512335,1232345454,2012-01-02T12:00:005、字段填寫規(guī)則充分考慮不同字段的格式要求,對于特殊要求的字段,提供樣例說明。例如:時間傳輸格式為:YYYYMMDD,2011年1月1日為:20110101;金額:默認單位都是“元”,保存小數(shù)點后兩位等ETL作業(yè)設(shè)計作業(yè)設(shè)計原則:作業(yè)設(shè)計以目標表為導(dǎo)向,一般情況下,目標表與作業(yè)一一對應(yīng)存在多個作業(yè)處理一個目標表:目標表字段來自多個源表,可通過多個作業(yè)處理;目標表記錄來自單一源表,可通過單一作業(yè)處理目標表中既有直接映射字段,也有源表計算字段、自身衍生字段,可以拆分為多個JOB,目標表在一定場景下可以當做源表使用如從源表到目標表,需要建立中間臨時表,可將每個臨時表當作一個目標表處理,可通過多個JOB完成從源表到目標表如出現(xiàn)同字段多源表優(yōu)先順序更新規(guī)則,只設(shè)計獲取優(yōu)先級最高的源表屬性字段JOB原則上不允許一個作業(yè)處理多個目標ETL作業(yè)流設(shè)計1、作業(yè)組流是階段內(nèi)的相關(guān)作業(yè)組的集合。提供數(shù)據(jù)塊的流向控制。劃分作業(yè)組流原則:ETL分為兩個階段:基礎(chǔ)數(shù)據(jù)加工、應(yīng)用數(shù)據(jù)加工。每個階段內(nèi)的時間獨立按照作業(yè)組翻牌;作業(yè)組流在階段內(nèi)劃分,不允許跨階段劃分;以源系統(tǒng)+主題(或子主題)為作業(yè)組流劃分依據(jù),不同源系統(tǒng)或不同主題作業(yè)組不放同一作業(yè)組流中2、作業(yè)組是相關(guān)作業(yè)流的集合。劃分作業(yè)組原則:在作業(yè)組流中劃分作業(yè)組;作業(yè)組可滿足獨立翻牌;作業(yè)組界定:一個JOB是多個JOB的前置JOB,該JOB可界定為作業(yè)組的起點;一個JOB是多個JOB的后續(xù)JOB,該JOB可界定為作業(yè)組的終點;作業(yè)組內(nèi)的作業(yè)流可并行或串行執(zhí)行;作業(yè)組在過程內(nèi)劃分,不允許跨過程劃分作業(yè)組;作業(yè)流不能跨作業(yè)組依賴;占用資源大的多個作業(yè)組之間串行;作業(yè)組內(nèi)并行的作業(yè)流之間執(zhí)行時間應(yīng)相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球及中國中置電機自行車行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國PTZ電子體積校正器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國軍用飛行器模擬器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國工業(yè)木鋸機行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 期末測試卷01【考試范圍:6-10單元】(原卷版)
- 2025國際商業(yè)代理合同詳細版樣本
- 擔保合同范文集錦年
- 健身房私教合同范文
- 電力設(shè)備采購合同模板
- 2025XL數(shù)字地震儀器租賃合同
- 綠色能源項目融資計劃書范文
- 《人工智能發(fā)展史》課件
- 小學一年級數(shù)學20以內(nèi)的口算題(可直接打印A4)
- 一個28歲的漂亮小媳婦在某公司打工-被老板看上之后
- 馬工程教育哲學課件第十章 教育哲學與教師發(fā)展
- GB/T 11376-2020金屬及其他無機覆蓋層金屬的磷化膜
- 成功源于自律 主題班會課件(共34張ppt)
- 新青島版(五年制)五年級下冊小學數(shù)學全冊導(dǎo)學案(學前預(yù)習單)
- (完整word版)重點監(jiān)管的危險化學品名錄(完整版)
- 高級工程師電子版職稱證書在網(wǎng)上打印步驟
- 品牌形象的12個原型
評論
0/150
提交評論