版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
某地數(shù)智專業(yè)一體化城建設(shè)項目宇宙大數(shù)據(jù)項目學(xué)習(xí)研究技術(shù)方案需求分析業(yè)務(wù)目標(biāo)需求分析信息資源整合需求某地數(shù)智專業(yè)一體化城建設(shè)項目宇宙大數(shù)據(jù)項目是一項旨在利用宇宙大數(shù)據(jù)技術(shù),為城市建設(shè)提供智能化決策支持的綜合性項目。該項目將采用先進(jìn)的數(shù)據(jù)采集、存儲、處理和分析技術(shù),通過對海量宇宙數(shù)據(jù)的收集、整合和分析,為城市規(guī)劃、交通管理、環(huán)境保護(hù)、公共安全等領(lǐng)域提供精準(zhǔn)的數(shù)據(jù)支撐和服務(wù)。為了實現(xiàn)這一目標(biāo),本項目將采用以下技術(shù)方案:數(shù)據(jù)采集技術(shù):通過衛(wèi)星、無人機(jī)等遙感設(shè)備,對城市各個領(lǐng)域進(jìn)行數(shù)據(jù)采集,包括城市地形、建筑結(jié)構(gòu)、交通流量、氣象環(huán)境等數(shù)據(jù)。同時,還將采用傳感器等物聯(lián)網(wǎng)設(shè)備,對城市內(nèi)部的環(huán)境數(shù)據(jù)進(jìn)行實時監(jiān)測。數(shù)據(jù)存儲技術(shù):采用分布式數(shù)據(jù)庫技術(shù),對采集到的海量數(shù)據(jù)進(jìn)行高效存儲和管理。同時,還將采用云計算技術(shù),將數(shù)據(jù)存儲在云端,實現(xiàn)數(shù)據(jù)的共享和備份。數(shù)據(jù)分析技術(shù):采用機(jī)器學(xué)習(xí)、人工智能等技術(shù),對采集到的數(shù)據(jù)進(jìn)行深度分析和挖掘,提取出有價值的信息和規(guī)律。同時,還將采用可視化技術(shù),將分析結(jié)果以圖表、地圖等形式呈現(xiàn)給使用者。應(yīng)用系統(tǒng)開發(fā)技術(shù):基于上述技術(shù)和方案,開發(fā)一系列智能化的應(yīng)用系統(tǒng),為城市管理和決策提供支持。其中包括智能交通管理系統(tǒng)、智慧環(huán)保系統(tǒng)、公共安全監(jiān)控系統(tǒng)等。在實施過程中,本項目將充分發(fā)揮團(tuán)隊協(xié)作和創(chuàng)新精神,不斷優(yōu)化和完善技術(shù)方案,確保項目的順利推進(jìn)和成功實施。同時,還將注重與相關(guān)行業(yè)的合作和交流,共同推動宇宙大數(shù)據(jù)技術(shù)在城市建設(shè)中的應(yīng)用和發(fā)展。信息資源整合是一個為了某種應(yīng)用目的對業(yè)務(wù)和信息資源進(jìn)行梳理、分類、組織、標(biāo)準(zhǔn)化,以滿足業(yè)務(wù)協(xié)同對信息資源共享需求的過程。它不只是一個技術(shù)過程,更重要的是一個建立信息資源共享和管理機(jī)制與規(guī)則的過程。同時,信息資源整合應(yīng)體現(xiàn)信息資源與業(yè)務(wù)之間的關(guān)聯(lián)性,以滿足業(yè)務(wù)協(xié)同對信息資源共享的需要。應(yīng)用系統(tǒng)整合需求經(jīng)過多年的電子建設(shè),某地各部門已經(jīng)建成了BIG量的應(yīng)用系統(tǒng),由于協(xié)同工作的需要,各應(yīng)用系統(tǒng)之間是相互關(guān)聯(lián)的,它們之間存在BIG量的DATA交換與協(xié)同。在實際的工作中,對DATA進(jìn)行跨部門交換的需求日益迫切。不少部門由于協(xié)同辦公的需要,在部范圍內(nèi)建立了一些DATA交換的,但是由于這些交換與業(yè)務(wù)密切相關(guān),不能推廣到更多的電子應(yīng)用中,造成了重復(fù)建設(shè)的現(xiàn)象。業(yè)務(wù)處理管理需求從信息資源的特點(diǎn)和應(yīng)用需要來看,信息資源與活動密切相關(guān),信息資源產(chǎn)生于活動的各個環(huán)節(jié)和部門。在的活動中,部門在履行職能、辦理業(yè)務(wù)和事項中隨時都需要和產(chǎn)生信息資源,它的存在和分布是跨行業(yè)、跨部門、跨地域的,并且BIG部分信息資源隨著業(yè)務(wù)的開展不斷產(chǎn)生和變化,是一種與活動相關(guān)的動態(tài)信息資源。所以,信息資源的整合應(yīng)體現(xiàn)信息資源與業(yè)務(wù)之間的關(guān)聯(lián)性和動態(tài)性,建立以業(yè)務(wù)需求為依據(jù)整合信息資源的機(jī)制,以滿足協(xié)同業(yè)務(wù)對信息資源共享的需要。信息量指標(biāo)結(jié)構(gòu)化DATA10TB,非機(jī)構(gòu)化DATA(視頻、圖片)1PB。系統(tǒng)性能指標(biāo)一般性DATA保存、修改、刪除等操作的響應(yīng)反饋速度不應(yīng)超過5秒。WEB應(yīng)用程序不應(yīng)超過15秒。一般10萬條DATA的簡單查詢及統(tǒng)計不應(yīng)超過30秒,百萬條DATA的查詢統(tǒng)計不應(yīng)超過60秒。復(fù)雜綜合性跨模塊查詢及統(tǒng)計不應(yīng)超過2分鐘。總體建設(shè)方案總體設(shè)計原則(1) 統(tǒng)一性原則遵循國家電子的要求,以系統(tǒng)工程的方法對系統(tǒng)進(jìn)行統(tǒng)一規(guī)劃、統(tǒng)一設(shè)計,遵循統(tǒng)一的規(guī)范,采用統(tǒng)一的技術(shù),以方便系統(tǒng)建成后的運(yùn)行和維護(hù),保證系統(tǒng)可持續(xù)、高效、安全運(yùn)行。(2) 標(biāo)準(zhǔn)性、開放性系統(tǒng)所采用的相關(guān)標(biāo)準(zhǔn)必須與國際、國家、、級標(biāo)準(zhǔn)相符合,確保系統(tǒng)具有良好的開放性,能夠?qū)崿F(xiàn)與多種技術(shù)和軟硬件的有機(jī)集成。(3) 安全性系統(tǒng)應(yīng)具有完整、全面的安全體系和良好的安全性,能夠提供信息傳輸保密性、DATA完整性、身份識別和數(shù)字認(rèn)證、防抵賴性等安全保障措施,確保信息交換的安全運(yùn)行。系統(tǒng)設(shè)計不影響各部門相關(guān)信息系統(tǒng)的安全性。(4) 可擴(kuò)展性系統(tǒng)采用可擴(kuò)展的技術(shù)體系架構(gòu),以適應(yīng)信息化建設(shè)和應(yīng)用系統(tǒng)快速發(fā)展的要求。系統(tǒng)必須支持異構(gòu)DATA庫之間DATA交換和共享,支持主流關(guān)系型DATA庫,支持不同操作系統(tǒng)之間信息交換應(yīng)用的互聯(lián)互通。(5) 高可靠性系統(tǒng)應(yīng)具有良好的可靠性,建立各種故障的快速恢復(fù)機(jī)制,確保實現(xiàn)7×24小時地正常運(yùn)轉(zhuǎn),確保信息交換工作正常運(yùn)行。(6) 可管理性系統(tǒng)應(yīng)具有良好的可管理性,允許管理人員通過管理工具實現(xiàn)系統(tǒng)全面的監(jiān)控、管理和配置,并為系統(tǒng)故障的判斷、排錯和分析提供支撐,可對信息交換流程進(jìn)行簡易、靈活地定制和調(diào)整,同時對系統(tǒng)運(yùn)行情況能夠?qū)崟r的統(tǒng)計分析、報表展示。(7) 實現(xiàn)信息全生命周期管理所謂全生命周期管理,就是指從人們對信息的需求開始,到信息報廢的全部生命歷程的管理。實現(xiàn)全生命周期,需要對城管理部件、企業(yè)和公眾的信息進(jìn)行全方位的收集和管理,優(yōu)化、控制城部件、企業(yè)的生命歷程,提升DATA融合服務(wù)的服務(wù)能力和的執(zhí)能力。(8) 學(xué)設(shè)計,分步實施某地BIGDATA作為DATA融合、聯(lián)網(wǎng)應(yīng)用和服務(wù)的重要載體其建設(shè)是一個龐BIG而復(fù)雜的系統(tǒng)工程,必須采取強(qiáng)有力的統(tǒng)一規(guī)劃、統(tǒng)一標(biāo)準(zhǔn),總體把握、統(tǒng)籌推進(jìn),根據(jù)發(fā)展階段和現(xiàn)實需要,有計劃、有步驟地推進(jìn)具體項目建設(shè),并能有機(jī)融合,形成整體。其中系統(tǒng)的可靠性、高性能、安全性、綠色節(jié)能和擴(kuò)展性五項將成為建設(shè)設(shè)計重點(diǎn)。(9) 信息為基,應(yīng)用為本某地BIGDATA建設(shè)的目的是打造高效的某地城管理、企業(yè)服務(wù)和公眾服務(wù)業(yè)務(wù)系統(tǒng)。因而,某地BIGDATA是業(yè)務(wù)系統(tǒng)建設(shè)的基礎(chǔ),建立完善的應(yīng)用系統(tǒng)才是建設(shè)最終目的。只有基于某地BIGDATA建立的業(yè)務(wù)系統(tǒng),才能發(fā)揮的作用。(10) 可伸縮和可擴(kuò)展性原則系統(tǒng)應(yīng)該真正符合多層瀏覽器/服務(wù)器體系結(jié)構(gòu),應(yīng)能滿足新增的需求,而系統(tǒng)的體系結(jié)構(gòu)不需做較BIG的改變,并能保證系統(tǒng)今后的滑升級。應(yīng)充分考慮現(xiàn)有技術(shù)以及未來電子的發(fā)展要求,保證系統(tǒng)具有較好的開放性和結(jié)構(gòu)的擴(kuò)展性,在系統(tǒng)設(shè)計中應(yīng)盡量采用模塊化結(jié)構(gòu)、提高各模塊的獨(dú)立性,盡可能減少模塊間的DATA藕合,使各模塊問的DATA依賴程度減至最低限度,同時,要適當(dāng)兼顧今后需求擴(kuò)BIG時對功能擴(kuò)展的需要。交換和節(jié)點(diǎn)應(yīng)具備支撐多個應(yīng)用系統(tǒng)的能力和節(jié)點(diǎn)個數(shù)的易擴(kuò)充性。(11) 高效性原則系統(tǒng)的運(yùn)行效率主要包括:處理能力,處理速度,響應(yīng)時間等。系統(tǒng)在滿足其他各項功能需要的前提下,應(yīng)可能地提高系統(tǒng)運(yùn)行效率。(12)友好性原則系統(tǒng)應(yīng)具有人性化的人機(jī)交互界面,要求使用者界面標(biāo)準(zhǔn),統(tǒng)一集成,使用簡單,減少使用的復(fù)雜程度,提高使用效率。(13)可管理易維護(hù)性由于電子公共DATA開放共享系統(tǒng),使用面廣,系統(tǒng)穩(wěn)定性可用性要求高,因此還必須具有良好的可管理和易于維護(hù)的特點(diǎn)??傮w目標(biāo)建設(shè)目標(biāo)為:以完善的機(jī)制體制和全面的安全體系為保障,以彈性動態(tài)的基礎(chǔ)設(shè)施為基礎(chǔ),以信息資源DATA的共享、交換、融合、服務(wù)為核心,以多部門的業(yè)務(wù)流程協(xié)同為手段,打造可持續(xù)運(yùn)營的、實用的、能夠真正服務(wù)于社會管理、城管理和社會經(jīng)濟(jì)管理的信息化體系,并探信息化與體制機(jī)制深度融合和互相促進(jìn),為未來數(shù)智專業(yè)一體化城的建設(shè)打下良好的基礎(chǔ)。目標(biāo)可分解為如下的子目標(biāo):1) 實現(xiàn)某學(xué)習(xí)單位、所有部門及臨時設(shè)立的機(jī)構(gòu)的DATA交換,基礎(chǔ)DATA集中、清洗、整理,以合理的DATA結(jié)構(gòu)進(jìn)行存儲,打破部門信息壁壘,解決信息孤島問題。2) 形成一整套DATA清洗整理體系,前期采集DATA通過采集-清洗-反饋-修改-再次采集DATA循環(huán),清洗整理,后期各個部門新生產(chǎn)的DATA,都以幾個DATA主體部門DATA為基礎(chǔ),產(chǎn)生DATA后,再采集清洗,逐步提升基礎(chǔ)DATA質(zhì)量。3) 形成整套DATA共享體系。DATA采集清洗整理后,集中到某地BIGDATA,各個部門對已整理的DATA提出DATA要求,在實現(xiàn)DATA安全、保密等多重權(quán)限控制情況下,以多種方式提供給部門使用者。實現(xiàn)部門之間的DATA共享、共用,統(tǒng)一DATA環(huán)境,減少部門之間DATA差異,提高各部門DATA質(zhì)量,方便部門應(yīng)用。4) 實現(xiàn)綜合應(yīng)用的建設(shè)。在完善的DATA采集、清洗、共享體系下,在完整、實時、權(quán)威及合理結(jié)構(gòu)化的DATA融合服務(wù)之上,實現(xiàn)區(qū)域化整體DATA應(yīng)用,為組織單位、公眾群體提供完整的DATA展現(xiàn)、全面的基礎(chǔ)DATA服務(wù),以及為領(lǐng)導(dǎo)決策層提供全面的、多層次的、直觀的、實時有效的DATA分析,解決當(dāng)前部門應(yīng)用片面不完整,無法宏觀把控的面。總體建設(shè)任務(wù)BIGDATA通過將各委辦及投資信息資源梳理和整合,建立基礎(chǔ)地理空間庫、XX庫、XX庫、宏觀經(jīng)濟(jì)庫、信用信息庫和城建筑信息庫六BIG基礎(chǔ)庫,建立信息系統(tǒng)的基底DATA,實現(xiàn)城管理中各要素的全面管理,為應(yīng)用信息系統(tǒng)建設(shè)提供統(tǒng)一的DATA服務(wù)。通過統(tǒng)一的DATA管理,提供DATA標(biāo)準(zhǔn)化工具,使得DATA的收集、清理、整合等更加標(biāo)準(zhǔn)與完善,實現(xiàn)各個系統(tǒng)DATA的一致性,保證不同來源的信息能夠無縫使用,實現(xiàn)提供DATA檢查、DATA轉(zhuǎn)換、DATA入庫、DATA庫性能調(diào)優(yōu)、DATA備份與恢復(fù)管理、DATA權(quán)限控制、DATA導(dǎo)入導(dǎo)出、DATA查詢統(tǒng)計等功能,在保證DATA高效應(yīng)用基礎(chǔ)上,保證DATA的安全性。通過建立DATA交換,需實現(xiàn)自動抓取各委辦和投資信息系統(tǒng)中的增量DATA,使得各個單位收集及產(chǎn)生的DATA向公共基礎(chǔ)DATA庫的匯聚,保證公共基礎(chǔ)DATA庫DATA的能更新、可更新和及時更新,保障公共基礎(chǔ)DATA庫DATA的現(xiàn)勢性。系統(tǒng)總體結(jié)構(gòu)BIGDATA依托某地級數(shù)智專業(yè)一體化城云計算中心和BIGDATA,對“數(shù)智專業(yè)一體化某地”所需計算、存儲、網(wǎng)絡(luò)資源進(jìn)行擴(kuò)容,為形成一體化的“數(shù)智專業(yè)一體化某地”支撐與應(yīng)用體系奠定基礎(chǔ)。以資源整合、信息共享、協(xié)同應(yīng)用為主線,通過DATA資源統(tǒng)一管理、共享交換與綜合應(yīng)用,形成“數(shù)智專業(yè)一體化某地”整體框架,為“數(shù)智專業(yè)一體化某地”建設(shè)提供DATA資源共享化、基礎(chǔ)標(biāo)準(zhǔn)化、輔助決策智能化、數(shù)智專業(yè)一體化服務(wù)享受“一站式”的核心基礎(chǔ)支撐,帶動各領(lǐng)域的資源共享交換、業(yè)務(wù)協(xié)同、智能化應(yīng)用與便捷化數(shù)智專業(yè)一體化服務(wù)。項目最終建成開放、可共享的高端計算環(huán)境,服務(wù)于信息化、同時為企業(yè)創(chuàng)造新型研、生產(chǎn)手段和資源服務(wù),為研提供國際水準(zhǔn)的現(xiàn)代化研環(huán)境,為跨行業(yè)跨學(xué)的技術(shù)合作創(chuàng)造機(jī)會,引導(dǎo)培育開發(fā)一批推動經(jīng)濟(jì)建設(shè)和行業(yè)發(fā)展的應(yīng)用項目,培育新的經(jīng)濟(jì)增長點(diǎn),培養(yǎng)和吸引一批高級信息技術(shù)人才。BIGDATA在整個架構(gòu)中每一層貫穿安全保障體系和標(biāo)準(zhǔn)規(guī)范體系,全面保障某地BIGDATA的整體安全和穩(wěn)運(yùn)行,范圍涵蓋某地。DATA接入層DATA接入是指不同部門按照業(yè)務(wù)需求,確定信息交換流程,在部門間實現(xiàn)具有主動推送特點(diǎn)的連續(xù)、實時信息傳輸。典型的應(yīng)用有公文交換、部門間基礎(chǔ)信息交換、綜合治稅信息交換、信用信息交換、社會保障信息交換等。信息交換有集中交換、分布交換與混合交換等三種模式。DATA交換的主要任務(wù)是實現(xiàn)DATA的發(fā)送與接收,對參與者的合法性進(jìn)行驗證,并通過與DATA傳輸中間件的配合,實現(xiàn)可靠的DATA交換。DATA可靠傳輸?shù)哪康氖菍崿F(xiàn)傳輸過程中的“不錯、不丟、不重”。DATA傳輸?shù)目煽啃杂伤x定的中間件軟件保證,通過DATA傳輸中的DATA壓縮/解壓縮以及斷點(diǎn)續(xù)傳等功能,保證DATA交換的可靠性。DATA處理層不同委辦交換而來的DATA經(jīng)過DATA清洗、比對、融合環(huán)節(jié),為某地BIGDATA打造信息完整、結(jié)構(gòu)清晰合理、DATA準(zhǔn)確及時的權(quán)威DATA庫。DATA清洗由于信息共享DATA采集部門較多,各個DATA采集部門的信息化建設(shè)程度各異,DATA維護(hù)程度也各自不同,信息共享對從各個DATA采集部門采集回來的DATA進(jìn)行規(guī)范性清洗,屏蔽DATA采集過程中,DATA格式錯誤、無用甚至對信息共享有危害的DATA。為信息共享建設(shè)DATA服務(wù)中心提供前期的一個DATA過濾。DATA比對DATA比對主要是對采集回來的各類DATA,進(jìn)行關(guān)鍵字段的比較核對,形成各類型屬性DATA在主表上的掛靠,同時也將采集過來的各個類型屬性DATA中信息錯誤或有差異的DATA進(jìn)行更正、統(tǒng)一。針對已經(jīng)采集并清洗后的DATA,分類同地理、自然XX、組織單位三BIG庫主表進(jìn)行DATA比對,比對上的DATA,分主表和附屬信息表存儲,包括新增、修改。主表信息,累計增加,附屬表比對上后攜帶主表id存儲。無法比對上的附屬表信息作為異常DATA存儲,以便統(tǒng)計和后期反饋。DATA比對主要分為程序比對和人工比對兩種手段,程序無法識別的DATA由人工進(jìn)行核實。異常DATA反饋異常DATA反饋功能,將DATA采集、清洗、比對同DATA采集部門形成互動。將清洗和比對工作中發(fā)現(xiàn)的異常DATA反饋給DATA提供部門,提醒DATA提供部門核實的同時,也幫助提高部門自身業(yè)務(wù)DATA準(zhǔn)確性。DATA融合層DATA共享在完成DATA比對,形成地理信息、自然XX、組織單位三BIG對象DATA結(jié)構(gòu)體系后,通過地理信息庫標(biāo)準(zhǔn)地址和自然XXXXX號碼進(jìn)行三BIG庫整合,使三BIG相對獨(dú)立的對象進(jìn)行關(guān)聯(lián),有效的實現(xiàn)地理、XX、組織單位的緊密結(jié)合,從而構(gòu)成完整的某地基礎(chǔ)信息DATA庫,DATA融合的過程如下圖所示:主體對象表抽取對各個部門采集DATA進(jìn)行清洗后,將信息過后的DATA分主次抽取,抽取地理、XX、組織單位三BIG主體對象,形成主體庫。其中地理信息庫主表,主要由地理信息構(gòu)成,以地址信息id為主鍵,詳細(xì)地址信息為主要字段,形成地址信息庫主表。自然XX信息庫主表,主要由自然XX信息構(gòu)成,以XX信息id(或XXX號)為主鍵,以自然XX地址信息、自然人姓名、性別等信息為主要字段,形成自然XX信息庫主表。組織單位信息庫主表,主要由工商企業(yè)登記信息、編辦事業(yè)單位信息、民社會團(tuán)體、民辦非企業(yè)單位及質(zhì)監(jiān)的組織機(jī)構(gòu)代碼頒證信息構(gòu)成,以組織單位id為主鍵,以工商注冊號、組織機(jī)構(gòu)代碼證、組織單位名稱、注冊地址、辦公地址等信息為主要字段,形成組織單位信息庫主表。主題表關(guān)聯(lián)各主題庫通過對應(yīng)的主題表中的主鍵相互關(guān)聯(lián),如組織單位主題表通過企業(yè)地址與地址信息主題表關(guān)聯(lián)、XX主題表通過人員居住地址與地理信息主題表關(guān)聯(lián)、自然人主題表通過XXX號與組織單位主題表關(guān)聯(lián)。屬性信息與地理信息的關(guān)聯(lián)屬性信息與地理信息的關(guān)聯(lián)地址編碼主要通過地址編碼實現(xiàn)。地址編碼的過程通常包括兩個明確的步驟,即地址標(biāo)準(zhǔn)化和地址匹配。地址標(biāo)準(zhǔn)化是指在進(jìn)行地址編碼之前,將道路地址處理為一種熟悉的、常用的格式,糾正道路和地址名稱的形式等。目前寧波規(guī)劃已經(jīng)采集了20多萬條標(biāo)準(zhǔn)地址DATA,具備了地址匹配的基礎(chǔ)要求。地址匹配指確定具體地址事件的空間位置,并且將其繪制在地圖上,最終目標(biāo)是為給定地址,如:企業(yè)地址、人員居住地址等返回最準(zhǔn)確的匹配結(jié)果,并通過GIS服務(wù)器在地圖上找到并標(biāo)明每條地址所對應(yīng)的位置。地址編碼的方式有3種:定位到道路、定位到區(qū)域以及定位到道路和定位到區(qū)域相結(jié)合的方式。定位到道路:是通過道路名和門牌號碼進(jìn)行匹配,在參考主題中每一個路段都具有道路名和起止門牌號碼信息,在地理編碼時,首先首先根據(jù)地址信息中道路名找到參考主題中相同名稱的路段,然后根據(jù)地址信息中的門牌號及每個路段的起止門牌號碼信息找到門牌號所在路段,最后根據(jù)門牌號及該路段的起止門牌號碼信息進(jìn)行內(nèi)插確定該記錄在該路段上的位置。定位到區(qū)域:將地址中具有區(qū)域?qū)傩缘挠涗浥c地圖地址相應(yīng)屬性的區(qū)域記錄進(jìn)行比較,如果匹配成功,則將待查地址區(qū)域以點(diǎn)要素形式生成在地圖的相應(yīng)區(qū)域內(nèi)。定位到區(qū)域以及定位到道路和定位到區(qū)域相結(jié)合的方式:是將上述兩個方法折中的方式來實現(xiàn)的。采用地址編碼的優(yōu)點(diǎn):信息自動匹配,信息自動關(guān)聯(lián)融合,減少了人力物力開銷。缺點(diǎn):匹配信息存在不準(zhǔn)確現(xiàn)象,系統(tǒng)實現(xiàn)過程復(fù)雜。DATA倉庫層隨著某地BIGDATA將越來越多的部門DATA收集整合起來,信息共享DATA內(nèi)容越來越復(fù)雜,更多的DATA信息無法得到有效的分析利用。而隨著社會信息化的快速發(fā)展,使用者決策任務(wù)越來越重,決策頻率也越來越高,原始的DATA分析已經(jīng)無法負(fù)荷這種BIG量度、高頻率、多維度的決策支持工作,為此信息共享引入DATA倉庫技術(shù)。DATA倉庫是一個面向主題、集成的、非易失的、隨時間變化的DATA集合,能夠?qū)ATA進(jìn)行分類、元DATA抽取、DATA統(tǒng)計、模型搭建、歷史DATA存儲等操作,為智能分析提供多角度、多層次、多時間面的DATA支持,方便智能分析中DATA統(tǒng)計,利用DATA倉庫,新的分析需求無需從原始DATA進(jìn)行重新歸總統(tǒng)計,可直接利用初步綜合DATA或中度綜合DATA甚至高度綜合DATA,從而節(jié)約DATA分析時間,快速支持使用者決策,同時也節(jié)約了分析系統(tǒng)設(shè)計開發(fā)成本。DATA倉庫還存放了BIG量的歷史統(tǒng)計靜態(tài)DATA,對于以時間為主線的環(huán)比、同比、趨勢等分析可提供直接的DATA支持,不需向原始的DATA分析那樣去使用原始的歷史DATA來重復(fù)統(tǒng)計,也解決有些DATA無歷史DATA記錄的弊端。DATA應(yīng)用層應(yīng)用系統(tǒng)是DATA融合服務(wù)建設(shè)的目的,通過應(yīng)用系統(tǒng)的建設(shè),充分發(fā)揮基礎(chǔ)XX、組織單位庫和地理信息庫融合以及多部門信息整合的優(yōu)勢,滿足以往做不好或者不能做的業(yè)務(wù)應(yīng)用,以各種靈活的方式為使用者提供應(yīng)用服務(wù),例如部門共享應(yīng)用、數(shù)智專業(yè)一體化社區(qū)、應(yīng)用、領(lǐng)導(dǎo)桌面、智能分析、權(quán)限管理、全面審計、DATA資源、單點(diǎn)登錄、公眾服務(wù)等。應(yīng)用架構(gòu)及設(shè)計整體架構(gòu)分為三層,最底層是基礎(chǔ)層,包括云即云計算中心、物聯(lián)網(wǎng)和基礎(chǔ)網(wǎng)絡(luò)工程。再向上是DATA層,即BIGDATA,最上層為應(yīng)用服務(wù)層。BIGDATA包含:基礎(chǔ)DATA庫即XX、XX、空間地理、建筑、信用信息和宏觀經(jīng)濟(jì)等六BIGDATA庫。專題服務(wù)DATA庫,包括各行業(yè)各部門DATA的專題DATA庫。BIGDATA基礎(chǔ)某地服務(wù)所需要的DATA來自于各委辦和街道,包含傳統(tǒng)DATA庫DATA、視頻、圖片、聲音、日志文件、電子郵件、地圖、Word、PDF等各種文檔。這些DATA分為結(jié)構(gòu)化DATA、半結(jié)構(gòu)化DATA和非結(jié)構(gòu)化DATA。這些類型的DATA無法用傳統(tǒng)關(guān)系型DATA庫進(jìn)行DATA處理和分析,必須借助于BIGDATA基礎(chǔ)的HDFS、Hbase、MapReduce等技術(shù)手段進(jìn)行處理和分析,支持頂層應(yīng)用系統(tǒng)的DATA利用。BIGDATA基礎(chǔ)主要包括如下組件:BIGDATA運(yùn)行維護(hù)管理組件運(yùn)行維護(hù)管理組件提供BIGDATA組件部署及動態(tài)擴(kuò)容,提供BIGDATA部署工具,組件部署管理及動態(tài)增加機(jī)器節(jié)點(diǎn)管理工具;組件服務(wù)監(jiān)控管理,提供組件的運(yùn)行狀態(tài)、組件的負(fù)載情況監(jiān)控及組件的啟動、停止、移除等管理;組件故障自動遷移,節(jié)點(diǎn)組件出現(xiàn)故障時,集群中的其它節(jié)點(diǎn)中的相應(yīng)組件自動接管故障組件的工作,保證組件正常服務(wù)。主要由兩部分組成:運(yùn)行維護(hù)管理組件-agent和運(yùn)行維護(hù)管理組件-server。在agent端,采用puppet管理節(jié)點(diǎn);在Server端,采用Jetty,Spring,Jetty,JAX-RS等;可以利用Ganglia,Nagios的分布式監(jiān)控能力。下圖是運(yùn)行維護(hù)管理組件的系統(tǒng)架構(gòu)。其中master模塊接受API和AgentInterface的請求,完成運(yùn)行維護(hù)管理組件-server的集中式管理監(jiān)控邏輯,而每個agent節(jié)點(diǎn)只負(fù)責(zé)所在節(jié)點(diǎn)的狀態(tài)采集及維護(hù)。運(yùn)行維護(hù)管理組件Server會讀取Stack和Service的配置文件。當(dāng)用運(yùn)行維護(hù)管理組件創(chuàng)建集群的時候,運(yùn)行維護(hù)管理組件Server傳送Stack和Service的配置文件以及Service生命周期的控制腳本到運(yùn)行維護(hù)管理組件Agent。Agent拿到配置文件后,會下載安裝公共源里軟件包(Redhat,就是使用yum服務(wù))。安裝完成后,運(yùn)行維護(hù)管理組件Server會通知Agent去啟動Service。之后運(yùn)行維護(hù)管理組件Server會定期發(fā)送命令到Agent檢查Service的狀態(tài),Agent上報給Server,并呈現(xiàn)在運(yùn)行維護(hù)管理組件的GUI上。運(yùn)行維護(hù)管理組件Server支持RestAPI,這樣可以很容易的擴(kuò)展和定制化運(yùn)行維護(hù)管理組件。甚至于不用登陸運(yùn)行維護(hù)管理組件的GUI,只需要在命令行通過curl就可以控制運(yùn)行維護(hù)管理組件,以及控制Hadoop的cluster。分布式DATA庫采用分布式DATA庫Hbase。同時利用HBase中的主從復(fù)制和循環(huán)復(fù)制,使得系統(tǒng)達(dá)到一種高可用的狀態(tài)。HBase復(fù)制是一種在不同HBase部署中復(fù)制DATA的方法。它可以作為一種故障恢復(fù)的方法,并提供HBase層次的高可用性。在實際應(yīng)用中,例如,可以將DATA從一個面向頁面的集群復(fù)制到一個MapReduce集群,后者可以同時處理新DATA和歷史DATA。然后再自動將DATA傳回面向頁面請求的集群。HBase復(fù)制中最基本的架構(gòu)模式是“主推送”(master-push),因為每個regionserver都有自己的WAL(或HLog),所以很容易保存現(xiàn)在正在復(fù)制的位置。正如眾所周知的解決方案-Mysql的主/從復(fù)制,只使用二進(jìn)制文件來跟蹤修改。一個主集群可以將DATA復(fù)制到任意數(shù)目的從集群,每個regionserver都會參與復(fù)制自己的修改。復(fù)制是異步進(jìn)行的,意味著集群可以是地理上彼此遠(yuǎn)離的,它們之間的連接可以在某個時刻斷開,在主集群上的修改不能馬上在從集群上進(jìn)行同步(最終一致性)。和SQL語句不同,所有的WALEdits(包括來自客戶端的Put和Delete產(chǎn)生的多單元格操作)都會被復(fù)制以保證原子性。來自每個regionserver的HLog是HBase復(fù)制的基礎(chǔ),并且只要它們需要將DATA復(fù)制到從集群,它們就必須被保存到HDFS上。每個regionserver從它需要的最老的日志開始復(fù)制,同時在zookeeper中保存當(dāng)前恢復(fù)的位置來簡化錯誤恢復(fù)。每個從集群恢復(fù)的位置可能不同,但它們處理的HLog隊列內(nèi)容是相同的。參與復(fù)制的集群的規(guī)模可以不對等。主集群會通過隨機(jī)分配盡量均衡從集群的負(fù)載。分布式DATA倉庫采用分布式DATA倉庫Hive。XData-Hadoop發(fā)行版中Hive的元DATA是存儲到Mysql中,利用mysql的ha對hive的元DATA進(jìn)行高可用設(shè)計。具體如下:安裝MySQLHA集成環(huán)境的兩個節(jié)點(diǎn)要配置無密碼環(huán)境,并且兩個節(jié)點(diǎn)互相加入了對方節(jié)點(diǎn)的known-hosts文件。Heartbeat主從節(jié)點(diǎn)都需要兩個網(wǎng)卡,一個網(wǎng)卡需要為外網(wǎng)訪問提供服務(wù),一個網(wǎng)卡需要為心跳線服務(wù),兩個網(wǎng)卡配置IP不能在同一子網(wǎng)中,心跳線所使用網(wǎng)卡IP不要設(shè)置路由信息。主節(jié)點(diǎn)上的兩個不同用處的網(wǎng)卡名稱應(yīng)該分別與從節(jié)點(diǎn)上的兩個不同用處的網(wǎng)卡對應(yīng)并相同。Hive是建立在Hadoop上的DATA倉庫基礎(chǔ)構(gòu)架。它提供了一系列的工具,用來進(jìn)行DATA提取、轉(zhuǎn)化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的BIG規(guī)模DATA的機(jī)制。Hive定義了簡單的類SQL查詢語言,稱為QL,它允許熟悉SQL的使用者查詢DATA。作為一個DATA倉庫,Hive的DATA管理按照使用層次可以從元DATA存儲、DATA存儲和DATA交換三個方面來介紹。1、元DATA存儲Hive將元DATA存儲在RDBMS中,有三種模式可以連接到DATA庫:SingleUserMode:此模式連接到一個In-memory的DATA庫Derby,一般用于UnitTest。MultiUserMode:通過網(wǎng)絡(luò)連接到一個DATA庫中,這是最常用的模式。RemoteServerMode:用于非Java客戶端訪問元DATA庫,在服務(wù)器端啟動一個MetaStoreServer,客戶端則利用Thrift協(xié)議通過MetaStoreServer來訪問元DATA庫。2、DATA存儲首先,Hive沒有專門的DATA存儲格式,也沒有為DATA建立索引,使用者可以非常自由地組織Hive中的表,只需要在創(chuàng)建表的時候告訴HiveDATA中的列分隔符和行分隔符,它就可以解析DATA了。其次,Hive中所有的DATA都存儲在HDFS中,Hive中包含4種DATA模型:Table、ExternalTable、Partition、Bucket。Hive中的Table和DATA庫中的Table在概念上是類似的,每一個Table在Hive中都有一個相應(yīng)的資源來存儲DATA。例如,一個表pvs,它在HDFS中的路徑為:/wh/pvs,其中,wh是在hive-site.xml中由${hive.metastore.warehouse.dir}指定的DATA倉庫的資源,所有的TableDATA(不包括ExternalTable)都保存在這個資源中。Partition對應(yīng)于DATA庫中Partition列的密集索引,但是Hive中Partition的組織方式與DATA庫中的很不相同。在Hive中,表中的一個Partition對應(yīng)于表下的一個資源,所有的PartitionDATA都存儲在對應(yīng)的資源中。例如:pvs表中包含ds和city兩個Partition,則對應(yīng)于ds=20090801,city=US的HDFS子資源為:/wh/pvs/ds=20090801/city=US;對應(yīng)于ds=20090801,city=CA的HDFS子資源為:/wh/pvs/ds=20090801/city=CA。Buckets對指定列計算hash,根據(jù)hash值切分DATA,目的是為了便于并行,每一個Buckets對應(yīng)一個文件。將user列分散至32個Bucket上,首先對user列的值計算hash,比如,對應(yīng)hash值為0的HDFS資源為:/wh/pvs/ds=20090801/city=US/part-00000;對應(yīng)hash值為20的HDFS資源為:/wh/pvs/ds=20090801/city=US/part-00020。ExternalTable指向已經(jīng)在HDFS中存在的DATA,可以創(chuàng)建Partition。它和Table在元DATA的組織結(jié)構(gòu)上是相同的,而在實際DATA的存儲上則有較BIG的差異。在Table的創(chuàng)建過程和DATA加載過程(這兩個過程可以在同一個語句中完成)中,實際DATA會被到DATA倉庫資源中。之后對DATA的訪問將會直接在DATA倉庫的資源中完成。刪除表時,表中的DATA和元DATA將會被同時刪除。ExternalTable只有一個過程,因為加載DATA和創(chuàng)建表是同時完成的。實際DATA是存儲在Location后面指定的HDFS路徑中的,它并不會到DATA倉庫資源中。3、DATA交換DATA交換主要分為以下幾個部分DATA交換組成部分使用者接口:包括客戶端、Web界面和DATA庫接口。元DATA存儲:通常是存儲在關(guān)系DATA庫中的,如MySQL、Derby等。解釋器、編譯器、優(yōu)化器、執(zhí)行器。Hadoop:用HDFS進(jìn)行存儲,利用MapReduce進(jìn)行計算。使用者接口主要有三個:客戶端、DATA庫接口和Web界面,其中最常用的是客戶端。Client是Hive的客戶端,當(dāng)啟動Client模式時,使用者會想要連接HiveServer,這時需要指出HiveServer所在的節(jié)點(diǎn),并且在該節(jié)點(diǎn)啟動HiveServer。Web界面是通過瀏覽器訪問Hive的。Hive將元DATA存儲在DATA庫中,如MySQL、Derby中。Hive中的元DATA包括表的名字、表的列和分區(qū)及其屬性、表的屬性(是否為外部表等)、表DATA所在的資源等。解釋器、編譯器、優(yōu)化器完成HQL查詢語句從詞法分析、語法分析、編譯、優(yōu)化到查詢計劃的生成。生成的查詢計劃存儲在HDFS中,并在隨后由MapReduce使用執(zhí)行。Hive的DATA存儲在HDFS中,BIG部分的查詢由MapReduce完成(包含*的查詢不會生成MapRedcue任務(wù),比如select*fromtbl)。以上從Hadoop的分布式文件系統(tǒng)HDFS、分布式DATA庫HBase和DATA倉庫工具Hive入手介紹了Hadoop的DATA管理,它們都通過自己的DATA定義、體系結(jié)構(gòu)實現(xiàn)了DATA從宏觀到微觀的立體化管理,完成了Hadoop上BIG規(guī)模的DATA存儲和任務(wù)處理。分布式計算模塊利用MapReduce、Spark等分布式計算框架,為上層應(yīng)用提供BIGDATA分布式計算的支撐,提供Mahout,MLlib等算法庫支撐,提供DATA存儲訪問及分布式計算任務(wù)的調(diào)度、運(yùn)行支撐環(huán)境能力。MapReduceXData-SDH的BIGDATA批處理的計算模式是MapReduce,這是MapReduce設(shè)計之初的主要任務(wù)和目標(biāo)。MapReduce是一個單輸入、兩階段(Map和Reduce)的DATA處理過程。首先,MapReduce對具有簡單DATA關(guān)系、易于劃分的BIG規(guī)模DATA采用“分而治之”的并行處理思想;然后將BIG量重復(fù)的DATA記錄處理過程總結(jié)成Map和Reduce兩個抽象的操作;最后MapReduce提供了一個統(tǒng)一的并行計算框架,把并行計算所涉及到的諸多系統(tǒng)層細(xì)節(jié)都交給計算框架去完成,以此BIGBIG簡化了程序員進(jìn)行并行化程序設(shè)計的負(fù)擔(dān)。MapReduce的簡單易用性使其成為目前BIGDATA處理最成功的主流并行計算模式。在開源社區(qū)的努力下,開源的Hadoop系統(tǒng)目前已成為較為成熟的BIGDATA處理,并已發(fā)展成一個包括眾多DATA處理工具和環(huán)境的完整的生態(tài)系統(tǒng)。目前幾乎國內(nèi)外的各個著名IT委辦都在使用Hadoop進(jìn)行委辦內(nèi)BIGDATA的計算處理。HadoopHDFS是GoogleGFS存儲系統(tǒng)的開源實現(xiàn),主要應(yīng)用場景是作為并行計算環(huán)境(MapReduce)的基礎(chǔ)組件,同時也是BigTable(如HBase、HyperTable)的底層分布式文件系統(tǒng)。HDFS采用master/slave架構(gòu)。一個HDFS集群是有由一個Namenode和一定數(shù)目的Datanode組成。Namenode是一個中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的namespace和客戶端對文件的訪問。Datanode在集群中一般是一個節(jié)點(diǎn)一個,負(fù)責(zé)管理節(jié)點(diǎn)上它們附帶的存儲。在內(nèi)部,一個文件其實分成一個或多個block,這些block存儲在Datanode集合里。如下圖所示(HDFS體系結(jié)構(gòu)圖):HDFS體系結(jié)構(gòu)圖HadoopMapReduce是一個使用簡易的軟件框架,基于它寫出來的應(yīng)用程序能夠運(yùn)行在由上千個商用機(jī)器組成的BIG型集群上,并以一種可靠容錯的方式并行處理上TB級別的DATA集。一個MapReduce作業(yè)(job)通常會把輸入的DATA集切分為若干獨(dú)立的DATA塊,由Map任務(wù)(task)以完全并行的方式處理它們??蚣軙ap的輸出先進(jìn)行排序,然后把結(jié)果輸入給Reduce任務(wù)。通常作業(yè)的輸入和輸出都會被存儲在文件系統(tǒng)中。整個框架負(fù)責(zé)任務(wù)的調(diào)度和監(jiān)控,以及重新執(zhí)行已經(jīng)失敗的任務(wù)。如下圖所示(HadoopMapReduce處理流程圖):HadoopMapReduce處理流程圖Spark分布式計算框架Spark是一個通用的并行計算框架,是一種快速處理BIG規(guī)模DATA的通用引擎。HadoopMapReduce的每一步完成必須將DATA序列化寫到分布式文件系統(tǒng)導(dǎo)致效率BIG幅降低。Spark盡可能地在內(nèi)存上存儲中間結(jié)果,極BIG地提高了計算速度。MapReduce是一路計算的優(yōu)秀解決方案,但對于多路計算的問題必須將所有作業(yè)都轉(zhuǎn)換為MapReduce模式并串行執(zhí)行。Spark擴(kuò)展了MapReduce模型,允許開發(fā)者使用有向無環(huán)圖(DAG)開發(fā)復(fù)雜的多步DATA管道。并且支持跨有向無環(huán)圖的內(nèi)存DATA共享,以便不同的作業(yè)可以共同處理同一個DATA。Spark不是Hadoop的替代方案而是其計算框架HadoopMapReduce的替代方案。Hadoop更多地作為集群管理系統(tǒng)為Spark提供底層支持。Spark可以使用本地Spark,HadoopYARN或ApacheMesos作為集群管理系統(tǒng)。Spark支持HDFS,Cassandra,OpenStackSwift作為分布式存儲解決方案。Spark采用Scala語言開發(fā)運(yùn)行于JVM上,并提供了Scala,Python,Java和R語言API,可以使用其中的Scala和Python進(jìn)行交互式操作。流DATA處理及消息框架支持主流的流處理框架,框架采用小批量流式處理方式,每隔設(shè)定間隔(100毫秒)處理當(dāng)前批次DATA;可支持復(fù)雜SQL應(yīng)用和在線流式機(jī)器學(xué)習(xí)。并且支持Kafka,Flume等常見消息隊列或采集工具,兼容現(xiàn)有Hadoop生態(tài)系統(tǒng)。支持storm流式處理框架。具有擴(kuò)展性強(qiáng)、容錯性強(qiáng)、延遲低、吞吐高等特點(diǎn)。而且可以將kafka,storm,Hbase等組件連接起來。SparkStreaming流式計算隨著BIGDATA的發(fā)展,人們對BIGDATA的處理要求也越來越高,原有的批處理框架MapReduce適合離線計算,卻無法滿足實時性要求較高的業(yè)務(wù),如實時推薦、使用者行為分析等。SparkStreaming是建立在Spark上的實時計算框架,通過它提供的豐富的API、基于內(nèi)存的高速執(zhí)行引擎,使用者可以結(jié)合流式、批處理和交互試查詢應(yīng)用。本節(jié)將詳細(xì)介紹SparkStreaming實時計算框架的原理與特點(diǎn)、適用場景。Spark是一個類似于MapReduce的分布式計算框架,其核心是彈性分布式DATA集,提供了比MapReduce更豐富的模型,可以在快速在內(nèi)存中對DATA集進(jìn)行多次迭代,以支持復(fù)雜的DATA挖掘算法和圖形計算算法。SparkStreaming是一種構(gòu)建在Spark上的實時計算框架,它擴(kuò)展了Spark處理BIG規(guī)模流式DATA的能力。SparkStreaming的優(yōu)勢在于:能運(yùn)行在100+的結(jié)點(diǎn)上,并達(dá)到秒級延遲。使用基于內(nèi)存的Spark作為執(zhí)行引擎,具有高效和容錯的特性。能集成Spark的批處理和交互查詢。為實現(xiàn)復(fù)雜的算法提供和批處理類似的簡單接口?;赟parkonYarn的SparkStreaming總體架構(gòu)如下圖所示。SparkonYarn啟動后,由SparkAppMaster把Receiver作為一個Task提交給某一個SparkExecutor;Receive啟動后輸入DATA,生成DATA塊,然后通知SparkAppMaster;SparkAppMaster會根據(jù)DATA塊生成相應(yīng)的Job,并把Job的Task提交給空閑SparkExecutor執(zhí)行。圖中藍(lán)色的粗箭頭顯示被處理的DATA流,輸入DATA流可以是磁盤、網(wǎng)絡(luò)和HDFS等,輸出可以是HDFS,DATA庫等。分布式消息框架分布式消息系統(tǒng)屬于中間件產(chǎn)品,功能是將前端采集來的DATA進(jìn)行分布式緩存,以供后端進(jìn)行實時處理。Kafka是一種分布式的,基于發(fā)布/訂閱的分布式消息系統(tǒng)。可以用來緩存采集的流DATA。Topic:特指Kafka處理的消息源的不同分類。Partition:Topic物理上的分組,一個topic可以分為多個partition,每個partition是一個有序的隊列。partition中的每條消息都會被分配一個有序的id(offset)。Message:消息,是通信的基本單位,每個producer可以向一個topic(主題)發(fā)布一些消息。Producers:消息和DATA生產(chǎn)者,向Kafka的一個topic發(fā)布消息的過程叫做producers。Consumers:消息和DATA消費(fèi)者,訂閱topics并處理其發(fā)布的消息的過程叫做consumers。Broker:緩存代理,Kafa集群中的一或多服務(wù)器統(tǒng)稱為broker。DATA采集管理組件對DATA源的提供者、業(yè)務(wù)來源、連接信息、連接狀態(tài)等進(jìn)行管理,實現(xiàn)對DATA來源的跟蹤;DATA庫DATA采集,提供自O(shè)racle、SQLServer、MySql等DATA庫中采集DATA的功能,并進(jìn)行定時的自動化采集;結(jié)構(gòu)化文件DATA采集,提供自結(jié)構(gòu)化DATA文件中采集DATA的功能,并對文件中的DATA行進(jìn)行自動化字段拆分;非結(jié)構(gòu)化文件采集,提供自FTP自動化定時采集非結(jié)構(gòu)化文件,并對采集到的文件進(jìn)行統(tǒng)一管理。DATA源管理可實現(xiàn)對DATA源,可實現(xiàn)對本地文件、主流結(jié)構(gòu)化DATA庫、分布式DATA存儲等DATA源的提供者、業(yè)務(wù)來源、連接信息、連接狀態(tài)等進(jìn)行管理。支持的本地化文件包括excel、csv等;支持的主流結(jié)構(gòu)化DATA庫包括MySql、Oracle、PostgreSql、SQLserver、DB2、MonetDB等;支持的分布式DATA存儲包括HDFS、Hive、Hbase等。DATA采集DATA采集包括DATA庫DATA采集、結(jié)構(gòu)化文件DATA采集、非結(jié)構(gòu)化DATA采集。DATA采集通過ETL工具實現(xiàn),ETL負(fù)責(zé)將分散的、異構(gòu)DATA源中的DATA如關(guān)系DATA、面DATA文件等抽取到臨時中間層后,進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到DATA倉庫或DATA集中,成為聯(lián)機(jī)分析處理、DATA挖掘提供決策支持的DATA。該系統(tǒng)采用SOA技術(shù)架構(gòu)設(shè)計,采用組件復(fù)用和框架技術(shù),以SOA面向服務(wù)的架構(gòu)為基礎(chǔ),通過該服務(wù)開發(fā)出的應(yīng)用系統(tǒng)具備松散耦合、可重用服務(wù)、標(biāo)準(zhǔn)化的服務(wù)接口、支持各種消息模式,實現(xiàn)應(yīng)用系統(tǒng)之間以及與其他外部應(yīng)用系統(tǒng)無縫、高效集成。ETL即DATA采集單元,是DATA轉(zhuǎn)出客戶端,是與DATA庫服務(wù)器相連的負(fù)責(zé)采集相關(guān)DATA的單元,一方鏈接DATA庫,一方鏈接VPN,如源DATA庫為多個,則ETL系統(tǒng)采集端部署多個與源DATA庫對應(yīng)。ETL系統(tǒng)采集端功能如下:1、基本信息配置:設(shè)置合作伙伴編碼與名稱,設(shè)置ETL系統(tǒng)采集端編碼;導(dǎo)出文件配置:導(dǎo)出文件的保存路徑、DATA文件名、DATA文件列分隔符、導(dǎo)出文件的編碼格式,目前DATA文件默認(rèn)為文本文件方式;2、鏈接配置:配置需要鏈接的DATA庫的DATA庫類型、鏈接的IP地址、DATA庫使用者名和密碼;配置對應(yīng)的ETL系統(tǒng)入庫端的鏈接地址、使用者名及密碼;3、DATA集配置:配置需要提取的DATA集清單與每種DATA集的采集周期(比如年、月、日等);4、腳本編寫及植入:可手工編寫DATA提取的SQL語句或存儲過程,然后將腳本植入到DATA采集單元中;5、運(yùn)行監(jiān)控:監(jiān)控DATA采集的過程,日志自動保存與輸出、報錯提醒(郵件\短信等)等;6、DATA打包上傳:對已經(jīng)提取的DATA進(jìn)行加密、打包且上傳到DATA加載單元;為保證DATA采集的及時性、準(zhǔn)確性,需要根據(jù)機(jī)房環(huán)境和DATA庫種類的不同,為DATA采集單元設(shè)計不同的部署方式。DATA采集單元部署在機(jī)房,需要注意以下問題:根據(jù)機(jī)房環(huán)境,設(shè)計如何接入互聯(lián)網(wǎng)的方案;DATA采集單元通過VPN連入外聯(lián)區(qū)域;為達(dá)到免責(zé)目的,DATA采集單元務(wù)必獨(dú)立于零售商的硬件設(shè)備;合理設(shè)計DATA采集單元相對于防火墻的位置;在一般情況下,采用遠(yuǎn)程桌面方式執(zhí)行日常維護(hù)。系統(tǒng)特點(diǎn)支持多種運(yùn)行環(huán)境支持云、Windows、Linux、Unix等主流操作系統(tǒng)廠商的運(yùn)行環(huán)境;可移植性高,并可對多終端的DATA進(jìn)行同步和協(xié)調(diào)。支持多DATA源DATA采集支持多DATA源DATA采集:支持從主流關(guān)系型DATA庫(oracle,MYSQL,SQLServer,DB2,sydbase,informix,達(dá)夢,神通),webservice接口,文件服務(wù)器等多種存儲設(shè)備中采集DATA。支持BIGDATA存儲和訪問全面支持BIGDATA存儲和訪問,支持BIGDATA環(huán)境的DATA采集。支持BIGDATA存儲載體Hadoop/HDFS和Avro,支持訪問HDFS內(nèi)的文件內(nèi)容。支持主流NoSQLDATA庫,包括:Hbase,mongodb等。圖形化作業(yè)支持圖形化作業(yè):從圖形化界面創(chuàng)建DATA采集轉(zhuǎn)換、作業(yè),以流程圖方式呈現(xiàn),具備清晰,直觀的可視化操作界面。可視化作業(yè)支持可視化作業(yè)監(jiān)控調(diào)度:在web可視化界面上統(tǒng)一調(diào)度作業(yè),支持作業(yè)的執(zhí)行,暫停,以及作業(yè)的日志報告查看。支持多DATA標(biāo)準(zhǔn)支持XML、WebServices、JSON,JMS等DATA標(biāo)準(zhǔn);遵循restful風(fēng)格遵循restful風(fēng)格標(biāo)準(zhǔn)消息傳遞機(jī)制;DATA運(yùn)行維護(hù)管理組件DATA運(yùn)行維護(hù)管理組件提供對BIGDATADATA的統(tǒng)一監(jiān)控和運(yùn)行維護(hù)管理,具體功能包括:DATA監(jiān)控,對BIGDATA中已有DATA存儲量、DATA增量、表數(shù)量、在線訪問人數(shù)等信息進(jìn)行監(jiān)控;DATA處理任務(wù)管理,對中的DATA采集處理任務(wù)信息進(jìn)行集中查看及管理;操作日志管理,對中的使用者登錄情況、使用者訪問DATA表的情況進(jìn)行日志記錄,并提供篩選及查詢功能;使用者及部門管理,提供多層級的部門管理及使用者管理,并提供使用者排序等功能;角色及DATA權(quán)限管理,提供自定義管理員及使用者角色的功能,對不同角色可授予精細(xì)至表字段的DATA訪問權(quán)限管理;審批管理,提供審批權(quán)限配置工具,并根據(jù)配置進(jìn)行流轉(zhuǎn)審批管理。DATA監(jiān)控整體狀態(tài)監(jiān)控提供對交換節(jié)點(diǎn)、交換作業(yè)、吞吐量、異常情況的整體監(jiān)控??砂凑者^去一小時、過去一周、過去30天等維度查看DATA交換實時流量??刹榭唇粨Q節(jié)點(diǎn)的服務(wù)器名稱、主機(jī)名或IP地址、端口號、是否主服務(wù)器、用途、狀態(tài)等詳細(xì)信息。基礎(chǔ)DATA庫(1)信息資源規(guī)劃某地BIGDATA作為部門DATA交換中心和DATA共享中心,需要實現(xiàn)DATA的集中交換和集中存儲,因此,在全面建設(shè)之前,必須通過信息資源梳理,對某地各委辦之間的輸入DATA及輸出DATA進(jìn)行全面梳理,分析出需要集中交換與共享的DATA。在此基礎(chǔ)上,通過與中心交換的方式,實現(xiàn)各委辦之間的DATA共建共享。信息資源梳理是對某地各委辦在業(yè)務(wù)開展過程中,從DATA的采集、存儲、傳輸?shù)绞褂玫娜嬉?guī)劃。通過對各委辦的信息需求獲取、現(xiàn)狀信息環(huán)境調(diào)研、信息需求分析等一系列DATA資源梳理分析工作,站在某地整體的基礎(chǔ)之上,設(shè)計某地BIGDATA中心需要存儲的DATA和交換的DATA,并在此基礎(chǔ)之上,制定DATA存儲和交換的DATA標(biāo)準(zhǔn)。(2)基礎(chǔ)DATA庫某地BIGDATA未來需要集中存儲的DATA包括各委辦需要交換進(jìn)來的DATA和需要交換出去的DATA,兩部分DATA按照業(yè)務(wù)主題可劃分為XX、XX、空間地理和宏觀經(jīng)濟(jì)四類DATA,每類DATA結(jié)合國家目前正在建設(shè)的XX庫、XX庫、空間地理庫和宏觀經(jīng)濟(jì)庫等內(nèi)容,主要內(nèi)容包括:XX類DATA:存儲與XX相關(guān)的各種屬性信息,包括XX基本信息、XX擴(kuò)展信息及專用信息,XX基本信息中存儲XX最基本的DATA項信息,包括:姓名、性別、民族、出生日期、住址、公民身份號碼、照片,XX擴(kuò)展信息中存儲戶籍、出生、死亡等信息,XX專用信息中按涉及XX管理的委辦具體的行管理職能存儲專用的XX信息,包括衛(wèi)生、教育、稅務(wù)、計生等專有信息。XX類DATA:存儲與XX相關(guān)的各種信息,包括XX基本信息及XX擴(kuò)展信息。XX基本信息中存儲XX最基本的DATA項信息,包括:機(jī)構(gòu)名稱、機(jī)構(gòu)類型、機(jī)構(gòu)住所、法定代表人姓名、經(jīng)營或業(yè)務(wù)范圍、注冊或登記機(jī)構(gòu)名稱、注冊或登記號、資金幣種、注冊資本或開辦資金金額、成立日期、行區(qū)域代碼等信息;XX專用信息中按涉及XX管理的委辦具體的行管理職能存儲專用的XX信息,包括工商、質(zhì)監(jiān)、稅務(wù)等專有信息??臻g地理DATA:存儲與空間地理有關(guān)的元DATA庫、基礎(chǔ)空間DATA庫、信息圖層DATA庫、地名地址DATA庫、歷史DATA庫、三維模型DATA庫等七BIG類。宏觀經(jīng)濟(jì)DATA:由部門DATA信息和類別DATA信息組成。部門DATA信息反映從各委辦采集、清洗、比對后的信息,信息的存儲按照DATA部門來源劃分;類別DATA信息是按照經(jīng)濟(jì)、社會、居民生活等DATA類型進(jìn)行存儲,同一DATA類別的信息可以來源于多個部門。(3)基礎(chǔ)DATA框架DATA資源體系框架是某地BIGDATA從DATA采集、處理、存儲和管理的總體架構(gòu),為上層應(yīng)用提供高檔次的DATA存儲和處理環(huán)境,DATA資源體系框架主要側(cè)重于業(yè)務(wù)處理所需的信息和信息流,從實際業(yè)務(wù)出發(fā),開展DATA資源梳理,從DATA采集、處理、傳輸、到使用進(jìn)行統(tǒng)一規(guī)劃,設(shè)計某地BIGDATA整體的DATA資源架構(gòu)。從存儲信息對象上來看,主要存儲三BIG庫DATA、以及從互聯(lián)網(wǎng)上獲取的各種信息的社會綜合BIGDATA。從DATA處理過程來看,某地BIGDATADATA資源體系框架總體架構(gòu)如下圖所示:(4)基礎(chǔ)DATA分區(qū)根據(jù)DATA資源共享交換DATA庫規(guī)劃,DATA資源共享交換的DATA存儲由交換DATA臨時存儲區(qū)、操作型DATA存儲區(qū)、DATA倉庫、DATA集4個區(qū)域構(gòu)成,具體建設(shè)的時候需要根據(jù)它們各自的特點(diǎn)分別進(jìn)行設(shè)計。交換DATA臨時存儲區(qū)。交換DATA臨時存儲區(qū)(ExchangeDataStore,EDS)是用來保證DATA交換過程中安全隔離和臨時存儲的存儲區(qū),其DATA結(jié)構(gòu)應(yīng)與接入的應(yīng)用系統(tǒng)保持一致。操作型DATA存儲區(qū)。操作型DATA存儲區(qū)(OperationalDataStore,ODS)存放集成的、可更新的、近實時的業(yè)務(wù)DATA。ODS主要用于異構(gòu)業(yè)務(wù)DATA源的明細(xì)DATA整合后、進(jìn)入DATA倉庫前的存儲,并提供企業(yè)面向業(yè)務(wù)的、近實時的統(tǒng)一DATA視圖,支持企業(yè)全業(yè)務(wù)DATA的近實時查詢與分析。ODS是業(yè)務(wù)系統(tǒng)間公共和共享DATA的存儲區(qū),是業(yè)務(wù)系統(tǒng)與DATA倉庫間的DATA遷移的緩存區(qū),是支持DATA資源共享交換應(yīng)用中實時查詢DATA的存儲區(qū),是日常業(yè)務(wù)決策支持的DATA存儲區(qū)。ODSDATA模型依據(jù)DATA模型構(gòu)建,基于主題域組織,其主題域劃分和核心DATA實體與企業(yè)DATA模型相同。DATA倉庫。DATA倉庫(DataWarehouse,DW)存放面向主題的、集成的、相對穩(wěn)定的、反應(yīng)歷史變化的DATA。DATA倉庫統(tǒng)一存放與管理經(jīng)整合后、具體分析價值的企業(yè)歷史DATA,支持基于BIG量歷史DATA的企業(yè)決策分析。DATA倉庫中存儲從業(yè)務(wù)系統(tǒng)中到處的用于決策和挖掘的企業(yè)DATA,也到處操作型DATA的輕度匯總DATA。DATA倉庫的DATA一部分通過ODS導(dǎo)入,一部分通過業(yè)務(wù)系統(tǒng)直接導(dǎo)入。DATA倉庫的DATA模型按照主題組織,主題域劃分與DATA模型相同,DATA模型依據(jù)DATA模型構(gòu)建。DATA集。DATA集(DataMarkets,DM)是以DATA倉庫DATA為唯一DATA源、面向特定分析應(yīng)用、俺一定方式重新組織的DATA集合,是DATA倉庫的子集。DATA集基于DATA倉庫創(chuàng)建,用于不同業(yè)務(wù)部門的需求和不同分析應(yīng)用的分析DATA的存儲,DATA集的DATA模型與企業(yè)DATA模型一直,用于描述企業(yè)業(yè)務(wù)部門、企業(yè)綜合分析以及高級管理人員分析所需的DATA。DATA集模型也按主題組織,但其主題域劃分與DATA模型不同,DATA集的主題是基于企業(yè)的不同部門、不同人員的分析需求而組織的?;A(chǔ)DATA分層。某地BIGDATADATA模型是DATA資源層的核心,是整個某地BIGDATADATA資源標(biāo)準(zhǔn)的具體體現(xiàn),包括兩級四層,分別為級DATA模型、應(yīng)用級DATA模型。級DATA模型包括級概念DATA模型和級邏輯DATA模型。級概念DATA模型定義某地BIGDATA中心的主題域,反映業(yè)務(wù)的綜合性信息需求。級邏輯DATA模型是對概念DATA模型的分解和規(guī)范化,描述實體、屬性及實體之間的關(guān)系,提供了某地BIGDATA中心的總體DATA視圖。通過建立級DATA模型,規(guī)范應(yīng)用級DATA模型的設(shè)計,可減少信息化應(yīng)用之間DATA的重復(fù)定義和不一致性,從源頭上保證DATA的質(zhì)量,降低應(yīng)用集成和DATA共享的難度。級DATA模型應(yīng)在各應(yīng)用系統(tǒng)建設(shè)之前,從整個某地的角度,統(tǒng)一、集中設(shè)計DATA模型,保證DATA存儲模式合理、學(xué)。應(yīng)用級DATA模型包括應(yīng)用級邏輯DATA模型和應(yīng)用級物理DATA模型。應(yīng)用級邏輯DATA模型是針對具體信息化應(yīng)用的邏輯DATA模型,通常為級邏輯DATA模型的子集,為系統(tǒng)開發(fā)提供DATA規(guī)范。應(yīng)用級物理DATA模型是在應(yīng)用級邏輯DATA模型的基礎(chǔ)上,考慮各種具體的技術(shù)實現(xiàn)因素,結(jié)合具體DATA庫管理系統(tǒng),進(jìn)行物理結(jié)構(gòu)設(shè)計,以滿足DATA存儲需要。應(yīng)用級DATA模型是應(yīng)用系統(tǒng)的重要組成部分,按照應(yīng)用系統(tǒng)建設(shè)進(jìn)程不斷建立和完善。DATA交換DATA交換,通過各種方式,逐步采集完善各類基礎(chǔ)DATA及專題DATA;通過DATA交換,按照統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,將某地各個委辦的DATA資源匯總到某地BIGDATA,實現(xiàn)某地信息資源的匯聚和傳遞,滿足全縣各個委辦對實時信息的橫向交換以及業(yè)務(wù)協(xié)同等需求,為某地協(xié)同、公共服務(wù)和輔助決策等提供信息交換和共享服務(wù);為保證DATA的動態(tài)準(zhǔn)確性,需要對基礎(chǔ)空間地理信息庫、XXDATA庫、XXDATA庫等三BIG基礎(chǔ)DATA庫的信息進(jìn)行DATA清洗、DATA比對、異常DATA反饋、DATA入庫等加工處理。(1)DATA采集1)DATA采集方向為了保障XX庫、XX庫、空間地理信息庫和宏觀經(jīng)濟(jì)庫等DATA在采集過程中的完整性、準(zhǔn)確性和及時性,應(yīng)從以下幾個方面進(jìn)行:建立DATA采集組織,實地開展DATA采集工作。通過劃分區(qū)域,由專人負(fù)責(zé)定時采集和更新相應(yīng)區(qū)域的四BIG庫DATA。通過對采集人員的培訓(xùn)以及制定DATA采集制度、DATA填報表格,規(guī)范DATA采集工作,提高DATA采集質(zhì)量。同時,開發(fā)DATA采集直報系統(tǒng),充分利用應(yīng)用等技術(shù),實現(xiàn)異地DATA直報,提高DATA采集工作效率。在行審批過程中,逐步采集完善基礎(chǔ)DATA。各委辦、服務(wù)中心在各事項審批過程中,登記和審核各種與自然人、XX的相關(guān)證件信息和基本信息,這些信息可以作為XX庫和XX庫的DATA來源。通過與某省建設(shè)的電子信息系統(tǒng)對接,進(jìn)行交換獲取DATA。某省建設(shè)的電子類信息化系統(tǒng)包含了BIG量的基礎(chǔ)DATA,并且這些系統(tǒng)為各部門提供了開放接口。某地BIGDATA可以與這些系統(tǒng)進(jìn)行對接,獲得與某地行管理范圍內(nèi)的XX、XX、空間地理和宏觀經(jīng)濟(jì)DATA。通過XX普查工作完善基礎(chǔ)DATA庫DATA。借助每次XX普查工作的開展,收集XXDATA,通常XX普查登記包括了XX的自然特征,如年齡、性別、民族、家庭、生育、死亡等等,另外還有社會特征,比如人的遷移、分布、文化特征、教育特征、宗教等等。經(jīng)濟(jì)特征DATA主要包括就業(yè)狀況、職業(yè)、行業(yè)等信息。2)DATA采集步驟對于DATA采集,建議采用分步進(jìn)行,逐步擴(kuò)充的原則,先整合目前能夠獲取的部門DATA,通過對這些DATA的整合,搭建起系統(tǒng)的整體框架,并制定相應(yīng)的DATA規(guī)范標(biāo)準(zhǔn)以及DATA清洗比對規(guī)則。通過整體效應(yīng),吸引其他委辦實現(xiàn)DATA共享。如果實際業(yè)務(wù)要求,需要實現(xiàn)DATA全面共享,對于未開放DATA接口的委辦,采用以下兩種方法獲取相關(guān)DATA。一是DATA首次初始化,可以通過行手段,協(xié)調(diào)得到相關(guān)歷史DATA,并根據(jù)歷史DATA結(jié)構(gòu)建立相關(guān)業(yè)務(wù)DATA庫,對于新增或更新的DATA可以通過在采集頁面增加DATA收集插件,對相關(guān)DATA庫中的信息進(jìn)行更新。二是在提供一個具有查詢權(quán)限的使用者基礎(chǔ)上,可以通過開發(fā)具有頁面解析功能的插件,當(dāng)使用者進(jìn)行查詢操作時,通過插件對查詢結(jié)果頁面進(jìn)行分析,從中獲取相關(guān)業(yè)務(wù)DATA字段信息,并將獲取的信息保存到級DATA庫中。在具體實施過程中,在對不開放DATA接口的委辦,通過相關(guān)的頁面插件收集DATA,存在一定的風(fēng)險,如果DATA泄露,則會造成非常BIG的影響,所以建議從易到難,先整合目前能夠開放DATA接口的委辦DATA,在逐步擴(kuò)充,最終實現(xiàn)DATA的全面共享。(2)DATA交換通過DATA交換,按照統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,將某地各個委辦的DATA資源匯總到某地BIGDATA,實現(xiàn)某地信息資源的匯聚和傳遞,滿足全各個委辦對實時信息的橫向交換以及業(yè)務(wù)協(xié)同等需求,為某地協(xié)同、公共服務(wù)和輔助決策等提供信息交換和共享服務(wù)。DATA交換的目的是實現(xiàn)傳輸過程中的“不錯、不丟、不重”。DATA交換系統(tǒng)核心的功能包括DATA橋接模塊、DATA傳輸模塊、前置交換模塊和交換管理監(jiān)控模塊。1)交換橋接模塊橋接系統(tǒng)的功能完成委辦業(yè)務(wù)系統(tǒng)信息庫與前置信息庫(或交換)之間雙向安全、可靠的信息交換,并實現(xiàn)DATA格式轉(zhuǎn)換。橋接實現(xiàn)方式包括直接連接、通過網(wǎng)閘等定時或?qū)崟r傳輸。主要功能包括DATA映射、DATA提取、DATA抽取、過濾規(guī)則配置、DATA轉(zhuǎn)換、DATA導(dǎo)出、DATA導(dǎo)入、監(jiān)控管理等功能。2)交換傳輸模塊交換傳輸系統(tǒng)即消息總線系統(tǒng),作為前置交換系統(tǒng)之間的信息交換通道,實現(xiàn)交換信息的打包、轉(zhuǎn)換、傳遞、路由、解包日志服務(wù)等功能。3)前置交換模塊為確保各委辦的原有系統(tǒng)的運(yùn)行不被資源整合所影響,保障原系統(tǒng)的DATA安全,使用前置機(jī)作為各委辦與DATA交換進(jìn)行DATA交換的窗口,一方面從各業(yè)務(wù)系統(tǒng)提取DATA,向中心提交,另一方面從DATA中心接收DATA,并向業(yè)務(wù)系統(tǒng)傳遞DATA。前置機(jī)應(yīng)具備緩存交換DATA,對DATA進(jìn)行過濾、加工和展現(xiàn)的功能。主要由網(wǎng)絡(luò)通信系統(tǒng)、操作系統(tǒng)、交換信息庫、前置交換環(huán)境、交換服務(wù)配置工具等組成。4)交換管理監(jiān)控模塊交換監(jiān)控模塊作為交換系統(tǒng)的中心管理模塊,協(xié)同委辦交換前置機(jī)和中心交換前置機(jī)的運(yùn)行并對交換系統(tǒng)的運(yùn)行情況進(jìn)行管理和監(jiān)控。管理監(jiān)控模塊提供對整體的監(jiān)控、業(yè)務(wù)域的管理、節(jié)點(diǎn)的管理、傳輸管理、安全管理、路由管理、統(tǒng)計分析和日志服務(wù)等功能。(3)DATA加工為保證DATA的動態(tài)準(zhǔn)確性,需要對基礎(chǔ)空間地理信息庫、XXDATA庫、XXDATA庫等三BIG基礎(chǔ)DATA庫的信息進(jìn)行加工處理。1)DATA清洗對各委辦采集或交換來的DATA按照基礎(chǔ)DATA的標(biāo)準(zhǔn)格式要求進(jìn)行檢查整理,對不符合質(zhì)量要求或者錯誤的DATA進(jìn)行更正,最終確保DATA的準(zhǔn)確。DATA清洗的目的是數(shù)是保證DATA庫DATA質(zhì)量。2)DATA比對對DATA的字段、要求、合理數(shù)值范圍、檢查時段、預(yù)警方式等內(nèi)容,按照不同DATA類型、DATA來源、變動方式進(jìn)行單獨(dú)或組合設(shè)置,由系統(tǒng)按照設(shè)置的比對指標(biāo),對各基礎(chǔ)DATA庫的信息進(jìn)行綜合比對分析,并生成比對結(jié)果,并根據(jù)授權(quán)情況,將比對結(jié)果分類下發(fā)到相關(guān)委辦,對DATA進(jìn)行核查。核查后反饋的DATA,將再次進(jìn)入DATA加工環(huán)節(jié)。在核查過程中,系統(tǒng)按照設(shè)置的監(jiān)管指標(biāo)對各部門核查信息進(jìn)行綜合分析,并生成監(jiān)察結(jié)果。3)異常DATA反饋異常DATA反饋實現(xiàn)DATA采集、清洗、比對同DATA采集委辦形成互動,將清洗和比對工作中發(fā)現(xiàn)的異常DATA反饋給DATA提供委辦,提醒DATA提供單位核實的同時,也幫助提高委辦自身業(yè)務(wù)DATA準(zhǔn)確性。4)DATA入庫在DATA入庫時,配置定義入庫規(guī)則和配置定義入庫流程,支持順序入庫,并行入庫。新增DATA字段在入庫前,要完成新增信息資源資源服務(wù)登記工作,包括進(jìn)行入庫元DATA和入庫資源的編目、注冊、發(fā)布、審核等工作。信息資源資源在開展基礎(chǔ)應(yīng)用、擴(kuò)展應(yīng)用和專業(yè)利用等應(yīng)用中起承上啟下的關(guān)鍵作用,為各種應(yīng)用提供基礎(chǔ)DATA管理服務(wù),包括訪問使用者認(rèn)證、使用者授權(quán)、監(jiān)控、日志等。DATA管理(1)資源資源服務(wù)按照國家信息資源資源體系標(biāo)準(zhǔn),建立統(tǒng)一的信息資源資源體系,建設(shè)統(tǒng)一的信息資源管理中心,形成“物理分散、邏輯集中”信息資源管理模式;提高信息的交換能力,支持跨部門間的信息共享和業(yè)務(wù)協(xié)同,提高交各單位、各部門協(xié)同、管理水。通過借鑒信息資源資源體系,設(shè)計某地BIGDATA中心的信息資源資源服務(wù)系統(tǒng),構(gòu)建信息資源資源體系和信息資源共享環(huán)境,并通過資源服務(wù)實現(xiàn)跨部門的共享信息資源發(fā)現(xiàn)、定位與獲取。該系統(tǒng)功能主要包括編目傳輸、資源服務(wù)、資源管理及共享服務(wù)。信息資源資源服務(wù)系統(tǒng)工作過程分為信息資源資源訪問過程、資源服務(wù)形成與提供流程和共享信息資源定位與發(fā)現(xiàn)流程。準(zhǔn)備:首先由各部門建立共享信息庫,并建立共享信息服務(wù)系統(tǒng),提供共享信息的瀏覽、查詢和下載等服務(wù);編目:各部門對共享信息的內(nèi)容提取特征,通過編目系統(tǒng)形成資源內(nèi)容庫;注冊:由各部門通過資源傳輸系統(tǒng)將資源內(nèi)容傳送到資源服務(wù)中心;發(fā)布:由資源服務(wù)中心對各部門的資源內(nèi)容進(jìn)行審核發(fā)布。(2)DATA質(zhì)量管理按照國家信息資源資源體系標(biāo)準(zhǔn),建立覆蓋全先的信息資源資源體系,建設(shè)全先統(tǒng)一的信息資源管理中心,形成“物理分散、邏輯集中”信息資源管理模式;提高信息的交換能力,支持跨委辦之間的信息共享和業(yè)務(wù)協(xié)同,提高全先公共服務(wù)和社會管理的水。DATA質(zhì)量管理系統(tǒng)的功能包括DATA質(zhì)量監(jiān)控、DATA質(zhì)量評估、DATA質(zhì)量報告、DATA質(zhì)量問題處理、DATA質(zhì)量知識庫等功能。DATA質(zhì)量監(jiān)控:根據(jù)DATA檢驗等配置的規(guī)則,對發(fā)現(xiàn)的DATA質(zhì)量異常情況進(jìn)行告警和拓?fù)涑尸F(xiàn)。主要包括源系統(tǒng)關(guān)鍵DATA稽核、源系統(tǒng)維表稽核、實體DATA檢查、處理過程檢查、關(guān)鍵指標(biāo)檢查、告警管理、拓?fù)涑尸F(xiàn)和規(guī)則配置等功能。DATA質(zhì)量評估:根據(jù)設(shè)定的評估方法對源接口基礎(chǔ)DATA質(zhì)量評估和指標(biāo)關(guān)聯(lián)性分析,相關(guān)到評估結(jié)果以作為系統(tǒng)質(zhì)量改進(jìn)的參考和依據(jù)。DATA質(zhì)量報告:對DATA質(zhì)量管理各環(huán)節(jié)累積的各種信息進(jìn)行匯總、梳理、統(tǒng)計和分析,形成統(tǒng)計報告,主要包括:報告生成、報告發(fā)布、報告查詢和報告歸檔。DATA質(zhì)量問題處理:包括問題生成、問題分析、問題處理和問題總結(jié)。DATA質(zhì)量知識庫:在使用及運(yùn)行維護(hù)過程中,由DATA質(zhì)量管理系統(tǒng)收集有關(guān)DATA及過程問題的處理經(jīng)驗總結(jié),按關(guān)鍵字的形式進(jìn)行索引和分類管理。(3)業(yè)務(wù)建模業(yè)務(wù)建模是構(gòu)建使用者接口或上層業(yè)務(wù)應(yīng)用與基礎(chǔ)DATA之間的邏輯模型。業(yè)務(wù)對象和業(yè)務(wù)分析模型在此實例化。應(yīng)用服務(wù)層是生成并操作接收信息的業(yè)務(wù)規(guī)則和函數(shù)的集合。它們通過業(yè)務(wù)規(guī)則(可以頻繁更改)完成該任務(wù),并由此被封裝到在物理上與應(yīng)用程序程序邏輯本身相獨(dú)立的組件中。1)居民身份驗證模型居民身份驗證模型用于居民個人電子檔案建立及居民身份驗證,是社區(qū)證明系統(tǒng)、業(yè)務(wù)流轉(zhuǎn)系統(tǒng)等具體業(yè)務(wù)系統(tǒng)的支撐服務(wù)。它可以通過XXX號驗證居民身份,比對BIGDATA中XX信息庫中是否具有該居民信息,進(jìn)行相關(guān)業(yè)務(wù)辦理,也可以通過居民生物特征信息(指靜脈信息)進(jìn)行居民唯一身份驗證,以此為依據(jù)辦理相關(guān)業(yè)務(wù)。2)DATA綜合模型社區(qū)綜合信息模型是網(wǎng)格化管理體系下動態(tài)信息獲取的一個重要來源,社區(qū)綜合信息采集服務(wù)將網(wǎng)格內(nèi)房屋信息、常住XX、暫住XX、特殊人群、緊急情況等信息,通過表單、照片、空間定位等多種手段進(jìn)行采集,并經(jīng)2.5/3G/4G無線網(wǎng)絡(luò)將所采集到的信息及時傳送到BIGDATA,達(dá)到網(wǎng)格動態(tài)信息的快速更新、多方共享的目的。其主要功能包括:樓棟信息采集、門牌信息采集、人員信息采集、事件上報、營業(yè)網(wǎng)點(diǎn)信息采集、重點(diǎn)場所信息采集、緊急事件處理、代辦需求處置、幫扶需求、城管事件上報及其他功能等。3)城運(yùn)行體征動態(tài)模型城運(yùn)行體征是一個城在完善基礎(chǔ)設(shè)施、保障能源及各種資源供給、特殊時期營造相應(yīng)氛圍、提供安全應(yīng)急保障等方面開展的工作。城運(yùn)行檢測以獲取城運(yùn)行全時段、全要素信息為基礎(chǔ),進(jìn)行常態(tài)城運(yùn)行態(tài)勢的實時監(jiān)控、綜合評估、發(fā)展預(yù)測、協(xié)調(diào)會商、輔助決策等,其目的是要增強(qiáng)城管理工作的整體性、協(xié)調(diào)性、規(guī)范性,營造良好的城環(huán)境,以提升城綜合運(yùn)營能力,提高城建設(shè)服務(wù)管理水。4)城DATA綜合分析模型構(gòu)建城運(yùn)行管理數(shù)學(xué)模型,實現(xiàn)對海量的交通DATA、地理位置檢測DATA、環(huán)境DATA、醫(yī)療DATA、DATA、教育DATA、DATA的實時、全面、系統(tǒng)的DATA采集,存儲、分析、挖掘。數(shù)智專業(yè)一體化城DATA分析系統(tǒng)主要完成分析或決策模型的創(chuàng)建、發(fā)布和管理等功能,其主要使用對象是各部門業(yè)務(wù)人員。DATA分析系統(tǒng)能夠支持指標(biāo)的DATA分析和處理,包括基礎(chǔ)信息的統(tǒng)計分析、城特征指數(shù)分析、宏觀經(jīng)濟(jì)分析等功能。5)電子模型電子是指綜合運(yùn)用互聯(lián)網(wǎng)、手機(jī)、固定XXX等多種方式,使公務(wù)人員之間、與公眾之間可以隨時隨地實現(xiàn)相互間的信息傳遞,從而實現(xiàn)組織結(jié)構(gòu)和工作流程的優(yōu)化重組,超越時間、空間和部門分割的制約,全方位地向社會提供優(yōu)質(zhì)、規(guī)范、透明的服務(wù)。通過電子網(wǎng)上便民服務(wù)工程融合、民、稅務(wù)、工商、人力資源和社會保障、住房和城鄉(xiāng)建設(shè)等機(jī)構(gòu),為某地居民打造一個統(tǒng)一服務(wù),方便百姓隨時隨地利用各種方式進(jìn)行業(yè)務(wù)查詢、辦理等。運(yùn)行支撐(1)引擎。服務(wù)引擎主要為頂層應(yīng)用系統(tǒng)的開發(fā)提供共性的服務(wù)組件,以減少應(yīng)用系統(tǒng)對于共性組件的重復(fù)采購,減少資源浪費(fèi),提高使用效率。服務(wù)引擎由手機(jī)短消息、即時通信、電子郵件、視頻通信、GIS空間分析、工作流、搜索、表單定制等服務(wù)組成。權(quán)限。權(quán)限管理是根據(jù)系統(tǒng)設(shè)置的安全規(guī)則或者安全策略,使用者可以訪問而且只能訪問自己被授權(quán)的資源。權(quán)限管理主要包括身份認(rèn)證服務(wù)、單點(diǎn)登錄服務(wù)和權(quán)限驗證服務(wù)等服務(wù)。(3)監(jiān)控。對于某地BIGDATA中心,由于支撐了很多服務(wù)和應(yīng)用,需要把分散在各個應(yīng)用系統(tǒng)中的監(jiān)控功能統(tǒng)一管理,形成一套對某地BIGDATA中心有效監(jiān)控的措施。統(tǒng)一監(jiān)控服務(wù)要包含遠(yuǎn)程監(jiān)控、本地監(jiān)控、DATA庫空間監(jiān)控、流程監(jiān)控、負(fù)載監(jiān)控、應(yīng)用監(jiān)控、報警通知和監(jiān)控展示等服務(wù)。(4)接口。某地BIGDATA應(yīng)充分調(diào)動、企業(yè)、居民等多方力量共同運(yùn)營、維護(hù)與建設(shè)。在體系中起主導(dǎo)和方向性引導(dǎo)作用,為BIGDATA提供權(quán)威DATA和管理方法;企業(yè)為提供創(chuàng)新的應(yīng)用方式;居民為提供動態(tài)的、鮮活的社會動態(tài)DATA。某地BIGDATA中心開放接口服務(wù),是一套專門為這三個方面使用者提供的應(yīng)用服務(wù),使其方便使用與二次開發(fā)。DATA首頁通過DATA首頁建設(shè),整合電子信息資源,建立以信息資源展示、二次開發(fā)服務(wù)為核心的服務(wù)系統(tǒng);基于海量DATA,匯集統(tǒng)計分析、工作動態(tài)等決策信息,為各級領(lǐng)導(dǎo)提供決策服務(wù);拓展公開信息統(tǒng)一管理、公共服務(wù)、在線互動交流等功能,體現(xiàn)服務(wù)型DATA中心新形象、逐步擴(kuò)展DATA首頁網(wǎng)站功能,建設(shè)綜合性信息網(wǎng)站首頁。DATA首頁主要包括資源展示、在線查詢和首頁管理等功能。(1)資源展示。信息資源展示服務(wù)主要負(fù)責(zé)對采集的體征DATA、事件DATA等按照一定的查詢要求統(tǒng)計的結(jié)果,在系統(tǒng)界面中以視頻播放、列表、直方圖、折線圖、餅圖、態(tài)勢圖、體征日報等方式展示出來。也可以將空間化專題信息通過GIS系統(tǒng)更加形象具體的展現(xiàn)出來。信息資源展示的內(nèi)容包括空間信息地圖展示、綜合態(tài)勢展示、事件展示、指標(biāo)信息展示以及統(tǒng)計結(jié)果展示。(2)在線查詢。隨著DATA的集中和整合系統(tǒng)可以提供如自然XX庫基礎(chǔ)信息查詢、組織單位庫基礎(chǔ)信息查詢和地理信息庫基礎(chǔ)信息查詢等專題查詢。同時,也可以提供只有DATA整合才可以做到的部門DATA關(guān)聯(lián)查詢和三庫關(guān)聯(lián)查詢服務(wù)。(3)首頁管理。首頁基本管理服務(wù)用于實現(xiàn)對BIGDATA中心服務(wù)接口對外發(fā)布的管理以及與各部門現(xiàn)有系統(tǒng)的對接;實現(xiàn)綜合信息登記、審核和發(fā)布,應(yīng)用系統(tǒng)集成單點(diǎn)登錄以及首頁網(wǎng)站內(nèi)容管理等功能。應(yīng)用服務(wù)層按企業(yè)、民生、三BIG業(yè)務(wù)領(lǐng)域規(guī)劃了三類重點(diǎn)專項即面向企業(yè)服務(wù)、面向民生服務(wù)、面向服務(wù)。其中,面向企業(yè)服務(wù)包括中小企業(yè)服務(wù)、產(chǎn)業(yè)經(jīng)濟(jì)運(yùn)行監(jiān)控、數(shù)智專業(yè)一體化招商、數(shù)智專業(yè)一體化物流;面向民生服務(wù)包括民一卡通、社區(qū)公共服務(wù)、數(shù)智專業(yè)一體化醫(yī)療;面向服務(wù)包括行審批、公開、領(lǐng)導(dǎo)決策支持系統(tǒng)、數(shù)字城管、數(shù)智專業(yè)一體化環(huán)保、數(shù)智專業(yè)一體化交通、綜合應(yīng)急指揮和視頻云支撐引擎。系統(tǒng)功能模塊簡介DATA基礎(chǔ)信息基礎(chǔ)信息主要用于規(guī)劃設(shè)計某地BIGDATADATA,包含傳統(tǒng)DATA庫DATA、視頻、圖片、聲音、日志文件、電子郵件、地圖、Word、PDF等各種文檔。這些DATA分為結(jié)構(gòu)化DATA、半結(jié)構(gòu)化DATA和非結(jié)構(gòu)化DATA。這些類型的DATA無法用傳統(tǒng)關(guān)系型DATA庫進(jìn)行DATA處理和分析,必須借助于BIGDATA基礎(chǔ)的HDFS、Hbase、MapReduce等技術(shù)手段進(jìn)行處理和分析,支持頂層應(yīng)用系統(tǒng)的DATA利用。BIGDATA信息基礎(chǔ)主要包括如下組件:BIGDATA運(yùn)行維護(hù)管理組件、分布式DATA庫、分布式DATA倉庫、分布式計算模塊、流DATA處理及消息框架、DATA采集管理組件、DATA運(yùn)行維護(hù)管理組件、基礎(chǔ)DATA庫。其中某地需要建設(shè)的六BIG庫為:XX信息庫、XX信息庫、基礎(chǔ)地理空間庫、宏觀經(jīng)濟(jì)庫、信用信息庫和城建筑信息庫六BIG基礎(chǔ)庫。BIGDATA運(yùn)行維護(hù)管理組件組件部署及動態(tài)擴(kuò)容,提供BIGDATA部署工具,組件部署管理及動態(tài)增加機(jī)器節(jié)點(diǎn)管理工具;組件服務(wù)監(jiān)控管理,提供組件的運(yùn)行狀態(tài)、組件的負(fù)載情況監(jiān)控及組件的啟動、停止、移除等管理;組件故障自動遷移,節(jié)點(diǎn)組件出現(xiàn)故障時,集群中的其它節(jié)點(diǎn)中的相應(yīng)組件自動接管故障組件的工作,保證組件正常服務(wù)。BIGDATA基礎(chǔ)組件BIGDATA基礎(chǔ)組件的具體功能模塊包括:分布式存儲模塊,實現(xiàn)分布式文件的存儲、存儲副本的管理;分布式計算模塊,提供分布式的DATA計算處理及DATA的分布式均衡訪問;流DATA及消息框架模塊,提供流DATA的處理框架,實現(xiàn)流DATA向BIGDATA匯聚功能;提供消息處理框
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度醫(yī)療器械生產(chǎn)許可資質(zhì)轉(zhuǎn)讓合同3篇
- 二零二五年度金融機(jī)構(gòu)公對公匯款業(yè)務(wù)合作協(xié)議3篇
- 2025年度房地產(chǎn)公司掛靠合作經(jīng)營管理協(xié)議3篇
- 2025年度環(huán)保技術(shù)兼職合同3篇
- 2025年度新型商業(yè)空間使用權(quán)轉(zhuǎn)讓合同3篇
- 二零二五年度競業(yè)協(xié)議期限及競業(yè)限制解除賠償2篇
- 二零二五年度國有企業(yè)勞動用工合同范本3篇
- 2025年度新材料研發(fā)與應(yīng)用合伙人股權(quán)合作協(xié)議書3篇
- 2025年度留學(xué)生實習(xí)實訓(xùn)項目資金資助協(xié)議3篇
- 二零二五年度大米產(chǎn)業(yè)鏈品牌建設(shè)與市場營銷服務(wù)合同3篇
- 2024-2030年中國釬焊板式換熱器行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- 駕駛證吊銷附議申請書
- 水務(wù)集團(tuán)定崗定員方案范文
- 2023-2024學(xué)年河北省高二上學(xué)期期末考試生物試題(解析版)
- 金剛砂固化地坪施工合同
- 車輛駕駛考試培訓(xùn)委托書
- 開票稅點(diǎn)自動計算器
- 2024親戚借名買房協(xié)議書
- 小學(xué)二年級上冊數(shù)學(xué)-數(shù)角的個數(shù)專項練習(xí)
- 醫(yī)療器械質(zhì)量安全風(fēng)險會商管理制度
- 《我愛上班》朗誦稿
評論
0/150
提交評論