2023年公數(shù)據(jù)治理運營支撐與數(shù)據(jù)應(yīng)用模型設(shè)計項目實施技術(shù)方案_第1頁
2023年公數(shù)據(jù)治理運營支撐與數(shù)據(jù)應(yīng)用模型設(shè)計項目實施技術(shù)方案_第2頁
2023年公數(shù)據(jù)治理運營支撐與數(shù)據(jù)應(yīng)用模型設(shè)計項目實施技術(shù)方案_第3頁
2023年公數(shù)據(jù)治理運營支撐與數(shù)據(jù)應(yīng)用模型設(shè)計項目實施技術(shù)方案_第4頁
2023年公數(shù)據(jù)治理運營支撐與數(shù)據(jù)應(yīng)用模型設(shè)計項目實施技術(shù)方案_第5頁
已閱讀5頁,還剩239頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

項目編號:公共數(shù)據(jù)治理運營支撐與數(shù)據(jù)應(yīng)用模型設(shè)計項目實施技術(shù)方案目錄1 項目總體概況 71.1 項目背景 71.2 建設(shè)內(nèi)容 71.3 建設(shè)目標(biāo) 82 項目技術(shù)方案 102.1 整體方案 102.2 模型設(shè)計思路及規(guī)范 122.2.1 數(shù)據(jù)模型分層設(shè)計 122.2.2 數(shù)據(jù)模型分域設(shè)計 152.2.3 物理模型設(shè)計 162.2.4 邏輯模型設(shè)計 182.3 人口庫法人庫數(shù)據(jù)采集 202.3.1 數(shù)據(jù)采集執(zhí)行過程 202.3.2 數(shù)據(jù)采集管理 282.3.3 數(shù)據(jù)源采集監(jiān)控 312.4 人口庫數(shù)據(jù)資源整合 342.4.1 數(shù)據(jù)整合 342.4.2 功能拓展 352.4.3 人口全息檔案 362.4.4 人口關(guān)系圖譜 662.4.5 人口全息視圖 702.4.6 人口信息統(tǒng)計 712.4.7 人口信息查詢 742.4.8 人口信息空間化 752.5 法人庫數(shù)據(jù)資源整合 772.5.1 數(shù)據(jù)整合 782.5.2 功能擴(kuò)展 802.5.3 法人多維畫像 812.5.4 法人統(tǒng)一視圖 952.5.5 法人信息統(tǒng)計 963 信息安全方案 993.1 安全原則 993.2 安全服務(wù) 1013.2.1 安全集成服務(wù) 1013.2.2 安全評估服務(wù) 1013.2.3 等保測評支持服務(wù) 1013.3 安全措施 1013.3.1 網(wǎng)絡(luò)通訊安全 1013.3.2 安全準(zhǔn)入 1023.3.3 建立用戶認(rèn)證 1023.3.4 項目信息數(shù)據(jù)安全 1033.3.5 數(shù)據(jù)交換安全 1033.3.6 操作系統(tǒng)安全措施 1043.3.7 系統(tǒng)邊界防護(hù) 1043.3.8 防病毒系統(tǒng)設(shè)計 1043.3.9 整體備份機(jī)制 1053.3.10 應(yīng)用和管理安全 1063.3.11 程序代碼安全 1064 項目組織方案 1074.1 項目組織 1074.1.1 項目人力資源管理機(jī)制 1074.1.2 項目人員組織結(jié)構(gòu) 1084.1.3 機(jī)構(gòu)中人員構(gòu)成與職責(zé) 1084.2 過程管理 1124.2.1 實施流程 1124.2.2 項目啟動階段 1134.2.3 需求分析階段 1144.2.4 需求規(guī)格階段 1144.2.5 設(shè)計階段 1154.2.6 開發(fā)階段 1154.2.7 測試階段 1164.2.8 試運行階段 1164.2.9 驗收階段 1174.2.10 項目維護(hù)階段 1174.3 項目質(zhì)量及保證措施 1184.3.1 質(zhì)量管理體系標(biāo)準(zhǔn) 1184.3.2 質(zhì)量控制過程 1184.3.3 質(zhì)量評定計劃 1184.3.4 質(zhì)量管理措施 1184.3.5 軟件質(zhì)量控制 1194.4 項目風(fēng)險管理 1214.4.1 風(fēng)險定義 1214.4.2 風(fēng)險管理 1234.5 項目文檔 1274.5.1 項目技術(shù)文檔 1274.5.2 項目管理文檔 1275 項目實施方案 1295.1 項目實施原則 1295.2 項目實施策略 1315.3 項目管理機(jī)制 1325.3.1 項目進(jìn)度控制 1325.3.2 項目人員控制 1335.3.3 項目質(zhì)量控制 1345.3.4 項目后勤保障 1345.3.5 項目培訓(xùn) 1345.4 系統(tǒng)安裝及調(diào)試 1375.5 系統(tǒng)測試 1385.5.1 測試原則 1385.5.2 測試目的和任務(wù) 1395.5.3 測試的階段 1395.5.4 測試內(nèi)容 1405.6 系統(tǒng)驗收及試運行 1666 項目驗收方案 1686.1 系統(tǒng)驗收流程 1686.2 驗收準(zhǔn)則 1686.3 提交技術(shù)文件 1706.4 驗收合格條件 1716.5 驗收方法 1717 項目運維服務(wù)方案 1737.1 運維服務(wù)承諾 1737.2 技術(shù)支持服務(wù)方案 1757.2.1 項目規(guī)劃階段 1767.2.2 項目實施階段 1777.2.3 項目驗收階段 1787.2.4 項目維護(hù)階段 1797.2.5 長期技術(shù)支持 1797.2.6 其他技術(shù)支持 1797.3 售后服務(wù)方案 1817.3.1 服務(wù)機(jī)構(gòu) 1817.3.2 維護(hù)人員配備 1847.3.3 維護(hù)工具配備 1867.3.4 服務(wù)管理體制 1867.3.5 售后服務(wù)方式 1897.3.6 服務(wù)響應(yīng)時間 1917.3.7 保修期內(nèi)服務(wù) 1917.3.8 保修期后服務(wù) 1927.3.9 應(yīng)急服務(wù)響應(yīng)措施 1938 類似項目的成功案例 1978.1 業(yè)務(wù)重點領(lǐng)域數(shù)據(jù)分析項目 1978.1.1 項目目標(biāo)與需求分析 1978.1.2 業(yè)務(wù)調(diào)研咨詢方案 1988.1.3 項目成果 2248.2 5G應(yīng)用市場發(fā)展數(shù)據(jù)分析項目 2248.2.1 項目背景與需求分析 2248.2.2 整體思路與框架 2258.2.3 業(yè)務(wù)研究與咨詢方案 2268.2.4 項目成果 241項目總體概況項目背景近年來,H市立足于建設(shè)卓越全球城市,率先實現(xiàn)政府治理能力現(xiàn)代化的目標(biāo),在公共數(shù)據(jù)管理和互聯(lián)網(wǎng)政務(wù)服務(wù)方面采取了一系列改革舉措,積累了一定的實踐經(jīng)驗,同時也面臨一些困難和問題。根據(jù)《公共數(shù)據(jù)和一網(wǎng)通辦管理辦法》要求,需要進(jìn)一步促進(jìn)公共數(shù)據(jù)資源整合和利用,推進(jìn)政務(wù)服務(wù)“一網(wǎng)通辦”等電子政務(wù)發(fā)展,加快智慧政府建設(shè),提升政府治理能力和公共服務(wù)水平。為深入貫徹黨的十九大關(guān)于建設(shè)人民滿意的服務(wù)型政府的要求,堅持以人民為中心的發(fā)展思想,適應(yīng)政府管理和服務(wù)現(xiàn)代化發(fā)展需要,深化改革,進(jìn)一步優(yōu)化營商環(huán)境,提升群眾和企業(yè)獲得感,H市通過大數(shù)據(jù)資源平臺的建設(shè),將“四大庫”、“市級統(tǒng)建系統(tǒng)”、“各市級委辦”、“各行政區(qū)”的數(shù)據(jù)匯聚成了市級數(shù)據(jù)湖,并以市級數(shù)據(jù)湖為基礎(chǔ),通過數(shù)據(jù)的集成與治理,構(gòu)建了市級數(shù)據(jù)庫,推動跨地區(qū)、跨層級、跨部門數(shù)據(jù)共享交換和應(yīng)用,為后續(xù)公共數(shù)據(jù)的進(jìn)一步整合、共享、開放提供了一定的工作基礎(chǔ)。 建立統(tǒng)一的公共數(shù)據(jù)平臺,全面實現(xiàn)H市政務(wù)“一網(wǎng)通辦”,是貫徹黨中央、國務(wù)院決策部署,深入推進(jìn)“放管服”改革,持續(xù)優(yōu)化營商環(huán)境,切實提升群眾和企業(yè)獲得感的重要舉措。市委市政府已經(jīng)明確,2018年建成H市政務(wù)“一網(wǎng)通辦”總門戶;到2020年,H市要形成整體協(xié)同、高效運行、精準(zhǔn)服務(wù)、科學(xué)管理的智慧政府基本框架。建設(shè)內(nèi)容基于大數(shù)據(jù)資源平臺,通過對“四大庫”、“市級統(tǒng)建系統(tǒng)”、“各市級委辦”、“各行政區(qū)”的數(shù)據(jù)等相關(guān)信息的采集、梳理、交換、整合、擴(kuò)展,構(gòu)建H市統(tǒng)一的基礎(chǔ)信息數(shù)據(jù)庫。建設(shè)完善市級數(shù)據(jù)庫:通過人口、法人、空間地理庫數(shù)據(jù)源整合開發(fā),并對接電子證照庫。實現(xiàn)對人口、法人、空間地理信息、證照等的接入、整合、開發(fā)、利用。結(jié)合H市實際,構(gòu)建公共主題庫及專題庫,為應(yīng)用提供安全高質(zhì)的專題數(shù)據(jù)服務(wù)。通過對工商、稅務(wù)、質(zhì)監(jiān)、民政等法人相關(guān)信息的采集、梳理、交換、整合、擴(kuò)展,構(gòu)建H市統(tǒng)一的法人基礎(chǔ)信息數(shù)據(jù)庫。建設(shè)目標(biāo)通過對公安、衛(wèi)計、社保、民政等人口相關(guān)信息的采集、梳理、整合、擴(kuò)展,構(gòu)建H市統(tǒng)一的人口基礎(chǔ)信息數(shù)據(jù)庫。人口庫以公安部門的戶籍和暫住人口基礎(chǔ)信息為基礎(chǔ)、以身份證或護(hù)照號碼以及居住性質(zhì)為唯一標(biāo)識,以其他部門人口信息為動態(tài)補充。通過本次H市大數(shù)據(jù)資源平臺公共數(shù)據(jù)運營支撐項目的建設(shè),完善市級數(shù)據(jù)庫的建設(shè),將“四大庫”、“市級統(tǒng)建系統(tǒng)”、“各市級委辦”、“各行政區(qū)”的數(shù)據(jù)匯聚成了市級數(shù)據(jù)湖,并以市級數(shù)據(jù)湖為基礎(chǔ),初步構(gòu)建基礎(chǔ)的H市大數(shù)據(jù)資源平臺,實現(xiàn)面向各需求單位部門進(jìn)行數(shù)據(jù)共享、分析和利用、以及面向社會進(jìn)行數(shù)據(jù)開放的目的,支撐智慧政府的改革。通過數(shù)據(jù)的集成與治理,構(gòu)建了市級數(shù)據(jù)庫,利用H市大數(shù)據(jù)資源平臺公共數(shù)據(jù)運營支撐項目的能力和服務(wù),開展數(shù)據(jù)的管理、處理、分析與可視化等工作,支撐各類業(yè)務(wù)應(yīng)用。在本次項目中完成以下四個部分:完善公共數(shù)據(jù)邏輯模型、物理模型的設(shè)計規(guī)范并確定公共數(shù)據(jù)庫存儲原則基層上,利用中心所建設(shè)的平臺工具對進(jìn)入市級數(shù)據(jù)湖的數(shù)據(jù)進(jìn)行清洗、分層與轉(zhuǎn)化,形成市級數(shù)據(jù)庫。完成對人口庫數(shù)據(jù)資源的接入、整合、開發(fā)、利用。完成對法人庫數(shù)據(jù)資源的接入、整合、開發(fā)、利用。本項目為構(gòu)建H市大數(shù)據(jù)資源平臺公共數(shù)據(jù)提供運營支撐,需要梳理并編制各部門政務(wù)信息資源目錄體系,實現(xiàn)數(shù)據(jù)管理、交換、共享等基礎(chǔ)功能。按照統(tǒng)一、集約、高效的數(shù)據(jù)開發(fā)利用理念,通過研究建立多級交換管理體系,形成政務(wù)信息資源物理分散、邏輯集中的信息共享模式,滿足政府部門多方位、多層次的數(shù)據(jù)需求,為跨地域、跨部門、跨平臺不同應(yīng)用系統(tǒng)、不同數(shù)據(jù)庫之間的數(shù)據(jù)交換與管理服務(wù)。制定相關(guān)標(biāo)準(zhǔn)規(guī)范及管理制度,通過相應(yīng)平臺工具匯聚區(qū)內(nèi)各單位公共數(shù)據(jù)及市級落地數(shù)據(jù)資源,形成區(qū)級數(shù)據(jù)池,同時經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換、融合、治理后高質(zhì)量的公共數(shù)據(jù)資源,形成公共數(shù)據(jù)資源中心。

項目技術(shù)方案整體技術(shù)方案為建設(shè)統(tǒng)一的數(shù)資源中心,加強數(shù)據(jù)資源整合:制定相關(guān)標(biāo)準(zhǔn)規(guī)范及管理制度,通過相應(yīng)平臺工具匯聚區(qū)內(nèi)各單位公共數(shù)據(jù)及市級落地數(shù)據(jù)資源,形成數(shù)據(jù)池,同時經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換、融合、治理后高質(zhì)量的公共數(shù)據(jù)資源,形成數(shù)據(jù)資源中心。本次項目完善公共數(shù)據(jù)邏輯模型、物理模型的設(shè)計規(guī)范并確定公共數(shù)據(jù)庫存儲原則基層上,利用中心所建設(shè)的平臺工具對進(jìn)入市級數(shù)據(jù)湖的數(shù)據(jù)進(jìn)行清洗、分層與轉(zhuǎn)化,形成市級數(shù)據(jù)庫。并完成對人口、法人、空間地理庫數(shù)據(jù)資源的整合開發(fā),實現(xiàn)對人口、法人、空間地理信息的接入、整合、開發(fā)、利用,結(jié)合H市實際,構(gòu)建公共主題庫,為應(yīng)用提供安全高質(zhì)的公共數(shù)據(jù)服務(wù)。本次公共數(shù)據(jù)存儲模型設(shè)計實施項目的框架如下圖所示:業(yè)務(wù)信息數(shù)據(jù)整合整合政務(wù)數(shù)據(jù)(國家、市級、區(qū))、公共事業(yè)數(shù)據(jù)、行業(yè)數(shù)據(jù)(金融、電信)、物聯(lián)網(wǎng)數(shù)據(jù)(氣象、攝像頭…),實現(xiàn)內(nèi)外部數(shù)據(jù)融合。采集人口數(shù)據(jù):通過公安口、民政口、人社口、衛(wèi)計口等來源數(shù)據(jù),采集人口出生、死亡、婚姻、社保、戶籍等信息。采集法人數(shù)據(jù):通過工商口、稅務(wù)口、質(zhì)檢口、民政口等來源數(shù)據(jù),采集法人登記、稅務(wù)、工商登記等信息。采集空間地理數(shù)據(jù):采集地圖、街道、區(qū)域、小區(qū)、樓宇、景點等地名、類型、經(jīng)緯度等信息。數(shù)據(jù)抽取/數(shù)據(jù)交換數(shù)據(jù)采集模塊采用集中化多租戶ETL平臺進(jìn)行數(shù)據(jù)采集、轉(zhuǎn)換、稽核工作,完成數(shù)據(jù)標(biāo)準(zhǔn)化、集中化,實現(xiàn)數(shù)據(jù)脈絡(luò)化、關(guān)系化,實現(xiàn)統(tǒng)一的數(shù)據(jù)處理加工,包括:離線采集、實時采集、準(zhǔn)實時采集、流媒體采集、數(shù)據(jù)導(dǎo)入上報?;A(chǔ)庫按照人、地、事、物、組織等對象方式對數(shù)據(jù)進(jìn)行建模,形成全區(qū)統(tǒng)一共用的基礎(chǔ)數(shù)據(jù)庫。典型的基礎(chǔ)數(shù)據(jù)庫包括人口庫、法人庫、空間地理信息庫。人口庫:構(gòu)建全市統(tǒng)一的、以公民身份號位為唯一標(biāo)識的、可共享的綜合人口信息資源庫?;诰C合人口庫,實現(xiàn)全市人口信息的匯聚治理、共享交換和應(yīng)用服務(wù),為開展跨部門、跨業(yè)務(wù)、跨區(qū)域的人口應(yīng)用服務(wù)和數(shù)據(jù)共享,以及人口大數(shù)據(jù)分析、輔助決策等,提供全方位的人口信息支撐。法人庫:促進(jìn)相關(guān)部門有關(guān)法人單位業(yè)務(wù)信息的關(guān)聯(lián)匯聚,豐富法人單位信息資源。支撐法人單位信息資源的分布查詢和深化應(yīng)用。通過公共數(shù)據(jù)開放網(wǎng)站,分級、分類安全有序開放綜合法人信息,促進(jìn)社會化創(chuàng)新應(yīng)用??臻g地理庫:基于規(guī)劃、國土資源等部門提供的GIS地圖服務(wù)基礎(chǔ)上,構(gòu)建自然資源和空間地理基礎(chǔ)信息,并將遙感影像、地址數(shù)據(jù)、政務(wù)信息圖層等,與人口信息、法人單位、宏觀經(jīng)濟(jì)、社會信用進(jìn)行整合,形成本市空間地理基礎(chǔ)信息資源庫,為全市政府部門和企事業(yè)單位提供統(tǒng)一的地理空間信息服務(wù)。模型設(shè)計思路及規(guī)范數(shù)據(jù)模型分層設(shè)計對數(shù)據(jù)模型進(jìn)行分層能對管理數(shù)據(jù)有一個更加清晰的掌控,主要有體現(xiàn)清晰數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)血緣追蹤、減少重復(fù)開發(fā)、復(fù)雜問題簡單化、屏蔽原始數(shù)據(jù)異常、屏蔽業(yè)務(wù)的影響。每個數(shù)據(jù)分層都有它的作用域,在使用表的時候能更方便地定位和理解。規(guī)范數(shù)據(jù)分層,開發(fā)一些通用的中間層數(shù)據(jù),能夠減少極大的重復(fù)計算。便于維護(hù)數(shù)據(jù)的準(zhǔn)確。本次建設(shè)公共數(shù)據(jù)模型從層次上分為ODS、DW與ST層,即:數(shù)據(jù)運營層、數(shù)據(jù)倉庫層和數(shù)據(jù)應(yīng)用層。ODS層數(shù)據(jù)為近源層數(shù)據(jù),數(shù)據(jù)源中的數(shù)據(jù),經(jīng)過ETL抽取、洗凈、傳輸之后,裝入本層。在源數(shù)據(jù)裝入這一層時,要進(jìn)行諸如去噪、去重、提臟、業(yè)務(wù)提取、單位統(tǒng)一、砍字段、業(yè)務(wù)判別等多項工作。DW層數(shù)據(jù)為數(shù)據(jù)倉庫層數(shù)據(jù),ODS層數(shù)據(jù)經(jīng)過整合,針對不同實體進(jìn)行匯總后的數(shù)據(jù)進(jìn)入該層。ST層為數(shù)據(jù)應(yīng)用層,數(shù)據(jù)更靈活,更貼近實際應(yīng)用,用于數(shù)據(jù)展現(xiàn)。1.數(shù)據(jù)來源層→ODS層數(shù)據(jù)主要會有兩個大的來源:業(yè)務(wù)庫,使用sqoop來抽取,每天定時抽取一次。在實時方面,考慮用canal監(jiān)聽mysql的binlog,實時接入。埋點日志,線上系統(tǒng)會打入各種日志,日志以文件的形式保存,選擇用flume定時抽取,或sparkstreaming、storm來實時接入,kafka也會是一個關(guān)鍵的角色。在ODS層中要進(jìn)行數(shù)據(jù)清洗,比如異常字段的處理、字段命名規(guī)范化、時間字段的統(tǒng)一等。2.ODS層→DW層通過對ODS層數(shù)據(jù)進(jìn)行整合,設(shè)計通用的數(shù)據(jù)倉庫層,減少數(shù)據(jù)模型冗余度。規(guī)范倉庫層模型,將有效提升數(shù)據(jù)模型重用度,好的DW層模型可以大大提升運營效率和數(shù)據(jù)一致性。3.DW→ST層ST層為數(shù)據(jù)應(yīng)用層,將DW層數(shù)據(jù)根據(jù)不同需求進(jìn)行多維度匯總、統(tǒng)計,對數(shù)據(jù)完成匯總、切片、鉆取統(tǒng)計,為不同場景設(shè)計數(shù)據(jù)應(yīng)用層模型。數(shù)據(jù)模型分域設(shè)計數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題組織的,主題是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行綜合、歸類和分析利用的一個抽象概念,每一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域。公共數(shù)據(jù)庫資源模型設(shè)計分域情況如下:主題域主題域縮寫相關(guān)內(nèi)容人口域PRTY個人基本信息法人域GRP法人基本信息事件域EVT出生、死亡、訴訟資源域RES空間資源、服務(wù)資源、公共資源、網(wǎng)絡(luò)資源賬務(wù)域ACC消費記錄、納稅記錄關(guān)系域REL就職記錄、婚姻關(guān)系根據(jù)對人口、法人、空間地理庫數(shù)據(jù)信息的特征,將對人口、法人、空間地理結(jié)合H市實際,構(gòu)建數(shù)據(jù)模型三大公共主題域,為應(yīng)用提供安全高質(zhì)的公共數(shù)據(jù)服務(wù)。人口主題域:收集城市各職能局的業(yè)務(wù)數(shù)據(jù),對數(shù)據(jù)進(jìn)行清洗、比對、關(guān)聯(lián),獲得人口空間數(shù)據(jù),建立人口庫數(shù)據(jù)資源。法人主題域:收集城市各職能局的業(yè)務(wù)數(shù)據(jù),對數(shù)據(jù)進(jìn)行清洗、比對、關(guān)聯(lián),獲得法人空間數(shù)據(jù),建立法人庫數(shù)據(jù)資源。資源主題域:通過收集城市各職能局的空間地理資源,結(jié)合業(yè)務(wù)數(shù)據(jù),對數(shù)據(jù)進(jìn)行清洗、比對、關(guān)聯(lián),獲得空間地理數(shù)據(jù),建立空間地理庫數(shù)據(jù)資源。主題域通常是聯(lián)系較為緊密的數(shù)據(jù)主題的集合??梢愿鶕?jù)業(yè)務(wù)的關(guān)注點,將這些數(shù)據(jù)主題劃分到不同的主題域(也說是對某個主題進(jìn)行分析后確定的主題的邊界。)模型設(shè)計示例如下:物理模型設(shè)計依據(jù)數(shù)據(jù)倉庫建模理論,結(jié)合實際經(jīng)驗,物理模型設(shè)計時需確定數(shù)據(jù)模型在分布式系統(tǒng)中的存儲形態(tài),綜合考慮Hadoop、MPP、一體機(jī)數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫四種形態(tài)各自特點,結(jié)合數(shù)據(jù)按照粒度不同、周期不同、主題不同形成的數(shù)據(jù)熱度,制定數(shù)據(jù)的存儲分布。分表規(guī)則根據(jù)情況,將公共數(shù)據(jù)模型按照如下規(guī)則進(jìn)行設(shè)計:表命名類型名稱說明YYYYMMDD日表存放當(dāng)天數(shù)據(jù)YYYYMM月表存放月末數(shù)據(jù),或當(dāng)月累計數(shù)據(jù)DM多周期日表存放多個周期的日數(shù)據(jù)DM_YYYYMM多周期日表累計的月表存放多個周期的日數(shù)據(jù),每月分表DM_YYYY多周期日表累計的年表存放多個周期的日數(shù)據(jù),每年分表MM多周期月表存放多個周期的月數(shù)據(jù)DS當(dāng)周期表當(dāng)周期最新的數(shù)據(jù)DT_YYYYMMDD累計日表當(dāng)月累計數(shù)據(jù)表命名規(guī)則基于分主題分層的原則命名:層_主題域_表名_表類型_分表規(guī)則例如:人口表DWD_PRTY_INDIV_YYYYMMDD法人表DWD_PRTY_GRP_YYYYMMDD 字段命名原則為了保證數(shù)據(jù)定義和數(shù)據(jù)自身質(zhì)量,以提高處理效率,字段設(shè)計建議遵循以下原則:相同字段設(shè)計命名一致性,對于多個表均有的字段,設(shè)計為統(tǒng)一的名稱對于表間關(guān)聯(lián)常用的字段,各表應(yīng)該設(shè)計成同樣的字段類型。避免對Hash鍵值字段進(jìn)行數(shù)據(jù)的處理。字段名稱字段命名字段類型枚舉值個人姓名INDIV_NAMEVARCHAR(32)個人證件號碼INDIV_CERT_CODEVARCHAR(32)個人證件類型INDIV_CERT_TYPEINT0身份證;1工商登記證;10港澳居民來往內(nèi)地通行證;11臺胞;12外籍人士;13個體工商戶營業(yè)執(zhí)照;14聚類;15特殊客戶;3軍人證;5企業(yè)代碼證;9單位證明;99其它證件個人證件地址INDIV_CERT_ADDRESSVARCHAR(256)數(shù)據(jù)處理原則對于數(shù)據(jù)加工處理,應(yīng)該盡量在小表內(nèi)進(jìn)行,對于局部的數(shù)據(jù)加工處理為了不影響基礎(chǔ)大表,應(yīng)建立臨時表作為工作空間。對于年匯總、月匯總等粗粒度類數(shù)據(jù)匯總處理,應(yīng)該在基于事先建立的日匯總等低粒度結(jié)果(包括用戶、產(chǎn)品等維度上匯總)基礎(chǔ)上進(jìn)行,這種處理可減少上級統(tǒng)計對明細(xì)層數(shù)據(jù)的重復(fù)性讀取。邏輯模型設(shè)計邏輯模型設(shè)計是對概念模型設(shè)計的進(jìn)一步細(xì)化,根據(jù)數(shù)據(jù)的產(chǎn)生頻率及訪問頻率等因素綜合考慮,確定數(shù)據(jù)熱度和數(shù)據(jù)關(guān)系等規(guī)則。作為概念模型到物理模型轉(zhuǎn)換的中間過程,邏輯模型設(shè)計時兼顧業(yè)務(wù)理解和系統(tǒng)實現(xiàn)。數(shù)據(jù)有效性策略模型中設(shè)計的字段屬性都應(yīng)是具有分析價值的,對于無效性字段屬性,應(yīng)予以裁剪:剔除:對源系統(tǒng)提供的僅用作生產(chǎn)使用,無分析價值的字段屬性進(jìn)行剔除;對源系統(tǒng)中的無效字段(如全為空值、全為Z等)進(jìn)行剔除。合并:對內(nèi)容重復(fù),同名異義、同義異名、同名同義不同值、反復(fù)存儲的字段信息進(jìn)行歸并。數(shù)據(jù)關(guān)系定義概念模型設(shè)計的字段屬性,與源系統(tǒng)相應(yīng)實體的字段屬性存在一定的映射關(guān)系,在邏輯模型設(shè)計時,應(yīng)建立與源系統(tǒng)字段定義間的映射關(guān)系定義。通常的映射關(guān)系有:源系統(tǒng)單張表,在概念模型設(shè)計時也為單個模型的,應(yīng)針對概念模型中每個字段,建立其對應(yīng)的源系統(tǒng)字段屬性映射;源系統(tǒng)多表,在概念模型設(shè)計時合并為單個模型,需要針對每個數(shù)據(jù)源表與當(dāng)前模型分別映射,且每個模型的每個字段屬性都應(yīng)有相應(yīng)的映射關(guān)系;源系統(tǒng)單張表,在概念模型設(shè)計時拆分為多個模型,需將每個模型與源系統(tǒng)的標(biāo)進(jìn)行分別映射,且每個模型的每個字段屬性都應(yīng)有相應(yīng)的映射關(guān)系。維值定義規(guī)則統(tǒng)一采用維表方式定義靜態(tài)的維值,例如證件類型,用戶狀態(tài)等字段。維值維值名稱枚舉值枚舉值中文生效時間失效時間CERT_TYPE證件類型0身份證1900/1/12099/1/1CERT_TYPE證件類型1工商登記證1900/1/12099/1/1CERT_TYPE證件類型10港澳居民來往內(nèi)地通行證1900/1/12099/1/1CERT_TYPE證件類型11臺胞1900/1/12099/1/1CERT_TYPE證件類型12外籍人士1900/1/12099/1/1CERT_TYPE證件類型13個體工商戶營業(yè)執(zhí)照1900/1/12099/1/1CERT_TYPE證件類型14聚類1900/1/12099/1/1CERT_TYPE證件類型15特殊客戶1900/1/12099/1/1CERT_TYPE證件類型3軍人證1900/1/12099/1/1CERT_TYPE證件類型5企業(yè)代碼證1900/1/12099/1/1CERT_TYPE證件類型9單位證明1900/1/12099/1/1CERT_TYPE證件類型99其它證件1900/1/12099/1/1人口庫法人庫數(shù)據(jù)采集數(shù)據(jù)采集執(zhí)行過程本項目需采集的數(shù)據(jù)分為兩部分,數(shù)據(jù)湖中的人口數(shù)據(jù)和法人數(shù)據(jù)。數(shù)據(jù)采集方式有兩種:通過數(shù)據(jù)數(shù)據(jù)湖中的數(shù)據(jù)需要經(jīng)過一系列治理后,形成高質(zhì)量的數(shù)據(jù)入庫。通過各部門政務(wù)應(yīng)用系統(tǒng)與數(shù)據(jù)資源池的直接雙向交互,無需通過數(shù)據(jù)湖進(jìn)行中轉(zhuǎn),通過平臺的調(diào)度引擎可進(jìn)行交換鏈路的靈活設(shè)置。抽取流程如下圖:為適應(yīng)大數(shù)據(jù)中心多類型數(shù)據(jù)源采集的需要,事件數(shù)據(jù)需支持多種類型的數(shù)據(jù)采集方式,數(shù)據(jù)采集可采用多種豐富的數(shù)據(jù)源接口,包括:常用標(biāo)準(zhǔn)協(xié)議接口如Socket等FTP文件接口JDBC/ODBC接口消息隊列(KAFKA)接口Hadoop生態(tài)圈的開源技術(shù)Flume數(shù)據(jù)抽取方式數(shù)據(jù)抽取主要采用自動采集的方式,支持全量抽取和增量抽取。全量抽?。簲?shù)據(jù)湖或源系統(tǒng)的某個數(shù)據(jù)表或文件,全量進(jìn)行抽取。條件抽取:數(shù)據(jù)湖或源系統(tǒng)的某個數(shù)據(jù)表或文件,可根據(jù)預(yù)設(shè)條件進(jìn)行數(shù)據(jù)抽取增量抽?。罕O(jiān)測數(shù)據(jù)湖或源系統(tǒng)的某個數(shù)據(jù)表或文件,僅針對增量部分進(jìn)行抽取。源數(shù)據(jù)庫支持如下三種方式,根據(jù)需要進(jìn)行抽?。何募?shù)據(jù)庫流數(shù)據(jù) 市級數(shù)據(jù)湖歸集的數(shù)據(jù)處理辦法:批數(shù)據(jù)處理:各類批數(shù)據(jù)通過數(shù)據(jù)采集功能進(jìn)入數(shù)據(jù)支撐平臺,經(jīng)過存儲、清洗、匯總和關(guān)聯(lián)匯總等,產(chǎn)生應(yīng)用數(shù)據(jù),并實現(xiàn)數(shù)據(jù)共享或開放。流數(shù)據(jù)處理:流數(shù)據(jù)通過數(shù)據(jù)采集功能進(jìn)入數(shù)據(jù)支撐平臺后,根據(jù)不同需求,可實現(xiàn)實時數(shù)據(jù)計算后的開放,也可實現(xiàn)通過實時數(shù)據(jù)分析后匯總產(chǎn)生應(yīng)用數(shù)據(jù),進(jìn)而實現(xiàn)數(shù)據(jù)共享或開放。自動入庫從數(shù)據(jù)湖和特殊應(yīng)用的數(shù)據(jù)庫自動采集法人數(shù)據(jù),使用中間數(shù)據(jù)庫的方式接收源端(數(shù)據(jù)湖等)按照要求提供的數(shù)據(jù),當(dāng)系統(tǒng)時鐘到預(yù)設(shè)的自動讀取中間數(shù)據(jù)庫時間時,計算機(jī)自動讀取中間數(shù)據(jù)庫中的數(shù)據(jù),也可以手工啟動讀取數(shù)據(jù)。調(diào)度可設(shè)置前置條件及時間調(diào)度方式,自動入庫時間調(diào)度方式:每月每日每小時如遇到采集失敗或前置時間不滿足,則設(shè)置不同優(yōu)先級的輪詢方式:高優(yōu)先級:10分鐘輪詢一次,最長36小時中優(yōu)先級:30分鐘輪詢一次,最長24小時低優(yōu)先級:60分鐘輪詢一次,最長24小時全量抽取對采集的數(shù)據(jù)進(jìn)行全量抽取,不設(shè)置抽取條件,全量抽取源表數(shù)據(jù)。能夠在系統(tǒng)初始化時,將數(shù)據(jù)湖和其他應(yīng)用中已有的信息數(shù)據(jù)全部抽取到本系統(tǒng),建立匯聚庫的初始化原始數(shù)據(jù)。條件抽取對采集的數(shù)據(jù)進(jìn)行條件抽取,配置抽取條件,抽取源表數(shù)據(jù)中符合條件的數(shù)據(jù)。配置后,可按照小時、日、月自動抽取入庫。條件設(shè)置可以設(shè)置原子條件,比如,抽取創(chuàng)建時間為當(dāng)日的數(shù)據(jù)。條件組合可以將原子條件進(jìn)行邏輯組合,例如:同時符合條件A、條件B的數(shù)據(jù)。增量檢查增量抽取可以有效減少數(shù)據(jù)抽取的數(shù)量,減少對源數(shù)據(jù)庫的壓力,避免影響現(xiàn)有業(yè)務(wù),提高數(shù)據(jù)抽取效率。以下方法可以實現(xiàn)準(zhǔn)確快速的捕獲變化的數(shù)據(jù),進(jìn)行增量抽取。增量數(shù)據(jù)抽取中有多種方式支持增量檢查的方法有以下幾種:1、觸發(fā)器方式觸發(fā)器方式是普遍采取的一種增量抽取機(jī)制。該方式是根據(jù)抽取要求,在要被抽取的源表上建立插入、修改、刪除3個觸發(fā)器,每當(dāng)源表中的數(shù)據(jù)發(fā)生變化,就被相應(yīng)的觸發(fā)器將變化的數(shù)據(jù)寫入一個增量日志表,ETL的增量抽取則是從增量日志表中而不是直接在源表中抽取數(shù)據(jù),同時增量日志表中抽取過的數(shù)據(jù)要及時被標(biāo)記或刪除。為了簡單起見,增量日志表一般不存儲增量數(shù)據(jù)的所有字段信息,而只是存儲源表名稱、更新的關(guān)鍵字值和更新操作類型(insert、update或delete),ETL增量抽取進(jìn)程首先根據(jù)源表名稱和更新的關(guān)鍵字值,從源表中提取對應(yīng)的完整記錄,再根據(jù)更新操作類型,對目標(biāo)表進(jìn)行相應(yīng)的處理。對從數(shù)據(jù)湖和其他應(yīng)用中抽取的信息數(shù)據(jù)進(jìn)行增量檢查或時間戳比對,并對增量數(shù)據(jù)進(jìn)行標(biāo)記,以方便增量抽取。2、時間戳方式時間戳方式是指增量抽取時,抽取進(jìn)程通過比較系統(tǒng)時間與抽取源表的時間戳字段的值來決定抽取哪些數(shù)據(jù)。這種方式需要在源表上增加一個時間戳字段,系統(tǒng)中更新修改表數(shù)據(jù)的時候,同時修改時間戳字段的值。有的數(shù)據(jù)庫(例如SqlServer)的時間戳支持自動更新,即表的其它字段的數(shù)據(jù)發(fā)生改變時,時間戳字段的值會被自動更新為記錄改變的時刻。在這種情況下,進(jìn)行ETL實施時就只需要在源表加上時間戳字段就可以了。對于不支持時間戳自動更新的數(shù)據(jù)庫,這就要求業(yè)務(wù)系統(tǒng)在更新業(yè)務(wù)數(shù)據(jù)時,通過編程的方式手工更新時間戳字段。使用時間戳方式可以正常捕獲源表的插入和更新操作,但對于刪除操作則無能為力,需要結(jié)合其它機(jī)制才能完成。3、全表比對方式全表比對即在增量抽取時,ETL進(jìn)程逐條比較源表和目標(biāo)表的記錄,將新增和修改的記錄讀取出來。優(yōu)化之后的全部比對方式是采用MD5校驗碼,需要事先為要抽取的表建立一個結(jié)構(gòu)類似的MD5臨時表,該臨時表記錄源表的主鍵值以及根據(jù)源表所有字段的數(shù)據(jù)計算出來的MD5校驗碼,每次進(jìn)行數(shù)據(jù)抽取時,對源表和MD5臨時表進(jìn)行MD5校驗碼的比對,如有不同,進(jìn)行update操作:如目標(biāo)表沒有存在該主鍵值,表示該記錄還沒有,則進(jìn)行insert操作。然后,還需要對在源表中已不存在而目標(biāo)表仍保留的主鍵值,執(zhí)行delete操作。4、日志表方式對于建立了業(yè)務(wù)系統(tǒng)的生產(chǎn)數(shù)據(jù)庫,可以在數(shù)據(jù)庫中創(chuàng)建業(yè)務(wù)日志表,當(dāng)特定需要監(jiān)控的業(yè)務(wù)數(shù)據(jù)發(fā)生變化時,由相應(yīng)的業(yè)務(wù)系統(tǒng)程序模塊來更新維護(hù)日志表內(nèi)容。增量抽取時,通過讀日志表數(shù)據(jù)決定加載哪些數(shù)據(jù)及如何加載。日志表的維護(hù)需要由業(yè)務(wù)系統(tǒng)程序用代碼來完成。5、系統(tǒng)日志分析方式該方式通過分析數(shù)據(jù)庫自身的日志來判斷變化的數(shù)據(jù)。關(guān)系犁數(shù)據(jù)庫系統(tǒng)都會將所有的DML操作存儲在日志文件中,以實現(xiàn)數(shù)據(jù)庫的備份和還原功能。ETL增量抽取進(jìn)程通過對數(shù)據(jù)庫的日志進(jìn)行分析,提取對相關(guān)源表在特定時間后發(fā)生的DML操作信息,就可以得知自上次抽取時刻以來該表的數(shù)據(jù)變化情況,從而指導(dǎo)增量抽取動作。有些數(shù)據(jù)庫系統(tǒng)提供了訪問日志的專用的程序包(例如Oracle的LogMiner),使數(shù)據(jù)庫日志的分析工作得到大大簡化。增量抽取能夠在監(jiān)控到數(shù)據(jù)湖和其他應(yīng)用的數(shù)據(jù)庫的數(shù)據(jù)更新后,從庫中抽取更新的基礎(chǔ)數(shù)據(jù)。捕獲變化數(shù)據(jù),僅對自上次導(dǎo)出之后變化數(shù)據(jù)(增、刪、改)進(jìn)行抽取,并對更新的數(shù)據(jù)進(jìn)行增量檢查和增量抽取。增量抽取后,進(jìn)行基礎(chǔ)表更新。對捕獲增量的方法有兩點要求1、準(zhǔn)確2、不要對業(yè)務(wù)系統(tǒng)造成太大壓力數(shù)據(jù)校驗支持系統(tǒng)自動校驗和人工校驗方式。自動校驗:針對每個抽取配置可以設(shè)置自動校驗規(guī)則。系統(tǒng)自動對采集的數(shù)據(jù)進(jìn)行數(shù)據(jù)項完整性、數(shù)據(jù)值合理性、合法性、有效性、規(guī)范性、一致性、正確性等一系列檢查和處理。對采集的數(shù)據(jù)一般采用系統(tǒng)自動校驗方式進(jìn)行校驗。自動校驗規(guī)則可配置:條數(shù)閾值檢查空值數(shù)量閾值檢查日期等其他自定義規(guī)則檢查人工校驗:采用人工的方式對采集的數(shù)據(jù)進(jìn)行格式、編碼、內(nèi)容方面的校驗等的檢查和處理。一般是對重要的數(shù)據(jù)或自動校驗出現(xiàn)異常的情況采用人工校驗。入庫處理能對完成抽取和校驗的數(shù)據(jù)進(jìn)行解析和處理,對多余的重復(fù)的信息進(jìn)行清洗,并自動存入綜合信息資源原始庫中,為信息資源整合提供較好的數(shù)據(jù)基礎(chǔ)。多進(jìn)程抽?。横槍υ磾?shù)據(jù)較大的,設(shè)置分區(qū),進(jìn)行多進(jìn)程同時抽取,可提高抽取效率。分區(qū)處理:針對大表進(jìn)行合理分區(qū),入庫后進(jìn)行分區(qū)、合并、建立視圖等方式,提高源表的使用效率。數(shù)據(jù)轉(zhuǎn)換:對日期、時間、證件號碼等字段進(jìn)行轉(zhuǎn)換,使其符合統(tǒng)一的標(biāo)準(zhǔn)。將數(shù)據(jù)轉(zhuǎn)換為指定格式并進(jìn)行數(shù)據(jù)清洗保證數(shù)據(jù)質(zhì)量。數(shù)據(jù)轉(zhuǎn)換包括編碼轉(zhuǎn)換(m/f->男/女),字段轉(zhuǎn)換(balance->bal),度量單位的轉(zhuǎn)換(cm->m),數(shù)據(jù)粒度的轉(zhuǎn)換。業(yè)務(wù)系統(tǒng)數(shù)據(jù)存儲非常明細(xì)的數(shù)據(jù),而數(shù)據(jù)倉庫中數(shù)據(jù)是用分析的,不需要非常明細(xì),會將業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉庫粒度進(jìn)行聚合。數(shù)據(jù)清洗,如會對不完整數(shù)據(jù),錯誤數(shù)據(jù)和重復(fù)數(shù)據(jù)等臟數(shù)據(jù)進(jìn)行清洗編碼轉(zhuǎn)換:針對不同源碼的數(shù)據(jù),入庫時統(tǒng)一進(jìn)行轉(zhuǎn)換。數(shù)據(jù)采集管理數(shù)據(jù)采集管理提供對匯聚庫中元數(shù)據(jù)、采集規(guī)則、問題數(shù)據(jù)、采集日志的管理能力,以及采集情況、數(shù)據(jù)追溯、運行狀態(tài)的查詢和統(tǒng)計能力。通過采集管理保證數(shù)據(jù)采集過程的安全性和可靠性。采集信息統(tǒng)計能夠?qū)Σ杉瘮?shù)據(jù)量、采集吞吐量、入庫數(shù)據(jù)量、入庫吞吐量、采集數(shù)據(jù)合格率等狀況進(jìn)行統(tǒng)計,統(tǒng)計信息可進(jìn)行圖形化展示,支持統(tǒng)計報表的下載。進(jìn)行信息統(tǒng)計的采集日志包括3類:執(zhí)行過程日志:在采集執(zhí)行過程中每執(zhí)行一步的記錄,記錄每次運行每一步驟的起始時間,影響了多少行數(shù)據(jù),流水賬形式進(jìn)行記錄。錯誤日志:當(dāng)某個模塊出錯的時候?qū)戝e誤日志,記錄每次出錯的時間、出錯的模塊以及出錯的信息等??傮w日志:只記錄采集開始時間、結(jié)束時間是否成功信息。記錄日志的目的是隨時可以知道采集運行情況,如果出錯了,可以知道哪里出錯。針對這3類日志按小時、日、月維度進(jìn)行信息匯總記錄。采集信息查詢提供對采集信息的查詢,可查詢所有采集的個人基礎(chǔ)信息和市級部門相關(guān)數(shù)據(jù)。針對執(zhí)行過程日志、錯誤日志、總體日志提供查詢功能,可以針對某個采集表或某個執(zhí)行日期進(jìn)行采集日志查詢。采集規(guī)則設(shè)置針對一個采集規(guī)則,可進(jìn)行如下的設(shè)置:源端設(shè)置可以配置采集源,例如源端IP、端口、用戶名、密碼、tns連接串等信息,可配置的源端類型有:常用標(biāo)準(zhǔn)協(xié)議接口如Socket等FTP文件接口JDBC/ODBC接口消息隊列(KAFKA)接口Hadoop生態(tài)圈的開源技術(shù)Flume采集表/文件設(shè)置配置具體采集的表或文件,配置目錄、schema等信息。針對源表的情況,可設(shè)置多分表抽取、日期表抽取、月份表抽取等采集規(guī)則設(shè)置采集周期設(shè)置:小時抽取、日抽取、月抽取、觸發(fā)抽取采集規(guī)則設(shè)置:全量抽取、條件抽取、增量抽取、增量規(guī)則采集時間配置:配置自動抽取的開始時間。校驗規(guī)則設(shè)置自動校驗規(guī)則可配置如下,如不符合規(guī)則,則暫停抽取并告警:條數(shù)閾值檢查空值數(shù)量閾值檢查日期等其他自定義規(guī)則檢查目標(biāo)表設(shè)置支持配置目標(biāo)表、目標(biāo)路徑。支持多表抽取匯總,或多表抽取建立視圖。采集優(yōu)先級設(shè)置高優(yōu)先級:10分鐘輪詢一次,最長36小時中優(yōu)先級:30分鐘輪詢一次,最長24小時低優(yōu)先級:60分鐘輪詢一次,最長24小時采集問題處理針對采集錯誤日志,支持通過頁面、短信、郵件方式推送錯誤日志并附上出錯的信息,推送維護(hù)值班人員或接口負(fù)責(zé)人員,錯誤日志包括:源端無法連接源端無數(shù)據(jù)源端數(shù)據(jù)記錄不符合檢測規(guī)則源端數(shù)據(jù)列不符合檢測規(guī)則入庫失敗入庫記錄與源端不一致采集任務(wù)管理采集規(guī)則發(fā)布:采集規(guī)則配置后,支持采集規(guī)則上線發(fā)布、下線、暫停等操作。采集任務(wù)自動調(diào)度:針對已發(fā)布的采集任務(wù),可按照采集計劃自動執(zhí)行,提供給用戶設(shè)置數(shù)據(jù)庫對接方式下后臺自動采集數(shù)據(jù)的預(yù)定時間點的功能,保證采集過程的順暢性。采集任務(wù)臨時調(diào)度:針對已配置的采集規(guī)則,可指定執(zhí)行周期,進(jìn)行手工一次性調(diào)度調(diào)度。采集任務(wù)查詢:可根據(jù)采集任務(wù)名稱、調(diào)度周期進(jìn)行查詢。數(shù)據(jù)源采集監(jiān)控數(shù)據(jù)源數(shù)據(jù)監(jiān)控支持對源數(shù)據(jù)進(jìn)行不間斷的監(jiān)控,在源數(shù)據(jù)發(fā)生更新時,及時給出提醒,可觸發(fā)采集入庫功能。對數(shù)據(jù)源數(shù)據(jù)的監(jiān)控主要包括以下幾點:1、數(shù)據(jù)源數(shù)據(jù)新增的監(jiān)控;2、數(shù)據(jù)源數(shù)據(jù)變更的監(jiān)控;3、數(shù)據(jù)源數(shù)據(jù)刪除的監(jiān)控;4、數(shù)據(jù)源表結(jié)構(gòu)變更監(jiān)控;5、數(shù)據(jù)源空表監(jiān)控數(shù)據(jù)源狀態(tài)監(jiān)控與數(shù)據(jù)源建立監(jiān)控心跳監(jiān)控,采用探測型抽取的方式,每1分鐘抽取1條數(shù)據(jù)入庫,如發(fā)現(xiàn)入庫錯誤,及時監(jiān)測告警,通過頁面、郵件、短信方式通知采集管理人員。能夠?qū)?shù)據(jù)源的運行狀態(tài)、采集子系統(tǒng)與數(shù)據(jù)源信息交換通道進(jìn)行監(jiān)控,在狀態(tài)異常時,及時向管理員發(fā)出預(yù)警。數(shù)據(jù)源變更標(biāo)記采用時間戳方式對監(jiān)控到的發(fā)生變化的數(shù)據(jù)源數(shù)據(jù)或元數(shù)據(jù)進(jìn)行自動標(biāo)記,方便采集入庫的識別時間戳方式是指增量抽取時,抽取進(jìn)程通過比較系統(tǒng)時間與抽取源表的時間戳字段的值來決定抽取哪些數(shù)據(jù)。這種方式需要在源表上增加一個時間戳字段,系統(tǒng)中更新修改表數(shù)據(jù)的時候,同時修改時間戳字段的值。時間戳方式是指增量抽取時,抽取進(jìn)程通過比較系統(tǒng)時間與抽取源表的時間戳字段的值來決定抽取哪些數(shù)據(jù)。這種方式需要在源表上增加一個時間戳字段,系統(tǒng)中更新修改表數(shù)據(jù)的時候,同時修改時間戳字段的值。有的數(shù)據(jù)庫(例如SqlServer)的時間戳支持自動更新,即表的其它字段的數(shù)據(jù)發(fā)生改變時,時間戳字段的值會被自動更新為記錄改變的時刻。在這種情況下,進(jìn)行ETL實施時就只需要在源表加上時間戳字段就可以了。對于不支持時間戳自動更新的數(shù)據(jù)庫,這就要求業(yè)務(wù)系統(tǒng)在更新業(yè)務(wù)數(shù)據(jù)時,通過編程的方式手工更新時間戳字段。使用時間戳方式可以正常捕獲源表的插入和更新操作,但對于刪除操作則無能為力,需要結(jié)合其它機(jī)制才能完成。數(shù)據(jù)源監(jiān)控日志能對數(shù)據(jù)源監(jiān)控過程中的狀態(tài)輸出記錄日志,日志可查詢、可下載。包括:數(shù)據(jù)源心跳監(jiān)控日志;數(shù)據(jù)源數(shù)據(jù)新增的監(jiān)控日志;數(shù)據(jù)源數(shù)據(jù)變更的監(jiān)控日志;數(shù)據(jù)源數(shù)據(jù)刪除的監(jiān)控日志;數(shù)據(jù)源表結(jié)構(gòu)變更監(jiān)控日志;數(shù)據(jù)源空表監(jiān)控數(shù)據(jù)源監(jiān)控通過監(jiān)控門戶,支持用戶進(jìn)行數(shù)據(jù)監(jiān)控的查詢,下載功能。數(shù)據(jù)采集監(jiān)控針對采集任務(wù)進(jìn)行監(jiān)控,分小時、日、月成功數(shù)、失敗數(shù)、排隊數(shù)進(jìn)行匯總,并與上周期進(jìn)行比對,如波動超過閥值,通過不同的顯示顏色、字體進(jìn)行提示。同時通過頁面、短信、郵件進(jìn)行告警,方便維護(hù)人員進(jìn)行維護(hù)。數(shù)據(jù)入庫監(jiān)控根據(jù)配置的自動校驗規(guī)則進(jìn)行數(shù)據(jù)入庫監(jiān)控,可配置的監(jiān)控如下:條數(shù)閾值檢查空值數(shù)量閾值檢查日期等其他自定義規(guī)則檢查人口庫數(shù)據(jù)資源整合數(shù)據(jù)整合通過對人口庫數(shù)據(jù)源的全面梳理,利用大數(shù)據(jù)資源平臺已歸集的人口相關(guān)數(shù)據(jù),構(gòu)建全市統(tǒng)一的、以公民身份號位為唯一標(biāo)識的、可共享的綜合人口信息資源庫?;诰C合人口庫,實現(xiàn)全市人口信息的匯聚治理、共享交換和應(yīng)用服務(wù),為開展跨部門、跨業(yè)務(wù)、跨區(qū)域的人口應(yīng)用服務(wù)和數(shù)據(jù)共享,以及人口大數(shù)據(jù)分析、輔助決策等,提供全方位的人口信息支撐。人口庫管理應(yīng)用提供對匯聚形成的人口數(shù)據(jù)的概況展示、人口個案查詢及多條件查詢、人口統(tǒng)計、人口畫像等應(yīng)用功能,并提供針對人口數(shù)據(jù)處理規(guī)則、數(shù)據(jù)模型、字段來源、生命周期配置等管理維護(hù)功能。人口查詢支持人口個案查詢及多條件查詢,可根據(jù)用戶權(quán)限,通過設(shè)定條件,對人口基礎(chǔ)信息進(jìn)行篩選,提供相關(guān)人員的基礎(chǔ)信息和擴(kuò)展信息,查詢方式有簡單查詢、組合查詢和關(guān)聯(lián)查詢。查詢時候在查詢頁面顯示當(dāng)前登錄用戶的水印。人口統(tǒng)計支持勞動力結(jié)構(gòu)統(tǒng)計、少數(shù)民族統(tǒng)計、教育結(jié)構(gòu)統(tǒng)計等信息統(tǒng)計,向用戶以多維度展示各種信息資源,能讓用戶直觀感受數(shù)據(jù)。對人口庫數(shù)據(jù)接入相關(guān)功能進(jìn)行數(shù)據(jù)接入來源方面的功能整合開發(fā)。將原來由人口庫向數(shù)據(jù)提供部門采集且已(將)接入大數(shù)據(jù)資源平臺的數(shù)據(jù),通過相關(guān)數(shù)據(jù)接入功能整合開發(fā),改由大數(shù)據(jù)資源平臺直接向人口庫提供,不再需要相關(guān)數(shù)據(jù)提供部門重復(fù)提供。完成人口庫數(shù)據(jù)資源整合后平臺可提供身份核查和信息查詢共享服務(wù),通過輸入公民姓名和身份證號碼,便可查詢居民身份號碼和姓名匹配度以及死亡(注銷)標(biāo)識,也可提供公民性別、民族、出生日期、出生地等信息查詢。根據(jù)人口庫數(shù)據(jù)模型和需求從民政,公安,衛(wèi)生等多個數(shù)據(jù)源加載數(shù)據(jù),由于不同數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)可能不同,因而在加載數(shù)據(jù)之前要進(jìn)行數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)整合,使得加載的數(shù)據(jù)統(tǒng)一到需要的數(shù)據(jù)模型下,即根據(jù)匹配、留存、去重等規(guī)則,實現(xiàn)多種數(shù)據(jù)類型的關(guān)聯(lián)和合并。功能拓展人口數(shù)據(jù)關(guān)聯(lián)查詢?yōu)檎脚_提供人口數(shù)據(jù),支持身份核查和信息查詢共享服務(wù),通過輸入公民姓名和身份證號碼,便可查詢居民身份號碼和姓名匹配度以及死亡(注銷)標(biāo)識,也可提供公民性別、民族、出生日期、出生地等信息查詢。人口數(shù)據(jù)比對能夠進(jìn)行多委辦局、多地點、多時間點、多數(shù)據(jù)種類比對,由統(tǒng)一數(shù)據(jù)服務(wù)接口提供比對服務(wù),可比對公民姓名、身份證號碼、死亡(注銷)標(biāo)識,也可提供公民性別、民族、出生日期、出生地等信息的數(shù)據(jù)一致性比對。人口數(shù)據(jù)分析服務(wù)在經(jīng)濟(jì)活動、公用事業(yè)、社會關(guān)系、人員密度等各方面提供數(shù)據(jù)分析服務(wù),支持出生率情況統(tǒng)計、婚姻情況統(tǒng)計、勞動力結(jié)構(gòu)統(tǒng)計、少數(shù)民族統(tǒng)計、教育結(jié)構(gòu)統(tǒng)計等信息統(tǒng)計,向用戶以多維度展示各種信息資源,能讓用戶直觀感受數(shù)據(jù)。標(biāo)簽管理對人員各項標(biāo)簽進(jìn)行維護(hù)管理,包括標(biāo)簽用途、匹配狀態(tài)、匹配方式等內(nèi)容。標(biāo)簽關(guān)聯(lián)對人員的各項標(biāo)簽進(jìn)行相應(yīng)的關(guān)聯(lián)。標(biāo)簽云根據(jù)人員標(biāo)簽,可以將人口標(biāo)簽分布以圖形化的方式展現(xiàn)出來。人口全息檔案以人為主題的信息檢索、應(yīng)用分析需求最廣、所含信息要素也最多?!耙蝗艘粰n”就是基于“以人為中心”的設(shè)計理念,按人、屬性、行為事件、物品、地點、機(jī)構(gòu)等業(yè)務(wù)要素以及關(guān)聯(lián)關(guān)系從多個維度分層構(gòu)建“一人一檔”數(shù)據(jù)模型,將來自公安網(wǎng)、社會委辦局專網(wǎng)、互聯(lián)網(wǎng)等數(shù)據(jù)源(現(xiàn)已歸集至市數(shù)據(jù)湖)頭中的個人基本信息、個人行為信息、個人工作信息、個人相關(guān)物品信息、個人消費信息等數(shù)據(jù)進(jìn)行有機(jī)整合和關(guān)聯(lián),去除重復(fù)、統(tǒng)一標(biāo)準(zhǔn)、科學(xué)分類,系統(tǒng)化、條理化,全面、有效、多視角地展示人員信息及其他信息間的復(fù)雜聯(lián)系,在數(shù)據(jù)串聯(lián)的基礎(chǔ)上做到人員信息的多維度分析。人口全息檔案包括人員基本信息、健康信息、工作信息、資產(chǎn)信息、誠信信息、消費信息等。人員基本信息又包括:姓名、性別、照片、電話、地址、教育、身高、血型、婚姻情況等。健康信息包括:就醫(yī)、買藥、健康狀態(tài)、特病等。工作信息包括:就職單位、職業(yè)資格、技術(shù)專業(yè)等。資產(chǎn)信息包括:車輛、房屋等。誠信信息:違法犯罪、涉及案件、重點人員、重點人口等。消費信息:銀行卡刷卡、會員卡消費等。通過全息檔案的建立形成人員關(guān)系圖譜:對個人相關(guān)信息及人員關(guān)系通過圖的方式形象展示,可以更加清晰、直觀地梳理人員及行為、屬性關(guān)系,可以選擇通過列表和人員關(guān)系圖兩種方式查看人員社會信息。個人基本信息模型模型名稱:個人基本信息表模型名稱英文:DWD_PRTY_INDIV_YYYYMMDD所屬模型層:DWD所屬主題域:PRTY數(shù)據(jù)更新周期:日數(shù)據(jù)采集方式:增量模型說明:存放個人基本信息,個人編號、包括姓名、證件類型、證件編號、證件地址、證件生效時間、證件失效時間、戶籍地址、聯(lián)系電話、生日等基本信息接口單元屬性列表:屬性編碼屬性名稱屬性英文屬性類型備注00證件編號CERT_CODEVARCHAR(16)01包括姓名INDIV_NAMEVARCHAR(11)02證件類型CERT_TYPEINT0身份證;10港澳居民來往內(nèi)地通行證;11臺胞;12外籍人士;03性別GENDERINTEGER0不詳1男2女04個人狀態(tài)INDIV_STATEINT1正常2注銷3死亡05證件編號CERT_CODEVARCHAR(16)06證件地址CERT_ADDRESSVARCHAR(256)07證件生效時間CERT_EFF_DATEDATE08證件失效時間CERT_EXP_DATEDATE09戶籍地址REGISTER_ADDRESSVARCHAR(256)10出生地BIRTH_ADDRESSVARCHAR(256)11居住地址HOME_ADDRESSVARCHAR(256)12聯(lián)系電話CONT_PHONE_NOVARCHAR(20)13出生日期BIRTH_DATEDATE14身高HEIGHTDEC(10,3)15血型BLOOD_TYPEINT16郵政編碼POST_CODEVARCHAR(6)17宗教信仰RELIGIONVARCHAR(256)18民族NATIONAL_TYPEINTEGER19政治面貌POLITICS_FACEINTEGER0黨員1團(tuán)員2群眾3其他20學(xué)歷EDUCATIONINTEGER0初中以下1初中2高中3中專、技校4大專5本科6碩士7博士8其他21健康狀態(tài)HEALTH_INFOINTEGER22是否失信人IS_DISHONESTINTEGER0否1是23收入級別INCOME_LEVELINTEGER00-3萬13萬-5萬25萬-8萬38萬-10萬410萬-20萬520萬-50萬650萬-80萬780萬-100萬8100萬以上24職位JOB_POSITIONVARCHAR(256)25工作單位JOB_COMPANYVARCHAR(256)26工作地址WORK_ADDRESSVARCHAR(256)27婚姻狀況MARRY_STATEINTEGER0未知1已婚2未婚28國家NATION_IDBIGINT29省份標(biāo)識PROVINCE_IDVARCHAR(10)30城市標(biāo)識CITY_IDVARCHAR(10)31區(qū)縣COUNTY_IDVARCHAR(10)32更新時間DONE_DATEDATE33是否重點人口IS_KEY_PERSONINT34是否失信人IS_DISHONESTINT35是否限制消費IS_LIMIT_COMSUMEINT個人死亡記錄模型模型名稱:個人死亡記錄表模型名稱英文:DWD_EVT_INDIV_DEAD_REC_DM所屬模型層:DWD所屬主題域:EVT數(shù)據(jù)更新周期:日數(shù)據(jù)采集方式:增量模型說明:存放死亡記錄,包括死亡人信息,死亡時間等記錄接口單元屬性列表:屬性編碼屬性名稱屬性英文屬性類型備注00逝者姓名INDIV_NAMEVARCHAR(12)01性別GENDERINTEGER0不詳1男2女02年齡AGEINT03證件類型CERT_TYPEINTEGER0身份證;10港澳居民來往內(nèi)地通行證;11臺胞;12外籍人士;04證件號碼CERT_CODEVAHCHAR(20)05死亡日期DEAD_DATEVARCHAR(16)06出生日期BIRTH_DATEVARCHAR(256)07省DOMICILE_PROVINCEDATE08市DOMICILE_CITYDATE09區(qū)DOMICILE_BOROUGHVARCHAR(256)10詳細(xì)住址HOME_ADDRESSVARCHAR(256)11業(yè)務(wù)IDBUS_IDVARCHAR(256)12創(chuàng)建人IDCREATE_USER_IDVARCHAR(20)13創(chuàng)建人CREATE_USER_NAMEDATE14創(chuàng)建時間CREATE_DATEDEC(10,3)15修改人IDMODIFY_USER_IDINT16修改人MODIFY_USER_NAMEVARCHAR(6)17修改時間MODIFY_DATEVARCHAR(256)18是否有效IS_VALIDATEINTEGER19死亡原因類別DEAD_REASON_TYPEINT20死亡原因DEAD_REASONVARCHAR(200)21醫(yī)院IDHOSPITAL_IDINT22醫(yī)院名稱HOSPITAL_NAMEVARCHAR(200)23居民死亡殯葬證編號PAPER_NOVARCHAR(200)24火化日期CREM_DATEDATE25遺體火化證明編號CREM_PROVE_NOVARCHAR(200)個人健康記錄模型模型名稱:個人健康記錄表模型名稱英文:DWD_PRTY_INDIV_HEALTH_DTL_YYYYMMDD所屬模型層:DWD所屬主題域:PRTY數(shù)據(jù)更新周期:日數(shù)據(jù)采集方式:增量模型說明:存放個人健康情況,體檢記錄、血型、近期醫(yī)療情況接口單元屬性列表:屬性編碼屬性名稱屬性英文屬性類型備注00證件類型CERT_TYPEINT01身份證號CERT_CODEVARCHAR02用戶名USERNAMEVARCHAR03性別SEXVARCHAR04出生日期BIRTHDAYVARCHAR05年齡AGEVARCHAR06手機(jī)號PHONEVARCHAR07體檢時間CREATETIMEVARCHAR08身高(cm)HEIGHTVARCHAR09體重(kg)WEIGHTVARCHAR10身體質(zhì)量指數(shù)BMIHWBMIVARCHAR11hwBmi狀態(tài)HWBMISTATEVARCHAR12腰圍(cm)WAISTCIRCUMFERENCEVARCHAR13臀圍(cm)HIPCIRCUMFERENCEVARCHAR14腰臀BMIYTBMIVARCHAR15ytBmi狀態(tài)YTBMISTATEVARCHAR16左眼視力LEFTEYESIGHTVARCHAR17左眼視力狀態(tài)LEFTEYESIGHTSTATEVARCHAR18右眼視力RIGHTEYESIGHTVARCHAR19右眼視力狀態(tài)RIGHTEYESIGHTSTATEVARCHAR20收縮壓(mmHg)HEIGHTPRESSUREVARCHAR21收縮壓狀態(tài)HEIGHTPRESSURESTATEVARCHAR22舒張壓(mmHg)LOWPRESSUREVARCHAR23舒張壓狀態(tài)LOWPRESSURESTATEVARCHAR24脈搏(分/次)PULSEVARCHAR25脈搏狀態(tài)PULSESTATEVARCHAR26血氧(%)OXYGENSATURATIONVARCHAR27血氧狀態(tài)OXYGENSATURATIONSTATEVARCHAR28血糖(mmol/L)BLOODSUGARVARCHAR29血糖狀態(tài)BLOODSUGARSTATEVARCHAR30血糖類型BLOODSUGARTYPEVARCHAR31心率(分/次)ECGRATEVARCHAR32心率狀態(tài)ECGRATESTATEVARCHAR33體溫(℃)TEMPLATUREVARCHAR34體溫狀態(tài)TEMPLATURESTATEVARCHAR35體脂肪率(%)FATRATEVARCHAR36體脂肪率狀態(tài)FATRATESTATEVARCHAR37體脂肪量(Kg)FATVARCHAR38體水分率(%)WATERRATEVARCHAR39體水分率狀態(tài)WATERRATESTATEVARCHAR40體水分量(Kg)WATERVARCHAR41基礎(chǔ)代謝(Kcal)BASALMETABOLISMVARCHAR42基礎(chǔ)代謝狀態(tài)BASALMETABOLISMSTATEVARCHAR43尿酸(mmol/L)URICACIDVARCHAR44尿酸狀態(tài)URICACIDSTATEVARCHAR45總膽固醇(mmol/L)TOTALCHOLESTEROLVARCHAR46總膽固醇狀態(tài)TOTALCHOLESTEROLSTATEVARCHAR47甘油三脂(mmol/L)TRIGLYCERIDESVARCHAR48甘油三脂狀態(tài)TRIGLYCERIDESSTATEVARCHAR49高密度蛋白(mmol/L)HEIGHTLIPOPROTEINVARCHAR50高密度蛋白狀態(tài)HEIGHTLIPOPROTEINSTATEVARCHAR51低密度蛋白LOWLIPOPROTEINVARCHAR52低密度蛋白狀態(tài)LOWLIPOPROTEINSTATEVARCHAR53體型評估BUILDVARCHAR54體脂肪率曲線圖FATRATELINESVARCHAR55收縮壓曲線圖HEIGHTPRESSURELINESVARCHAR56舒張壓曲線圖LOWPRESSURELINESVARCHAR57心電圖urlECGSVARCHAR58心率檢測結(jié)論ECGRATERESULTVARCHAR59中醫(yī)體質(zhì)分析PHYSICALVARCHAR60中醫(yī)體質(zhì)分析結(jié)果PHYSICALRESULTVARCHAR61例如:氣虛型??VARCHAR62綜合報告健康建議COMREPORTHEALTHADVICEVARCHAR63人體報告健康建議BODYREPORTHEALTHADVICEVARCHAR64血壓報告健康建議PRESSUREREPORTHEALTHADVICEVARCHAR65TC/HDLTCHDLVARCHAR66膽固醇CHOLESTEROLVARCHAR67膽固醇狀態(tài)CHOLESTEROLSTATEVARCHAR68脈率PULSERATEVARCHAR69脈率狀態(tài)1=偏高2=偏低3=正常PULSERATESTATEVARCHAR70小時HOURVARCHAR71日DAYVARCHAR72月MONTHVARCHAR73年YEARVARCHAR個人就醫(yī)記錄模型模型名稱:個人就醫(yī)記錄表模型名稱英文:DWD_EVT_INDIV_HSPTREC_DM所屬模型層:DWD所屬主題域:EVT數(shù)據(jù)更新周期:日數(shù)據(jù)采集方式:增量模型說明:存放個人就醫(yī)記錄,包括門診、急癥、住院接口單元屬性列表:屬性編碼屬性名稱屬性英文屬性類型備注00病人標(biāo)識PAT_IDVARCHAR01病人住院號BLHBIGINT02病人門診號MZHBIGINT03病人就醫(yī)類別TYPEINT04病人姓名INDIV_NAMEVARCHAR05病人身份證號CERT_CODEBIGINT06性別SEXINT07生日BIRTH_DATEDATE08當(dāng)前狀態(tài)PAT_STATEVARCHAR0入院登記1病區(qū)分床2病區(qū)出院3病人出院4取消結(jié)算5進(jìn)入ICU6進(jìn)入產(chǎn)房7轉(zhuǎn)科狀態(tài)8數(shù)據(jù)轉(zhuǎn)出9作廢記錄09科室代碼KSDMVARCHAR10病區(qū)代碼BQDMVARCHAR11醫(yī)生代碼YSDMVARCHAR12床位CWDMVARCHAR13護(hù)理代碼HLDMVARCHAR14膳食代碼SSDMVARCHAR15疾病類型DISEASE_TYPEINT16疾病名稱DISEASE_NAMEVARCHAR17操作員CZYHVARCHAR18錄入日期CREATE_DATEDATE19入院日期IN_DATEDATE20出院日期OUT_DATEDATE21危重級別LEVELVARCHAR22入院方式RYFSVARCHAR23出院方式CYFSVARCHAR24急觀標(biāo)志JGBZINT(0:住院1:在觀2:出觀)25嬰兒標(biāo)志YEBZVARCHAR26醫(yī)保代碼YBDMVARCHAR27醫(yī)保定額DEJEVARCHAR28病人類型BRLXVARCHAR29憑證號PZHVARCHAR30主要卡號CARDNOBIGINT31

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論