云平臺數(shù)據治理項目技術方案0001_第1頁
云平臺數(shù)據治理項目技術方案0001_第2頁
云平臺數(shù)據治理項目技術方案0001_第3頁
云平臺數(shù)據治理項目技術方案0001_第4頁
云平臺數(shù)據治理項目技術方案0001_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、云平臺數(shù)據治理項目技術方案第1章整體方案41.1 項目需求理解方案 41.1.1 項目背景41.1.2 項目概述41.1.2.1 項目現(xiàn)狀41.1.2.2 項目目標61.1.2.3 項目內容71.2 總體設計方案 81.2.1 總體定位及目標 81.2.2 設計原則及約束91.2.2.1 總體設計原則 91.2.2.2 總體設計約束 101.2.3 總體應用架構設計 111.2.4 總體數(shù)據架構設計 121.2.4.1 數(shù)據框架設計 131.2.4.2 數(shù)據框架細化設計 141.3 數(shù)據治理方案 161.3.1 概述161.3.2 數(shù)據管理制度與機制 161.3.3 數(shù)據標準與規(guī)范建設 171

2、.3.3.1 一致性維度標準 191.3.3.2 基礎數(shù)據項體系標準 191.3.4 元數(shù)據管理221.3.4.1 元數(shù)據管理總體分析 221.3.4.2 元數(shù)據管理設計271.3.5 數(shù)據質量管理301.3.5.1 數(shù)據質量管理總體分析 311.3.5.2 數(shù)據質量管理設計 321.3.6 數(shù)據生命周期管理 351.3.6.1 數(shù)據生命周期總體分析 361.3.6.2 數(shù)據生命周期管理設計 411.3.7 數(shù)據歸集 441.3.7.1 數(shù)據歸集流程設計441.3.7.2 數(shù)據歸集方法設計 451.3.8 數(shù)據資產管理 461.3.8.1 數(shù)據資產分類471.3.8.2 數(shù)據資產盤點471.3

3、.8.3 數(shù)據質量評估471.3.8.4 數(shù)據資產使用情況監(jiān)控 471.3.9 數(shù)據安全管理 481.3.9.1 安全管控機制建設 481.3.9.2 數(shù)據訪問權限管理491.3.9.3 數(shù)據分級分類管理 491.3.9.4 數(shù)據脫敏管理491.3.9.5 數(shù)據安全審計49第1章整體方案1.1 項目需求理解方案1.1.1 項目背景云平臺數(shù)據管理項目基于大數(shù)據技術和理念,以云平臺為基礎,集中、拓寬和整合內外部數(shù)據資源,統(tǒng)一規(guī)范數(shù)據應用范疇,為各需求主體提供更為全面豐 富的決策和參考支持,構建開放協(xié)作的稅務數(shù)據生態(tài)環(huán)境。項目自開工建設以來, 始終以“用數(shù)據服務征管方式轉變”為建設主線,在大數(shù)據算法

4、應用、海量用戶 支持、關系云圖、風險動態(tài)積分、用戶畫像等方面進行了積極探索、實踐,出色 完成了設定任務,達到了預期效果。目前,云平臺數(shù)據管理項目已從驗證階段轉 為生產應用階段,實現(xiàn)了以數(shù)據為中心,以技術基礎平臺為依托,以分析類應用 實現(xiàn)為目標,涵蓋數(shù)據“采、存、通、用”全生命周期的一體化生態(tài)系統(tǒng),是大 數(shù)據、互聯(lián)網+、云計算等理念、方法論、技術手段和解決方案的集成展現(xiàn)。在云平臺數(shù)據管理項目建設完成的基礎上, 總局云平臺數(shù)據管理升級完善及 運維和機構改革軟件服務工作的主要任務是: 以云平臺數(shù)據管理項目建設內容為 基礎,做好現(xiàn)有硬、軟件運行維護與優(yōu)化升級;進一步拓寬數(shù)據集成范圍、拓展 數(shù)據應用、深

5、度挖掘數(shù)據價值;根據機構改革后云平臺數(shù)據管理工作的新內容、 新要求,對數(shù)據層、應用層進行調整、優(yōu)化,保障云平臺平穩(wěn)運行;有力加強數(shù) 據治理、提高數(shù)據質量,滿足當前數(shù)據管理工作需要,支撐各類型數(shù)據應用工作 需求,助力推動征管模式變革和各項稅收政策改革,最終形成推動數(shù)據管理思維變化,營造良好稅收數(shù)據生態(tài)。1.1.2 項目概述1.1.2.1項目現(xiàn)狀云平臺數(shù)據管理項目以云平臺為基礎, 以云服務器軟件、負載均衡軟件SLB 對象存儲軟件OSS大數(shù)據計算服務軟件 ODPS數(shù)據可視化引擎DataV等18款 大數(shù)據產品為依托,構建了以數(shù)據治理為核心、以一體化云平臺為載體、滿足各 類用戶需求的稅收大數(shù)據平臺。主要

6、完成平臺層、數(shù)據層、應用層的建設:1 .平臺層建設。主要包括計算存儲和網絡設備、系統(tǒng)軟件工具集、安全及運 維監(jiān)控管理的建設,從硬件和技術層面有效解決傳統(tǒng)技術結構不足以支撐海量數(shù) 據及非結構化數(shù)據分析應用需求的矛盾,搭建靈活、可隨時調用計算資源的數(shù)據 云環(huán)境,并構建完整的三層服務模式。通過建設IaaS層,為全國數(shù)據大集中環(huán)境提供包括CPU內存、存儲、網絡、操作系統(tǒng)等基礎設施資源,提高資源的利 用率,降低采購成本;通過建設PaaS平臺,基于IaaS提供的能力,以服務的方 式提供計算平臺和軟件組合,為最終用戶提供云環(huán)境下的應用開發(fā)、 部署和運行 平臺,解決應用軟件開發(fā)的規(guī)范化問題,降低系統(tǒng)運行維護成

7、本;通過建設SaaS 層,全國數(shù)據大集中環(huán)境為總局、省局、納稅人、相關部門提供個性化的數(shù)據服 務。2 .數(shù)據層建設。通過構建數(shù)據治理體系和開展數(shù)據分析處理,將云平臺和工 程規(guī)劃范圍內的其他數(shù)據平臺集于一體, 使金三生產系統(tǒng)數(shù)據、總局保留軟件數(shù) 據和多來源的外部交換數(shù)據相互貫通, 實現(xiàn)各類數(shù)據的集中定義和管理,為建立 統(tǒng)一數(shù)據視圖、數(shù)據集市、各類分析業(yè)務的定義、指標和規(guī)則定義以及數(shù)據集成 定義提供語義基礎,同時提供對各類數(shù)據的審核管理和維護機制,維護數(shù)據的完整性、準確性以及一致性,實現(xiàn)數(shù)據生命周期管理、數(shù)據標準、數(shù)據審計等各項 功能。通過數(shù)據治理過程,使得數(shù)據標準、數(shù)據內容以及數(shù)據質量都能夠得到

8、持 續(xù)的提升,保證數(shù)據資產的長久價值。(1)基礎層完成了對稅務數(shù)據、外部數(shù)據和互聯(lián)網數(shù)據三類數(shù)據的集成, 共集成了六千余張表,同時完成了數(shù)據清洗、數(shù)據標準化以及非結構化數(shù)據轉結 構化數(shù)據等操作。(2)中間層完成了四大主題庫和標簽體系的建設。四大主題庫分別是:組 織庫(法人和法人分支機構),涉及模型近200個;自然人庫,涉及模型近百個; 稅務機關庫,涉及模型近200個;關系庫(單位納稅人之間、單位納稅人與自然 人之間),涉及模型幾十個。同時構建了企業(yè)、自然人、稅務機關標簽體系,包 含:企業(yè)標簽(一般納稅人標簽、小規(guī)模納稅人標簽、千戶集團標簽)、自然人 標簽、稅務機關標簽。(3)模型層完成了面向應

9、用的數(shù)據模型構建。在建設模型層的過程中,以 構建面向應用類數(shù)據模型和構建分析挖掘類分析模型為原則,基于稅收動態(tài)監(jiān)控、票流分析、關系云圖、增值稅發(fā)票查詢分析系統(tǒng)等應用共設計數(shù)百個數(shù)據模型, 上千個指標口徑。3 .應用層建設。基于全務數(shù)據,建立多層次、多類型、多渠道的數(shù)據服務體 系,為總局各司局和省局不同類型用戶提供多維數(shù)據服務,滿足各級稅務機關在決策、管理、執(zhí)行、研究等方面的工作需求。應用層前期建設立足于稅收業(yè)務特 點、現(xiàn)狀和需求狀況,重點選取部分應用進行驗證性和示范性開發(fā)。已開發(fā)用戶畫像、票流分析、納稅人關系云圖、納稅人關系分析、增值稅發(fā)票查詢分析系統(tǒng)、 風險情報系統(tǒng)、單管戶查詢、企業(yè)信息自助

10、查詢、數(shù)據資源需求管理、數(shù)據質效 考核、稅收動態(tài)監(jiān)控大屏版、稅收動態(tài)監(jiān)控桌面版、云平臺訪問監(jiān)控以及涉稅專 業(yè)服務動態(tài)監(jiān)控等應用。4 .數(shù)據治理工作主要從五個方面開展:元數(shù)據管理、數(shù)據資產管理、數(shù)據 標準管理、數(shù)據質量管理和數(shù)據安全管理。在數(shù)據標準方面繼承了國家標準化內 容,把控數(shù)據建設標準。同時結合業(yè)務需要積累并整理了核心征管系統(tǒng)業(yè)務表單 和物理表的對照關系,形成了包含:核心征管系統(tǒng)、個稅系統(tǒng)、防偽稅控系統(tǒng)、 外部交換系統(tǒng)、出口退稅系統(tǒng)等業(yè)務系統(tǒng)的數(shù)據字典。在數(shù)據質量方面制定數(shù)據 質量規(guī)則指標二百多項,推動全國數(shù)據質量持續(xù)優(yōu)化。5 .數(shù)據服務云平臺數(shù)據管理項目運行一年以來,為總局多個業(yè)務司局提

11、供數(shù)據加工服務; 承接總局稽查局的選案工作;承接納稅服務司納稅信用等級評定指標調整測算工 作,為信用評價指標調整提供數(shù)據依據等; 開展新辦企業(yè)預警模型、非正常戶預 警模型、進銷不匹配模型等指標設計測算工作。1.1.2.2項目目標本項目旨在根據業(yè)務需求,對平臺層、數(shù)據層、應用層實施有效的運行維護, 完成云平臺整體升級優(yōu)化完善,并根據機構改革要求及進程完成云平臺調整優(yōu)化 各項工作,保障云平臺平穩(wěn)運行。1 .做好云平臺數(shù)據管理項目升級完善工作, 包括:基于云平臺開發(fā)、開放更 多數(shù)據應用,豐富優(yōu)化云平臺的現(xiàn)有功能應用場景, 創(chuàng)新應用功能,提升云平臺 數(shù)據管理項目的應用價值和潛能等內容。 根據國家與各省

12、局需要,做好云平臺應 用的增加及數(shù)據開放范圍的擴大工作。 對各司局的遷移軟件,做好技術及軟件方 面的對接工作,滿足其數(shù)據庫創(chuàng)建、擴容、變更等需求。2 .做好云平臺數(shù)據管理項目的運行維護與數(shù)據治理工作,包括應用系統(tǒng)日常巡檢和監(jiān)控、故障綜合分析及應急處理、性能持續(xù)優(yōu)化等服務,以保障云平臺數(shù) 據管理項目平穩(wěn)運行。對云平臺的硬件擴容提供相應的技術支持, 做好對機器的 版本升級和應用的性能測試等工作,保障數(shù)據處理和各類應用能夠正常適應新的 硬件平臺。按照關于數(shù)據治理組織機構、流程制度以及配套支撐工具等要求, 做 好元數(shù)據管理、數(shù)據標準、數(shù)據模型,數(shù)據質量、數(shù)據安全等工作,強化數(shù)據治 理能力,提高數(shù)據管理

13、水平,確保整體數(shù)據環(huán)境可靠、高效、安全,有力支撐征 管改革和稅制改革。3 .做好機構改革涉及云平臺調整優(yōu)化工作,根據國家制定的國合并改革方案, 在完成金三系統(tǒng)合并、調整與地方稅費全國集成基礎上,完成云平臺數(shù)據層、應 用層的相應調整優(yōu)化與功能開發(fā)工作,以保障數(shù)據及時、準確集成至云平臺,并 按照最新的需求展示和供應數(shù)據。1.1.2.3項目內容云平臺數(shù)據管理升級完善及運維和機構改革軟件服務工作,重點需要完成對 云平臺數(shù)據管理項目的運行維護、對已有功能的優(yōu)化完善及新增數(shù)據需求、應用 功能的處理與設計開發(fā)以及機構改革涉及云平臺調整優(yōu)化有關工作。 重點包括但 不限于以下內容:云平臺數(shù)據管理升級完善及運維和

14、機構改革軟件服務項目是在云平臺數(shù)據 管理項目建設成果基礎上,做好云平臺數(shù)據管理升級完善及運維工作與機構改革 涉及云平臺調整優(yōu)化工作兩項內容:1.2總體設計方案1.2.1 總體定位及目標云平臺數(shù)據管理項目是工程第二階段的重要組成部分,項目基于目前最新 的大數(shù)據處理技術手段和理念,借助金三全面上線的有利契機,以大數(shù)據云平臺 為基礎,集中、拓寬和整合內外部數(shù)據資源,統(tǒng)一規(guī)范數(shù)據應用范疇,為各需求 主體提供更為全面豐富的決策和參考支持,構建開放協(xié)作的稅務數(shù)據生態(tài)環(huán)境。 項目定位集中體現(xiàn)了基礎性、創(chuàng)新性和示范性。基礎性。一是構建硬件基礎,通過搭建靈活的、可隨時調用計算資源的數(shù)據 云環(huán)境,從硬件和技術層面

15、有效解決傳統(tǒng)技術結構不足以支撐海量數(shù)據及非結構 化數(shù)據分析應用需求的矛盾。二是夯實管理基礎,以打造成熟完善的數(shù)據治理體 系為重點,為保障數(shù)據資產質量提供支撐。三是提供應用基礎,為各司局、省局 自行開發(fā)應用項目提供基礎數(shù)據和工具,鼓勵多樣性應用開發(fā)。創(chuàng)新性。一是數(shù)據利用創(chuàng)新,遵循總體架構要求,繼承前期建設成果,在保 持四大應用系統(tǒng)總體格局不變的情況下, 實現(xiàn)數(shù)據全國大集中。二是管理思維創(chuàng) 新,整合數(shù)據資源和管理資源,以統(tǒng)一平臺來解決之前總局各司局數(shù)據利用各自 為政、重復建設、標準不一致、成果不能共享等問題。三是服務模式創(chuàng)新,體現(xiàn) “眾包協(xié)助”要求,以提供基礎數(shù)據服務為主,形成數(shù)據統(tǒng)一加工和應用多

16、樣開 發(fā)結合的格局。示范性。為全國各省局數(shù)據開發(fā)利用提供從硬件建設、數(shù)據治理和應用開 發(fā)的示范性模板,推進全收數(shù)據利用水平提升。云平臺數(shù)據管理項目實現(xiàn)了稅收征管數(shù)據的全國集中和規(guī)范管理,為各級稅務機關提供了強大計算處理能力,有機整合大數(shù)據技術,全面集成內部數(shù)據、積 極拓展外部數(shù)據、強化數(shù)據治理能力,實現(xiàn)了數(shù)據的過程監(jiān)控;建立了稅務數(shù)據 的資產化管理模式,并以用戶為核心提供差異化的數(shù)據服務, 形成了開發(fā)協(xié)作的 稅務數(shù)據生態(tài)環(huán)境。同時,加強外部數(shù)據交換,實現(xiàn)了稅務數(shù)據與外部門數(shù)據的 有效共享整合,為國家信息共享化建設提供了稅務方案。云平臺數(shù)據管理項目升級完善及運維和機構改革軟件服務項目以云平臺數(shù)

17、據管理項目的建設內容為基礎,根據的業(yè)務需求和國合并工作要求, 對平臺功能 進行持續(xù)性升級完善,集中、拓寬和整合內外部數(shù)據資源,統(tǒng)一規(guī)范數(shù)據應用范 疇,提升數(shù)據治理能力,為各需求主體提供更為全面豐富的決策和參考支持,并提供必要的基礎運維,保障云平臺正常運行。1.2.2 設計原則及約束1.2,2.1總體設計原則大數(shù)據云平臺建設與開發(fā),需要協(xié)調“整體與局部、集中與分散、先進與實 用、近期與長遠、統(tǒng)一與個性”之間的矛盾,涉及到數(shù)據庫、數(shù)據倉庫、聯(lián)機分 析處理(OLAP、數(shù)據挖掘等多技術、多學科的交叉,是一項復雜的工程。項目建設應遵循“整體規(guī)劃、大膽創(chuàng)新、分步實施、統(tǒng)一規(guī)范”的總體原則, 在總體規(guī)劃上要

18、體現(xiàn)體系化、規(guī)范化,在具體設計上體現(xiàn)前瞻性、創(chuàng)新性,在項 目實施中分步驟、保重點,按照工程計劃逐步實現(xiàn)建設目標。大數(shù)據云平臺建設與開發(fā)應滿足但不限于以下原則要求:1.2.2.1.1 實現(xiàn)結構上穩(wěn)定、靈活、可擴展底層的數(shù)據治理和上層應用開發(fā)在架構上保持松耦合。上層應用可根據用戶需求不斷開發(fā)、優(yōu)化或調整,數(shù)據資源層提供標準化接口,以服務的形式封裝數(shù) 據,屏蔽底層物理數(shù)據庫信息和數(shù)據結構, 增強系統(tǒng)靈活性,在充分滿足現(xiàn)有需 求的基礎上兼顧后期發(fā)展,在相對穩(wěn)定的架構下,選擇成熟的產品與技術,滿足 稅務未來(5年)業(yè)務需求及技術的發(fā)展變化。1.2.2.1.2 設計上開放、一致、安全在設計時從縱向、橫向、

19、前向、后向多維互聯(lián)角度充分考慮,建立完整的數(shù) 據管理體系,遵守統(tǒng)一的數(shù)據源、統(tǒng)一的數(shù)據模型、統(tǒng)一的數(shù)據接口、統(tǒng)一的接口標準等原則,保障數(shù)據的一致性。同時兼顧系統(tǒng)的開放性,充分考慮各類應用 需求,包括大數(shù)據應用、傳統(tǒng)數(shù)據應用,涵蓋統(tǒng)計監(jiān)控、宏觀決策、微觀分析、 公眾服務等。且不設置應用總集成概念和實體,以利于各司局、部分省局及其他 相關主體自主開發(fā)各類應用。此外設計上也不局限于分析類應用, 可嘗試海量并 發(fā)查詢類應用等應用模式。最終實現(xiàn)對敏感數(shù)據與應用訪問的權限控制和軌跡跟 蹤,加強核心數(shù)據的管控,確保系統(tǒng)數(shù)據安全。管理數(shù)據權限并實施數(shù)據訪問控 制,針對各應用系統(tǒng)組織實施安全審計。1.2.2.1

20、.3 標準上規(guī)范、易懂、通用完善業(yè)務、技術、管理標準規(guī)范體系,包括制定和推廣總體標準、信息系統(tǒng) 標準、管理標準和業(yè)務規(guī)范等,確保各類命名規(guī)范,業(yè)務規(guī)則定義,度量方式等 的規(guī)范性和通用性,并使用統(tǒng)一的業(yè)務語言進行描述,易于業(yè)務人員和技術人員 的理解使用。同時建立配套的運行維護和數(shù)據治理機制,保障系統(tǒng)的有機生命力, 支撐業(yè)務發(fā)展的需要。1.2.2.1.4 用戶體驗上友好、便利、易用基于SO咪構開發(fā)數(shù)據應用,在技術選擇上,充分利用云計算、大數(shù)據等前 沿應用技術的最新成果,借助云的靈活性,更好的滿足稅務行業(yè)可變業(yè)務的需求, 借助云的敏捷性,更快的響應業(yè)務要求,通過大數(shù)據提供的海量數(shù)據處理能力, 更充分

21、的挖掘稅收數(shù)據的價值。在業(yè)務展示上充分利用數(shù)據可視化新技術,借助 于圖形化手段,從不同的維度觀察數(shù)據,從而對數(shù)據進行更深入的觀察和分析。 在數(shù)據應用集成層提供豐富的數(shù)據分析工具,支持模塊的拖拽和自由組合。1.2.2.2總體設計約束總體設計包括總體架構設計和數(shù)據治理機制設計兩個部分。1.2.2.2.1數(shù)據治理機制1.2.2.2.1.1 設計目標根據數(shù)據本項目數(shù)據治理要求與約束,完成國家數(shù)據治理機制建設。1.2.2.2.1.2 設計要求數(shù)據治理涵蓋了人員,流程和技術,是一系列改變數(shù)據使用行為的過程, 它 從根本上改變業(yè)務和信息技術的使用方法。在內容上,要求實現(xiàn)元數(shù)據管理、數(shù) 據標準管理和數(shù)據質量管

22、理三個方面的機制和流程建設。1.2.2.2.1.3 設計約束遵循本項目數(shù)據治理機制要求和約束。1.2.3 總體應用架構設計根據招標文件中要求,云平臺數(shù)據管理項目是以大數(shù)據云平臺為基礎, 集中、 拓寬和整合內外部數(shù)據資源,統(tǒng)一規(guī)范數(shù)據應用范疇,為各需求主體提供更為全 面豐富的決策和參考支持,構建開放協(xié)作的稅務數(shù)據生態(tài)環(huán)境。主要包括平臺層 建設、數(shù)據層建設和應用層建設。蜒一工作單音總后省后內網i內網第三J5S5UB匿務用蘭:&蘆卷息國掙干白立"NF不育*廿亞事隼苜應用施ts中臺敷尼密乎士應用集成平力喈一云計算支撐平臺:系統(tǒng)搭建靈活、可隨時調用計算資源的數(shù)據云環(huán)境,并構建完整的三層

23、服 務模式,包括計算存儲和網絡設備、系統(tǒng)軟件工具集、安全及運維監(jiān)控管理的建 設,從硬件和技術層面有效解決傳統(tǒng)技術結構不足以支撐海量數(shù)據及非結構化數(shù) 據分析應用需求的矛盾。大數(shù)據支撐平臺:大數(shù)據支撐平臺是用于各項數(shù)據相關工作的云計算產品和大數(shù)據工具軟件 集合,利用現(xiàn)有或者采購的相關軟件產品,構建數(shù)據治理體系和開展數(shù)據分析處 理,將大數(shù)據云平臺和工程規(guī)劃范圍內的其他數(shù)據平臺集于一體,使的金三生產系統(tǒng)數(shù)據、總局保留軟件數(shù)據和多來源的外部交換數(shù)據相互貫通,持續(xù)提升數(shù)據標準、數(shù)據內容以及數(shù)據質量,實現(xiàn)數(shù)據“好用、足用”的目標。應用平臺層:在全收數(shù)據大集中和外部數(shù)據擴展基礎上,為總局和各司局及部分省局提

24、供方式靈活、內容豐富的自主應用開發(fā)的平臺。 本項目實現(xiàn)主體畫像、全國視角 的納稅人遵從分析和稅收動態(tài)展示 3類驗證和示范應用。1.2.4 總體數(shù)據架構設計根據總局數(shù)據層平臺的要求,我們將需求細分為數(shù)據集成、數(shù)據治理、主體 匯總、數(shù)據應用等4個技術支撐平臺,以承擔所有數(shù)據活動涉及的數(shù)據獲取、 模 型組織、信息加工、質量管理、結果展現(xiàn)等處理功能。1.2.4.1數(shù)據框架設計數(shù)據應用1 數(shù)據治理 Al_分析模型數(shù)據挖掘數(shù)據供應h一1/廣元數(shù)據管理數(shù)據匯總,數(shù)據主體定義主體匯總關系定義in一 二數(shù)據集成I數(shù)據定義11數(shù)據抽取11數(shù)據清洗11數(shù)據轉換I I數(shù)據加載1數(shù)據集成負責數(shù)據集成,通過調度控制和規(guī)則

25、管理實現(xiàn)對數(shù)據集成的任務管理,數(shù)據 集成平臺將源數(shù)據(核心征管、電子稅務、出口退稅、外部數(shù)據等)通過ETL激據復制的數(shù)據加工、清洗、轉換,完成從源數(shù)據數(shù)據準備區(qū) 統(tǒng)一數(shù)據視圖。加工中出現(xiàn)的錯誤預警提交給數(shù)據治理平臺的數(shù)據質量管理應用。2數(shù)據匯聚匯聚數(shù)據是將基礎數(shù)據區(qū)的數(shù)據按照納稅人、業(yè)務日期、業(yè)務狀態(tài)等維度進 行的輕度匯總的事實表和事實表關聯(lián)的維度表。3數(shù)據應用由查詢統(tǒng)計、征管狀況分析、報表管理、風險管理、政策評估、績效管理、知識管理、 稅收收入核算分析系統(tǒng)、電子檔案管理等部分和日常應用管理組成。本包負責:查詢統(tǒng)計、 征管狀況分析、報表管理、稅收收入核算分析系統(tǒng)、電子檔案管理的建設和大數(shù)據平臺

26、的日 常應用管理建設。4數(shù)據治理負責環(huán)境的數(shù)據治理,它是結合數(shù)據治理相關的組織、制度和流程和數(shù)據標 準完成對數(shù)據的治理,治理內容包括:數(shù)據質量的管理、元數(shù)據的管理、數(shù)據生 命周期的管理、以及數(shù)據審計管理等。1.2.4.2數(shù)據框架細化設計運行監(jiān)控 數(shù)據審計元數(shù)據管理數(shù)據規(guī)范管理數(shù)據中間層數(shù)據質量控制數(shù)據準備層也挖掘應用層數(shù)據擴展利用數(shù)據管理數(shù)據報表數(shù)據分析數(shù)據準備區(qū)統(tǒng)一數(shù)據視圖區(qū)數(shù)據倉庫區(qū)元數(shù)據據范 數(shù) 數(shù)據集成抽取規(guī)錯誤預范警ETL/ 數(shù) 據復制任務調 度數(shù)據源1、基礎數(shù)據層基于目前總局數(shù)據狀況,數(shù)據采集的源頭主要包含:各類稅收業(yè)務系統(tǒng)數(shù)據、 外部交換數(shù)據、互聯(lián)網開放數(shù)據。稅收業(yè)務系統(tǒng):稅收業(yè)

27、務系統(tǒng)是本次數(shù)據體系中最主要的數(shù)據源頭,稅務業(yè)務相關的數(shù)據主要從這些系統(tǒng)中獲取。核心征管系統(tǒng)數(shù)據覆蓋 13個業(yè)務域的 業(yè)務數(shù)據,同時發(fā)票數(shù)據和出口退稅數(shù)據雖然系統(tǒng)還沒有統(tǒng)一, 但是會統(tǒng)一采集 到核心征管數(shù)據體系內。交換數(shù)據:交換數(shù)據分為兩個部分,總局統(tǒng)一交換數(shù)據和各省局交換數(shù)據。 在基礎數(shù)據層會單獨規(guī)劃交換數(shù)據域, 統(tǒng)一規(guī)劃數(shù)據交換模型,將總局交換數(shù)據 中數(shù)據價值度高、數(shù)據質量高、數(shù)據穩(wěn)定性好的數(shù)據和選取幾個省局的交換數(shù)據, 合并數(shù)據結構,采集到統(tǒng)一的數(shù)據交換域?;ヂ?lián)網數(shù)據:互聯(lián)網是一個開放式的數(shù)據源,在本次數(shù)據體系和應用的建 設中,需要依賴互聯(lián)網的開放數(shù)據作為應用的基礎數(shù)據,參與稅務數(shù)據價值

28、挖掘過程中?;ヂ?lián)網的數(shù)據獲取會利用平臺的爬蟲工具, 定向的獲取互聯(lián)網數(shù)據。本 次需要建設互聯(lián)網爬數(shù)的平臺,能夠滿足甲方不斷增加數(shù)據源,調整數(shù)據爬取深 度的要求,滿足爬取數(shù)據從非結構化到結構化存儲的要求;2、數(shù)據中間層數(shù)據中間層的建設主要的目的是將采集和整理后的基礎數(shù)據, 以某個主體或 者關系,將數(shù)據聯(lián)系起來。設計擴展性強的數(shù)據模型,隨著原始業(yè)務數(shù)據的逐步 豐富,不停豐富主體的描述、行為及管理類的數(shù)據。數(shù)據中間層在整個數(shù)據體系建設中起到通的作用,以主體維度聯(lián)通各種來源數(shù)據。聯(lián)通后的中間層數(shù)據,將提供給下游模型和挖掘應用更豐富、更標準、更 易用的生產原料??偩执髷?shù)據云平臺將具有強大得數(shù)據計算和存儲

29、能力?;谄脚_的能力和 互聯(lián)網數(shù)據建設的設計思路,在數(shù)據中間層的建設中不會做復雜的業(yè)務邏輯加工, 保留業(yè)務的事實明細數(shù)據。增強數(shù)據中間層的擴展性和復用性,業(yè)務邏輯的加工 放在應用和挖掘層完成。這樣會壓縮整個數(shù)據處理的過程,同時有利于數(shù)據口徑 的統(tǒng)一和數(shù)據質量的控制?;谀壳翱偩謱τ诖髷?shù)據應用的要求, 本次數(shù)據中間 層的建設將著重三個主體庫的建設:企業(yè)庫、自然人庫、關系庫。3數(shù)據挖掘層數(shù)據挖掘是指利用打通后的數(shù)據,針對需要數(shù)據支撐的業(yè)務,進行數(shù)據模 型的建設和數(shù)據價值的挖掘?;诒敬卧破脚_數(shù)據管理項目的業(yè)務需求,數(shù)據模型和挖掘將包含征管分 析模型、企業(yè)風險控制模型、個人風險控制模型、企業(yè)標簽體系

30、模型、自然人標簽體系模型征管分析模型:基于目前總局對于征管工作所規(guī)劃的指標體系, 提煉出當前 業(yè)務狀態(tài)下最關鍵和重要的指標,對這些指標進行數(shù)據建模,每日生產出數(shù)據指 標數(shù)據,并持續(xù)跟蹤指標的變化情況,為征管工作分析應用提供數(shù)據支撐。企業(yè)標簽體系模型:針對目前總局對于企業(yè)征稅管理的需要, 設計對企業(yè)進 行分類、刻畫的描述標簽,制定標簽業(yè)務含義及數(shù)據算法,通過對企業(yè)庫的數(shù)據 進行數(shù)據挖掘,獲得刻畫企業(yè)的標簽數(shù)據。自然人標簽體系模型:針對目前總局對于自然人征稅管理的需要, 設計對自 然人進行分類、刻畫的描述標簽,制定標簽業(yè)務含義及數(shù)據算法,通過對自然人 庫的數(shù)據進行數(shù)據挖掘,獲得刻畫自然人的標簽數(shù)據

31、。1.3數(shù)據治理方案1.3.1 概述數(shù)據治理體系將云平臺和工程規(guī)劃范圍內的其他數(shù)據平臺集于一體,使金三生產系統(tǒng)數(shù)據、總局保留軟件數(shù)據和多來源的外部交換數(shù)據相互貫通,實現(xiàn)各類 數(shù)據的集中定義和管理,為建立統(tǒng)一數(shù)據視圖、數(shù)據集市、各類分析業(yè)務的定義、 指標和規(guī)則定義以及數(shù)據集成定義提供語義基礎, 同時提供對各類數(shù)據的審核管 理和維護機制,維護數(shù)據的完整性、準確性以及一致性,實現(xiàn)數(shù)據生命周期管理、 數(shù)據標準、數(shù)據審計等各項功能。通過數(shù)據治理過程,使得數(shù)據標準、數(shù)據內容 以及數(shù)據質量都能夠得到持續(xù)的提升,保證數(shù)據資產的長久價值。1.3.2 數(shù)據管理制度與機制數(shù)據管理規(guī)章制度是將數(shù)據管理體系實施中的重要

32、步驟、行動和任務的處理方式、途徑和評估等進行規(guī)范和固化,概括和規(guī)定如何實施數(shù)據管理體系、 如何 考核實施結果以及如何進一步完善整套機制,為數(shù)據管理體系建設的參與者提供 可以遵照執(zhí)行的原則和具體方法。政策規(guī)章制度以固化的、標準化的形式來描述管理決策分析平臺數(shù)據管理模 型中設計的組織架構、崗位職責、工作流程等各項內容。這些規(guī)范與以往經營活 動中發(fā)布和執(zhí)行的很多數(shù)據管理相關的政策規(guī)章制度是類似的,但數(shù)據管理的政策規(guī)章制度是針對數(shù)據管理各管理主題本身要解決的問題以及管理主題之間的 協(xié)調性問題做出相應的規(guī)定。在此定義的數(shù)據管理框架還應包括:明確數(shù)據管理框架的目的和重大意義、 基本原則和定位、所遵循的外部

33、或內部要求、各相關方的義務和權利、績效考核 手段、可供使用的業(yè)務手段和技術手段、數(shù)據標準、數(shù)據傳輸、數(shù)據質量控制和 監(jiān)控、需要補充完善的規(guī)章制度等。數(shù)據管理制度與機制要求如下:1,按照數(shù)據治理體系要求,根據數(shù)據治理工作具體實踐持續(xù)協(xié)助完善數(shù)據管 理制度和機制,修訂數(shù)據治理體系規(guī)范。2,按季度編寫數(shù)據治理報告,報告應基于該季度數(shù)據治理工作情況編寫, 并 針對數(shù)據治理中的問題提出分析改善方案。1.3.3 數(shù)據標準與規(guī)范建設數(shù)據標準規(guī)范是總局信息化標準的一部分,是對總局管理所涉及的各項數(shù) 據的定義與解釋,以及數(shù)據質量及安全性要求的統(tǒng)一定義。 數(shù)據標準規(guī)范著重于 對稅務局各業(yè)務部門使用的通用及共享數(shù)據

34、制定一套大家共同接受的業(yè)務概念 及技術實施時的統(tǒng)一定義。數(shù)據標準主要內容包括:業(yè)務數(shù)據、數(shù)據模型、數(shù)據 交互等;數(shù)據元素定義的業(yè)務規(guī)則;數(shù)據實施的相關技術要求,例如:數(shù)據的存 儲格式、質量問題等。由于稅務業(yè)務在不斷的發(fā)展和變化,反映稅務業(yè)務的數(shù)據標準也是一個動 態(tài)的管理目標。在數(shù)據標準的制定工作初步完成后, 數(shù)據標準的日常維護和更新 工作就成為保證數(shù)據標準得以遵照和執(zhí)行的基礎。數(shù)據標準管理流程作為數(shù)據管 理的重要組成部分,它的主要目標是明確定義數(shù)據標準的維護流程,明確數(shù)據標準管理的組織架構,為數(shù)據標準的管理提供一套端到端的管理機制和維護環(huán)境。以下管理流程的建立方法著重說明在數(shù)據管理流程的框架設

35、計下,數(shù)據標準的管 理流程是如何建立起來的。數(shù)據標準管理工作負責制定和維護全部業(yè)務經營涉及的數(shù)據標準,通過系統(tǒng)的實施逐步推廣數(shù)據標準的落實。數(shù)據標準管理體現(xiàn)在數(shù)據標準的制定、審核、 執(zhí)行、反饋和爭議協(xié)調等各個工作環(huán)節(jié)中。數(shù)據標準的制定需要參考標準機構制 定的數(shù)據標準,同時也應參考各個部門內部使用的特定數(shù)據的定義。數(shù)據標準管理的對象是稅務局所有生產、管理決策的數(shù)據,不包括為維護 系統(tǒng)運行而設置的參數(shù)型數(shù)據,如系統(tǒng)日志的數(shù)據定義等。數(shù)據標準采用數(shù)據分 類管理的方式對數(shù)據進行定義和管理。 參考領先實踐的經驗,數(shù)據標準可以結合 以下兩種分類方式進行管理:按照共享程度分類根據數(shù)據的共享程度,稅務的數(shù)據可

36、歸為三大類:通用數(shù)據、共享數(shù)據、部門特定數(shù)據。其中,通用數(shù)據是指那些由各業(yè)務部門共享的數(shù)據, 如查詢統(tǒng)計 數(shù)據、報表數(shù)據等;共享數(shù)據是指那些由多個業(yè)務部門共同使用的數(shù)據;而特定數(shù)據是指那些專屬于某些應用系統(tǒng)或業(yè)務部門的數(shù)據。 數(shù)據標準管理的對象范圍 包括這三類數(shù)據,但數(shù)據標準的推廣實施可先從通用數(shù)據開始, 最后將部門特定 數(shù)據進行標準化管理;按照數(shù)據產生方式分類根據不同產生方式,數(shù)據可歸為三大類:基礎數(shù)據、衍生數(shù)據、公共代碼 類數(shù)據。其中,基礎數(shù)據由系統(tǒng)生成或直接錄入, 衍生類數(shù)據由基礎數(shù)據通過轉 換和計算產生,公共代碼類數(shù)據是通用的共享代碼,是特殊的基礎數(shù)據。根據的具體情況并參照以往標準化工

37、作的實踐,數(shù)據標準管理工作應參照 以下指導原則:數(shù)據標準的推廣執(zhí)行必須遵循循序漸進的原則。數(shù)據標準管理小組不僅是 標準的制定和管理組織,而且還是提供數(shù)據標準咨詢的內部服務組織, 為各項目 的順利開展提供數(shù)據標準定義的解釋和數(shù)據標準使用的培訓。數(shù)據標準的制定應參照國際、國內、行業(yè)等標準,并結合稅務行業(yè)的實際 需求。數(shù)據標準的定義要與行業(yè)、國內及國際的數(shù)據標準相適應,在充分考慮和 尊重現(xiàn)有數(shù)據情況等的基礎上,結合系統(tǒng)現(xiàn)實和未來的切實需要,編制或補充相 應的數(shù)據標準。數(shù)據標準定義應具有前瞻性。數(shù)據標準定義的前瞻性,要求已經定義的數(shù) 據標準能夠在一段時間內相對穩(wěn)定地滿足總局對數(shù)據標準化的要求,而不是頻

38、繁地更改與修訂。完善的數(shù)據標準審閱流程。鑒于數(shù)據標準的重要性及跨業(yè)務領域共用的特 點,為保證數(shù)據標準定義的質量滿足準確性、通用性、前瞻性等要求,需要建立 完善的數(shù)據標準審閱流程。審閱過程要充分征求業(yè)務部門、數(shù)據標準主管部門、 業(yè)務部門業(yè)務專家等各方面的意見, 并據此制定相對完善的、可用性強的數(shù)據標 準。1.3.3.1 一致性維度標準一致性維度是指具有一致的維度關鍵字、 一致的屬性列名字、一致的屬性定 義以及一致的屬性值(將轉化成一致的報表標簽與分組標識),不管是在同一數(shù)據庫中還是基于配有多種數(shù)據庫平臺的數(shù)據倉庫范圍內,對于某個特定的維度, 這些內容都是一樣的。簡單來說,只要在數(shù)據層范圍內,不管

39、物理上部署了多少 個數(shù)據庫,不管什么應用系統(tǒng),對于某個指定的維度,都具有相同的表結構和相 同的數(shù)據。一致性維度作為一根總線,不僅使這些內部系統(tǒng)能夠以一個統(tǒng)一的標準結合 在一起,還使所有基于數(shù)據平臺的外部系統(tǒng)能按照這根總線的標準插入其中,構成一個總線矩陣,以實現(xiàn)數(shù)據層大平臺的概念。在設計一致性維度時,不依賴、不照搬生產系統(tǒng)數(shù)據層中特定的表, 而是充 分考慮各個系統(tǒng)之間的差異,集成多個系統(tǒng)。1.3.3.2 基礎數(shù)據項體系標準通過抽象與歸納稅務領域中的各類憑證數(shù)據和大量常見的、公共的分析指標, 以數(shù)據層中經過加工的各類事實數(shù)據為基礎, 把這些憑證數(shù)據和分析指標在數(shù)據 層面上定義為各種基礎數(shù)據項,從而

40、形成稅務領域的基礎數(shù)據項體系, 為各類查 詢統(tǒng)計、分析評估、預警監(jiān)控等分析型應用提供統(tǒng)一和標準的數(shù)據支撐。在業(yè)務層面,基礎數(shù)據項體系規(guī)范了不同分析型應用之間的口徑描述,使得不同系統(tǒng)間對某個特定的分析指標具有一致的定義,解決了同名不同義和同義不同名的情況。在數(shù)據層面,基礎數(shù)據項體系保證了不同子系統(tǒng)間分析結果的唯一性,解決了同一個分析指標在不同系統(tǒng)間出現(xiàn)不同的分析結果、分析結果相互矛盾的情況。所有分析應用系統(tǒng)對某些憑證數(shù)據的查詢和公共的分析指標的利用都來源于統(tǒng)一的基礎數(shù)據項部分(當然還會有其它非公共的數(shù)據,這些非公共的數(shù)據從 數(shù)據層的其它部分獲取),保證了多子系統(tǒng)間分析口徑的一致性和數(shù)據的唯一性。

41、1.3.3.2.1基礎數(shù)據項的定義基礎數(shù)據項是對稅務系統(tǒng)內各類常見的憑證數(shù)據和分析指標在數(shù)據層面的 解釋和實現(xiàn)。例如,登記戶數(shù)、應中報戶數(shù)、已申報戶數(shù)、稅收收入等。它包含 三個要素:1、口徑在業(yè)務上,用于規(guī)范基礎數(shù)據項的業(yè)務口徑, 使基礎數(shù)據項不是籠統(tǒng)的、模 糊的。在設計實現(xiàn)時,用于明確每個基礎數(shù)據項進行取數(shù)的事實表和表的字段, 以及取數(shù)時的限制條件等。2、維度維度用來確定基礎數(shù)據項的屬性,明確可以從哪些視角出發(fā)來分析某個特定 的基礎數(shù)據項。因為一致性維度標準的建設,所以基礎數(shù)據項體系中維度這個要 素保證了基礎數(shù)據項在不同應用子系統(tǒng)之間的一致性, 使不同子系統(tǒng)間對同一個 基礎數(shù)據項、同一個維度的分析都能得到唯一的值。在基礎數(shù)據項體系中,與它關系密切的一致性維度包括:(1)稅務機構稅務機構維用于確定某個基礎數(shù)據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論