安徽地稅數(shù)據(jù)集中方案_第1頁
安徽地稅數(shù)據(jù)集中方案_第2頁
安徽地稅數(shù)據(jù)集中方案_第3頁
安徽地稅數(shù)據(jù)集中方案_第4頁
安徽地稅數(shù)據(jù)集中方案_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、.:.;一、概述1.1背景安徽省地稅在2006年全省上線運轉(zhuǎn)了安徽征收管理系統(tǒng)ahtax2005,全省的信息化任務(wù)曾經(jīng)全面展開。但是系統(tǒng)是在各地市獨立運轉(zhuǎn)的,對于省地稅來說,無法及時準(zhǔn)確地了解全省的稅收情況。另外,稅務(wù)數(shù)據(jù)的省級集中也是一個大的趨勢。為了執(zhí)行國家稅務(wù)總局要求稅務(wù)數(shù)據(jù)全省集中,以及實踐的需求,必需建立一致的數(shù)據(jù)中心,集合全省的數(shù)據(jù)。目前,安徽省全省共有17個地市,加上省屬直接單位,共有18個業(yè)務(wù)數(shù)據(jù)庫在運轉(zhuǎn),各地數(shù)據(jù)都在本地效力器存放,雖然全省曾經(jīng)實現(xiàn)17個地市的2M帶寬的銜接,但是要對全省的數(shù)據(jù)進(jìn)展查詢分析還是比較費事的。而且,由于各地稅的數(shù)據(jù)是相對獨立的,雖然運用的是同一套系

2、統(tǒng),但是由于各地的情況比較復(fù)雜,數(shù)據(jù)存在不一致的風(fēng)險。因此,必需建立一致的數(shù)據(jù)模型,經(jīng)過建立數(shù)據(jù)倉庫整合數(shù)據(jù),支撐全省查詢分析的需求。1.2系統(tǒng)建立目的安徽地稅數(shù)據(jù)中心的建立目的是:1、經(jīng)過一致的數(shù)據(jù)存儲平臺,對數(shù)據(jù)進(jìn)展規(guī)范化處置和規(guī)范化管理,實現(xiàn)數(shù)據(jù)透明和共享。目前各地市運用系統(tǒng)在線數(shù)據(jù)保管在不同的數(shù)據(jù)庫中,各數(shù)據(jù)構(gòu)造大致一樣,但數(shù)據(jù)的一致性、一致性和規(guī)范性較差,數(shù)據(jù)共享非常困難。因此,經(jīng)過數(shù)據(jù)中心構(gòu)建安徽地稅一致的數(shù)據(jù)效力平臺,實現(xiàn)企業(yè)數(shù)據(jù)的一致規(guī)劃、集中采集、集中處置和一致管理,構(gòu)成地稅數(shù)據(jù)的一致視圖,實現(xiàn)數(shù)據(jù)透明和共享,充分發(fā)揚地稅數(shù)據(jù)資源的價值。2、有效支撐統(tǒng)計分析及查詢運用等功能。

3、經(jīng)過數(shù)據(jù)中心的建立,整合各地市、各業(yè)務(wù)系統(tǒng)等多種數(shù)據(jù)源,構(gòu)成一致的業(yè)務(wù)數(shù)據(jù)視圖,并采用統(tǒng)計分析、查詢等方式滿足各級專業(yè)和管理部門人員的不同要求。3、在完成前兩步目的的根底上,進(jìn)一步建立全省的數(shù)據(jù)倉庫,支撐更多的業(yè)務(wù)查詢、統(tǒng)計分析、數(shù)據(jù)發(fā)掘功能,提升管理和整體決策才干。1.3系統(tǒng)建立原那么系統(tǒng)建立遵照以下原那么:整體規(guī)劃,分步實施, 循序漸進(jìn),步步見效;有效控制工程風(fēng)險;維護(hù)投資的長期有效性,資源能得到有效利用;為數(shù)據(jù)和運用大集中做好預(yù)備。二、技術(shù)方案數(shù)據(jù)倉庫體系構(gòu)造如以下圖所示:整個數(shù)據(jù)倉庫系統(tǒng)是一個包含四個層次的體系構(gòu)造:數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的根底,是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括內(nèi)部信息和

4、外部信息。內(nèi)部信息包括存放于關(guān)系數(shù)據(jù)庫中的各種業(yè)務(wù)處置數(shù)據(jù)和各類文檔數(shù)據(jù),外部信息包括各類法律法規(guī)、經(jīng)濟(jì)統(tǒng)計信息等等。數(shù)據(jù)存儲與管理:是整個數(shù)據(jù)倉庫系統(tǒng)的中心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q議了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決議了其對外部數(shù)據(jù)的表現(xiàn)方式。要決議采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的中心,那么需求從數(shù)據(jù)倉庫的技術(shù)特點著手分析。針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)展抽取、清理,并有效集成,按照主題進(jìn)展組織。其中,數(shù)據(jù)的存儲與管理在數(shù)據(jù)倉庫中通常按照三個層面進(jìn)展存儲和管理:操作數(shù)據(jù)存儲區(qū)ODS、數(shù)據(jù)倉庫DW、數(shù)據(jù)集市DM。在線分析效力器OLAP:對分析需求的數(shù)據(jù)進(jìn)展有

5、效集成,按多維模型予以組織,以便進(jìn)展多角度、多層次的分析,并發(fā)現(xiàn)趨勢。其詳細(xì)實現(xiàn)可以分為:關(guān)系型在線分析ROLAP、多維在線分析MOLAP和混合在線分析HOLAP。ROLAP根本數(shù)據(jù)和聚合數(shù)據(jù)均存放在關(guān)系數(shù)據(jù)庫之中;MOLAP根本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP根本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。前端工具:主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)發(fā)掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的運用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對OLAP效力器,報表工具、數(shù)據(jù)發(fā)掘工具主要針對數(shù)據(jù)倉庫。2.1操作數(shù)據(jù)存儲區(qū)ODS2.1.1ODS的定位操作數(shù)據(jù)存儲ODS是運用

6、數(shù)據(jù)庫與數(shù)據(jù)倉庫之間的橋梁,在ODS中系統(tǒng)地進(jìn)展數(shù)據(jù)整合使數(shù)據(jù)倉庫系統(tǒng)的時效性缺乏得以彌補(bǔ),提供一致完好的企業(yè)視圖和準(zhǔn)確的運營數(shù)據(jù)信息;經(jīng)過集中簡化的信息提取過程,提高業(yè)務(wù)運轉(zhuǎn)效率;更有效地統(tǒng)計分析稅務(wù)信息,為實現(xiàn)安徽地稅內(nèi)部自動化的信息和業(yè)務(wù)流程提供便利條件。ODS的建立實現(xiàn)對稅務(wù)數(shù)據(jù)的清理整合,構(gòu)筑一個一致的、完好的數(shù)據(jù)平臺,確定數(shù)據(jù)一切者,建立數(shù)據(jù)同步機(jī)制,一致數(shù)據(jù)編碼定義,建立數(shù)據(jù)訪問機(jī)制,實現(xiàn)業(yè)務(wù)系統(tǒng)數(shù)據(jù)共享,完成運用與數(shù)據(jù)分別,實現(xiàn)數(shù)據(jù)從地市到省級的提升。ODS在安徽地稅數(shù)據(jù)集中方案中可以發(fā)揚以下幾個方面的作用:作為數(shù)據(jù)倉庫的主要數(shù)據(jù)源ODS數(shù)據(jù)庫對運用系統(tǒng)的數(shù)據(jù)進(jìn)展了清洗、轉(zhuǎn)換和

7、整合,存儲了較為詳細(xì)和全面的業(yè)務(wù)運轉(zhuǎn)數(shù)據(jù),ODS數(shù)據(jù)庫中的數(shù)據(jù)不僅具有較高的數(shù)據(jù)質(zhì)量,而且比運用系統(tǒng)更有利于數(shù)據(jù)倉庫對數(shù)據(jù)進(jìn)展獲取和進(jìn)一步轉(zhuǎn)換,是數(shù)據(jù)倉庫的主要數(shù)據(jù)來源。提供報表和查詢統(tǒng)計功能ODS從不同的運用系統(tǒng)中采集數(shù)據(jù),整合各個運用系統(tǒng)的共享數(shù)據(jù),構(gòu)成企業(yè)級數(shù)據(jù)的整體視圖,實現(xiàn)綜合統(tǒng)計和報表查詢功能。進(jìn)一步引導(dǎo)需求經(jīng)過ODS的建立及建立在其上的運用,進(jìn)一步啟發(fā)新的業(yè)務(wù)需求,為數(shù)據(jù)倉庫的建立打下根底。2.1.2數(shù)據(jù)抽取、轉(zhuǎn)換與加載ETL 數(shù)據(jù)源安徽省地稅數(shù)據(jù)中心需求采集的業(yè)務(wù)根本數(shù)據(jù)包括:稅務(wù)登記核定管理申報征收發(fā)票管理票證管理行政執(zhí)法稅費檢查會統(tǒng)管理這些數(shù)據(jù)主要從以下一些消費作業(yè)系統(tǒng)獲得

8、:安徽地稅征收管理系統(tǒng)ahtax2005.1稅務(wù)登記1、目的:獲取納稅人信息等。納稅人根本登記信息,應(yīng)繳稅種信息,納稅人當(dāng)前情況,證照信息等。2、信息交換方式:直接訪問數(shù)據(jù)庫。3、通訊呼叫方式:納稅人新信息每日定時上傳訪問一次,假設(shè)當(dāng)日沒有數(shù)據(jù)那么不需求上傳。4、數(shù)據(jù)文件稱號與內(nèi)容:1稅務(wù)登記信息:納稅人稱號,運營地址,行業(yè)信息,開業(yè)時間,納稅人形狀,所屬稅務(wù)機(jī)關(guān),科室代碼,注冊類型代碼,主營范圍,兼營范圍,運營方式,注冊資本,工商登記等。2納稅人繳稅信息稅種代碼、稅目代碼、繳稅頻率按月、季、半年、年等,限繳期限。3納稅人形狀信息停復(fù)業(yè)登記,注銷登記、非正常戶確認(rèn),納稅人遷移。4證照信息證件打

9、印,封存、繳銷、作廢、遺失。.2核定管理1、目的:獲取定期定額納稅人的稅收信息。核定稅款信息,核定社保費信息。2、信息交換方式:FTP訪問數(shù)據(jù)庫。3、通訊呼叫方式:本地核定操作后,每月定時往數(shù)據(jù)中心系統(tǒng)ETL效力器傳送本地網(wǎng)的一切核定信息;或經(jīng)過各本地網(wǎng)接口效力器直接訪問。4、數(shù)據(jù)文件稱號與內(nèi)容:1核定稅款信息核定時期,核定所屬期,申報年月,核定的稅種、稅目,核定稅額。2社保費核定信息核定時期,核定所屬期,申報年月,核定的稅種、稅目,核定費額。.3申報征收1、目的:各地市的申報征收開票信息。2、信息交換方式:FTP訪問、直接訪問數(shù)據(jù)庫。由于涉及較大的數(shù)據(jù)量,思索到效力器的壓力,建議經(jīng)過FTP的

10、方式間接訪問數(shù)據(jù)局庫。3、通訊呼叫方式:每月定時傳送訪問二次。征收期過后一次,月末一次。4、數(shù)據(jù)文件稱號與內(nèi)容:1申報信息企業(yè)編碼,申報日期,申報稅種、申報稅目,申報日期,限期申報日期,申報所屬期,申報類型,預(yù)算級次,預(yù)算科目,記稅金額,申報稅款,減免稅款,能否零申報,金庫編碼2開票信息企業(yè)編碼,開票日期,入庫日期,欠稅屬性編碼,限繳日期,開票稅金,減免稅金,計納稅金,稅率、金庫編碼,預(yù)算級次,款項類別,稅票號碼,開戶銀行,銀行賬號3減免稅信息企業(yè)編碼,減免稅種、稅目,減免類型,減免期限,減免比率或減免金額4延期申報信息企業(yè)編碼,延期稅種、稅目、稅款所屬期、延期交納時間、延期理由5欠稅信息 企

11、業(yè)編碼,稅種編碼、稅目編碼、稅款所屬期,欠稅金額,欠稅屬性編碼.4發(fā)票管理1、目的:各地市發(fā)票方案、印制、庫存等信息2、信息交換方式:直接訪問數(shù)據(jù)庫。3、通訊呼叫方式:每日定時上傳訪問一次。4、數(shù)據(jù)文件稱號與內(nèi)容:1發(fā)票方案信息發(fā)票稱號,方案領(lǐng)購數(shù)量2發(fā)票印制信息承印單位,發(fā)票代碼,印制數(shù)量、印制價錢。3發(fā)票操作信息發(fā)票發(fā)出數(shù)量,發(fā)票入庫數(shù)量,發(fā)票核銷等。4發(fā)票賬務(wù)信息發(fā)票記賬信息、結(jié)賬信息。.5票證管理1、目的:各地稅票信息2、信息交換方式:直接訪問數(shù)據(jù)庫。3、通訊呼叫方式:每月定時上傳訪問一次。4、數(shù)據(jù)文件稱號與內(nèi)容:1票證領(lǐng)單票證編碼,發(fā)出機(jī)關(guān),領(lǐng)入機(jī)關(guān),字軌,票號,數(shù)量。2票證領(lǐng)據(jù)票證

12、編碼,發(fā)出機(jī)關(guān),用票人編碼,領(lǐng)用數(shù)量,字軌,票證號碼范圍,數(shù)量。3票證結(jié)報票證編碼,用票人,結(jié)報類型,結(jié)報數(shù)量,字軌,票證號碼范圍。4票證上繳票證編碼、用票人,上繳單位,數(shù)量、字軌,票證號碼范圍。.6行政執(zhí)法1、目的:各地行政處分?jǐn)?shù)據(jù)2、信息交換方式:FTP訪問。3、通訊呼叫方式:每日定時上傳訪問一次。4、數(shù)據(jù)文件稱號與內(nèi)容:1處分案件登記案件稱號,納稅人編碼,處分緣由,案件來源,處分類型,處分方式,違章緣由。2處分案件情況表案件編碼,處分根據(jù),處分金額,處分時間,處分類型。.7稅費檢查1、目的:各地稽查和稅費檢查情況數(shù)據(jù):2、信息交換方式:直接訪問數(shù)據(jù)庫。3、通訊呼叫方式:每日定時上傳訪問一

13、次。4、數(shù)據(jù)文件稱號與內(nèi)容:1案件情況表案件編號,企業(yè)編碼,企業(yè)稱號,行業(yè)編碼,檢稽查所屬期,檢稽查時間,案件檢稽查單位,案件形狀,結(jié)案時間,立卷時間,能否立案,能否大要案,檢查人員,審理人員,執(zhí)行人員。2案件檢查情況案件編號,查處稅種,查處稅目,查處期間,查處金額,稅款類型,預(yù)算級次,款項類型,所屬金庫編碼,處分機(jī)關(guān),征收機(jī)關(guān)編碼。 數(shù)據(jù)源分析數(shù)據(jù)源可以做如下分類:1按照數(shù)據(jù)類型:流水型數(shù)據(jù)記錄增量產(chǎn)生,原記錄不能修正的數(shù)據(jù),該類數(shù)據(jù)通常按照一定的周期,根據(jù)時間戳傳送特定的紀(jì)錄。例如:系統(tǒng)的字典表和關(guān)鍵的輔助表:BM_SZ,BM_SM等。混合型數(shù)據(jù)記錄既可以增量產(chǎn)生,原記錄又可以修正的數(shù)據(jù),

14、該類數(shù)據(jù)通常按照一定的周期,對數(shù)據(jù)進(jìn)展整表傳送。稅收數(shù)據(jù)大部分都是這種類型的數(shù)據(jù)。稅收的大部分?jǐn)?shù)據(jù)都是這種類型:比如登記信息表,征收表等。2按照數(shù)據(jù)量:大數(shù)據(jù)量數(shù)據(jù)量到達(dá)每天百萬條記錄以上。從全省的角度來講,申報表和開票表接近這個數(shù)據(jù)量。中等數(shù)據(jù)量數(shù)據(jù)量為每天一萬條記錄以上。其他業(yè)務(wù)數(shù)據(jù)。小數(shù)據(jù)量數(shù)據(jù)量低于每天萬條條記錄。根本上比較少,如部分文書表等。3按照數(shù)據(jù)周期:實時、日周期、月周期、年周期、不定周期。 數(shù)據(jù)抽取、轉(zhuǎn)換、加載ETL即數(shù)據(jù)抽取、轉(zhuǎn)換和加載,是數(shù)據(jù)中心實現(xiàn)過程中,將數(shù)據(jù)由數(shù)據(jù)源系統(tǒng)向數(shù)據(jù)中心加載的主要過程。從功能上看,整個ETL包括三個部分: 數(shù)據(jù)抽?。簭臄?shù)據(jù)源系統(tǒng)抽取數(shù)據(jù)中心

15、系統(tǒng)需求的數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換:將從數(shù)據(jù)源獲取的數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)中心要求的方式,對數(shù)據(jù)進(jìn)展轉(zhuǎn)換;數(shù)據(jù)加載:將數(shù)據(jù)裝入數(shù)據(jù)中心。ETL實現(xiàn)過程的流程圖如以下圖所示:在ETL的整個過程中,還必需充分思索異常情況的處置。.1 數(shù)據(jù)抽取.1.1 數(shù)據(jù)抽取接口1、直接訪問接口直接訪問方式是在對方數(shù)據(jù)庫上建立接口表或視圖,本系統(tǒng)經(jīng)過數(shù)據(jù)鏈接直接獲取對方數(shù)據(jù),然后進(jìn)展處置的數(shù)據(jù)通訊方法。該方法適用于雙方數(shù)據(jù)庫在同一臺效力器上或在同一個局域網(wǎng)內(nèi)。2、FTP方式在省中心配置ETL效力器,在ETL效力器上安裝并啟動FTP效力,外部系統(tǒng)需求發(fā)送給本系統(tǒng)的數(shù)據(jù)由相關(guān)外部系統(tǒng)定期或按需將需求傳送的數(shù)據(jù)按要求組織成文本格式文件,

16、經(jīng)過FTP上傳到本系統(tǒng)的ETL效力器。FTP文件存放位置在省級ETL效力器中,一致建立針對外圍不同系統(tǒng)存放文件的總目錄,并以本地網(wǎng)為單位設(shè)置相應(yīng)子目錄,子目錄稱號為各本地網(wǎng)稱號的全拼拼音字母,用來存放各本地網(wǎng)上傳的文件;FTP文件命名規(guī)那么用文件擴(kuò)展名區(qū)分?jǐn)?shù)據(jù)文件類型,構(gòu)造類型不同的數(shù)據(jù)文件其擴(kuò)展名將不同。文件擴(kuò)展名長兩位,每位取值范圍從0-9、A-Z;文件名前半部分分兩種情況:對于每天生成的數(shù)據(jù)文件,取文件內(nèi)數(shù)據(jù)發(fā)生的日期,詳細(xì)文件格式:yyyy年mm月dd日.?。對于每月生成的數(shù)據(jù)文件,那么取文件內(nèi)數(shù)據(jù)所屬的帳務(wù)月或統(tǒng)計月,詳細(xì)文件格式:yyyy年mm月.?。FTP文件格式可以按照各系統(tǒng)和

17、實踐情況,靈敏設(shè)置FTP文件的格式,如:文本文件的分隔符采用逗號方式,記錄終了標(biāo)識為換行/回車;或采用字段定長,記錄定長的方式。FTP文件傳送完成確認(rèn)方法由于數(shù)據(jù)文件能夠很大,F(xiàn)TP傳送能夠是個漫長的過程,本系統(tǒng)接口處置程序不知道數(shù)據(jù)文件什么時候傳送終了。因此,在此要求每個數(shù)據(jù)文件傳送完成之后,再傳送一個數(shù)據(jù)文件傳輸完成確實認(rèn)文件,該確認(rèn)文件以要確認(rèn)傳送終了的數(shù)據(jù)文件擴(kuò)展名后加字符A,文件類容僅僅包含要確認(rèn)傳送終了的數(shù)據(jù)文件名。一批傳送多個數(shù)據(jù)文件時,每一個數(shù)據(jù)文件對應(yīng)一個確認(rèn)文件。例如:要上傳一個20021024.A1的數(shù)據(jù)文件,確認(rèn)文件名為20021024.A1A,確認(rèn)文件內(nèi)容為:2002

18、1024.A1。.1.2 數(shù)據(jù)抽取戰(zhàn)略數(shù)據(jù)的抽取必需可以充分滿足數(shù)據(jù)中心的需求,又能保證不影響業(yè)務(wù)系統(tǒng)的性能,所以進(jìn)展數(shù)據(jù)抽取時應(yīng)制定相應(yīng)的戰(zhàn)略,包括抽取方式、抽取時機(jī)、抽取周期等內(nèi)容。抽取方式:增量抽取、完全抽取等。抽取時機(jī):盡能夠避開業(yè)務(wù)系統(tǒng)的頂峰時段,可選擇在夜間業(yè)務(wù)系統(tǒng)比較閑時進(jìn)展。抽取周期:對不同類型的數(shù)據(jù)源,應(yīng)綜合思索業(yè)務(wù)需求和系統(tǒng)代價,制定合理的抽取周期。在制定抽取戰(zhàn)略時,需求對以上各項要素綜合思索。通常情況下,流水型增長且數(shù)據(jù)量大的數(shù)據(jù)適宜采用增量抽取的方式;變化更新的數(shù)據(jù)適宜采用完全抽取的方式;對于兩者結(jié)合的數(shù)據(jù),假設(shè)能提取增量信息,那么進(jìn)展增量抽取,否那么采用完全抽取的方式

19、進(jìn)展。此外,對于抽取周期要思索實踐業(yè)務(wù)的需求和抽取進(jìn)展的系統(tǒng)代價,在能夠的情況下,盡量縮短抽取周期。.2 數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換是指對從業(yè)務(wù)系統(tǒng)中抽取的源數(shù)據(jù)根據(jù)數(shù)據(jù)中心模型的要求,進(jìn)展數(shù)據(jù)的轉(zhuǎn)換、清洗、拆分、匯總等處置,保證不同系統(tǒng)、不同格式的數(shù)據(jù)的一致性和完好性,并按要求裝入數(shù)據(jù)中心。.2.1 數(shù)據(jù)轉(zhuǎn)換的主要功能數(shù)據(jù)轉(zhuǎn)換主要完成由于以下緣由呵斥的數(shù)據(jù)不一致性問題:源數(shù)據(jù)系統(tǒng)同數(shù)據(jù)中心系統(tǒng)在模型上的差別性;源數(shù)據(jù)系統(tǒng)平臺不一致:數(shù)據(jù)中心系統(tǒng)的數(shù)據(jù)源能夠包括基于不同平臺的數(shù)據(jù)庫的數(shù)據(jù),能夠會存在大量的轉(zhuǎn)碼任務(wù)。;源數(shù)據(jù)構(gòu)造的不一致:有些數(shù)據(jù)源由于歷史的緣由,導(dǎo)致同一個表在不同的時期數(shù)據(jù)構(gòu)造不一致;源

20、數(shù)據(jù)定義不規(guī)范導(dǎo)致錯誤數(shù)據(jù);對數(shù)據(jù)的約束不嚴(yán)厲,導(dǎo)致無意義數(shù)據(jù);存在反復(fù)記錄。.2.2 數(shù)據(jù)轉(zhuǎn)換技術(shù)和戰(zhàn)略根據(jù)實踐情況,數(shù)據(jù)轉(zhuǎn)換任務(wù)普通會在以下幾個環(huán)節(jié)中詳細(xì)實現(xiàn):在抽取過程中進(jìn)展數(shù)據(jù)處置;運用異步數(shù)據(jù)加載,以文件的方式處置;在數(shù)據(jù)加載過程中進(jìn)展數(shù)據(jù)處置;進(jìn)入數(shù)據(jù)中心以后再進(jìn)展數(shù)據(jù)處置。采用在數(shù)據(jù)抽取過程中進(jìn)展數(shù)據(jù)轉(zhuǎn)換時,必需思索抽取的性能以及對業(yè)務(wù)系統(tǒng)性能的影響;采用異步數(shù)據(jù)加載需求以文件方式處置時,必需充分思索中間磁盤的存儲量以及ETL整個流程的協(xié)調(diào)性任務(wù),以及大量的非SQL語句的編程;采用在數(shù)據(jù)加載過程中進(jìn)展數(shù)據(jù)轉(zhuǎn)換時,必需思索加載性能;采用先將數(shù)據(jù)裝載到數(shù)據(jù)中心后再處置時,必需思索數(shù)據(jù)

21、中心引擎的海量數(shù)據(jù)處置才干。.3 數(shù)據(jù)加載.3.1 數(shù)據(jù)加載主要功能數(shù)據(jù)加載就是將從數(shù)據(jù)源系統(tǒng)中抽取、轉(zhuǎn)換后的數(shù)據(jù)加載到操作數(shù)據(jù)存儲區(qū)或數(shù)據(jù)倉庫系統(tǒng)中。要求數(shù)據(jù)加載工具必需具有高效的加載性能。.3.2 數(shù)據(jù)加載技術(shù)及戰(zhàn)略主要加載技術(shù):運用數(shù)據(jù)倉庫引擎廠商提供的數(shù)據(jù)加載工具進(jìn)展數(shù)據(jù)加載;經(jīng)過數(shù)據(jù)倉庫引擎廠商提供的API編程進(jìn)展數(shù)據(jù)加載。數(shù)據(jù)加載戰(zhàn)略要思索加載周期及數(shù)據(jù)追加戰(zhàn)略兩方面的內(nèi)容。根據(jù)安徽地稅業(yè)務(wù)數(shù)據(jù)的實踐情況,加載周期要綜合思索業(yè)務(wù)分析需求和系統(tǒng)加載的代價,對不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采用不同的加載周期,但必需堅持同一時間業(yè)務(wù)數(shù)據(jù)的完好性。數(shù)據(jù)的追加戰(zhàn)略根據(jù)數(shù)據(jù)的抽取戰(zhàn)略以及業(yè)務(wù)規(guī)那么確定,普

22、通有以下三種類型:直接追加、全部覆蓋、更新追加。直接追加:是指每次加載時直接將數(shù)據(jù)追加到目的表中。對于典型的流水?dāng)?shù)據(jù),普通采用此方法;全部覆蓋:對于抽取數(shù)據(jù)本身已包括了數(shù)據(jù)的當(dāng)前和一切歷史情況,對目的表采用全部覆蓋方式。更新追加:對于需求延續(xù)記錄業(yè)務(wù)的形狀變化,用當(dāng)前的最新形狀同歷史形狀數(shù)據(jù)進(jìn)展對比的情況采用更新追加的方式。詳細(xì)采取何種方式,要綜合思索效率、業(yè)務(wù)虛現(xiàn)等要素。 數(shù)據(jù)審計每個數(shù)據(jù)加載周期中,如何保證數(shù)據(jù)中心中數(shù)據(jù)同業(yè)務(wù)系統(tǒng)中數(shù)據(jù)在業(yè)務(wù)意義上的一致性及數(shù)據(jù)的準(zhǔn)確性極其重要。因此,必需引進(jìn)數(shù)據(jù)審計功能。數(shù)據(jù)正確性的審計任務(wù)是在數(shù)據(jù)加載任務(wù)完成以后,一方面要從設(shè)計到實施的整個過程中確保算

23、法的正確性,另一方面要經(jīng)過事后的檢驗來檢查ETL的正確性。理想的情況是,審計任務(wù)必需在數(shù)據(jù)抽取、轉(zhuǎn)換、加載等一切的階段都要進(jìn)展,比如,假設(shè)采用異步數(shù)據(jù)抽取和加載,那么在數(shù)據(jù)抽取傳輸終了后,要從記錄數(shù)、文件大小等角度檢驗抽取和傳輸?shù)恼_性。數(shù)據(jù)加載終了后,一方面經(jīng)過加載日志檢驗加載過程的正確性,另一方面要經(jīng)過業(yè)務(wù)規(guī)那么來校驗數(shù)據(jù)的正確性。2.2數(shù)據(jù)倉庫DW數(shù)據(jù)倉庫Data Warehouse是一個面向主題的Subject Oriented、集成的Integrate、相對穩(wěn)定的Non-Volatile、反映歷史變化Time Variant的數(shù)據(jù)集合,用于支持管理決策。對于數(shù)據(jù)倉庫的概念我們可以從兩

24、個層次予以了解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處置,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)展了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)普通不再修正。根據(jù)數(shù)據(jù)倉庫概念的含義,數(shù)據(jù)倉庫擁有以下四個特點:面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處置義務(wù),各個業(yè)務(wù)系統(tǒng)之間各自分別,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)展組織。主題是一個籠統(tǒng)的概念,是指用戶運用數(shù)據(jù)倉庫進(jìn)展決策時所關(guān)懷的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。集成的。面向事務(wù)處置的操作型數(shù)據(jù)庫通常與某些特定的運用相關(guān),數(shù)據(jù)庫之間相互獨立,并且往往是異構(gòu)的。

25、而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的根底上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必需消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需求及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,普通情況下將被長期保管,也就是數(shù)據(jù)倉庫中普通有大量的查詢操作,但修正和刪除操作很少,通常只需求定期的加載、刷新。反映歷史變化。操作型數(shù)據(jù)庫主要關(guān)懷當(dāng)前某一個時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開場運用數(shù)據(jù)

26、倉庫的時點)到目前的各個階段的信息,經(jīng)過這些信息,可以對企業(yè)的開展歷程和未來趨勢做出定量分析和預(yù)測。企業(yè)數(shù)據(jù)倉庫的建立,是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為根底。數(shù)據(jù)倉庫不是靜態(tài)的概念,只需把信息及時交給需求這些信息的運用者,供他們做出改善其業(yè)務(wù)運營的決策,信息才干發(fā)揚作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供應(yīng)相應(yīng)的管理決策人員,是數(shù)據(jù)倉庫的根本義務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉庫建立是一個工程,是一個過程。2.2.1主題數(shù)據(jù)庫數(shù)據(jù)倉庫里的數(shù)據(jù)都是按照業(yè)務(wù)主題進(jìn)展組織的。主題數(shù)據(jù)庫的根本特征如下:1面向業(yè)務(wù)主題(不是面向單個報表)。主題數(shù)據(jù)庫是面向業(yè)務(wù)主題的數(shù)據(jù)組織存

27、儲,例如,對于安徽地稅來講,需求建立的典型的主題數(shù)據(jù)庫包括:稅務(wù)、申報、發(fā)票、票證、行政執(zhí)法、稅費等數(shù)據(jù)庫的構(gòu)造,是對有關(guān)稅務(wù)、發(fā)票、稅費的數(shù)據(jù)項進(jìn)展分析整理而設(shè)計的,不是按稅務(wù)、發(fā)票、稅費的原樣建立的。這些主題數(shù)據(jù)庫與稅務(wù)管理中要處理的主要問題相關(guān)聯(lián),而不是與通常的計算機(jī)運用工程相關(guān)聯(lián)。2信息共享(不是信息私有或部門一切)。主題數(shù)據(jù)庫是對各個運用系統(tǒng)“自建自用的數(shù)據(jù)庫的徹底否認(rèn),強(qiáng)調(diào)建立各個運用系統(tǒng)“共建共用的共享數(shù)據(jù)庫。不同的運用系統(tǒng)的計算機(jī)程序調(diào)用這些主題數(shù)據(jù)庫。3一次一處輸入系統(tǒng)(不是多次多處輸入系統(tǒng))。主題數(shù)據(jù)庫要求調(diào)研分析各業(yè)務(wù)層次上的數(shù)據(jù)源,強(qiáng)調(diào)數(shù)據(jù)的就地采集、就地處置、運用和存

28、儲,以及必要的傳輸、匯總和集中存儲。同一數(shù)據(jù)必需一次、一處進(jìn)入系統(tǒng),保證其準(zhǔn)確性、及時性和完好性,經(jīng)由網(wǎng)絡(luò)-計算機(jī)-數(shù)據(jù)庫系統(tǒng),可以多次、多處運用。4由根本表組成。一個主題數(shù)據(jù)庫的科學(xué)的數(shù)據(jù)構(gòu)造,是由多個到達(dá)“根本表(BaseTable)規(guī)范的數(shù)據(jù)實體構(gòu)成的,這些根本表具有如下的特性:原子性根本表中的數(shù)據(jù)項是數(shù)據(jù)元素即最小的、不能再分解的信息單元;演繹性可由根本表中的數(shù)據(jù)生成全部輸出數(shù)據(jù)即這些根本表是精練的,經(jīng)過計算處置可以產(chǎn)生全部企業(yè)管理所需求的數(shù)據(jù);規(guī)范性根本表中數(shù)據(jù)滿足三范式(3-NF)要求,這是科學(xué)的、能滿足演繹性要求、并能保證快捷存取的數(shù)據(jù)構(gòu)造。在設(shè)計的同時,關(guān)鍵是要做好數(shù)據(jù)字典的維

29、護(hù)任務(wù),以使他對本人的數(shù)據(jù)庫了如指掌。2.2.2數(shù)據(jù)存儲數(shù)據(jù)倉庫為安徽地稅各級管理部門、分析人員的分析、決策操作提供一致、集成的根底數(shù)據(jù),包括安徽地稅各個業(yè)務(wù)部門當(dāng)前及其歷史的細(xì)節(jié)性業(yè)務(wù)數(shù)據(jù),以及為了進(jìn)展分析決策操作而生成的分析型數(shù)據(jù),是一個一致、集成、穩(wěn)定、基于歷史數(shù)據(jù)的龐大數(shù)據(jù)集合,需求借助成熟的數(shù)據(jù)庫技術(shù)對其進(jìn)展存儲管理,即利用改造過的關(guān)系數(shù)據(jù)庫系統(tǒng)來組織和管理面向主題的數(shù)據(jù)倉庫中的數(shù)據(jù)。 整合業(yè)務(wù)數(shù)據(jù)的根底數(shù)據(jù)層數(shù)據(jù)倉庫系統(tǒng)的根底數(shù)據(jù)是按照主題來組織的。根底數(shù)據(jù)層只思索數(shù)據(jù)本身的來源與屬性,按照業(yè)務(wù)本身的數(shù)據(jù)之間的相互關(guān)系來組織數(shù)據(jù),而不思索數(shù)據(jù)的運用,即“整合數(shù)據(jù),其目的在于減少數(shù)據(jù)

30、的冗余,提高系統(tǒng)的靈敏性,能快速的實現(xiàn)新增主題和功能。 面向決策支持的分析數(shù)據(jù)層運用數(shù)據(jù)層與詳細(xì)的運用需求嚴(yán)密結(jié)合,按照運用的要求來組織根底數(shù)據(jù)層的數(shù)據(jù)。面向運用,其目的就是針對面向主題,面向詳細(xì)的運用,提高訪問、執(zhí)行、查詢的效率,即“面向決策支持。 數(shù)據(jù)倉庫信息模型數(shù)據(jù)倉庫信息主題,主要包括:稅務(wù)登記、核定管理、申報征收、發(fā)票管理、票證管理、行政執(zhí)法、稅費檢查、會統(tǒng)管理等,按照安徽地稅信息的組成進(jìn)展前瞻性的構(gòu)造設(shè)計。2.2.3數(shù)據(jù)展現(xiàn)數(shù)據(jù)倉庫系統(tǒng)應(yīng)提供靈敏多樣的展現(xiàn)方式。目前常用的展現(xiàn)方式有:固定預(yù)定義報表、圖表、即席查詢Ad-Hoc、多維動態(tài)分析等。各主題分析的展現(xiàn)方式除了可以經(jīng)過以上方式

31、進(jìn)展展現(xiàn),對于異常的分析結(jié)果還可以經(jīng)過短音訊、或其他告警方式進(jìn)展預(yù)警。表格和圖表可以轉(zhuǎn)換為Excel等格式,分析人員可以根據(jù)需求排序、分組數(shù)據(jù)并改動圖表的類型直方圖、餅形圖、折線圖、堆積圖等,可在任何維度上經(jīng)過“鉆取和“切片生成報表及圖形。復(fù)合報表要“所見即所得。2.2.4數(shù)據(jù)發(fā)掘數(shù)據(jù)發(fā)掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。隨著信息技術(shù)的高速開展,人們積累的數(shù)據(jù)量急劇增長,動輒以TB計,如何從海量的數(shù)據(jù)中提取有用的知識成為當(dāng)務(wù)之急。數(shù)據(jù)發(fā)掘就是為順應(yīng)這種需求應(yīng)運而生開展起來的數(shù)據(jù)處置

32、技術(shù)。是知識發(fā)現(xiàn)(Knowledge Discovery in Database)的關(guān)鍵步驟。數(shù)據(jù)發(fā)掘步驟普通包括定義問題、數(shù)據(jù)預(yù)備、數(shù)據(jù)發(fā)掘、結(jié)果分析和知識運用等步驟。1、定義問題:明晰地定義出業(yè)務(wù)問題,確定數(shù)據(jù)發(fā)掘的目的。2、數(shù)據(jù)預(yù)備:包括:選擇數(shù)據(jù):在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫目的中提取數(shù)據(jù)發(fā)掘的目的數(shù)據(jù)集;數(shù)據(jù)預(yù)處置:進(jìn)展數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完好性及數(shù)據(jù)的一致性、去噪聲,填補(bǔ)喪失的域,刪除無效數(shù)據(jù)等。3、數(shù)據(jù)發(fā)掘:根據(jù)數(shù)據(jù)功能的類型和和數(shù)據(jù)的特點選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進(jìn)展數(shù)據(jù)發(fā)掘。4、結(jié)果分析:對數(shù)據(jù)發(fā)掘的結(jié)果進(jìn)展解釋和評價,轉(zhuǎn)換成為可以最終被用戶了解的知識。5、知識

33、運用:將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織構(gòu)造中去。2.3系統(tǒng)平臺要求2.3.1 系統(tǒng)容量規(guī)劃 用戶數(shù)據(jù)量的估算用戶數(shù)據(jù)量的估算與用戶數(shù)、業(yè)務(wù)量、系統(tǒng)中數(shù)據(jù)保管期限、業(yè)務(wù)系統(tǒng)中單個數(shù)據(jù)記錄容量有關(guān)。設(shè)數(shù)據(jù)量為T,估算公式如下:T=U*N*R*Ti其中:U:為安徽省地市稅務(wù)局的數(shù)量;N:為某個地市年業(yè)務(wù)量。對于不同的地市可取業(yè)務(wù)量最大值進(jìn)展估算;R:為單個數(shù)據(jù)記錄的容量;Ti:為數(shù)據(jù)存儲期限。 數(shù)據(jù)倉庫磁盤容量估算數(shù)據(jù)倉庫系統(tǒng)的存儲主要由三部分構(gòu)成,按照數(shù)據(jù)倉庫系統(tǒng)功能構(gòu)造,自上而下分別是:多維數(shù)據(jù)存儲,數(shù)據(jù)倉庫存儲,接口文件存儲??偟拇鎯κ沁@三部分的和。令T為系統(tǒng)的存儲總量,Ta為多維數(shù)

34、據(jù)存儲所需的存儲量,Td為數(shù)據(jù)倉庫存儲所需的存儲量,Ti為接口文件存儲所需的存儲量,三者單位均為GB,那么 TTa +Td +Ti一接口文件存儲所需的存儲量Ti接口文件存儲區(qū)主要用于存放消費系統(tǒng)傳送到數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)文件和一些數(shù)據(jù)倉庫系統(tǒng)從其他系統(tǒng)抽取的部分?jǐn)?shù)據(jù)文檔。估算時可取存儲空間最大的接口文件,其它類型的文件數(shù)據(jù)量可以按該最大接口文件數(shù)據(jù)量的一定比例來計算。由此可得出如下公式:TiU*(1+Pi)*Ni *Nu 其中,U為最大接口文件數(shù)據(jù)量,單位為GB Pi為其他類型文件所占比例因子,通??扇?.05 Ni為接口文件在數(shù)據(jù)倉庫系統(tǒng)中的保管天數(shù) Nu為用戶數(shù)量二數(shù)據(jù)倉庫所需存儲量Td計算

35、數(shù)據(jù)倉庫所需的存儲量,主要思索操作數(shù)據(jù)存儲區(qū)、數(shù)據(jù)倉庫層和數(shù)據(jù)集市層存儲所需的磁盤空間,其中數(shù)據(jù)倉庫層占用絕大部分。這里需求思索承載數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng)、文件系統(tǒng)、RAID、數(shù)據(jù)冗余等對存儲的影響。這些系統(tǒng)所占用的空間都將折合成所需存儲的純數(shù)據(jù)量的比例因子。這里的純數(shù)據(jù)由兩部分構(gòu)成:用戶詳單數(shù)據(jù)和客戶資料數(shù)據(jù)。其中用戶詳單數(shù)據(jù)量可以由用戶數(shù),存儲時間和單用戶每天數(shù)據(jù)量得到,單用戶每天數(shù)據(jù)量的計算公式曾經(jīng)在上節(jié)得出。那么有如下公式:TdU*Nu*Nd*1+Pdb+Praid+Pfs+Predu其中,U為單個地市數(shù)據(jù)量的平均值或最大值,Nu為地市局?jǐn)?shù)量,Nd為存儲時間,Pdb為數(shù)據(jù)庫相關(guān)因子,Prai

36、d為RAID相關(guān)因子,Pfs為文件系統(tǒng)和軟件相關(guān)因子,Predu為系統(tǒng)冗余因子。三多維數(shù)據(jù)存儲所需存儲量Ta這部分所占的存儲空間和運用相關(guān),主要是多維分析所需求的磁盤空間。空間的大小取決于分析的業(yè)務(wù)數(shù)量、維度數(shù)量和層次、分類等要素,還和詳細(xì)采用的產(chǎn)品相關(guān)。凡是和時間相關(guān)的多維分析,其所占用的空間計算公式如下:Ta(Dmea+Ddim*Ndim)*Nserv*Nfact*(NserdimNlevNtype)*Ptdim*Nkp*Ncpr其中:Dmea為現(xiàn)實表中度量字段的平均數(shù)據(jù)量,單位為GBDdim為現(xiàn)實表中維度字段的平均數(shù)據(jù)量,單位為GBNdim為現(xiàn)實表中維度字段的平均個數(shù)Nserv為多維分析

37、業(yè)務(wù)類型平均個數(shù)Nfact為每個業(yè)務(wù)類型分析的現(xiàn)實表平均個數(shù)Nserdim為現(xiàn)實表中除時間維外的維度個數(shù),普通為Ndim-1Nlev為現(xiàn)實表中維度的平均層次數(shù)Ntype為現(xiàn)實表中每個維度層次的平均類型個數(shù)Ptdim為時間維因子,假設(shè)分析到日,那么為365,到月為12Nkp 為數(shù)據(jù)保管周期,單位是年Ncpr為多維數(shù)據(jù)緊縮因子,和詳細(xì)的產(chǎn)品有關(guān)四數(shù)據(jù)庫緊縮技術(shù)某些數(shù)據(jù)倉庫產(chǎn)品中引入了獨特的數(shù)據(jù)緊縮技術(shù),用于數(shù)據(jù)存儲。對于分區(qū)表,可以選擇緊縮全部或部分分區(qū)。緊縮屬性可以在表空間、表或分區(qū)上聲明。假設(shè)在表空間上聲明,那么該表空間中建的一切表都被緊縮存儲。大型數(shù)據(jù)倉庫的緊縮比例通常為2:1到4:1,某些

38、業(yè)務(wù)的數(shù)據(jù)有能夠獲得更高的緊縮比,詳細(xì)的緊縮比與數(shù)據(jù)的類型和存儲的順序有關(guān)。2.3.2 配置要求數(shù)據(jù)倉庫系統(tǒng)主機(jī)效力器與存儲設(shè)備假設(shè)安徽地稅的數(shù)據(jù)倉庫效力器和ETL效力器是分別的,并且不包括對固定報表的訪問,由于這部分報表曾經(jīng)以靜態(tài)數(shù)據(jù)的方式存放在WEB效力器上,對數(shù)據(jù)庫不產(chǎn)生壓力。那么對數(shù)據(jù)倉庫效力器的處置才干要求主要于對數(shù)據(jù)庫的實時查詢。假設(shè):安徽地稅數(shù)據(jù)倉庫系統(tǒng)的用戶數(shù)為Nu系統(tǒng)的最大并發(fā)數(shù)為用戶總數(shù)的10每次查詢平均調(diào)用100個目的每查詢5個目的折合成1個規(guī)范買賣系統(tǒng)在3秒中內(nèi)完成處置那么數(shù)據(jù)倉庫主機(jī)所需求的TPMC為:100/5Nu1060/3 ETL系統(tǒng)主機(jī)效力器與存儲設(shè)備ETL效

39、力器主要的處置任務(wù)包括以下方面:接納消費系統(tǒng)提供的源數(shù)據(jù)或從其他系統(tǒng)抽取數(shù)據(jù)。(我們將這個任務(wù)簡稱為W1)將接口文件包含的數(shù)據(jù)進(jìn)展格式轉(zhuǎn)換,進(jìn)展數(shù)據(jù)清洗,重新整理,生成新格式的記錄插入數(shù)據(jù)庫中或構(gòu)成文件,裝載入數(shù)據(jù)倉庫中,整個過程要求在一定的時間內(nèi)完成。我們將這個任務(wù)簡稱為W2以上的任務(wù)流程為串行關(guān)系,數(shù)據(jù)倉庫效力器的處置才干要求為:MAXW1處置才干要求;W2處置才干要求。一W1處置才干需求分析我們運用以下的條件對W1進(jìn)展處置才干需求分析:一切任務(wù)每日要求在1小時內(nèi)完成;平均抽取150條記錄所需的事務(wù)數(shù)為1;思索四處置過程中能夠遇到的業(yè)務(wù)頂峰期和用戶數(shù)不可預(yù)料的增長情況,效力器的處置才干冗余

40、30%。那么,W1需求的TPMC為:TPMCW1每日抽取的記錄數(shù)/處置時間*60*處置一條記錄所需的事務(wù)數(shù) * 30%二W2處置才干需求分析我們運用以下的條件對W2進(jìn)展處置才干需求分析:一切任務(wù)每日要求在2小時內(nèi)完成;平均處置6條記錄所需的事務(wù)數(shù)為1。那么,W2需求的TPMC為:TPMCW2記錄數(shù)/處置時間*60*處置一條記錄所需的事務(wù)數(shù)根據(jù)以上的分析,ETL效力器的處置才干要求為:MAXW1處置才干要求;W2處置才干要求同時我們需求思索以下要素:添加效力器處置才干的20%,需運轉(zhuǎn)數(shù)據(jù)倉庫管理等運用;思索四處置過程中能夠遇到的頂峰期和用戶數(shù)不可預(yù)料的增長情況,效力器的處置才干冗余30%。根據(jù)實

41、踐系統(tǒng)閱歷,接口系統(tǒng)有時接口文件的生成時間會延遲,為了保證數(shù)據(jù)處置的及時性,以及未來業(yè)務(wù)的開展和系統(tǒng)擴(kuò)展性的保證,建議TPMC實踐思索時適當(dāng)擴(kuò)展。網(wǎng)絡(luò)帶寬網(wǎng)絡(luò)帶寬可以根據(jù)每分鐘的業(yè)務(wù)量、每筆業(yè)務(wù)占多少流量、并發(fā)用戶數(shù)來進(jìn)展估算:網(wǎng)絡(luò)帶寬每分鐘的業(yè)務(wù)量*每筆業(yè)務(wù)所占流量*并發(fā)用戶數(shù)實踐計算時思索系統(tǒng)網(wǎng)絡(luò)流量冗余30%。三、建議實施方案業(yè)務(wù)數(shù)據(jù)量估算一年:5G/地市*18地市90G3.1 只建立操作數(shù)據(jù)存儲區(qū)ODS該方案只建立操作數(shù)據(jù)存儲區(qū)ODS,不建立數(shù)據(jù)倉庫。此時,在數(shù)據(jù)倉庫體系中的操作數(shù)據(jù)存儲區(qū)實踐上起著安徽地稅數(shù)據(jù)中心的作用,擔(dān)任將各地市業(yè)務(wù)數(shù)據(jù)集中到省局?jǐn)?shù)據(jù)中心,并在此根底上提供根本的統(tǒng)

42、計、查詢功能。3.1.1硬件方案主機(jī)采用小型機(jī),建議IBM P595或同等檔次機(jī)型。數(shù)據(jù)存儲存儲2-3年的數(shù)據(jù)量:90G*3270G網(wǎng)絡(luò)省局?jǐn)?shù)據(jù)中心的網(wǎng)絡(luò)環(huán)境,主干網(wǎng)帶寬支持100M以上,省局?jǐn)?shù)據(jù)中心同各地市之間的網(wǎng)絡(luò)帶寬支持10M以上,數(shù)據(jù)批量ETL占用2M網(wǎng)絡(luò)銜接。3.1.2工具平臺數(shù)據(jù)庫運用Sybase數(shù)據(jù)庫。ETL工具建議自行開發(fā)。3.1.3軟件方案固定報表:提供固定預(yù)定義報表及模板、圖形展現(xiàn)、導(dǎo)入導(dǎo)出等功能。綜合查詢:提供自定義報表、圖形展現(xiàn)、導(dǎo)入導(dǎo)出等功能。3.1.4任務(wù)量及費用估算任務(wù)量估算如下:建立內(nèi)容任務(wù)量估算人*月ODS建立開發(fā)調(diào)研3ETL過程設(shè)計6數(shù)據(jù)庫設(shè)計5軟件開發(fā)30

43、試點1-2地市數(shù)據(jù)抽取、加工3數(shù)據(jù)質(zhì)量審核3軟件功能完善10推行全省范圍推行30培訓(xùn)和維護(hù)20合計110費用估算如下:110人月*2萬/人月220萬RMB3.1.5 進(jìn)度方案初步方案工程啟動時間為4月初,進(jìn)度方案如下:3.2 同時建立操作數(shù)據(jù)存儲區(qū)ODS和數(shù)據(jù)倉庫DW該方案先建立操作數(shù)據(jù)存儲區(qū),將各地市業(yè)務(wù)數(shù)據(jù)集中到省局?jǐn)?shù)據(jù)中心,并提供簡單的統(tǒng)計和查詢功能。同時,在此根底上建立數(shù)據(jù)倉庫,以支持更豐富的業(yè)務(wù)查詢、綜合統(tǒng)計、多維分析、數(shù)據(jù)發(fā)掘等功能。此方案中的操作數(shù)據(jù)存儲區(qū)是實踐意義上的數(shù)據(jù)倉庫的一部分,其作為數(shù)據(jù)倉庫與數(shù)據(jù)源之間的一個暫時數(shù)據(jù)緩沖區(qū),存儲少量的、短期的數(shù)據(jù),一切的數(shù)據(jù)最終都加載到數(shù)據(jù)倉庫中。3.2.1硬件方案主機(jī)數(shù)據(jù)倉庫采用小型機(jī),建議IBM P595或同等檔次機(jī)型。操作數(shù)據(jù)存儲區(qū)ODS可以與數(shù)據(jù)倉庫物理獨立,也可以與數(shù)據(jù)倉庫物理在一同。假設(shè)操作數(shù)據(jù)存儲區(qū)與數(shù)據(jù)倉庫物理獨立,那么操作數(shù)據(jù)存儲區(qū)也可以采用PC效力器。數(shù)據(jù)存儲操作數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論