版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、構(gòu)建基于商務(wù)智能的稅收數(shù)據(jù)分析系統(tǒng)稅收數(shù)據(jù)分析系統(tǒng)需求分析稅收數(shù)據(jù)分析系統(tǒng)的目標(biāo)構(gòu)建基于商務(wù)智能的稅收數(shù)據(jù)分析系統(tǒng)的目的就是把安徽國(guó)稅所轄的信息系統(tǒng)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)進(jìn)行有效的集成,為安徽國(guó)稅系統(tǒng)的各層決策、分析人員使用。安徽國(guó)稅信息系統(tǒng)內(nèi)部數(shù)據(jù)是指通過(guò)稅務(wù)業(yè)務(wù)系統(tǒng)收集到的數(shù)據(jù),這些數(shù)據(jù)分布在不同的硬件、數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)環(huán)境中,為不同的業(yè)務(wù)部分提供服務(wù)。所有這些數(shù)據(jù)從結(jié)構(gòu)上看,是相對(duì)獨(dú)立的,不利于安徽國(guó)稅決策者進(jìn)行全面分析和查詢。假如我們針對(duì)決策者的需求,對(duì)這些數(shù)據(jù)進(jìn)行結(jié)構(gòu)上的重組,按更方便決策分析的角度去設(shè)計(jì),并且充分考慮今后的擴(kuò)展性與外部數(shù)據(jù)的接口,將使安徽國(guó)稅信息系統(tǒng)的各類數(shù)據(jù)真正發(fā)揮更大
2、的價(jià)值。稅收數(shù)據(jù)分析系統(tǒng)的建設(shè)需要實(shí)現(xiàn)以下三個(gè)要求:1、建立統(tǒng)一的數(shù)據(jù)應(yīng)用平臺(tái)建立統(tǒng)一的數(shù)據(jù)應(yīng)用平臺(tái)逐一數(shù)據(jù)倉(cāng)庫(kù)。將各類信息系統(tǒng)所有重要可用數(shù)據(jù)統(tǒng)一的數(shù)據(jù)抽取、轉(zhuǎn)換和加載規(guī)則進(jìn)行充分整合,保證了數(shù)據(jù)的一致性、可靠性、真實(shí)性,為業(yè)務(wù)查詢、決策支持提供基礎(chǔ)。2、實(shí)現(xiàn)快捷OLAP查詢傳統(tǒng)的應(yīng)用系統(tǒng)無(wú)法應(yīng)付多用戶的并發(fā)查詢操作,業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫(kù)本身并不能為查詢性能優(yōu)化而配置,必須實(shí)現(xiàn)業(yè)務(wù)查詢的拆分。將實(shí)時(shí)性要求高,返回?cái)?shù)據(jù)量小,對(duì)明細(xì)數(shù)據(jù)的查詢?nèi)栽L問(wèn)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)。對(duì)實(shí)時(shí)性要求不高,為實(shí)現(xiàn)不同來(lái)源數(shù)據(jù)的集成,實(shí)現(xiàn)多樣性的業(yè)務(wù)需求的可擴(kuò)展性,必須要定義一整套稅收數(shù)據(jù)標(biāo)準(zhǔn),為系統(tǒng)應(yīng)用打下堅(jiān)實(shí)的基礎(chǔ)。包括定
3、義數(shù)據(jù)格式標(biāo)準(zhǔn)、數(shù)據(jù)命名標(biāo)準(zhǔn)、數(shù)據(jù)類型標(biāo)準(zhǔn)、數(shù)據(jù)長(zhǎng)度標(biāo)準(zhǔn)定義和數(shù)據(jù)依靠關(guān)系標(biāo)準(zhǔn)等等。3、建立統(tǒng)一的數(shù)據(jù)抽取存儲(chǔ)規(guī)范如何將各業(yè)務(wù)系統(tǒng)的數(shù)占有條不紊地進(jìn)行公道的采集、傳輸和清洗加工并最后入庫(kù),是整個(gè)系統(tǒng)的重點(diǎn)和難點(diǎn)。需要綜合考慮以下幾個(gè)方面:一是數(shù)據(jù)抽取,如何高效、正確、安全地抽取各應(yīng)用模塊下的應(yīng)用數(shù)據(jù);二是數(shù)據(jù)轉(zhuǎn)換和入庫(kù),如何高效、正確地將應(yīng)用數(shù)據(jù)轉(zhuǎn)換成便于分析、完整清潔的數(shù)據(jù)倉(cāng)庫(kù)入庫(kù)數(shù)據(jù);三是任務(wù)集成,如何保證數(shù)據(jù)采集、傳輸、加工、入庫(kù)可以流暢完成,中間可以無(wú)縫集成,當(dāng)某一數(shù)據(jù)裝載環(huán)節(jié)失敗時(shí)可以迅速定位失敗原因并方便地重新正確裝載數(shù)據(jù)。4、設(shè)置公道的主題劃分主題是一個(gè)抽象的概念,是由業(yè)務(wù)信息系
4、統(tǒng)中的事實(shí)數(shù)據(jù)在一定層次上歸納和綜合,并用來(lái)分析和利用的對(duì)象,主題只是一個(gè)邏輯的概念,是對(duì)應(yīng)業(yè)務(wù)應(yīng)用中某一分析領(lǐng)域所涉及的分析對(duì)象。主題的確定應(yīng)該保證其具有獨(dú)立的內(nèi)涵或明確的界限,并能為數(shù)據(jù)分析提供所要求的一切內(nèi)容。5、不同類型的前端應(yīng)用模式支持前端應(yīng)用模式擔(dān)負(fù)著數(shù)據(jù)利用價(jià)值展示的重要工作。對(duì)于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中的數(shù)據(jù)一般可以采用靜態(tài)報(bào)表、動(dòng)態(tài)報(bào)表、實(shí)時(shí)查詢、OLAP分析以及決策支持等方式,通過(guò)多維分析、趨勢(shì)分析、異類分析、關(guān)聯(lián)分析等分析方法進(jìn)行應(yīng)用展示。由于稅務(wù)系統(tǒng)的業(yè)務(wù)處理系統(tǒng)比較復(fù)雜,且數(shù)據(jù)量比較龐大,導(dǎo)致一些業(yè)務(wù)表的增量數(shù)據(jù)無(wú)法直接獲得,可以采取的解決辦法分別是:在省級(jí)稅務(wù)機(jī)關(guān)可以采
5、取設(shè)置前置機(jī)用來(lái)與業(yè)務(wù)處理系統(tǒng)進(jìn)行數(shù)據(jù)同步,包括在省局的省級(jí)集中的應(yīng)用系統(tǒng)和分散在各地市的仍未實(shí)行省級(jí)集中的應(yīng)用系統(tǒng)。通過(guò)觸發(fā)器的方式獲取增量數(shù)據(jù),形成一個(gè)整體的稅務(wù)數(shù)據(jù)ETL過(guò)程。在地市級(jí)稅務(wù)機(jī)關(guān),可以定期采取預(yù)先定制的相關(guān)主題的分析計(jì)劃進(jìn)行數(shù)據(jù)抽取,獲取自身關(guān)注的分析主題的增量數(shù)據(jù),而不必全范圍抽取所有應(yīng)用系統(tǒng)的增量數(shù)據(jù)。4.3.2數(shù)據(jù)處理由于業(yè)務(wù)的變化、誤操作、輸入錯(cuò)誤等原因,將會(huì)造成業(yè)務(wù)系統(tǒng)數(shù)據(jù)的不規(guī)范,不一致,甚至錯(cuò)誤。為了保證數(shù)據(jù)倉(cāng)庫(kù)中用于分析的數(shù)據(jù)的正確性,必須在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前對(duì)其進(jìn)行清洗和規(guī)范。首先要進(jìn)行數(shù)占有效性檢查,提高數(shù)據(jù)質(zhì)量,包括子數(shù)據(jù)集的選擇和缺失值的處理。缺失
6、值的處理需要觀察缺失值情況,考慮舍去后對(duì)預(yù)測(cè)的結(jié)果是否有較大的影響。對(duì)于含有大量缺失值,并且不是重要的字段可以忽略,使該字段不用于建模;對(duì)于含有較多缺失值同時(shí)是重要的字段,引用均值、默認(rèn)值代替缺失值或根據(jù)現(xiàn)有正確數(shù)據(jù)的分布比例導(dǎo)有缺失值。缺失值的處理,可以用回歸、基于推導(dǎo)的貝葉斯形式化方法的工具或判定樹(shù)歸納確定,有意識(shí)地填充缺失值,從而提高模型的適用性。其次要進(jìn)行數(shù)據(jù)變量的格式規(guī)范,將各種例如日期型變量、字符型變量等進(jìn)行規(guī)范處理。最后進(jìn)行相關(guān)數(shù)據(jù)變量的選擇,剔除不必要的字段。4.3.3數(shù)據(jù)存儲(chǔ)數(shù)據(jù)加載就是將經(jīng)過(guò)清洗、規(guī)范的數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)中來(lái)。數(shù)據(jù)加載分兩種:一是增量加載(將增量數(shù)據(jù)加載
7、到數(shù)據(jù)倉(cāng)庫(kù)的表中)二是更新加載(將物理表完全更新進(jìn)行加載)。本系統(tǒng)由于數(shù)據(jù)量較大,主要采用增量加載。4.4邏輯模型設(shè)計(jì)4.4.1主題域分析稅務(wù)系統(tǒng)的業(yè)務(wù)處理系統(tǒng)十分復(fù)雜,且數(shù)據(jù)量相當(dāng)龐大,僅安徽國(guó)稅綜合征管信息系統(tǒng)就包含2000多個(gè)數(shù)據(jù)表,每年產(chǎn)生50G的數(shù)據(jù)量。因此在進(jìn)行邏輯模型設(shè)計(jì)時(shí)必須首先根據(jù)業(yè)務(wù)需求確定相應(yīng)的分析主題域,確定要裝載到數(shù)據(jù)倉(cāng)庫(kù)的主題。本分析系統(tǒng)可以首先確定5個(gè)方面的分析主題,即納稅人主題、稅收收入主題、稅務(wù)治理行為主題、納稅義務(wù)履行情況主題以及稅務(wù)機(jī)關(guān)主題。1、納稅人主題:納稅人主題包括了與納稅人相關(guān)的所有屬性信息和行為信機(jī)制等內(nèi)容。4、數(shù)據(jù)應(yīng)用層數(shù)據(jù)應(yīng)用層負(fù)責(zé)為決策層、
8、治理層、操作層等的業(yè)務(wù)需求提供數(shù)據(jù)展示。需要考慮數(shù)據(jù)處理應(yīng)用的性能、數(shù)據(jù)的更新加載、專項(xiàng)數(shù)據(jù)集市等因素。數(shù)據(jù)集市:一般用于為單個(gè)職能部分提供相關(guān)應(yīng)用。數(shù)據(jù)集市可以是獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù),也可以定時(shí)更新來(lái)自數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)。報(bào)表:一般存在預(yù)定義報(bào)表以及可以實(shí)現(xiàn)訂單式的可定義報(bào)表等。OLAP:定義報(bào)表是特殊定制業(yè)務(wù),但無(wú)法實(shí)現(xiàn)深層次的分析應(yīng)用。通過(guò)聯(lián)機(jī)分析處理(OLAP),可以實(shí)現(xiàn)向決策層、治理層提供分析、預(yù)測(cè)、決策支持等需求。實(shí)時(shí)查詢:根據(jù)數(shù)據(jù)應(yīng)用層用戶提出的各類日常查詢需求,并根據(jù)數(shù)據(jù)倉(cāng)庫(kù)的要求開(kāi)發(fā)客戶端程序。決策支持:通過(guò)數(shù)據(jù)挖掘滿足用戶對(duì)數(shù)據(jù)的分析和預(yù)測(cè)需求。4.3ETL設(shè)計(jì)ETL(Ext:act
9、TransformLoading,數(shù)據(jù)抽取轉(zhuǎn)化裝載規(guī)則)是負(fù)責(zé)完成從數(shù)據(jù)源數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的轉(zhuǎn)化過(guò)程,是實(shí)施數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的重要環(huán)節(jié)。如果說(shuō)數(shù)據(jù)倉(cāng)庫(kù)主題化模型是建設(shè)一座高樓大廈的話,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是建造大廈的磚石,那么ETL就相當(dāng)于建造大廈的過(guò)程。在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)過(guò)程中難度最大的部分是用戶需求分析和模型設(shè)計(jì),這其中工作量最大的就是ETL規(guī)則的設(shè)計(jì)和實(shí)施。ETL的目標(biāo)就是把源數(shù)據(jù)通過(guò)數(shù)據(jù)抽取、清洗、聚集后正確的加載到數(shù)據(jù)倉(cāng)庫(kù)中。ETL過(guò)程要經(jīng)過(guò)幾個(gè)層次的存儲(chǔ)區(qū),才能終極為OLAP或其他數(shù)據(jù)應(yīng)用用戶提供一致的、干凈的和高效率的數(shù)據(jù)。4.3.1數(shù)據(jù)抽取數(shù)據(jù)的抽取是從數(shù)據(jù)源,也就是各種業(yè)務(wù)系統(tǒng)將用于
10、分析的數(shù)據(jù)抽取出來(lái)。一般可以通過(guò)ODBC數(shù)據(jù)源或是文本文件進(jìn)行數(shù)據(jù)的抽取。通過(guò)ODBC方式抽取數(shù)據(jù)的優(yōu)點(diǎn)是可簡(jiǎn)化抽取過(guò)程,缺點(diǎn)是抽取速度較慢;通過(guò)文本導(dǎo)出數(shù)據(jù)文件的方式優(yōu)點(diǎn)是速度較快,而缺點(diǎn)是中間過(guò)程較多,不利于自動(dòng)化處理。這里我們優(yōu)先選擇文本導(dǎo)出導(dǎo)入的方式。由于數(shù)據(jù)的抽取過(guò)程可能會(huì)對(duì)業(yè)務(wù)系統(tǒng)造成一定的影響,所以這部分工作大部分是在業(yè)務(wù)系統(tǒng)不繁忙的晚上進(jìn)行。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)并不要求與聯(lián)機(jī)事務(wù)處理系統(tǒng)保持實(shí)時(shí)的同步,因此數(shù)據(jù)抽取可以定時(shí)進(jìn)行,但多個(gè)抽取操作執(zhí)行的時(shí)間、相互的順序、成敗對(duì)數(shù)據(jù)倉(cāng)庫(kù)中信息的有效性則至關(guān)重要。4.2.2體系結(jié)構(gòu)的具體描述1、源數(shù)據(jù)層安徽國(guó)稅數(shù)據(jù)倉(cāng)庫(kù)的源數(shù)據(jù)包括以下幾個(gè)方面
11、。一是各類稅收業(yè)務(wù)數(shù)據(jù),包括稅收綜合征管系統(tǒng)、金稅工程系統(tǒng)、出口退稅治理系統(tǒng)、辦公自動(dòng)化系統(tǒng)以及其他專用應(yīng)用系統(tǒng)。二是相關(guān)歷史數(shù)據(jù),包括新舊系統(tǒng)結(jié)轉(zhuǎn)的歷史數(shù)據(jù)等。三是相關(guān)外部數(shù)據(jù),包括工商、質(zhì)檢、統(tǒng)計(jì)等相關(guān)第三方信息數(shù)據(jù)。通過(guò)制定數(shù)據(jù)抽取計(jì)劃,公道、有效的實(shí)施應(yīng)用系統(tǒng)數(shù)據(jù)的抽取工作。2、數(shù)據(jù)過(guò)渡層數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)必須經(jīng)過(guò)數(shù)據(jù)源抽取后的清理和格式化,保持其一致性。數(shù)據(jù)抽取要求做到以下幾點(diǎn):一是必須要對(duì)業(yè)務(wù)系統(tǒng)的影響最小化;二是源數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)隔離,以保持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的完整性;三是在數(shù)據(jù)加載情況需要校驗(yàn)一致性和完整性;四是必要有高效的數(shù)據(jù)轉(zhuǎn)換規(guī)則。因此建立數(shù)據(jù)過(guò)渡層很有必要。數(shù)據(jù)轉(zhuǎn)換規(guī)則即在數(shù)據(jù)抽取轉(zhuǎn)換
12、的過(guò)程中定義相應(yīng)的規(guī)則至元數(shù)據(jù)定義中,包括常用字段的存儲(chǔ)標(biāo)準(zhǔn)、數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)、數(shù)據(jù)表示標(biāo)準(zhǔn)、相關(guān)數(shù)占有效性檢測(cè)標(biāo)準(zhǔn)以及錯(cuò)誤數(shù)據(jù)處理機(jī)制等。3、數(shù)據(jù)提供層數(shù)據(jù)提供層包括經(jīng)過(guò)數(shù)據(jù)過(guò)渡層轉(zhuǎn)換加載的各類歷史數(shù)據(jù)以及經(jīng)過(guò)加工處理形成的主題分析數(shù)據(jù),它將為上層的數(shù)據(jù)應(yīng)用層提供統(tǒng)一的、規(guī)范的數(shù)據(jù),是稅收數(shù)據(jù)分析系統(tǒng)的核心部分。同時(shí)還需要設(shè)計(jì)數(shù)據(jù)安全規(guī)則、數(shù)據(jù)校驗(yàn)規(guī)則、數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)以及相關(guān)變化題、納稅義務(wù)履行情況主題等相關(guān)主要邏輯模型進(jìn)行扼要介紹。4.4.3.1納稅人主題納稅人是稅務(wù)機(jī)關(guān)治理的直接對(duì)象,通過(guò)履行納稅義務(wù)為國(guó)家提供稅收來(lái)源。納稅人主題包括納稅人基本信息、納稅人資格認(rèn)定信息、納稅人稅種核定信息、納稅
13、人停歇業(yè)信息、納稅人變更信息、納稅人注銷信息、納稅人登記類型信息、納稅人財(cái)務(wù)登記信息、納稅人定額信息、納稅人違法違章信息以及重點(diǎn)稅源信息等。通過(guò)納稅人主題域中相關(guān)邏輯模型在行業(yè)、注冊(cè)類型、納稅人規(guī)模、時(shí)間等多維組合下的靜態(tài)分布和動(dòng)態(tài)變化的分析,及時(shí)了解納稅人狀態(tài)和變化,為戶籍治理提供信息依據(jù)。同時(shí)將納稅人主題域中相關(guān)模型與稅務(wù)治理行為主題、納稅義務(wù)履行情況主題等相關(guān)模型進(jìn)行多維組合分析,實(shí)現(xiàn)對(duì)納稅人信息的統(tǒng)一分析,即納稅人主題將包括以納稅人為主線的所有納稅人相關(guān)信息,也就是安徽國(guó)稅提出的“一戶式”治理模式。另外,將納稅人信息與相關(guān)外部信息進(jìn)行關(guān)聯(lián)分析可以實(shí)現(xiàn)不同經(jīng)濟(jì)環(huán)境下納稅人的結(jié)構(gòu)變化、未來(lái)
14、戶籍結(jié)構(gòu)狀況的預(yù)測(cè)等分析需求。息,提供對(duì)納稅人的統(tǒng)一分析數(shù)據(jù)。2、稅收收入主題:稅收收入主題包括了與稅收收入相關(guān)的所有屬性和行為信息,提供對(duì)稅收收入的全程監(jiān)控和分析的統(tǒng)一數(shù)據(jù)。3、稅務(wù)治理行為主題:稅務(wù)治理行為主題包括了稅務(wù)機(jī)關(guān)的所有稅務(wù)業(yè)務(wù)治理行為的相關(guān)信息,提供對(duì)稅務(wù)機(jī)關(guān)治理行為的正當(dāng)性、效率、質(zhì)量等方面進(jìn)行監(jiān)測(cè)和分析的統(tǒng)一數(shù)據(jù)。4、納稅義務(wù)履行情況主題:納稅義務(wù)履行情況主題包括了納稅人的所有納稅義務(wù)履行情況的相關(guān)信息,提供對(duì)納稅人納稅申報(bào)、稅款繳納、發(fā)票使用等方面進(jìn)行監(jiān)控和分析的統(tǒng)一數(shù)據(jù)。5、稅務(wù)機(jī)關(guān)主題:稅務(wù)機(jī)關(guān)主題除了提供稅務(wù)機(jī)關(guān)在稅務(wù)治理方面的一些分析角度之外,還可以包括諸如人力資
15、源治理、財(cái)物資源及成本治理、行政管理等分主題為了支持五個(gè)主題域的目標(biāo)和需要解決的問(wèn)題,需要設(shè)立更多的主題進(jìn)行多維分析。在數(shù)據(jù)倉(cāng)庫(kù)主題域設(shè)計(jì)完成的基礎(chǔ)上,可以完成數(shù)據(jù)倉(cāng)庫(kù)全部主題的具體邏輯設(shè)計(jì)。安徽國(guó)稅數(shù)據(jù)倉(cāng)庫(kù)不僅要能滿足現(xiàn)有的信息消費(fèi)需求,還要有很好的可擴(kuò)展性滿足新的需求,并能作為一個(gè)未來(lái)其他系統(tǒng)的數(shù)據(jù)平臺(tái)。因此數(shù)據(jù)倉(cāng)庫(kù)必須要有靈活,統(tǒng)一的數(shù)據(jù)組織結(jié)構(gòu),并試圖包含所有現(xiàn)在和未來(lái)安徽國(guó)稅關(guān)心和可能關(guān)心的信息。4.4.2粒度層次和維度的確定在進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)邏輯模型設(shè)計(jì)時(shí)還需要解決的兩個(gè)重要問(wèn)題分別是粒度層次和維度的確定。粒度層次的確定與否直接影響數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)量和信息查詢效果。由于稅務(wù)系統(tǒng)日常業(yè)務(wù)較
16、多,天天發(fā)生的數(shù)據(jù)類型眾多,所以可以采取多重粒度。對(duì)近期即當(dāng)年度的涉稅數(shù)據(jù)采取低粒度形式存儲(chǔ),對(duì)以前年度的相關(guān)數(shù)據(jù)采取高粒度形式存儲(chǔ)。這樣既能滿足用戶決策分析和綜合查詢的需要,又能減少數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量。維度是決策分析的角度和出發(fā)點(diǎn)?;诓煌木S度,可以看到各量度的分析結(jié)果,也可以基于所有的維度進(jìn)行交叉分析。常用的稅收數(shù)據(jù)分析維度為時(shí)間維度、地理維度、機(jī)構(gòu)維度、納稅人維度、稅收治理員維度等。4.4.3主要主題域的邏輯模型稅務(wù)系統(tǒng)的業(yè)務(wù)處理系統(tǒng)十分復(fù)雜,需要設(shè)計(jì)的邏輯模型數(shù)量很多,邏輯屬性十分龐雜,且由于數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)要滯后于業(yè)務(wù)系統(tǒng)的設(shè)計(jì),根據(jù)工作需要許多次要的邏輯屬性要待業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)基本定型后
17、繼續(xù)修改,沒(méi)有必要也不可能在建立初期就確定。本文只對(duì)納稅人主題、稅收收入主題、稅務(wù)治理行為主個(gè)當(dāng)前最重要的主題,以不斷完善和擴(kuò)展稅收數(shù)據(jù)分析系統(tǒng)。同時(shí)稅收數(shù)據(jù)分析系統(tǒng)還必須要適應(yīng)用戶需求的多樣性、各類數(shù)據(jù)源的多樣性,需要數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)必須具有強(qiáng)大的可擴(kuò)展性。.4.3.2稅收收入主題稅收收入和計(jì)劃是稅務(wù)系統(tǒng)的主要任務(wù),對(duì)稅收收入信息全面地、正確地收集和公道的表達(dá)是本主題的主要目標(biāo)。本主題域通過(guò)對(duì)稅款的屬性、納稅人相關(guān)信息、稅務(wù)機(jī)關(guān)相關(guān)信息、時(shí)間等多維度進(jìn)行的廣泛的分析實(shí)現(xiàn)納稅人稅款征收力度、稅源的靜態(tài)分布和動(dòng)態(tài)變化規(guī)律、收入進(jìn)度與預(yù)測(cè)、稅種收入與經(jīng)濟(jì)指標(biāo)的關(guān)系等分析任務(wù)。稅收收入主題主要包括
18、稅款入庫(kù)信息、稅收收入計(jì)劃、完稅證信息、欠稅信息等。稅收收入計(jì)劃信息星形模型集成了稅務(wù)機(jī)關(guān)稅收收入計(jì)劃情況的共有屬性,主要包括稅收收入計(jì)劃基本信息事實(shí)表和行業(yè)類型、征收項(xiàng)目類型、預(yù)算級(jí)次、主管稅務(wù)官員、主管稅務(wù)機(jī)關(guān)和日期時(shí)間等6個(gè)維度表。4.4.3.3稅務(wù)治理行為主題稅務(wù)治理行為是稅務(wù)機(jī)關(guān)依據(jù)稅法及相關(guān)法律法規(guī)的規(guī)定實(shí)行的行政行為。所以本主題的原則和目標(biāo)就是通過(guò)分析稅務(wù)治理過(guò)程中產(chǎn)生的統(tǒng)計(jì)數(shù)據(jù),把握稅務(wù)治理行為的正當(dāng)性、時(shí)效性、相關(guān)工作質(zhì)量以及稅務(wù)稽查選案正確性、案件執(zhí)行及時(shí)性等分析指標(biāo),解決稅務(wù)治理過(guò)程中出現(xiàn)的問(wèn)題。稅務(wù)治理行為主題主要有涉稅文書(shū)受理信息、涉稅文書(shū)審批信息、違法違章處理信息、
19、稽查選案信息、稽查檢查信息、稽查審理信息、稽查執(zhí)行信息等邏輯模型?;檫x案執(zhí)行信息星形模型集成了稅務(wù)機(jī)關(guān)稽查選案執(zhí)行情況的共有屬性,主要包括稽查選案執(zhí)行基本信息事實(shí)表和違法違章類型、違法違章手段、行業(yè)、登記注冊(cè)類型、主管稅務(wù)機(jī)關(guān)和日期時(shí)間等6個(gè)維度表。4.4.3.4納稅義務(wù)履行情況主題納稅行為是納稅人依據(jù)稅法及相關(guān)法律法規(guī)的規(guī)定履行納稅義務(wù)的行為。所以本主題的任務(wù)就是通過(guò)分析納稅人在履行納稅義務(wù)過(guò)程中產(chǎn)生的統(tǒng)計(jì)數(shù)據(jù),把握納稅人納稅遵從度、納稅申報(bào)質(zhì)量、違法違章情況、異常申報(bào)情況、發(fā)票使用情況、偷逃騙稅情況等分析指標(biāo),試圖發(fā)現(xiàn)稅務(wù)治理的難點(diǎn)和薄弱環(huán)節(jié),提出加強(qiáng)稅務(wù)治理的建議和措施。納稅義務(wù)履行情
20、況主題主要有納稅申報(bào)信息、涉稅申請(qǐng)信息、異常申報(bào)信息、發(fā)票領(lǐng)購(gòu)信息、發(fā)票使用信息、違法違章處理信息、稽查案件處理信息等邏輯模型。數(shù)據(jù)源中整合BI需要的業(yè)務(wù)數(shù)據(jù),同時(shí)可以實(shí)現(xiàn)與商務(wù)流程統(tǒng)一。這些功能在以前是通過(guò)DTS服務(wù)(即數(shù)據(jù)轉(zhuǎn)換服務(wù))來(lái)實(shí)現(xiàn)的。在本系統(tǒng)中5515負(fù)責(zé)從稅收征管信息系統(tǒng)、增值稅防偽稅控系統(tǒng)、出口退稅治理系統(tǒng)等主要應(yīng)用系統(tǒng)的不同類型后臺(tái)數(shù)據(jù)庫(kù)中根據(jù)工作需要提取加工處理相關(guān)數(shù)據(jù)。SSAS是從數(shù)據(jù)中產(chǎn)生智能的關(guān)鍵,通過(guò)這種服務(wù),可以構(gòu)建數(shù)據(jù)立方(Cube),也就是多維數(shù)據(jù)集,然后進(jìn)行OLAP分析。SSAS也提供數(shù)據(jù)挖掘的功能,通過(guò)它探索找尋隱含在眾多數(shù)據(jù)中的潛在信息。在本系統(tǒng)中SSA
21、S負(fù)責(zé)根據(jù)各主題域的邏輯模型天生基于不同維度的多維數(shù)據(jù)集,實(shí)現(xiàn)OLAP分析和數(shù)據(jù)挖掘。SSRS主要實(shí)現(xiàn)結(jié)果展示功能,通過(guò)它可以對(duì)分析結(jié)果提供類型多樣、美觀且適合不同需求的圖表和報(bào)表。在本系統(tǒng)中SSRS主要負(fù)責(zé)分析結(jié)果的前端展現(xiàn)。根據(jù)工作需要也可以結(jié)合Exce120O7實(shí)現(xiàn)此功能。這樣通過(guò)以上設(shè)計(jì), SQLServer2005實(shí)現(xiàn)了建模、ETL、建立查詢分析或圖表、定制KP工、建立報(bào)表和構(gòu)造數(shù)據(jù)挖掘應(yīng)用及結(jié)果發(fā)布等一整套的解決方案。 構(gòu)建基于商務(wù)智能的稅收數(shù)據(jù)分析系統(tǒng)4.1稅收數(shù)據(jù)分析系統(tǒng)需求分析4.1.1稅收數(shù)據(jù)分析系統(tǒng)的目標(biāo)構(gòu)建基于商務(wù)智能的稅收數(shù)據(jù)分析系統(tǒng)的目的就是把安徽國(guó)稅所轄
22、的信息系統(tǒng)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)進(jìn)行有效的集成,為安徽國(guó)稅系統(tǒng)的各層決策、分析人員使用。安徽國(guó)稅信息系統(tǒng)內(nèi)部數(shù)據(jù)是指通過(guò)稅務(wù)業(yè)務(wù)系統(tǒng)收集到的數(shù)據(jù),這些數(shù)據(jù)分布在不同的硬件、數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)環(huán)境中,為不同的業(yè)務(wù)部分提供服務(wù)。所有這些數(shù)據(jù)從結(jié)構(gòu)上看,是相對(duì)獨(dú)立的,不利于安徽國(guó)稅決策者進(jìn)行全面分析和查詢。假如我們針對(duì)決策者的需求,對(duì)這些數(shù)據(jù)進(jìn)行結(jié)構(gòu)上的重組,按更方便決策分析的角度去設(shè)計(jì),并且充分考慮今后的擴(kuò)展性與外部數(shù)據(jù)的接口,將使安徽國(guó)稅信息系統(tǒng)的各類數(shù)據(jù)真正發(fā)揮更大的價(jià)值。稅收數(shù)據(jù)分析系統(tǒng)的建設(shè)需要實(shí)現(xiàn)以下三個(gè)要求:1、建立統(tǒng)一的數(shù)據(jù)應(yīng)用平臺(tái)建立統(tǒng)一的數(shù)據(jù)應(yīng)用平臺(tái)逐一數(shù)據(jù)倉(cāng)庫(kù)。將各類信息系統(tǒng)所有重要可
23、用數(shù)據(jù)統(tǒng)一的數(shù)據(jù)抽取、轉(zhuǎn)換和加載規(guī)則進(jìn)行充分整合,保證了數(shù)據(jù)的一致性、可靠性、真實(shí)性,為業(yè)務(wù)查詢、決策支持提供基礎(chǔ)。2、實(shí)現(xiàn)快捷OLAP查詢傳統(tǒng)的應(yīng)用系統(tǒng)無(wú)法應(yīng)付多用戶的并發(fā)查詢操作,業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫(kù)本身并不能為查詢性能優(yōu)化而配置,必須實(shí)現(xiàn)業(yè)務(wù)查詢的拆分。將實(shí)時(shí)性要求高,返回?cái)?shù)據(jù)量小,對(duì)明細(xì)數(shù)據(jù)的查詢?nèi)栽L問(wèn)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)。對(duì)實(shí)時(shí)性要求不高,為實(shí)現(xiàn)不同來(lái)源數(shù)據(jù)的集成,實(shí)現(xiàn)多樣性的業(yè)務(wù)需求的可擴(kuò)展性,必須要定義一整套稅收數(shù)據(jù)標(biāo)準(zhǔn),為系統(tǒng)應(yīng)用打下堅(jiān)實(shí)的基礎(chǔ)。包括定義數(shù)據(jù)格式標(biāo)準(zhǔn)、數(shù)據(jù)命名標(biāo)準(zhǔn)、數(shù)據(jù)類型標(biāo)準(zhǔn)、數(shù)據(jù)長(zhǎng)度標(biāo)準(zhǔn)定義和數(shù)據(jù)依靠關(guān)系標(biāo)準(zhǔn)等等。3、建立統(tǒng)一的數(shù)據(jù)抽取存儲(chǔ)規(guī)范如何將各業(yè)務(wù)系統(tǒng)的數(shù)占有
24、條不紊地進(jìn)行公道的采集、傳輸和清洗加工并最后入庫(kù),是整個(gè)系統(tǒng)的重點(diǎn)和難點(diǎn)。需要綜合考慮以下幾個(gè)方面:一是數(shù)據(jù)抽取,如何高效、正確、安全地抽取各應(yīng)用模塊下的應(yīng)用數(shù)據(jù);二是數(shù)據(jù)轉(zhuǎn)換和入庫(kù),如何高效、正確地將應(yīng)用數(shù)據(jù)轉(zhuǎn)換成便于分析、完整清潔的數(shù)據(jù)倉(cāng)庫(kù)入庫(kù)數(shù)據(jù);三是任務(wù)集成,如何保證數(shù)據(jù)采集、傳輸、加工、入庫(kù)可以流暢完成,中間可以無(wú)縫集成,當(dāng)某一數(shù)據(jù)裝載環(huán)節(jié)失敗時(shí)可以迅速定位失敗原因并方便地重新正確裝載數(shù)據(jù)。4、設(shè)置公道的主題劃分主題是一個(gè)抽象的概念,是由業(yè)務(wù)信息系統(tǒng)中的事實(shí)數(shù)據(jù)在一定層次上歸納和綜合,并用來(lái)分析和利用的對(duì)象,主題只是一個(gè)邏輯的概念,是對(duì)應(yīng)業(yè)務(wù)應(yīng)用中某一分析領(lǐng)域所涉及的分析對(duì)象。主題的
25、確定應(yīng)該保證其具有獨(dú)立的內(nèi)涵或明確的界限,并能為數(shù)據(jù)分析提供所要求的一切內(nèi)容。5、不同類型的前端應(yīng)用模式支持前端應(yīng)用模式擔(dān)負(fù)著數(shù)據(jù)利用價(jià)值展示的重要工作。對(duì)于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中的數(shù)據(jù)一般可以采用靜態(tài)報(bào)表、動(dòng)態(tài)報(bào)表、實(shí)時(shí)查詢、OLAP分析以及決策支持等方式,通過(guò)多維分析、趨勢(shì)分析、異類分析、關(guān)聯(lián)分析等分析方法進(jìn)行應(yīng)用展示。由于稅務(wù)系統(tǒng)的業(yè)務(wù)處理系統(tǒng)比較復(fù)雜,且數(shù)據(jù)量比較龐大,導(dǎo)致一些業(yè)務(wù)表的增量數(shù)據(jù)無(wú)法直接獲得,可以采取的解決辦法分別是:在省級(jí)稅務(wù)機(jī)關(guān)可以采取設(shè)置前置機(jī)用來(lái)與業(yè)務(wù)處理系統(tǒng)進(jìn)行數(shù)據(jù)同步,包括在省局的省級(jí)集中的應(yīng)用系統(tǒng)和分散在各地市的仍未實(shí)行省級(jí)集中的應(yīng)用系統(tǒng)。通過(guò)觸發(fā)器的方式獲取
26、增量數(shù)據(jù),形成一個(gè)整體的稅務(wù)數(shù)據(jù)ETL過(guò)程。在地市級(jí)稅務(wù)機(jī)關(guān),可以定期采取預(yù)先定制的相關(guān)主題的分析計(jì)劃進(jìn)行數(shù)據(jù)抽取,獲取自身關(guān)注的分析主題的增量數(shù)據(jù),而不必全范圍抽取所有應(yīng)用系統(tǒng)的增量數(shù)據(jù)。4.3.2數(shù)據(jù)處理由于業(yè)務(wù)的變化、誤操作、輸入錯(cuò)誤等原因,將會(huì)造成業(yè)務(wù)系統(tǒng)數(shù)據(jù)的不規(guī)范,不一致,甚至錯(cuò)誤。為了保證數(shù)據(jù)倉(cāng)庫(kù)中用于分析的數(shù)據(jù)的正確性,必須在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前對(duì)其進(jìn)行清洗和規(guī)范。首先要進(jìn)行數(shù)占有效性檢查,提高數(shù)據(jù)質(zhì)量,包括子數(shù)據(jù)集的選擇和缺失值的處理。缺失值的處理需要觀察缺失值情況,考慮舍去后對(duì)預(yù)測(cè)的結(jié)果是否有較大的影響。對(duì)于含有大量缺失值,并且不是重要的字段可以忽略,使該字段不用于建模;對(duì)
27、于含有較多缺失值同時(shí)是重要的字段,引用均值、默認(rèn)值代替缺失值或根據(jù)現(xiàn)有正確數(shù)據(jù)的分布比例導(dǎo)有缺失值。缺失值的處理,可以用回歸、基于推導(dǎo)的貝葉斯形式化方法的工具或判定樹(shù)歸納確定,有意識(shí)地填充缺失值,從而提高模型的適用性。其次要進(jìn)行數(shù)據(jù)變量的格式規(guī)范,將各種例如日期型變量、字符型變量等進(jìn)行規(guī)范處理。最后進(jìn)行相關(guān)數(shù)據(jù)變量的選擇,剔除不必要的字段。4.3.3數(shù)據(jù)存儲(chǔ)數(shù)據(jù)加載就是將經(jīng)過(guò)清洗、規(guī)范的數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)中來(lái)。數(shù)據(jù)加載分兩種:一是增量加載(將增量數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)的表中)二是更新加載(將物理表完全更新進(jìn)行加載)。本系統(tǒng)由于數(shù)據(jù)量較大,主要采用增量加載。4.4邏輯模型設(shè)計(jì)4.4.1主題域分析
28、稅務(wù)系統(tǒng)的業(yè)務(wù)處理系統(tǒng)十分復(fù)雜,且數(shù)據(jù)量相當(dāng)龐大,僅安徽國(guó)稅綜合征管信息系統(tǒng)就包含2000多個(gè)數(shù)據(jù)表,每年產(chǎn)生50G的數(shù)據(jù)量。因此在進(jìn)行邏輯模型設(shè)計(jì)時(shí)必須首先根據(jù)業(yè)務(wù)需求確定相應(yīng)的分析主題域,確定要裝載到數(shù)據(jù)倉(cāng)庫(kù)的主題。本分析系統(tǒng)可以首先確定5個(gè)方面的分析主題,即納稅人主題、稅收收入主題、稅務(wù)治理行為主題、納稅義務(wù)履行情況主題以及稅務(wù)機(jī)關(guān)主題。1、納稅人主題:納稅人主題包括了與納稅人相關(guān)的所有屬性信息和行為信機(jī)制等內(nèi)容。4、數(shù)據(jù)應(yīng)用層數(shù)據(jù)應(yīng)用層負(fù)責(zé)為決策層、治理層、操作層等的業(yè)務(wù)需求提供數(shù)據(jù)展示。需要考慮數(shù)據(jù)處理應(yīng)用的性能、數(shù)據(jù)的更新加載、專項(xiàng)數(shù)據(jù)集市等因素。數(shù)據(jù)集市:一般用于為單個(gè)職能部分提
29、供相關(guān)應(yīng)用。數(shù)據(jù)集市可以是獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù),也可以定時(shí)更新來(lái)自數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)。報(bào)表:一般存在預(yù)定義報(bào)表以及可以實(shí)現(xiàn)訂單式的可定義報(bào)表等。OLAP:定義報(bào)表是特殊定制業(yè)務(wù),但無(wú)法實(shí)現(xiàn)深層次的分析應(yīng)用。通過(guò)聯(lián)機(jī)分析處理(OLAP),可以實(shí)現(xiàn)向決策層、治理層提供分析、預(yù)測(cè)、決策支持等需求。實(shí)時(shí)查詢:根據(jù)數(shù)據(jù)應(yīng)用層用戶提出的各類日常查詢需求,并根據(jù)數(shù)據(jù)倉(cāng)庫(kù)的要求開(kāi)發(fā)客戶端程序。決策支持:通過(guò)數(shù)據(jù)挖掘滿足用戶對(duì)數(shù)據(jù)的分析和預(yù)測(cè)需求。 4.3ETL設(shè)計(jì) ETL(Ext:actTransformLoading,數(shù)據(jù)抽取轉(zhuǎn)化裝載規(guī)則)是負(fù)責(zé)完成從數(shù)據(jù)源數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的轉(zhuǎn)化過(guò)程,是實(shí)施數(shù)
30、據(jù)倉(cāng)庫(kù)建設(shè)的重要環(huán)節(jié)。如果說(shuō)數(shù)據(jù)倉(cāng)庫(kù)主題化模型是建設(shè)一座高樓大廈的話,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是建造大廈的磚石,那么ETL就相當(dāng)于建造大廈的過(guò)程。在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)過(guò)程中難度最大的部分是用戶需求分析和模型設(shè)計(jì),這其中工作量最大的就是ETL規(guī)則的設(shè)計(jì)和實(shí)施。ETL的目標(biāo)就是把源數(shù)據(jù)通過(guò)數(shù)據(jù)抽取、清洗、聚集后正確的加載到數(shù)據(jù)倉(cāng)庫(kù)中。ETL過(guò)程要經(jīng)過(guò)幾個(gè)層次的存儲(chǔ)區(qū),才能終極為OLAP或其他數(shù)據(jù)應(yīng)用用戶提供一致的、干凈的和高效率的數(shù)據(jù)。4.3.1數(shù)據(jù)抽取數(shù)據(jù)的抽取是從數(shù)據(jù)源,也就是各種業(yè)務(wù)系統(tǒng)將用于分析的數(shù)據(jù)抽取出來(lái)。一般可以通過(guò)ODBC數(shù)據(jù)源或是文本文件進(jìn)行數(shù)據(jù)的抽取。通過(guò)ODBC方式抽取數(shù)據(jù)的優(yōu)點(diǎn)是可簡(jiǎn)化
31、抽取過(guò)程,缺點(diǎn)是抽取速度較慢;通過(guò)文本導(dǎo)出數(shù)據(jù)文件的方式優(yōu)點(diǎn)是速度較快,而缺點(diǎn)是中間過(guò)程較多,不利于自動(dòng)化處理。這里我們優(yōu)先選擇文本導(dǎo)出導(dǎo)入的方式。由于數(shù)據(jù)的抽取過(guò)程可能會(huì)對(duì)業(yè)務(wù)系統(tǒng)造成一定的影響,所以這部分工作大部分是在業(yè)務(wù)系統(tǒng)不繁忙的晚上進(jìn)行。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)并不要求與聯(lián)機(jī)事務(wù)處理系統(tǒng)保持實(shí)時(shí)的同步,因此數(shù)據(jù)抽取可以定時(shí)進(jìn)行,但多個(gè)抽取操作執(zhí)行的時(shí)間、相互的順序、成敗對(duì)數(shù)據(jù)倉(cāng)庫(kù)中信息的有效性則至關(guān)重要。4.2.2體系結(jié)構(gòu)的具體描述1、源數(shù)據(jù)層安徽國(guó)稅數(shù)據(jù)倉(cāng)庫(kù)的源數(shù)據(jù)包括以下幾個(gè)方面。一是各類稅收業(yè)務(wù)數(shù)據(jù),包括稅收綜合征管系統(tǒng)、金稅工程系統(tǒng)、出口退稅治理系統(tǒng)、辦公自動(dòng)化系統(tǒng)以及其他專用應(yīng)用系統(tǒng)
32、。二是相關(guān)歷史數(shù)據(jù),包括新舊系統(tǒng)結(jié)轉(zhuǎn)的歷史數(shù)據(jù)等。三是相關(guān)外部數(shù)據(jù),包括工商、質(zhì)檢、統(tǒng)計(jì)等相關(guān)第三方信息數(shù)據(jù)。通過(guò)制定數(shù)據(jù)抽取計(jì)劃,公道、有效的實(shí)施應(yīng)用系統(tǒng)數(shù)據(jù)的抽取工作。2、數(shù)據(jù)過(guò)渡層數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)必須經(jīng)過(guò)數(shù)據(jù)源抽取后的清理和格式化,保持其一致性。數(shù)據(jù)抽取要求做到以下幾點(diǎn):一是必須要對(duì)業(yè)務(wù)系統(tǒng)的影響最小化;二是源數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)隔離,以保持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的完整性;三是在數(shù)據(jù)加載情況需要校驗(yàn)一致性和完整性;四是必要有高效的數(shù)據(jù)轉(zhuǎn)換規(guī)則。因此建立數(shù)據(jù)過(guò)渡層很有必要。數(shù)據(jù)轉(zhuǎn)換規(guī)則即在數(shù)據(jù)抽取轉(zhuǎn)換的過(guò)程中定義相應(yīng)的規(guī)則至元數(shù)據(jù)定義中,包括常用字段的存儲(chǔ)標(biāo)準(zhǔn)、數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)、數(shù)據(jù)表示標(biāo)準(zhǔn)、相關(guān)數(shù)占有效性檢測(cè)標(biāo)準(zhǔn)
33、以及錯(cuò)誤數(shù)據(jù)處理機(jī)制等。3、數(shù)據(jù)提供層數(shù)據(jù)提供層包括經(jīng)過(guò)數(shù)據(jù)過(guò)渡層轉(zhuǎn)換加載的各類歷史數(shù)據(jù)以及經(jīng)過(guò)加工處理形成的主題分析數(shù)據(jù),它將為上層的數(shù)據(jù)應(yīng)用層提供統(tǒng)一的、規(guī)范的數(shù)據(jù),是稅收數(shù)據(jù)分析系統(tǒng)的核心部分。同時(shí)還需要設(shè)計(jì)數(shù)據(jù)安全規(guī)則、數(shù)據(jù)校驗(yàn)規(guī)則、數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)以及相關(guān)變化題、納稅義務(wù)履行情況主題等相關(guān)主要邏輯模型進(jìn)行扼要介紹。4.4.3.1納稅人主題納稅人是稅務(wù)機(jī)關(guān)治理的直接對(duì)象,通過(guò)履行納稅義務(wù)為國(guó)家提供稅收來(lái)源。納稅人主題包括納稅人基本信息、納稅人資格認(rèn)定信息、納稅人稅種核定信息、納稅人停歇業(yè)信息、納稅人變更信息、納稅人注銷信息、納稅人登記類型信息、納稅人財(cái)務(wù)登記信息、納稅人定額信息、納稅人違法
34、違章信息以及重點(diǎn)稅源信息等。通過(guò)納稅人主題域中相關(guān)邏輯模型在行業(yè)、注冊(cè)類型、納稅人規(guī)模、時(shí)間等多維組合下的靜態(tài)分布和動(dòng)態(tài)變化的分析,及時(shí)了解納稅人狀態(tài)和變化,為戶籍治理提供信息依據(jù)。同時(shí)將納稅人主題域中相關(guān)模型與稅務(wù)治理行為主題、納稅義務(wù)履行情況主題等相關(guān)模型進(jìn)行多維組合分析,實(shí)現(xiàn)對(duì)納稅人信息的統(tǒng)一分析,即納稅人主題將包括以納稅人為主線的所有納稅人相關(guān)信息,也就是安徽國(guó)稅提出的“一戶式”治理模式。另外,將納稅人信息與相關(guān)外部信息進(jìn)行關(guān)聯(lián)分析可以實(shí)現(xiàn)不同經(jīng)濟(jì)環(huán)境下納稅人的結(jié)構(gòu)變化、未來(lái)戶籍結(jié)構(gòu)狀況的預(yù)測(cè)等分析需求。息,提供對(duì)納稅人的統(tǒng)一分析數(shù)據(jù)。2、稅收收入主題:稅收收入主題包括了與稅收收入相關(guān)
35、的所有屬性和行為信息,提供對(duì)稅收收入的全程監(jiān)控和分析的統(tǒng)一數(shù)據(jù)。3、稅務(wù)治理行為主題:稅務(wù)治理行為主題包括了稅務(wù)機(jī)關(guān)的所有稅務(wù)業(yè)務(wù)治理行為的相關(guān)信息,提供對(duì)稅務(wù)機(jī)關(guān)治理行為的正當(dāng)性、效率、質(zhì)量等方面進(jìn)行監(jiān)測(cè)和分析的統(tǒng)一數(shù)據(jù)。4、納稅義務(wù)履行情況主題:納稅義務(wù)履行情況主題包括了納稅人的所有納稅義務(wù)履行情況的相關(guān)信息,提供對(duì)納稅人納稅申報(bào)、稅款繳納、發(fā)票使用等方面進(jìn)行監(jiān)控和分析的統(tǒng)一數(shù)據(jù)。5、稅務(wù)機(jī)關(guān)主題:稅務(wù)機(jī)關(guān)主題除了提供稅務(wù)機(jī)關(guān)在稅務(wù)治理方面的一些分析角度之外,還可以包括諸如人力資源治理、財(cái)物資源及成本治理、行政管理等分主題為了支持五個(gè)主題域的目標(biāo)和需要解決的問(wèn)題,需要設(shè)立更多的主題進(jìn)行多維
36、分析。在數(shù)據(jù)倉(cāng)庫(kù)主題域設(shè)計(jì)完成的基礎(chǔ)上,可以完成數(shù)據(jù)倉(cāng)庫(kù)全部主題的具體邏輯設(shè)計(jì)。安徽國(guó)稅數(shù)據(jù)倉(cāng)庫(kù)不僅要能滿足現(xiàn)有的信息消費(fèi)需求,還要有很好的可擴(kuò)展性滿足新的需求,并能作為一個(gè)未來(lái)其他系統(tǒng)的數(shù)據(jù)平臺(tái)。因此數(shù)據(jù)倉(cāng)庫(kù)必須要有靈活,統(tǒng)一的數(shù)據(jù)組織結(jié)構(gòu),并試圖包含所有現(xiàn)在和未來(lái)安徽國(guó)稅關(guān)心和可能關(guān)心的信息。4.4.2粒度層次和維度的確定在進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)邏輯模型設(shè)計(jì)時(shí)還需要解決的兩個(gè)重要問(wèn)題分別是粒度層次和維度的確定。粒度層次的確定與否直接影響數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)量和信息查詢效果。由于稅務(wù)系統(tǒng)日常業(yè)務(wù)較多,天天發(fā)生的數(shù)據(jù)類型眾多,所以可以采取多重粒度。對(duì)近期即當(dāng)年度的涉稅數(shù)據(jù)采取低粒度形式存儲(chǔ),對(duì)以前年度的相關(guān)數(shù)
37、據(jù)采取高粒度形式存儲(chǔ)。這樣既能滿足用戶決策分析和綜合查詢的需要,又能減少數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量。維度是決策分析的角度和出發(fā)點(diǎn)?;诓煌木S度,可以看到各量度的分析結(jié)果,也可以基于所有的維度進(jìn)行交叉分析。常用的稅收數(shù)據(jù)分析維度為時(shí)間維度、地理維度、機(jī)構(gòu)維度、納稅人維度、稅收治理員維度等。4.4.3主要主題域的邏輯模型稅務(wù)系統(tǒng)的業(yè)務(wù)處理系統(tǒng)十分復(fù)雜,需要設(shè)計(jì)的邏輯模型數(shù)量很多,邏輯屬性十分龐雜,且由于數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)要滯后于業(yè)務(wù)系統(tǒng)的設(shè)計(jì),根據(jù)工作需要許多次要的邏輯屬性要待業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)基本定型后繼續(xù)修改,沒(méi)有必要也不可能在建立初期就確定。本文只對(duì)納稅人主題、稅收收入主題、稅務(wù)治理行為主個(gè)當(dāng)前最重要的主題,以不斷完善和擴(kuò)展稅收數(shù)據(jù)分析系統(tǒng)。同時(shí)稅收數(shù)據(jù)分析系統(tǒng)還必須要適應(yīng)用戶需求的多樣性、各類數(shù)據(jù)源的多樣性,需要數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)必須具有強(qiáng)大的可擴(kuò)展性。.4.3.2稅收收入主題稅收收入和計(jì)劃是稅務(wù)系統(tǒng)的主要任務(wù),對(duì)稅收收入信息全面地
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年九年級(jí)物理全冊(cè)13.2內(nèi)能練習(xí)含解析新版新人教版
- 2024年P(guān)ET改性及合金材料項(xiàng)目合作計(jì)劃書(shū)
- 玉溪師范學(xué)院《健身健美》2021-2022學(xué)年第一學(xué)期期末試卷
- 玉溪師范學(xué)院《和聲學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 玉溪師范學(xué)院《光學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 廣西示范中學(xué)2024年高三考前搶分(三)數(shù)學(xué)試題
- 2024年模組檢測(cè)系統(tǒng)項(xiàng)目合作計(jì)劃書(shū)
- 2024住宿酒店合同酒店商務(wù)住宿合同
- 北師大版四年級(jí)上冊(cè)數(shù)學(xué)第三單元 乘法 測(cè)試卷【奪分金卷】
- 滬教版三年級(jí)下冊(cè)數(shù)學(xué)第二單元 用兩位數(shù)乘除 測(cè)試卷【含答案】
- 銷售大戶監(jiān)管辦法
- 小型裝配式冷庫(kù)設(shè)計(jì)(全套圖紙)
- 西師版小學(xué)數(shù)學(xué)二年級(jí)上冊(cè)半期考試
- 八六版高中英語(yǔ)課文全集
- 審計(jì)工作手冊(cè)
- 胰腺癌一病一品知識(shí)分享
- 【原創(chuàng)】《基于地理實(shí)踐力培養(yǎng)的校本課程開(kāi)發(fā)研究》中期報(bào)告
- 公司下屬?gòu)S部推行5S管理通知
- (最新)13《金稅三期工程運(yùn)維架構(gòu)設(shè)計(jì)方案》V10
- 青島版4年級(jí)上冊(cè)相遇問(wèn)題說(shuō)課
- 機(jī)械加工企業(yè)安全生產(chǎn)事故應(yīng)急預(yù)案(完整版)
評(píng)論
0/150
提交評(píng)論