數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)中的深度應用_第1頁
數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)中的深度應用_第2頁
數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)中的深度應用_第3頁
數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)中的深度應用_第4頁
數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)中的深度應用_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)中的深度應用 隨著計算機技術(shù)的發(fā)展和數(shù)據(jù)挖掘應用的逐漸成熟,數(shù)據(jù)挖掘技術(shù)引起了越來越多的行業(yè)的重視。在國外,政府應用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)欺詐行為已經(jīng)有了30多年的歷史,如今,中國的各類政府機關(guān)在信息化的進程中也都不約而同的將數(shù)據(jù)挖掘應用提到了議事日程上來。稅務(wù)征管需要以更新、更便捷、更有效的方法,對大量的征管數(shù)據(jù)進行分析、提取、挖掘其隱藏信息數(shù)據(jù)中的潛能。本文著重介紹了通過數(shù)據(jù)挖掘技術(shù)如何實現(xiàn)納稅評估選案,從而降低征管成本,提高管理效果。 一、稅務(wù)征管發(fā)展基本狀況我國和許多起他國家一樣每年都會因為納稅人的偷漏稅問題而損失大量的財政收入,有關(guān)稅務(wù)部門一直以來都致力于解決這方面的

2、問題。但是在沒有引進計算機工具和數(shù)據(jù)挖掘工具技術(shù)之前,這方面的工作在很大程度上,是依賴專業(yè)的人員根據(jù)以往的工作經(jīng)驗和某些直覺上的判斷來圈定那些不法納稅人的特征,雖然這在初期可能會有很大的幫助,但是隨著稅務(wù)體制的改革,經(jīng)濟的發(fā)展,自然而然的引起的稅源的增加,稅種的增加,這時,政府的稅務(wù)管理部門在使用以往總結(jié)的憑經(jīng)驗和直覺判斷的方法,去區(qū)分判斷那些違法的納稅人,勢必會導致產(chǎn)生以下問題:征管人員的增加,引起征管成本增大;選案的不科學性,引起征管效率低下;同時,對于個案檢查過程中,由于沒有證據(jù)來源,所以增加了個案的時間成本,而且往往是效果也不是十分明顯。 以上種種問題表明,僅僅依賴定性的研究來輔助政府

3、稅務(wù)管理部門如何加大監(jiān)管的工作力度已經(jīng)出現(xiàn)了很多弊端,借鑒國外的成功經(jīng)驗,使用數(shù)據(jù)挖掘,對稅務(wù)管理部門所轄的納稅戶進行納稅評估選案的工作,將會大大提高監(jiān)管工作的效率和工作的效果。當各個稅收征管部門把稅務(wù)信息化作為急待解決的問題時,而數(shù)據(jù)挖掘是實現(xiàn)信息化的必由之路。金稅三期展開前后,稅務(wù)部門都比較關(guān)注稅務(wù)數(shù)據(jù)的深度利用和數(shù)據(jù)挖掘問題。 二、對數(shù)據(jù)挖掘深度利用的理解 數(shù)據(jù)挖掘(Data Mining)是一種知識發(fā)現(xiàn)的過程,它主要基于統(tǒng)計學、人工智能、機器學習等技術(shù),高度自動化地分析數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,并對未來情況進行分析、預測,以輔助管理者、決策者評估風險、做出正確的決策

4、。同時,數(shù)據(jù)挖掘也包含了一系列旨在從數(shù)據(jù)集中發(fā)現(xiàn)有用而尚未發(fā)現(xiàn)的模式(Pattern)的技術(shù)。確切地說,從大量的數(shù)據(jù)中抽取出潛在的、不為人知的有用信息、模式和趨勢,是一種更深層次的數(shù)據(jù)分析。數(shù)據(jù)是形成知識的源泉,原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的,如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。方法可以是數(shù)學的,也可以是非數(shù)學的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)的知識可以被用于信息管理,查詢優(yōu)化,決策支持和過程控制,還可以用于數(shù)據(jù)自身的應用維護。因此,數(shù)據(jù)挖掘技術(shù)是一門交叉學科,它把人們對數(shù)據(jù)的應用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識、提供管理和決

5、策支持。在這種需求牽引下,匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計、可視化技術(shù)和并行計算等方面的學者和工程技術(shù)人員,投身到數(shù)據(jù)挖掘這一新興的研究領(lǐng)域,形成新的技術(shù)熱點。在實際應用中,數(shù)據(jù)挖掘主要采用關(guān)聯(lián)規(guī)則與時間序列、分類與聚類、Web頁挖掘等幾種分析中進行發(fā)現(xiàn):(一)關(guān)聯(lián)規(guī)則與時間序列分析關(guān)聯(lián)規(guī)則挖掘就是發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。根據(jù)所處理值的類型分為布爾關(guān)聯(lián)規(guī)則與量化關(guān)聯(lián)規(guī)則;根據(jù)涉及的屬性維數(shù)分為單維關(guān)聯(lián)規(guī)則或多維關(guān)聯(lián)規(guī)則。這方面比較有影響的算法有Apriori算法等。時間序列分析與關(guān)聯(lián)規(guī)則分析類似,目的也是為了挖掘出數(shù)據(jù)之間的聯(lián)系,但時間序列分

6、析更加側(cè)重于數(shù)據(jù)在時間先后上的因果關(guān)系。(二)分類與聚類分析分類在數(shù)據(jù)挖掘中是一項非常重要的任務(wù)。分類的目的是通過統(tǒng)計方法、機器學習方法(包括決策樹法和規(guī)則歸納法)、神經(jīng)網(wǎng)絡(luò)方法等構(gòu)造一個分類模型,然后把數(shù)據(jù)庫中的數(shù)據(jù)映射到給定類別中的某一個中去。分類分析首先為每一個觀測賦予一個標記,然后檢查這些被標記的觀測,描述出這些觀測的特征。這種描述可以是一個數(shù)學公式或者模型,利用它可以分類新的觀測。常用的幾種典型的分類模型有線性回歸模型、決策樹模型、基于規(guī)則模型和神經(jīng)網(wǎng)絡(luò)模型等。聚類分析是把一組未標定的記錄或個體按照相似性歸成若干類型,即物以類聚.它的目的是根據(jù)一定的規(guī)則,使同一類別之內(nèi)的相似性盡可能

7、大,而類別之間的相似性盡可能小,合理地劃分記錄集合。知識外化過程的下一層次包含了更為強大的搜索工具和文件管理系統(tǒng),它們對貯存的知識進行分類,并能識別出各信息源之間的相似之處?;诖耍捎镁垲惖姆椒ㄕ页鲋R庫中各知識結(jié)構(gòu)間隱含的關(guān)系或聯(lián)系。(三)Web 頁挖掘分析隨著Internet的迅速發(fā)展,使得網(wǎng)絡(luò)上的信息量無比豐富,通過對Web 的挖掘,可以利用其上的海量數(shù)據(jù)進行分析,根據(jù)分析結(jié)果找出企業(yè)管理過程中出現(xiàn)的各種問題,對這些信息進行分析和處理,以便識別、分析、獲取、存儲、傳遞信息,并將其轉(zhuǎn)化為知識。長期以來,稅收工作中數(shù)據(jù)利用比較常見的形式有:報表瀏覽、簡單查詢、復雜查詢、稅源分析、稅負分析、

8、收入預測、過程監(jiān)控等,多數(shù)專家認為,目前稅務(wù)數(shù)據(jù)應用的一般特征是基于匯總、分類、簡單計算基礎(chǔ)之上的原始稅收數(shù)據(jù)的“復制式”展現(xiàn)和對稅收現(xiàn)象的“陳列式”描述。 隨著經(jīng)濟、社會的發(fā)展,稅收數(shù)據(jù)的一般利用已經(jīng)不能滿足稅收信息化深化和稅收管理現(xiàn)代化的內(nèi)在需求,為了加強稅收征管、規(guī)范稅收秩序,國務(wù)院于1994年開始實施“金稅工程”?!敖鸲惞こ獭背跗谝浴霸鲋刀惐O(jiān)管”為主要目標;二期時,內(nèi)容已拓寬為增值稅防偽稅控開票系統(tǒng)、防偽稅控認證系統(tǒng)、增值稅計算機交叉稽核系統(tǒng)、發(fā)票協(xié)查信息管理系統(tǒng)的四個系統(tǒng);到了三期,其目標已經(jīng)成為:在二期基礎(chǔ)上,建立七個子系統(tǒng)(管理子系統(tǒng)、征收子系統(tǒng)、稽查子系統(tǒng)、處罰子系統(tǒng)、執(zhí)行子系

9、統(tǒng)、救濟子系統(tǒng)、監(jiān)控子系統(tǒng)),35個模塊。依據(jù)美國學者RichardL-Nolan的理論(對于任何行業(yè),信息化大體要經(jīng)歷初始、蔓延、控制、集成、數(shù)據(jù)管理和成熟這樣幾個發(fā)展階段,這是信息化發(fā)展的般規(guī)律。)和Mische的補充(他認為集成和數(shù)據(jù)管理是密不可分的,因此信息化發(fā)展的必然路徑是起步、增長、成熟和更新四個階段),目前,稅務(wù)信息化的發(fā)展階段已開始向成熟階段過渡。于是稅收數(shù)據(jù)的深度利用便提上日程。我們可以從稅收管理戰(zhàn)略和稅收政策分析兩方面來看這種需求的提出。 從稅務(wù)管理戰(zhàn)略來看,在納稅前如何綜合評價簡化管理制度(法律)及照章納稅宣傳的相對效果;在納稅中如何核算稅收結(jié)構(gòu)和管理程度的實際資源成本(

10、管理、照章納稅、效率、逃稅),以及納稅后對稅收差距的衡量(包括潛在稅收與申報稅收的差距、申報稅收與實收稅收的差距、實收稅收與送達國庫稅收的差距),都涉及到稅收數(shù)據(jù)的深度利用問題。 從稅收政策分析的角度來看,稅收經(jīng)濟的和諧發(fā)展度量、稅制改革方案分析、稅收減免和優(yōu)惠的成本和政策收益、稅收政策的經(jīng)濟影響等等也涉及到稅收數(shù)據(jù)的深度利用和挖掘問題。 這些問題都從以下兩方面引發(fā)了我們對稅務(wù)數(shù)據(jù)深度利用的理解和思考:一方面提出了我們需要全面檢視擁有的稅務(wù)數(shù)據(jù)信息的需求。在各國稅務(wù)數(shù)據(jù)信息深度利用的經(jīng)驗當中,提出過一些全面檢視的標準,例如按照稅基到稅收收入的實現(xiàn)途徑,可以檢視:稅基的規(guī)模,包括真實稅基和潛在稅

11、基;稅收管理資源使用方向的詳細分類;管理資源使用的效用;稅收管理的效果,例如收到稅款的多少,處理案件的數(shù)量等。 另一方面,更為關(guān)鍵的是,提出了如何科學利用、深度利用的問題??偨Y(jié)以上兩方面,我們認為稅收數(shù)據(jù)的深度利用是指:在數(shù)據(jù)集中和系統(tǒng)整合的基礎(chǔ)上,建立全面的稅務(wù)數(shù)據(jù)信息,既包括稅務(wù)系統(tǒng)內(nèi)部數(shù)據(jù),也包括其他政府部門、企業(yè)、居民等外部數(shù)據(jù),并且進一步在各種模型的幫助下,發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在規(guī)律。就目前而言,重點任務(wù)是在稅務(wù)管理方面提出適用中國實踐的模型并且應用,同時初步探索在稅收經(jīng)濟方面能夠刻畫符合我國國情的模型。 三、構(gòu)建模型是數(shù)據(jù)深度利用的切入口 如前所述,稅務(wù)數(shù)據(jù)深度利用和挖掘的關(guān)鍵在于模型的應

12、用,下面我們就來討論模型是什么?我們?yōu)槭裁葱枰P?我們需要什么樣的模型?就稅收數(shù)據(jù)深度利用的模型而言,大致可以分為兩類:以科學化管理、定量化管理、精細化管理為內(nèi)在思想的管理工具和手段所形成的模型;以研究稅收經(jīng)濟關(guān)系協(xié)調(diào)發(fā)展為目的的稅收經(jīng)濟模型。 在基本認識了稅務(wù)數(shù)據(jù)深度利用中的模型是什么之后,雖然我們達成了一種共識,我們需要模型,但是如果我們思考過為什么需要模型?顯然會對模型應用更能得心應手。我們認為模型所發(fā)揮的作用無外乎以下三種: 首先,刻畫稅收經(jīng)濟關(guān)系。一般而言,我們經(jīng)常提到的是模型在刻畫稅收經(jīng)濟關(guān)系當中所起的作用,即采用代數(shù)形式的定量分析將稅收經(jīng)濟理論模型化,然后適當根據(jù)實踐情況把理論

13、模型予以修正,并將相關(guān)數(shù)據(jù)應用到修正模型中,對模型結(jié)果進行經(jīng)驗分析。這種利用的過程是階段性的,是從初級到高級的過程,是一個水平不斷提高、效果不斷改進的發(fā)展過程。 其次,歸納稅收管理實踐。模型起到的作用是將復雜的稅收征納活動通過數(shù)字化的形式總結(jié)歸納,將稅收征納的每一個過程精細化、每一個結(jié)果數(shù)據(jù)化,并且建立起投入到產(chǎn)出之間的對應關(guān)系。最后,數(shù)據(jù)組織的導向性作用。這種導向性作用的發(fā)揮是通過模型應用過程當中對各類數(shù)據(jù)提出的要求實現(xiàn)的,通過該作用,隨著時間的發(fā)展,數(shù)據(jù)集中的有效性與目的性不斷加強,反之,模型應用空間不斷擴展。在這一方面,美國個人所得稅模型應用為我們提供了很好的啟迪。 結(jié)合目前的稅務(wù)數(shù)據(jù)基

14、礎(chǔ)及其發(fā)展趨勢來看,金稅三期將成為稅收數(shù)據(jù)深度利用的良好契機,構(gòu)建相應模型是我們形成稅務(wù)數(shù)據(jù)深度利用良好局面的切入口。 對于“我們需要什么樣的模型”的回答,是一個不斷結(jié)合實際進行摸索的過程,但是就現(xiàn)階段而言,從可操作性的角度出發(fā),我們還是需要給所應用的模型框定一個邊界:數(shù)據(jù)可利用性,如果沒有數(shù)據(jù)的支持,模型應用將無從談起;可計算性,模型應用迅速發(fā)展的基石之一就是現(xiàn)代計算技術(shù)的發(fā)展,沒有計算工具的支持,具有龐大計算量的各種稅收模型的完成無法想象,支持稅收模型應用的計算工具包括硬件具備的計算能力和軟件具有的算法能力兩種。 四、數(shù)據(jù)深度利用平臺建設(shè)的體制數(shù)據(jù)深度利用和挖掘最終必須落實到具體計算平臺上

15、,否則縱然有大量的數(shù)據(jù)積累,仍然擺脫不了研究與實踐部門脫節(jié)的窘態(tài)。雖然目前我們擁有大量的計算軟件平臺,然而,總感覺到這些應用平臺離我們的實際需要有一定距離。 從目前應用平臺的構(gòu)建來看,有幾點體會:首先,平臺的構(gòu)建必須結(jié)合具體的研究問題展開。通用性的平臺雖然很好,但是由于前面所提到的數(shù)據(jù)可利用性和可計算性的原因,加上實際工作的緊迫性需求,往往使得通用性平臺的規(guī)劃會落空,甚至于進一步影響數(shù)據(jù)深度利用工作本身。其次,考慮針對具體問題研究的通用性拓展。雖然實用為先,然而要做到持續(xù)性的數(shù)據(jù)利用,必然要考慮拓展的問題。在這個問題上,我們的平臺通過稅制表示方法、稅收政策分析模型描述語言中國稅收政策分析模型支持系統(tǒng)等方法進行嘗試。 更為重要的是,對適合中國國情的稅收經(jīng)濟模型的提出。由于長期以來的數(shù)據(jù)缺少原因,在我國模型建設(shè)方面沒有進一步的探索。這種缺陷在海量的數(shù)據(jù)突然呈現(xiàn)在我們面前的時候更加突出。我們正在嘗試提出適用干中國的稅收經(jīng)濟模型,雖然肯定會比較艱難,但是這

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論