基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)淺析_第1頁
基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)淺析_第2頁
基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)淺析_第3頁
基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)淺析_第4頁
基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)淺析_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)淺析0論文類別:會(huì)計(jì)審計(jì)論文審計(jì)論文論文作者:荊霞上傳時(shí)間:2012-1-7 10:00:00摘要 本文針對(duì)計(jì)算機(jī)審計(jì)的現(xiàn)狀,提出了基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)分析流程,以及應(yīng)用DBSCAN聚類算法查找審計(jì)證據(jù)的方法。關(guān)鍵詞 計(jì)算機(jī)審計(jì);數(shù)據(jù)挖掘;聚類算法;噪聲數(shù)據(jù)隨著經(jīng)濟(jì)和信息技術(shù)的不斷發(fā)展,許多企業(yè)開始引入了等系統(tǒng),這些系統(tǒng)使得企業(yè)的眾多活動(dòng)數(shù)據(jù)可以實(shí)時(shí)記錄,形成了大量有關(guān)企業(yè)經(jīng)營管理的數(shù)據(jù)倉庫。從這些海量數(shù)據(jù)中獲取有用的審計(jì)數(shù)據(jù)是目前計(jì)算機(jī)審計(jì)的一個(gè)應(yīng)用。對(duì)于審計(jì)人員來說,如何從被審計(jì)單位的海量數(shù)據(jù)中找出全面、高質(zhì)量的審計(jì)數(shù)據(jù)從而找出審計(jì)證據(jù)是一個(gè)難題。本文利用數(shù)據(jù)挖掘技

2、術(shù)對(duì)此問題進(jìn)行了探討并提出了解決的方法。數(shù)據(jù)挖掘( )指的是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取出隱藏的、不為人知的卻潛在有用的信息和知識(shí)的過程。事實(shí)上,實(shí)際應(yīng)用數(shù)據(jù)的質(zhì)量和存儲(chǔ)模式對(duì)于實(shí)施計(jì)算機(jī)審計(jì)并成功獲取審計(jì)證據(jù)非常重要。由于被審單位信息系統(tǒng)軟硬件平臺(tái)的異構(gòu)性和可能存在的人為故意隱瞞、造假等,為保證計(jì)算機(jī)審計(jì)工作順利進(jìn)行和審計(jì)結(jié)論的正確,對(duì)審計(jì)數(shù)據(jù)進(jìn)行采集時(shí)必須對(duì)數(shù)據(jù)進(jìn)行檢查、控制和分析。審計(jì)數(shù)據(jù)采集審計(jì)數(shù)據(jù)采集指在開展計(jì)算機(jī)審計(jì)時(shí)從被審計(jì)單位的財(cái)務(wù)及業(yè)務(wù)信息系統(tǒng)及其他數(shù)據(jù)源獲得審計(jì)所需的電子數(shù)據(jù)并進(jìn)行適當(dāng)?shù)母袷睫D(zhuǎn)換。一般來說,計(jì)算機(jī)審計(jì)中數(shù)據(jù)采集的方法主要包括

3、以下幾種:()利用被審單位信息系統(tǒng)的數(shù)據(jù)導(dǎo)出功能。大多數(shù)的信息管理系統(tǒng)都提供了數(shù)據(jù)導(dǎo)出的功能,審計(jì)人員直接可以利用該功能導(dǎo)出企業(yè)財(cái)務(wù)數(shù)據(jù)完成數(shù)據(jù)的采集。()利用通用的數(shù)據(jù)處理軟件完成數(shù)據(jù)采集。如ccess、 erver等都具有較強(qiáng)大的數(shù)據(jù)導(dǎo)入導(dǎo)出功能和數(shù)據(jù)轉(zhuǎn)換功能。審計(jì)人員可以利用這些軟件完成數(shù)據(jù)的采集。如被審企業(yè)原始數(shù)據(jù)為文本格式可以轉(zhuǎn)換為數(shù)據(jù)庫表格格式。()利用審計(jì)軟件完成數(shù)據(jù)采集。如國家從年開始建設(shè)的“金審工程”就以現(xiàn)場(chǎng)審計(jì)實(shí)施系統(tǒng)()及審計(jì)辦公系統(tǒng)()作為計(jì)算機(jī)輔助審計(jì)的工具。別外應(yīng)用國內(nèi)的企業(yè)財(cái)務(wù)審計(jì)軟件、審計(jì)數(shù)據(jù)采集分析軟件等都可以完成審計(jì)數(shù)據(jù)的采集。()利用專用程序接口完成數(shù)據(jù)采

4、集。當(dāng)被審計(jì)單位提供的審計(jì)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)與已有的審計(jì)數(shù)據(jù)處理軟件系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)差異較大時(shí),可以在審計(jì)人員的協(xié)助下由專門的程序員開發(fā)接口程序,完成數(shù)據(jù)的采集,但成本相對(duì)較高。 數(shù)據(jù)清洗利用數(shù)據(jù)挖掘?qū)徲?jì)數(shù)據(jù)進(jìn)行處理分類時(shí),為了提高分類的準(zhǔn)確性、高效性和可伸縮性,必須對(duì)數(shù)據(jù)庫進(jìn)行預(yù)處理,包括:數(shù)據(jù)的清洗、相關(guān)性分析、數(shù)據(jù)轉(zhuǎn)換等。文獻(xiàn)中給出數(shù)據(jù)清洗的定義為:發(fā)現(xiàn)和消除數(shù)據(jù)中的錯(cuò)誤和不一致來提高數(shù)據(jù)的質(zhì)量。一般而言,審計(jì)數(shù)據(jù)庫中數(shù)據(jù)采集于異質(zhì)操作數(shù)據(jù)庫,不可避免存在著數(shù)據(jù)的錯(cuò)誤或不一致等問題,如數(shù)據(jù)造假、數(shù)據(jù)重復(fù)、數(shù)據(jù)缺失等錯(cuò)誤。根據(jù)文獻(xiàn)提出的審計(jì)數(shù)據(jù)質(zhì)量特征,必須要對(duì)采集的原始數(shù)據(jù)進(jìn)行清洗,即由“臟

5、”變“干凈”,提高審計(jì)數(shù)據(jù)質(zhì)量,這是保證審計(jì)結(jié)論正確的關(guān)鍵。數(shù)據(jù)清洗的一般過程如圖所示。()數(shù)據(jù)分析:為了清洗出干凈的數(shù)據(jù),必須對(duì)數(shù)據(jù)進(jìn)行詳盡的分析,包括數(shù)據(jù)的格式類別等。比如采集來的財(cái)務(wù)數(shù)據(jù)的字段類型、寬度、含義等。()模式轉(zhuǎn)換:模式轉(zhuǎn)換主要是指將源數(shù)據(jù)映射成目標(biāo)數(shù)據(jù)模型,如屬性的轉(zhuǎn)換,字段的約束條件和數(shù)據(jù)庫中各個(gè)數(shù)據(jù)集之間的映射和轉(zhuǎn)換等。有時(shí)需要將多個(gè)數(shù)據(jù)表合并成一個(gè)二維表格,有時(shí)卻要將一個(gè)數(shù)據(jù)表拆分成多個(gè)二維表格以便于問題的解決。()數(shù)據(jù)校驗(yàn):上一步的模式轉(zhuǎn)換可行否,需要進(jìn)行評(píng)估測(cè)試,經(jīng)過反復(fù)分析、設(shè)計(jì)、計(jì)算、分析才能更好地清洗數(shù)據(jù)。否則不經(jīng)過數(shù)據(jù)校驗(yàn)可能有些錯(cuò)誤數(shù)據(jù)不是很明顯,不能被很

6、好地篩選出來。比如模式轉(zhuǎn)換時(shí)將一個(gè)數(shù)據(jù)集分解成多個(gè)數(shù)據(jù)表的時(shí)候,造成父表的主關(guān)鍵字的值和子表外部關(guān)鍵字的值不一致,從而形成孤立記錄,影響審計(jì)人員審計(jì)證據(jù)的正確性,進(jìn)而影響審計(jì)結(jié)論的正確性。()數(shù)據(jù)回流:用“干凈”的數(shù)據(jù)替代原始數(shù)據(jù)源中的“臟”數(shù)據(jù),避免下次數(shù)據(jù)采集時(shí)重做數(shù)據(jù)的清洗。有時(shí)候數(shù)據(jù)的清洗需要反復(fù)進(jìn)行,審計(jì)人員需要對(duì)采集到的電子數(shù)據(jù)進(jìn)行多次清洗,這樣才能得到高質(zhì)量的審計(jì)數(shù)據(jù)。 數(shù)據(jù)挖掘?qū)崿F(xiàn)經(jīng)過數(shù)據(jù)預(yù)處理后的審計(jì)數(shù)據(jù)庫包含了多個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集又包含了若干數(shù)據(jù)記錄或者稱為元組,如何從這些二維表格數(shù)據(jù)中挖掘出有意義的審計(jì)數(shù)據(jù)至關(guān)重要。本文介紹一種利用聚類算法進(jìn)行審計(jì)數(shù)據(jù)挖掘的算法。 算法

7、概述聚類算法所謂聚類就是根據(jù)相似性對(duì)數(shù)據(jù)對(duì)象進(jìn)行分組,發(fā)現(xiàn)數(shù)據(jù)的分布特征,使得每個(gè)聚類中數(shù)據(jù)有非常高的相似性而不同聚類中的數(shù)據(jù)盡可能不同。它同分類的主要區(qū)別在于,分類事先知道所依據(jù)的數(shù)據(jù)特征,而聚類是要找到這個(gè)數(shù)據(jù)特征。作為數(shù)據(jù)挖掘的功能,聚類分析可以作為一個(gè)獲取數(shù)據(jù)分布情況、觀察每個(gè)類的特征和對(duì)特定類進(jìn)行進(jìn)一步獨(dú)立分析的工具;聚類也能夠有效處理噪聲數(shù)據(jù),比如數(shù)據(jù)庫中普遍包含的孤立點(diǎn)、空缺或錯(cuò)誤數(shù)據(jù)等。聚類分析算法通常有5類:基于劃分的方法,如;基于層次的方法,如和;基于密度的方法,如、和;基于網(wǎng)格的方法,如和;基于模型的方法,如。其中算法具有很好的過濾噪聲數(shù)據(jù)的優(yōu)點(diǎn)。本文探討利用算法對(duì)審計(jì)數(shù)

8、據(jù)進(jìn)行處理,找出異常數(shù)據(jù),查找出審計(jì)證據(jù)。 算法算法的基本思想為:對(duì)于同一個(gè)聚類中的每個(gè)對(duì)象,在給定的半徑的鄰域中包含的對(duì)象不能少于某一個(gè)給定的最小數(shù)目(也稱密度)。為了生存一個(gè)聚類,算法首先從數(shù)據(jù)集中選擇任意一個(gè)對(duì)象,并查找數(shù)據(jù)集中關(guān)于半徑的所有鄰域?qū)ο?,如果這個(gè)鄰域?qū)ο蟮膫€(gè)數(shù)小于最小數(shù)目,則為噪聲數(shù)據(jù);否則的鄰域?qū)ο笮纬梢粋€(gè)初始聚類,中包含對(duì)象及直接密度可達(dá)的所有對(duì)象。然后確定該類中的每一個(gè)對(duì)象是否為核心對(duì)象,若是,就將的鄰域內(nèi)尚未包含到的所有對(duì)象追加到中,并繼續(xù)判定新追加的對(duì)象是否為核心對(duì)象,如果是,重復(fù)上述追加過程,直到這個(gè)聚類不能再擴(kuò)大為止。然后算法再在數(shù)據(jù)集中另選一個(gè)沒有被標(biāo)識(shí)為某

9、個(gè)聚類或者噪聲的對(duì)象,重復(fù)上面的操作,一直到數(shù)據(jù)集中的所有對(duì)象要么被標(biāo)識(shí)為某個(gè)聚類、要么被標(biāo)識(shí)為噪聲數(shù)據(jù)為止。算法進(jìn)行聚類的過程就是不斷執(zhí)行數(shù)據(jù)集查詢比較的過程,最后產(chǎn)生的噪聲數(shù)據(jù)就是通常所說的異常數(shù)據(jù),對(duì)于幫助審計(jì)人員進(jìn)行審計(jì)判斷非常有效。圖表示了二維平面坐標(biāo)下的噪聲數(shù)據(jù)和若干聚類。數(shù)據(jù)模式定義項(xiàng)間的距離設(shè)和是數(shù)據(jù)集中的任意兩條記錄即某兩個(gè)數(shù)據(jù)項(xiàng),它們之間的距離定義為:式中,(,),(,)表示數(shù)據(jù)集中兩個(gè)項(xiàng)和在二維空間的坐標(biāo)點(diǎn),因此表示和在二維空間坐標(biāo)的距離。如果大于給定的值,則表示和不屬于同一個(gè)聚類分組。轉(zhuǎn)貼于 免費(fèi)論文下載中心 審計(jì)數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘時(shí)數(shù)據(jù)的選擇是在二維平面上進(jìn)行的,首先

10、選擇列(字段或?qū)傩裕龠x擇行(記錄或元組)。為了能夠獲得有效的審計(jì)證據(jù)得出正確的審計(jì)結(jié)論,有時(shí)候必須對(duì)源數(shù)據(jù)集進(jìn)行數(shù)據(jù)轉(zhuǎn)換。因?yàn)楦鱾€(gè)企事業(yè)單位的規(guī)模不同,財(cái)務(wù)數(shù)據(jù)的數(shù)量級(jí)或者數(shù)量單位可能不同,為了得到更加科學(xué)可靠的聚類分析結(jié)果,需要對(duì)財(cái)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,一般進(jìn)行比例變換。如將軸定義為某公司某月營業(yè)收入與利潤總額的比值,將軸定義為財(cái)務(wù)費(fèi)用與凈利潤的比值,這樣處理的數(shù)據(jù)能更好地反映該企業(yè)的實(shí)際情況。這里的財(cái)務(wù)數(shù)據(jù)預(yù)處理都是由用戶來定義的,可以根據(jù)不同的審計(jì)要求和審計(jì)目的來定義。建立一個(gè)新的二維表格數(shù)據(jù)至少包含4個(gè)屬性項(xiàng):記錄號(hào),軸數(shù)據(jù),軸數(shù)據(jù),標(biāo)記。其中記錄號(hào)保持對(duì)應(yīng)源數(shù)據(jù)集中的記錄號(hào), 坐標(biāo)和

11、坐標(biāo)即為經(jīng)過比例變換后的數(shù)值,標(biāo)記字段初始內(nèi)容為空。算法描述及流程圖給定一個(gè)計(jì)算機(jī)審計(jì)數(shù)據(jù)集,假設(shè)具有個(gè)元組或者記錄,利用算法思想構(gòu)造出個(gè)分組(),每個(gè)分組代表一個(gè)聚類。且個(gè)分組必須滿足如下條件:()每個(gè)分組至少包含個(gè)元組。()每個(gè)分組中的任意兩個(gè)元組直接的距離小于等于給定的距離。(3)每個(gè)元組僅屬于一個(gè)分組。圖為實(shí)現(xiàn)審計(jì)數(shù)據(jù)挖掘的算法(稱為)的流程圖。 聚類算法的實(shí)現(xiàn)算法:審計(jì)數(shù)據(jù)挖掘聚類算法()輸入:根據(jù)數(shù)據(jù)集產(chǎn)生的二維表格數(shù)據(jù) /至少含有4個(gè)字段: 記錄號(hào), 坐標(biāo)數(shù)據(jù), 坐標(biāo)數(shù)據(jù), 標(biāo)記 半徑 /度量密度的距離 密度 /簇中的數(shù)目輸出:噪聲數(shù)據(jù)記錄 (,) /輸出標(biāo)識(shí)為噪聲的數(shù)據(jù) ( )

12、 /隨機(jī)選取沒有被標(biāo)記的記錄(,) /找到關(guān)于的密度可達(dá)記錄 () (,) /為核心記錄 (,) 在算法中,利用()函數(shù)產(chǎn)生第一個(gè)隨機(jī)記錄,利用()函數(shù)產(chǎn)生關(guān)于的密度可達(dá)記錄。該算法最后的結(jié)果和隨機(jī)產(chǎn)生的第一條記錄相關(guān),形成的聚類可能有不同,但得到的噪聲數(shù)據(jù)一致,因此對(duì)于審計(jì)證據(jù)的查找是有效的。 結(jié)論數(shù)據(jù)挖掘技術(shù)與海量數(shù)據(jù)下審計(jì)業(yè)務(wù)的有效結(jié)合是未來計(jì)算機(jī)審計(jì)的一個(gè)發(fā)展方向。本文主要介紹了審計(jì)數(shù)據(jù)的采集、數(shù)據(jù)的處理轉(zhuǎn)換和數(shù)據(jù)的挖掘3個(gè)方面,并且在數(shù)據(jù)的挖掘方面采用了基于聚類的算法來快速、準(zhǔn)確、高效地輸出噪聲數(shù)據(jù)。該算法中涉及的二維平面,軸坐標(biāo)可以根據(jù)實(shí)際審計(jì)需要由審計(jì)人員加以定義,因此可以應(yīng)用到各類審計(jì)實(shí)踐中去。另外,可以將算法擴(kuò)展到三維空間上,只要再加上一個(gè)軸數(shù)據(jù),當(dāng)然軸數(shù)據(jù)也應(yīng)該是和,軸數(shù)據(jù)相關(guān)的一個(gè)比例數(shù)據(jù),此時(shí)聚類的結(jié)果將會(huì)變成一個(gè)不規(guī)則球體,從而能夠更加容易挖掘出未曾發(fā)現(xiàn)的知識(shí),也更加容易發(fā)現(xiàn)數(shù)據(jù)間的潛在聯(lián)系。主要參考文獻(xiàn)加 , 數(shù)據(jù)挖掘概念與技術(shù).范明,譯 北京:機(jī)械工業(yè)出版社,.陳偉,張金城, 審計(jì)數(shù)據(jù)處理實(shí)驗(yàn)中的模擬數(shù)據(jù)生成系統(tǒng).計(jì)算機(jī)工程,(19).王琦峰,胡玲玲 基于的審計(jì)數(shù)據(jù)采集方法 .計(jì)算機(jī)系統(tǒng)應(yīng)用,(3).米天勝,張金城 面向數(shù)據(jù)的計(jì)算機(jī)審計(jì)中數(shù)據(jù)質(zhì)量問題的探討.審計(jì)與經(jīng)濟(jì)研究,(1).王昊,朱文明 審計(jì)數(shù)據(jù)質(zhì)量研究:從審計(jì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論