基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)分析_第1頁(yè)
基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)分析_第2頁(yè)
基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)分析_第3頁(yè)
基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)分析_第4頁(yè)
基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)分析_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)分析[摘要]本文針對(duì)計(jì)算機(jī)審計(jì)的現(xiàn)狀,提出了基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)分析流程,以及應(yīng)用DBSCAN聚類算法查找審計(jì)證據(jù)的辦法。[核心詞]計(jì)算機(jī)審計(jì);數(shù)據(jù)挖掘;聚類算法;噪聲數(shù)據(jù)隨著經(jīng)濟(jì)和信息技術(shù)的不停發(fā)展,許多公司開(kāi)始引入了ERP等系統(tǒng),這些系統(tǒng)使得公司的眾多活動(dòng)數(shù)據(jù)能夠?qū)崟r(shí)統(tǒng)計(jì),形成了大量有關(guān)公司經(jīng)營(yíng)管理的數(shù)據(jù)倉(cāng)庫(kù)。從這些海量數(shù)據(jù)中獲取有用的審計(jì)數(shù)據(jù)是現(xiàn)在計(jì)算機(jī)審計(jì)的一種應(yīng)用。對(duì)于審計(jì)人員來(lái)說(shuō),如何從被審計(jì)單位的海量數(shù)據(jù)中找出全方面、高質(zhì)量的審計(jì)數(shù)據(jù)從而找出審計(jì)證據(jù)是一種難題。本文運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)此問(wèn)題進(jìn)行了探討并提出理解決的辦法。數(shù)據(jù)挖掘(DataMining)指的是從大量的、不完全的、有噪聲的、含糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取出隱藏的、不為人知的卻潛在有用的信息和知識(shí)的過(guò)程[1]。事實(shí)上,實(shí)際應(yīng)用數(shù)據(jù)的質(zhì)量和存儲(chǔ)模式對(duì)于實(shí)施計(jì)算機(jī)審計(jì)并成功獲取審計(jì)證據(jù)非常重要。由于被審單位信息系統(tǒng)軟硬件平臺(tái)的異構(gòu)性和可能存在的人為故意隱瞞、造假等,為確保計(jì)算機(jī)審計(jì)工作順利進(jìn)行和審計(jì)結(jié)論的對(duì)的,對(duì)審計(jì)數(shù)據(jù)進(jìn)行采集時(shí)必須對(duì)數(shù)據(jù)進(jìn)行檢查、控制和分析。1審計(jì)數(shù)據(jù)采集審計(jì)數(shù)據(jù)采集指在開(kāi)展計(jì)算機(jī)審計(jì)時(shí)從被審計(jì)單位的財(cái)務(wù)及業(yè)務(wù)信息系統(tǒng)及其它數(shù)據(jù)源獲得審計(jì)所需的電子數(shù)據(jù)并進(jìn)行適宜的格式轉(zhuǎn)換[3]。普通來(lái)說(shuō),計(jì)算機(jī)審計(jì)中數(shù)據(jù)采集的辦法重要涉及下列幾個(gè):(1)運(yùn)用被審單位信息系統(tǒng)的數(shù)據(jù)導(dǎo)出功效。大多數(shù)的信息管理系統(tǒng)都提供了數(shù)據(jù)導(dǎo)出的功效,審計(jì)人員直接能夠運(yùn)用該功效導(dǎo)出公司財(cái)務(wù)數(shù)據(jù)完畢數(shù)據(jù)的采集。(2)運(yùn)用通用的數(shù)據(jù)解決軟件完畢數(shù)據(jù)采集。如Access、SQLServer等都含有較強(qiáng)大的數(shù)據(jù)導(dǎo)入導(dǎo)出功效和數(shù)據(jù)轉(zhuǎn)換功效。審計(jì)人員能夠運(yùn)用這些軟件完畢數(shù)據(jù)的采集。如被審公司原始數(shù)據(jù)為文本格式能夠轉(zhuǎn)換為數(shù)據(jù)庫(kù)表格格式。(3)運(yùn)用審計(jì)軟件完畢數(shù)據(jù)采集。如國(guó)家從2002年開(kāi)始建設(shè)的“金審工程”就以現(xiàn)場(chǎng)審計(jì)實(shí)施系統(tǒng)(AO)及審計(jì)辦公系統(tǒng)(OA)作為計(jì)算機(jī)輔助審計(jì)的工具。別外應(yīng)用國(guó)內(nèi)的公司財(cái)務(wù)審計(jì)軟件、審計(jì)數(shù)據(jù)采集分析軟件等都能夠完畢審計(jì)數(shù)據(jù)的采集。(4)運(yùn)用專用程序接口完畢數(shù)據(jù)采集。當(dāng)被審計(jì)單位提供的審計(jì)數(shù)據(jù)的數(shù)據(jù)構(gòu)造與已有的審計(jì)數(shù)據(jù)解決軟件系統(tǒng)的數(shù)據(jù)構(gòu)造差別較大時(shí),能夠在審計(jì)人員的協(xié)助下由專門的程序員開(kāi)發(fā)接口程序,完畢數(shù)據(jù)的采集,但成本相對(duì)較高。2數(shù)據(jù)清洗運(yùn)用數(shù)據(jù)挖掘?qū)徲?jì)數(shù)據(jù)進(jìn)行解決分類時(shí),為了提高分類的精確性、高效性和可伸縮性,必須對(duì)數(shù)據(jù)庫(kù)進(jìn)行預(yù)解決,涉及:數(shù)據(jù)的清洗、有關(guān)性分析、數(shù)據(jù)轉(zhuǎn)換等。文獻(xiàn)[4]中給出數(shù)據(jù)清洗的定義為:發(fā)現(xiàn)和消除數(shù)據(jù)中的錯(cuò)誤和不一致來(lái)提高數(shù)據(jù)的質(zhì)量。普通而言,審計(jì)數(shù)據(jù)庫(kù)中數(shù)據(jù)采集于異質(zhì)操作數(shù)據(jù)庫(kù),不可避免存在著數(shù)據(jù)的錯(cuò)誤或不一致等問(wèn)題,如數(shù)據(jù)造假、數(shù)據(jù)重復(fù)、數(shù)據(jù)缺失等錯(cuò)誤。根據(jù)文獻(xiàn)[5]提出的審計(jì)數(shù)據(jù)質(zhì)量特性,必須要對(duì)采集的原始數(shù)據(jù)進(jìn)行清洗,即由“臟”變“干凈”,提高審計(jì)數(shù)據(jù)質(zhì)量,這是確保審計(jì)結(jié)論對(duì)的的核心。數(shù)據(jù)清洗的普通過(guò)程如圖2所示。(1)數(shù)據(jù)分析:為了清洗出干凈的數(shù)據(jù),必須對(duì)數(shù)據(jù)進(jìn)行詳盡的分析,涉及數(shù)據(jù)的格式類別等。例如采集來(lái)的財(cái)務(wù)數(shù)據(jù)的字段類型、寬度、含義等。(2)模式轉(zhuǎn)換:模式轉(zhuǎn)換重要是指將源數(shù)據(jù)映射成目的數(shù)據(jù)模型,如屬性的轉(zhuǎn)換,字段的約束條件和數(shù)據(jù)庫(kù)中各個(gè)數(shù)據(jù)集之間的映射和轉(zhuǎn)換等。有時(shí)需要將多個(gè)數(shù)據(jù)表合并成一種二維表格,有時(shí)卻要將一種數(shù)據(jù)表拆分成多個(gè)二維表格方便于問(wèn)題的解決。(3)數(shù)據(jù)校驗(yàn):上一步的模式轉(zhuǎn)換可行否,需要進(jìn)行評(píng)定測(cè)試,通過(guò)重復(fù)分析、設(shè)計(jì)、計(jì)算、分析才干更加好地清洗數(shù)據(jù)。否則不通過(guò)數(shù)據(jù)校驗(yàn)可能有些錯(cuò)誤數(shù)據(jù)不是很明顯,不能被較好地篩選出來(lái)。例如模式轉(zhuǎn)換時(shí)將一種數(shù)據(jù)集分解成多個(gè)數(shù)據(jù)表的時(shí)候,造成父表的主核心字的值和子表外部核心字的值不一致,從而形成孤立統(tǒng)計(jì),影響審計(jì)人員審計(jì)證據(jù)的對(duì)的性,進(jìn)而影響審計(jì)結(jié)論的對(duì)的性。(4)數(shù)據(jù)回流:用“干凈”的數(shù)據(jù)替代原始數(shù)據(jù)源中的“臟”數(shù)據(jù),避免下次數(shù)據(jù)采集時(shí)重做數(shù)據(jù)的清洗。有時(shí)候數(shù)據(jù)的清洗需要重復(fù)進(jìn)行,審計(jì)人員需要對(duì)采集到的電子數(shù)據(jù)進(jìn)行多次清洗,這樣才干得到高質(zhì)量的審計(jì)數(shù)據(jù)。3數(shù)據(jù)挖掘?qū)崿F(xiàn)通過(guò)數(shù)據(jù)預(yù)解決后的審計(jì)數(shù)據(jù)庫(kù)包含了多個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集又包含了若干數(shù)據(jù)統(tǒng)計(jì)或者稱為元組,如何從這些二維表格數(shù)據(jù)中挖掘出故意義的審計(jì)數(shù)據(jù)至關(guān)重要。本文介紹一種運(yùn)用聚類算法進(jìn)行審計(jì)數(shù)據(jù)挖掘的算法。3.1算法概述3.1.1聚類算法所謂聚類就是根據(jù)相似性對(duì)數(shù)據(jù)對(duì)象進(jìn)行分組,發(fā)現(xiàn)數(shù)據(jù)的分布特性,使得每個(gè)聚類中數(shù)據(jù)有非常高的相似性而不同聚類中的數(shù)據(jù)盡量不同[6]。它同分類的重要區(qū)別在于,分類事先懂得所根據(jù)的數(shù)據(jù)特性,而聚類是要找到這個(gè)數(shù)據(jù)特性。作為數(shù)據(jù)挖掘的功效,聚類分析能夠作為一種獲取數(shù)據(jù)分布狀況、觀察每個(gè)類的特性和對(duì)特定類進(jìn)行進(jìn)一步獨(dú)立分析的工具;聚類也能夠有效解決噪聲數(shù)據(jù),例如數(shù)據(jù)庫(kù)中普遍包含的孤立點(diǎn)、空缺或錯(cuò)誤數(shù)據(jù)等。聚類分析算法普通有5類[7]:①基于劃分的辦法,如CLARANS;②基于層次的辦法,如CURE和BIRCH;③基于密度的辦法,如DBSCAN、OPTICS、GDBSCAN和DBRS;④基于網(wǎng)格的辦法,如STING和WaveCluster;⑤基于模型的辦法,如COBWEB。其中DBSCAN算法含有較好的過(guò)濾噪聲數(shù)據(jù)的優(yōu)點(diǎn)。本文探討運(yùn)用DBSCAN算法對(duì)審計(jì)數(shù)據(jù)進(jìn)行解決,找出異常數(shù)據(jù),查找出審計(jì)證據(jù)。3.1.2DBSCAN算法DBSCAN算法的基本思想為[8]:對(duì)于同一種聚類中的每個(gè)對(duì)象,在給定的半徑d的鄰域中包含的對(duì)象不能少于某一種給定的最小數(shù)目MinPts(也稱密度)。為了生存一種聚類,DBSCAN算法首先從數(shù)據(jù)集DB中選擇任意一種對(duì)象p,并查找數(shù)據(jù)集DB中有關(guān)半徑d的全部鄰域?qū)ο?,如果這個(gè)鄰域?qū)ο蟮膫€(gè)數(shù)不大于最小數(shù)目MinPts,則p為噪聲數(shù)據(jù);否則p的鄰域?qū)ο笮纬梢环N初始聚類N,N中包含對(duì)象p及p直接密度可達(dá)的全部對(duì)象。然后擬定該類中的每一種對(duì)象q與否為核心對(duì)象,若是,就將q的d—鄰域內(nèi)尚未包含到N的全部對(duì)象追加到N中,并繼續(xù)鑒定新追加的對(duì)象與否為核心對(duì)象,如果是,重復(fù)上述追加過(guò)程,直到這個(gè)聚類不能再擴(kuò)大為止。然后DBSCAN算法再在數(shù)據(jù)集DB中另選一種沒(méi)有被標(biāo)記為某個(gè)聚類或者噪聲的對(duì)象,重復(fù)上面的操作,始終到數(shù)據(jù)集DB中的全部對(duì)象要么被標(biāo)記為某個(gè)聚類、要么被標(biāo)記為噪聲數(shù)據(jù)為止。DBSCAN算法進(jìn)行聚類的過(guò)程就是不停執(zhí)行數(shù)據(jù)集查詢比較的過(guò)程,最后產(chǎn)生的噪聲數(shù)據(jù)就是普通所說(shuō)的異常數(shù)據(jù),對(duì)于協(xié)助審計(jì)人員進(jìn)行審計(jì)判斷非常有效。圖3表達(dá)了二維平面坐標(biāo)下的噪聲數(shù)據(jù)和若干聚類。3.2數(shù)據(jù)模式定義3.2.1項(xiàng)間的距離設(shè)Ri和Rj是數(shù)據(jù)集DB中的任意兩條統(tǒng)計(jì)即某兩個(gè)數(shù)據(jù)項(xiàng),它們之間的距離定義為:式中,Ri(Rix,Riy),Rj(Rjx,Rjy)表達(dá)數(shù)據(jù)集中兩個(gè)項(xiàng)Ri和Rj在二維空間的坐標(biāo)點(diǎn),因此dij表達(dá)Ri和Rj在二維空間坐標(biāo)的距離。如果dij不不大于給定的值d,則表達(dá)Ri和Rj不屬于同一種聚類分組。3.2.2審計(jì)數(shù)據(jù)預(yù)解決數(shù)據(jù)挖掘時(shí)數(shù)據(jù)的選擇是在二維平面上進(jìn)行的,首先選擇列(字段或?qū)傩裕?,再選擇行(統(tǒng)計(jì)或元組)。為了能夠獲得有效的審計(jì)證據(jù)得出對(duì)的的審計(jì)結(jié)論,有時(shí)候必須對(duì)源數(shù)據(jù)集進(jìn)行數(shù)據(jù)轉(zhuǎn)換。由于各個(gè)企事業(yè)單位的規(guī)模不同,財(cái)務(wù)數(shù)據(jù)的數(shù)量級(jí)或者數(shù)量單位可能不同,為了得到更加科學(xué)可靠的聚類分析成果,需要對(duì)財(cái)務(wù)數(shù)據(jù)進(jìn)行預(yù)解決,普通進(jìn)行比例變換。如將x軸定義為某公司某月?tīng)I(yíng)業(yè)收入與利潤(rùn)總額的比值,將y軸定義為財(cái)務(wù)費(fèi)用與凈利潤(rùn)的比值,這樣解決的數(shù)據(jù)能更加好地反映該公司的實(shí)際狀況。這里的財(cái)務(wù)數(shù)據(jù)預(yù)解決都是由顧客來(lái)定義的,能夠根據(jù)不同的審計(jì)規(guī)定和審計(jì)目的來(lái)定義。建立一種新的二維表格數(shù)據(jù)最少包含4個(gè)屬性項(xiàng):統(tǒng)計(jì)號(hào),x軸數(shù)據(jù),y軸數(shù)據(jù),標(biāo)記。其中統(tǒng)計(jì)號(hào)保持對(duì)應(yīng)源數(shù)據(jù)集DB中的統(tǒng)計(jì)號(hào),x坐標(biāo)和y坐標(biāo)即為通過(guò)比例變換后的數(shù)值,標(biāo)記字段初始內(nèi)容為空。3.3算法描述及流程圖給定一種計(jì)算機(jī)審計(jì)數(shù)據(jù)集,假設(shè)含有N個(gè)元組或者統(tǒng)計(jì),運(yùn)用DBSCAN算法思想構(gòu)造出L個(gè)分組(L<N),每個(gè)分組代表一種聚類。且L個(gè)分組必須滿足以下條件:(1)每個(gè)分組最少包含MinPts個(gè)元組。(2)每個(gè)分組中的任意兩個(gè)元組直接的距離不大于等于給定的距離d。(3)每個(gè)元組僅屬于一種分組。圖4為實(shí)現(xiàn)審計(jì)數(shù)據(jù)挖掘的算法(稱為AUDBSCAN)的流程圖。3.4聚類算法的實(shí)現(xiàn)算法:審計(jì)數(shù)據(jù)挖掘聚類算法(AUDBSCAN)輸入:根據(jù)數(shù)據(jù)集DB產(chǎn)生的二維表格數(shù)據(jù) //最少含有4個(gè)字段:rec統(tǒng)計(jì)號(hào),rxx坐標(biāo)數(shù)據(jù),ryy坐標(biāo)數(shù)據(jù),rno標(biāo)記 半徑d//度量密度的距離 密度MinPts//簇中的數(shù)目輸出:噪聲數(shù)據(jù)統(tǒng)計(jì)AlgorithmAUDBSCAN(data,d,MinPts)ForeachrecordindatadoIfeachreccordindataismarkedOutputnoisereccord//輸出標(biāo)記為噪聲的數(shù)據(jù)ElseForeachreccordindataisnotmarkednoiseorclasserdoP←Rand(areccordisnotmarkednoiseorclasser)//隨機(jī)選用沒(méi)有被標(biāo)記的統(tǒng)計(jì)pL←Found(p,d,MinPts)//找到p有關(guān)d的MinPts密度可達(dá)統(tǒng)計(jì)Ifs=recount(L)<MinPtsPismarkednoiseElseN←Found(p,d,MinPts)EachreccordinNismarkedclasserForeachreccordinNdoq←onereccord Ifqisacenterrecord//q為核心統(tǒng)計(jì) N←found(q,d)EndifEndforEndifEndforEndifEndfor在AUDBSCAN算法中,運(yùn)用Rand()函數(shù)產(chǎn)生第一種隨機(jī)統(tǒng)計(jì)p,運(yùn)用Found()函數(shù)產(chǎn)生p有關(guān)d的MinPts密度可達(dá)統(tǒng)計(jì)。該算法最后的成果和隨機(jī)產(chǎn)生的第一條統(tǒng)計(jì)有關(guān),形成的聚類可能有不同,但得到的噪聲數(shù)據(jù)一致,因此對(duì)于審計(jì)證據(jù)的查找是有效的。4結(jié)論數(shù)據(jù)挖掘技術(shù)與海量數(shù)據(jù)下審計(jì)業(yè)務(wù)的有效結(jié)合是將來(lái)計(jì)算機(jī)審計(jì)的一種發(fā)展方向。本文重要介紹了審計(jì)數(shù)據(jù)的采集、數(shù)據(jù)的解決轉(zhuǎn)換和數(shù)據(jù)的挖掘3個(gè)方面,并且在數(shù)據(jù)的挖掘方面采用了基于聚類的DBSCAN算法來(lái)快速、精確、高效地輸出噪聲數(shù)據(jù)。該算法中涉及的二維平面x,y軸坐標(biāo)能夠根據(jù)實(shí)際審計(jì)需要由審計(jì)人員加以定義,因此能夠應(yīng)用到各類審計(jì)實(shí)踐中去。另外,能夠?qū)ⅲ模拢樱茫粒嗡惴〝U(kuò)展到三維空間上,只要再加上一種z軸數(shù)據(jù),固然z軸數(shù)據(jù)也應(yīng)當(dāng)是和x,y軸數(shù)據(jù)有關(guān)的一種比例數(shù)據(jù),此時(shí)聚類的成果將會(huì)變成一種不規(guī)則球體,從而能夠更加容易挖掘出未曾發(fā)現(xiàn)的知識(shí),也更加容易發(fā)現(xiàn)數(shù)據(jù)間的潛在聯(lián)系。重要參考文獻(xiàn)[1][加]JiaweiH,MichellineK.?dāng)?shù)據(jù)挖掘概念與技術(shù)[M].范明,譯.北京:機(jī)械工業(yè)出版社,2004.[2]陳偉,張金城,RobinQiu.審計(jì)數(shù)據(jù)解決實(shí)驗(yàn)中的模擬數(shù)據(jù)生成系統(tǒng)[J].計(jì)算機(jī)工程,2007(19).[3]王琦峰,胡玲玲.基于AO的審計(jì)數(shù)據(jù)采集辦法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2009(3).[4]米天勝,張金城.面對(duì)數(shù)據(jù)的計(jì)算機(jī)審計(jì)中數(shù)據(jù)質(zhì)量問(wèn)題的探討[J].審計(jì)與經(jīng)濟(jì)研究,2006(1).[5]王昊,朱文明.審計(jì)數(shù)據(jù)質(zhì)量研究:從審計(jì)取證的視角[J].南京大學(xué)學(xué)報(bào):自然科學(xué)版,2007(1).[6]楊磊,李建軍,張志軍,孫翠娟.談數(shù)據(jù)挖掘中慣用的聚類算法[J].

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論