大數(shù)據(jù)環(huán)境下的審計信息化思路篇_第1頁
大數(shù)據(jù)環(huán)境下的審計信息化思路篇_第2頁
大數(shù)據(jù)環(huán)境下的審計信息化思路篇_第3頁
大數(shù)據(jù)環(huán)境下的審計信息化思路篇_第4頁
大數(shù)據(jù)環(huán)境下的審計信息化思路篇_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大數(shù)據(jù)環(huán)境下的審計信息化(思路篇)前言:審計信息化工作十余年, 面臨著云計算、 物聯(lián)網、大數(shù)據(jù)、移動通訊和社交網絡等新技術的挑戰(zhàn)。本文希望通過對大數(shù)據(jù)的理解、審計中的應用分析,提出大數(shù)據(jù)服務與審計的一個角度或方向,進而形成相關信息化配套建設的思 路。本文的編寫希望得到讀者的回饋,能夠收到您的批評、 指正。 一、大數(shù)據(jù)的定義和理解(一)廣泛定義對于大數(shù) 據(jù)的理解現(xiàn)在并沒有一個標準的定義,不過大家對于大數(shù)據(jù) 都有一個共同的認識, 那就是 4V( Volume 、Velocity 、Variety 、Veracity ):1.(Volume )數(shù)據(jù)量大, TB,PB ,乃至 EB 等 數(shù)據(jù)量的數(shù)據(jù)需

2、要分析處理。 2.( Velocity )要求快速響應, 市場變化快,要求能及時快速的響應變化,那對數(shù)據(jù)的分析 也要快速,在性能上有更高要求,所以數(shù)據(jù)量顯得對速度要 求有些“大”。3( Variety )數(shù)據(jù)多樣性:不同的數(shù)據(jù)源,非 結構化數(shù)據(jù)越來越多,需要進行清洗,整理,篩選等操作, 變?yōu)榻Y構數(shù)據(jù)。 4.(Veracity )價值密度低, 由于數(shù)據(jù)采集的 不及時,數(shù)據(jù)樣本不全面,數(shù)據(jù)可能不連續(xù)等等,數(shù)據(jù)可能 會失真,但當數(shù)據(jù)量達到一定規(guī)模,可以通過更多的數(shù)據(jù)達 到更真實全面的反饋。而簡化一下描述,其實“大數(shù)據(jù)”是 個體量特別大,數(shù)據(jù)類別特別多的數(shù)據(jù)集,并且這樣的數(shù)據(jù) 集無法用傳統(tǒng)數(shù)據(jù)庫工具對

3、其內容進行抓取、管理和處理。二)審計的大數(shù)據(jù)特征從“大數(shù)據(jù)”概念產生的緣由來看審 計行業(yè)是一個天然需要大數(shù)據(jù)概念及其實現(xiàn)技術的行業(yè)。我 們分析如下:首先,審計行業(yè)的“生產對象”是被審計對象的 數(shù)據(jù),雖然說審計是對財政財務收支的監(jiān)督。但是為了了解 財務的真實情況,必然需要關注業(yè)務數(shù)據(jù),這些行業(yè)的數(shù)據(jù) 每一個都可以說是數(shù)據(jù)體量巨大。同時這些數(shù)據(jù)也是復雜多 樣的,結構化數(shù)據(jù)不用說了(二維表數(shù)據(jù)、立方體數(shù)據(jù)、空 間數(shù)據(jù)等),非結構化數(shù)據(jù)例如:被審計單位的各種制度、 文件、影像等。其次,審計的職責是查處財政財務的真實、 合法和效益問題。查處過程中,需要在這些海量數(shù)據(jù)中進行 關聯(lián)、匯聚的查詢或計算工作,而

4、且這些計算需要同時作用 在結構化、半結構化、非結構化數(shù)據(jù)之上。在沒有大數(shù)據(jù)技 術支撐之前,采用抽樣或按領域分開的方式進行審計分析, 無形中形成了數(shù)據(jù)之間的壁壘和分析的局限性。最后,審計 工作中的審計思路、方法,雖然有章可循,但最終還要依賴 于具體參與審計工作的人的智慧。這也就決定了所有的分析 工作不能像其他的數(shù)據(jù)中心、數(shù)據(jù)分析、數(shù)據(jù)挖掘、決策支 持系統(tǒng)一樣, 是相對“固化”的。而思路的火花是稍縱即逝的, 對任何一個突然閃出的分析思路都應該在“秒級”響應。大數(shù)據(jù)的關鍵技術大數(shù)據(jù)關鍵技術包括數(shù)據(jù)抽取與集成、數(shù) 據(jù)分析、數(shù)據(jù)解釋 3 個領域。 1數(shù)據(jù)抽取與集成。大數(shù)據(jù)的一個重要特點是多樣性。意味著其

5、數(shù)據(jù)來源極其廣泛。數(shù)據(jù)類型極為繁雜,這種復雜的數(shù)據(jù)環(huán)境要求必須對數(shù)據(jù)源中 的數(shù)據(jù)進行抽取和集成。并采用統(tǒng)一定義的結構來存儲這些 數(shù)據(jù)。為保證數(shù)據(jù)質量,需要在數(shù)據(jù)抽取與集成后進行數(shù)據(jù) 清洗。( 1 )數(shù)據(jù)采集: ETL 工具負責將分布的、異構數(shù)據(jù)源 中的數(shù)據(jù)如關系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后 進行清洗、轉換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中, 成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎。 ( 2)數(shù)據(jù)存取:關系數(shù)據(jù)庫、 NOSQL 、 SQL 等。(3)數(shù)據(jù)處理:自然語言處理(NLP ,NaturalLanguageProcessing) 是研究人與計算機交互 的語言問題的一門學科。處理自然

6、語言的關鍵是要讓計算機理解自然語言,所以自然語言處理又叫做自然語言理解(NLU , NaturalLanguage Understanding) ,也稱為計算語言學 (Computational Linguistics方面它是語言信息處理的個分支,另一方面它是人工智能 (AI, Artificial Intelligence)的核心課題之一。 2 數(shù)據(jù)分析數(shù)據(jù)分析是大數(shù)據(jù)發(fā)揮其核心價值的重要流程, 主要的分析技術有統(tǒng)計分析、數(shù)據(jù)挖掘、模型預測等,分析的結論可用于推薦系統(tǒng)、專家系統(tǒng)、商業(yè) 智能和決策支持系統(tǒng)等。 (1)統(tǒng)計分析:假設檢驗、顯著性 檢驗、差異分析、 相關分析、 T 檢驗、 方差分析

7、、 卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多 元對應分析(最優(yōu)尺度分析) 、 bootstrap 技術等等。( 2 )數(shù)Estimation )、預測據(jù)挖掘:分類 ( Classification )、估計(Prediction )、相關性分組或關聯(lián)規(guī)則 ( Affinity grouping or association rules )、聚類( Clustering )、描述和可視化、Description

8、 and Visualization )、復雜數(shù)據(jù)類型挖掘(Text,Web , 圖形圖像,視頻,音頻等 )(3)模型預測:預測模型、機器學習、建模仿真。 3數(shù)據(jù)解釋在數(shù)據(jù)分析的基礎上,終端用戶往往最關心的是數(shù)據(jù)的展示方式,如果分析 結果沒有采用適當?shù)慕忉尫椒?,所得到的分析結論往往讓用戶難以理解,極端情況下甚至會誤導用戶。傳統(tǒng)的解釋方法僅是文本、圖表等電腦終端上的直觀顯示,未來提升數(shù)據(jù)解釋能力可以引入標簽云 (tag cloud) 、關系圖等可視化技術解 決,甚至可以采用人機交互技術,在交互過程中逐步引導用戶進入分析流程,達到最佳的數(shù)據(jù)解釋效果。4基礎架構大數(shù)據(jù)價值的完整體現(xiàn)需要多種技術的協(xié)同

9、。為了便于數(shù)據(jù)管理,需要建立云存儲系統(tǒng)等存儲結構化、非結構化、半結構化類型的數(shù)據(jù)。為了加速數(shù)據(jù)處理,需要采用云計算、云 存儲、分布式文件存儲等分布式計算技術。通過索引與查詢 技術,提供搜索引擎服務,提高用戶對大數(shù)據(jù)的使用效率。二、大數(shù)據(jù)技術為審計打開的“窗”我們都知道傳統(tǒng)的審計, 無論是計算機輔助審計、計算機審計、自動化審計,都是在既定計劃、既定方向上開展的,這對于制定計劃、制定審計 方案的人是一個考驗,同時執(zhí)行人也將艱難的去踐行。原來 在電子審計體系發(fā)展的研究中,有人曾提出過智能審計和智 慧審計的概念,如何定義智能、智慧呢,如何實現(xiàn)智能、智 慧呢?其實一直沒有很好的可執(zhí)行方案,大數(shù)據(jù)時代的來

10、臨, 大數(shù)據(jù)技術的發(fā)展為我們破題了。我覺得大數(shù)據(jù)技術的運用 至少能夠帶來以下幾個方面的進化: (一)審計計劃徹底放 開看到這個小標題,大家不要誤會,不是說不要計劃、隨性 開展審計項目。今后的計劃分為兩類:一是固定審計工作, 二是專題審計工作。 1 固定審計類似現(xiàn)在每年都要開展的 部門預算執(zhí)行審計一樣,今后像社保、稅收、環(huán)資、投資等 審計都會進入固定審計工作。就因為大數(shù)據(jù)時代的來臨,對 于審計來說數(shù)據(jù)已經極大豐富,而且能夠提供應對這些數(shù)據(jù) 的采集、存儲、處理、分析的大數(shù)據(jù)技術。 2專題審計(或者叫隨機審計)不再像原來一樣,年初制定計劃,年中調整計劃。而是采用征集審計專題,組織評審后形成專題審計工

11、 已經不再是一個思路,而是有大數(shù)據(jù)分析的結論依據(jù)支撐的 審計方案。這也就意味著,專題審計的方向、形成時間都不 固定了,雖然是無計劃性的,但是很有“市場味”,不但廣開 思路,而且對外界響應更快、更靈活。 (二)審計思路徹底 解放大數(shù)據(jù)時代來臨,審計工作已經不再是計劃經濟了,對 于審計人員來說可以去研究自己擅長的、關注的數(shù)據(jù),通過 大數(shù)據(jù)分析去尋找審計專題,形成審計項目。審計署通過鼓 勵 10 萬審計人員進行“科研”,并擇優(yōu)支持 (即形成專題審計 項目)。專題提出人或團隊獲得支持(數(shù)據(jù)、資金、人員、 政策等),開展審計實踐,形成審計成果和審計研究成果, 即完成審計的揭示、預防功能,又形成審計抵御積

12、累。在現(xiàn) 今的社會,已經不強求全面發(fā)展的人才,木桶原理也已經略 顯過時了。所以對于審計思路,也不要用條條框框去限制, 讓所有審計人員像創(chuàng)業(yè)者一樣去發(fā)揮自己的特長,做某一點 的冒尖者,何愁沒有審計思路,沒審計成果。 (三)審計效 能進入藍海我們都知道全國審計機關的人數(shù)已經有很多年 沒有增加了, 但國民生產總值、 財政資金總量都在大幅增長, 經濟社會的復雜度更是呈幾何增長。通過計算機審計、數(shù)字 化審計等方式,讓審計效能也獲得了大幅度提升。但是隨著 互聯(lián)網時代的信息大爆炸(即摩爾第三定律) ,現(xiàn)有的信息 化技術已經無法持續(xù)提升審計效能。審計效能的評價通常以 審計人員數(shù)量作為基數(shù),而提升審計效能的方法

13、卻不是以審 計人員數(shù)量為基數(shù)。在大數(shù)據(jù)時代來臨,我們將審計工作轉 向每一個審計人員都是效能提升的一個節(jié)點,才能使我們能 夠適應幾何式的增長。而且效能提升節(jié)點之間可以進行網狀作(當然這里會有一些安全保密的問題需要處理)。征集的能,連接,獲得更強的效能提升可能,也是下一步效能提升的重 點,只有讓每個節(jié)點(審計人員)的都是效能提升因素,才能使審計效能進入藍海。三、利用大數(shù)據(jù)服務審計工作的思 路從上述分析,如果利用大數(shù)據(jù)服務審計,將形成怎樣的審 計工作方式:(一)審計模式的變化之前已經提到過,今后 的審計沒有什么計劃規(guī)定,而只有固定和專題(隨機)審計 兩類,固定的不需要計劃,專題的無法計劃。作為固定的

14、審 計工作,就像走流程一樣,安排人去執(zhí)行,類似巡邏,發(fā)現(xiàn) 異常拉響警報,派人去調查。作為隨機的審計工作,首先是 由思路提出人申報(當然也可以安排專門的團隊去研究) 然后通過評審確定為審計項目。審計項目也往往不再是一個 點、一個區(qū)域的項目,全部都是跨領域、跨地域(全國性) 的綜合性審計項目。(二)審計工作的工作變化可以說審計 人員不再像傳統(tǒng)審計項目,在項目執(zhí)行階段不斷地去尋找審 計思路。而是在項目確定之前,通過數(shù)據(jù)分析確定好審計思 路(想明白如何審計),真的下項目了,更多的是“體力活”。審計項目的執(zhí)行方式也不再是派項目組到處跑,而是通過將 專題審計分析的方案發(fā)給相關審計區(qū)域、領域的接口人,由 他

15、們幫助完成“體力活”。(三)審計成果的變化審計成果的內 容也將得到極大的擴展:首先成果的梳理方式都要像全國統(tǒng)組織項目的成果一樣進行梳理;其次由于所有的成果都不 再是單點的,所以數(shù)額都會成線性增長;最后每年提出的專 題審計數(shù)量、質量將直接影響當年的審計成果數(shù)量和質量。四、大數(shù)據(jù)信息化的基礎配套建設內容(一)以大數(shù)據(jù)方式建設的數(shù)據(jù)中心大數(shù)據(jù)信息化,首先必須有一個大數(shù)據(jù)的數(shù) 據(jù)中心。主要有以下幾個特征: 1 任何數(shù)據(jù)都是中心、又 不是中心,數(shù)據(jù)之間的關聯(lián)性是核心特征之一。數(shù)據(jù)之間的 關聯(lián)不會因為數(shù)據(jù)量、 數(shù)據(jù)類型、 數(shù)據(jù)形態(tài)而受影響。 2數(shù)據(jù)的檢索速度都在秒級。對于數(shù)據(jù)的檢索與查詢都在秒級完成,這樣才能提供最基礎的數(shù)據(jù)服務。 (二)大數(shù)據(jù)的應用建設思路大數(shù)據(jù)應用功能可以拆分為四個層次:1統(tǒng)計展示。此階段的目的是描述“發(fā)生了什么(whathappened)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論