版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數(shù)據(jù)與云計算.精品資料大數(shù)據(jù)與云計算摘要: 大數(shù)據(jù)( big data)這個概念近年來在越來越多的場合、被越來越多的人提及,并且經常和云計算聯(lián)系在一起,云計算與大數(shù)據(jù)之間到底是什么關系成為熱點話題。本專題報告包含以下四個方面內容:1.大數(shù)據(jù)的價值; 2.大數(shù)據(jù)帶來的挑戰(zhàn) ;3.大數(shù)據(jù)研究成果; 4.云計算是大數(shù)據(jù)挖掘的主流方式。通過本報告闡述我們對大數(shù)據(jù)的理解,以及對大數(shù)據(jù)的價值的認識,探討大數(shù)據(jù)處理與挖掘技術,大數(shù)據(jù)主要著眼于“數(shù)據(jù)”,提供數(shù)據(jù)采集、挖 掘、分析的技術和方法 ;云計算技術主要關注“計算”, 提供it解決方案。大數(shù)據(jù)、云計算技術可以促進持續(xù)審 計方式的發(fā)展、總體審計模式的應用
2、、審計成果的綜合應用、相關關系證據(jù)的應用、高效數(shù)據(jù)審計的發(fā)展和大數(shù)據(jù)審計師的發(fā)展。強化大數(shù)據(jù)、云計算技術審計應用的措施包括制定長遠發(fā)展戰(zhàn)略、加快審計法規(guī)建設、建立行業(yè)平臺、加強研發(fā)和提高利用能力。關鍵詞:大數(shù)據(jù)云計算數(shù)據(jù)挖掘對審計影響政策建議引言目前,大數(shù)據(jù)伴隨著云計算技術的發(fā)展,正在對全球經濟社會生活產生巨大的影響。大數(shù)據(jù)、云計算技術給現(xiàn).精品資料代審計提供了新的技術和方法,要求審計組織和審計人員把握大數(shù)據(jù)、云計算技術的內容與特征,促進現(xiàn)代審計技術和方法的進一步發(fā)展。一、大數(shù)據(jù)、云計算的涵義與特征隨著云計算技術的出現(xiàn),大數(shù)據(jù)吸引了全世界越來越多的關注。哈佛大學社會學教授加里·金(
3、2012)說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程?!?一)大數(shù)據(jù)的涵義與特征“數(shù)據(jù)” ( data)這個詞在拉丁文里是“已知”的意思,也可以理解為“事實”。2009年,“大數(shù)據(jù)”概念才逐漸開始在社會上傳播。而“大數(shù)據(jù)”概念真正變得火爆,卻是因為美國奧巴馬政府在2012年高調宣布了其 “大數(shù)據(jù)研究和開發(fā)計劃”。這標志著“大數(shù)據(jù)”時代真正開始進入社會經濟生活中來了?!按髷?shù)據(jù)”( big data),或稱巨量資料,指的是所涉及的數(shù)據(jù)量規(guī)模大到無法利用現(xiàn)行主流軟件工具,在一定的時間內實現(xiàn)收集、分析、處理或轉化成為幫助決策者決策的
4、可用信息。互聯(lián)網數(shù)據(jù)中心 ( idc)認為“大數(shù)據(jù)”是為了更經濟、更有效地從高頻率、大容量、不同結構和類型的數(shù)據(jù)中獲取價值而設計的新一代架構和技術,用它來描述和定義信息爆炸.精品資料時代產生的海量數(shù)據(jù),并命名與之相關的技術發(fā)展與創(chuàng)新。大數(shù)據(jù)具有 4個特點:第一,數(shù)據(jù)體量巨大( volume),從tb 級別躍升到 pb 級別。第二,處理速度快( velocity),這與傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質的不 同。第三,數(shù)據(jù)種類多 ( variety),有圖片、地理位置信息、視頻、網絡日志等多種形式。第四,價值密度低, 商業(yè)價值高 ( value)。存在單一數(shù)據(jù)的價值并不大,但 將相關數(shù)據(jù)聚集在一起,就會
5、有很高的商業(yè)價值(金良, 2012)。大數(shù)據(jù)時代,不僅改變了傳統(tǒng)的數(shù)據(jù)采集、處理 和應用技術與方法,還促使人們思維方式的改變。大數(shù)據(jù) 的精髓在于促使人們在采集、處理和使用數(shù)據(jù)時思維的轉 變,這些轉變將改變人們理解和研究社會經濟現(xiàn)象的技術 和方法。(1) 是在大數(shù)據(jù)時代,不依賴抽樣分析,而可以采集和處理事物整體的全部數(shù)據(jù)。19世紀以來,當面臨大的樣本量時,人們都主要依靠抽樣來分析總體。但是,抽樣技術是在數(shù)據(jù)缺乏和取得數(shù)據(jù)受限制的條件下不得不采用的一種方法,這其實是一種人為的限制。過去,因為記 錄、儲存和分析數(shù)據(jù)的工具不夠科學,只能收集少量數(shù)據(jù)進行分析。如今,科學技術條件已經有了很大的提高,雖然人
6、類可以處理的數(shù)據(jù)依然是有限的,但是可以處理的數(shù)據(jù)量已經大量增加,而且未來會越來越多。隨著大數(shù)據(jù)分.精品資料析取代抽樣分析,社會科學不再單純依賴于抽樣調查和分析實證數(shù)據(jù),現(xiàn)在可以收集過去無法收集到的數(shù)據(jù),更重要的是,現(xiàn)在可以不再依賴抽樣分析。(2) 是在大數(shù)據(jù)時代,不再熱衷于追求數(shù)據(jù)的精確 度,而是追求利用數(shù)據(jù)的效率。當測量事物的能力受限制時,關注的是獲取最精確的結果。但是,在大數(shù)據(jù)時代, 追求精確度已經既無必要又不可行,甚至變得不受歡迎。大數(shù)據(jù)紛繁多樣,優(yōu)劣摻雜,精準度已不再是分析事物總體的主要手段。擁有了大數(shù)據(jù),不再需要對一個事物的現(xiàn)象深究,只要掌握事物的大致發(fā)展趨勢即可,更重要的是追求數(shù)據(jù)
7、的及時性和使用效率。與依賴于小數(shù)據(jù)和精確性的時代相比較,大數(shù)據(jù)更注重數(shù)據(jù)的完整性和混雜性,幫助人們進一步認識事物的全貌和真相。(3) 是在大數(shù)據(jù)時代,人們難以尋求事物直接的因果關系,而是深入認識和利用事物的相關關系。長期以來, 尋找因果關系是人類發(fā)展過程中形成的傳統(tǒng)習慣。尋求因果關系即使很困難且用途不大,但人們無法擺脫認識的傳統(tǒng)思維。在大數(shù)據(jù)時代,人們不必將主要精力放在事物之間因果關系的分析上,而是將主要精力放在尋找事物之間的相關關系上。事物之間的相關關系可能不會準確地告知事物發(fā)生的內在原因,但是它會提醒人們事情之間的相互.精品資料聯(lián)系。人們可以通過找到一個事物的良好相關關系,幫助其捕捉到事物
8、的現(xiàn)在和預測未來。(二)云計算的涵義與特征“云計算”概念產生于谷歌和ibm 等大型互聯(lián)網公司處理海量數(shù)據(jù)的實踐。 2006年8月9日, google首席執(zhí)行官埃里克·施密特 ( eric schmidt)在搜索引擎大會首次提出“云計算”的概念。2007年10月, google與ibm 開始在美國大學校園推廣云計算技術的計劃,這項計劃希 望能降低分布式計算技術在學術研究方面的成本,并為這 些大學提供相關的軟硬件設備及技術支持( michaelmille,2009)。目前全世界關于“云計算”的定義有很 多?!霸朴嬎恪笔腔诨ヂ?lián)網的相關服務的增加、使用和 交付模式,是通過互聯(lián)網來提供動態(tài)易
9、擴展且經常是虛擬 化的資源。美國國家標準技術研究院( nist) 2009年關于云計算的定義是 :“云計算是一種按使用量付費的模式, 這種模式提供可用的、便捷的、按需的網絡訪問,進入可 配置的計算資源共享池 (資源包括網絡、服務器、存儲、應用軟件、服務等 ),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互?!?根據(jù)這一定義,云計算的特征主要表現(xiàn)為:首先,云計算是一種計算模式,具有時間和網絡存儲的功能。其次,云 計算是一條接入路徑,通過廣泛接入網絡以獲取計算能.精品資料力,通過標準機制進行訪問。第三,云計算是一個資源 池,云計算服務提供商的計算資源,通過多租戶模式為
10、不同用戶提供服務,并根據(jù)用戶的需求動態(tài)提供不同的物理的或虛擬的資源。第四,云計算是一系列伸縮技術,在信息化和互聯(lián)網環(huán)境下的計算規(guī)??梢钥焖贁U大或縮小,計算能力可以快速、彈性獲得。第五,云計算是一項可計量的服務,云計算資源的使用情況可以通過云計算系統(tǒng)檢 測、控制、計量,以自動控制和優(yōu)化資源使用。(三)大數(shù)據(jù)與云計算的關系從整體上看,大數(shù)據(jù)與云計算是相輔相成的。大數(shù)據(jù) 主要專注實際業(yè)務,著眼于“數(shù)據(jù)”,提供數(shù)據(jù)采集、挖 掘、分析的技術和方法,強調的是數(shù)據(jù)存儲能力。云計算 主要關注“計算”,關注it架構,提供 it解決方案,強調的是計算能力,即數(shù)據(jù)處理能力。如果沒有大數(shù)據(jù)的數(shù) 據(jù)存儲,那么云計算的計
11、算能力再強大,也難以找到用武 之地;如果沒有云計算的數(shù)據(jù)處理能力,則大數(shù)據(jù)的數(shù)據(jù) 存儲再豐富,也終究難以用于實踐中去。從技術上看,大數(shù)據(jù)依賴于云計算。海量數(shù)據(jù)存儲技術、海量數(shù)據(jù)管理技術、mapeduce編程模型都是云計算的關鍵技術,也都是大數(shù)據(jù)的技術基礎。而數(shù)據(jù)之所以會變“大”,最重要的便是云計算提供的技術平臺。數(shù)據(jù)被放到“云”上之后,打破了過去那種各自分割的數(shù)據(jù)存.精品資料儲,更容易被收集和獲得,大數(shù)據(jù)才能呈現(xiàn)在人們眼前。而巨量的數(shù)據(jù)也只能依靠云計算強大的數(shù)據(jù)處理能力,才能夠“淘盡黃沙始得金”。從側重點看,大數(shù)據(jù)與云計算的側重點不同。大數(shù)據(jù)的側重點是各種數(shù)據(jù),廣泛、深入挖掘巨量數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)
12、中的價值,迫使企業(yè)從“業(yè)務驅動”轉變?yōu)椤皵?shù)據(jù)驅 動”。而云計算主要通過互聯(lián)網廣泛獲取、擴展和管理計算及存儲資源和能力,其側重點是it資源、處理能力和各種應用,以幫助企業(yè)節(jié)省it 部署成本。云計算使企業(yè)的it部門受益,而大數(shù)據(jù)使企業(yè)的業(yè)務管理部門受益。從結果看,大數(shù)據(jù)與云計算帶來不同的變化。大數(shù)據(jù)對社會經濟帶來的變化是巨大的,涉及到各個領域。大數(shù)據(jù)已經與資本、人力一起作為生產的主要因素影響著社會經濟的發(fā)展。數(shù)據(jù)創(chuàng)造價值,而挖掘數(shù)據(jù)價值、利用數(shù)據(jù)的“推動力”就是云計算。云計算將信息存儲、分享和挖掘能力極大提高,更經濟、高效地將巨量、高速、多變的終端數(shù)據(jù)存儲下來,并隨時進行計算與分析。通過云計算對大
13、數(shù)據(jù)進行分析、總結與預測,會使得決策更可靠,釋放出更多大數(shù)據(jù)的內在價值。二、大數(shù)據(jù)、云計算技術對審計的影響分析審計技術和方法的發(fā)展是隨著科學和管理技術的發(fā)展而發(fā)展的。現(xiàn)代審計技術和方法體系是在原始的查賬基礎.精品資料上從低級向高級、從不完備到比較完備發(fā)展起來的。在業(yè) 務和會計處理手工操作階段,審計實施的是賬表導向的審 計技術和方法 ;當內部控制理論和方法全面應用于業(yè)務和會計處理時,審計實施的是系統(tǒng)導向的審計技術和方法; 當風險管理理論和方法全面應用于業(yè)務和財務管理時,審 計實施的是風險導向審計技術和方法;與風險導向審計技術和方法并行的是,計算機技術廣泛應用于業(yè)務和會計處 理時,審計實施的是 i
14、t審計技術和方法。目前,面對大 數(shù)據(jù)、云計算技術的產生和發(fā)展,審計人員需要應時而變 來適應由此而帶來的變化,分析大數(shù)據(jù)、云計算技術對審 計方式、審計抽樣技術、審計報告模式、審計證據(jù)搜集等 技術和方法的影響。(一)大數(shù)據(jù)、云計算技術促進持續(xù)審計方式的發(fā)展傳統(tǒng)審計中,審計人員只是在被審計單位業(yè)務完成后才進行審計,而且審計過程中并不是審計所有的數(shù)據(jù)和信息,只是抽取其中有的一部分進行審計。這種事后和有限的審計對被審計單位復雜的生產經營和管理系統(tǒng)來說很難及時做出正確的評價,而且對于評價日益頻繁和復雜的經營管理活動的真實性和合法性則顯得過于遲緩。隨著信息技術迅速發(fā)展,越來越多的審計組織對被審計單位開始實施
15、持續(xù)審計方式,以解決審計結果與經濟活動的時差問 題。但是,審計人員實施持續(xù)審計時,往往受目前業(yè)務條.精品資料件和信息化手段的限制,取得的非結構化數(shù)據(jù)無法數(shù)據(jù) 化,或者無法取得相關的明細數(shù)據(jù),致使對問題的判斷也難以進一步具體和深入。而大數(shù)據(jù)、云計算技術可以促進持續(xù)審計方式的發(fā)展,使信息技術與大數(shù)據(jù)、云計算技術較好交叉融合,尤其對業(yè)務數(shù)據(jù)和風險控制“實時性”要求較高的特定行業(yè),如銀行、證券、保險等行業(yè),在這些行業(yè)中實施持續(xù)審計迫在眉睫。如審計組織對商業(yè)銀行的審計,實行與商業(yè)銀行建立業(yè)務和數(shù)據(jù)系統(tǒng)的接口,在開發(fā)的持續(xù)審計系統(tǒng)中固化了非結構化數(shù)據(jù)結構化和數(shù)據(jù)分析模塊,該模塊可以在海量貸款客戶中挖掘、分
16、析出行業(yè)性和區(qū)域性貸款風險趨勢,實現(xiàn)在線的風險預警,并將發(fā)現(xiàn)的風險數(shù)據(jù)、超預警值指標及問題登記為疑點,并建立實時審計工作底稿,按照重要程度進行歸類、核實或下發(fā)給現(xiàn)場審計人員進行現(xiàn)場核實,以較好處理非結構化數(shù)據(jù)的利用和數(shù)據(jù)的實時分析利用問題。(二)大數(shù)據(jù)、云計算技術促進總體審計模式的應用現(xiàn)時的審計模式是在評價被審計單位風險基礎上實施抽樣審計。在不可能收集和分析被審計單位全部經濟業(yè)務數(shù)據(jù)的情況下,現(xiàn)時的審計模式主要依賴于審計抽樣,從局部入手推斷整體,即從抽取的樣本著手進行審計,再據(jù)此推斷審計對象的整體情況。這種抽樣審計模式,由于抽取樣本的有限性,而忽視了大量和具體的業(yè)務活動,使審.精品資料計人員無
17、法完全發(fā)現(xiàn)和揭示被審計單位的重大舞弊行為, 隱藏著重大的審計風險。而大數(shù)據(jù)、云計算技術對審計人員而言,不僅僅是一種可供采用的技術手段,這些技術和方法將給審計人員提供實施總體審計模式的可行性。利用大數(shù)據(jù)、云計算技術,對數(shù)據(jù)的跨行業(yè)、跨企業(yè)搜集和分析,可以不用隨機抽樣方法,而采用搜集和分析被審計單位所有數(shù)據(jù)的總體審計模式。利用大數(shù)據(jù)、云計算技術的總體審計模式是要分析與審計對象相關的所有數(shù)據(jù),使得審計人員可以建立總體審計的思維模式,可以使現(xiàn)代審計獲得革命性的變化。審計人員實施總體審計模式,可以規(guī)避審計抽樣風險。如果能夠收集總體的所有數(shù)據(jù),就能看到更細微、深入的信息,對數(shù)據(jù)進行多角度的深層次分 析,從
18、而發(fā)現(xiàn)隱藏在細節(jié)數(shù)據(jù)中的對審計問題更具價值的信息。同時,審計人員實施總體審計模式,能發(fā)現(xiàn)從審計抽樣模式所不能發(fā)現(xiàn)的問題。大數(shù)據(jù)、云計算技術給審計人員提供了一種能夠從總體把握審計對象的技術手段,從而幫助審計人員能從總體的視角發(fā)現(xiàn)以前難以發(fā)現(xiàn)的問 題。(三)大數(shù)據(jù)、云計算技術促進審計成果的綜合應用 目前,審計人員的審計成果主要是提供給被審計單位的審計報告,其格式固定,內容單一,包含的信息量較少。隨著大數(shù)據(jù)、云計算技術在審計中廣泛應用,審計人.精品資料員的審計成果除了審計報告外,還有在審計過程中采集、挖掘、分析和處理的大量的資料和數(shù)據(jù),可以提供給被審計單位用于改進經營管理,促進審計成果的綜合應用,提
19、高審計成果的綜合應用效果。首先,審計人員通過對審計中獲取的大量數(shù)據(jù)和相關情況資料的匯總、歸納,從中找出財務、業(yè)務和經營管理等方面的內在規(guī)律、共性問題和發(fā)展趨勢,通過匯總歸納宏觀性和綜合性較強的審計信 息,為被審計單位投資者和其他利益相關者提供數(shù)據(jù)證 明、關聯(lián)分析和決策建議,從而促進被審計單位管理水平的提高。其次,審計人員通過應用大數(shù)據(jù)、云計算技術, 可以將同一問題歸入不同的類別進行分析和處理,從不同的角度、不同的層面整合提煉以滿足不同層次的需求。再次,審計人員將審計成果進行智能化留存,通過大數(shù)據(jù)、云計算技術,將問題規(guī)則化并固化到系統(tǒng)中,以便于計算或判斷問題發(fā)展趨勢,向被審計單位進行預警。最后。
20、審計人員將審計成果、被審計單位與審計問題進行關聯(lián),并進行信息化處理,在進行下次審計時,減少實地審計的時間和工作量,提高審計工作的效率。(四)大數(shù)據(jù)、云計算技術促進相關關系證據(jù)的應用 審計人員在審計過程中,應根據(jù)充分、適當?shù)膶徲嬜C據(jù)發(fā)表審計意見,出具審計報告。但是,在大數(shù)據(jù)、云計算環(huán)境下,審計人員既面臨巨量數(shù)據(jù)篩選的考驗,又面臨.精品資料搜集適當審計證據(jù)的挑戰(zhàn)。審計人員在搜集審計證據(jù)時, 傳統(tǒng)的思維路徑都是基于因果關系來搜集審計證據(jù),而大 數(shù)據(jù)分析將會更多地運用相關關系分析來搜集和發(fā)現(xiàn)審計 證據(jù)。但從審計證據(jù)發(fā)現(xiàn)的角度來看,由于大數(shù)據(jù)技術提 供了前所未有的跨領域、可供量化的維度,使得審計問題 大
21、量的相關信息能夠得以記錄和計算分析。大數(shù)據(jù)、云計 算技術沒有改變事物間的因果關系,但在大數(shù)據(jù)、云計算 技術中對相關關系的開發(fā)和利用,使得數(shù)據(jù)分析對因果邏 輯關系的依賴降低了,甚至更多地傾向于應用基于相關關 系的數(shù)據(jù)分析,以相關關系分析為基礎的驗證是大數(shù)據(jù)、 云計算技術的一項重要特征。在大數(shù)據(jù)、云計算技術環(huán)境 下,審計人員能搜集到的審計證據(jù)大多是電子證據(jù)(秦榮生, 2013)。電子證據(jù)本身就非常復雜,云計算技術使獲 取有因果關系的證據(jù)更加困難。審計人員應從長期依賴因 果關系來搜集和發(fā)現(xiàn)審計證據(jù),轉變成為利用相關關系來 搜集和發(fā)現(xiàn)審計證據(jù)。(五)大數(shù)據(jù)、云計算技術促進高效數(shù)據(jù)審計的發(fā)展 直到今天,
22、審計人員的數(shù)字審計技術依然建立在精準的基礎上。這種思維方式適用于掌握“小數(shù)據(jù)量”的情 況,因為需要分析的數(shù)據(jù)很少,所以審計人員必須盡可能精準地量化被審計單位的業(yè)務。隨著大數(shù)據(jù)、云計算技術成為日常生活中的一部分,審計人員應開始從一個比以前.精品資料更大、更全面的角度來理解被審計單位,將“樣本=總體”植入審計人員的思維中。相比依賴于小數(shù)據(jù)和精確性的時代,大數(shù)據(jù)更強調數(shù)據(jù)的完整性和混雜性,幫助審計人員進一步接近事情的真相,“局部”和“精確”將不再是審計人員追求的目標,審計人員追求的是事物的“全 貌”和“高效”。圍繞大數(shù)據(jù),一批新興的數(shù)據(jù)挖掘、數(shù)據(jù)存儲、數(shù)據(jù)處理與分析技術將不斷涌現(xiàn)。在實施審計 時,審
23、計人員應利用大數(shù)據(jù)、云計算技術,使用分布式拓樸結構、云數(shù)據(jù)庫、聯(lián)網審計、數(shù)據(jù)挖掘等新型的技術手段和工具,以提高審計的效率。(六)大數(shù)據(jù)、云計算技術促進大數(shù)據(jù)審計師的發(fā)展大數(shù)據(jù)、云計算時代,數(shù)據(jù)的真實、可靠是大數(shù)據(jù)發(fā)揮作用的前提。這客觀上要求專業(yè)人員來對大數(shù)據(jù)的真實性、可靠性進行鑒證,審計人員可以扮演這種角色,或者稱為數(shù)據(jù)審計師。能對大數(shù)據(jù)真實性、可靠性進行鑒證的數(shù)據(jù)審計師應該是計算機科學、數(shù)學、統(tǒng)計學和審計學領域的專家,他們應有大數(shù)據(jù)分析和預測的評估能力。數(shù)據(jù)審計師應恪守公正的立場和嚴守保密的原則,面對海量的數(shù)據(jù)和紛繁復雜的相關關系,選取分析和預測工具,以及解讀數(shù)據(jù)及數(shù)據(jù)計算結果是否真實、可靠
24、。一旦出現(xiàn)爭 議,數(shù)據(jù)審計師有權審查與分析結果相關的運算法則、統(tǒng)計方法以及數(shù)據(jù)采集、挖掘和處理過程。數(shù)據(jù)審計師的出.精品資料現(xiàn)是為滿足以市場為導向來解決數(shù)據(jù)真實性、可靠性問題的需求,這與 20 世紀初期為了處理財務信息虛假而出現(xiàn)的審計人員一樣,都是為了滿足新需求而出現(xiàn)的。三、大數(shù)據(jù)挖掘數(shù)據(jù)的價值只有通過數(shù)據(jù)挖掘才能從低價值密度的數(shù)據(jù)中發(fā)現(xiàn)其潛在價值,而大數(shù)據(jù)挖掘技術的實現(xiàn)離不開云計算技術。在業(yè)界,全球著名的google、emc、惠普、 ibm、微軟等互聯(lián)網公司都已經意識到大數(shù)據(jù)挖掘的重要 意義。上述 it巨頭們紛紛通過收購大數(shù)據(jù)分析公司,進 行技術整合,希望從大數(shù)據(jù)中挖掘更多的商業(yè)價值。數(shù)據(jù)挖
25、掘通常需要遍歷訓練數(shù)據(jù)獲得相關的統(tǒng)計信息,用于求解或優(yōu)化模型參數(shù),在大規(guī)模數(shù)據(jù)上進行頻繁的數(shù)據(jù)訪問需要耗費大量運算時間。數(shù)據(jù)挖掘領域長期受益于并行算法和架構的使用,使得性能逐漸提升。過去15年來,效果尤其顯著。試圖將這些進步結合起來,并且提煉。gpu 平臺從并行上得到的性能提升十分顯著。這些gpu平臺由于采用并行架構,使用并行編程方法,使得計算能力呈幾 何級數(shù)增長。即便是圖形處理、游戲編程是公認的復雜, 它們也從并行化受益頗多。研究顯示數(shù)據(jù)挖掘、圖遍歷、 有限狀態(tài)機是并行化未來的熱門方向。mapreduce框架已經被證明是提升 gpu運行數(shù)據(jù)挖掘算法性能的重要工具。d.luo等提出一種非平凡的
26、策略用來并行一系列數(shù)據(jù)挖掘.精品資料與數(shù)據(jù)挖掘問題,包括一類分類svm和兩類分類 svm,非負最小二乘問題,及 l1正則化回歸( lasso )問題。由此得到的乘法算法,可以被直截了當?shù)卦谌鏼apreduce和cuda的并行計算環(huán)境中實現(xiàn)。k. shim在mapreduce框架下,討論如何設計高 mapreduce算法,對當前一些基于mapreduce的數(shù)據(jù)挖掘和數(shù)據(jù)挖掘算法進行歸納總結,以 便進行大數(shù)據(jù)的分析。 junbo zhang等提出一種新的大數(shù)據(jù)挖掘技術,即利用 mapredue實現(xiàn)并行的基于粗糙集的知識獲取算法,還提出了下一步的研究方向,即集中于用 基于并行技術的粗糙集算法處理非結
27、構化數(shù)據(jù)。f.gao提出了一種新的近似算法使基于核的數(shù)據(jù)挖掘算法可以有效 的處理大規(guī)模數(shù)據(jù)集。當前的基于核的數(shù)據(jù)挖掘算法由于 需要計算核矩陣面臨著可伸縮性問題,計算核矩陣需要o( n2 )的時間和空間復雜度來計算和存儲。該算法計算 核矩陣時大幅度降低計算和內存開銷,而且并沒有明顯影響結果的精確度。此外,通過折中結果的一些精度可以控制近似水平。它獨立于隨后使用的數(shù)據(jù)挖掘算法并且可以被它們使用。為了闡明近似算法的效果,在其上開發(fā)了一個變種的譜聚類算法,此外設計了一個所提出算法的基于mapreduce的實現(xiàn)。在合成和真實數(shù)據(jù)集上的實驗結果顯示,所提出的算法可以獲得顯著的時間和空間節(jié)省。christi
28、an kaiser等還利用 mapreduce框架分布式實現(xiàn).精品資料了訓練一系列核函數(shù)學習機,該方法適用于基于核的分類和回歸。 christian kaiser還介紹了一種擴展版的區(qū)域到點建模方法,來適應來自空間區(qū)域的大量數(shù)據(jù)。yael ben-haim 研究了三種 mapreduce實現(xiàn)架構下并行決策樹分類算法的設計 ,并在phoenix共享內存架構上對 sprint 算法進行了具體的并行實現(xiàn)。f. yan考慮了潛在狄利克 雷分配( lda) 的兩種推理方法塌縮吉布斯采樣(collapsed gibbssampling,cgs)和塌縮變分貝葉斯推理( collapsedvariationa
29、l bayesian,cvb)在gpu上的并行化問題。為解決 gpu上的有限內存限制問題,f. yan 提出一種能有效降低內存開銷的新穎數(shù)據(jù)劃分方案。這種 劃分方案也能平衡多重處理器的計算開銷,并能容易地避 免內存訪問沖突。他們使用數(shù)據(jù)流來處理超大的數(shù)據(jù)集。 大量實驗表明 f. yan的并行推理方法得到的 lda 模型一貫地具有與串行推理方法相同的預測能力;但在一個有30 個多核處理器的 gpu上, cgs方法得到了 26倍的加速, cvb 方法得到了 196倍的加速。他們提出的劃分方案和數(shù) 據(jù)流方式使他們的方法在有更多多重處理器時可伸縮,而 且可被作為通用技術來并行其它數(shù)據(jù)挖掘模型。bao-
30、liang lu提出了一種并行的支持向量機,稱為最小最大模塊化網絡 (m3) ,它是基“分而治之”的思想解決大規(guī)模問題的有效的學習算法。針對異構云中進行大數(shù)據(jù)分析服.精品資料務的并行化問題 g.jung提出了最大覆蓋裝箱算法來決定系統(tǒng)中多少節(jié)點、哪些節(jié)點應該應用于大數(shù)據(jù)分析的并行執(zhí)行。這種方法可以使大數(shù)據(jù)進行分配使得各個計算節(jié)點可以同步的結束計算,并且使數(shù)據(jù)塊的傳輸可以和上一個塊的計算進行重疊來節(jié)省時間。實驗表明,這種方法比其他的方法可以提高大約 60% 的性能。在分布式系統(tǒng)方面, cheng 等人 提出一個面向大規(guī)模可伸縮數(shù)據(jù)分析的可伸縮的分布式系統(tǒng) glad。e glade通過用戶自定義聚
31、合(uda)接口并且在輸入數(shù)據(jù)上有效地運行來進行數(shù)據(jù)分析。文章從兩個方面來論證了系統(tǒng)的有效性。第一,文章展示了如何使用一系列分析功能來完成數(shù)據(jù)處理。第二, 文章將glade與兩種不同類型的系統(tǒng)進行比較:一個用uda進行改良的關系型數(shù)據(jù)庫(postgresql)和mapreduce(hadoop。)然后從運行結果、伸縮性以及運行時間上對不同類型的系統(tǒng)進行了比較。四、總結大數(shù)據(jù)的超大容量自然需要容量大,速度快,安全的存儲,滿足這種要求的存儲離不開云計算。高速產生的大數(shù)據(jù)只有通過云計算的方式才能在可等待的時間內對其進行處理。同時,云計算是提高對大數(shù)據(jù)的分析與理解能力的一個可行方案。大數(shù)據(jù)的價值也只有
32、通.精品資料過數(shù)據(jù)挖掘才能從低價值密度的數(shù)據(jù)中發(fā)現(xiàn)其潛在價值, 而大數(shù)據(jù)挖掘技術的實現(xiàn)離不開云計算技術??傊朴嬎闶谴髷?shù)據(jù)處理的核心支撐技術,是大數(shù)據(jù)挖掘的主流方式。沒有互聯(lián)網,就沒有虛擬化技術為核心的云計算技 術,沒有云計算就沒有大數(shù)據(jù)處理的支撐技術。參考文獻秦榮生.大數(shù)據(jù)、云計算技術對審計的影響研究何清.大數(shù)據(jù)與云計算張為民.云計算:深刻改變未來文峰.云計算與云審計關于未來審計的概念與框架的一些思考big data and cloud computingbig data (big data) in recent years, more and more occasions, the concept is mentioned more and more people, and often, and cloud computing together, what is the relationship between cloud computing and big data become a hot topic. this specialreport contains the following four aspects: 1. thevalue of big data; 2. big data challenge; 3.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 校園教學樓智慧校園系統(tǒng)安裝合同
- 太陽能項目合同發(fā)電效率
- 劇院租賃合同模板
- 保安設備融資租賃合同示范
- 醫(yī)療設備安裝工程總承包合同
- 農業(yè)設施保溫施工合同
- 紡織服裝展位租賃協(xié)議
- 珠寶首飾存儲續(xù)約合同
- 生態(tài)工業(yè)園房產購置合同模板
- 真石漆施工合同私人會所外墻翻新
- GB/Z 44047-2024漂浮式海上風力發(fā)電機組設計要求
- 2024版統(tǒng)編版一年級道德與法治上冊《2 我向國旗敬個禮》教學課件
- 國開(內蒙古)2024年《漢語中的中國文化》形成性考核1-3終結性考核答案
- 司法臨床司法鑒定培訓
- 第47屆世界技能大賽江蘇省選拔賽計算機軟件測試項目樣題
- 勞務合同保證金合同模板
- 小學足球課課件
- 國家職業(yè)技術技能標準 4-07-05-04 消防設施操作員 人社廳發(fā)201963號
- 七年級上冊語文第三單元知識速記清單(統(tǒng)編版2024)
- 2023-2024學年全國初中七年級下地理人教版期末考試試卷(含答案解析)
- 新教科版小學1-6年級科學需做實驗目錄
評論
0/150
提交評論