云計(jì)算下的大數(shù)據(jù)_第1頁
云計(jì)算下的大數(shù)據(jù)_第2頁
云計(jì)算下的大數(shù)據(jù)_第3頁
云計(jì)算下的大數(shù)據(jù)_第4頁
云計(jì)算下的大數(shù)據(jù)_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

云計(jì)算下的大數(shù)據(jù)隨著云計(jì)算、物聯(lián)網(wǎng)等計(jì)算機(jī)技術(shù)的興起,各類智能移動終端設(shè)備不斷被研發(fā),互聯(lián)網(wǎng)數(shù)據(jù)量大大增加,而“大數(shù)據(jù)”是指增長迅速、規(guī)模巨大且與傳統(tǒng)數(shù)據(jù)處理架構(gòu)不相適應(yīng)的信息數(shù)據(jù),通過對其進(jìn)行數(shù)據(jù)分析,人們可以從中發(fā)現(xiàn)有價(jià)值的相關(guān)信息。本文主要深入分析云計(jì)算下的大數(shù)據(jù)處理技術(shù)。大數(shù)據(jù)“4V”特征數(shù)據(jù)量巨大(VolumeBig)o就目前而言,大數(shù)據(jù)的數(shù)據(jù)儲存量已高達(dá)PB級別,部分已達(dá)到ZB級別,其儲存容量比傳統(tǒng)數(shù)據(jù)庫大好幾倍,因此,大數(shù)據(jù)的數(shù)據(jù)量被稱為“超量數(shù)據(jù)”。由于量變過程最終會導(dǎo)致質(zhì)變產(chǎn)生,隨著海量數(shù)據(jù)的增長速度不斷加快,傳統(tǒng)數(shù)據(jù)技術(shù)必然無法滿足巨大數(shù)據(jù)量的管理和存儲需求。數(shù)據(jù)類型多樣(VariableType)。大數(shù)據(jù)還具有數(shù)據(jù)類型多樣的顯著特點(diǎn),大數(shù)據(jù)中包括大量結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等,這些數(shù)據(jù)一般以圖表、文本、視頻、語音、動態(tài)數(shù)據(jù)、傳感器數(shù)據(jù)、移動終端數(shù)據(jù)等形式存在,且多樣數(shù)據(jù)間的關(guān)系也十分復(fù)雜。數(shù)據(jù)價(jià)值高、密度低(ValueHighandLowDensity)o在大數(shù)據(jù)的處理分析過程中,很可能需要同時處理一部分沒有意義的數(shù)據(jù),經(jīng)過大量的沒有意義的數(shù)據(jù)分析處理,才有可能會得出無意義數(shù)據(jù)中所包含的那一部分高價(jià)值數(shù)據(jù),進(jìn)而得出高價(jià)值的數(shù)據(jù)分析結(jié)果。數(shù)據(jù)具有動態(tài)性(Velocity)o科學(xué)技術(shù)的飛速發(fā)展,促使計(jì)算機(jī)、傳感器設(shè)備、移動終端設(shè)備、的數(shù)據(jù)搜集頻率和上傳速度不斷加快,導(dǎo)致大數(shù)據(jù)中包含的各類數(shù)據(jù)無時無刻都在實(shí)時更新和增加,即大數(shù)據(jù)中的數(shù)據(jù)信息具有顯著的實(shí)時動態(tài)性。大數(shù)據(jù)與云計(jì)算的關(guān)系云計(jì)算技術(shù)是指根據(jù)按需分配的原則通過集中式遠(yuǎn)程計(jì)算機(jī)數(shù)據(jù)資源池向終端用戶提供強(qiáng)大而廉價(jià)的計(jì)算服務(wù)技術(shù)。作為一種數(shù)據(jù)處理技術(shù),云計(jì)算技術(shù)具有如下特點(diǎn):①從物理方面分析,數(shù)據(jù)資源池對終端用戶是完全透明的,用戶可根據(jù)自己所需從資源池中獲取相應(yīng)數(shù)據(jù);②云計(jì)算技術(shù)可以為各行各業(yè)提供優(yōu)質(zhì)的規(guī)?;?jì)算服務(wù),而且其服務(wù)能力具有重大發(fā)展?jié)摿?;③云?jì)算技術(shù)應(yīng)用部署迅速便捷,能根據(jù)終端用戶對服務(wù)方式和服務(wù)質(zhì)量的要求進(jìn)行定制,具有強(qiáng)大的彈性伸縮能力;④用戶可輕易獲取云端數(shù)據(jù),同時可實(shí)現(xiàn)資源共享,數(shù)據(jù)使用成本低??v觀現(xiàn)今各種計(jì)算機(jī)數(shù)據(jù)處理技術(shù),云計(jì)算技術(shù)可謂是目前最大型的信息數(shù)據(jù)存儲、傳輸和處理平臺,它能為大數(shù)據(jù)處理提供優(yōu)質(zhì)服務(wù),是大數(shù)據(jù)處理的必然之選。首先,云計(jì)算可以為大數(shù)據(jù)提供接近“無限”的存儲空間,數(shù)據(jù)處理速度快速,可滿足大數(shù)據(jù)的超大容量存儲要求和復(fù)雜數(shù)據(jù)分析處理需求,而這一點(diǎn)正是傳統(tǒng)數(shù)據(jù)存儲方式無法實(shí)現(xiàn)的。其次,云計(jì)算技術(shù)注重?cái)?shù)據(jù)的計(jì)算處理,而大數(shù)據(jù)正是需要強(qiáng)大的數(shù)據(jù)處理能力,因此,云計(jì)算能滿足大數(shù)據(jù)的需要,促進(jìn)云計(jì)算的數(shù)據(jù)處理類型的多樣化發(fā)展。云計(jì)算下的大數(shù)據(jù)分析過程數(shù)據(jù)采集。大數(shù)據(jù)的采集過程是整個數(shù)據(jù)分析過程的重要基礎(chǔ),目前,互聯(lián)網(wǎng)技術(shù)的發(fā)展日新月異,隨著各種終端設(shè)備的不斷普及,數(shù)據(jù)產(chǎn)生速率越來越高,數(shù)據(jù)產(chǎn)量也日益增多,數(shù)據(jù)間關(guān)系變得更為復(fù)雜,唯有全面提高數(shù)據(jù)采集速度和精度才能滿足大數(shù)據(jù)的處理需求。數(shù)據(jù)處理與集成。大數(shù)據(jù)的處理與集成是對采集到的數(shù)據(jù)進(jìn)行一定的格式化處理、去噪處理和進(jìn)一步的集成存儲處理。由于采集到的數(shù)據(jù)具有多樣化,且各類數(shù)據(jù)的結(jié)構(gòu)也不統(tǒng)一,對后續(xù)的數(shù)據(jù)分析進(jìn)行有一定阻礙。因此,需要對數(shù)據(jù)進(jìn)行處理,將無效數(shù)據(jù)預(yù)先去除,提高后續(xù)數(shù)據(jù)分析的可靠性和精度。數(shù)據(jù)分析。完成對數(shù)據(jù)的采集和初步處理后,必須對數(shù)據(jù)進(jìn)行分析,以得出大數(shù)據(jù)中的重要價(jià)值。數(shù)據(jù)分析過程的對象是經(jīng)初步處理與集成的具有統(tǒng)一格式的數(shù)據(jù),該過程能夠根據(jù)用戶所需的數(shù)據(jù)應(yīng)用需求和價(jià)值體現(xiàn)方向進(jìn)一步對原始樣本數(shù)據(jù)進(jìn)行深入處理和分析。數(shù)據(jù)解釋。數(shù)據(jù)解釋是指對分析后得出的數(shù)據(jù)結(jié)果進(jìn)行解釋并向用戶展現(xiàn),在數(shù)據(jù)處理過程中,對數(shù)據(jù)結(jié)果的解釋是指需要進(jìn)行大數(shù)據(jù)分析的用戶能夠直觀了解分析結(jié)果的過程。傳統(tǒng)的數(shù)據(jù)分析結(jié)果顯示方式通過文本方式體現(xiàn)的,但由于數(shù)據(jù)量的迅速增加,傳統(tǒng)數(shù)據(jù)分析的結(jié)果也變得越來越復(fù)雜,傳統(tǒng)的數(shù)據(jù)顯示方法根本無法滿足這樣的大數(shù)據(jù)分析結(jié)果展示,而大數(shù)據(jù)中的可視化技術(shù)則能夠有效解決這一問題。云計(jì)算下的大數(shù)據(jù)處理關(guān)鍵技術(shù)分析采集技術(shù)。事實(shí)上,數(shù)據(jù)的采集方式有兩種,包括集中式和分布式,從靈活性考慮,分布式較集中式好;從全局性考慮,集中式較分布式好?;谠朴?jì)算的大數(shù)據(jù)采集對象一般為組織系統(tǒng)內(nèi)部及各自相互獨(dú)立組織系統(tǒng)間的各類數(shù)據(jù),而云計(jì)算恰好具備數(shù)據(jù)并行處理的顯著特點(diǎn),因此,大數(shù)據(jù)通過云計(jì)算可以采用混合式采集方式實(shí)現(xiàn)數(shù)據(jù)的高效采集。具體工作原理為:大數(shù)據(jù)在組織系統(tǒng)內(nèi)部應(yīng)用集中式數(shù)據(jù)采集方式,并以組織系統(tǒng)內(nèi)部的數(shù)據(jù)配置中心服務(wù)器作為集中式數(shù)據(jù)的注冊機(jī)構(gòu),全面實(shí)現(xiàn)組織內(nèi)部數(shù)據(jù)的存儲和共享。而在各自相互獨(dú)立組織系統(tǒng)間,基于云計(jì)算的虛擬化技術(shù)、集群技術(shù)等在各自相互獨(dú)立的組織系統(tǒng)中心服務(wù)器內(nèi)通過分布式采集方式對數(shù)據(jù)進(jìn)行采集、對接和共享。由于大數(shù)據(jù)中包含多樣化數(shù)據(jù),在應(yīng)用云計(jì)算技術(shù)的前提下,采用分布式采集方式時,也可以依靠云計(jì)算的超強(qiáng)擴(kuò)展性同化數(shù)據(jù)池內(nèi)的數(shù)據(jù)信息,再進(jìn)一步對數(shù)據(jù)實(shí)行分類存儲。存儲技術(shù)。信息爆炸時代下的數(shù)據(jù)具有超大體量、復(fù)雜、離散的特點(diǎn),使得傳統(tǒng)數(shù)據(jù)存儲方式已無法滿足大數(shù)據(jù)的存儲要求。首先,在數(shù)據(jù)容量方面,單結(jié)點(diǎn)的數(shù)據(jù)庫無法滿足每日呈幾何速度增長的數(shù)據(jù)量;在運(yùn)行效率方面,也無法達(dá)到大數(shù)據(jù)的分析處理效率要求。其次,傳統(tǒng)數(shù)據(jù)庫采用的是按行存儲方式,需要大量存儲空間,雖然能為用戶提供大容量數(shù)據(jù)的索引和視圖,但在實(shí)際操作應(yīng)用中,需花費(fèi)大量時間。云計(jì)算技術(shù)采用的是列式存儲方式,不僅可以區(qū)分?jǐn)?shù)據(jù)的不同屬性,還能根據(jù)數(shù)據(jù)的不同屬性將其單獨(dú)存放。云計(jì)算技術(shù)這種存儲方式能讓用戶在投影數(shù)據(jù)時,只需查詢到其屬性列就可以準(zhǔn)確查找數(shù)據(jù)位置,全面提升系統(tǒng)處理量和處理效率。另一方面,這種存儲方式還可以按照數(shù)據(jù)屬性對其進(jìn)行列式存儲,若相鄰列數(shù)據(jù)相似性很高,系統(tǒng)就會對其進(jìn)行進(jìn)一步壓縮,全面提高數(shù)據(jù)壓縮率,有效節(jié)約存儲空間。挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)則是一種基于聯(lián)機(jī)分析的技術(shù),它能從海量數(shù)據(jù)庫中精確提取出數(shù)據(jù)中的隱含價(jià)值信息,并利用多媒體系統(tǒng)表達(dá)各數(shù)據(jù)信息間的規(guī)律、概念及模型特性?;谠朴?jì)算的大數(shù)據(jù)挖掘采用的是分布式并行挖掘技術(shù),對比各類數(shù)據(jù)串行方式,該技術(shù)借助機(jī)器集群對分布式系統(tǒng)中的并行任務(wù)進(jìn)行拆分,再將經(jīng)拆分后的各個任務(wù)分別交由到不同的機(jī)器去進(jìn)行進(jìn)一步處理,真正實(shí)現(xiàn)對大數(shù)據(jù)的規(guī)模性處理,節(jié)省數(shù)據(jù)分析處理成本和時間??梢暬夹g(shù)?;谠朴?jì)算的可視化技術(shù)可將經(jīng)挖掘技術(shù)處理后的有價(jià)值信息進(jìn)行具體化,將數(shù)據(jù)及與數(shù)據(jù)相關(guān)的信息直觀全面地表示出來??梢暬夹g(shù)就是指應(yīng)用圖像表示手法將存儲空間的數(shù)據(jù)庫信息表現(xiàn)出來,同時采用其他分析方法進(jìn)一步獲取圖像中的隱含未知信息、??梢暬夹g(shù)不僅可以對非空間數(shù)據(jù)進(jìn)行多維度的圖像顯示,還有利于數(shù)據(jù)圖形的直觀表現(xiàn),讓用戶能更好地挖掘和理解數(shù)據(jù)信息,有效提高數(shù)據(jù)檢索

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論