大數(shù)據(jù)管理與應(yīng)用概論 課件 2.4 大數(shù)據(jù)系統(tǒng)管理_第1頁(yè)
大數(shù)據(jù)管理與應(yīng)用概論 課件 2.4 大數(shù)據(jù)系統(tǒng)管理_第2頁(yè)
大數(shù)據(jù)管理與應(yīng)用概論 課件 2.4 大數(shù)據(jù)系統(tǒng)管理_第3頁(yè)
大數(shù)據(jù)管理與應(yīng)用概論 課件 2.4 大數(shù)據(jù)系統(tǒng)管理_第4頁(yè)
大數(shù)據(jù)管理與應(yīng)用概論 課件 2.4 大數(shù)據(jù)系統(tǒng)管理_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2.4大數(shù)據(jù)系統(tǒng)管理大數(shù)據(jù)系統(tǒng)管理背景體量大、類(lèi)型多、實(shí)時(shí)性是大數(shù)據(jù)的重要特征,這些特征使得大數(shù)據(jù)的管理不能采用單一的信息系統(tǒng)架構(gòu),需要采用分而治之的方式,為每種類(lèi)型的數(shù)據(jù)設(shè)計(jì)特點(diǎn)的管理方法。另一方面,傳統(tǒng)的數(shù)據(jù)分析架構(gòu)無(wú)法適應(yīng)大數(shù)據(jù)的上述特點(diǎn),需要設(shè)計(jì)高效的分布式架構(gòu)對(duì)數(shù)據(jù)進(jìn)行分析計(jì)算。大數(shù)據(jù)管理系統(tǒng)的挑戰(zhàn)從數(shù)據(jù)在信息系統(tǒng)中的生命周期看,大數(shù)據(jù)從數(shù)據(jù)源開(kāi)始,經(jīng)過(guò)分析、挖掘到最終獲得價(jià)值一般需要經(jīng)過(guò)多個(gè)主要環(huán)節(jié),每個(gè)環(huán)節(jié)都面臨技術(shù)挑戰(zhàn)。處理環(huán)節(jié)挑戰(zhàn)數(shù)據(jù)收集將具有分布式、異構(gòu)性、多樣化及流式產(chǎn)生特點(diǎn)的數(shù)據(jù)收集到一起數(shù)據(jù)存儲(chǔ)數(shù)據(jù)存儲(chǔ)層的擴(kuò)展性、容錯(cuò)性及存儲(chǔ)模型資源管理與服務(wù)協(xié)調(diào)

leader選舉、服務(wù)命名、分布式隊(duì)列、分布式鎖、發(fā)布訂閱功能等計(jì)算引擎不同場(chǎng)景下具有不同要求的計(jì)算任務(wù)數(shù)據(jù)分析大數(shù)據(jù)的海量性和異構(gòu)性等特征數(shù)據(jù)可視化大數(shù)據(jù)具有容量大、結(jié)構(gòu)復(fù)雜和維度多等特點(diǎn)大數(shù)據(jù)管理系統(tǒng)架構(gòu)為了應(yīng)對(duì)大數(shù)據(jù)管理的上述挑戰(zhàn),企業(yè)通常會(huì)依據(jù)自己的數(shù)據(jù)戰(zhàn)略以及已經(jīng)擁有的數(shù)據(jù)基礎(chǔ)架構(gòu)等,來(lái)建設(shè)自己的大數(shù)據(jù)系統(tǒng)。Hadoop給出了一個(gè)收集、存儲(chǔ)和分析大數(shù)據(jù)的框架,目前很多大數(shù)據(jù)管理系統(tǒng)都是以該框架為基礎(chǔ)進(jìn)行構(gòu)建。由Apache基金會(huì)開(kāi)發(fā)的大數(shù)據(jù)分布式系統(tǒng)基礎(chǔ)架構(gòu),是Apache基金會(huì)的開(kāi)源項(xiàng)目。大數(shù)據(jù)管理系統(tǒng)架構(gòu)HDFS(HadoopDistirbutedFileSystem)是Hadoop分布式文件系統(tǒng)。其設(shè)計(jì)理念主要是用來(lái)對(duì)GB甚至TB級(jí)別的大文件進(jìn)行存儲(chǔ)并能夠高效訪(fǎng)問(wèn),文件存儲(chǔ)能夠運(yùn)行在普通的硬件上,即使硬件出現(xiàn)故障,也可以通過(guò)容錯(cuò)策略來(lái)保證數(shù)據(jù)的完整性。大數(shù)據(jù)管理系統(tǒng)架構(gòu)MapReduce是面向大數(shù)據(jù)并行處理的計(jì)算模型、框架和平臺(tái)。由Google公司研究提出的一種面向大規(guī)模數(shù)據(jù)處理的并行計(jì)算模型和方法。Google公司設(shè)計(jì)MapReduce的初衷主要是為了解決其搜索引擎中大規(guī)模網(wǎng)頁(yè)數(shù)據(jù)的并行化處理。大數(shù)據(jù)管理系統(tǒng)架構(gòu)ApacheYARN(YetAnotherResourceNegotiator)是Hadoop2.0引入的集群資源管理系統(tǒng)。用戶(hù)可以將各種服務(wù)框架部署在YARN上,由YARN進(jìn)行統(tǒng)一地管理和資源分配。大數(shù)據(jù)管理系統(tǒng)架構(gòu)下圖給出了一個(gè)基于Hadoop框架搭建的大數(shù)據(jù)管理系統(tǒng)架構(gòu),該架構(gòu)主要包括大數(shù)據(jù)獲取系統(tǒng)、大數(shù)據(jù)存儲(chǔ)系統(tǒng)與計(jì)算平臺(tái)、大數(shù)據(jù)分析與計(jì)算工具、可視化以及服務(wù)接口等組成。大數(shù)據(jù)存儲(chǔ)管理大數(shù)據(jù)環(huán)境下,SQL和NoSQL代表兩種常見(jiàn)的數(shù)據(jù)庫(kù)類(lèi)型。SQL代表結(jié)構(gòu)化查詢(xún)語(yǔ)言,主要用在關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)中。NoSQL指的是“沒(méi)有SQL”(不使用SQL來(lái)查詢(xún))或者不僅僅是SQL(使用SQL和非SQL查詢(xún)方式)。大數(shù)據(jù)存儲(chǔ)管理鍵值數(shù)據(jù)庫(kù)是一種非關(guān)系數(shù)據(jù)庫(kù),它使用簡(jiǎn)單的鍵值方法來(lái)存儲(chǔ)數(shù)據(jù)。鍵值數(shù)據(jù)庫(kù)將數(shù)據(jù)存儲(chǔ)為鍵值對(duì)集合,其中鍵作為唯一標(biāo)識(shí)符。大數(shù)據(jù)存儲(chǔ)管理列族數(shù)據(jù)庫(kù)將數(shù)據(jù)存儲(chǔ)在列族中,而列族里的行則把許多列數(shù)據(jù)與本行的“行鍵”關(guān)聯(lián)起來(lái)。列族數(shù)據(jù)庫(kù)是一種能快速執(zhí)行跨集群寫(xiě)入操作并易于對(duì)此擴(kuò)展的數(shù)據(jù)庫(kù)。大數(shù)據(jù)存儲(chǔ)管理文檔數(shù)據(jù)庫(kù)是一類(lèi)典型的非關(guān)系型數(shù)據(jù)庫(kù)?!拔臋n”是文檔數(shù)據(jù)庫(kù)中的主要概念。此類(lèi)數(shù)據(jù)庫(kù)可存放并獲取文檔,其格式可以是XML、JSON、BSON等。大數(shù)據(jù)存儲(chǔ)管理圖數(shù)據(jù)庫(kù)以圖論為基礎(chǔ),用圖來(lái)表示一個(gè)對(duì)象集合,包括頂點(diǎn)及連接頂點(diǎn)的邊。圖數(shù)據(jù)庫(kù)使用圖作為數(shù)據(jù)模型來(lái)存儲(chǔ)數(shù)據(jù),可以高效地存儲(chǔ)不同頂點(diǎn)之間的關(guān)系。大數(shù)據(jù)存儲(chǔ)管理分類(lèi)典型應(yīng)用場(chǎng)景數(shù)據(jù)模型優(yōu)點(diǎn)缺點(diǎn)鍵值數(shù)據(jù)庫(kù)內(nèi)容緩存,主要用于處理大量數(shù)據(jù)的高訪(fǎng)問(wèn)負(fù)載,也用于一些日志系統(tǒng)等。鍵指向值

的鍵值對(duì),通常用Hash表來(lái)實(shí)現(xiàn)查找速度快數(shù)據(jù)無(wú)結(jié)構(gòu)化,通常只被當(dāng)作字符串或者二進(jìn)制數(shù)據(jù)列族數(shù)據(jù)庫(kù)分布式的文件系統(tǒng)以列簇式存儲(chǔ),將同一列數(shù)據(jù)存在一起查找速度快,可擴(kuò)展性強(qiáng),更容易進(jìn)行分布式擴(kuò)展功能相對(duì)局限文檔數(shù)據(jù)庫(kù)Web應(yīng)用(與鍵值對(duì)類(lèi)似,值是結(jié)構(gòu)化的,不同的是數(shù)據(jù)庫(kù)能夠了解值的內(nèi)容)Key-Value對(duì)應(yīng)的鍵值對(duì),值為結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)要求不嚴(yán)格,表結(jié)構(gòu)可變,不需要像關(guān)系型數(shù)據(jù)庫(kù)一樣需要預(yù)先定義表結(jié)構(gòu)查詢(xún)性能不高,而且缺乏統(tǒng)一的查詢(xún)語(yǔ)法。圖數(shù)據(jù)庫(kù)社交網(wǎng)絡(luò),推薦系統(tǒng)等。專(zhuān)注于構(gòu)建關(guān)系圖譜圖結(jié)構(gòu)利用圖結(jié)構(gòu)相關(guān)算法。比如最短路徑尋址,N度關(guān)系

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論