大數(shù)據(jù)與云計算-雷99課件講解_第1頁
大數(shù)據(jù)與云計算-雷99課件講解_第2頁
大數(shù)據(jù)與云計算-雷99課件講解_第3頁
大數(shù)據(jù)與云計算-雷99課件講解_第4頁
大數(shù)據(jù)與云計算-雷99課件講解_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

主講人:雷明大數(shù)據(jù)與云計算知識點HBASE數(shù)據(jù)庫入門3hbase與分布式文件系統(tǒng)hdfs的區(qū)別1hbase的結(jié)構(gòu)2hbase的特性HBASE數(shù)據(jù)庫入門HBase本質(zhì)上是一個稀疏、多維度、排序的映射表,這張表的索引是行鍵、列族、列限定符和時間戳。hbase的結(jié)構(gòu)用戶在表中存儲數(shù)據(jù),每一行都有一個可排序的行鍵和任意多的列。表中的值是未經(jīng)解釋的字符串,沒有數(shù)據(jù)類型。行鍵列族

cf1列族

cf2列限定符3個時間戳有些列的值是空的,所以HBase是稀疏的hbase的結(jié)構(gòu)邏輯視圖vs.物理視圖hbase的結(jié)構(gòu)關(guān)系型數(shù)據(jù)庫當(dāng)中要修改表的結(jié)構(gòu)就是很復(fù)雜的一件事,比如增加一個字段。舉個例子來說,如果我們的成績表當(dāng)中忘記了計算機成績這一列,你都錄入了一大半數(shù)據(jù)才發(fā)現(xiàn),這個時候你要先修改表的結(jié)構(gòu)增加一列,然后在一行一行的輸入每個同學(xué)的計算機成績。如果是hbase就簡單了,我把這一列直接擴充到hbase里面就可以了。hbase的結(jié)構(gòu)29列族支持動態(tài)擴展,可以很輕松地添加一個列族或列,無需預(yù)先定義列的數(shù)量以及類型,所有列均以字符串形式存儲,用戶需要自行進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。hbase的結(jié)構(gòu)HBase中執(zhí)行更新操作時,并不會刪除數(shù)據(jù)舊的版本,而是生成一個新的版本,舊有的版本仍然保留。若不提供時間戳則默認(rèn)返回最新版本。數(shù)據(jù)是按照時間戳順序存儲的,客戶端可以選擇獲取距離某個時間最近的版本,或者獲取所有版本。表:HBase采用表來組織數(shù)據(jù),表由行和列組成,列劃分為若干個列族hbase的結(jié)構(gòu)行:每個HBase表都由若干行組成,每個行由行鍵(row

key)來標(biāo)識。列族:一個HBase表被分組成許多“列族”(Column

Family)的集合,它是基本的訪問控制單元列限定符:列族里的數(shù)據(jù)通過列限定符(或列)來定位hbase的結(jié)構(gòu)單元格:在HBase表中,通過行、列族和列限定符確定一個“單元格”(cell),單元格中存儲的數(shù)據(jù)沒有數(shù)據(jù)類型,總被視為字節(jié)數(shù)組byte[

]時間戳:每個單元格都保存著同一份數(shù)據(jù)的多個版本,這些版本采用時間戳進(jìn)行索引HBase中需要根據(jù)行鍵、列族、列限定符和時間戳來確定一個單元格,因此可視為一個“四維坐標(biāo)”[行鍵,列族,列限定符,時間戳];如果把坐標(biāo)看成“鍵”,單元格數(shù)據(jù)看成“值”,HBase也可看成一個鍵值數(shù)據(jù)庫。hbase的結(jié)構(gòu)為空的列并不占用存儲空間,表可以設(shè)計的非常稀疏稀疏性每一列存儲的數(shù)據(jù)可以有多個version。多版本單表可以有百億行、百萬列,數(shù)據(jù)矩陣橫向和縱向兩個維度所支持的數(shù)據(jù)量級都非常具有彈性。數(shù)據(jù)容量大HBase特性讀寫強一致,非“最終一致性”的數(shù)據(jù)存儲,使得它非常適合高速的計算聚合。自動分片,通過Region分散在集群中,當(dāng)行數(shù)增長的時候,Region也會自動的切分和再分配。Hadoop/HDFS集成,和HDFS開箱即用,不用太麻煩的銜接。擴展性強,只需要增加DataNode就可以增加存儲空間。HBase特性豐富的“簡潔,高效”API(應(yīng)用程序接口),提供了Thrift/RESTAPI,JavaAPI等方式對HBase進(jìn)行訪問。塊緩存,布隆過濾器,可以高效的列查詢優(yōu)化。操作管理,Hbase提供了內(nèi)置的web界面來操作,還可以監(jiān)控JMX指標(biāo)。高可靠,保證了系統(tǒng)的容錯能力,WAL機制使得數(shù)據(jù)寫入時不會因為集群異常而導(dǎo)致寫入數(shù)據(jù)丟失。故HBase選擇了CAP中的CP。HBase特性面向列的存儲和權(quán)限控制,并支持獨立檢索,可以動態(tài)的增加列。列式存儲:其數(shù)據(jù)在表中是按照某列存儲的,這樣在查詢只需要少數(shù)幾個字段的時候,能大大減少讀取的數(shù)據(jù)量。高性能:具備海量數(shù)據(jù)的隨機訪問和實時讀寫能力。HBase特性分布式文件系統(tǒng)(HDFS)是指文件系統(tǒng)管理的物理存儲資源不僅存儲在本地節(jié)點上,還可以通過網(wǎng)絡(luò)連接存儲在非本地節(jié)點上。計算機集群的基本架構(gòu)HBase與HDFS的區(qū)別HBase與HDFS的區(qū)別

分布式文件系統(tǒng)改變了數(shù)據(jù)存儲和管理方式,相對于本地文件系統(tǒng)具有很存儲和管理分布式多優(yōu)勢:低成本易擴展強可靠高可用1

用戶無需關(guān)心數(shù)據(jù)是存儲在哪個節(jié)點上,可以如同使用本地文件系統(tǒng)一樣文件系統(tǒng)里的數(shù)據(jù)。2HDFS優(yōu)點HDFS是面向批量的訪問模式,其類型為文件系統(tǒng),存儲的是文件類型的數(shù)據(jù)。HBase與HDFS的區(qū)別HBase是面向隨機訪問和實時讀寫模式,其類型為數(shù)據(jù)庫服務(wù),存儲的是非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。HBase使用HDFS作為底層的文件系統(tǒng),HBase的數(shù)據(jù)最終會寫到HDFS中。就像其他的數(shù)據(jù)庫一樣,真正的數(shù)據(jù)是存儲在操作系統(tǒng)里的文件系統(tǒng)中的。HDFS是文件系統(tǒng),Hbase是數(shù)據(jù)庫。你可以把Hbase當(dāng)做是MySQL,把HDFS當(dāng)做是硬盤。Hbase只是一個NoSQL數(shù)據(jù)庫,數(shù)據(jù)時存放在HDFS上的,Hbase在HDFS上提供了高并發(fā)的隨機寫和支持實時查詢,這是HDFS不具備的。HBase與HDFS的區(qū)別原生的ApacheHadoopCDH:ClouderaDistributedHadoopHDP:HortonworksDataPlatformHBase屬于Hadoop生態(tài)體系,所以HBase的版本選擇實際就是Hadoop的版本選擇。而Hadoop就像Linux一樣,也有多個發(fā)行版,常用發(fā)行版有以下幾種:HBase版本鏈接到客戶端的庫函數(shù)一個Master主服務(wù)器許多個Region服務(wù)器HBase的主要的功能組件HBase中的表根據(jù)Rowkey的值被水平劃分成多個分區(qū)(Region),分區(qū)會被分發(fā)存儲到不同的分區(qū)服務(wù)器上。HBase的主要的功能組件主服務(wù)器Master負(fù)責(zé)管理和維護(hù)HBase表的分區(qū)信息,維護(hù)Region服務(wù)器列表,分配Region,負(fù)載均衡,以及處理Schema的變化,如表和列族的創(chuàng)建。HBase的主要的功能組件Region服務(wù)器負(fù)責(zé)存儲和維護(hù)分配給自己的Region,處理來自客戶端的讀寫請求。分區(qū)定位HBase的主要的功能組件元數(shù)據(jù)表,又名.META.表,存儲了Region和RegionServer的映射關(guān)系??蛻舳嗽L問數(shù)據(jù)之前,需要首先訪問Zookeeper獲取.META.表的信息,接著訪問.META.表,找到所需分區(qū)的具體位置,最后到對應(yīng)的分區(qū)服務(wù)器讀取數(shù)據(jù)。為加速尋址,客戶端會把查詢過的位置信息在本地緩存。1本節(jié)介紹了分布式數(shù)據(jù)庫Hbase的表結(jié)構(gòu)2HBas

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論