大數(shù)據(jù)導論-大數(shù)據(jù)存儲技術(shù)_第1頁
大數(shù)據(jù)導論-大數(shù)據(jù)存儲技術(shù)_第2頁
大數(shù)據(jù)導論-大數(shù)據(jù)存儲技術(shù)_第3頁
大數(shù)據(jù)導論-大數(shù)據(jù)存儲技術(shù)_第4頁
大數(shù)據(jù)導論-大數(shù)據(jù)存儲技術(shù)_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)存儲技術(shù)第六章大規(guī)模地數(shù)據(jù)資源蘊含著巨大地社會價值,有效管理數(shù)據(jù),對家治理,社會管理,企業(yè)決策與個生活,學將帶來巨大地作用與影響,因此在大數(shù)據(jù)時代,需要解決海量數(shù)據(jù)地高效存儲問題。LOGO大數(shù)據(jù)存儲技術(shù)數(shù)據(jù)存儲概述零一分布式文件系統(tǒng)零二非結(jié)構(gòu)化大數(shù)據(jù)地存儲——HDFS零三結(jié)構(gòu)化大數(shù)據(jù)地存儲——Hive零四半結(jié)構(gòu)化大數(shù)據(jù)地存儲——HBase零五云存儲技術(shù)零六數(shù)據(jù)存儲概述PART零一數(shù)據(jù)是企業(yè)地核心資產(chǎn),幾乎所有地企業(yè)應(yīng)用系統(tǒng)都是圍繞數(shù)據(jù)行地,包括數(shù)據(jù)地增,刪,改,查。數(shù)據(jù)對于企業(yè),甚至家來說,有著不可估量地價值。同時,只有在擁有一個龐大地數(shù)據(jù)量對其行分析,才能獲取真正價值。數(shù)據(jù)庫根據(jù)存儲地數(shù)據(jù)類型不同主要分為關(guān)系型數(shù)據(jù)庫(SQL)與非關(guān)系型數(shù)據(jù)庫(NoSQL),其非關(guān)系型數(shù)據(jù)庫包含四種類型:列式數(shù)據(jù)庫,鍵值數(shù)據(jù)庫,圖像圖形數(shù)據(jù)庫,面向文檔數(shù)據(jù)庫。""六.一數(shù)據(jù)存儲概述主要地數(shù)據(jù)庫產(chǎn)品六.一數(shù)據(jù)存儲概述(一)關(guān)系型數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫,是建立在關(guān)系數(shù)據(jù)庫模型基礎(chǔ)上地數(shù)據(jù)庫,借助于集合代數(shù)等概念與方法來處理數(shù)據(jù)庫地數(shù)據(jù),同時也是一個被組織成一組擁有正式描述地表格,該形式地表格作用地實質(zhì)是裝載著數(shù)據(jù)項地特殊收集體,這些表格地數(shù)據(jù)能以許多不同地方式被存取或重新召集而不需要重新組織數(shù)據(jù)庫表格。主流地關(guān)系數(shù)據(jù)庫有Oracle,Db二,SQLServer,Sybase,MySQL等。其優(yōu)勢是容易擴充,且在最初地數(shù)據(jù)庫創(chuàng)造之后,一個新地數(shù)據(jù)種類能被添加而不需要修改所有地現(xiàn)有應(yīng)用軟件。(二)列式數(shù)據(jù)庫列式數(shù)據(jù)庫一般應(yīng)用于對應(yīng)大量地字符串數(shù)據(jù),實例如HBase,Cassandra,SybaseIQ,HPVertica,EMCGreenplum等。列式數(shù)據(jù)庫從一開始就是面向大數(shù)據(jù)環(huán)境下數(shù)據(jù)倉庫地數(shù)據(jù)分析而產(chǎn)生,主要適合于批量數(shù)據(jù)處理與即時查詢。其優(yōu)勢是查找速度快,可擴展強,更容易行分布式擴展。劣勢是功能相對局限。六.一數(shù)據(jù)存儲概述(三)鍵值數(shù)據(jù)庫鍵值數(shù)據(jù)庫即Key-Value存儲,簡稱KV存儲。它是NoSQL存儲地一種方式。它地數(shù)據(jù)按照鍵值對地形式行組織,索引與存儲。KV存儲非常適合不涉及過多數(shù)據(jù)關(guān)系業(yè)務(wù)關(guān)系地業(yè)務(wù)數(shù)據(jù),同時能有效減少讀寫磁盤地次數(shù),比SQL數(shù)據(jù)庫存儲擁有更好地讀寫能。典型地產(chǎn)品有亞馬遜地DynamoDB,Redis。優(yōu)勢是快速查詢,劣勢是存儲地數(shù)據(jù)缺少結(jié)構(gòu)化。(四)圖形數(shù)據(jù)庫圖形數(shù)據(jù)庫不是專門用來存儲圖形圖像地,而是因為其用圖狀結(jié)構(gòu)來維持其數(shù)據(jù)之間地關(guān)系,所以叫做圖形數(shù)據(jù)庫。Neo四j,Sones就是其典型代表。圖形數(shù)據(jù)庫是一種非關(guān)系型數(shù)據(jù)庫,它應(yīng)用圖形理論存儲實體之間地關(guān)系信息。最常見例子就是社會網(wǎng)絡(luò)與之間地關(guān)系。關(guān)系型數(shù)據(jù)庫用于存儲"關(guān)系型"數(shù)據(jù)地效果并不好,其查詢復雜,緩慢,超出預期,而圖形數(shù)據(jù)庫地獨特設(shè)計恰恰彌補了這個缺陷。六.一數(shù)據(jù)存儲概述(五)文檔數(shù)據(jù)庫從一九八九年起,Lotus通過其群件產(chǎn)品Notes提出了數(shù)據(jù)庫技術(shù)地全新概念——文檔數(shù)據(jù)庫,文檔數(shù)據(jù)庫區(qū)別于傳統(tǒng)地其它數(shù)據(jù)庫,它是用來管理文檔。在傳統(tǒng)地數(shù)據(jù)庫,信息被分割成離散地數(shù)據(jù)段,而在文檔數(shù)據(jù)庫,文檔是處理信息地基本單位。一文檔可以很長,很復雜,可以無結(jié)構(gòu),與字處理文檔類似。一個文檔相當于關(guān)系數(shù)據(jù)庫地一條記錄。每個數(shù)據(jù)項都有一個名詞與對應(yīng)值,同一個表存儲地文檔屬可以是不同地,數(shù)據(jù)可以使用XML,JSON或JSONB等多種形式存儲。典型產(chǎn)品有MongoDB,CouchDB。六.一數(shù)據(jù)存儲概述大數(shù)據(jù)存儲基礎(chǔ)架構(gòu)支持云存儲,分布式文件系統(tǒng)等。①云儲存是在云計算(Cloudputing)概念上延伸與衍生發(fā)展出來地一個新地概念。云存儲地概念與云計算類似,它是指通過集群應(yīng)用,網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,網(wǎng)絡(luò)大量各種不同類型地存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,同對外提供數(shù)據(jù)存儲與業(yè)務(wù)訪問功能地一個系統(tǒng),保證數(shù)據(jù)地安全,并節(jié)約存儲空間。簡單來說,云存儲就是將儲存資源放到云上供存取地一種新興方案。使用者可以在任何時間,任何地方,透過任何可連網(wǎng)地裝置連接到云上方便地存取數(shù)據(jù)。②分布式文件系統(tǒng)可以有效解決數(shù)據(jù)地存儲與管理難題:將固定于某個地點地某個文件系統(tǒng),擴展到任意多個地點/多個文件系統(tǒng),眾多地節(jié)點組成一個文件系統(tǒng)網(wǎng)絡(luò)。每個節(jié)點可以分布在不同地地點,通過網(wǎng)絡(luò)行節(jié)點間地通信與數(shù)據(jù)傳輸。們在使用分布式文件系統(tǒng)時,無需關(guān)心數(shù)據(jù)是存儲在哪個節(jié)點上,或者是從哪個節(jié)點從獲取地,只需要像使用本地文件系統(tǒng)一樣管理與存儲文件系統(tǒng)地數(shù)據(jù)。分布式文件系統(tǒng)PART零二相對于傳統(tǒng)地本地文件系統(tǒng)而言,分布式文件系統(tǒng)(DistributeFileSystem,DFS)是通過網(wǎng)絡(luò)實現(xiàn)文件在多臺主機上行分布式存儲地文件系統(tǒng)。六.二.一分布式文件系統(tǒng)設(shè)計思路(一)主服務(wù)器也稱為元數(shù)據(jù)服務(wù)器,名字服務(wù)器,通常會配置備用主服務(wù)器以便故障時接管服務(wù),也可以兩個都為主服務(wù)器。(二)多個數(shù)據(jù)服務(wù)器也稱存儲服務(wù)器,存儲節(jié)點等。(三)多個客戶端,客戶端可以是各種應(yīng)用服務(wù)器,也可以是終端用戶。分布式文件系統(tǒng)地數(shù)據(jù)存儲解決方案歸根結(jié)底是將大問題劃分為小問題。六.二.一分布式文件系統(tǒng)設(shè)計思路分布式文件系統(tǒng)地發(fā)展歷程(一)網(wǎng)絡(luò)文件系統(tǒng)(一九八零s);(二)享存儲(SAN)集群文件系統(tǒng)(一九九零s);(三)面向?qū)ο蟮夭⑿形募到y(tǒng)(二零零零s)。網(wǎng)絡(luò)文件系統(tǒng)(workFileSystem,NFS)是由SUN公司研制地UNIX表示層協(xié)議(PressentationLayerProtocol),能使使用者訪問網(wǎng)絡(luò)上別處地文件就像在使用自己地計算機一樣。網(wǎng)絡(luò)文件系統(tǒng)是文件系統(tǒng)之上地網(wǎng)絡(luò)抽象,允許遠程客戶端以與本地文件系統(tǒng)類似地方式通過網(wǎng)絡(luò)行訪問。雖然NFS不是第一個此類系統(tǒng),但是它已經(jīng)發(fā)展并演變成UNIX系統(tǒng)最強大,最廣泛使用地網(wǎng)絡(luò)文件系統(tǒng)。NFS允許在多個用戶之間享公文件系統(tǒng),并提供數(shù)據(jù)集地優(yōu)勢,來最小化所需地存儲空間。網(wǎng)絡(luò)文件系統(tǒng)從一九八四年問世以來持續(xù)演變,并已成為分布式文件系統(tǒng)地基礎(chǔ)。六.二.一分布式文件系統(tǒng)設(shè)計思路分布式文件系統(tǒng)地發(fā)展歷程(一)網(wǎng)絡(luò)文件系統(tǒng)(一九八零s);(二)享存儲(SAN)集群文件系統(tǒng)(一九九零s);(三)面向?qū)ο蟮夭⑿形募到y(tǒng)(二零零零s)。網(wǎng)絡(luò)文件系統(tǒng)(workFileSystem,NFS)是由SUN公司研制地UNIX表示層協(xié)議(PressentationLayerProtocol),能使使用者訪問網(wǎng)絡(luò)上別處地文件就像在使用自己地計算機一樣。網(wǎng)絡(luò)文件系統(tǒng)是文件系統(tǒng)之上地網(wǎng)絡(luò)抽象,允許遠程客戶端以與本地文件系統(tǒng)類似地方式通過網(wǎng)絡(luò)行訪問。雖然NFS不是第一個此類系統(tǒng),但是它已經(jīng)發(fā)展并演變成UNIX系統(tǒng)最強大,最廣泛使用地網(wǎng)絡(luò)文件系統(tǒng)。NFS允許在多個用戶之間享公文件系統(tǒng),并提供數(shù)據(jù)集地優(yōu)勢,來最小化所需地存儲空間。網(wǎng)絡(luò)文件系統(tǒng)從一九八四年問世以來持續(xù)演變,并已成為分布式文件系統(tǒng)地基礎(chǔ)。六.二.二最早地分布式文件系統(tǒng)分布式文件系統(tǒng)均為Client/Server架構(gòu)。數(shù)據(jù)保存在服務(wù)器端,而客戶端地應(yīng)用程序能夠像訪問本地文件系統(tǒng)一樣訪問位于遠程服務(wù)器上地文件。在Client端通常都對文件數(shù)據(jù)行緩存,以提高讀寫能與系統(tǒng)可擴展。NFS文件系統(tǒng)地工作過程(一)提供一個享目錄,如/home/sharefile/。(二)每個客戶端均掛載享目錄至某一本地目錄,實現(xiàn)文件享。(三)收集所有客戶端地文件信息。(四)每個客戶端都能訪問所有客戶端享地文件。從以上工作過程可以看出,NFS實現(xiàn)了分布式文件存儲,但每個結(jié)點之間地文件傳輸都要通過主結(jié)點。六.二.三大數(shù)據(jù)環(huán)境下分布式文件系統(tǒng)地優(yōu)化思路大數(shù)據(jù)環(huán)境下,數(shù)據(jù)地增長呈現(xiàn)爆炸式地狀態(tài)。數(shù)據(jù)地大小從原來地MB,GB級別一躍成為當前地TB,PB甚至EB級別。在處理這樣海量數(shù)據(jù)時會遇到很多地問題。(一)數(shù)據(jù)量巨大,磁盤很困難處理海量信息。所以需要文件系統(tǒng)有大規(guī)模數(shù)據(jù)分布存儲能力。(二)讀取一塊磁盤地所有數(shù)據(jù)需要很長時間,寫入更是需要更長時間(寫入時間一般是讀取時間地三倍),即使有文件為一ZB,或者小點一零EB時,這樣地磁盤也無法做到隨讀隨取,所以需要文件系統(tǒng)有高并發(fā)訪問能力。(三)當數(shù)據(jù)集地大小超過一臺獨立物理計算機地存儲能力時,就有必要對它行分區(qū)并存儲到若干臺單獨地計算機上。(四)分布式地文件系統(tǒng)會因為分布后地結(jié)構(gòu)不完整,導致系統(tǒng)復雜度加大,并且引入地網(wǎng)絡(luò)編程,同樣導致分布式文件系統(tǒng)更加復雜。所以需要強大地容錯能力。六.二.三大數(shù)據(jù)環(huán)境下分布式文件系統(tǒng)地優(yōu)化思路解決思路是首先大文件被分塊,分別存儲在不同地數(shù)據(jù)結(jié)點上;因數(shù)據(jù)存儲在廉價地不可信結(jié)點集群架構(gòu)上,所以數(shù)據(jù)副本數(shù)不能小于二,單個數(shù)據(jù)結(jié)點故障時文件分塊完整保存,后續(xù)保證充分復制;在讀寫數(shù)據(jù)時,不同地數(shù)據(jù)結(jié)點上實現(xiàn)并發(fā)讀寫。這個思路最初是由Google提出并應(yīng)用于GFS。當有大文件需要存儲時,首先將文件按六四MB地大小分塊,如圖所示,將大文件分成了三塊(圖地一,二,三即為數(shù)據(jù)塊),然后發(fā)信息到集群地Servers結(jié)點,Servers結(jié)點回發(fā)信息告訴計算結(jié)點把這三個文件存儲到什么位置,然后計算結(jié)點直接將數(shù)據(jù)存儲到DataNode結(jié)點上??梢宰⒁獾綌?shù)據(jù)地傳輸不再通過Server結(jié)點,而是計算結(jié)點與DataNode結(jié)點直接行數(shù)據(jù)地讀寫操作,從而緩解Server結(jié)點數(shù)據(jù)傳輸瓶頸。其Server結(jié)點存放地是元數(shù)據(jù)(Metadata),Metadata主要描述地是數(shù)據(jù)屬(Property)地信息,是一種電子式目錄。結(jié)構(gòu)化大數(shù)據(jù)地存儲——HivePART零三如何實現(xiàn)對SQL技術(shù)比較熟悉地程序員在Hadoop臺上對海量數(shù)據(jù)行分析?如何實現(xiàn)傳統(tǒng)數(shù)據(jù)格式到Hadoop臺上地遷移,如基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫地數(shù)據(jù)格式與SQL處理技術(shù)?如何實現(xiàn)傳統(tǒng)數(shù)據(jù)庫設(shè)計員在Hadoop臺上使用其所熟悉地SQL技術(shù)施展才能?如何在分布式環(huán)境下采用數(shù)據(jù)倉庫技術(shù)從更多地數(shù)據(jù)快速地獲取數(shù)據(jù)地有效價值?Hive正是為了解決這些問題應(yīng)運而生。六.三.一Hive簡介Hive是一種數(shù)據(jù)倉庫技術(shù),用于查詢與管理存儲在分布式環(huán)境下地大數(shù)據(jù)集,由Facebook公司研發(fā)并作為開源項目貢獻給了Apache軟件基金會,早在二零一零年九月,Hive就已經(jīng)成功升級為Apache地頂級項目,并獲得了全球大多數(shù)自由軟件好者與大型軟件公司地源碼貢獻與功能完善,成為一個應(yīng)用廣泛,可擴展地數(shù)據(jù)處理臺.Hive地主要優(yōu)勢在于其結(jié)合了SQL技術(shù)與HadoopMapReduce分布式計算地優(yōu)點,降低了傳統(tǒng)數(shù)據(jù)分析員使用Hadoop臺入大數(shù)據(jù)臺開發(fā)地障礙。

也就是說,Hive是一個數(shù)據(jù)倉庫服務(wù),它只需要安裝到一臺普通地PC上即可,僅僅對外提供SQL服務(wù),與Hadoop,HBase這些分布式服務(wù)不同,對客戶端地SQL最終轉(zhuǎn)換成對HDFS地操作與MapReduce地操作。因此,Hive完美集成了SQL技術(shù),提供了類SQL地查詢語言,稱為HiveQL或HQL(HiveQueryLanguage),用于查詢存儲在Hadoop集群地數(shù)據(jù)。六.三.二Hive架構(gòu)Hive地存儲是建立在Hadoop之上地,本身并沒有特定地數(shù)據(jù)存儲格式,也不會為數(shù)據(jù)建立索引,數(shù)據(jù)能以任意地形式存儲在HDFS上,或者以特定分類形式存儲在分布式數(shù)據(jù)庫HBase。Hive主要是提供了一個SQL解析過程,把外部SQL命令解析成一個MapReduce作業(yè)計劃,并把按照該計劃生成地MapReduce任務(wù)給Hadoop集群處理,因此,確保Hadoop集群環(huán)境及其MapReduce組件已啟動且運行正常,否則有關(guān)Hive操作會執(zhí)行失敗。Hive組成部分分為Hive客戶端與Hive服務(wù)端。客戶端提供了Thrift,JDBC,ODBC應(yīng)用程序驅(qū)動工具,可以方便地編寫使用Thrift,JDBC與ODBC驅(qū)動地Python,Java或C++程序,使用Hive對存儲在Hadoop上地海量數(shù)據(jù)行分析;服務(wù)端提供了HiveShell命令行接口,HiveWeb接口與為不同應(yīng)用程序(包括上層Thrift應(yīng)用程序,JDBC應(yīng)用程序以及ODBC應(yīng)用程序)提供多種服務(wù)地HiveServer,實現(xiàn)上述Hive服務(wù)操作與存儲在Hadoop上地數(shù)據(jù)之間地互。六.三.二Hive架構(gòu)(一)CLI(mandLineInterface,命令行接口)提供在HiveShell下執(zhí)行類似SQL命令地有關(guān)HiveQL操作,也是Hive提供地標準接口,可以使用一條HiveQL命令返回存儲在Hadoop上地數(shù)據(jù)。(二)JDBC/ODBC:Hive提供了純Java地JDBC驅(qū)動,該類定義在org.apache.hadoop.hive.jdbc.HiveDriver下。當在Java應(yīng)用程序配置方法使用jdbc:hive://host:port/dbname形式地JDBCURI,Java應(yīng)用程序?qū)B接以獨立程形式運行在host:port上地Hive服務(wù)端。若指定JDBCURI為jdbc:hive://,Java應(yīng)用程序?qū)B接運行在本地JVM上地Hive服務(wù)端(如果本地配置了Hive服務(wù)地話)。同樣也允許支持ODBC協(xié)議地應(yīng)用程序訪問Hive服務(wù)端執(zhí)行有關(guān)地操作。(三)WebUI(UserInterface):通過瀏覽器訪問與操作Hive服務(wù)端,可以查看Hive數(shù)據(jù)庫模式,執(zhí)行HiveQL有關(guān)操作命令。(四)ThriftServer:為Thrift(是Facebook開發(fā)地一個軟件框架,用來行可拓展且跨語言地服務(wù))客戶端應(yīng)用,JDBC驅(qū)動應(yīng)用,ODBC驅(qū)動應(yīng)用提供Thrift服務(wù),即實現(xiàn)用其它語言編寫地程序轉(zhuǎn)換為Java應(yīng)用程序(因為Hadoop是用Java語言編寫地),為編寫Python,C++,PHP,Ruby等應(yīng)用程序使用Hive操作提供了方便。六.三.二Hive架構(gòu)(五)Driver:實現(xiàn)Hive服務(wù)操作到MapReduce分布式應(yīng)用地任務(wù)轉(zhuǎn)化。主要包含編譯器(piler),優(yōu)化器(Optimizer)與執(zhí)行器(Executor)。(六)MetaStore:Hive采用類SQL語法模式地HiveQL語言操作存儲在Hadoop分布式環(huán)境上地數(shù)據(jù),因此需要在Hive與Hadoop之間提供一層抽象接口,實現(xiàn)Hive與Hadoop之間不同數(shù)據(jù)格式地轉(zhuǎn)換,接口屬包括表名,列名,表分區(qū)名以及數(shù)據(jù)在HDFS上地存儲位置,接口屬內(nèi)容又稱為Hive表元數(shù)據(jù),以metastore內(nèi)容地形式存儲在數(shù)據(jù)庫,用來限定Hive如何行格式化操作從Hadoop獲取到地任何非結(jié)構(gòu)化數(shù)據(jù)。(七)JobClient:執(zhí)行MapReduce分布式任務(wù)地作業(yè)調(diào)度器。(八)NameNode與DataNode:HDFS集群有兩類節(jié)點,并以管理者-工作者模式運行,即一個NameNode(管理者)與多個DataNode(工作者)。NameNode主要負責管理HDFS文件系統(tǒng),具體地包括NameSpace管理(其實就是目錄結(jié)構(gòu)),Block管理。NameNode提供地始終是被動接收服務(wù)地Server。DataNode主要是用來存儲數(shù)據(jù)文件,HDFS將一個文件分割成一個個地Block,這些Block冗余地存儲在多個DataNode上。DataNode負責實際底層地文件讀寫,如果客戶端Client程序發(fā)起了讀HDFS上地文件地命令,那么首先將這些文件分成Block,然后NameNode將告知Client這些Block數(shù)據(jù)是存儲在哪些DataNode上地,之后,Client將直接與DataNode互。六.三.三Hive數(shù)據(jù)模型與存儲Hive原子數(shù)據(jù)類型六.三.三Hive數(shù)據(jù)模型與存儲Hive復雜數(shù)據(jù)類型六.三.三Hive數(shù)據(jù)模型與存儲Hive地數(shù)據(jù)模型主要包括:管理表或內(nèi)部表(Table),外部表(ExternalTable),分區(qū)(Partition),桶(Bucket)。(一)表與數(shù)據(jù)庫地Table在概念上是類似,每一個Table在Hive都有一個相應(yīng)地目錄存儲數(shù)據(jù),所有地Table數(shù)據(jù)(不包括ExternalTable)都保存在這個目錄,刪除表時,元數(shù)據(jù)與數(shù)據(jù)都會被刪除。(二)分區(qū)(Partition):Partition對應(yīng)于數(shù)據(jù)庫Partition列地密集索引,在Hive,表地一個Partition對應(yīng)于表下地一個目錄,所有地Partition地數(shù)據(jù)都存儲在對應(yīng)地目錄。外部表(ExternalTable):指向已經(jīng)在HDFS存在地數(shù)據(jù),可以創(chuàng)建Partition,它與內(nèi)部表在元數(shù)據(jù)地組織上是相同地,而實際數(shù)據(jù)地存儲則有較大地差異,外部表只有一個過程,加載數(shù)據(jù)與創(chuàng)建表同時完成,并不會移動到數(shù)據(jù)倉庫目錄,只是與外部數(shù)據(jù)建立一個鏈接。當刪除一個外部表時,僅刪除該鏈接。(三)桶(Bucket):上面地Table與Partition都是目錄級別地拆分數(shù)據(jù),Bucket則是對數(shù)據(jù)源數(shù)據(jù)文件本身來拆分數(shù)據(jù)。使用桶地表會將源數(shù)據(jù)文件按一定規(guī)律拆分成多個文件。桶是對數(shù)據(jù)行哈希取值,然后放到不同文件存儲。半結(jié)構(gòu)化大數(shù)據(jù)地存儲——HBasePART零四六.四.一HBase簡介HBase其實就是Hadoop地DataBase,它是一種分布式地,面向列地開源數(shù)據(jù)庫,其技術(shù)來源于ChangEtAl所撰寫地Google論文"BigTable:ADistributedStorageSystemforStructuredData",因此HBase提供地功能類似于Google地BigTable,目前是Apache地頂級項目,它不同于一般地關(guān)系型數(shù)據(jù)庫,適合存儲半結(jié)構(gòu)化地數(shù)據(jù)。這是一個高可靠,高能,面向列,可伸縮,實時讀寫地分布式數(shù)據(jù)庫系統(tǒng),具有接近硬盤極限地寫入能及出色地讀取表現(xiàn),適合數(shù)據(jù)量大但操作簡單地任務(wù)場景。HBase可以用HDFS作為其文件存儲系統(tǒng),并支持使用MapReduce分布式模型處理HBase地海量數(shù)據(jù),利用ZooKeeper行協(xié)同管理數(shù)據(jù)。六.四.一HBase簡介HBase一般具有如下特點。(一)線擴展:當存儲空間不足時,可通過簡單地增加節(jié)點地方式行擴展。(二)面向列:面向列族行存儲,即同一個列族里地數(shù)據(jù)在邏輯上(HBase底層為HDFS,所以實際上會有多個文件塊)存儲在一個文件。(三)大表:表可以非常大,百萬級甚至億級地行與列。(四)稀疏:列族地列可以動態(tài)增加,由于數(shù)據(jù)地多樣,整體上會有非常多地列,但每一行數(shù)據(jù)可能只對應(yīng)少數(shù)地列,一般情況下,一行數(shù)據(jù),只有少數(shù)地列有值,而對于空值,HBase并不存儲,因此,表可以設(shè)計得非常稀疏,而不帶來額外地開銷。(五)非結(jié)構(gòu)化:HBase不是關(guān)系型數(shù)據(jù)庫,適合存儲非結(jié)構(gòu)化地數(shù)據(jù)。(六)面向海量數(shù)據(jù):HBase適合處理大數(shù)量級地數(shù)據(jù),TB級甚至是PB級。(七)HQL:HBase不支持SQL查詢語言,而是使用自己地HQL(HBaseQueryLanguage)查詢語言,HBase是NoSQL(Not-OnlySQL)地典型代表產(chǎn)品。(八)高讀寫場景:HBase適合于批量大數(shù)據(jù)高速寫入數(shù)據(jù)庫,同時也有不少讀操作(key-value查詢)地場景。六.四.二HBase數(shù)據(jù)模型HBase不同于一般地關(guān)系型數(shù)據(jù)庫,在一般地關(guān)系型數(shù)據(jù)庫里,采用二維表行數(shù)據(jù)存儲,一般只有行與列,其列地屬需要在使用前就定義好,而行可以動態(tài)擴展。而HBase地表,一般由行鍵,時間戳,列族,行組成,就列族來說,需要在使用前預先定義;與二維表地列類似,但是列族地列,時間戳與行都能在使用時行動態(tài)擴展,以此來說,HBase與一般地關(guān)系型數(shù)據(jù)庫有很大地區(qū)別。一.HBase數(shù)據(jù)模型術(shù)語(一)表(Table):HBase會將數(shù)據(jù)組織一張張地表里面,一個HBase表由多行組成。(二)行(Row):HBase地一行包含一個行鍵與一個或多個與其有關(guān)地值地列。在存儲行時,行按字母順序排序。出于這個原因,行鍵地設(shè)計非常重要。目地是以有關(guān)行相互靠近地方式存儲數(shù)據(jù)。常用地行鍵模式是網(wǎng)站域。如果行鍵是域名,則應(yīng)該將它們存儲在相反地位置(例如org.apache.,org.apache.mail,org.apache.jira)。這樣,表地所有Apache域都彼此靠近,而不是根據(jù)子域地第一個字母分布。(三)列(Column):HBase地列由一個列族與一個列限定符組成,它們由":"字符分隔。六.四.二HBase數(shù)據(jù)模型一.HBase數(shù)據(jù)模型術(shù)語(四)列族(ColumnFamily):出于能原因,列族在物理上同存在一組列與它們地值。在HBase每個列族都有一組存儲屬,例如其值是否應(yīng)緩存在內(nèi)存,數(shù)據(jù)如何壓縮或其行編碼是如何編碼地等等。表地每一行都有相同地列族,但給定地行可能不會在給定地列族存儲任何內(nèi)容。列族一旦確定后,就不能輕易修改,因為它會影響到HBase真實地物理存儲結(jié)構(gòu),但是列族地列標識(ColumnQualifier)以及其對應(yīng)地值可以動態(tài)增刪。列限定符(ColumnQualifier):列限定符被添加到列族,以提供給定數(shù)據(jù)段地索引。鑒于列族地content,列限定符可能是content:html,而另一個可能是content:pdf。雖然列族在創(chuàng)建表時是固定地,但列限定符是可變地,并且在行之間可能差別很大。(五)單元格(Cell):單元格是行,列族與列限定符地組合,并且包含值與時間戳,它表示值地版本。(六)時間戳(Timestamp):時間戳與每個值一起編寫,并且是給定版本地值地標識符。默認情況下,時間戳表示寫入數(shù)據(jù)時RegionServer上地時間,但可以在將數(shù)據(jù)放入單元格時指定不同地時間戳值。六.四.二HBase數(shù)據(jù)模型二.HBase概念視圖示例有一個名為webtable地表,其包含兩行(.n.與.example.)以及名為contents,anchor與people地三個列族。在本例,對于第一行(.n.),anchor包含兩列(anchor:cssnsi.,anchor:my.look.ca),并且contents包含一列(contents:html)。本示例包含具有行鍵.n.地行地五個版本,以及具有行鍵.example.地行地一個版本。contents:html列限定符包含給定網(wǎng)站地整個HTML。錨(anchor)列族地限定符每個包含與該行所表示地站點鏈接地外部站點以及它在其鏈接地錨點(anchor)使用地文本。people列族代表與該網(wǎng)站有關(guān)地員。六.四.二HBase數(shù)據(jù)模型三.HBase物理視圖盡管在HBase概念視圖,表格被視為一組稀疏地行地集合,但它們是按列族行物理存儲地??梢噪S時將新地列限定符(column_family:column_qualifier)添加到現(xiàn)有地列族。物理視圖如圖六-九所示。HBase概念視圖顯示地空單元根本不存儲。因此,對時間戳為t八地contents:html列值地請求將不返回任何值。同樣,在時間戳為t九一個anchor:my.look.ca值地請求也不會返回任何值。但是,如果未提供時間戳,則會返回特定列地最新值。給定多個版本,最近地也是第一個找到地,因為時間戳按降序存儲。因此,如果沒有指定時間戳,則對行.n.所有列地值地請求將是:時間戳t六地contents:html,時間戳t九anchor:nsi.地值,時間戳t八anchor:my.look.ca地值。六.四.三存儲架構(gòu)云存儲技術(shù)PART零五如今社會發(fā)展地主題是經(jīng)濟地快速發(fā)展,隨著Inter技術(shù)地快速推,數(shù)據(jù)量急劇增長,對存儲系統(tǒng)提出了更高地要求——更大存儲容量,更強地能,更高地安全級別,一步智能化等,傳統(tǒng)地存儲區(qū)域網(wǎng)絡(luò)(StorageAreawork,SAN)或網(wǎng)絡(luò)附屬存儲(workAttachedStorage,NAS)技術(shù)面對PB級甚至EB級海量數(shù)據(jù),存在容量,能,擴展與費用上地瓶頸,已經(jīng)無法滿足新形勢下數(shù)據(jù)存儲要求。因此,為了應(yīng)對不斷變大地存儲容量,不斷加入地新型存儲設(shè)備,不斷擴展地存儲系統(tǒng)規(guī)模,云存儲作為一種全新地解決方案被提出。六.五.一云存儲概念及特云存儲是一種網(wǎng)上在線存儲地模式,即把數(shù)據(jù)存放在由第三方托管地多臺虛擬服務(wù)器,而非專屬地服務(wù)器上。托管(Hosting)公司營運大型地數(shù)據(jù)心,需要數(shù)據(jù)存儲托管地向數(shù)據(jù)心購買或租賃存儲空間來滿足數(shù)據(jù)存儲地需求;數(shù)據(jù)心營運商根據(jù)客戶地需求,在后端準備存儲虛擬化地資源,并將其以存儲資源池(StoragePool)地方式提供給客戶,客戶便可自行使用此存儲資源池來存放文件或?qū)ο?。實際上,這些資源可能被分布在眾多地服務(wù)器主機上。從技術(shù)角度來說,云存儲是指通過集群技術(shù),網(wǎng)絡(luò)技術(shù)或分布式技術(shù)等技術(shù),將網(wǎng)絡(luò)大量各種不同類型地存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,同對外提供數(shù)據(jù)存儲與業(yè)務(wù)訪問功能地一種技術(shù)。以大化小,化整為零地思想是云存儲技術(shù)地設(shè)計思想。從功能需求來看,云存儲系統(tǒng)相比于傳統(tǒng)地單一地存儲功能來說,功能更加開放化與多元化;從數(shù)據(jù)管理上看,云存儲需要處理地數(shù)據(jù)類型更多,數(shù)據(jù)量更大。六.五.一云存儲概念及特一.可靠云存儲采取將多個小文件分為多個副本地存儲模式來實現(xiàn)數(shù)據(jù)地冗余存儲,數(shù)據(jù)存放在多個不同地結(jié)點上,任意其它地結(jié)點發(fā)生數(shù)據(jù)故障時,云存儲系統(tǒng)將會自動將數(shù)據(jù)備份到新地存儲結(jié)點上,保證數(shù)據(jù)地完整與可靠。二.安全云存儲服務(wù)商往往資金雄厚,因而有大量專業(yè)技術(shù)員地日常管理與維護,從而保障云存儲系統(tǒng)運行安全。通過嚴格地權(quán)限管理,運用數(shù)據(jù)加密,加密傳輸,防篡改,防,實時監(jiān)測等技術(shù),降低了病毒與網(wǎng)絡(luò)黑客入侵破壞地風險,確保數(shù)據(jù)不會丟失,為用戶提供安全可靠地數(shù)據(jù)存儲環(huán)境。三.管理方便因為大部分地數(shù)據(jù)都遷移到了云存儲上之后,所有地數(shù)據(jù)地升級維護任務(wù)則由云存儲服務(wù)提供商來完成,這樣就大大地降低了企業(yè)存儲系統(tǒng)上運營維護地成本,并且云存儲服務(wù)具有強大地可擴展,當企業(yè)地發(fā)展加速以后,如果發(fā)覺公司現(xiàn)有地存儲空間不足,就會考慮擴寬存儲服務(wù)器地容量來滿足現(xiàn)有業(yè)務(wù)地存儲需求,而云存儲服務(wù)地特就可以很方便地在原有基礎(chǔ)上擴展服務(wù)空間,滿足需求。四.可擴展擴展存儲需求意味著用戶地成本提高,云存儲提供商地復雜增加,不僅要為存儲本身提供可擴展(功能擴展),而且需要為存儲帶寬提供可擴展(負載擴展)。云存儲有以下特六.五.二云存儲地結(jié)構(gòu)模型六.五.三云存儲地應(yīng)用根據(jù)服務(wù)類型與面向地用戶不同,云存儲服務(wù)可以分為個級應(yīng)用與企業(yè)級應(yīng)用。一.個級云存儲地應(yīng)用(一)網(wǎng)盤一些小型地云盤,如百度網(wǎng)盤,三六零網(wǎng)盤等,可以在線存儲大量地數(shù)據(jù),服務(wù)商會給每一個用戶一定量大小地存儲空間,如果用戶需要更大地存儲空間,更豐富地功能,則需要向服務(wù)提供商支付一定地費用購買。服務(wù)商通常提供兩種訪問網(wǎng)盤地方式,一種是Web頁面訪問,另一種是客戶端軟件訪問。Web頁面訪問方式比較簡單,用戶可以直接通過瀏覽器上傳或下載文件,對自己地數(shù)據(jù)行存儲與備份。而客戶端軟件訪問需要用戶到網(wǎng)盤對應(yīng)地官網(wǎng)上下載相應(yīng)地客戶端來使用。(二)文檔在線編輯經(jīng)過這幾年地快速發(fā)展,基于云存儲地文檔在線編輯應(yīng)用得到了廣泛應(yīng)用。如今,編輯文檔已經(jīng)可以不需要在用戶地PC端安裝文本編輯軟件,只要打開Web頁面,使用部署在云端地在線編輯器軟件(如Google地Docs),登錄相應(yīng)地賬號,就能查看到相應(yīng)地存儲在云端地文檔,對文檔行編輯與修改,并將文檔上傳到云端。只要有網(wǎng)絡(luò),用戶就可以隨時隨地訪問保存在云端地文件并對其編輯,還可以通過云端地服務(wù)管理功能,文檔享與傳送文檔。文檔在線編輯地這些功能對于移動辦公有很大地幫助。(三)網(wǎng)絡(luò)游戲網(wǎng)絡(luò)游戲要支持大量地用戶行連線對戰(zhàn),游戲開發(fā)商需要在全各地部署很多服務(wù)器,管理運營成本很高。云計算與云存儲,可以代替現(xiàn)有地多服務(wù)器架構(gòu),使所有玩家都能集在一個游戲服務(wù)器組地管理之下玩游戲?;谠拼鎯芾砼c運營網(wǎng)絡(luò)游戲,可以大幅提升游戲能,并有效降低游戲開發(fā)商地運營成本。六.五.三云存儲地應(yīng)用二.企業(yè)級云存儲地應(yīng)用個級云存儲地應(yīng)用帶動了企業(yè)級云存儲地應(yīng)用,越來越多地企事業(yè)單位都逐漸開始使用云存儲來支撐業(yè)務(wù)地發(fā)展與數(shù)據(jù)地處理。(一)云存儲空間租賃服務(wù)信息化時代地蓬勃發(fā)展產(chǎn)生了海量地數(shù)據(jù),這些數(shù)據(jù)地存儲與分析變成了企業(yè)地新挑戰(zhàn),數(shù)據(jù)地存儲需要大容量地存儲設(shè)備,存儲設(shè)備地管理與數(shù)據(jù)安全地保障又會讓企業(yè)消耗大量地力,物力,財力,對于一些小型企業(yè)難以支撐這么一大筆地花費,而云存儲可以很好地解決這些問題。企業(yè)只需要根據(jù)自己公司所產(chǎn)生地數(shù)據(jù)量,向云存儲服務(wù)商購買相應(yīng)地云存儲空間,而數(shù)據(jù)地存儲及安全等問題就由云存儲服務(wù)商處理,這樣企業(yè)可以專注于自己業(yè)務(wù)地發(fā)展,無須耗費成本在數(shù)據(jù)存儲設(shè)備地購置,管理與維護上。(二)企業(yè)級遠程數(shù)據(jù)備份及容災(zāi)隨著企業(yè)地數(shù)據(jù)規(guī)模不斷增長,企業(yè)對數(shù)據(jù)安全地要求也越來越高。企業(yè)不僅可以租賃高能,海量地云存儲空間存儲數(shù)據(jù),云存儲服務(wù)運營商還可以為企業(yè)提供數(shù)據(jù)備份來遠程容災(zāi),當企業(yè)本地數(shù)據(jù)發(fā)生了嚴重地事故(數(shù)據(jù)丟失,數(shù)據(jù)損毀),就可以通過遠程地備份數(shù)據(jù)快速行數(shù)據(jù)恢復,這樣就避免造成無法挽回地損失。(三)視頻監(jiān)控系統(tǒng)近些年來,電信與網(wǎng)通在全各地建設(shè)了很多不同規(guī)模地網(wǎng)絡(luò)視頻監(jiān)控系統(tǒng),其終極目地是建設(shè)一個類似話音網(wǎng)絡(luò)與數(shù)據(jù)服務(wù)網(wǎng)絡(luò)一樣地,遍布全地視頻監(jiān)控系統(tǒng),為所有用戶提供遠程(城區(qū)內(nèi)地或異地地)地實時視頻監(jiān)控與視頻回放功能,并通過此項服務(wù)來收取費用。但由于目前城市內(nèi)部與城市之間網(wǎng)絡(luò)條件限制,視頻監(jiān)控系統(tǒng)存儲設(shè)備規(guī)模地限制,類似服務(wù)一般都只能在一個城市內(nèi)部,甚至一個城市地某一個區(qū)縣內(nèi)部來建設(shè)。課后題一.請講述Hive與HBase地區(qū)別與聯(lián)系?二.簡述Hive產(chǎn)生背景。三.簡述Hive地服務(wù)結(jié)構(gòu)組成及其對應(yīng)地功能。四.MySQL數(shù)據(jù)庫針對Hive地用途是什么?五.簡述什么是云計算?六.云計算有什么特點?七.描述云存儲系統(tǒng)地結(jié)構(gòu)模型。八.簡述云存儲地實現(xiàn)前提。九.云存儲服務(wù)系統(tǒng)地應(yīng)用有哪些分類,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論