項(xiàng)目11 Sqoop安裝部署_第1頁
項(xiàng)目11 Sqoop安裝部署_第2頁
項(xiàng)目11 Sqoop安裝部署_第3頁
項(xiàng)目11 Sqoop安裝部署_第4頁
項(xiàng)目11 Sqoop安裝部署_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Hadoop大數(shù)據(jù)技術(shù)——Sqoop安裝部署Sqoop概述ApacheSqoop(SQL-to-Hadoop)項(xiàng)目旨在協(xié)助RDBMS與Hadoop之間進(jìn)行高效的大數(shù)據(jù)遷移。用戶可以在Sqoop的幫助下,輕松地將RDBMS中的數(shù)據(jù)導(dǎo)入到Hadoop或者與其相關(guān)的系統(tǒng)(如HBase和Hive)中;同時也可以將數(shù)據(jù)從Hadoop系統(tǒng)導(dǎo)出到RDBMS。因此,可以說Sqoop就是一個橋梁,連接了RDBMS與Hadoop。湖南軟件職業(yè)技術(shù)大學(xué)Sqoop的優(yōu)勢湖南軟件職業(yè)技術(shù)大學(xué)Sqoop可以高效地、可控地利用資源,可以通過調(diào)整任務(wù)數(shù)來控制任務(wù)的并發(fā)度。另外它還可以配置數(shù)據(jù)庫的訪問時間。Sqoop可以自動地完成數(shù)據(jù)庫與Hadoop系統(tǒng)中數(shù)據(jù)類型的映射與轉(zhuǎn)換。Sqoop支持多種數(shù)據(jù)庫,比如,MySQL、Oracle和PostgreSQL等數(shù)據(jù)庫。Sqoop架構(gòu)及工作機(jī)制湖南軟件職業(yè)技術(shù)大學(xué)SqoopImport流程湖南軟件職業(yè)技術(shù)大學(xué)SqoopExport流程湖南軟件職業(yè)技術(shù)大學(xué)HBase邏輯模型表HBase

是一種列式存儲的分布式數(shù)據(jù)庫,其核心概念是表(Table)。與傳統(tǒng)關(guān)系型數(shù)據(jù)庫一樣,HBase

的表也是由行和列組成,但

HBase

同一列可以存儲不同時刻的值,同時多個列可以組成一個列簇(ColumnFamily),這種組織形式主要是出于HBase存取性能的考慮。行健Rowkey

既是

HBase

表的行鍵,也是

HBase

表的主鍵。HBase

表中的記錄是按照RowKey的字典順序進(jìn)行存儲的。在HBase中,為了高效地檢索數(shù)據(jù),需要設(shè)計(jì)良好的Rowkey來提高查詢性能。因?yàn)镽owkey

會被冗余存儲,所以長度不宜過長,Rowkey

過長將會占用大量的存儲空間同時會降低檢索效率。其次

Rowkey

應(yīng)該盡量均勻分布,避免產(chǎn)生熱點(diǎn)問題(大量用戶訪問集中在一個或極少數(shù)節(jié)點(diǎn),從而造成單臺節(jié)點(diǎn)超出自身承受能力)。另外需要保證Rowkey的唯一性。湖南軟件職業(yè)技術(shù)大學(xué)HBase邏輯模型列簇HBase表中的每個列都?xì)w屬于某個列簇,一個列簇中的所有列成員有著相同的前綴。比如,列anchor:和anchor:my.look.ca都是列簇anchor的成員。列簇是表的schema的一部分,必須在使用表之前定義列簇,但列卻不是必需的,寫數(shù)據(jù)的時候可以動態(tài)加入。一般將經(jīng)常一起查詢的列放在一個列簇中,合理劃分列簇將減少查詢時加載到緩存的數(shù)據(jù),提高查詢效率,但也不能有太多的列簇,因?yàn)榭缌写卦L問是非常低效的。單元格HBase中通過RowKey和Column確定的一個存儲單元稱為單元格(Cell)。每個單元格都保存著同一份數(shù)據(jù)的多個版本,不同時間版本的數(shù)據(jù)按照時間順序倒序排序,最新時間的數(shù)據(jù)排在最前面,時間戳是

64

位的整數(shù),可以由客戶端在寫入數(shù)據(jù)時賦值,也可以由RegionServer自動賦值。湖南軟件職業(yè)技術(shù)大學(xué)HBase物理模型湖南軟件職業(yè)技術(shù)大學(xué)HBase物理模型湖南軟件職業(yè)技術(shù)大學(xué)HBase物理模型湖南軟件職業(yè)技術(shù)大學(xué)HBase物理模型湖南軟件職業(yè)技術(shù)大學(xué)HBase基本構(gòu)架湖南軟件職業(yè)技術(shù)大學(xué)湖南軟件職業(yè)技術(shù)大學(xué)HBaseshell操作HBaseshell操作1.創(chuàng)建course表hbase(main):002:0>create'course','cf'2.查看HBase所有表hbase(main):003:0>list3.查看course表結(jié)構(gòu)hbase(main):004:0>describe'course'4.向course表插入數(shù)據(jù)hbase(main):005:0>put'course','001','cf:cname','hbase'hbase(main):006:0>put'course','001','cf:score','95'hbase(main):007:0>put'course','002','cf:cname','sqoop'hbase(main):008:0>put'course','002','cf:score','85'hbase(main):009:0>put'course','003','cf:cname','flume'hbase(main):010:0>put'course','003','cf:score','98'湖南軟件職業(yè)技術(shù)大學(xué)HBaseshell操作5.查詢course表中的所有數(shù)據(jù)hbase(main):011:0>scan'course'6.根據(jù)行鍵查詢course表(1)查詢整條記錄hbase(main):012:0>get'course','001'(2)查詢一個列簇數(shù)據(jù)hbase(main):013:0>get'course','001','cf'(3)查詢列簇中其中的一個列hbase(main):014:0>get'course','001','cf:cname'7.更新course表數(shù)據(jù)hbase(main):015:0>put'course','001','cf:score','99'hbase(main):016:0>get'course','001','cf'8.查詢course表總記錄hbase(main):017:0>count'course'湖南軟件職業(yè)技術(shù)大學(xué)HBaseshell操作9.刪除course表數(shù)據(jù)(1)刪除列簇中的一個列hbase(main):021:0>delete'course','003','cf:score'(2)刪除整行記錄hbase(main):022:0>deleteall'course','002'hbase(main):023:0>scan'course'10.清空course表hbase(main):024:0>truncate'course'hbase(main):025:0>scan'course'11.刪除cou

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論