hadoop-技術(shù)基礎(chǔ)學(xué)習(xí)資料_第1頁
hadoop-技術(shù)基礎(chǔ)學(xué)習(xí)資料_第2頁
hadoop-技術(shù)基礎(chǔ)學(xué)習(xí)資料_第3頁
hadoop-技術(shù)基礎(chǔ)學(xué)習(xí)資料_第4頁
hadoop-技術(shù)基礎(chǔ)學(xué)習(xí)資料_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

HADOOPHadoop概述一Hadoop生態(tài)圈Hadoop構(gòu)架主要組成部分及介紹123目錄1Hadoop是一個實現(xiàn)了MapReduce計算模型的開源分布式并行編程框架,程序員可以借助Hadoop編寫程序,將所編寫的程序運行于計算機機群上,從而實現(xiàn)對海量數(shù)據(jù)的處理。Hadoop還提供一個分布式文件系統(tǒng)(HDFS)及分布式數(shù)據(jù)庫(HBase)用來將數(shù)據(jù)存儲或部署到各個計算節(jié)點上。所以,可以大致認為:Hadoop=HDFS(文件系統(tǒng),數(shù)據(jù)存儲技術(shù)相關(guān)) +HBase(數(shù)據(jù)庫) +MapReduce(數(shù)據(jù)處理)Hadoop構(gòu)架分析2Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分31、HadoopHDFS是GoogleGFS存儲系統(tǒng)的開源實現(xiàn),主要應(yīng)用場景是作為并行計算環(huán)境(MapReduce)的基礎(chǔ)組件,同時也是BigTable(如HBase、HyperTable)的底層分布式文件系統(tǒng)。HDFS采用master/slave架構(gòu)。一個HDFS集群是有由一個Namenode和一定數(shù)目的Datanode組成。Namenode是一個中心服務(wù)器,負責(zé)管理文件系統(tǒng)的namespace和客戶端對文件的訪問。Datanode在集群中一般是一個節(jié)點一個,負責(zé)管理節(jié)點上它們附帶的存儲。在內(nèi)部,一個文件其實分成一個或多個block,這些block存儲在Datanode集合里。Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分32、HadoopMapReduce是一個使用簡易的軟件框架,基于它寫出來的應(yīng)用程序能夠運行在由上千個商用機器組成的大型集群上,并以一種可靠容錯的方式并行處理上TB級別的數(shù)據(jù)集。

一個MapReduce作業(yè)(job)通常會把輸入的數(shù)據(jù)集切分為若干獨立的數(shù)據(jù)塊,由Map任務(wù)(task)以完全并行的方式處理它們。

框架會對Map的輸出先進行排序,然后把結(jié)果輸入給Reduce任務(wù)。通常作業(yè)的輸入和輸出都會被存儲在文件系統(tǒng)中。整個框架負責(zé)任務(wù)的調(diào)度和監(jiān)控,以及重新執(zhí)行已經(jīng)失敗的任務(wù)。Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分33、Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,處理能力強而且成本低廉。主要特點:

存儲方式是將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表。提供類SQL語言,實現(xiàn)完整的SQL查詢功能??梢詫QL語句轉(zhuǎn)換為MapReduce任務(wù)運行,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分34、HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,它不同于一般的關(guān)系數(shù)據(jù)庫,是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。

另一個不同的是HBase基于列的而不是基于行的模式。

HBase使用和BigTable非常相同的數(shù)據(jù)模型。用戶存儲數(shù)據(jù)行在一個表里。一個數(shù)據(jù)行擁有一個可選擇的鍵和任意數(shù)量的列,一個或多個列組成一個ColumnFamily,一個Fmaily下的列位于一個HFile中,易于緩存數(shù)據(jù)。

表是疏松的存儲的,因此用戶可以給行定義各種不同的列。在HBase中數(shù)據(jù)按主鍵排序,同時表按主鍵劃分為多個Hregion。Hadoop使用二登陸Hadoop集群Hadoop建表數(shù)據(jù)查詢及導(dǎo)出Hadoop的hdfs命令1234目錄2HOSTNAME133.128.88.200PORT22USERNAMEhadoop1登錄hadoop集群或者通過其他機器跳轉(zhuǎn)到133.128.88.200下sshhadoop@hadoop-m01或sshhadoop@133.128.88.200鍵入回車,輸入密碼。通過hive命令登陸數(shù)據(jù)庫showdatabases;顯示當(dāng)前的所有數(shù)據(jù)庫(同oracle數(shù)據(jù)庫的用戶);1usedw;切換數(shù)據(jù)庫;登錄hadoop集群showfunctions;顯示所有的函數(shù);showtables;查看當(dāng)前數(shù)據(jù)庫下所有的表;showtables'*tg*';模糊匹配當(dāng)前數(shù)據(jù)庫下所有的表;CREATEEXTERNALTABLE`tg_cdr_noinfo_fix_d`(

`call_duration`int,`otherfee`double,`source_type`string,`cycle_tag`string)PARTITIONEDBY(`day_part`string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'LOCATION'hdfs://beh/data/stage2/tg_cdr_noinfo_fix_d'TBLPROPERTIES('last_modified_by'='hadoop','last_modified_time'='1464585329','transient_lastDdlTime'='1464585329')創(chuàng)建外部表2Hadoop建表字段類型表名表分區(qū)CREATETABLE`dwa_v_d_cus_cb_sing_use_add`(

`day_id`stringCOMMENT'日期',`area_id`stringCOMMENT'地市',`city_id`stringCOMMENT'區(qū)縣',`user_id`stringCOMMENT'訂購實例標識',`toll_nums`doubleCOMMENT'本地長途次數(shù)',`use_status`stringCOMMENT'用戶使用類型dim.dim_4G_use_status')COMMENT'cBSS業(yè)務(wù)單用戶累計使用衍生信息(日)(從入網(wǎng)開始)'PARTITIONEDBY(`day_part`string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.RCFileInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'LOCATION'hdfs://beh/user/hive/warehouse/dw.db/dwa_v_d_cus_cb_sing_use_add'TBLPROPERTIES('transient_lastDdlTime'='1461115949');創(chuàng)建表2Hadoop建表字段類型及注釋表名表注釋表分區(qū)表的相關(guān)命令showcreatetabledw.dwa_v_d_cus_cb_sing_use_add;查詢建表腳本;3showpartitionsdw.dw_v_u_k_cdr_gprs_cb;查看表分區(qū)數(shù)據(jù)查詢及導(dǎo)出select*fromdw.dw_v_u_k_cdr_gprs_cbwhereday_part='20160101'limit1;查詢數(shù)據(jù)insertoverwritetabledim.dim_cbss_deposit清表插入數(shù)據(jù)insertintotable插入數(shù)據(jù)insertoverwritetabledw.dw_v_deposit_info_cbpartition(day_part='$v_day');插入分區(qū)3數(shù)據(jù)查詢及導(dǎo)出導(dǎo)出方法一:insertoverwritelocalDIRECTORY'$check_log_dir'ROWFORMATDELIMITEDFIELDSTERMINATEDBY'$v_split'select$v_column_listfrom$v_tabletwhere$v_part='$v_date';\"">$v_hqlsh$v_hql2>&1|tee$v_export_log>>/dev/null導(dǎo)出方法二:hive-S-e"select1;">$directoryHadoop查看目錄空間使用情況

命令:hadoopfs-count[-q]<paths>

統(tǒng)計出目錄數(shù)、文件數(shù)及指定路徑下文件的大小,輸出列為:DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.

帶上-q選項后的輸出列為:QUOTA,REMAINING_QUATA,SPACE_QUOTA,REMAINING_SPACE_QUOTA,DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.4Haoop的hdfs命令Hdfs相關(guān)命令hadoopfs–ls/

列出當(dāng)前目錄有哪些子目錄,有哪些文件。4hadoopfs-count/Haoop的hdfs命令hadoop

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論