




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
HADOOPHadoop概述一Hadoop生態(tài)圈Hadoop構(gòu)架主要組成部分及介紹123目錄1Hadoop是一個實現(xiàn)了MapReduce計算模型的開源分布式并行編程框架,程序員可以借助Hadoop編寫程序,將所編寫的程序運行于計算機機群上,從而實現(xiàn)對海量數(shù)據(jù)的處理。Hadoop還提供一個分布式文件系統(tǒng)(HDFS)及分布式數(shù)據(jù)庫(HBase)用來將數(shù)據(jù)存儲或部署到各個計算節(jié)點上。所以,可以大致認為:Hadoop=HDFS(文件系統(tǒng),數(shù)據(jù)存儲技術(shù)相關(guān)) +HBase(數(shù)據(jù)庫) +MapReduce(數(shù)據(jù)處理)Hadoop構(gòu)架分析2Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分31、HadoopHDFS是GoogleGFS存儲系統(tǒng)的開源實現(xiàn),主要應(yīng)用場景是作為并行計算環(huán)境(MapReduce)的基礎(chǔ)組件,同時也是BigTable(如HBase、HyperTable)的底層分布式文件系統(tǒng)。HDFS采用master/slave架構(gòu)。一個HDFS集群是有由一個Namenode和一定數(shù)目的Datanode組成。Namenode是一個中心服務(wù)器,負責(zé)管理文件系統(tǒng)的namespace和客戶端對文件的訪問。Datanode在集群中一般是一個節(jié)點一個,負責(zé)管理節(jié)點上它們附帶的存儲。在內(nèi)部,一個文件其實分成一個或多個block,這些block存儲在Datanode集合里。Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分32、HadoopMapReduce是一個使用簡易的軟件框架,基于它寫出來的應(yīng)用程序能夠運行在由上千個商用機器組成的大型集群上,并以一種可靠容錯的方式并行處理上TB級別的數(shù)據(jù)集。
一個MapReduce作業(yè)(job)通常會把輸入的數(shù)據(jù)集切分為若干獨立的數(shù)據(jù)塊,由Map任務(wù)(task)以完全并行的方式處理它們。
框架會對Map的輸出先進行排序,然后把結(jié)果輸入給Reduce任務(wù)。通常作業(yè)的輸入和輸出都會被存儲在文件系統(tǒng)中。整個框架負責(zé)任務(wù)的調(diào)度和監(jiān)控,以及重新執(zhí)行已經(jīng)失敗的任務(wù)。Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分33、Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,處理能力強而且成本低廉。主要特點:
存儲方式是將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表。提供類SQL語言,實現(xiàn)完整的SQL查詢功能??梢詫QL語句轉(zhuǎn)換為MapReduce任務(wù)運行,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分34、HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,它不同于一般的關(guān)系數(shù)據(jù)庫,是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。
另一個不同的是HBase基于列的而不是基于行的模式。
HBase使用和BigTable非常相同的數(shù)據(jù)模型。用戶存儲數(shù)據(jù)行在一個表里。一個數(shù)據(jù)行擁有一個可選擇的鍵和任意數(shù)量的列,一個或多個列組成一個ColumnFamily,一個Fmaily下的列位于一個HFile中,易于緩存數(shù)據(jù)。
表是疏松的存儲的,因此用戶可以給行定義各種不同的列。在HBase中數(shù)據(jù)按主鍵排序,同時表按主鍵劃分為多個Hregion。Hadoop使用二登陸Hadoop集群Hadoop建表數(shù)據(jù)查詢及導(dǎo)出Hadoop的hdfs命令1234目錄2HOSTNAME133.128.88.200PORT22USERNAMEhadoop1登錄hadoop集群或者通過其他機器跳轉(zhuǎn)到133.128.88.200下sshhadoop@hadoop-m01或sshhadoop@133.128.88.200鍵入回車,輸入密碼。通過hive命令登陸數(shù)據(jù)庫showdatabases;顯示當(dāng)前的所有數(shù)據(jù)庫(同oracle數(shù)據(jù)庫的用戶);1usedw;切換數(shù)據(jù)庫;登錄hadoop集群showfunctions;顯示所有的函數(shù);showtables;查看當(dāng)前數(shù)據(jù)庫下所有的表;showtables'*tg*';模糊匹配當(dāng)前數(shù)據(jù)庫下所有的表;CREATEEXTERNALTABLE`tg_cdr_noinfo_fix_d`(
`call_duration`int,`otherfee`double,`source_type`string,`cycle_tag`string)PARTITIONEDBY(`day_part`string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'LOCATION'hdfs://beh/data/stage2/tg_cdr_noinfo_fix_d'TBLPROPERTIES('last_modified_by'='hadoop','last_modified_time'='1464585329','transient_lastDdlTime'='1464585329')創(chuàng)建外部表2Hadoop建表字段類型表名表分區(qū)CREATETABLE`dwa_v_d_cus_cb_sing_use_add`(
`day_id`stringCOMMENT'日期',`area_id`stringCOMMENT'地市',`city_id`stringCOMMENT'區(qū)縣',`user_id`stringCOMMENT'訂購實例標識',`toll_nums`doubleCOMMENT'本地長途次數(shù)',`use_status`stringCOMMENT'用戶使用類型dim.dim_4G_use_status')COMMENT'cBSS業(yè)務(wù)單用戶累計使用衍生信息(日)(從入網(wǎng)開始)'PARTITIONEDBY(`day_part`string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.RCFileInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'LOCATION'hdfs://beh/user/hive/warehouse/dw.db/dwa_v_d_cus_cb_sing_use_add'TBLPROPERTIES('transient_lastDdlTime'='1461115949');創(chuàng)建表2Hadoop建表字段類型及注釋表名表注釋表分區(qū)表的相關(guān)命令showcreatetabledw.dwa_v_d_cus_cb_sing_use_add;查詢建表腳本;3showpartitionsdw.dw_v_u_k_cdr_gprs_cb;查看表分區(qū)數(shù)據(jù)查詢及導(dǎo)出select*fromdw.dw_v_u_k_cdr_gprs_cbwhereday_part='20160101'limit1;查詢數(shù)據(jù)insertoverwritetabledim.dim_cbss_deposit清表插入數(shù)據(jù)insertintotable插入數(shù)據(jù)insertoverwritetabledw.dw_v_deposit_info_cbpartition(day_part='$v_day');插入分區(qū)3數(shù)據(jù)查詢及導(dǎo)出導(dǎo)出方法一:insertoverwritelocalDIRECTORY'$check_log_dir'ROWFORMATDELIMITEDFIELDSTERMINATEDBY'$v_split'select$v_column_listfrom$v_tabletwhere$v_part='$v_date';\"">$v_hqlsh$v_hql2>&1|tee$v_export_log>>/dev/null導(dǎo)出方法二:hive-S-e"select1;">$directoryHadoop查看目錄空間使用情況
命令:hadoopfs-count[-q]<paths>
統(tǒng)計出目錄數(shù)、文件數(shù)及指定路徑下文件的大小,輸出列為:DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.
帶上-q選項后的輸出列為:QUOTA,REMAINING_QUATA,SPACE_QUOTA,REMAINING_SPACE_QUOTA,DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.4Haoop的hdfs命令Hdfs相關(guān)命令hadoopfs–ls/
列出當(dāng)前目錄有哪些子目錄,有哪些文件。4hadoopfs-count/Haoop的hdfs命令hadoop
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025廣東肇慶市端文文化旅游投資有限公司招聘2人筆試模擬試題及答案解析
- 讀《自由在高處》有感
- 二年級數(shù)學(xué)100以內(nèi)三數(shù)加減法混合運算題單元監(jiān)控模擬題
- 配件銷售顧問培訓(xùn)
- 造口護理培訓(xùn)課件
- 量的排序數(shù)學(xué)教育
- 路易體癡呆的護理
- 汽車線束生產(chǎn)工藝規(guī)范-編制說明(征求意見稿)
- 人教寧夏 九年級 下冊 語文 第六單元《 單元寫作 有創(chuàng)意地表達》習(xí)題課 課件
- 二年級數(shù)學(xué)(下冊)脫式計算練習(xí)試題
- 《電加熱熔鹽儲能熱力站技術(shù)標準》
- 《ArcGIS應(yīng)用基礎(chǔ)》課件
- 滬教版英語小學(xué)六年級上學(xué)期期末試題與參考答案(2024-2025學(xué)年)
- 新教材 人教版高中化學(xué)選擇性必修2全冊各章節(jié)學(xué)案(知識點考點精講及配套習(xí)題)
- 服務(wù)項目質(zhì)量保障體系及措施
- 電子商務(wù)論文3篇(含目錄)
- 炸藥庫防盜、防搶應(yīng)急預(yù)案
- 急流救援培訓(xùn)基地建設(shè)規(guī)范
- 2024年學(xué)生魔方比賽活動方案
- 國家基本醫(yī)療保險和工傷保險藥品目錄(2004年版)
- 蘇州市2025屆高三期初陽光調(diào)研(零模)政治試卷(含答案)
評論
0/150
提交評論