版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數據平臺介紹,大數據 二零一五年七月,1,全面分析,2,目錄,Hadoop大數據生態(tài)圈介紹,大數據應用介紹,3,Cloudera Manager介紹,2,Hadoop大數據生態(tài)圈,3,全面分析,Hadoop生態(tài)圈,4,Hadoop簡介,Hadoop一個分布式系統(tǒng)基礎架構,由Apache基金會開發(fā)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運算和存儲 。簡單地說來,Hadoop是一個可以更容易開發(fā)和運行處理大規(guī)模數據的軟件平臺。 Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據
2、提供了計算,5,Hadoop能解決哪些問題,海量數據需要及時分析和處理。 海量數據需要深入分析和挖掘。 數據需要長期保存 問題: 磁盤IO成為一種瓶頸,而非CPU資源。 網絡帶寬是一種稀缺資源 硬件故障成為影響穩(wěn)定的一大因素,6,HDFS適應條件,HDFS:為以流式數據訪問模式存儲超大文件而設計的文件系統(tǒng)。 流式數據訪問 指的是幾百MB,幾百GB,幾百TB,甚至幾百PB 流式數據訪問 HDFS建立的思想是:一次寫入、多次讀取模式是最高 效的。 商用硬件 hadoop不需要運行在昂貴并且高可靠的硬件上,7,HDFS不適應條件,低延遲數據訪問 HDFS是為了達到高數據吞吐量而優(yōu)化的,這是以延遲為代
3、價的,對于低延遲訪問,可以用Hbase(hadoop的子項目)。 大量的小文件 多用戶寫入,任意修改,8,HDFS基本單元,Block(塊):HDFS基本儲存單元,是個邏輯單元。一個文件有可能包含多個塊,一個塊有可以包含多個文件,由文件的大小和塊大小的參數決定。dfs.block.size參數。Hdfs中Block的大小,默認64MB,如果設置大,就會有可能導致Map運行慢,設置小,有可能導致Map個數多,所有一定要設置適當。(目前主流機器建議設置為128M) 設置一個Block 64MB,如果上傳文件小于該值,仍然會占用一個Block的命名空間(NameNode metadata),但是物理
4、存儲上不會占用64MB的空間 Block大小和副本數由Client端上傳文件到HDFS時設置,其中副本數可以變更,Block是不可以再上傳后變更的,9,HDFS處理機制,Client:切分文件;訪問HDFS;與NameNode交互,獲取文件位置信息;與DataNode交互,讀取和寫入數據。 NameNode:Master節(jié)點,管理HDFS的名稱空間和數據塊映射信息,配置副本策略,處理客戶端請求。 DataNode:Slave節(jié)點,存儲實際的數據,匯報存儲信息給NameNode。 Secondary NameNode:輔助NameNode,分擔其工作量;定期合并fsimage和fsedits,推
5、送給NameNode;緊急情況下,可輔助恢復NameNode,但Secondary NameNode并非NameNode的熱備,10,HDFS文件讀取,11,MapReduce簡介,簡介 MapReduce 是一個高性能的批處理分布式計算框架,用于對海量數據進行并行分析和處理。 MapReduce 將分析任務分為大量的并行 Map 任務和 Reduce 任務兩類。 與傳統(tǒng)數據倉庫和分析技術相比,MapReduce 適合處理各種類型的數據,包括結構化、半結構化和非結構化數據。 結構化、半結構化、非結構化數據 結構化數據(即行數據,存儲在數據庫里,可以用二維表結構來邏輯表達實現的數據) 不方便用數
6、據庫二維邏輯表來表現的數據即稱為非結構化數據(包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等) 所謂半結構化數據,就是介于完全結構化數據(如關系型數據庫、面向對象數據庫中的數據)和完全無結構的數據(如聲音、圖像文件等)之間的數據,HTML文檔就屬于半結構化數據。它一般是自描述的,數據的結構和內容混在一起,沒有明顯的區(qū)分,12,MapReduce簡介,適合處理的任務 適用于離線批處理任務 是以“行”為處理單位的,無法回溯已處理過的“行”,故每行都必須是一個獨立的語義單元,行與行之間不能有語義上的關聯(lián)。 相對于傳統(tǒng)的關系型數據庫管理系統(tǒng),MapReduce
7、計算模型更適合于處理半結構化或無結構話的數據。 不適合處理的任務 不適合一般web應用 不適合實時響應的任務 不適合小數據集的處理 不適合需要大量臨時空間的任務 不適合CPU密集且具有許多交叉調用的任務,13,MapReduce工作原理,MapReduce執(zhí)行流程 MapReduce角色 Client :作業(yè)提交發(fā)起者。 JobTracker: 初始化作業(yè),分配作業(yè),與TaskTracker通信,協(xié)調整個作業(yè)。 TaskTracker:保持JobTracker通信,在分配的數據片段上執(zhí)行MapReduce任務。 任務的分配 TaskTracker和JobTracker之間的通信與任務的分配是通
8、過心跳機制完成的。 TaskTracker會主動向JobTracker詢問是否有作業(yè)要做,如果自己可以做,那么就會申請到作業(yè)任務,這個任務可以使Map也可能是Reduce任務,14,MapReduce工作原理,任務的執(zhí)行 申請到任務后,TaskTracker會做如下事情: 拷貝代碼到本地 拷貝任務的信息到本地 啟動JVM運行任務 狀態(tài)與任務的更新 任務在運行過程中,首先會將自己的狀態(tài)匯報給TaskTracker,然后由TaskTracker匯總告之JobTracker。 作業(yè)的完成 JobTracker是在接受到最后一個任務運行完成后,才會將任務標志為成功。 此時會做刪除中間結果等善后處理工作
9、,15,MapReduce工作原理,16,Hadoop實例,根據URL的頂級域名進行分類統(tǒng)計 輸入、輸出格式:文件 源文件格式如下: 統(tǒng)計目標,17,Hadoop實例,1. 編寫MapReduce函數,客戶端作業(yè) Map函數,18,Hadoop實例,Reduce函數 Job設置,19,Hadoop實例,編譯、打包成jar文件 略 3. 源文件提交到HDFS文件系統(tǒng) 文件從本地提交到HDFS文件系統(tǒng)put命令 查看HDFS文件系統(tǒng)中已提交的文件,20,Hadoop實例,使用Hadoop命令提交作業(yè) 提交作業(yè) 查看作業(yè) http:/localhost:50030,21,Hadoop實例,查看執(zhí)行結
10、果 查看執(zhí)行結果生成的文件 查看HDFS文件系統(tǒng)中的結果 HDFS文件拷貝到本地,查看結果,22,Hive簡介,Hive是什么 hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。其優(yōu)點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應用,十分適合數據倉庫的統(tǒng)計分析。 Hive是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Ha
11、doop 中的大規(guī)模數據的機制。Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數據。同時,這個語言也允許熟悉 MapReduce 開發(fā)者的開發(fā)自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的復雜的分析工作,23,Hive實例,創(chuàng)建托管表 1. 在Hive命令行執(zhí)行建表語句 2. 查看元數據庫中的表信息、字段信息sds、columns_v2,24,Hive實例,3. 從本地向net_addr_1表中導入數據 4. 查看導入的數據,25,Hive實例,根據URL的頂級域名進行分類統(tǒng)計-Hive實現 1.
12、 源數據入表略,使用已生成的net_addr_1 2. 源數據加工轉換,生成中間表 INSERT OVERWRITE TABLE net_addr_3 select net_id,regexp_replace(net_url,(.+.), ) from net_addr_1; 3. 根據中間表數據進行統(tǒng)計,26,Hbase簡介,HBase是一個針對結構化數據的可伸縮、高可靠、高性能、分布式和面向列的動態(tài)模式數據庫。和傳統(tǒng)關系數據庫不同,HBase采用了BigTable的數據模型:增強的稀疏排序映射表(Key/Value),其中,鍵由行關鍵字、列關鍵字和時間戳構成。HBase提供了對大規(guī)模數據的
13、隨機、實時讀寫訪問,同時,HBase中保存的數據可以使用MapReduce來處理,它將數據存儲和并行計算完美地結合在一起。利用HBase技術可在廉價PC Server上搭建起大規(guī)模結構化存儲集群,27,Hbase架構,28,Hbase實例,1、構建Hbase表hbase_test hbase create hbase_test, id01 2、構建hive外表hive_test, 并對應hbase_test表 CREATE EXTERNAL TABLE hive_test (id01 STRING) STORED BY org.apache.hadoop.hive.hbase.HBaseSto
14、rageHandler WITH SERDEPROPERTIES (hbase.columns.mapping = :key,id01) TBLPROPERTIES( = hbase_test); 3、數據通過hive_test導入到hbase_test表中 INSERT OVERWRITE TABLE hive_test SELECT id01 FROM hive_date,29,Hbase實例,30,大數據應用介紹,31,全面分析,用戶上網行為分析系統(tǒng),32,用戶行為分析系統(tǒng)數據處理流程圖,33,唯品會日志處理框架簡介,34,唯品會日志處理框架簡介,35,全
15、國重點車輛聯(lián)網聯(lián)控平臺,36,Cloudera Manager介紹,37,全面分析,Cloudera Manager介紹,CDH (Clouderas Distribution, including Apache Hadoop),是Hadoop眾多分支中的一種,由Cloudera維護,基于穩(wěn)定版本的Apache Hadoop構建,并集成了很多補丁,可直接用于生產環(huán)境。 Cloudera Manager則是為了便于在集群中進行Hadoop等大數據處理相關的服務安裝和監(jiān)控管理的組件,對集群中主機、Hadoop、Hive、Hbase、Spark等服務的安裝配置管理做了極大簡化。 Cloudera M
16、anager有四大功能 (1)管理 (2)監(jiān)控 (3)診斷 (4)集成,38,Cloudera Manager介紹,Cloudera Flume Flume是Cloudera提供的日志收集系統(tǒng),Flume支持在日志系統(tǒng)中定制各類數據發(fā)送方,用于收集數據; Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統(tǒng),Flume支持在日志系統(tǒng)中定制各類數據發(fā)送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力,39,Cloudera Manager介紹,Cloudera Impala Cloudera Impala對
17、你存儲在Apache Hadoop在HDFS,HBase的數據提供直接查詢互動的SQL。除了像Hive使用相同的統(tǒng)一存儲平臺,Impala也使用相同的元數據,SQL語法(Hive SQL),ODBC驅動程序和用戶界面(Hue Beeswax)。Impala還提供了一個熟悉的面向批量或實時查詢和統(tǒng)一平臺。 Impala不再使用緩慢的Hive+MapReduce批處理,而是通過與商用并行關系數據庫中類似的分布式查詢引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分組成),可以直接從HDFS或者HBase中用SELECT、JOIN和統(tǒng)計函
18、數查詢數據,從而大大降低了延遲,40,Cloudera Manager介紹,Cloudera hue Hue是cdh專門的一套web管理器,它包括3個部分hue ui,hue server,hue db。hue提供所有的cdh組件的shell界面的接口。你可以在hue編寫mr,查看修改hdfs的文件,管理hive的元數據,運行Sqoop,編寫Oozie工作流等大量工作,41,Cloudera Manager介紹,Spark Spark與Hadoop一樣,用于構建大規(guī)模、低延時的數據分析應用。Spark采用Scala語言實現,使用Scala作為應用框架。Spark采用基于內存的分布式數據集,優(yōu)化了迭代式的工作負載以及交互式查詢。與Hadoop不同的是,Spark和Scala緊密集 成,Scala像管理本地collective對象那樣管理分布式數據集。Spark支持分布式數據集上的迭代式任務,實際上可以在Hadoop文件系統(tǒng) 上與Hadoop一起運行 Spark基于map reduce算法實現的分布式計算,擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二四年度智能化煤場租賃經營合同3篇
- 職業(yè)技術學院教學診斷與改進學習手冊
- 產褥期母嬰的護理主講人趙國璽
- 二零二五年度土地承包經營權抵押合同范本編制
- 2025年度農家院農產品銷售合作租賃合同范本4篇
- 課題申報參考:明清近代文人圈層化及思想傾向、審美感知研究
- 2025年度個人與公司租賃保證金合同3篇
- 二零二五年度工器具庫存管理及采購合同3篇
- 二零二五年度高端住宅內墻涂料個性化定制合同4篇
- 江蘇省啟東市匯龍中學2013屆高三高考考前輔導語文試題(含答案)
- 發(fā)電機停電故障應急預案
- 接電的施工方案
- 常用藥物作用及副作用課件
- 幼兒阿拉伯數字描紅(0-100)打印版
- 社會組織等級評估報告模板
- GB/T 12173-2008礦用一般型電氣設備
- 2023年1月浙江高考英語聽力試題及答案(含MP3+錄音原文)
- 【課件】第三課 蒙娜麗莎 課件高中美術湘美版美術鑒賞
- 新媒體研究方法教學ppt課件(完整版)
- 東芝空調維修故障代碼匯總
- 工藝管道儀表流程圖(共68頁).ppt
評論
0/150
提交評論