第5章-云計算的開源實現(xiàn)Hadoop_第1頁
第5章-云計算的開源實現(xiàn)Hadoop_第2頁
第5章-云計算的開源實現(xiàn)Hadoop_第3頁
第5章-云計算的開源實現(xiàn)Hadoop_第4頁
第5章-云計算的開源實現(xiàn)Hadoop_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第5章云計算的開源實現(xiàn)Hadoop25.1Hadoop概述以MapReduce框架和Hadoop分布式文件系統(tǒng)(HDFS)為核心。同時包含Hive、HBase、Pig、Common、Avro、Chukwa等多個子項目的大數(shù)據(jù)處理平臺。目前基本上已成為MapReduce實現(xiàn)的產(chǎn)業(yè)標準。在互聯(lián)網(wǎng)領(lǐng)域得到了廣泛的應用:Yahoo!百度:搜索日志的分析和網(wǎng)頁數(shù)據(jù)的挖掘工作淘寶:存儲并處理電子商務交易的相關(guān)數(shù)據(jù)35.2Hadoop在云計算和大數(shù)據(jù)

的位置和關(guān)系Hadoop是構(gòu)建云計算環(huán)境的一種分布式框架

HDFS采用了分布式存儲方式,提高了讀寫速度。MapReduce

用以整合分布式文件系統(tǒng)上的數(shù)據(jù)。采用存儲冗余數(shù)據(jù)的方式保證了數(shù)據(jù)的安全性。工業(yè)界大數(shù)據(jù)領(lǐng)域的事實標準業(yè)界的使用和改進迭代進一步完善并推動了Hadoop的發(fā)展。45.3Hadoop生態(tài)系統(tǒng)底層以HDFS和MapReduce為核心,上層為各種存儲、計算、分析等應用系統(tǒng),包括Common、Avro、Chukwa、Hive、HBase、Pig等。5Hadoop生態(tài)系統(tǒng)HDFS:Hadoop分布式文件系統(tǒng),用以實現(xiàn)分布式存儲,是GFS的Java開源實現(xiàn),運行在大型商業(yè)機集群。MapReduce:分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境,運行在大型商業(yè)機集群,能夠處理T級別及以上的數(shù)據(jù)。Hbase:分布式、按列存儲的數(shù)據(jù)庫。HBase使用HDFS作為底層存儲,同時支持MapReuce的批量式計算和隨機讀取。Hive:是為提供簡單的數(shù)據(jù)操作而設計的分布式數(shù)據(jù)倉庫。Hive管理HDFS中存儲的數(shù)據(jù),提供了一種類似SQL語法的HiveQL語言進行數(shù)據(jù)查詢(由運行時引擎翻譯成MapReduce作業(yè))。Pig:大數(shù)據(jù)流處理系統(tǒng),運行在HDFS和MapReduce的集群上,用來執(zhí)行并行計算,檢索大型數(shù)據(jù)集。6Hadoop生態(tài)系統(tǒng)Mahout:基于MapReduce的大規(guī)模數(shù)據(jù)挖掘與機器學習算法庫。Zookeeper:分布式協(xié)調(diào)系統(tǒng),是GoogleChubby的Java開源實現(xiàn),是一種可靠的分布式協(xié)同(coordination)系統(tǒng),可以用來構(gòu)建分布式應用。Flume:一個分布式、可用性高的海量日志收集和傳輸系統(tǒng)。Sqoop:數(shù)據(jù)轉(zhuǎn)換系統(tǒng),Hadoop環(huán)境下連接關(guān)系數(shù)據(jù)庫和Hadoop存儲系統(tǒng)的橋梁:可以將一個關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導入非關(guān)系型數(shù)據(jù)庫中,也可以將非關(guān)系型的數(shù)據(jù)導入關(guān)系型數(shù)據(jù)庫中。Ambari:Hadoop分布式集群配置管理工具,支持Hadoop集群的供應、管理和監(jiān)控。Ambari充分利用一些已有的優(yōu)秀開源軟件,在分布式環(huán)境中實現(xiàn)集群式服務管理、監(jiān)控和展示。7分布式文件系統(tǒng)HDFS主從架構(gòu)模型系統(tǒng),一個HDFS集群由一個Master節(jié)點和多個Slave節(jié)點構(gòu)成。Master節(jié)點:稱為NameNode,用以管理整個文件系統(tǒng)命名空間和客戶端對文件的訪問Slave節(jié)點:稱為DataNode,用于真正存儲數(shù)據(jù)。HDFS的副本存放策略將3個數(shù)據(jù)塊副本(默認配置下)中的兩個存放在同一個機架的不同節(jié)點上,另一個存放在另外一個機架的一個節(jié)點上。在讀取數(shù)據(jù)時,HDFS會盡量讀取離客戶端最近的副本。8分布式數(shù)據(jù)處理MapReduce一種并行計算模型,用于大規(guī)模數(shù)據(jù)集的并行運算。Map函數(shù)把一個輸入的鍵值對<key,value>映射成同樣為<key,value>形式的中間結(jié)果把具有相同key值的value歸納起來形成一個value列表(這個過程稱為Shuffle)并傳遞給reduce函數(shù)reduce函數(shù)對這個value列表進行處理,輸出形式為<key,value>的最終結(jié)果。9分布式數(shù)據(jù)庫HBase構(gòu)建在HDFS之上的面向列的分布式數(shù)據(jù)庫系統(tǒng)。利用HDFS作為其文件存儲系統(tǒng)采用MapReduce框架處理海量數(shù)據(jù)通過ZooKeeper進行集群管理。HBase有別于關(guān)系數(shù)據(jù)庫?;诹械挠成鋽?shù)據(jù)庫,表示簡單的鍵-數(shù)據(jù)的映射關(guān)系只有簡單的字符串類型只提供插入、刪除、查詢、清空等簡單操作,沒有復雜的表和表之間的關(guān)聯(lián)基于列存儲,每一列單獨存放,數(shù)據(jù)就是索引數(shù)據(jù)更新是通過時間戳增加了新的數(shù)據(jù)版本,歷史數(shù)據(jù)仍然會保留可伸縮性,通過簡單的增加節(jié)點進行水平擴展10數(shù)據(jù)倉庫Hive一個基于Hadoop文件系統(tǒng)的開源數(shù)據(jù)倉庫架構(gòu)。定義了類SQL的語言(HQL),通過HQL實現(xiàn)和SQL相似的操作。對存儲在HDFS中的大規(guī)模數(shù)據(jù)進行查詢和分析。Hive有別于關(guān)系數(shù)據(jù)庫。Hive的數(shù)據(jù)存儲在HDFS中Hive沒有定義專門的數(shù)據(jù)格式,只需在定義表的時候指明數(shù)據(jù)中的列分隔符和行分隔符即可Hive不支持對數(shù)據(jù)的改寫和添加,所有數(shù)據(jù)在加載時就確定好Hive中的數(shù)據(jù)查詢是把HQL語句解析,最終轉(zhuǎn)換成MapReduce任務進行處理Hive具有高擴展性11Hive、HBase、HDFS比較125.4Hadoop的行業(yè)應用Hadoop在百度的應用領(lǐng)域:大數(shù)據(jù)挖掘與分析日志分析平臺數(shù)據(jù)倉庫系統(tǒng)用戶行為分析系統(tǒng)廣告平臺等百度的Hadoop集群規(guī)模:超過數(shù)十個集群單集群節(jié)點數(shù)目超過5000臺每天處理的數(shù)據(jù)量超過8000TB。開發(fā)了HCE(HadoopC++ExtendSysterm)系統(tǒng)通過HCE對Streaming作業(yè)的排序、壓縮、解壓縮、內(nèi)存控制進行了優(yōu)化,并提供了C++版的MapReduce接口。13Hadoop的行業(yè)應用Hadoop在阿里的應用領(lǐng)域:數(shù)據(jù)平臺系統(tǒng)、搜索支撐、廣告系統(tǒng)、數(shù)據(jù)魔方、量子統(tǒng)計、淘數(shù)據(jù)、推薦引擎系統(tǒng)等。阿里的Hadoop集群-“云梯”所有數(shù)據(jù)都在云梯上,在集群模式下實現(xiàn)數(shù)據(jù)共享,避免了重復的存儲和計算。自主研發(fā)的數(shù)據(jù)傳輸組件實時傳輸數(shù)據(jù)到Hadoop集群“云梯”,實現(xiàn)數(shù)據(jù)同步。自主研發(fā)了iStream(流式計算引擎)、iCall(基于Thrift的分布式RPC服務)iStream可以自動感知流處理的進度快慢,智能調(diào)整計算節(jié)點的數(shù)量。iStream承擔了流式數(shù)據(jù)處理的角色,為搜索引擎提供實時增量數(shù)據(jù)。MapReduce承擔了全量或者批量數(shù)據(jù)處理的角色,為搜索引擎提供全量數(shù)據(jù)。14Hadoop的行業(yè)應用Hadoop在中國聯(lián)通的應用:構(gòu)建了全國集中的海量數(shù)據(jù)存儲和查詢系統(tǒng)各個省份采集數(shù)據(jù)實時傳送到北京的數(shù)據(jù)中心,實現(xiàn)移動通信用戶上網(wǎng)記錄集中查詢與分析。Hadoop在中國移動的應用-“大云”使用BC-Hadoop在PaaS層部署大數(shù)據(jù)存儲與分析平臺“大云”并行數(shù)據(jù)挖掘工具(BC-PDM)支持SaaS模式的海量數(shù)據(jù)并行處理、分析與挖掘,適用于經(jīng)營決策、用戶行為分析、精

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論