版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、2015.6.15基于Hadoop的大數(shù)據(jù)處理關鍵技術綜述大數(shù)據(jù)背景介紹ContentHadoop定義、特特點大數(shù)據(jù)對系系統(tǒng)的需需求、大大數(shù)據(jù)和和云計算算的關系系大數(shù)據(jù)市場場分析大數(shù)據(jù)處理理的技術術關鍵12Hadoop原理、優(yōu)優(yōu)點Hadoop體系架構(gòu)構(gòu)Hadoop核心設計計:MapReduce、HDFS大數(shù)據(jù)背景介紹1定義為了更為為經(jīng)濟的的從高頻頻率獲取取的、大容量的的、不同同結(jié)構(gòu)和和類型的的數(shù)據(jù)中中獲取價價值,而設計的新一代代架構(gòu)和和技術特點大數(shù)據(jù)對對系統(tǒng)的的需求大數(shù)據(jù)和和云計算算的關系系High performance 高并發(fā)讀讀寫的需需求高并發(fā)、實時動動態(tài)獲取取和更新新數(shù)據(jù)Huge St
2、orage海量數(shù)據(jù)據(jù)的高效效率存儲儲和訪問問的需求求類似SNS網(wǎng)站,海海量用戶戶信息的的高效率率實時存存儲和查查詢High Scalability & HighAvailability 高可擴展展性和高高可用性性的需求求需要擁有有快速橫橫向擴展展能力、提供7*24小時不間間斷服務務云計算改改變了IT,而大數(shù)據(jù)據(jù)則改變變了業(yè)務務云計算是是大數(shù)據(jù)據(jù)的IT基礎,大數(shù)據(jù)須須有云計計算作為為基礎架架構(gòu),才才能高效效運行通過大數(shù)數(shù)據(jù)的業(yè)業(yè)務需求求,為云云計算的的落地找找到了實實際應用用大數(shù)據(jù)市市場分析析2011年是中國國大數(shù)據(jù)據(jù)市場元元年,一一些大數(shù)數(shù)據(jù)產(chǎn)品品已經(jīng)推推出,部部分行業(yè)業(yè)也有大大數(shù)據(jù)應應用案例
3、例的產(chǎn)生生。2012年-2016年,將迎迎來大數(shù)數(shù)據(jù)市場場的飛速速發(fā)展。2012年中國大大數(shù)據(jù)市市場規(guī)模模達到4.7億元,2013年大數(shù)據(jù)據(jù)市場將將迎來增增速為138.3%的飛躍,到2016年,整個個市場規(guī)規(guī)模逼近近百億。政府、互互聯(lián)網(wǎng)、電信、金融的的大數(shù)據(jù)據(jù)市場規(guī)規(guī)模較大大,四個個行業(yè)將將占據(jù)一一半市場場份額。由于各個個行業(yè)都都存在大大數(shù)據(jù)應應用需求求,潛在在市場空空間非常??捎^。大數(shù)據(jù)處處理的技技術關鍵鍵分析技術術:數(shù)據(jù)處理理:自然然語言處處理技術術;統(tǒng)計和分分析:地地域占比比,文本本情感分分析,A/Btest,topN排行榜;數(shù)據(jù)挖掘掘:建模模,聚類類,分類類,排名名;模型預測測:預測測
4、模型,機器學學習,建建模仿真真。存儲技術術:結(jié)構(gòu)化數(shù)數(shù)據(jù):海海量數(shù)據(jù)據(jù)查詢、統(tǒng)計、更新等等操作效效率低非結(jié)構(gòu)化化數(shù)據(jù):圖片、視頻、word、pdf、ppt等文件存存儲,不不利于檢檢索,存存儲和查查詢半結(jié)構(gòu)化化數(shù)據(jù):轉(zhuǎn)換為為結(jié)構(gòu)化化數(shù)據(jù)或或者按照照非結(jié)構(gòu)構(gòu)化存儲儲。大數(shù)據(jù)技技術:數(shù)據(jù)采集集:ETL工具;數(shù)據(jù)存取?。宏P系系數(shù)據(jù)庫庫,NoSQL,NewSQL,等基礎架構(gòu)構(gòu)支持:云存儲儲,分布布式文件件系統(tǒng)等等;計算結(jié)果果展現(xiàn):云計算算,標簽簽云,關關系圖等等。解決方案案:Hadoop(MapReduce技術)、MongoDB、流計算算(twitter的strom和yahoo!的S4)Hadoop大數(shù)
5、據(jù)主主要應用用技術Hadoop2Hadoop最先是由由Apache公司在2005年引入的的,起源源于google開發(fā)的MapReduce和GoogleFileSystem(GFS)項目。Hadoop作為新一一代的架架構(gòu)和技技術,因因為有利利于并行行分布處處理“大數(shù)據(jù)據(jù)”而備備受重視視。ApacheHadoop是一個用用java語言實現(xiàn)現(xiàn)的軟件件框架,在由大大量計算算機組成成的集群群中運行行海量數(shù)數(shù)據(jù)的分分布式計計算,它它可以讓讓應用程程序支持持上千個個節(jié)點和和PB級別的數(shù)數(shù)據(jù)。Hadoop是項目的的總稱,主要是是由分布布式存儲儲(HDFS)、分布布式計算算(MapReduce)等組成成 。Ha
6、doop原理Hadoop原理假設系統(tǒng)每秒處理理4000個文件處理4千萬個文文件=10000秒約為2.7小時處理4千萬個文件處理400萬個文件處理400萬個文件處理400萬個文件切分成十臺機器處理約為17分鐘=約為17分鐘=約為17分鐘=結(jié)果合并輸出 優(yōu)點可擴展:不論是是存儲的的可擴展展還是計計算的可可擴展都都是Hadoop的設計根根本。經(jīng)濟:框架可可以運行行在任何何普通的的PC上??煽浚悍植际绞轿募迪到y(tǒng)的備備份恢復復機制以以及MapReduce的任務監(jiān)監(jiān)控保證證了分布布式處理理的可靠靠性。高效:分布式式文件系系統(tǒng)的高高效數(shù)據(jù)據(jù)交互實實現(xiàn)以及及MapReduce結(jié)合LocalData處理的模模
7、式,為為高效處處理海量量的信息息作了基基礎準備備。不適合存儲小文件(不建建議)大量的隨隨機讀(不建議議)對文件的的修改(不支持持)應用模式式為:write-once-read-many存取模式式Hadoop體系架構(gòu)構(gòu)MapReduceHBasePigChuKwaHivePig是一個基基于Hadoop的大規(guī)模模數(shù)據(jù)分分析平臺臺,Pig為復雜的的海量數(shù)數(shù)據(jù)并行行計算提提供了一一個簡易易的操作作和編程程接口hive是基于Hadoop的一個工工具,提提供完整整的sql查詢功能能,可以以將sql語句轉(zhuǎn)換換為MapReduce任務進行行運行Chukwa是基于Hadoop的集群監(jiān)監(jiān)控系統(tǒng)統(tǒng),由yahoo貢獻
8、ZooKeeper:高效的的,可擴擴展的協(xié)協(xié)調(diào)系統(tǒng)統(tǒng),存儲和協(xié)協(xié)調(diào)關鍵鍵共享狀狀態(tài)HBase是一個開開源的,基于列列存儲模模型的分布式數(shù)數(shù)據(jù)庫MapReduce是一種編編程模型型,用于于大規(guī)模模數(shù)據(jù)集集(大于于1TB)的并行行運算HDFS是一個分分布式文文件系統(tǒng)統(tǒng)。有著著高容錯錯性的特特點,并并且設計計用來部部署在低低廉的硬硬件上,適合那那些有著著超大數(shù)數(shù)據(jù)集的的應用程程序ZooKeeperMapReduceMap:任務的的分解Reduce:結(jié)果的的匯總兩大核心心設計HDFSNameNode:文件管管理DataNode:文件存存儲Client:文件獲獲取Hadoop核心設計計MapReduce
9、映射、化化簡編程程模型(分分而治之之)1.根據(jù)輸入入數(shù)據(jù)的的大小和和參數(shù)的的設置把把數(shù)據(jù)分分成splits,每個split對于一個個map線程。2.Split中的數(shù)據(jù)據(jù)作為Map的輸入,Map的輸出一一定在Map端。3.Map的輸出到到Reduce的輸入的的過程(shuffle過程):第一階段段:在map端完成內(nèi)內(nèi)存-排序-寫入磁盤盤-復制第二階段段:在reduce端完成映映射到reduce端分區(qū)-合并-排序4.Reduce的輸入到到Reduce的輸出最后排好好序的key/value作為Reduce的輸入MapReduce是一種編編程模型型,用于于大規(guī)模模數(shù)據(jù)集集的并行行運算。Map(映射)和
10、Reduce(化簡),采用用分而治治之思想想,先把把任務分分發(fā)到集集群多個個節(jié)點上上,并行行計算,然后再再把計算算結(jié)果合合并,從從而得到到最終計計算結(jié)果果。多節(jié)節(jié)點計算算,所涉涉及的任任務調(diào)度度、負載載均衡、容錯處處理等,都由MapReduce框架完成成,不需需要編程程人員關關心這些些內(nèi)容。HDFS分布式文文件系統(tǒng)統(tǒng)什么是分分布式文文件系統(tǒng)統(tǒng)?分布式文文件系統(tǒng)統(tǒng)是指文文件系統(tǒng)統(tǒng)管理的的物理存存儲資源源不一定定直接在在本地節(jié)節(jié)點上,而是通通過計算算機網(wǎng)絡絡與節(jié)點點相連。分布式式文件系系統(tǒng)設計計基于客客戶機/服務器模模式,一一個典型型的網(wǎng)絡絡可能包包括多個個供用戶戶訪問的的服務器器。用戶戶可以在在
11、任意一一臺客戶戶機上訪訪問其他他機器的的文件系系統(tǒng)。為什么需需要分布布式文件件系統(tǒng)?高擴展能能力:HDFS采用元數(shù)數(shù)據(jù)中心心化管理理,然后后通過客客戶端暫暫存數(shù)據(jù)據(jù)分布減減小元數(shù)數(shù)據(jù)的訪訪問壓力力;高可用性性:一是是整個文文件系統(tǒng)統(tǒng)的可用用性,二二是數(shù)據(jù)據(jù)的完整整和一致致性。數(shù)數(shù)據(jù)完整整性通過過文件的的鏡像和和文件自自動修復復來解決決;彈性存儲儲:可以以根據(jù)業(yè)業(yè)務需要要靈活地地增加或或縮減數(shù)數(shù)據(jù)存儲儲以及增增刪存儲儲池中的的資源,而不需需要中斷斷系統(tǒng)運運行;HDFS分布式文文件系統(tǒng)統(tǒng)NameNode可以看作作是分布布式文件件系統(tǒng)中中的管理理者,存存儲文件件系統(tǒng)的的meta-data,主要負負責
12、管理理文件系系統(tǒng)的命命名空間間,集群群配置信信息,存存儲塊的的復制。DataNode是文件存存儲的基基本單元元。它存存儲文件件塊在本本地文件件系統(tǒng)中中,保存存了文件件塊的meta-data,同時周周期性的的發(fā)送所所有存在在的文件件塊的報報告給NameNode。Client就是需要要獲取分分布式文文件系統(tǒng)統(tǒng)文件的的應用程程序。HDFS是一個高高度容錯錯性的分分布式文文件系統(tǒng)統(tǒng),能提提供高吞吞吐量的的數(shù)據(jù)訪訪問,非非常適合合大規(guī)模模數(shù)據(jù)集集上的應應用。HDFS的高可用用性NameNode掛了怎么辦? 系統(tǒng)采用雙NameNode節(jié)點分布管理設計方案,支持分布式的元數(shù)據(jù)服務器,支持元數(shù)據(jù)自動日志功能,
13、實現(xiàn)用戶數(shù)據(jù)和元數(shù)據(jù)的備份和自動恢復,當一臺服務器發(fā)生宕機時,其管理功能可以有另外的服務器接管,系統(tǒng)可以正常運行,對外提供服務。NameNode NameNode是用來管理文件系統(tǒng)命名空間的組件 一個HDFS集群只有一臺active的NameNode 一個HDFS集群只有一個命名空間,一個根目錄 NameNode上存放了HDFS的元數(shù)據(jù) 元數(shù)據(jù)保存在NameNode的內(nèi)存當中,以便快速查詢 1G內(nèi)存大致可以存放1,000,000個塊對應的元數(shù)據(jù)信息 按缺省每塊64M計算,大致對應64T實際數(shù)據(jù)Datanode 一個數(shù)據(jù)塊在DataNode以文件存儲在磁盤上,包括兩個文件,一個是數(shù)據(jù)本身,一個是
14、元數(shù)據(jù)包括數(shù)據(jù)塊的長度,塊數(shù)據(jù)的校驗和,以及時間戳。 DataNode啟動后向NameNode注冊,通過后,周期性(1小時)的向NameNode上報所有的塊信息。 心跳是每3秒一次,心跳返回結(jié)果帶有NameNode給該DataNode的命令如復制塊數(shù)據(jù)到另一臺機器,或刪除某個數(shù)據(jù)塊。如果超過10分鐘沒有收到某個DataNode 的心跳,則認為該節(jié)點不可用。增加DataNode節(jié)點后? 系統(tǒng)平臺增加新節(jié)點之后,系統(tǒng)自動在所有節(jié)點之間均衡數(shù)據(jù)。系統(tǒng)后臺根據(jù)忙閑程度,自動發(fā)起,占用很少系統(tǒng)資源,無需人工干預,實現(xiàn)數(shù)據(jù)均衡分布。HDFS具體操作作文件寫入入:1.Client向NameNode發(fā)起文件件寫入的的請求2.NameNode根據(jù)文件件大小和和文件塊塊配置情情況,返返回給Client它所管理理部分DataNode的信息。3.Client將文件劃劃分為多多個文件件塊,根根據(jù)DataNode的地址信信息,按按順序?qū)憣懭氲矫棵恳粋€DataNode塊中。文件讀取?。?.Client向NameNode發(fā)起文件件讀取的的請求2.NameNode返回文件件存儲的的DataNode的信息。3.Client讀取文件件信息。Client1Client2DataNode節(jié)點NameNode1NameNode2NFS服務器正常運行行狀態(tài)單點失效效狀態(tài)HBASE分布式數(shù)據(jù)存儲儲HBase
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 銀行貸款進貨合同(2篇)
- 2024-2025學年初中同步測控優(yōu)化設計物理八年級下冊配人教版第11章 第4節(jié) 機械能及其轉(zhuǎn)化含答案
- 荷花 作文 課件
- 西京學院《中國文化經(jīng)典選讀》2022-2023學年第一學期期末試卷
- 西京學院《土木工程施工技術與組織》2022-2023學年第一學期期末試卷
- 西京學院《建筑工程計量與計價》2022-2023學年第一學期期末試卷
- 西京學院《非線性編輯》2022-2023學年第一學期期末試卷
- 西京學院《大數(shù)據(jù)存儲與管理技術》2023-2024學年期末試卷
- 西華師范大學《學科課程標準與教材研究》2021-2022學年第一學期期末試卷
- 西華師范大學《外國史學史》2022-2023學年第一學期期末試卷
- 加盟部組織架構(gòu)及職位描述
- KM(克勞斯瑪菲)注塑機操作教材
- 小學小微權(quán)力清單30條
- 中國及世界能源分布情況課件
- 數(shù)據(jù)及用戶手冊-gd32f403系列編程
- GB/T 23821-2022機械安全防止上下肢觸及危險區(qū)的安全距離
- 夏商周考古課件 第2章 二里頭文化
- JJF 1347-2012全球定位系統(tǒng)(GPS)接收機(測地型)型式評價大綱
- GB/T 7364-2006石蠟易炭化物試驗法
- GB/T 2980-2009工程機械輪胎規(guī)格、尺寸、氣壓與負荷
- GB/T 25196-2018起重機設計工作周期的監(jiān)控
評論
0/150
提交評論