基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述22

上傳人：3*** IP屬地：貴州上傳時(shí)間：2022-10-12 格式：PPTX 頁(yè)數(shù)：22 大?。?.80MB 積分：20 舉報(bào) 版權(quán)申訴

基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述22_第2頁(yè)

基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述22_第3頁(yè)

基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述22_第4頁(yè)

基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述22_第5頁(yè)

已閱讀5頁(yè)，還剩17頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2015.6.15基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述大數(shù)據(jù)背景介紹ContentHadoop定義、特特點(diǎn)大數(shù)據(jù)對(duì)系系統(tǒng)的需需求、大大數(shù)據(jù)和和云計(jì)算算的關(guān)系系大數(shù)據(jù)市場(chǎng)場(chǎng)分析大數(shù)據(jù)處理理的技術(shù)術(shù)關(guān)鍵12Hadoop原理、優(yōu)優(yōu)點(diǎn)Hadoop體系架構(gòu)構(gòu)Hadoop核心設(shè)計(jì)計(jì)：MapReduce、HDFS大數(shù)據(jù)背景介紹1定義為了更為為經(jīng)濟(jì)的的從高頻頻率獲取取的、大容量的的、不同同結(jié)構(gòu)和和類型的的數(shù)據(jù)中中獲取價(jià)價(jià)值，而設(shè)計(jì)的新一代代架構(gòu)和和技術(shù)特點(diǎn)大數(shù)據(jù)對(duì)對(duì)系統(tǒng)的的需求大數(shù)據(jù)和和云計(jì)算算的關(guān)系系High performance 高并發(fā)讀讀寫的需需求高并發(fā)、實(shí)時(shí)動(dòng)動(dòng)態(tài)獲取取和更新新數(shù)據(jù)Huge St

2、orage海量數(shù)據(jù)據(jù)的高效效率存儲(chǔ)儲(chǔ)和訪問(wèn)問(wèn)的需求求類似SNS網(wǎng)站，海海量用戶戶信息的的高效率率實(shí)時(shí)存存儲(chǔ)和查查詢High Scalability & HighAvailability 高可擴(kuò)展展性和高高可用性性的需求求需要擁有有快速橫橫向擴(kuò)展展能力、提供7*24小時(shí)不間間斷服務(wù)務(wù)云計(jì)算改改變了IT,而大數(shù)據(jù)據(jù)則改變變了業(yè)務(wù)務(wù)云計(jì)算是是大數(shù)據(jù)據(jù)的IT基礎(chǔ)，大數(shù)據(jù)須須有云計(jì)計(jì)算作為為基礎(chǔ)架架構(gòu)，才才能高效效運(yùn)行通過(guò)大數(shù)數(shù)據(jù)的業(yè)業(yè)務(wù)需求求，為云云計(jì)算的的落地找找到了實(shí)實(shí)際應(yīng)用用大數(shù)據(jù)市市場(chǎng)分析析2011年是中國(guó)國(guó)大數(shù)據(jù)據(jù)市場(chǎng)元元年，一一些大數(shù)數(shù)據(jù)產(chǎn)品品已經(jīng)推推出，部部分行業(yè)業(yè)也有大大數(shù)據(jù)應(yīng)應(yīng)用案例

3、例的產(chǎn)生生。2012年-2016年，將迎迎來(lái)大數(shù)數(shù)據(jù)市場(chǎng)場(chǎng)的飛速速發(fā)展。2012年中國(guó)大大數(shù)據(jù)市市場(chǎng)規(guī)模模達(dá)到4.7億元，2013年大數(shù)據(jù)據(jù)市場(chǎng)將將迎來(lái)增增速為138.3%的飛躍，到2016年，整個(gè)個(gè)市場(chǎng)規(guī)規(guī)模逼近近百億。政府、互互聯(lián)網(wǎng)、電信、金融的的大數(shù)據(jù)據(jù)市場(chǎng)規(guī)規(guī)模較大大，四個(gè)個(gè)行業(yè)將將占據(jù)一一半市場(chǎng)場(chǎng)份額。由于各個(gè)個(gè)行業(yè)都都存在大大數(shù)據(jù)應(yīng)應(yīng)用需求求，潛在在市場(chǎng)空空間非常?？捎^。大數(shù)據(jù)處處理的技技術(shù)關(guān)鍵鍵分析技術(shù)術(shù)：數(shù)據(jù)處理理：自然然語(yǔ)言處處理技術(shù)術(shù)；統(tǒng)計(jì)和分分析：地地域占比比，文本本情感分分析，A/Btest，topN排行榜；數(shù)據(jù)挖掘掘：建模模，聚類類，分類類，排名名；模型預(yù)測(cè)測(cè)：預(yù)測(cè)測(cè)

4、模型，機(jī)器學(xué)學(xué)習(xí)，建建模仿真真。存儲(chǔ)技術(shù)術(shù)：結(jié)構(gòu)化數(shù)數(shù)據(jù)：海海量數(shù)據(jù)據(jù)查詢、統(tǒng)計(jì)、更新等等操作效效率低非結(jié)構(gòu)化化數(shù)據(jù)：圖片、視頻、word、pdf、ppt等文件存存儲(chǔ)，不不利于檢檢索，存存儲(chǔ)和查查詢半結(jié)構(gòu)化化數(shù)據(jù)：轉(zhuǎn)換為為結(jié)構(gòu)化化數(shù)據(jù)或或者按照照非結(jié)構(gòu)構(gòu)化存儲(chǔ)儲(chǔ)。大數(shù)據(jù)技技術(shù)：數(shù)據(jù)采集集：ETL工具；數(shù)據(jù)存取取：關(guān)系系數(shù)據(jù)庫(kù)庫(kù)，NoSQL，NewSQL,等基礎(chǔ)架構(gòu)構(gòu)支持：云存儲(chǔ)儲(chǔ)，分布布式文件件系統(tǒng)等等；計(jì)算結(jié)果果展現(xiàn)：云計(jì)算算，標(biāo)簽簽云，關(guān)關(guān)系圖等等。解決方案案：Hadoop（MapReduce技術(shù)）、MongoDB、流計(jì)算算（twitter的strom和yahoo!的S4）Hadoop大數(shù)

5、據(jù)主主要應(yīng)用用技術(shù)Hadoop2Hadoop最先是由由Apache公司在2005年引入的的，起源源于google開(kāi)發(fā)的MapReduce和GoogleFileSystem（GFS）項(xiàng)目。Hadoop作為新一一代的架架構(gòu)和技技術(shù)，因因?yàn)橛欣诓⑿行蟹植继幪幚怼按髷?shù)據(jù)據(jù)”而備備受重視視。ApacheHadoop是一個(gè)用用java語(yǔ)言實(shí)現(xiàn)現(xiàn)的軟件件框架，在由大大量計(jì)算算機(jī)組成成的集群群中運(yùn)行行海量數(shù)數(shù)據(jù)的分分布式計(jì)計(jì)算，它它可以讓讓應(yīng)用程程序支持持上千個(gè)個(gè)節(jié)點(diǎn)和和PB級(jí)別的數(shù)數(shù)據(jù)。Hadoop是項(xiàng)目的的總稱，主要是是由分布布式存儲(chǔ)儲(chǔ)（HDFS）、分布布式計(jì)算算（MapReduce）等組成成。Ha

6、doop原理Hadoop原理假設(shè)系統(tǒng)每秒處理理4000個(gè)文件處理4千萬(wàn)個(gè)文文件=10000秒約為2.7小時(shí)處理4千萬(wàn)個(gè)文件處理400萬(wàn)個(gè)文件處理400萬(wàn)個(gè)文件處理400萬(wàn)個(gè)文件切分成十臺(tái)機(jī)器處理約為17分鐘=約為17分鐘=約為17分鐘=結(jié)果合并輸出優(yōu)點(diǎn)可擴(kuò)展：不論是是存儲(chǔ)的的可擴(kuò)展展還是計(jì)計(jì)算的可可擴(kuò)展都都是Hadoop的設(shè)計(jì)根根本。經(jīng)濟(jì)：框架可可以運(yùn)行行在任何何普通的的PC上。可靠：分布式式文件系系統(tǒng)的備備份恢復(fù)復(fù)機(jī)制以以及MapReduce的任務(wù)監(jiān)監(jiān)控保證證了分布布式處理理的可靠靠性。高效：分布式式文件系系統(tǒng)的高高效數(shù)據(jù)據(jù)交互實(shí)實(shí)現(xiàn)以及及MapReduce結(jié)合LocalData處理的模模

7、式，為為高效處處理海量量的信息息作了基基礎(chǔ)準(zhǔn)備備。不適合存儲(chǔ)小文件（不建建議）大量的隨隨機(jī)讀（不建議議）對(duì)文件的的修改（不支持持）應(yīng)用模式式為：write-once-read-many存取模式式Hadoop體系架構(gòu)構(gòu)MapReduceHBasePigChuKwaHivePig是一個(gè)基基于Hadoop的大規(guī)模模數(shù)據(jù)分分析平臺(tái)臺(tái)，Pig為復(fù)雜的的海量數(shù)數(shù)據(jù)并行行計(jì)算提提供了一一個(gè)簡(jiǎn)易易的操作作和編程程接口hive是基于Hadoop的一個(gè)工工具，提提供完整整的sql查詢功能能，可以以將sql語(yǔ)句轉(zhuǎn)換換為MapReduce任務(wù)進(jìn)行行運(yùn)行Chukwa是基于Hadoop的集群監(jiān)監(jiān)控系統(tǒng)統(tǒng)，由yahoo貢獻(xiàn)

8、ZooKeeper：高效的的，可擴(kuò)擴(kuò)展的協(xié)協(xié)調(diào)系統(tǒng)統(tǒng),存儲(chǔ)和協(xié)協(xié)調(diào)關(guān)鍵鍵共享狀狀態(tài)HBase是一個(gè)開(kāi)開(kāi)源的，基于列列存儲(chǔ)模模型的分布式數(shù)數(shù)據(jù)庫(kù)MapReduce是一種編編程模型型，用于于大規(guī)模模數(shù)據(jù)集集（大于于1TB）的并行行運(yùn)算HDFS是一個(gè)分分布式文文件系統(tǒng)統(tǒng)。有著著高容錯(cuò)錯(cuò)性的特特點(diǎn)，并并且設(shè)計(jì)計(jì)用來(lái)部部署在低低廉的硬硬件上，適合那那些有著著超大數(shù)數(shù)據(jù)集的的應(yīng)用程程序ZooKeeperMapReduceMap：任務(wù)的的分解Reduce：結(jié)果的的匯總兩大核心心設(shè)計(jì)HDFSNameNode：文件管管理DataNode：文件存存儲(chǔ)Client：文件獲獲取Hadoop核心設(shè)計(jì)計(jì)MapReduce

9、映射、化化簡(jiǎn)編程程模型（分分而治之之）1.根據(jù)輸入入數(shù)據(jù)的的大小和和參數(shù)的的設(shè)置把把數(shù)據(jù)分分成splits,每個(gè)split對(duì)于一個(gè)個(gè)map線程。2.Split中的數(shù)據(jù)據(jù)作為Map的輸入，Map的輸出一一定在Map端。3.Map的輸出到到Reduce的輸入的的過(guò)程(shuffle過(guò)程)：第一階段段：在map端完成內(nèi)內(nèi)存-排序-寫入磁盤盤-復(fù)制第二階段段：在reduce端完成映映射到reduce端分區(qū)-合并-排序4.Reduce的輸入到到Reduce的輸出最后排好好序的key/value作為Reduce的輸入MapReduce是一種編編程模型型，用于于大規(guī)模模數(shù)據(jù)集集的并行行運(yùn)算。Map（映射）和

10、Reduce（化簡(jiǎn)），采用用分而治治之思想想，先把把任務(wù)分分發(fā)到集集群多個(gè)個(gè)節(jié)點(diǎn)上上，并行行計(jì)算，然后再再把計(jì)算算結(jié)果合合并，從從而得到到最終計(jì)計(jì)算結(jié)果果。多節(jié)節(jié)點(diǎn)計(jì)算算，所涉涉及的任任務(wù)調(diào)度度、負(fù)載載均衡、容錯(cuò)處處理等，都由MapReduce框架完成成，不需需要編程程人員關(guān)關(guān)心這些些內(nèi)容。HDFS分布式文文件系統(tǒng)統(tǒng)什么是分分布式文文件系統(tǒng)統(tǒng)？分布式文文件系統(tǒng)統(tǒng)是指文文件系統(tǒng)統(tǒng)管理的的物理存存儲(chǔ)資源源不一定定直接在在本地節(jié)節(jié)點(diǎn)上，而是通通過(guò)計(jì)算算機(jī)網(wǎng)絡(luò)絡(luò)與節(jié)點(diǎn)點(diǎn)相連。分布式式文件系系統(tǒng)設(shè)計(jì)計(jì)基于客客戶機(jī)/服務(wù)器模模式，一一個(gè)典型型的網(wǎng)絡(luò)絡(luò)可能包包括多個(gè)個(gè)供用戶戶訪問(wèn)的的服務(wù)器器。用戶戶可以在在

11、任意一一臺(tái)客戶戶機(jī)上訪訪問(wèn)其他他機(jī)器的的文件系系統(tǒng)。為什么需需要分布布式文件件系統(tǒng)？高擴(kuò)展能能力：HDFS采用元數(shù)數(shù)據(jù)中心心化管理理，然后后通過(guò)客客戶端暫暫存數(shù)據(jù)據(jù)分布減減小元數(shù)數(shù)據(jù)的訪訪問(wèn)壓力力；高可用性性：一是是整個(gè)文文件系統(tǒng)統(tǒng)的可用用性，二二是數(shù)據(jù)據(jù)的完整整和一致致性。數(shù)數(shù)據(jù)完整整性通過(guò)過(guò)文件的的鏡像和和文件自自動(dòng)修復(fù)復(fù)來(lái)解決決；彈性存儲(chǔ)儲(chǔ)：可以以根據(jù)業(yè)業(yè)務(wù)需要要靈活地地增加或或縮減數(shù)數(shù)據(jù)存儲(chǔ)儲(chǔ)以及增增刪存儲(chǔ)儲(chǔ)池中的的資源，而不需需要中斷斷系統(tǒng)運(yùn)運(yùn)行；HDFS分布式文文件系統(tǒng)統(tǒng)NameNode可以看作作是分布布式文件件系統(tǒng)中中的管理理者，存存儲(chǔ)文件件系統(tǒng)的的meta-data，主要負(fù)負(fù)責(zé)

12、管理理文件系系統(tǒng)的命命名空間間，集群群配置信信息，存存儲(chǔ)塊的的復(fù)制。DataNode是文件存存儲(chǔ)的基基本單元元。它存存儲(chǔ)文件件塊在本本地文件件系統(tǒng)中中，保存存了文件件塊的meta-data，同時(shí)周周期性的的發(fā)送所所有存在在的文件件塊的報(bào)報(bào)告給NameNode。Client就是需要要獲取分分布式文文件系統(tǒng)統(tǒng)文件的的應(yīng)用程程序。HDFS是一個(gè)高高度容錯(cuò)錯(cuò)性的分分布式文文件系統(tǒng)統(tǒng)，能提提供高吞吞吐量的的數(shù)據(jù)訪訪問(wèn)，非非常適合合大規(guī)模模數(shù)據(jù)集集上的應(yīng)應(yīng)用。HDFS的高可用用性NameNode掛了怎么辦？系統(tǒng)采用雙NameNode節(jié)點(diǎn)分布管理設(shè)計(jì)方案，支持分布式的元數(shù)據(jù)服務(wù)器，支持元數(shù)據(jù)自動(dòng)日志功能，

13、實(shí)現(xiàn)用戶數(shù)據(jù)和元數(shù)據(jù)的備份和自動(dòng)恢復(fù)，當(dāng)一臺(tái)服務(wù)器發(fā)生宕機(jī)時(shí)，其管理功能可以有另外的服務(wù)器接管，系統(tǒng)可以正常運(yùn)行，對(duì)外提供服務(wù)。NameNode NameNode是用來(lái)管理文件系統(tǒng)命名空間的組件一個(gè)HDFS集群只有一臺(tái)active的NameNode 一個(gè)HDFS集群只有一個(gè)命名空間，一個(gè)根目錄 NameNode上存放了HDFS的元數(shù)據(jù) 元數(shù)據(jù)保存在NameNode的內(nèi)存當(dāng)中，以便快速查詢 1G內(nèi)存大致可以存放1,000,000個(gè)塊對(duì)應(yīng)的元數(shù)據(jù)信息按缺省每塊64M計(jì)算，大致對(duì)應(yīng)64T實(shí)際數(shù)據(jù)Datanode 一個(gè)數(shù)據(jù)塊在DataNode以文件存儲(chǔ)在磁盤上，包括兩個(gè)文件，一個(gè)是數(shù)據(jù)本身，一個(gè)是

14、元數(shù)據(jù)包括數(shù)據(jù)塊的長(zhǎng)度，塊數(shù)據(jù)的校驗(yàn)和，以及時(shí)間戳。 DataNode啟動(dòng)后向NameNode注冊(cè)，通過(guò)后，周期性（1小時(shí)）的向NameNode上報(bào)所有的塊信息。心跳是每3秒一次，心跳返回結(jié)果帶有NameNode給該DataNode的命令如復(fù)制塊數(shù)據(jù)到另一臺(tái)機(jī)器，或刪除某個(gè)數(shù)據(jù)塊。如果超過(guò)10分鐘沒(méi)有收到某個(gè)DataNode 的心跳，則認(rèn)為該節(jié)點(diǎn)不可用。增加DataNode節(jié)點(diǎn)后？系統(tǒng)平臺(tái)增加新節(jié)點(diǎn)之后，系統(tǒng)自動(dòng)在所有節(jié)點(diǎn)之間均衡數(shù)據(jù)。系統(tǒng)后臺(tái)根據(jù)忙閑程度，自動(dòng)發(fā)起，占用很少系統(tǒng)資源，無(wú)需人工干預(yù)，實(shí)現(xiàn)數(shù)據(jù)均衡分布。HDFS具體操作作文件寫入入：1.Client向NameNode發(fā)起文件件寫入的的請(qǐng)求2.NameNode根據(jù)文件件大小和和文件塊塊配置情情況，返返回給Client它所管理理部分DataNode的信息。3.Client將文件劃劃分為多多個(gè)文件件塊，根根據(jù)DataNode的地址信信息，按按順序?qū)憣懭氲矫棵恳粋€(gè)DataNode塊中。文件讀取?。?.Client向NameNode發(fā)起文件件讀取的的請(qǐng)求2.NameNode返回文件件存儲(chǔ)的的DataNode的信息。3.Client讀取文件件信息。Client1Client2DataNode節(jié)點(diǎn)NameNode1NameNode2NFS服務(wù)器正常運(yùn)行行狀態(tài)單點(diǎn)失效效狀態(tài)HBASE分布式數(shù)據(jù)存儲(chǔ)儲(chǔ)HBase

人人文庫(kù)> 全部分類> 專業(yè)文獻(xiàn) > IT計(jì)算機(jī)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述22

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述22

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔