




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2015.6.15基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述大數(shù)據(jù)背景介紹ContentHadoop定義、特特點(diǎn)大數(shù)據(jù)對(duì)系系統(tǒng)的需需求、大大數(shù)據(jù)和和云計(jì)算算的關(guān)系系大數(shù)據(jù)市場(chǎng)場(chǎng)分析大數(shù)據(jù)處理理的技術(shù)術(shù)關(guān)鍵12Hadoop原理、優(yōu)優(yōu)點(diǎn)Hadoop體系架構(gòu)構(gòu)Hadoop核心設(shè)計(jì)計(jì):MapReduce、HDFS大數(shù)據(jù)背景介紹1定義為了更為為經(jīng)濟(jì)的的從高頻頻率獲取取的、大容量的的、不同同結(jié)構(gòu)和和類型的的數(shù)據(jù)中中獲取價(jià)價(jià)值,而設(shè)計(jì)的新一代代架構(gòu)和和技術(shù)特點(diǎn)大數(shù)據(jù)對(duì)對(duì)系統(tǒng)的的需求大數(shù)據(jù)和和云計(jì)算算的關(guān)系系High performance 高并發(fā)讀讀寫的需需求高并發(fā)、實(shí)時(shí)動(dòng)動(dòng)態(tài)獲取取和更新新數(shù)據(jù)Huge St
2、orage海量數(shù)據(jù)據(jù)的高效效率存儲(chǔ)儲(chǔ)和訪問(wèn)問(wèn)的需求求類似SNS網(wǎng)站,海海量用戶戶信息的的高效率率實(shí)時(shí)存存儲(chǔ)和查查詢High Scalability & HighAvailability 高可擴(kuò)展展性和高高可用性性的需求求需要擁有有快速橫橫向擴(kuò)展展能力、提供7*24小時(shí)不間間斷服務(wù)務(wù)云計(jì)算改改變了IT,而大數(shù)據(jù)據(jù)則改變變了業(yè)務(wù)務(wù)云計(jì)算是是大數(shù)據(jù)據(jù)的IT基礎(chǔ),大數(shù)據(jù)須須有云計(jì)計(jì)算作為為基礎(chǔ)架架構(gòu),才才能高效效運(yùn)行通過(guò)大數(shù)數(shù)據(jù)的業(yè)業(yè)務(wù)需求求,為云云計(jì)算的的落地找找到了實(shí)實(shí)際應(yīng)用用大數(shù)據(jù)市市場(chǎng)分析析2011年是中國(guó)國(guó)大數(shù)據(jù)據(jù)市場(chǎng)元元年,一一些大數(shù)數(shù)據(jù)產(chǎn)品品已經(jīng)推推出,部部分行業(yè)業(yè)也有大大數(shù)據(jù)應(yīng)應(yīng)用案例
3、例的產(chǎn)生生。2012年-2016年,將迎迎來(lái)大數(shù)數(shù)據(jù)市場(chǎng)場(chǎng)的飛速速發(fā)展。2012年中國(guó)大大數(shù)據(jù)市市場(chǎng)規(guī)模模達(dá)到4.7億元,2013年大數(shù)據(jù)據(jù)市場(chǎng)將將迎來(lái)增增速為138.3%的飛躍,到2016年,整個(gè)個(gè)市場(chǎng)規(guī)規(guī)模逼近近百億。政府、互互聯(lián)網(wǎng)、電信、金融的的大數(shù)據(jù)據(jù)市場(chǎng)規(guī)規(guī)模較大大,四個(gè)個(gè)行業(yè)將將占據(jù)一一半市場(chǎng)場(chǎng)份額。由于各個(gè)個(gè)行業(yè)都都存在大大數(shù)據(jù)應(yīng)應(yīng)用需求求,潛在在市場(chǎng)空空間非常??捎^。大數(shù)據(jù)處處理的技技術(shù)關(guān)鍵鍵分析技術(shù)術(shù):數(shù)據(jù)處理理:自然然語(yǔ)言處處理技術(shù)術(shù);統(tǒng)計(jì)和分分析:地地域占比比,文本本情感分分析,A/Btest,topN排行榜;數(shù)據(jù)挖掘掘:建模模,聚類類,分類類,排名名;模型預(yù)測(cè)測(cè):預(yù)測(cè)測(cè)
4、模型,機(jī)器學(xué)學(xué)習(xí),建建模仿真真。存儲(chǔ)技術(shù)術(shù):結(jié)構(gòu)化數(shù)數(shù)據(jù):海海量數(shù)據(jù)據(jù)查詢、統(tǒng)計(jì)、更新等等操作效效率低非結(jié)構(gòu)化化數(shù)據(jù):圖片、視頻、word、pdf、ppt等文件存存儲(chǔ),不不利于檢檢索,存存儲(chǔ)和查查詢半結(jié)構(gòu)化化數(shù)據(jù):轉(zhuǎn)換為為結(jié)構(gòu)化化數(shù)據(jù)或或者按照照非結(jié)構(gòu)構(gòu)化存儲(chǔ)儲(chǔ)。大數(shù)據(jù)技技術(shù):數(shù)據(jù)采集集:ETL工具;數(shù)據(jù)存取取:關(guān)系系數(shù)據(jù)庫(kù)庫(kù),NoSQL,NewSQL,等基礎(chǔ)架構(gòu)構(gòu)支持:云存儲(chǔ)儲(chǔ),分布布式文件件系統(tǒng)等等;計(jì)算結(jié)果果展現(xiàn):云計(jì)算算,標(biāo)簽簽云,關(guān)關(guān)系圖等等。解決方案案:Hadoop(MapReduce技術(shù))、MongoDB、流計(jì)算算(twitter的strom和yahoo!的S4)Hadoop大數(shù)
5、據(jù)主主要應(yīng)用用技術(shù)Hadoop2Hadoop最先是由由Apache公司在2005年引入的的,起源源于google開(kāi)發(fā)的MapReduce和GoogleFileSystem(GFS)項(xiàng)目。Hadoop作為新一一代的架架構(gòu)和技技術(shù),因因?yàn)橛欣诓⑿行蟹植继幪幚怼按髷?shù)據(jù)據(jù)”而備備受重視視。ApacheHadoop是一個(gè)用用java語(yǔ)言實(shí)現(xiàn)現(xiàn)的軟件件框架,在由大大量計(jì)算算機(jī)組成成的集群群中運(yùn)行行海量數(shù)數(shù)據(jù)的分分布式計(jì)計(jì)算,它它可以讓讓應(yīng)用程程序支持持上千個(gè)個(gè)節(jié)點(diǎn)和和PB級(jí)別的數(shù)數(shù)據(jù)。Hadoop是項(xiàng)目的的總稱,主要是是由分布布式存儲(chǔ)儲(chǔ)(HDFS)、分布布式計(jì)算算(MapReduce)等組成成 。Ha
6、doop原理Hadoop原理假設(shè)系統(tǒng)每秒處理理4000個(gè)文件處理4千萬(wàn)個(gè)文文件=10000秒約為2.7小時(shí)處理4千萬(wàn)個(gè)文件處理400萬(wàn)個(gè)文件處理400萬(wàn)個(gè)文件處理400萬(wàn)個(gè)文件切分成十臺(tái)機(jī)器處理約為17分鐘=約為17分鐘=約為17分鐘=結(jié)果合并輸出 優(yōu)點(diǎn)可擴(kuò)展:不論是是存儲(chǔ)的的可擴(kuò)展展還是計(jì)計(jì)算的可可擴(kuò)展都都是Hadoop的設(shè)計(jì)根根本。經(jīng)濟(jì):框架可可以運(yùn)行行在任何何普通的的PC上。可靠:分布式式文件系系統(tǒng)的備備份恢復(fù)復(fù)機(jī)制以以及MapReduce的任務(wù)監(jiān)監(jiān)控保證證了分布布式處理理的可靠靠性。高效:分布式式文件系系統(tǒng)的高高效數(shù)據(jù)據(jù)交互實(shí)實(shí)現(xiàn)以及及MapReduce結(jié)合LocalData處理的模模
7、式,為為高效處處理海量量的信息息作了基基礎(chǔ)準(zhǔn)備備。不適合存儲(chǔ)小文件(不建建議)大量的隨隨機(jī)讀(不建議議)對(duì)文件的的修改(不支持持)應(yīng)用模式式為:write-once-read-many存取模式式Hadoop體系架構(gòu)構(gòu)MapReduceHBasePigChuKwaHivePig是一個(gè)基基于Hadoop的大規(guī)模模數(shù)據(jù)分分析平臺(tái)臺(tái),Pig為復(fù)雜的的海量數(shù)數(shù)據(jù)并行行計(jì)算提提供了一一個(gè)簡(jiǎn)易易的操作作和編程程接口hive是基于Hadoop的一個(gè)工工具,提提供完整整的sql查詢功能能,可以以將sql語(yǔ)句轉(zhuǎn)換換為MapReduce任務(wù)進(jìn)行行運(yùn)行Chukwa是基于Hadoop的集群監(jiān)監(jiān)控系統(tǒng)統(tǒng),由yahoo貢獻(xiàn)
8、ZooKeeper:高效的的,可擴(kuò)擴(kuò)展的協(xié)協(xié)調(diào)系統(tǒng)統(tǒng),存儲(chǔ)和協(xié)協(xié)調(diào)關(guān)鍵鍵共享狀狀態(tài)HBase是一個(gè)開(kāi)開(kāi)源的,基于列列存儲(chǔ)模模型的分布式數(shù)數(shù)據(jù)庫(kù)MapReduce是一種編編程模型型,用于于大規(guī)模模數(shù)據(jù)集集(大于于1TB)的并行行運(yùn)算HDFS是一個(gè)分分布式文文件系統(tǒng)統(tǒng)。有著著高容錯(cuò)錯(cuò)性的特特點(diǎn),并并且設(shè)計(jì)計(jì)用來(lái)部部署在低低廉的硬硬件上,適合那那些有著著超大數(shù)數(shù)據(jù)集的的應(yīng)用程程序ZooKeeperMapReduceMap:任務(wù)的的分解Reduce:結(jié)果的的匯總兩大核心心設(shè)計(jì)HDFSNameNode:文件管管理DataNode:文件存存儲(chǔ)Client:文件獲獲取Hadoop核心設(shè)計(jì)計(jì)MapReduce
9、映射、化化簡(jiǎn)編程程模型(分分而治之之)1.根據(jù)輸入入數(shù)據(jù)的的大小和和參數(shù)的的設(shè)置把把數(shù)據(jù)分分成splits,每個(gè)split對(duì)于一個(gè)個(gè)map線程。2.Split中的數(shù)據(jù)據(jù)作為Map的輸入,Map的輸出一一定在Map端。3.Map的輸出到到Reduce的輸入的的過(guò)程(shuffle過(guò)程):第一階段段:在map端完成內(nèi)內(nèi)存-排序-寫入磁盤盤-復(fù)制第二階段段:在reduce端完成映映射到reduce端分區(qū)-合并-排序4.Reduce的輸入到到Reduce的輸出最后排好好序的key/value作為Reduce的輸入MapReduce是一種編編程模型型,用于于大規(guī)模模數(shù)據(jù)集集的并行行運(yùn)算。Map(映射)和
10、Reduce(化簡(jiǎn)),采用用分而治治之思想想,先把把任務(wù)分分發(fā)到集集群多個(gè)個(gè)節(jié)點(diǎn)上上,并行行計(jì)算,然后再再把計(jì)算算結(jié)果合合并,從從而得到到最終計(jì)計(jì)算結(jié)果果。多節(jié)節(jié)點(diǎn)計(jì)算算,所涉涉及的任任務(wù)調(diào)度度、負(fù)載載均衡、容錯(cuò)處處理等,都由MapReduce框架完成成,不需需要編程程人員關(guān)關(guān)心這些些內(nèi)容。HDFS分布式文文件系統(tǒng)統(tǒng)什么是分分布式文文件系統(tǒng)統(tǒng)?分布式文文件系統(tǒng)統(tǒng)是指文文件系統(tǒng)統(tǒng)管理的的物理存存儲(chǔ)資源源不一定定直接在在本地節(jié)節(jié)點(diǎn)上,而是通通過(guò)計(jì)算算機(jī)網(wǎng)絡(luò)絡(luò)與節(jié)點(diǎn)點(diǎn)相連。分布式式文件系系統(tǒng)設(shè)計(jì)計(jì)基于客客戶機(jī)/服務(wù)器模模式,一一個(gè)典型型的網(wǎng)絡(luò)絡(luò)可能包包括多個(gè)個(gè)供用戶戶訪問(wèn)的的服務(wù)器器。用戶戶可以在在
11、任意一一臺(tái)客戶戶機(jī)上訪訪問(wèn)其他他機(jī)器的的文件系系統(tǒng)。為什么需需要分布布式文件件系統(tǒng)?高擴(kuò)展能能力:HDFS采用元數(shù)數(shù)據(jù)中心心化管理理,然后后通過(guò)客客戶端暫暫存數(shù)據(jù)據(jù)分布減減小元數(shù)數(shù)據(jù)的訪訪問(wèn)壓力力;高可用性性:一是是整個(gè)文文件系統(tǒng)統(tǒng)的可用用性,二二是數(shù)據(jù)據(jù)的完整整和一致致性。數(shù)數(shù)據(jù)完整整性通過(guò)過(guò)文件的的鏡像和和文件自自動(dòng)修復(fù)復(fù)來(lái)解決決;彈性存儲(chǔ)儲(chǔ):可以以根據(jù)業(yè)業(yè)務(wù)需要要靈活地地增加或或縮減數(shù)數(shù)據(jù)存儲(chǔ)儲(chǔ)以及增增刪存儲(chǔ)儲(chǔ)池中的的資源,而不需需要中斷斷系統(tǒng)運(yùn)運(yùn)行;HDFS分布式文文件系統(tǒng)統(tǒng)NameNode可以看作作是分布布式文件件系統(tǒng)中中的管理理者,存存儲(chǔ)文件件系統(tǒng)的的meta-data,主要負(fù)負(fù)責(zé)
12、管理理文件系系統(tǒng)的命命名空間間,集群群配置信信息,存存儲(chǔ)塊的的復(fù)制。DataNode是文件存存儲(chǔ)的基基本單元元。它存存儲(chǔ)文件件塊在本本地文件件系統(tǒng)中中,保存存了文件件塊的meta-data,同時(shí)周周期性的的發(fā)送所所有存在在的文件件塊的報(bào)報(bào)告給NameNode。Client就是需要要獲取分分布式文文件系統(tǒng)統(tǒng)文件的的應(yīng)用程程序。HDFS是一個(gè)高高度容錯(cuò)錯(cuò)性的分分布式文文件系統(tǒng)統(tǒng),能提提供高吞吞吐量的的數(shù)據(jù)訪訪問(wèn),非非常適合合大規(guī)模模數(shù)據(jù)集集上的應(yīng)應(yīng)用。HDFS的高可用用性NameNode掛了怎么辦? 系統(tǒng)采用雙NameNode節(jié)點(diǎn)分布管理設(shè)計(jì)方案,支持分布式的元數(shù)據(jù)服務(wù)器,支持元數(shù)據(jù)自動(dòng)日志功能,
13、實(shí)現(xiàn)用戶數(shù)據(jù)和元數(shù)據(jù)的備份和自動(dòng)恢復(fù),當(dāng)一臺(tái)服務(wù)器發(fā)生宕機(jī)時(shí),其管理功能可以有另外的服務(wù)器接管,系統(tǒng)可以正常運(yùn)行,對(duì)外提供服務(wù)。NameNode NameNode是用來(lái)管理文件系統(tǒng)命名空間的組件 一個(gè)HDFS集群只有一臺(tái)active的NameNode 一個(gè)HDFS集群只有一個(gè)命名空間,一個(gè)根目錄 NameNode上存放了HDFS的元數(shù)據(jù) 元數(shù)據(jù)保存在NameNode的內(nèi)存當(dāng)中,以便快速查詢 1G內(nèi)存大致可以存放1,000,000個(gè)塊對(duì)應(yīng)的元數(shù)據(jù)信息 按缺省每塊64M計(jì)算,大致對(duì)應(yīng)64T實(shí)際數(shù)據(jù)Datanode 一個(gè)數(shù)據(jù)塊在DataNode以文件存儲(chǔ)在磁盤上,包括兩個(gè)文件,一個(gè)是數(shù)據(jù)本身,一個(gè)是
14、元數(shù)據(jù)包括數(shù)據(jù)塊的長(zhǎng)度,塊數(shù)據(jù)的校驗(yàn)和,以及時(shí)間戳。 DataNode啟動(dòng)后向NameNode注冊(cè),通過(guò)后,周期性(1小時(shí))的向NameNode上報(bào)所有的塊信息。 心跳是每3秒一次,心跳返回結(jié)果帶有NameNode給該DataNode的命令如復(fù)制塊數(shù)據(jù)到另一臺(tái)機(jī)器,或刪除某個(gè)數(shù)據(jù)塊。如果超過(guò)10分鐘沒(méi)有收到某個(gè)DataNode 的心跳,則認(rèn)為該節(jié)點(diǎn)不可用。增加DataNode節(jié)點(diǎn)后? 系統(tǒng)平臺(tái)增加新節(jié)點(diǎn)之后,系統(tǒng)自動(dòng)在所有節(jié)點(diǎn)之間均衡數(shù)據(jù)。系統(tǒng)后臺(tái)根據(jù)忙閑程度,自動(dòng)發(fā)起,占用很少系統(tǒng)資源,無(wú)需人工干預(yù),實(shí)現(xiàn)數(shù)據(jù)均衡分布。HDFS具體操作作文件寫入入:1.Client向NameNode發(fā)起文件件寫入的的請(qǐng)求2.NameNode根據(jù)文件件大小和和文件塊塊配置情情況,返返回給Client它所管理理部分DataNode的信息。3.Client將文件劃劃分為多多個(gè)文件件塊,根根據(jù)DataNode的地址信信息,按按順序?qū)憣懭氲矫棵恳粋€(gè)DataNode塊中。文件讀取?。?.Client向NameNode發(fā)起文件件讀取的的請(qǐng)求2.NameNode返回文件件存儲(chǔ)的的DataNode的信息。3.Client讀取文件件信息。Client1Client2DataNode節(jié)點(diǎn)NameNode1NameNode2NFS服務(wù)器正常運(yùn)行行狀態(tài)單點(diǎn)失效效狀態(tài)HBASE分布式數(shù)據(jù)存儲(chǔ)儲(chǔ)HBase
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年礦業(yè)開(kāi)采模塊合作協(xié)議書
- 2025年出版物發(fā)行零售合作協(xié)議書
- 2025年放射性核素遠(yuǎn)距離治療機(jī)項(xiàng)目發(fā)展計(jì)劃
- 2025年酶標(biāo)免疫分析儀項(xiàng)目發(fā)展計(jì)劃
- 產(chǎn)業(yè)研究報(bào)告-中國(guó)工業(yè)無(wú)人機(jī)行業(yè)發(fā)展現(xiàn)狀、市場(chǎng)規(guī)模、投資前景分析(智研咨詢)
- 藝術(shù)知識(shí)競(jìng)賽策劃
- 2025年光通信計(jì)量和監(jiān)測(cè)儀器項(xiàng)目建議書
- 餐飲服務(wù)細(xì)節(jié)培訓(xùn)
- 電熱毯批發(fā)企業(yè)ESG實(shí)踐與創(chuàng)新戰(zhàn)略研究報(bào)告
- 金屬花架企業(yè)ESG實(shí)踐與創(chuàng)新戰(zhàn)略研究報(bào)告
- 固態(tài)電池發(fā)展趨勢(shì)研究
- DL∕T 516-2017 電力調(diào)度自動(dòng)化運(yùn)行管理規(guī)程
- 阿托伐他汀鈣片說(shuō)明書20110420(立普妥)
- 回旋鉆鉆孔施工方案
- DB13T 2801-2018 水利工程質(zhì)量監(jiān)督規(guī)程
- 四年級(jí)上冊(cè)第四單元讓生活多一些綠色道德與法治教學(xué)反思11變廢為寶有妙招
- JJG(交通)096-2009 水泥膠砂流動(dòng)度測(cè)定儀檢定規(guī)程-(高清現(xiàn)行)
- 嗓音(發(fā)聲)障礙評(píng)定與治療
- Q∕SY 05262-2019 機(jī)械清管器技術(shù)條件
- 最新人音版音樂(lè)二年級(jí)下冊(cè)全冊(cè)教案
- 航空航天概論(課堂PPT)
評(píng)論
0/150
提交評(píng)論