大數(shù)據(jù)技術(shù)原理與應(yīng)用 完整版課件_第1頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用 完整版課件_第2頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用 完整版課件_第3頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用 完整版課件_第4頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用 完整版課件_第5頁
已閱讀5頁,還剩1533頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《大數(shù)據(jù)技術(shù)原理與應(yīng)用》主講教師:《大數(shù)據(jù)技術(shù)原理與應(yīng)用》主講教師:課程特色搭建起通向“大數(shù)據(jù)知識(shí)空間”的橋梁和紐帶構(gòu)建知識(shí)體系、闡明基本原理引導(dǎo)初級實(shí)踐、了解相關(guān)應(yīng)用為學(xué)生在大數(shù)據(jù)領(lǐng)域“深耕細(xì)作”奠定基礎(chǔ)、指明方向課程特色搭建起通向“大數(shù)據(jù)知識(shí)空間”的橋梁和紐帶內(nèi)容提要本課程系統(tǒng)介紹了大數(shù)據(jù)相關(guān)知識(shí),共有13章系統(tǒng)地論述了大數(shù)據(jù)的基本概念、大數(shù)據(jù)處理架構(gòu)Hadoop、分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫、分布式并行編程模型MapReduce、流計(jì)算、圖計(jì)算、數(shù)據(jù)可視化以及大數(shù)據(jù)在互聯(lián)網(wǎng)、生物醫(yī)學(xué)和物流等各個(gè)領(lǐng)域的應(yīng)用在Hadoop、HDFS、HBase和MapReduce等重要章節(jié),安排了入門級的實(shí)踐操作,讓學(xué)生更好地學(xué)習(xí)和掌握大數(shù)據(jù)關(guān)鍵技術(shù)3ppt精選版內(nèi)容提要本課程系統(tǒng)介紹了大數(shù)據(jù)相關(guān)知識(shí),共有13章3ppt精篇章安排第一篇:大數(shù)據(jù)基礎(chǔ)篇第二篇:大數(shù)據(jù)存儲(chǔ)篇第三篇:大數(shù)據(jù)處理與分析篇第四篇:大數(shù)據(jù)應(yīng)用篇4ppt精選版篇章安排第一篇:大數(shù)據(jù)基礎(chǔ)篇4ppt精選版第一篇:大數(shù)據(jù)基礎(chǔ)篇5ppt精選版第一篇:大數(shù)據(jù)基礎(chǔ)篇5ppt精選版第二篇:大數(shù)據(jù)存儲(chǔ)篇6ppt精選版第二篇:大數(shù)據(jù)存儲(chǔ)篇6ppt精選版第三篇:大數(shù)據(jù)處理與分析篇7ppt精選版第三篇:大數(shù)據(jù)處理與分析篇7ppt精選版第四篇:大數(shù)據(jù)應(yīng)用篇8ppt精選版第四篇:大數(shù)據(jù)應(yīng)用篇8ppt精選版各章內(nèi)容第一章大數(shù)據(jù)概述第二章大數(shù)據(jù)處理架構(gòu)Hadoop第三章分布式文件系統(tǒng)HDFS第四章分布式數(shù)據(jù)庫HBase第五章NoSQL數(shù)據(jù)庫第六章云數(shù)據(jù)庫第七章MapReduce第八章流計(jì)算第九章圖計(jì)算第十章數(shù)據(jù)可視化第十一章大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用第十二章大數(shù)據(jù)在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用(自學(xué))第十三章大數(shù)據(jù)的其他應(yīng)用(自學(xué))9ppt精選版各章內(nèi)容第一章大數(shù)據(jù)概述9ppt精選版

第一章大數(shù)據(jù)概述

第一章大數(shù)據(jù)概述提綱1.1大數(shù)據(jù)時(shí)代1.2大數(shù)據(jù)概念1.3大數(shù)據(jù)的影響1.4大數(shù)據(jù)的應(yīng)用1.5大數(shù)據(jù)關(guān)鍵技術(shù)1.6大數(shù)據(jù)計(jì)算模式1.7大數(shù)據(jù)產(chǎn)業(yè)1.8大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系提綱1.1大數(shù)據(jù)時(shí)代1.1大數(shù)據(jù)時(shí)代1.1大數(shù)據(jù)時(shí)代1.1.1第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點(diǎn),IT領(lǐng)域每隔十五年就會(huì)迎來一次重大變革信息化浪潮發(fā)生時(shí)間標(biāo)志解決問題代表企業(yè)第一次浪潮1980年前后個(gè)人計(jì)算機(jī)信息處理Intel、AMD、IBM、蘋果、微軟、聯(lián)想、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、阿里巴巴、百度、騰訊等第三次浪潮2010年前后物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)信息爆炸將涌現(xiàn)出一批新的市場標(biāo)桿企業(yè)表1-1三次信息化浪潮1.1.1第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點(diǎn)1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-1存儲(chǔ)價(jià)格隨時(shí)間變化情況存儲(chǔ)設(shè)備容量不斷增加,速度不斷提升,價(jià)格卻在不斷下降1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-1存儲(chǔ)價(jià)格1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐來自斯威本科技大學(xué)(SwinburneUniversityofTechnology)的研究團(tuán)隊(duì),在2013年6月29日刊出的《自然通訊(NatureCommunications)》雜志的文章中,描述了一種全新的數(shù)據(jù)存儲(chǔ)方式,可將1PB(1024TB)的數(shù)據(jù)存儲(chǔ)到一張僅DVD大小的聚合物碟片上。1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐來自斯威本科技大學(xué)(S1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-3CPU晶體管數(shù)目隨時(shí)間變化情況2.CPU處理能力大幅提升

1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-3CPU晶1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐摩爾定律:CPU性能每隔18個(gè)月提高一倍,價(jià)格下降一半1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐摩爾定律:CPU性圖1-4網(wǎng)絡(luò)帶寬隨時(shí)間變化情況3.網(wǎng)絡(luò)帶寬不斷增加1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-4網(wǎng)絡(luò)帶寬隨時(shí)間變化情況3.網(wǎng)絡(luò)帶寬不斷增加數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時(shí)代的來臨圖1-5數(shù)據(jù)產(chǎn)生方式的變革1.1.3數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時(shí)代的來臨圖1-5數(shù)1.1.4大數(shù)據(jù)的發(fā)展歷程階段時(shí)間內(nèi)容第一階段:萌芽期上世紀(jì)90年代至本世紀(jì)初隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的逐步成熟,一批商業(yè)智能工具和知識(shí)管理技術(shù)開始被應(yīng)用,如數(shù)據(jù)倉庫、專家系統(tǒng)、知識(shí)管理系統(tǒng)等。第二階段:成熟期本世紀(jì)前十年Web2.0應(yīng)用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,傳統(tǒng)處理方法難以應(yīng)對,帶動(dòng)了大數(shù)據(jù)技術(shù)的快速突破,大數(shù)據(jù)解決方案逐漸走向成熟,形成了并行計(jì)算與分布式系統(tǒng)兩大核心技術(shù),谷歌的GFS和MapReduce等大數(shù)據(jù)技術(shù)受到追捧,Hadoop平臺(tái)開始大行其道第三階段:大規(guī)模應(yīng)用期2010年以后大數(shù)據(jù)應(yīng)用滲透各行各業(yè),數(shù)據(jù)驅(qū)動(dòng)決策,信息社會(huì)智能化程度大幅提高表1-2大數(shù)據(jù)發(fā)展的三個(gè)階段1.1.4大數(shù)據(jù)的發(fā)展歷程階段時(shí)間內(nèi)容第一階段:萌芽期上世1.2大數(shù)據(jù)概念(4V)1.2大數(shù)據(jù)概念(4V)1.2.1 數(shù)據(jù)量大根據(jù)IDC作出的估測,數(shù)據(jù)一直都在以每年50%的速度增長,也就是說每兩年就增長一倍(大數(shù)據(jù)摩爾定律)人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長近30倍22ppt精選版1.2.1 數(shù)據(jù)量大根據(jù)IDC作出的估測,數(shù)據(jù)一直都在以每年1.2.2數(shù)據(jù)類型繁多大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的10%的結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫中90%的非結(jié)構(gòu)化數(shù)據(jù),它們與人類信息密切相關(guān)科學(xué)研究–基因組–LHC加速器–地球與空間探測企業(yè)應(yīng)用–Email、文檔、文件–應(yīng)用日志–交易記錄Web1.0數(shù)據(jù)–文本–圖像–視頻Web2.0數(shù)據(jù)–查詢?nèi)罩?點(diǎn)擊流–Twitter/Blog/SNS–Wiki23ppt精選版1.2.2數(shù)據(jù)類型繁多大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的1.2.3 處理速度快從數(shù)據(jù)的生成到消耗,時(shí)間窗口非常小,可用于生成決策的時(shí)間非常少1秒定律:這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同24ppt精選版1.2.3 處理速度快從數(shù)據(jù)的生成到消耗,時(shí)間窗口非常小,可1.2.4 價(jià)值密度低

價(jià)值密度低,商業(yè)價(jià)值高

以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒,但是具有很高的商業(yè)價(jià)值25ppt精選版1.2.4 價(jià)值密度低 價(jià)值密度低,商業(yè)價(jià)值高25ppt精選1.3大數(shù)據(jù)的影響

圖靈獎(jiǎng)獲得者、著名數(shù)據(jù)庫專家JimGray博士觀察并總結(jié)人類自古以來,在科學(xué)研究上,先后歷經(jīng)了實(shí)驗(yàn)、理論、計(jì)算和數(shù)據(jù)四種范式實(shí)驗(yàn)理論計(jì)算數(shù)據(jù)1.3大數(shù)據(jù)的影響 圖靈獎(jiǎng)獲得者、著名數(shù)據(jù)庫專家JimGr1.3大數(shù)據(jù)的影響在思維方式方面,大數(shù)據(jù)完全顛覆了傳統(tǒng)的思維方式:全樣而非抽樣效率而非精確相關(guān)而非因果1.3大數(shù)據(jù)的影響在思維方式方面,大數(shù)據(jù)完全顛覆了傳統(tǒng)的思維1.3大數(shù)據(jù)的影響在社會(huì)發(fā)展方面,大數(shù)據(jù)決策逐漸成為一種新的決策方式,大數(shù)據(jù)應(yīng)用有力促進(jìn)了信息技術(shù)與各行業(yè)的深度融合,大數(shù)據(jù)開發(fā)大大推動(dòng)了新技術(shù)和新應(yīng)用的不斷涌現(xiàn)在就業(yè)市場方面,大數(shù)據(jù)的興起使得數(shù)據(jù)科學(xué)家成為熱門職業(yè)在人才培養(yǎng)方面,大數(shù)據(jù)的興起,將在很大程度上改變中國高校信息技術(shù)相關(guān)專業(yè)的現(xiàn)有教學(xué)和科研體制1.3大數(shù)據(jù)的影響在社會(huì)發(fā)展方面,大數(shù)據(jù)決策逐漸成為一種新的1.4大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)無處不在,包括金融、汽車、零售、餐飲、電信、能源、政務(wù)、醫(yī)療、體育、娛樂等在內(nèi)的社會(huì)各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡1.4大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)無處不在,包括金融、汽車、零售、餐飲典型的大數(shù)據(jù)應(yīng)用實(shí)例KevinSpaceyDavidFincher英國同名小說《紙牌屋》風(fēng)靡全球的美劇《紙牌屋》大數(shù)據(jù)分析30ppt精選版典型的大數(shù)據(jù)應(yīng)用實(shí)例KevinSpaceyDavidFi典型的大數(shù)據(jù)應(yīng)用實(shí)例

從谷歌流感趨勢看大數(shù)據(jù)的應(yīng)用價(jià)值

“谷歌流感趨勢”,通過跟蹤搜索詞相關(guān)數(shù)據(jù)來判斷全美地區(qū)的流感情況31ppt精選版典型的大數(shù)據(jù)應(yīng)用實(shí)例 從谷歌流感趨勢看大數(shù)據(jù)的應(yīng)用價(jià)值31p1.5大數(shù)據(jù)關(guān)鍵技術(shù)表1-5大數(shù)據(jù)技術(shù)的不同層面及其功能技術(shù)層面功能數(shù)據(jù)采集利用ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等,抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ);或者也可以把實(shí)時(shí)采集的數(shù)據(jù)作為流計(jì)算系統(tǒng)的輸入,進(jìn)行實(shí)時(shí)處理分析數(shù)據(jù)存儲(chǔ)和管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫等,實(shí)現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ)和管理數(shù)據(jù)處理與分析利用分布式并行編程模型和計(jì)算框架,結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實(shí)現(xiàn)對海量數(shù)據(jù)的處理和分析;對分析結(jié)果進(jìn)行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)數(shù)據(jù)隱私和安全在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價(jià)值和學(xué)術(shù)價(jià)值的同時(shí),構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系,有效保護(hù)個(gè)人隱私和數(shù)據(jù)安全1.5大數(shù)據(jù)關(guān)鍵技術(shù)表1-5大數(shù)據(jù)技術(shù)的不同層面及其功能技1.5大數(shù)據(jù)關(guān)鍵技術(shù)分布式存儲(chǔ)分布式處理GFS\HDFSBigTable\HBaseNoSQL(鍵值、列族、圖形、文檔數(shù)據(jù)庫)NewSQL(如:SQLAzure)MapReduce大數(shù)據(jù)兩大核心技術(shù)1.5大數(shù)據(jù)關(guān)鍵技術(shù)分布式存儲(chǔ)分布式處理GFS\HDFSMa1.6大數(shù)據(jù)計(jì)算模式大數(shù)據(jù)計(jì)算模式解決問題代表產(chǎn)品批處理計(jì)算針對大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark等流計(jì)算針對流數(shù)據(jù)的實(shí)時(shí)計(jì)算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、銀河流數(shù)據(jù)處理平臺(tái)等圖計(jì)算針對大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查詢分析計(jì)算大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢分析Dremel、Hive、Cassandra、Impala等表1-3大數(shù)據(jù)計(jì)算模式及其代表產(chǎn)品1.6大數(shù)據(jù)計(jì)算模式大數(shù)據(jù)計(jì)算模式解決問題代表產(chǎn)品批處理計(jì)算1.7大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價(jià)值發(fā)現(xiàn)相關(guān)的企業(yè)經(jīng)濟(jì)活動(dòng)的集合產(chǎn)業(yè)鏈環(huán)節(jié)包含內(nèi)容IT基礎(chǔ)設(shè)施層包括提供硬件、軟件、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施以及提供咨詢、規(guī)劃和系統(tǒng)集成服務(wù)的企業(yè),比如,提供數(shù)據(jù)中心解決方案的IBM、惠普和戴爾等,提供存儲(chǔ)解決方案的EMC,提供虛擬化管理軟件的微軟、思杰、SUN、Redhat等數(shù)據(jù)源層大數(shù)據(jù)生態(tài)圈里的數(shù)據(jù)提供者,是生物大數(shù)據(jù)(生物信息學(xué)領(lǐng)域的各類研究機(jī)構(gòu))、交通大數(shù)據(jù)(交通主管部門)、醫(yī)療大數(shù)據(jù)(各大醫(yī)院、體檢機(jī)構(gòu))、政務(wù)大數(shù)據(jù)(政府部門)、電商大數(shù)據(jù)(淘寶、天貓、蘇寧云商、京東等電商)、社交網(wǎng)絡(luò)大數(shù)據(jù)(微博、微信、人人網(wǎng)等)、搜索引擎大數(shù)據(jù)(百度、谷歌等)等各種數(shù)據(jù)的來源數(shù)據(jù)管理層包括數(shù)據(jù)抽取、轉(zhuǎn)換、存儲(chǔ)和管理等服務(wù)的各類企業(yè)或產(chǎn)品,比如分布式文件系統(tǒng)(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、數(shù)據(jù)庫和數(shù)據(jù)倉庫(Oracle、MySQL、SQLServer、HBase、GreenPlum等)數(shù)據(jù)分析層包括提供分布式計(jì)算、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析等服務(wù)的各類企業(yè)或產(chǎn)品,比如,分布式計(jì)算框架MapReduce、統(tǒng)計(jì)分析軟件SPSS和SAS、數(shù)據(jù)挖掘工具Weka、數(shù)據(jù)可視化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等數(shù)據(jù)平臺(tái)層包括提供數(shù)據(jù)分享平臺(tái)、數(shù)據(jù)分析平臺(tái)、數(shù)據(jù)租售平臺(tái)等服務(wù)的企業(yè)或產(chǎn)品,比如阿里巴巴、谷歌、中國電信、百度等數(shù)據(jù)應(yīng)用層提供智能交通、智慧醫(yī)療、智能物流、智能電網(wǎng)等行業(yè)應(yīng)用的企業(yè)、機(jī)構(gòu)或政府部門,比如交通主管部門、各大醫(yī)療機(jī)構(gòu)、菜鳥網(wǎng)絡(luò)、國家電網(wǎng)等1.7大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價(jià)值1.8大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了IT領(lǐng)域最新的技術(shù)發(fā)展趨勢,三者相輔相成,既有聯(lián)系又有區(qū)別1.8大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表1.8.1云計(jì)算云計(jì)算實(shí)現(xiàn)了通過網(wǎng)絡(luò)提供可伸縮的、廉價(jià)的分布式計(jì)算能力,用戶只需要在具備網(wǎng)絡(luò)接入條件的地方,就可以隨時(shí)隨地獲得所需的各種IT資源圖1-7云計(jì)算的服務(wù)模式和類型1.云計(jì)算概念1.8.1云計(jì)算云計(jì)算實(shí)現(xiàn)了通過網(wǎng)絡(luò)提供可伸縮的、廉價(jià)的分布1.8.1云計(jì)算InfrastructureasaServicePlatformasaServiceSoftwareasaServiceSaaSPaaSIaaSGoogleApps,Microsoft“Software+Services”IBMITfactory,GoogleAppEngine,FAmazonEC2,IBMBlueCloud,SunGridServerStorageServerStorageVisualizationInfrastructurePlatformApplication從一個(gè)集中的系統(tǒng)部署軟件,使之在一臺(tái)本地計(jì)算機(jī)上(或從云中遠(yuǎn)程地)運(yùn)行的一個(gè)模型。由于是計(jì)量服務(wù),SaaS允許出租一個(gè)應(yīng)用程序,并計(jì)時(shí)收費(fèi)IaaS將基礎(chǔ)設(shè)施(計(jì)算資源和存儲(chǔ))作為服務(wù)出租PaaS類似于IaaS,但是它包括操作系統(tǒng)和圍繞特定應(yīng)用的必需的服務(wù)SaaS1.8.1云計(jì)算InfrastructureasaSe1.8.1云計(jì)算云計(jì)算關(guān)鍵技術(shù)包括:虛擬化、分布式存儲(chǔ)、分布式計(jì)算、多租戶等2.云計(jì)算關(guān)鍵技術(shù)1.8.1云計(jì)算云計(jì)算關(guān)鍵技術(shù)包括:虛擬化、分布式存儲(chǔ)、分布1.8.1云計(jì)算云計(jì)算數(shù)據(jù)中心是一整套復(fù)雜的設(shè)施,包括刀片服務(wù)器、寬帶網(wǎng)絡(luò)連接、環(huán)境控制設(shè)備、監(jiān)控設(shè)備以及各種安全裝置等數(shù)據(jù)中心是云計(jì)算的重要載體,為云計(jì)算提供計(jì)算、存儲(chǔ)、帶寬等各種硬件資源,為各種平臺(tái)和應(yīng)用提供運(yùn)行支撐環(huán)境全國各地推進(jìn)數(shù)據(jù)中心建設(shè)3.云計(jì)算數(shù)據(jù)中心1.8.1云計(jì)算云計(jì)算數(shù)據(jù)中心是一整套復(fù)雜的設(shè)施,包括刀片服1.8.1云計(jì)算政務(wù)云上可以部署公共安全管理、容災(zāi)備份、城市管理、應(yīng)急管理、智能交通、社會(huì)保障等應(yīng)用,通過集約化建設(shè)、管理和運(yùn)行,可以實(shí)現(xiàn)信息資源整合和政務(wù)資源共享,推動(dòng)政務(wù)管理創(chuàng)新,加快向服務(wù)型政府轉(zhuǎn)型教育云可以有效整合幼兒教育、中小學(xué)教育、高等教育以及繼續(xù)教育等優(yōu)質(zhì)教育資源,逐步實(shí)現(xiàn)教育信息共享、教育資源共享及教育資源深度挖掘等目標(biāo)中小企業(yè)云能夠讓企業(yè)以低廉的成本建立財(cái)務(wù)、供應(yīng)鏈、客戶關(guān)系等管理應(yīng)用系統(tǒng),大大降低企業(yè)信息化門檻,迅速提升企業(yè)信息化水平,增強(qiáng)企業(yè)市場競爭力醫(yī)療云可以推動(dòng)醫(yī)院與醫(yī)院、醫(yī)院與社區(qū)、醫(yī)院與急救中心、醫(yī)院與家庭之間的服務(wù)共享,并形成一套全新的醫(yī)療健康服務(wù)系統(tǒng),從而有效地提高醫(yī)療保健的質(zhì)量4.云計(jì)算應(yīng)用1.8.1云計(jì)算政務(wù)云上可以部署公共安全管理、容災(zāi)備份、城市1.8.1云計(jì)算

云計(jì)算產(chǎn)業(yè)作為戰(zhàn)略性新興產(chǎn)業(yè),近些年得到了迅速發(fā)展,形成了成熟的產(chǎn)業(yè)鏈結(jié)構(gòu),產(chǎn)業(yè)涵蓋硬件與設(shè)備制造、基礎(chǔ)設(shè)施運(yùn)營、軟件與解決方案供應(yīng)商、基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺(tái)即服務(wù)(PaaS)、軟件即服務(wù)(SaaS)、終端設(shè)備、云安全、云計(jì)算交付/咨詢/認(rèn)證等環(huán)節(jié)5.云計(jì)算產(chǎn)業(yè)1.8.1云計(jì)算云計(jì)算產(chǎn)業(yè)作為戰(zhàn)略性新興產(chǎn)業(yè),近些年得到了1.8.1云計(jì)算圖1-8云計(jì)算產(chǎn)業(yè)鏈5.云計(jì)算產(chǎn)業(yè)1.8.1云計(jì)算圖1-8云計(jì)算產(chǎn)業(yè)鏈5.云計(jì)算產(chǎn)業(yè)1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng),是互聯(lián)網(wǎng)的延伸,它利用局部網(wǎng)絡(luò)或互聯(lián)網(wǎng)等通信技術(shù)把傳感器、控制器、機(jī)器、人員和物等通過新的方式聯(lián)在一起,形成人與物、物與物相聯(lián),實(shí)現(xiàn)信息化和遠(yuǎn)程管理控制1.物聯(lián)網(wǎng)概念1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng),是互聯(lián)網(wǎng)的延伸,它1.8.2物聯(lián)網(wǎng)1.物聯(lián)網(wǎng)概念圖1-9物聯(lián)網(wǎng)體系架構(gòu)1.8.2物聯(lián)網(wǎng)1.物聯(lián)網(wǎng)概念圖1-9物聯(lián)網(wǎng)體系架構(gòu)1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)中的關(guān)鍵技術(shù)包括識(shí)別和感知技術(shù)(二維碼、RFID、傳感器等)、網(wǎng)絡(luò)與通信技術(shù)、數(shù)據(jù)挖掘與融合技術(shù)等2.物聯(lián)網(wǎng)關(guān)鍵技術(shù)圖1-10矩陣式二維碼圖1-11采用RFID芯片的公交卡圖1-12不同類型的傳感器1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)中的關(guān)鍵技術(shù)包括識(shí)別和感知技術(shù)(二維碼1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)已經(jīng)廣泛應(yīng)用于智能交通、智慧醫(yī)療、智能家居、環(huán)保監(jiān)測、智能安防、智能物流、智能電網(wǎng)、智慧農(nóng)業(yè)、智能工業(yè)等領(lǐng)域,對國民經(jīng)濟(jì)與社會(huì)發(fā)展起到了重要的推動(dòng)作用3.物聯(lián)網(wǎng)應(yīng)用1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)已經(jīng)廣泛應(yīng)用于智能交通、智慧醫(yī)療、智能1.8.2物聯(lián)網(wǎng)完整的物聯(lián)網(wǎng)產(chǎn)業(yè)鏈主要包括核心感應(yīng)器件提供商、感知層末端設(shè)備提供商、網(wǎng)絡(luò)提供商、軟件與行業(yè)解決方案提供商、系統(tǒng)集成商、運(yùn)營及服務(wù)提供商等六大環(huán)節(jié)4.物聯(lián)網(wǎng)產(chǎn)業(yè)1.8.2物聯(lián)網(wǎng)完整的物聯(lián)網(wǎng)產(chǎn)業(yè)鏈主要包括核心感應(yīng)器件提供商1.8.2物聯(lián)網(wǎng)圖1-8物聯(lián)網(wǎng)產(chǎn)業(yè)鏈4.物聯(lián)網(wǎng)產(chǎn)業(yè)1.8.2物聯(lián)網(wǎng)圖1-8物聯(lián)網(wǎng)產(chǎn)業(yè)鏈4.物聯(lián)網(wǎng)產(chǎn)業(yè)1.8.3大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了IT領(lǐng)域最新的技術(shù)發(fā)展趨勢,三者既有區(qū)別又有聯(lián)系圖1-9大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)之間的關(guān)系1.8.3大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)本章小結(jié)本章介紹了大數(shù)據(jù)技術(shù)的發(fā)展歷程,并指出信息科技的不斷進(jìn)步為大數(shù)據(jù)時(shí)代提供了技術(shù)支撐,數(shù)據(jù)產(chǎn)生方式的變革促成了大數(shù)據(jù)時(shí)代的來臨大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)類型繁多、處理速度快、價(jià)值密度低等特點(diǎn),統(tǒng)稱“4V”。大數(shù)據(jù)對科學(xué)研究、思維方式、社會(huì)發(fā)展、就業(yè)市場和人才培養(yǎng)等方面,都產(chǎn)生了重要的影響,深刻理解大數(shù)據(jù)的這些影響,有助于我們更好把握學(xué)習(xí)和應(yīng)用大數(shù)據(jù)的方向大數(shù)據(jù)在金融、汽車、零售、餐飲、電信、能源、政務(wù)、醫(yī)療、體育、娛樂等在內(nèi)的社會(huì)各行各業(yè)都得到了日益廣泛的應(yīng)用,深刻地改變著我們的社會(huì)生產(chǎn)和日常生活本章小結(jié)本章介紹了大數(shù)據(jù)技術(shù)的發(fā)展歷程,并指出信息科技的不斷本章小結(jié)大數(shù)據(jù)并非單一的數(shù)據(jù)或技術(shù),而是數(shù)據(jù)和大數(shù)據(jù)技術(shù)的綜合體。大數(shù)據(jù)技術(shù)主要包括數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和管理、數(shù)據(jù)處理與分析、數(shù)據(jù)安全和隱私保護(hù)等幾個(gè)層面的內(nèi)容大數(shù)據(jù)產(chǎn)業(yè)包括IT基礎(chǔ)設(shè)施層、數(shù)據(jù)源層、數(shù)據(jù)管理層、數(shù)據(jù)分析層、數(shù)據(jù)平臺(tái)層和數(shù)據(jù)應(yīng)用層,在不同層面,都已經(jīng)形成了一批引領(lǐng)市場的技術(shù)和企業(yè)本章最后介紹了云計(jì)算和物聯(lián)網(wǎng)的概念和關(guān)鍵技術(shù),并闡述了大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)三者之間的區(qū)別與聯(lián)系本章小結(jié)大數(shù)據(jù)并非單一的數(shù)據(jù)或技術(shù),而是數(shù)據(jù)和大數(shù)據(jù)技術(shù)的綜第二章大數(shù)據(jù)處理架構(gòu)Hadoop53ppt精選版第二章大數(shù)據(jù)處理架構(gòu)Hadoop53ppt精選版提綱2.1概述2.2Hadoop項(xiàng)目結(jié)構(gòu)2.3Hadoop的安裝與使用2.4Hadoop集群的部署與使用提綱2.1概述2.1概述2.1.1 Hadoop簡介2.1.2 Hadoop發(fā)展簡史2.1.3 Hadoop的特性2.1.4 Hadoop的應(yīng)用現(xiàn)狀Hadoop的標(biāo)志55ppt精選版2.1概述2.1.1 Hadoop簡介Hadoop的標(biāo)志52.1.1Hadoop簡介

Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式計(jì)算平臺(tái),為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)Hadoop是基于Java語言開發(fā)的,具有很好的跨平臺(tái)特性,并且可以部署在廉價(jià)的計(jì)算機(jī)集群中Hadoop的核心是分布式文件系統(tǒng)HDFS(HadoopDistributedFileSystem)和MapReduceHadoop被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件,在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力幾乎所有主流廠商都圍繞Hadoop提供開發(fā)工具、開源軟件、商業(yè)化工具和技術(shù)服務(wù),如谷歌、雅虎、微軟、思科、淘寶等,都支持Hadoop2.1.1Hadoop簡介Hadoop是Apache軟件2.1.2Hadoop發(fā)展簡史

Hadoop最初是由ApacheLucene項(xiàng)目的創(chuàng)始人DougCutting開發(fā)的文本搜索庫。Hadoop源自始于2002年的ApacheNutch項(xiàng)目——一個(gè)開源的網(wǎng)絡(luò)搜索引擎并且也是Lucene項(xiàng)目的一部分

在2004年,Nutch項(xiàng)目也模仿GFS開發(fā)了自己的分布式文件系統(tǒng)NDFS(NutchDistributedFileSystem),也就是HDFS的前身2004年,谷歌公司又發(fā)表了另一篇具有深遠(yuǎn)影響的論文,闡述了MapReduce分布式編程思想2005年,Nutch開源實(shí)現(xiàn)了谷歌的MapReduce2.1.2Hadoop發(fā)展簡史Hadoop最初是由Apa2.1.2Hadoop發(fā)展簡史

到了2006年2月,Nutch中的NDFS和MapReduce開始獨(dú)立出來,成為Lucene項(xiàng)目的一個(gè)子項(xiàng)目,稱為Hadoop,同時(shí),DougCutting加盟雅虎2008年1月,Hadoop正式成為Apache頂級項(xiàng)目,Hadoop也逐漸開始被雅虎之外的其他公司使用2008年4月,Hadoop打破世界紀(jì)錄,成為最快排序1TB數(shù)據(jù)的系統(tǒng),它采用一個(gè)由910個(gè)節(jié)點(diǎn)構(gòu)成的集群進(jìn)行運(yùn)算,排序時(shí)間只用了209秒在2009年5月,Hadoop更是把1TB數(shù)據(jù)排序時(shí)間縮短到62秒。Hadoop從此名聲大震,迅速發(fā)展成為大數(shù)據(jù)時(shí)代最具影響力的開源分布式開發(fā)平臺(tái),并成為事實(shí)上的大數(shù)據(jù)處理標(biāo)準(zhǔn)2.1.2Hadoop發(fā)展簡史到了2006年2月,Nut2.1.3Hadoop的特性

Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,并且是以一種可靠、高效、可伸縮的方式進(jìn)行處理的,它具有以下幾個(gè)方面的特性:

高可靠性

高效性

高可擴(kuò)展性

高容錯(cuò)性

成本低

運(yùn)行在Linux平臺(tái)上

支持多種編程語言2.1.3Hadoop的特性Hadoop是一2.1.3Hadoop的應(yīng)用現(xiàn)狀

Hadoop憑借其突出的優(yōu)勢,已經(jīng)在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用,而互聯(lián)網(wǎng)領(lǐng)域是其應(yīng)用的主陣地2007年,雅虎在Sunnyvale總部建立了M45——一個(gè)包含了4000個(gè)處理器和1.5PB容量的Hadoop集群系統(tǒng)Facebook作為全球知名的社交網(wǎng)站,Hadoop是非常理想的選擇,F(xiàn)acebook主要將Hadoop平臺(tái)用于日志處理、推薦系統(tǒng)和數(shù)據(jù)倉庫等方面

國內(nèi)采用Hadoop的公司主要有百度、淘寶、網(wǎng)易、華為、中國移動(dòng)等,其中,淘寶的Hadoop集群比較大2.1.3Hadoop的應(yīng)用現(xiàn)狀Hadoop憑借其突出的2.1.3Hadoop的應(yīng)用現(xiàn)狀Hadoop在企業(yè)中的應(yīng)用架構(gòu)2.1.3Hadoop的應(yīng)用現(xiàn)狀Hadoop在企業(yè)中的應(yīng)用2.1.4ApacheHadoop版本演變ApacheHadoop版本分為兩代,我們將第一代Hadoop稱為Hadoop1.0,第二代Hadoop稱為Hadoop2.0第一代Hadoop包含三個(gè)大版本,分別是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,變成了穩(wěn)定版,而0.21.x和0.22.x則增加了NameNodeHA等新的重大特性第二代Hadoop包含兩個(gè)版本,分別是0.23.x和2.x,它們完全不同于Hadoop1.0,是一套全新的架構(gòu),均包含HDFSFederation和YARN兩個(gè)系統(tǒng),相比于0.23.x,2.x增加了NameNodeHA和Wire-compatibility兩個(gè)重大特性2.1.4ApacheHadoop版本演變Apache2.1.4ApacheHadoop版本演變2.1.4ApacheHadoop版本演變ApacheHadoopHortonworksCloudera(CDH:ClouderaDistributionHadoop)MapR……2.1.5Hadoop各種版本選擇Hadoop版本的考慮因素:是否開源(即是否免費(fèi))是否有穩(wěn)定版是否經(jīng)實(shí)踐檢驗(yàn)是否有強(qiáng)大的社區(qū)支持ApacheHadoop2.1.5Hadoop各種版本選2.1.5Hadoop各種版本2.1.5Hadoop各種版本2.2Hadoop項(xiàng)目結(jié)構(gòu)Hadoop的項(xiàng)目結(jié)構(gòu)不斷豐富發(fā)展,已經(jīng)形成一個(gè)豐富的Hadoop生態(tài)系統(tǒng)2.2Hadoop項(xiàng)目結(jié)構(gòu)Hadoop的項(xiàng)目結(jié)構(gòu)不斷豐富發(fā)2.2Hadoop項(xiàng)目結(jié)構(gòu)組件功能HDFS分布式文件系統(tǒng)MapReduce分布式并行編程模型YARN資源管理和調(diào)度器Tez運(yùn)行在YARN之上的下一代Hadoop查詢處理框架HiveHadoop上的數(shù)據(jù)倉庫HBaseHadoop上的非關(guān)系型的分布式數(shù)據(jù)庫Pig一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái),提供類似SQL的查詢語言PigLatinSqoop用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)傳遞OozieHadoop上的工作流管理系統(tǒng)Zookeeper提供分布式協(xié)調(diào)一致性服務(wù)Storm流計(jì)算框架Flume一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)AmbariHadoop快速部署工具,支持ApacheHadoop集群的供應(yīng)、管理和監(jiān)控Kafka一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)Spark類似于HadoopMapReduce的通用并行框架2.2Hadoop項(xiàng)目結(jié)構(gòu)組件功能HDFS分布式文件系統(tǒng)M2.3 Hadoop的安裝與使用2.3.1Hadoop安裝之前的預(yù)備知識(shí)2.3.2安裝Linux虛擬機(jī)2.3.3安裝雙操作系統(tǒng)2.3.4詳解Hadoop的安裝與使用68ppt精選版2.3 Hadoop的安裝與使用2.3.1Hadoop安裝2.3.1Hadoop安裝之前的預(yù)備知識(shí)(一)Linux的選擇(1)選擇哪個(gè)Linux發(fā)行版?在Linux系統(tǒng)各個(gè)發(fā)行版中,CentOS系統(tǒng)和Ubuntu系統(tǒng)在服務(wù)端和桌面端使用占比最高,網(wǎng)絡(luò)上資料最是齊全,所以建議使用CentOS或Ubuntu在學(xué)習(xí)Hadoop方面,雖然兩個(gè)系統(tǒng)沒有多大區(qū)別,但是推薦使用Ubuntu操作系統(tǒng)(2)選擇32位還是64位?如果電腦比較老或者內(nèi)存小于2G,那么建議選擇32位系統(tǒng)版本的Linux如果內(nèi)存大于4G,那么建議選擇64位系統(tǒng)版本的Linux2.3.1Hadoop安裝之前的預(yù)備知識(shí)(一)Linux的2.3.1Hadoop安裝之前的預(yù)備知識(shí)(二)系統(tǒng)安裝方式:選擇虛擬機(jī)安裝還是雙系統(tǒng)安裝建議電腦比較新或者配置內(nèi)存4G以上的電腦可以選擇虛擬機(jī)安裝電腦較舊或配置內(nèi)存小于等于4G的電腦強(qiáng)烈建議選擇雙系統(tǒng)安裝,否則,在配置較低的計(jì)算機(jī)上運(yùn)行LInux虛擬機(jī),系統(tǒng)運(yùn)行速度會(huì)非常慢鑒于目前教師和學(xué)生的計(jì)算機(jī)硬件配置一般不高,建議在實(shí)踐教學(xué)中采用雙系統(tǒng)安裝,確保系統(tǒng)運(yùn)行速度2.3.1Hadoop安裝之前的預(yù)備知識(shí)(二)系統(tǒng)安裝方式2.3.1Hadoop安裝之前的預(yù)備知識(shí)(三)關(guān)于Linux的一些基礎(chǔ)知識(shí)Shell是指“提供使用者使用界面”的軟件(命令解析器),類似于DOS下的command和后來的cmd.exe。它接收用戶命令,然后調(diào)用相應(yīng)的應(yīng)用程序sudo命令sudo是ubuntu中一種權(quán)限管理機(jī)制,管理員可以授權(quán)給一些普通用戶去執(zhí)行一些需要root權(quán)限執(zhí)行的操作。當(dāng)使用sudo命令時(shí),就需要輸入您當(dāng)前用戶的密碼2.3.1Hadoop安裝之前的預(yù)備知識(shí)(三)關(guān)于Linu2.3.1Hadoop安裝之前的預(yù)備知識(shí)輸入密碼在Linux的終端中輸入密碼,終端是不會(huì)顯示任何你當(dāng)前輸入的密碼,也不會(huì)提示你已經(jīng)輸入了多少字符密碼,讀者不要誤以為鍵盤沒有響應(yīng)輸入法中英文切換linux中英文的切換方式是使用鍵盤“shift”鍵來切換,也可以點(diǎn)擊頂部菜單的輸入法按鈕進(jìn)行切換。Ubuntu自帶的Sunpinyin中文輸入法已經(jīng)足夠讀者使用Ubuntu終端復(fù)制粘貼快捷鍵在Ubuntu終端窗口中,復(fù)制粘貼的快捷鍵需要加上shift,即粘貼是ctrl+shift+v2.3.1Hadoop安裝之前的預(yù)備知識(shí)輸入密碼2.3.1Hadoop安裝之前的預(yù)備知識(shí)(四)Hadoop安裝方式單機(jī)模式:Hadoop默認(rèn)模式為非分布式模式(本地模式),無需進(jìn)行其他配置即可運(yùn)行。非分布式即單Java進(jìn)程,方便進(jìn)行調(diào)試偽分布式模式:Hadoop可以在單節(jié)點(diǎn)上以偽分布式的方式運(yùn)行,Hadoop進(jìn)程以分離的Java進(jìn)程來運(yùn)行,節(jié)點(diǎn)既作為NameNode也作為DataNode,同時(shí),讀取的是HDFS中的文件分布式模式:使用多個(gè)節(jié)點(diǎn)構(gòu)成集群環(huán)境來運(yùn)行Hadoop2.3.1Hadoop安裝之前的預(yù)備知識(shí)(四)Hadoop2.3.2安裝Linux虛擬機(jī)一、材料和工具1、下載VirtualBox虛擬機(jī)軟件2.下載UbuntuLTS14.04ISO映像文件二、步驟(一)確認(rèn)系統(tǒng)版本如果選擇的系統(tǒng)是64位Ubuntu系統(tǒng),那么在安裝虛擬機(jī)前,我們還要進(jìn)入BIOS開啟CPU的虛擬化2.3.2安裝Linux虛擬機(jī)一、材料和工具二、步驟2.3.2安裝Linux虛擬機(jī)2.3.2安裝Linux虛擬機(jī)2.3.2安裝Linux虛擬機(jī)(二)安裝前的準(zhǔn)備1.打開VirtualBox,點(diǎn)擊“創(chuàng)建”按鈕,創(chuàng)建一個(gè)虛擬機(jī)2.給虛擬機(jī)命名,選擇操作系統(tǒng),版本3.選擇內(nèi)存大小,這里設(shè)置的1024M4.創(chuàng)建虛擬硬盤5.選擇虛擬硬盤文件類型VDI6.虛擬硬盤選擇動(dòng)態(tài)分配7.選擇文件存儲(chǔ)的位置和容量大小8.點(diǎn)擊創(chuàng)建2.3.2安裝Linux虛擬機(jī)(二)安裝前的準(zhǔn)備1.打開V2.3.2安裝Linux虛擬機(jī)(二)安裝前的準(zhǔn)備2.3.2安裝Linux虛擬機(jī)(二)安裝前的準(zhǔn)備2.3.2安裝Linux虛擬機(jī)(三)安裝Ubuntu2.3.2安裝Linux虛擬機(jī)(三)安裝Ubuntu2.3.2安裝Linux虛擬機(jī)(三)安裝Ubuntu2.3.2安裝Linux虛擬機(jī)(三)安裝Ubuntu2.3.3安裝雙操作系統(tǒng)第一步:制作安裝U盤具體可參考百度經(jīng)驗(yàn)文章/article/59703552e0a6e18fc007409f.html第二步:雙系統(tǒng)安裝具體可參考百度經(jīng)驗(yàn)文章/article/dca1fa6fa3b905f1a44052bd.html安裝后Window和Ubuntu14.04都可以用,默認(rèn)windows優(yōu)先啟動(dòng)可以在電腦啟動(dòng)時(shí),選擇進(jìn)入U(xiǎn)buntu系統(tǒng)而不是Windows系統(tǒng)2.3.3安裝雙操作系統(tǒng)第一步:制作安裝U盤安裝后Wind2.3.4Hadoop的安裝與使用(單機(jī)/偽分布式)Hadoop基本安裝配置主要包括以下幾個(gè)步驟:創(chuàng)建Hadoop用戶SSH登錄權(quán)限設(shè)置安裝Java環(huán)境單機(jī)安裝配置偽分布式安裝配置2.3.4Hadoop的安裝與使用(單機(jī)/偽分布式)Had創(chuàng)建Hadoop用戶如果安裝Ubuntu的時(shí)候不是用的“hadoop”用戶,那么需要增加一個(gè)名為hadoop的用戶首先按

ctrl+alt+t

打開終端窗口,輸入如下命令創(chuàng)建新用戶:$sudouseradd–mhadoop–s/bin/bash上面這條命令創(chuàng)建了可以登陸的hadoop用戶,并使用/bin/bash作為shell82ppt精選版創(chuàng)建Hadoop用戶如果安裝Ubuntu的時(shí)候不是用的創(chuàng)建Hadoop用戶接著使用如下命令設(shè)置密碼,可簡單設(shè)置為hadoop,按提示輸入兩次密碼:$sudopasswdhadoop可為hadoop用戶增加管理員權(quán)限,方便部署,避免一些對新手來說比較棘手的權(quán)限問題:$sudoadduserhadoopsudo83ppt精選版創(chuàng)建Hadoop用戶接著使用如下命令設(shè)置密碼,可簡單設(shè)置為SSH登錄權(quán)限設(shè)置SSH是什么?SSH

SecureShell

的縮寫,是建立在應(yīng)用層和傳輸層基礎(chǔ)上的安全協(xié)議。SSH是目前較可靠、專為遠(yuǎn)程登錄會(huì)話和其他網(wǎng)絡(luò)服務(wù)提供安全性的協(xié)議。利用SSH協(xié)議可以有效防止遠(yuǎn)程管理過程中的信息泄露問題。SSH最初是UNIX系統(tǒng)上的一個(gè)程序,后來又迅速擴(kuò)展到其他操作平臺(tái)。SSH是由客戶端和服務(wù)端的軟件組成,服務(wù)端是一個(gè)守護(hù)進(jìn)程(daemon),它在后臺(tái)運(yùn)行并響應(yīng)來自客戶端的連接請求,客戶端包含ssh程序以及像scp(遠(yuǎn)程拷貝)、slogin(遠(yuǎn)程登陸)、sftp(安全文件傳輸)等其他的應(yīng)用程序84ppt精選版SSH登錄權(quán)限設(shè)置SSH是什么?84ppt精選版SSH登錄權(quán)限設(shè)置配置SSH的原因:Hadoop名稱節(jié)點(diǎn)(NameNode)需要啟動(dòng)集群中所有機(jī)器的Hadoop守護(hù)進(jìn)程,這個(gè)過程需要通過SSH登錄來實(shí)現(xiàn)。Hadoop并沒有提供SSH輸入密碼登錄的形式,因此,為了能夠順利登錄每臺(tái)機(jī)器,需要將所有機(jī)器配置為名稱節(jié)點(diǎn)可以無密碼登錄它們85ppt精選版SSH登錄權(quán)限設(shè)置配置SSH的原因:85ppt精選版安裝Java環(huán)境Java環(huán)境可選擇Oracle的JDK,或是OpenJDK可以在Ubuntu中直接通過命令安裝OpenJDK7$sudoapt-getinstallopenjdk-7-jreopenjdk-7-jdk還需要配置一下JAVA_HOME環(huán)境變量

具體請參考網(wǎng)絡(luò)教程:/blog/install-hadoop/86ppt精選版安裝Java環(huán)境Java環(huán)境可選擇Oracle的JDK單機(jī)安裝配置Hadoop2可以到官網(wǎng)下載,需要下載

hadoop-2.x.y.tar.gz

這個(gè)格式的文件,這是編譯好的,另一個(gè)包含src的則是Hadoop源代碼,需要進(jìn)行編譯才可使用Hadoop2安裝文件的下載如果讀者是使用虛擬機(jī)方式安裝Ubuntu系統(tǒng)的用戶,請用虛擬機(jī)中的Ubuntu自帶firefox瀏覽器訪問本指南,再點(diǎn)擊下載地址,才能把hadoop文件下載虛擬機(jī)ubuntu中。請不要使用Windows系統(tǒng)下的瀏覽器下載,文件會(huì)被下載到Windows系統(tǒng)中,虛擬機(jī)中的Ubuntu無法訪問外部Windows系統(tǒng)的文件,造成不必要的麻煩。如果讀者是使用雙系統(tǒng)方式安裝Ubuntu系統(tǒng)的用戶,請進(jìn)去Ubuntu系統(tǒng),在Ubuntu系統(tǒng)打開firefox瀏覽器,再點(diǎn)擊下載單機(jī)安裝配置Hadoop2可以到官網(wǎng)下載,需要下載

ha單機(jī)安裝配置選擇將Hadoop安裝至/usr/local/中$sudotar-zxf~/下載/hadoop-2.6.0.tar.gz-C/usr/local#解壓到/usr/local中$cd/usr/local/$sudomv./hadoop-2.6.0/./hadoop#將文件夾名改為hadoop$sudochown-Rhadoop:hadoop./hadoop#修改文件權(quán)限Hadoop解壓后即可使用。輸入如下命令來檢查Hadoop是否可用,成功則會(huì)顯示Hadoop版本信息:$cd/usr/local/hadoop$./bin/hadoopversionHadoop默認(rèn)模式為非分布式模式(本地模式),無需進(jìn)行其他配置即可運(yùn)行。單機(jī)安裝配置選擇將Hadoop安裝至/usr/loca偽分布式安裝配置Hadoop可以在單節(jié)點(diǎn)上以偽分布式的方式運(yùn)行,Hadoop進(jìn)程以分離的Java進(jìn)程來運(yùn)行,節(jié)點(diǎn)既作為NameNode也作為DataNode,同時(shí),讀取的是HDFS中的文件Hadoop的配置文件位于/usr/local/hadoop/etc/hadoop/中,偽分布式需要修改2個(gè)配置文件

core-site.xml

hdfs-site.xml

Hadoop的配置文件是xml格式,每個(gè)配置以聲明property的name和value的方式來實(shí)現(xiàn)89ppt精選版?zhèn)畏植际桨惭b配置Hadoop可以在單節(jié)點(diǎn)上以偽分布式的方式偽分布式安裝配置實(shí)驗(yàn)步驟:修改配置文件:core-site.xml,hdfs-site.xml,mapred-site.xml初始化文件系統(tǒng)hadoopnamenode-format啟動(dòng)所有進(jìn)程start-all.sh訪問web界面,查看Hadoop信息運(yùn)行實(shí)例90ppt精選版?zhèn)畏植际桨惭b配置實(shí)驗(yàn)步驟:90ppt精選版?zhèn)畏植际桨惭b配置修改配置文件

hdfs-site.xml<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>偽分布式安裝配置修改配置文件

hdfs-site.xml<c偽分布式安裝配置name為fs.defaultFS的值,表示hdfs路徑的邏輯名稱hadoop.tmp.dir表示存放臨時(shí)數(shù)據(jù)的目錄,即包括NameNode的數(shù)據(jù),也包括DataNode的數(shù)據(jù)。該路徑任意指定,只要實(shí)際存在該文件夾即可

偽分布式安裝配置name為fs.defaultFS的值,表示偽分布式安裝配置修改配置文件

hdfs-site.xml<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>dfs.replication表示副本的數(shù)量,偽分布式要設(shè)置為1.dir表示本地磁盤目錄,是存儲(chǔ)fsimage文件的地方dfs.datanode.data.dir表示本地磁盤目錄,HDFS數(shù)據(jù)存放block的地方偽分布式安裝配置修改配置文件

hdfs-site.xml<c偽分布式安裝配置關(guān)于三種Shell命令方式的區(qū)別:1.hadoopfs2.hadoopdfs3.hdfsdfshadoopfs適用于任何不同的文件系統(tǒng),比如本地文件系統(tǒng)和HDFS文件系統(tǒng)hadoopdfs只能適用于HDFS文件系統(tǒng)hdfsdfs跟hadoopdfs的命令作用一樣,也只能適用于HDFS文件系統(tǒng)偽分布式安裝配置關(guān)于三種Shell命令方式的區(qū)別:2.4.1集群節(jié)點(diǎn)類型2.4.2集群規(guī)模2.4.3集群硬件配置2.4.4集群網(wǎng)絡(luò)拓?fù)?.4.5集群的建立與安裝2.4.6集群基準(zhǔn)測試2.4.7在云計(jì)算環(huán)境中使用Hadoop2.4Hadoop集群的部署與使用2.4.1集群節(jié)點(diǎn)類型2.4Hadoop集群的部署與使用2.4.1Hadoop集群中有哪些節(jié)點(diǎn)類型Hadoop框架中最核心的設(shè)計(jì)是為海量數(shù)據(jù)提供存儲(chǔ)的HDFS和對數(shù)據(jù)進(jìn)行計(jì)算的MapReduceMapReduce的作業(yè)主要包括:(1)從磁盤或從網(wǎng)絡(luò)讀取數(shù)據(jù),即IO密集工作;(2)計(jì)算數(shù)據(jù),即CPU密集工作Hadoop集群的整體性能取決于CPU、內(nèi)存、網(wǎng)絡(luò)以及存儲(chǔ)之間的性能平衡。因此運(yùn)營團(tuán)隊(duì)在選擇機(jī)器配置時(shí)要針對不同的工作節(jié)點(diǎn)選擇合適硬件類型一個(gè)基本的Hadoop集群中的節(jié)點(diǎn)主要有NameNode:負(fù)責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲(chǔ)DataNode:存儲(chǔ)被拆分的數(shù)據(jù)塊JobTracker:協(xié)調(diào)數(shù)據(jù)計(jì)算任務(wù)TaskTracker:負(fù)責(zé)執(zhí)行由JobTracker指派的任務(wù)SecondaryNameNode:幫助NameNode收集文件系統(tǒng)運(yùn)行的狀態(tài)信息2.4.1Hadoop集群中有哪些節(jié)點(diǎn)類型Hadoop框架2.4.2集群硬件配置在集群中,大部分的機(jī)器設(shè)備是作為Datanode和TaskTracker工作的Datanode/TaskTracker的硬件規(guī)格可以采用以下方案:4個(gè)磁盤驅(qū)動(dòng)器(單盤1-2T),支持JBOD(JustaBunchOfDisks,磁盤簇)2個(gè)4核CPU,至少2-2.5GHz16-24GB內(nèi)存千兆以太網(wǎng)2.4.2集群硬件配置在集群中,大部分的機(jī)器設(shè)備是作為Da2.4.2集群硬件配置NameNode提供整個(gè)HDFS文件系統(tǒng)的NameSpace(命名空間)管理、塊管理等所有服務(wù),因此需要更多的RAM,與集群中的數(shù)據(jù)塊數(shù)量相對應(yīng),并且需要優(yōu)化RAM的內(nèi)存通道帶寬,采用雙通道或三通道以上內(nèi)存。硬件規(guī)格可以采用以下方案:8-12個(gè)磁盤驅(qū)動(dòng)器(單盤1-2T)2個(gè)4核/8核CPU16-72GB內(nèi)存千兆/萬兆以太網(wǎng)2.4.2集群硬件配置NameNode提供整個(gè)HDFS文件2.4.2集群硬件配置SecondaryNameNode在小型集群中可以和NameNode共用一臺(tái)機(jī)器,較大的群集可以采用與NameNode相同的硬件2.4.2集群硬件配置SecondaryNameNode在2.4.3集群規(guī)模要多大

Hadoop集群規(guī)??纱罂尚?,初始時(shí),可以從一個(gè)較小規(guī)模的集群開始,比如包含10個(gè)節(jié)點(diǎn),然后,規(guī)模隨著存儲(chǔ)器和計(jì)算需求的擴(kuò)大而擴(kuò)大如果數(shù)據(jù)每周增大1TB,并且有三個(gè)HDFS副本,然后每周需要一個(gè)額外的3TB作為原始數(shù)據(jù)存儲(chǔ)。要允許一些中間文件和日志(假定30%)的空間,由此,可以算出每周大約需要增加一臺(tái)新機(jī)器。存儲(chǔ)兩年數(shù)據(jù)的集群,大約需要100臺(tái)機(jī)器對于一個(gè)小的集群,名稱節(jié)點(diǎn)(NameNode)和JobTracker運(yùn)行在單個(gè)節(jié)點(diǎn)上,通常是可以接受的。但是,隨著集群和存儲(chǔ)在HDFS中的文件數(shù)量的增加,名稱節(jié)點(diǎn)需要更多的主存,這時(shí),名稱節(jié)點(diǎn)和JobTracker就需要運(yùn)行在不同的節(jié)點(diǎn)上第二名稱節(jié)點(diǎn)(SecondaryNameNode)會(huì)和名稱節(jié)點(diǎn)可以運(yùn)行在相同的機(jī)器上,但是,由于第二名稱節(jié)點(diǎn)和名稱節(jié)點(diǎn)幾乎具有相同的主存需求,因此,二者最好運(yùn)行在不同節(jié)點(diǎn)上2.4.3集群規(guī)模要多大Hadoop集群規(guī)??纱罂尚?,初2.4.4集群網(wǎng)絡(luò)拓?fù)淦胀ǖ腍adoop集群結(jié)構(gòu)由一個(gè)兩階網(wǎng)絡(luò)構(gòu)成每個(gè)機(jī)架(Rack)有30-40個(gè)服務(wù)器,配置一個(gè)1GB的交換機(jī),并向上傳輸?shù)揭粋€(gè)核心交換機(jī)或者路由器(1GB或以上)在相同的機(jī)架中的節(jié)點(diǎn)間的帶寬的總和,要大于不同機(jī)架間的節(jié)點(diǎn)間的帶寬總和2.4.4集群網(wǎng)絡(luò)拓?fù)淦胀ǖ腍adoop集群結(jié)構(gòu)由一個(gè)兩階2.4.5集群的建立與安裝采購好相關(guān)的硬件設(shè)備后,就可以把硬件裝入機(jī)架,安裝并運(yùn)行Hadoop安裝Hadoop有多種方法:(1)手動(dòng)安裝(2)自動(dòng)化安裝為了緩解安裝和維護(hù)每個(gè)節(jié)點(diǎn)上相同的軟件的負(fù)擔(dān),可以使用一個(gè)自動(dòng)化方法實(shí)現(xiàn)完全自動(dòng)化安裝,比如RedHatLinux’Kickstart、Debian或者Docker自動(dòng)化安裝部署工具,會(huì)通過記錄在安裝過程中對于各個(gè)選項(xiàng)的回答來完成自動(dòng)化安裝過程。

2.4.5集群的建立與安裝采購好相關(guān)的硬件設(shè)備后,就可以把2.4.6Hadoop集群基準(zhǔn)測試如何判斷一個(gè)Hadoop集群是否已經(jīng)正確安裝?可以運(yùn)行基準(zhǔn)測試Hadoop自帶有一些基準(zhǔn)測試程序,被打包在測試程序JAR文件中用TestDFSIO基準(zhǔn)測試,來測試HDFS的IO性能用排序測試MapReduce:Hadoop自帶一個(gè)部分排序的程序,這個(gè)測試過程的整個(gè)數(shù)據(jù)集都會(huì)通過洗牌(Shuffle)傳輸至Reducer,可以充分測試MapReduce的性能2.4.6Hadoop集群基準(zhǔn)測試如何判斷一個(gè)Hadoop2.4.7在云計(jì)算環(huán)境中使用HadoopHadoop不僅可以運(yùn)行在企業(yè)內(nèi)部的集群中,也可以運(yùn)行在云計(jì)算環(huán)境中可以在AmazonEC2中運(yùn)行Hadoop。EC2是一個(gè)計(jì)算服務(wù),允許客戶租用計(jì)算機(jī)(實(shí)例),來運(yùn)行自己的應(yīng)用??蛻艨梢园葱柽\(yùn)行或終止實(shí)例,并且按照實(shí)際使用情況來付費(fèi)Hadoop自帶有一套腳本,用于在EC2上面運(yùn)行Hadoop在EC2上運(yùn)行Hadoop尤其適用于一些工作流。例如,在AmazonS3中存儲(chǔ)數(shù)據(jù),在EC2上運(yùn)行集群,在集群中運(yùn)行MapReduce作業(yè),讀取存儲(chǔ)在S3中的數(shù)據(jù),最后,在關(guān)閉集群之前將輸出寫回S3中;如果長期使用集群,復(fù)制S3數(shù)據(jù)到運(yùn)行在EC2上的HDFS中,則可以使得數(shù)據(jù)處理更加高效,因?yàn)?,HDFS可以充分利用數(shù)據(jù)的位置,S3則做不到,因?yàn)?,S3與EC2的存儲(chǔ)不在同一個(gè)節(jié)點(diǎn)上2.4.7在云計(jì)算環(huán)境中使用HadoopHadoop不僅可本章小結(jié)Hadoop被視為事實(shí)上的大數(shù)據(jù)處理標(biāo)準(zhǔn),本章介紹了Hadoop的發(fā)展歷程,并闡述了Hadoop的高可靠性、高效性、高可擴(kuò)展性、高容錯(cuò)性、成本低、運(yùn)行在Linux平臺(tái)上、支持多種編程語言等特性Hadoop目前已經(jīng)在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用,雅虎、Facebook、百度、淘寶、網(wǎng)易等公司都建立了自己的Hadoop集群經(jīng)過多年發(fā)展,Hadoop項(xiàng)目已經(jīng)變得非常成熟和完善,包括Common、Avro、Zookeeper、HDFS、MapReduce、HBase、Hive、Chukwa、Pig等子項(xiàng)目,其中,HDFS和MapReduce是Hadoop的兩大核心組件本章最后介紹了如何在Linux系統(tǒng)下完成Hadoop的安裝和配置,這個(gè)部分是后續(xù)章節(jié)實(shí)踐環(huán)節(jié)的基礎(chǔ)105ppt精選版本章小結(jié)Hadoop被視為事實(shí)上的大數(shù)據(jù)處理標(biāo)準(zhǔn),本章介紹了第三章分布式文件系統(tǒng)HDFS106ppt精選版第三章分布式文件系統(tǒng)HDFS106ppt精選版提綱3.1分布式文件系統(tǒng)3.2HDFS簡介3.3HDFS相關(guān)概念3.4HDFS體系結(jié)構(gòu)3.5HDFS存儲(chǔ)原理3.6HDFS數(shù)據(jù)讀寫過程3.7HDFS編程實(shí)踐提綱3.1分布式文件系統(tǒng)3.1 分布式文件系統(tǒng)3.1.1 計(jì)算機(jī)集群結(jié)構(gòu)3.1.2 分布式文件系統(tǒng)的結(jié)構(gòu)108ppt精選版3.1 分布式文件系統(tǒng)3.1.1 計(jì)算機(jī)集群結(jié)構(gòu)108ppt3.1.1 計(jì)算機(jī)集群結(jié)構(gòu)分布式文件系統(tǒng)把文件分布存儲(chǔ)到多個(gè)計(jì)算機(jī)節(jié)點(diǎn)上,成千上萬的計(jì)算機(jī)節(jié)點(diǎn)構(gòu)成計(jì)算機(jī)集群與之前使用多個(gè)處理器和專用高級硬件的并行化處理裝置不同的是,目前的分布式文件系統(tǒng)所采用的計(jì)算機(jī)集群,都是由普通硬件構(gòu)成的,這就大大降低了硬件上的開銷3.1.1 計(jì)算機(jī)集群結(jié)構(gòu)分布式文件系統(tǒng)把文件分布存儲(chǔ)到多個(gè)3.1.1 計(jì)算機(jī)集群結(jié)構(gòu)圖3-1計(jì)算機(jī)集群的基本架構(gòu)3.1.1 計(jì)算機(jī)集群結(jié)構(gòu)圖3-1計(jì)算機(jī)集群的基本架構(gòu)3.1.2 分布式文件系統(tǒng)的結(jié)構(gòu)分布式文件系統(tǒng)在物理結(jié)構(gòu)上是由計(jì)算機(jī)集群中的多個(gè)節(jié)點(diǎn)構(gòu)成的,這些節(jié)點(diǎn)分為兩類,一類叫“主節(jié)點(diǎn)”(MasterNode)或者也被稱為“名稱結(jié)點(diǎn)”(NameNode),另一類叫“從節(jié)點(diǎn)”(SlaveNode)或者也被稱為“數(shù)據(jù)節(jié)點(diǎn)”(DataNode)3.1.2 分布式文件系統(tǒng)的結(jié)構(gòu)分布式文件系統(tǒng)在物理結(jié)構(gòu)上是3.1.2 分布式文件系統(tǒng)的結(jié)構(gòu)圖3-2大規(guī)模文件系統(tǒng)的整體結(jié)構(gòu)3.1.2 分布式文件系統(tǒng)的結(jié)構(gòu)圖3-2大規(guī)模文件系統(tǒng)的整3.2 HDFS簡介總體而言,HDFS要實(shí)現(xiàn)以下目標(biāo):●兼容廉價(jià)的硬件設(shè)備●流數(shù)據(jù)讀寫●大數(shù)據(jù)集●簡單的文件模型●強(qiáng)大的跨平臺(tái)兼容性HDFS特殊的設(shè)計(jì),在實(shí)現(xiàn)上述優(yōu)良特性的同時(shí),也使得自身具有一些應(yīng)用局限性,主要包括以下幾個(gè)方面:●不適合低延遲數(shù)據(jù)訪問●無法高效存儲(chǔ)大量小文件●不支持多用戶寫入及任意修改文件3.2 HDFS簡介總體而言,HDFS要實(shí)現(xiàn)以下目標(biāo):●兼容3.3.1 塊HDFS默認(rèn)一個(gè)塊64MB,一個(gè)文件被分成多個(gè)塊,以塊作為存儲(chǔ)單位塊的大小遠(yuǎn)遠(yuǎn)大于普通文件系統(tǒng),可以最小化尋址開銷3.3.1 塊HDFS默認(rèn)一個(gè)塊64MB,一個(gè)文件被分成多個(gè)3.3.1 塊HDFS采用抽象的塊概念可以帶來以下幾個(gè)明顯的好處:●支持大規(guī)模文件存儲(chǔ):文件以塊為單位進(jìn)行存儲(chǔ),一個(gè)大規(guī)模文件可以被分拆成若干個(gè)文件塊,不同的文件塊可以被分發(fā)到不同的節(jié)點(diǎn)上,因此,一個(gè)文件的大小不會(huì)受到單個(gè)節(jié)點(diǎn)的存儲(chǔ)容量的限制,可以遠(yuǎn)遠(yuǎn)大于網(wǎng)絡(luò)中任意節(jié)點(diǎn)的存儲(chǔ)容量●簡化系統(tǒng)設(shè)計(jì):首先,大大簡化了存儲(chǔ)管理,因?yàn)槲募K大小是固定的,這樣就可以很容易計(jì)算出一個(gè)節(jié)點(diǎn)可以存儲(chǔ)多少文件塊;其次,方便了元數(shù)據(jù)的管理,元數(shù)據(jù)不需要和文件塊一起存儲(chǔ),可以由其他系統(tǒng)負(fù)責(zé)管理元數(shù)據(jù)●適合數(shù)據(jù)備份:每個(gè)文件塊都可以冗余存儲(chǔ)到多個(gè)節(jié)點(diǎn)上,大大提高了系統(tǒng)的容錯(cuò)性和可用性3.3.1 塊HDFS采用抽象的塊概念可以帶來以下幾個(gè)明顯的3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)在HDFS中,名稱節(jié)點(diǎn)(NameNode)負(fù)責(zé)管理分布式文件系統(tǒng)的命名空間(Namespace),保存了兩個(gè)核心的數(shù)據(jù)結(jié)構(gòu),即FsImage和EditLogFsImage用于維護(hù)文件系統(tǒng)樹以及文件樹中所有的文件和文件夾的元數(shù)據(jù)操作日志文件EditLog中記錄了所有針對文件的創(chuàng)建、刪除、重命名等操作名稱節(jié)點(diǎn)記錄了每個(gè)文件中各個(gè)塊所在的數(shù)據(jù)節(jié)點(diǎn)的位置信息名稱節(jié)點(diǎn)的數(shù)據(jù)結(jié)構(gòu)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)在HDFS中,名稱節(jié)點(diǎn)(Nam3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)圖3-3名稱節(jié)點(diǎn)的數(shù)據(jù)結(jié)構(gòu)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)圖3-3名稱節(jié)點(diǎn)的數(shù)據(jù)結(jié)構(gòu)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)FsImage文件包含文件系統(tǒng)中所有目錄和文件inode的序列化形式。每個(gè)inode是一個(gè)文件或目錄的元數(shù)據(jù)的內(nèi)部表示,并包含此類信息:文件的復(fù)制等級、修改和訪問時(shí)間、訪問權(quán)限、塊大小以及組成文件的塊。對于目錄,則存儲(chǔ)修改時(shí)間、權(quán)限和配額元數(shù)據(jù)FsImage文件沒有記錄塊存儲(chǔ)在哪個(gè)數(shù)據(jù)節(jié)點(diǎn)。而是由名稱節(jié)點(diǎn)把這些映射保留在內(nèi)存中,當(dāng)數(shù)據(jù)節(jié)點(diǎn)加入HDFS集群時(shí),數(shù)據(jù)節(jié)點(diǎn)會(huì)把自己所包含的塊列表告知給名稱節(jié)點(diǎn),此后會(huì)定期執(zhí)行這種告知操作,以確保名稱節(jié)點(diǎn)的塊映射是最新的。FsImage文件3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)FsImage文件包含文件系統(tǒng)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)在名稱節(jié)點(diǎn)啟動(dòng)的時(shí)候,它會(huì)將FsImage文件中的內(nèi)容加載到內(nèi)存中,之后再執(zhí)行EditLog文件中的各項(xiàng)操作,使得內(nèi)存中的元數(shù)據(jù)和實(shí)際的同步,存在內(nèi)存中的元數(shù)據(jù)支持客戶端的讀操作。一旦在內(nèi)存中成功建立文件系統(tǒng)元數(shù)據(jù)的映射,則創(chuàng)建一個(gè)新的FsImage文件和一個(gè)空的EditLog文件名稱節(jié)點(diǎn)起來之后,HDFS中的更新操作會(huì)重新寫到EditLog文件中,因?yàn)镕sImage文件一般都很大(GB級別的很常見),如果所有的更新操作都往FsImage文件中添加,這樣會(huì)導(dǎo)致系統(tǒng)運(yùn)行的十分緩慢,但是,如果往EditLog文件里面寫就不會(huì)這樣,因?yàn)镋ditLog要小很多。每次執(zhí)行寫操作之后,且在向客戶端發(fā)送成功代碼之前,edits文件都需要同步更新名稱節(jié)點(diǎn)的啟動(dòng)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)在名稱節(jié)點(diǎn)啟動(dòng)的時(shí)候,它會(huì)將F3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)在名稱節(jié)點(diǎn)運(yùn)行期間,HDFS的所有更新操作都是直接寫到EditLog中,久而久之,EditLog文件將會(huì)變得很大雖然這對名稱節(jié)點(diǎn)運(yùn)行時(shí)候是沒有什么明顯影響的,但是,當(dāng)名稱節(jié)點(diǎn)重啟的時(shí)候,名稱節(jié)點(diǎn)需要先將FsImage里面的所有內(nèi)容映像到內(nèi)存中,然后再一條一條地執(zhí)行EditLog中的記錄,當(dāng)EditLog文件非常大的時(shí)候,會(huì)導(dǎo)致名稱節(jié)點(diǎn)啟動(dòng)操作非常慢,而在這段時(shí)間內(nèi)HDFS系統(tǒng)處于安全模式,一直無法對外提供寫操作,影響了用戶的使用名稱節(jié)點(diǎn)運(yùn)行期間EditLog不斷變大的問題3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)在名稱節(jié)點(diǎn)運(yùn)行期間,HDFS的3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)如何解決?答案是:SecondaryNameNode第二名稱節(jié)點(diǎn)第二名稱節(jié)點(diǎn)是HDFS架構(gòu)中的一個(gè)組成部分,它是用來保存名稱節(jié)點(diǎn)中對HDFS元數(shù)據(jù)信息的備份,并減少名稱節(jié)點(diǎn)重啟的時(shí)間。SecondaryNameNode一般是單獨(dú)運(yùn)行在一臺(tái)機(jī)器上3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)如何解決?答案是:Second3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)SecondaryNameNode的工作情況:(1)SecondaryNameNode會(huì)定期和NameNode通信,請求其停止使用EditLog文件,暫時(shí)將新的寫操作寫到一個(gè)新的文件edit.new上來,這個(gè)操作是瞬間完成,上層寫日志的函數(shù)完全感覺不到差別;(2)SecondaryNameNode通過HTTPGET方式從NameNode上獲取到FsImage和EditLog文件,并下載到本地的相應(yīng)目錄下;(3)SecondaryNameNode將下載下來的FsImage載入到內(nèi)存,然后一條一條地執(zhí)行EditLog文件中的各項(xiàng)更新操作,使得內(nèi)存中的FsImage保持最新;這個(gè)過程就是EditLog和FsImage文件合并;(4)SecondaryNameNode執(zhí)行完(3)操作之后,會(huì)通過post方式將新的FsImage文件發(fā)送到NameNode節(jié)點(diǎn)上(5)NameNode將從SecondaryNameNode接收到的新的FsImage替換舊的FsImage文件,同時(shí)將edit.new替換EditLog文件,通過這個(gè)過程EditLog就變小了3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)SecondaryNameNo3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn)是分布式文件系統(tǒng)HDFS的工作節(jié)點(diǎn),負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和讀取,會(huì)根據(jù)客戶端或者是名稱節(jié)點(diǎn)的調(diào)度來進(jìn)行數(shù)據(jù)的存儲(chǔ)和檢索,并且向名稱節(jié)點(diǎn)定期發(fā)送自己所存儲(chǔ)的塊的列表每個(gè)數(shù)據(jù)節(jié)點(diǎn)中的數(shù)據(jù)會(huì)被保存在各自節(jié)點(diǎn)的本地Linux文件系統(tǒng)中數(shù)據(jù)節(jié)點(diǎn)(DataNode)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn)是分布式文件系統(tǒng)HDF3.4 HDFS體系結(jié)構(gòu)3.4.1 HDFS體系結(jié)構(gòu)概述3.4.2 HDFS命名空間管理3.4.3 通信協(xié)議3.4.4 客戶端3.4.5 HDFS體系結(jié)構(gòu)的局限性126ppt精選版3.4 HDFS體系結(jié)構(gòu)3.4.1 HDFS體系結(jié)構(gòu)概述123.4.1 HDFS體系結(jié)構(gòu)概述HDFS采用了主從(Master/Slave)結(jié)構(gòu)模型,一個(gè)HDFS集群包括一個(gè)名稱節(jié)點(diǎn)(NameNode)和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)(DataNode)(如圖3-4所示)。名稱節(jié)點(diǎn)作為中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的命名空間及客戶端對文件的訪問。集群中的數(shù)據(jù)節(jié)點(diǎn)一般是一個(gè)節(jié)點(diǎn)運(yùn)行一個(gè)數(shù)據(jù)節(jié)點(diǎn)進(jìn)程,負(fù)責(zé)處理文件系統(tǒng)客戶端的讀/寫請求,在名稱節(jié)點(diǎn)的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制等操作。每個(gè)數(shù)據(jù)節(jié)點(diǎn)的數(shù)據(jù)實(shí)際上是保存在本地Linux文件系統(tǒng)中的3.4.1 HDFS體系結(jié)構(gòu)概述HDFS采用3.4.1 HDFS體系結(jié)構(gòu)概述圖3-4HDFS體系結(jié)構(gòu)3.4.1 HDFS體系結(jié)構(gòu)概述圖3-4HDFS體系結(jié)構(gòu)3.4.2 HDFS命名空間管理HDFS的命名空間包含目錄、文件和塊在HDFS1.0體系結(jié)構(gòu)中,在整個(gè)HDFS集群中只有一個(gè)命名空間,并且只有唯一一個(gè)名稱節(jié)點(diǎn),該節(jié)點(diǎn)負(fù)責(zé)對這個(gè)命名空間進(jìn)行管理HDFS使用的是傳統(tǒng)的分級文件體系,因此,用戶可以像使用普通文件系統(tǒng)一樣,創(chuàng)建、刪除目錄和文件,在目錄間轉(zhuǎn)移文件,重命名文件等3.4.2 HDFS命名空間管理HDFS的命名空間包含目錄、3.4.3 通信協(xié)議HDFS是一個(gè)部署在集群上的分布式文件系統(tǒng),因此,很多數(shù)據(jù)需要通過網(wǎng)絡(luò)進(jìn)行傳輸所有的HDFS通信協(xié)議都是構(gòu)建在TCP/IP協(xié)議基礎(chǔ)之上的客戶端通過一個(gè)可配置的端口向名稱節(jié)點(diǎn)主動(dòng)發(fā)起TCP連接,并使用客戶端協(xié)議與名稱節(jié)點(diǎn)進(jìn)行交互名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)之間則使用數(shù)據(jù)節(jié)點(diǎn)協(xié)議進(jìn)行交互客戶端與數(shù)據(jù)節(jié)點(diǎn)的交互是通過RPC(RemoteProcedureCall)來實(shí)現(xiàn)的。在設(shè)計(jì)上,名稱節(jié)點(diǎn)不會(huì)主動(dòng)發(fā)起RPC,而是響應(yīng)來自客戶端和數(shù)據(jù)節(jié)點(diǎn)的RPC請求3.4.3 通信協(xié)議HDFS是一個(gè)部署在集群上的分布式文件系3.4.4 客戶端客戶端是用戶操作HDFS最常用的方式,HDFS在部署時(shí)都提供了客戶端HDFS客戶端是一個(gè)庫,暴露了HDFS文件系統(tǒng)接口,這些接口隱藏了HDFS實(shí)現(xiàn)中的大部分復(fù)雜性嚴(yán)格來說,客戶端并不算是HDFS的一部分客戶端可以支持打開、讀取、寫入等常見的操作,并且提供了類似Shell的命令行方式來訪問HDFS中的數(shù)據(jù)此外,HDFS也提供了JavaAPI,作為應(yīng)用程序訪問文件系統(tǒng)的客戶端編程接口3.4.4 客戶端客戶端是用戶操作HDFS最常用的方式,HD3.4.5 HDFS體系結(jié)構(gòu)的局限性HDFS只設(shè)置唯一一個(gè)名稱節(jié)點(diǎn),這樣做雖然大大簡化了系統(tǒng)設(shè)計(jì),但也帶來了一些明顯的局限性,具體如下:(1)命名空間的限制:名稱節(jié)點(diǎn)是保存在內(nèi)存中的,因此,名稱節(jié)點(diǎn)能夠容納的對象(文件、塊)的個(gè)數(shù)會(huì)受到內(nèi)存空間大小的限制。(2)性能的瓶頸:整個(gè)分布式文件系統(tǒng)的吞吐量,受限于單個(gè)名稱節(jié)點(diǎn)的吞吐量。(3)隔離問題:由于集群中只有一個(gè)名稱節(jié)點(diǎn),只有一個(gè)命名空間,因此,無法對不同應(yīng)用程序進(jìn)行隔離。(4)集群的可用性:一旦這個(gè)唯一的名稱節(jié)點(diǎn)發(fā)生故障,會(huì)導(dǎo)致整個(gè)集群變得不可用。3.4.5 HDFS體系結(jié)構(gòu)的局限性HDFS只設(shè)置唯一一個(gè)名3.5 HDFS存儲(chǔ)原理3.5.1 冗余數(shù)據(jù)保存3.5.2 數(shù)據(jù)存取策略3.5.3 數(shù)據(jù)錯(cuò)誤與恢復(fù)133ppt精選版3.5 HDFS存儲(chǔ)原理3.5.1 冗余數(shù)據(jù)保存133ppt3.5.1 冗余數(shù)據(jù)保存

作為一個(gè)分布式文件系統(tǒng),為了保證系統(tǒng)的容錯(cuò)性和可用性,HDFS采用了多副本方式對數(shù)據(jù)進(jìn)行冗余存儲(chǔ),通常一個(gè)數(shù)據(jù)塊的多個(gè)副本會(huì)被分布到不同的數(shù)據(jù)節(jié)點(diǎn)上,如圖3-5所示,數(shù)據(jù)塊1被分別存放到數(shù)據(jù)節(jié)點(diǎn)A和C上,數(shù)據(jù)塊2被存放在數(shù)據(jù)節(jié)點(diǎn)A和B上。這種多副本方式具有以下幾個(gè)優(yōu)點(diǎn):(1)加快數(shù)據(jù)傳輸速度(2)容易檢查數(shù)據(jù)錯(cuò)誤(3)保證數(shù)據(jù)可靠性圖3-5HDFS數(shù)據(jù)塊多副本存儲(chǔ)3.5.1 冗余數(shù)據(jù)保存作為一個(gè)分布式文件系3.5.2 數(shù)據(jù)存取策略1.數(shù)據(jù)存放Block的副本放置策略第一個(gè)副本:放置在上傳文件的數(shù)據(jù)節(jié)點(diǎn);如果是集群外提交,則隨機(jī)挑選一臺(tái)磁盤不太滿、CPU不太忙的節(jié)點(diǎn)第二個(gè)副本:放置在與第一個(gè)副本不同的機(jī)架的節(jié)點(diǎn)上第三個(gè)副本:與第一個(gè)副本相同機(jī)架的其他節(jié)點(diǎn)上更多副本:隨機(jī)節(jié)點(diǎn)3.5.2 數(shù)據(jù)存取策略1.數(shù)據(jù)存放Block的副本放置策略3.5.2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論