大數(shù)據(jù)技術(shù)原理與應(yīng)用完整版課件

上傳人：c*** IP屬地：貴州上傳時(shí)間：2022-11-18 格式：PPT 頁數(shù)：1538 大小：64.13MB 積分：38 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩1533頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《大數(shù)據(jù)技術(shù)原理與應(yīng)用》主講教師：《大數(shù)據(jù)技術(shù)原理與應(yīng)用》主講教師：課程特色搭建起通向“大數(shù)據(jù)知識(shí)空間”的橋梁和紐帶構(gòu)建知識(shí)體系、闡明基本原理引導(dǎo)初級實(shí)踐、了解相關(guān)應(yīng)用為學(xué)生在大數(shù)據(jù)領(lǐng)域“深耕細(xì)作”奠定基礎(chǔ)、指明方向課程特色搭建起通向“大數(shù)據(jù)知識(shí)空間”的橋梁和紐帶內(nèi)容提要本課程系統(tǒng)介紹了大數(shù)據(jù)相關(guān)知識(shí)，共有13章系統(tǒng)地論述了大數(shù)據(jù)的基本概念、大數(shù)據(jù)處理架構(gòu)Hadoop、分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫、分布式并行編程模型MapReduce、流計(jì)算、圖計(jì)算、數(shù)據(jù)可視化以及大數(shù)據(jù)在互聯(lián)網(wǎng)、生物醫(yī)學(xué)和物流等各個(gè)領(lǐng)域的應(yīng)用在Hadoop、HDFS、HBase和MapReduce等重要章節(jié)，安排了入門級的實(shí)踐操作，讓學(xué)生更好地學(xué)習(xí)和掌握大數(shù)據(jù)關(guān)鍵技術(shù)3ppt精選版內(nèi)容提要本課程系統(tǒng)介紹了大數(shù)據(jù)相關(guān)知識(shí)，共有13章3ppt精篇章安排第一篇：大數(shù)據(jù)基礎(chǔ)篇第二篇：大數(shù)據(jù)存儲(chǔ)篇第三篇：大數(shù)據(jù)處理與分析篇第四篇：大數(shù)據(jù)應(yīng)用篇4ppt精選版篇章安排第一篇：大數(shù)據(jù)基礎(chǔ)篇4ppt精選版第一篇：大數(shù)據(jù)基礎(chǔ)篇5ppt精選版第一篇：大數(shù)據(jù)基礎(chǔ)篇5ppt精選版第二篇：大數(shù)據(jù)存儲(chǔ)篇6ppt精選版第二篇：大數(shù)據(jù)存儲(chǔ)篇6ppt精選版第三篇：大數(shù)據(jù)處理與分析篇7ppt精選版第三篇：大數(shù)據(jù)處理與分析篇7ppt精選版第四篇：大數(shù)據(jù)應(yīng)用篇8ppt精選版第四篇：大數(shù)據(jù)應(yīng)用篇8ppt精選版各章內(nèi)容第一章大數(shù)據(jù)概述第二章大數(shù)據(jù)處理架構(gòu)Hadoop第三章分布式文件系統(tǒng)HDFS第四章分布式數(shù)據(jù)庫HBase第五章NoSQL數(shù)據(jù)庫第六章云數(shù)據(jù)庫第七章MapReduce第八章流計(jì)算第九章圖計(jì)算第十章數(shù)據(jù)可視化第十一章大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用第十二章大數(shù)據(jù)在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用（自學(xué)）第十三章大數(shù)據(jù)的其他應(yīng)用（自學(xué)）9ppt精選版各章內(nèi)容第一章大數(shù)據(jù)概述9ppt精選版

第一章大數(shù)據(jù)概述

第一章大數(shù)據(jù)概述提綱1.1大數(shù)據(jù)時(shí)代1.2大數(shù)據(jù)概念1.3大數(shù)據(jù)的影響1.4大數(shù)據(jù)的應(yīng)用1.5大數(shù)據(jù)關(guān)鍵技術(shù)1.6大數(shù)據(jù)計(jì)算模式1.7大數(shù)據(jù)產(chǎn)業(yè)1.8大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系提綱1.1大數(shù)據(jù)時(shí)代1.1大數(shù)據(jù)時(shí)代1.1大數(shù)據(jù)時(shí)代1.1.1第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點(diǎn)，IT領(lǐng)域每隔十五年就會(huì)迎來一次重大變革信息化浪潮發(fā)生時(shí)間標(biāo)志解決問題代表企業(yè)第一次浪潮1980年前后個(gè)人計(jì)算機(jī)信息處理Intel、AMD、IBM、蘋果、微軟、聯(lián)想、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、阿里巴巴、百度、騰訊等第三次浪潮2010年前后物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)信息爆炸將涌現(xiàn)出一批新的市場標(biāo)桿企業(yè)表1-1三次信息化浪潮1.1.1第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點(diǎn)1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-1存儲(chǔ)價(jià)格隨時(shí)間變化情況存儲(chǔ)設(shè)備容量不斷增加，速度不斷提升，價(jià)格卻在不斷下降1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-1存儲(chǔ)價(jià)格1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐來自斯威本科技大學(xué)（SwinburneUniversityofTechnology）的研究團(tuán)隊(duì)，在2013年6月29日刊出的《自然通訊（NatureCommunications）》雜志的文章中，描述了一種全新的數(shù)據(jù)存儲(chǔ)方式，可將1PB（1024TB）的數(shù)據(jù)存儲(chǔ)到一張僅DVD大小的聚合物碟片上。1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐來自斯威本科技大學(xué)（S1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-3CPU晶體管數(shù)目隨時(shí)間變化情況2.CPU處理能力大幅提升

1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-3CPU晶1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐摩爾定律：CPU性能每隔18個(gè)月提高一倍，價(jià)格下降一半1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐摩爾定律：CPU性圖1-4網(wǎng)絡(luò)帶寬隨時(shí)間變化情況3.網(wǎng)絡(luò)帶寬不斷增加1.1.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-4網(wǎng)絡(luò)帶寬隨時(shí)間變化情況3.網(wǎng)絡(luò)帶寬不斷增加數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時(shí)代的來臨圖1-5數(shù)據(jù)產(chǎn)生方式的變革1.1.3數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時(shí)代的來臨圖1-5數(shù)1.1.4大數(shù)據(jù)的發(fā)展歷程階段時(shí)間內(nèi)容第一階段：萌芽期上世紀(jì)90年代至本世紀(jì)初隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的逐步成熟，一批商業(yè)智能工具和知識(shí)管理技術(shù)開始被應(yīng)用，如數(shù)據(jù)倉庫、專家系統(tǒng)、知識(shí)管理系統(tǒng)等。第二階段：成熟期本世紀(jì)前十年Web2.0應(yīng)用迅猛發(fā)展，非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生，傳統(tǒng)處理方法難以應(yīng)對，帶動(dòng)了大數(shù)據(jù)技術(shù)的快速突破，大數(shù)據(jù)解決方案逐漸走向成熟，形成了并行計(jì)算與分布式系統(tǒng)兩大核心技術(shù)，谷歌的GFS和MapReduce等大數(shù)據(jù)技術(shù)受到追捧，Hadoop平臺(tái)開始大行其道第三階段：大規(guī)模應(yīng)用期2010年以后大數(shù)據(jù)應(yīng)用滲透各行各業(yè)，數(shù)據(jù)驅(qū)動(dòng)決策，信息社會(huì)智能化程度大幅提高表1-2大數(shù)據(jù)發(fā)展的三個(gè)階段1.1.4大數(shù)據(jù)的發(fā)展歷程階段時(shí)間內(nèi)容第一階段：萌芽期上世1.2大數(shù)據(jù)概念（4V）1.2大數(shù)據(jù)概念（4V）1.2.1 數(shù)據(jù)量大根據(jù)IDC作出的估測，數(shù)據(jù)一直都在以每年50%的速度增長，也就是說每兩年就增長一倍（大數(shù)據(jù)摩爾定律）人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量預(yù)計(jì)到2020年，全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量，相較于2010年，數(shù)據(jù)量將增長近30倍22ppt精選版1.2.1 數(shù)據(jù)量大根據(jù)IDC作出的估測，數(shù)據(jù)一直都在以每年1.2.2數(shù)據(jù)類型繁多大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的10%的結(jié)構(gòu)化數(shù)據(jù)，存儲(chǔ)在數(shù)據(jù)庫中90%的非結(jié)構(gòu)化數(shù)據(jù)，它們與人類信息密切相關(guān)科學(xué)研究–基因組–LHC加速器–地球與空間探測企業(yè)應(yīng)用–Email、文檔、文件–應(yīng)用日志–交易記錄Web1.0數(shù)據(jù)–文本–圖像–視頻Web2.0數(shù)據(jù)–查詢?nèi)罩?點(diǎn)擊流–Twitter/Blog/SNS–Wiki23ppt精選版1.2.2數(shù)據(jù)類型繁多大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的1.2.3 處理速度快從數(shù)據(jù)的生成到消耗，時(shí)間窗口非常小，可用于生成決策的時(shí)間非常少1秒定律：這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同24ppt精選版1.2.3 處理速度快從數(shù)據(jù)的生成到消耗，時(shí)間窗口非常小，可1.2.4 價(jià)值密度低

價(jià)值密度低，商業(yè)價(jià)值高

以視頻為例，連續(xù)不間斷監(jiān)控過程中，可能有用的數(shù)據(jù)僅僅有一兩秒，但是具有很高的商業(yè)價(jià)值25ppt精選版1.2.4 價(jià)值密度低價(jià)值密度低，商業(yè)價(jià)值高25ppt精選1.3大數(shù)據(jù)的影響

圖靈獎(jiǎng)獲得者、著名數(shù)據(jù)庫專家JimGray博士觀察并總結(jié)人類自古以來，在科學(xué)研究上，先后歷經(jīng)了實(shí)驗(yàn)、理論、計(jì)算和數(shù)據(jù)四種范式實(shí)驗(yàn)理論計(jì)算數(shù)據(jù)1.3大數(shù)據(jù)的影響圖靈獎(jiǎng)獲得者、著名數(shù)據(jù)庫專家JimGr1.3大數(shù)據(jù)的影響在思維方式方面，大數(shù)據(jù)完全顛覆了傳統(tǒng)的思維方式：全樣而非抽樣效率而非精確相關(guān)而非因果1.3大數(shù)據(jù)的影響在思維方式方面，大數(shù)據(jù)完全顛覆了傳統(tǒng)的思維1.3大數(shù)據(jù)的影響在社會(huì)發(fā)展方面，大數(shù)據(jù)決策逐漸成為一種新的決策方式，大數(shù)據(jù)應(yīng)用有力促進(jìn)了信息技術(shù)與各行業(yè)的深度融合，大數(shù)據(jù)開發(fā)大大推動(dòng)了新技術(shù)和新應(yīng)用的不斷涌現(xiàn)在就業(yè)市場方面，大數(shù)據(jù)的興起使得數(shù)據(jù)科學(xué)家成為熱門職業(yè)在人才培養(yǎng)方面，大數(shù)據(jù)的興起，將在很大程度上改變中國高校信息技術(shù)相關(guān)專業(yè)的現(xiàn)有教學(xué)和科研體制1.3大數(shù)據(jù)的影響在社會(huì)發(fā)展方面，大數(shù)據(jù)決策逐漸成為一種新的1.4大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)無處不在，包括金融、汽車、零售、餐飲、電信、能源、政務(wù)、醫(yī)療、體育、娛樂等在內(nèi)的社會(huì)各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡1.4大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)無處不在，包括金融、汽車、零售、餐飲典型的大數(shù)據(jù)應(yīng)用實(shí)例KevinSpaceyDavidFincher英國同名小說《紙牌屋》風(fēng)靡全球的美劇《紙牌屋》大數(shù)據(jù)分析30ppt精選版典型的大數(shù)據(jù)應(yīng)用實(shí)例KevinSpaceyDavidFi典型的大數(shù)據(jù)應(yīng)用實(shí)例

從谷歌流感趨勢看大數(shù)據(jù)的應(yīng)用價(jià)值

“谷歌流感趨勢”，通過跟蹤搜索詞相關(guān)數(shù)據(jù)來判斷全美地區(qū)的流感情況31ppt精選版典型的大數(shù)據(jù)應(yīng)用實(shí)例從谷歌流感趨勢看大數(shù)據(jù)的應(yīng)用價(jià)值31p1.5大數(shù)據(jù)關(guān)鍵技術(shù)表1-5大數(shù)據(jù)技術(shù)的不同層面及其功能技術(shù)層面功能數(shù)據(jù)采集利用ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等，抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成，最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中，成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)；或者也可以把實(shí)時(shí)采集的數(shù)據(jù)作為流計(jì)算系統(tǒng)的輸入，進(jìn)行實(shí)時(shí)處理分析數(shù)據(jù)存儲(chǔ)和管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫等，實(shí)現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ)和管理數(shù)據(jù)處理與分析利用分布式并行編程模型和計(jì)算框架，結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法，實(shí)現(xiàn)對海量數(shù)據(jù)的處理和分析；對分析結(jié)果進(jìn)行可視化呈現(xiàn)，幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)數(shù)據(jù)隱私和安全在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價(jià)值和學(xué)術(shù)價(jià)值的同時(shí)，構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系，有效保護(hù)個(gè)人隱私和數(shù)據(jù)安全1.5大數(shù)據(jù)關(guān)鍵技術(shù)表1-5大數(shù)據(jù)技術(shù)的不同層面及其功能技1.5大數(shù)據(jù)關(guān)鍵技術(shù)分布式存儲(chǔ)分布式處理GFS\HDFSBigTable\HBaseNoSQL（鍵值、列族、圖形、文檔數(shù)據(jù)庫）NewSQL（如：SQLAzure）MapReduce大數(shù)據(jù)兩大核心技術(shù)1.5大數(shù)據(jù)關(guān)鍵技術(shù)分布式存儲(chǔ)分布式處理GFS\HDFSMa1.6大數(shù)據(jù)計(jì)算模式大數(shù)據(jù)計(jì)算模式解決問題代表產(chǎn)品批處理計(jì)算針對大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark等流計(jì)算針對流數(shù)據(jù)的實(shí)時(shí)計(jì)算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、銀河流數(shù)據(jù)處理平臺(tái)等圖計(jì)算針對大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查詢分析計(jì)算大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢分析Dremel、Hive、Cassandra、Impala等表1-3大數(shù)據(jù)計(jì)算模式及其代表產(chǎn)品1.6大數(shù)據(jù)計(jì)算模式大數(shù)據(jù)計(jì)算模式解決問題代表產(chǎn)品批處理計(jì)算1.7大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價(jià)值發(fā)現(xiàn)相關(guān)的企業(yè)經(jīng)濟(jì)活動(dòng)的集合產(chǎn)業(yè)鏈環(huán)節(jié)包含內(nèi)容IT基礎(chǔ)設(shè)施層包括提供硬件、軟件、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施以及提供咨詢、規(guī)劃和系統(tǒng)集成服務(wù)的企業(yè)，比如，提供數(shù)據(jù)中心解決方案的IBM、惠普和戴爾等，提供存儲(chǔ)解決方案的EMC，提供虛擬化管理軟件的微軟、思杰、SUN、Redhat等數(shù)據(jù)源層大數(shù)據(jù)生態(tài)圈里的數(shù)據(jù)提供者，是生物大數(shù)據(jù)（生物信息學(xué)領(lǐng)域的各類研究機(jī)構(gòu)）、交通大數(shù)據(jù)（交通主管部門）、醫(yī)療大數(shù)據(jù)（各大醫(yī)院、體檢機(jī)構(gòu)）、政務(wù)大數(shù)據(jù)（政府部門）、電商大數(shù)據(jù)（淘寶、天貓、蘇寧云商、京東等電商）、社交網(wǎng)絡(luò)大數(shù)據(jù)（微博、微信、人人網(wǎng)等）、搜索引擎大數(shù)據(jù)（百度、谷歌等）等各種數(shù)據(jù)的來源數(shù)據(jù)管理層包括數(shù)據(jù)抽取、轉(zhuǎn)換、存儲(chǔ)和管理等服務(wù)的各類企業(yè)或產(chǎn)品，比如分布式文件系統(tǒng)（如Hadoop的HDFS和谷歌的GFS）、ETL工具（Informatica、Datastage、Kettle等）、數(shù)據(jù)庫和數(shù)據(jù)倉庫（Oracle、MySQL、SQLServer、HBase、GreenPlum等）數(shù)據(jù)分析層包括提供分布式計(jì)算、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析等服務(wù)的各類企業(yè)或產(chǎn)品，比如，分布式計(jì)算框架MapReduce、統(tǒng)計(jì)分析軟件SPSS和SAS、數(shù)據(jù)挖掘工具Weka、數(shù)據(jù)可視化工具Tableau、BI工具（MicroStrategy、Cognos、BO）等等數(shù)據(jù)平臺(tái)層包括提供數(shù)據(jù)分享平臺(tái)、數(shù)據(jù)分析平臺(tái)、數(shù)據(jù)租售平臺(tái)等服務(wù)的企業(yè)或產(chǎn)品，比如阿里巴巴、谷歌、中國電信、百度等數(shù)據(jù)應(yīng)用層提供智能交通、智慧醫(yī)療、智能物流、智能電網(wǎng)等行業(yè)應(yīng)用的企業(yè)、機(jī)構(gòu)或政府部門，比如交通主管部門、各大醫(yī)療機(jī)構(gòu)、菜鳥網(wǎng)絡(luò)、國家電網(wǎng)等1.7大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價(jià)值1.8大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了IT領(lǐng)域最新的技術(shù)發(fā)展趨勢，三者相輔相成，既有聯(lián)系又有區(qū)別1.8大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表1.8.1云計(jì)算云計(jì)算實(shí)現(xiàn)了通過網(wǎng)絡(luò)提供可伸縮的、廉價(jià)的分布式計(jì)算能力，用戶只需要在具備網(wǎng)絡(luò)接入條件的地方，就可以隨時(shí)隨地獲得所需的各種IT資源圖1-7云計(jì)算的服務(wù)模式和類型1.云計(jì)算概念1.8.1云計(jì)算云計(jì)算實(shí)現(xiàn)了通過網(wǎng)絡(luò)提供可伸縮的、廉價(jià)的分布1.8.1云計(jì)算InfrastructureasaServicePlatformasaServiceSoftwareasaServiceSaaSPaaSIaaSGoogleApps,Microsoft“Software+Services”IBMITfactory,GoogleAppEngine,FAmazonEC2,IBMBlueCloud,SunGridServerStorageServerStorageVisualizationInfrastructurePlatformApplication從一個(gè)集中的系統(tǒng)部署軟件，使之在一臺(tái)本地計(jì)算機(jī)上(或從云中遠(yuǎn)程地)運(yùn)行的一個(gè)模型。由于是計(jì)量服務(wù)，SaaS允許出租一個(gè)應(yīng)用程序，并計(jì)時(shí)收費(fèi)IaaS將基礎(chǔ)設(shè)施(計(jì)算資源和存儲(chǔ))作為服務(wù)出租PaaS類似于IaaS，但是它包括操作系統(tǒng)和圍繞特定應(yīng)用的必需的服務(wù)SaaS1.8.1云計(jì)算InfrastructureasaSe1.8.1云計(jì)算云計(jì)算關(guān)鍵技術(shù)包括：虛擬化、分布式存儲(chǔ)、分布式計(jì)算、多租戶等2.云計(jì)算關(guān)鍵技術(shù)1.8.1云計(jì)算云計(jì)算關(guān)鍵技術(shù)包括：虛擬化、分布式存儲(chǔ)、分布1.8.1云計(jì)算云計(jì)算數(shù)據(jù)中心是一整套復(fù)雜的設(shè)施，包括刀片服務(wù)器、寬帶網(wǎng)絡(luò)連接、環(huán)境控制設(shè)備、監(jiān)控設(shè)備以及各種安全裝置等數(shù)據(jù)中心是云計(jì)算的重要載體，為云計(jì)算提供計(jì)算、存儲(chǔ)、帶寬等各種硬件資源，為各種平臺(tái)和應(yīng)用提供運(yùn)行支撐環(huán)境全國各地推進(jìn)數(shù)據(jù)中心建設(shè)3.云計(jì)算數(shù)據(jù)中心1.8.1云計(jì)算云計(jì)算數(shù)據(jù)中心是一整套復(fù)雜的設(shè)施，包括刀片服1.8.1云計(jì)算政務(wù)云上可以部署公共安全管理、容災(zāi)備份、城市管理、應(yīng)急管理、智能交通、社會(huì)保障等應(yīng)用，通過集約化建設(shè)、管理和運(yùn)行，可以實(shí)現(xiàn)信息資源整合和政務(wù)資源共享，推動(dòng)政務(wù)管理創(chuàng)新，加快向服務(wù)型政府轉(zhuǎn)型教育云可以有效整合幼兒教育、中小學(xué)教育、高等教育以及繼續(xù)教育等優(yōu)質(zhì)教育資源，逐步實(shí)現(xiàn)教育信息共享、教育資源共享及教育資源深度挖掘等目標(biāo)中小企業(yè)云能夠讓企業(yè)以低廉的成本建立財(cái)務(wù)、供應(yīng)鏈、客戶關(guān)系等管理應(yīng)用系統(tǒng)，大大降低企業(yè)信息化門檻，迅速提升企業(yè)信息化水平，增強(qiáng)企業(yè)市場競爭力醫(yī)療云可以推動(dòng)醫(yī)院與醫(yī)院、醫(yī)院與社區(qū)、醫(yī)院與急救中心、醫(yī)院與家庭之間的服務(wù)共享，并形成一套全新的醫(yī)療健康服務(wù)系統(tǒng)，從而有效地提高醫(yī)療保健的質(zhì)量4.云計(jì)算應(yīng)用1.8.1云計(jì)算政務(wù)云上可以部署公共安全管理、容災(zāi)備份、城市1.8.1云計(jì)算

云計(jì)算產(chǎn)業(yè)作為戰(zhàn)略性新興產(chǎn)業(yè)，近些年得到了迅速發(fā)展，形成了成熟的產(chǎn)業(yè)鏈結(jié)構(gòu)，產(chǎn)業(yè)涵蓋硬件與設(shè)備制造、基礎(chǔ)設(shè)施運(yùn)營、軟件與解決方案供應(yīng)商、基礎(chǔ)設(shè)施即服務(wù)（IaaS）、平臺(tái)即服務(wù)（PaaS）、軟件即服務(wù)（SaaS）、終端設(shè)備、云安全、云計(jì)算交付/咨詢/認(rèn)證等環(huán)節(jié)5.云計(jì)算產(chǎn)業(yè)1.8.1云計(jì)算云計(jì)算產(chǎn)業(yè)作為戰(zhàn)略性新興產(chǎn)業(yè)，近些年得到了1.8.1云計(jì)算圖1-8云計(jì)算產(chǎn)業(yè)鏈5.云計(jì)算產(chǎn)業(yè)1.8.1云計(jì)算圖1-8云計(jì)算產(chǎn)業(yè)鏈5.云計(jì)算產(chǎn)業(yè)1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng)，是互聯(lián)網(wǎng)的延伸，它利用局部網(wǎng)絡(luò)或互聯(lián)網(wǎng)等通信技術(shù)把傳感器、控制器、機(jī)器、人員和物等通過新的方式聯(lián)在一起，形成人與物、物與物相聯(lián)，實(shí)現(xiàn)信息化和遠(yuǎn)程管理控制1.物聯(lián)網(wǎng)概念1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng)，是互聯(lián)網(wǎng)的延伸，它1.8.2物聯(lián)網(wǎng)1.物聯(lián)網(wǎng)概念圖1-9物聯(lián)網(wǎng)體系架構(gòu)1.8.2物聯(lián)網(wǎng)1.物聯(lián)網(wǎng)概念圖1-9物聯(lián)網(wǎng)體系架構(gòu)1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)中的關(guān)鍵技術(shù)包括識(shí)別和感知技術(shù)（二維碼、RFID、傳感器等）、網(wǎng)絡(luò)與通信技術(shù)、數(shù)據(jù)挖掘與融合技術(shù)等2.物聯(lián)網(wǎng)關(guān)鍵技術(shù)圖1-10矩陣式二維碼圖1-11采用RFID芯片的公交卡圖1-12不同類型的傳感器1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)中的關(guān)鍵技術(shù)包括識(shí)別和感知技術(shù)（二維碼1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)已經(jīng)廣泛應(yīng)用于智能交通、智慧醫(yī)療、智能家居、環(huán)保監(jiān)測、智能安防、智能物流、智能電網(wǎng)、智慧農(nóng)業(yè)、智能工業(yè)等領(lǐng)域，對國民經(jīng)濟(jì)與社會(huì)發(fā)展起到了重要的推動(dòng)作用3.物聯(lián)網(wǎng)應(yīng)用1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)已經(jīng)廣泛應(yīng)用于智能交通、智慧醫(yī)療、智能1.8.2物聯(lián)網(wǎng)完整的物聯(lián)網(wǎng)產(chǎn)業(yè)鏈主要包括核心感應(yīng)器件提供商、感知層末端設(shè)備提供商、網(wǎng)絡(luò)提供商、軟件與行業(yè)解決方案提供商、系統(tǒng)集成商、運(yùn)營及服務(wù)提供商等六大環(huán)節(jié)4.物聯(lián)網(wǎng)產(chǎn)業(yè)1.8.2物聯(lián)網(wǎng)完整的物聯(lián)網(wǎng)產(chǎn)業(yè)鏈主要包括核心感應(yīng)器件提供商1.8.2物聯(lián)網(wǎng)圖1-8物聯(lián)網(wǎng)產(chǎn)業(yè)鏈4.物聯(lián)網(wǎng)產(chǎn)業(yè)1.8.2物聯(lián)網(wǎng)圖1-8物聯(lián)網(wǎng)產(chǎn)業(yè)鏈4.物聯(lián)網(wǎng)產(chǎn)業(yè)1.8.3大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了IT領(lǐng)域最新的技術(shù)發(fā)展趨勢，三者既有區(qū)別又有聯(lián)系圖1-9大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)之間的關(guān)系1.8.3大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)本章小結(jié)本章介紹了大數(shù)據(jù)技術(shù)的發(fā)展歷程，并指出信息科技的不斷進(jìn)步為大數(shù)據(jù)時(shí)代提供了技術(shù)支撐，數(shù)據(jù)產(chǎn)生方式的變革促成了大數(shù)據(jù)時(shí)代的來臨大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)類型繁多、處理速度快、價(jià)值密度低等特點(diǎn)，統(tǒng)稱“4V”。大數(shù)據(jù)對科學(xué)研究、思維方式、社會(huì)發(fā)展、就業(yè)市場和人才培養(yǎng)等方面，都產(chǎn)生了重要的影響，深刻理解大數(shù)據(jù)的這些影響，有助于我們更好把握學(xué)習(xí)和應(yīng)用大數(shù)據(jù)的方向大數(shù)據(jù)在金融、汽車、零售、餐飲、電信、能源、政務(wù)、醫(yī)療、體育、娛樂等在內(nèi)的社會(huì)各行各業(yè)都得到了日益廣泛的應(yīng)用，深刻地改變著我們的社會(huì)生產(chǎn)和日常生活本章小結(jié)本章介紹了大數(shù)據(jù)技術(shù)的發(fā)展歷程，并指出信息科技的不斷本章小結(jié)大數(shù)據(jù)并非單一的數(shù)據(jù)或技術(shù)，而是數(shù)據(jù)和大數(shù)據(jù)技術(shù)的綜合體。大數(shù)據(jù)技術(shù)主要包括數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和管理、數(shù)據(jù)處理與分析、數(shù)據(jù)安全和隱私保護(hù)等幾個(gè)層面的內(nèi)容大數(shù)據(jù)產(chǎn)業(yè)包括IT基礎(chǔ)設(shè)施層、數(shù)據(jù)源層、數(shù)據(jù)管理層、數(shù)據(jù)分析層、數(shù)據(jù)平臺(tái)層和數(shù)據(jù)應(yīng)用層，在不同層面，都已經(jīng)形成了一批引領(lǐng)市場的技術(shù)和企業(yè)本章最后介紹了云計(jì)算和物聯(lián)網(wǎng)的概念和關(guān)鍵技術(shù)，并闡述了大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)三者之間的區(qū)別與聯(lián)系本章小結(jié)大數(shù)據(jù)并非單一的數(shù)據(jù)或技術(shù)，而是數(shù)據(jù)和大數(shù)據(jù)技術(shù)的綜第二章大數(shù)據(jù)處理架構(gòu)Hadoop53ppt精選版第二章大數(shù)據(jù)處理架構(gòu)Hadoop53ppt精選版提綱2.1概述2.2Hadoop項(xiàng)目結(jié)構(gòu)2.3Hadoop的安裝與使用2.4Hadoop集群的部署與使用提綱2.1概述2.1概述2.1.1 Hadoop簡介2.1.2 Hadoop發(fā)展簡史2.1.3 Hadoop的特性2.1.4 Hadoop的應(yīng)用現(xiàn)狀Hadoop的標(biāo)志55ppt精選版2.1概述2.1.1 Hadoop簡介Hadoop的標(biāo)志52.1.1Hadoop簡介

Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式計(jì)算平臺(tái)，為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)Hadoop是基于Java語言開發(fā)的，具有很好的跨平臺(tái)特性，并且可以部署在廉價(jià)的計(jì)算機(jī)集群中Hadoop的核心是分布式文件系統(tǒng)HDFS（HadoopDistributedFileSystem）和MapReduceHadoop被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件，在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力幾乎所有主流廠商都圍繞Hadoop提供開發(fā)工具、開源軟件、商業(yè)化工具和技術(shù)服務(wù)，如谷歌、雅虎、微軟、思科、淘寶等，都支持Hadoop2.1.1Hadoop簡介Hadoop是Apache軟件2.1.2Hadoop發(fā)展簡史

Hadoop最初是由ApacheLucene項(xiàng)目的創(chuàng)始人DougCutting開發(fā)的文本搜索庫。Hadoop源自始于2002年的ApacheNutch項(xiàng)目——一個(gè)開源的網(wǎng)絡(luò)搜索引擎并且也是Lucene項(xiàng)目的一部分

在2004年，Nutch項(xiàng)目也模仿GFS開發(fā)了自己的分布式文件系統(tǒng)NDFS（NutchDistributedFileSystem），也就是HDFS的前身2004年，谷歌公司又發(fā)表了另一篇具有深遠(yuǎn)影響的論文，闡述了MapReduce分布式編程思想2005年，Nutch開源實(shí)現(xiàn)了谷歌的MapReduce2.1.2Hadoop發(fā)展簡史Hadoop最初是由Apa2.1.2Hadoop發(fā)展簡史

到了2006年2月，Nutch中的NDFS和MapReduce開始獨(dú)立出來，成為Lucene項(xiàng)目的一個(gè)子項(xiàng)目，稱為Hadoop，同時(shí)，DougCutting加盟雅虎2008年1月，Hadoop正式成為Apache頂級項(xiàng)目，Hadoop也逐漸開始被雅虎之外的其他公司使用2008年4月，Hadoop打破世界紀(jì)錄，成為最快排序1TB數(shù)據(jù)的系統(tǒng)，它采用一個(gè)由910個(gè)節(jié)點(diǎn)構(gòu)成的集群進(jìn)行運(yùn)算，排序時(shí)間只用了209秒在2009年5月，Hadoop更是把1TB數(shù)據(jù)排序時(shí)間縮短到62秒。Hadoop從此名聲大震，迅速發(fā)展成為大數(shù)據(jù)時(shí)代最具影響力的開源分布式開發(fā)平臺(tái)，并成為事實(shí)上的大數(shù)據(jù)處理標(biāo)準(zhǔn)2.1.2Hadoop發(fā)展簡史到了2006年2月，Nut2.1.3Hadoop的特性

Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架，并且是以一種可靠、高效、可伸縮的方式進(jìn)行處理的，它具有以下幾個(gè)方面的特性：

高可靠性

高效性

高可擴(kuò)展性

高容錯(cuò)性

成本低

運(yùn)行在Linux平臺(tái)上

支持多種編程語言2.1.3Hadoop的特性Hadoop是一2.1.3Hadoop的應(yīng)用現(xiàn)狀

Hadoop憑借其突出的優(yōu)勢，已經(jīng)在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用，而互聯(lián)網(wǎng)領(lǐng)域是其應(yīng)用的主陣地2007年，雅虎在Sunnyvale總部建立了M45——一個(gè)包含了4000個(gè)處理器和1.5PB容量的Hadoop集群系統(tǒng)Facebook作為全球知名的社交網(wǎng)站，Hadoop是非常理想的選擇，F(xiàn)acebook主要將Hadoop平臺(tái)用于日志處理、推薦系統(tǒng)和數(shù)據(jù)倉庫等方面

國內(nèi)采用Hadoop的公司主要有百度、淘寶、網(wǎng)易、華為、中國移動(dòng)等，其中，淘寶的Hadoop集群比較大2.1.3Hadoop的應(yīng)用現(xiàn)狀Hadoop憑借其突出的2.1.3Hadoop的應(yīng)用現(xiàn)狀Hadoop在企業(yè)中的應(yīng)用架構(gòu)2.1.3Hadoop的應(yīng)用現(xiàn)狀Hadoop在企業(yè)中的應(yīng)用2.1.4ApacheHadoop版本演變ApacheHadoop版本分為兩代，我們將第一代Hadoop稱為Hadoop1.0，第二代Hadoop稱為Hadoop2.0第一代Hadoop包含三個(gè)大版本，分別是0.20.x，0.21.x和0.22.x，其中，0.20.x最后演化成1.0.x，變成了穩(wěn)定版，而0.21.x和0.22.x則增加了NameNodeHA等新的重大特性第二代Hadoop包含兩個(gè)版本，分別是0.23.x和2.x，它們完全不同于Hadoop1.0，是一套全新的架構(gòu)，均包含HDFSFederation和YARN兩個(gè)系統(tǒng)，相比于0.23.x，2.x增加了NameNodeHA和Wire-compatibility兩個(gè)重大特性2.1.4ApacheHadoop版本演變Apache2.1.4ApacheHadoop版本演變2.1.4ApacheHadoop版本演變ApacheHadoopHortonworksCloudera（CDH：ClouderaDistributionHadoop）MapR……2.1.5Hadoop各種版本選擇Hadoop版本的考慮因素：是否開源（即是否免費(fèi)）是否有穩(wěn)定版是否經(jīng)實(shí)踐檢驗(yàn)是否有強(qiáng)大的社區(qū)支持ApacheHadoop2.1.5Hadoop各種版本選2.1.5Hadoop各種版本2.1.5Hadoop各種版本2.2Hadoop項(xiàng)目結(jié)構(gòu)Hadoop的項(xiàng)目結(jié)構(gòu)不斷豐富發(fā)展，已經(jīng)形成一個(gè)豐富的Hadoop生態(tài)系統(tǒng)2.2Hadoop項(xiàng)目結(jié)構(gòu)Hadoop的項(xiàng)目結(jié)構(gòu)不斷豐富發(fā)2.2Hadoop項(xiàng)目結(jié)構(gòu)組件功能HDFS分布式文件系統(tǒng)MapReduce分布式并行編程模型YARN資源管理和調(diào)度器Tez運(yùn)行在YARN之上的下一代Hadoop查詢處理框架HiveHadoop上的數(shù)據(jù)倉庫HBaseHadoop上的非關(guān)系型的分布式數(shù)據(jù)庫Pig一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái)，提供類似SQL的查詢語言PigLatinSqoop用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)傳遞OozieHadoop上的工作流管理系統(tǒng)Zookeeper提供分布式協(xié)調(diào)一致性服務(wù)Storm流計(jì)算框架Flume一個(gè)高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)AmbariHadoop快速部署工具，支持ApacheHadoop集群的供應(yīng)、管理和監(jiān)控Kafka一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)Spark類似于HadoopMapReduce的通用并行框架2.2Hadoop項(xiàng)目結(jié)構(gòu)組件功能HDFS分布式文件系統(tǒng)M2.3 Hadoop的安裝與使用2.3.1Hadoop安裝之前的預(yù)備知識(shí)2.3.2安裝Linux虛擬機(jī)2.3.3安裝雙操作系統(tǒng)2.3.4詳解Hadoop的安裝與使用68ppt精選版2.3 Hadoop的安裝與使用2.3.1Hadoop安裝2.3.1Hadoop安裝之前的預(yù)備知識(shí)（一）Linux的選擇（1）選擇哪個(gè)Linux發(fā)行版？在Linux系統(tǒng)各個(gè)發(fā)行版中，CentOS系統(tǒng)和Ubuntu系統(tǒng)在服務(wù)端和桌面端使用占比最高，網(wǎng)絡(luò)上資料最是齊全，所以建議使用CentOS或Ubuntu在學(xué)習(xí)Hadoop方面，雖然兩個(gè)系統(tǒng)沒有多大區(qū)別，但是推薦使用Ubuntu操作系統(tǒng)（2）選擇32位還是64位？如果電腦比較老或者內(nèi)存小于2G，那么建議選擇32位系統(tǒng)版本的Linux如果內(nèi)存大于4G，那么建議選擇64位系統(tǒng)版本的Linux2.3.1Hadoop安裝之前的預(yù)備知識(shí)（一）Linux的2.3.1Hadoop安裝之前的預(yù)備知識(shí)（二）系統(tǒng)安裝方式：選擇虛擬機(jī)安裝還是雙系統(tǒng)安裝建議電腦比較新或者配置內(nèi)存4G以上的電腦可以選擇虛擬機(jī)安裝電腦較舊或配置內(nèi)存小于等于4G的電腦強(qiáng)烈建議選擇雙系統(tǒng)安裝，否則，在配置較低的計(jì)算機(jī)上運(yùn)行LInux虛擬機(jī)，系統(tǒng)運(yùn)行速度會(huì)非常慢鑒于目前教師和學(xué)生的計(jì)算機(jī)硬件配置一般不高，建議在實(shí)踐教學(xué)中采用雙系統(tǒng)安裝，確保系統(tǒng)運(yùn)行速度2.3.1Hadoop安裝之前的預(yù)備知識(shí)（二）系統(tǒng)安裝方式2.3.1Hadoop安裝之前的預(yù)備知識(shí)（三）關(guān)于Linux的一些基礎(chǔ)知識(shí)Shell是指“提供使用者使用界面”的軟件（命令解析器），類似于DOS下的command和后來的cmd.exe。它接收用戶命令，然后調(diào)用相應(yīng)的應(yīng)用程序sudo命令sudo是ubuntu中一種權(quán)限管理機(jī)制，管理員可以授權(quán)給一些普通用戶去執(zhí)行一些需要root權(quán)限執(zhí)行的操作。當(dāng)使用sudo命令時(shí)，就需要輸入您當(dāng)前用戶的密碼2.3.1Hadoop安裝之前的預(yù)備知識(shí)（三）關(guān)于Linu2.3.1Hadoop安裝之前的預(yù)備知識(shí)輸入密碼在Linux的終端中輸入密碼，終端是不會(huì)顯示任何你當(dāng)前輸入的密碼，也不會(huì)提示你已經(jīng)輸入了多少字符密碼，讀者不要誤以為鍵盤沒有響應(yīng)輸入法中英文切換linux中英文的切換方式是使用鍵盤“shift”鍵來切換，也可以點(diǎn)擊頂部菜單的輸入法按鈕進(jìn)行切換。Ubuntu自帶的Sunpinyin中文輸入法已經(jīng)足夠讀者使用Ubuntu終端復(fù)制粘貼快捷鍵在Ubuntu終端窗口中，復(fù)制粘貼的快捷鍵需要加上shift，即粘貼是ctrl+shift+v2.3.1Hadoop安裝之前的預(yù)備知識(shí)輸入密碼2.3.1Hadoop安裝之前的預(yù)備知識(shí)（四）Hadoop安裝方式單機(jī)模式：Hadoop默認(rèn)模式為非分布式模式（本地模式），無需進(jìn)行其他配置即可運(yùn)行。非分布式即單Java進(jìn)程，方便進(jìn)行調(diào)試偽分布式模式：Hadoop可以在單節(jié)點(diǎn)上以偽分布式的方式運(yùn)行，Hadoop進(jìn)程以分離的Java進(jìn)程來運(yùn)行，節(jié)點(diǎn)既作為NameNode也作為DataNode，同時(shí)，讀取的是HDFS中的文件分布式模式：使用多個(gè)節(jié)點(diǎn)構(gòu)成集群環(huán)境來運(yùn)行Hadoop2.3.1Hadoop安裝之前的預(yù)備知識(shí)（四）Hadoop2.3.2安裝Linux虛擬機(jī)一、材料和工具1、下載VirtualBox虛擬機(jī)軟件2.下載UbuntuLTS14.04ISO映像文件二、步驟（一）確認(rèn)系統(tǒng)版本如果選擇的系統(tǒng)是64位Ubuntu系統(tǒng)，那么在安裝虛擬機(jī)前，我們還要進(jìn)入BIOS開啟CPU的虛擬化2.3.2安裝Linux虛擬機(jī)一、材料和工具二、步驟2.3.2安裝Linux虛擬機(jī)2.3.2安裝Linux虛擬機(jī)2.3.2安裝Linux虛擬機(jī)(二)安裝前的準(zhǔn)備1.打開VirtualBox，點(diǎn)擊“創(chuàng)建”按鈕，創(chuàng)建一個(gè)虛擬機(jī)2.給虛擬機(jī)命名，選擇操作系統(tǒng)，版本3.選擇內(nèi)存大小，這里設(shè)置的1024M4.創(chuàng)建虛擬硬盤5.選擇虛擬硬盤文件類型VDI6.虛擬硬盤選擇動(dòng)態(tài)分配7.選擇文件存儲(chǔ)的位置和容量大小8.點(diǎn)擊創(chuàng)建2.3.2安裝Linux虛擬機(jī)(二)安裝前的準(zhǔn)備1.打開V2.3.2安裝Linux虛擬機(jī)(二)安裝前的準(zhǔn)備2.3.2安裝Linux虛擬機(jī)(二)安裝前的準(zhǔn)備2.3.2安裝Linux虛擬機(jī)(三)安裝Ubuntu2.3.2安裝Linux虛擬機(jī)(三)安裝Ubuntu2.3.2安裝Linux虛擬機(jī)(三)安裝Ubuntu2.3.2安裝Linux虛擬機(jī)(三)安裝Ubuntu2.3.3安裝雙操作系統(tǒng)第一步：制作安裝U盤具體可參考百度經(jīng)驗(yàn)文章/article/59703552e0a6e18fc007409f.html第二步：雙系統(tǒng)安裝具體可參考百度經(jīng)驗(yàn)文章/article/dca1fa6fa3b905f1a44052bd.html安裝后Window和Ubuntu14.04都可以用，默認(rèn)windows優(yōu)先啟動(dòng)可以在電腦啟動(dòng)時(shí)，選擇進(jìn)入U(xiǎn)buntu系統(tǒng)而不是Windows系統(tǒng)2.3.3安裝雙操作系統(tǒng)第一步：制作安裝U盤安裝后Wind2.3.4Hadoop的安裝與使用（單機(jī)/偽分布式）Hadoop基本安裝配置主要包括以下幾個(gè)步驟：創(chuàng)建Hadoop用戶SSH登錄權(quán)限設(shè)置安裝Java環(huán)境單機(jī)安裝配置偽分布式安裝配置2.3.4Hadoop的安裝與使用（單機(jī)/偽分布式）Had創(chuàng)建Hadoop用戶如果安裝Ubuntu的時(shí)候不是用的“hadoop”用戶，那么需要增加一個(gè)名為hadoop的用戶首先按

ctrl+alt+t

打開終端窗口，輸入如下命令創(chuàng)建新用戶:$sudouseradd–mhadoop–s/bin/bash上面這條命令創(chuàng)建了可以登陸的hadoop用戶，并使用/bin/bash作為shell82ppt精選版創(chuàng)建Hadoop用戶如果安裝Ubuntu的時(shí)候不是用的創(chuàng)建Hadoop用戶接著使用如下命令設(shè)置密碼，可簡單設(shè)置為hadoop，按提示輸入兩次密碼：$sudopasswdhadoop可為hadoop用戶增加管理員權(quán)限，方便部署，避免一些對新手來說比較棘手的權(quán)限問題：$sudoadduserhadoopsudo83ppt精選版創(chuàng)建Hadoop用戶接著使用如下命令設(shè)置密碼，可簡單設(shè)置為SSH登錄權(quán)限設(shè)置SSH是什么？SSH

為

SecureShell

的縮寫，是建立在應(yīng)用層和傳輸層基礎(chǔ)上的安全協(xié)議。SSH是目前較可靠、專為遠(yuǎn)程登錄會(huì)話和其他網(wǎng)絡(luò)服務(wù)提供安全性的協(xié)議。利用SSH協(xié)議可以有效防止遠(yuǎn)程管理過程中的信息泄露問題。SSH最初是UNIX系統(tǒng)上的一個(gè)程序，后來又迅速擴(kuò)展到其他操作平臺(tái)。SSH是由客戶端和服務(wù)端的軟件組成，服務(wù)端是一個(gè)守護(hù)進(jìn)程(daemon)，它在后臺(tái)運(yùn)行并響應(yīng)來自客戶端的連接請求，客戶端包含ssh程序以及像scp（遠(yuǎn)程拷貝）、slogin（遠(yuǎn)程登陸）、sftp（安全文件傳輸）等其他的應(yīng)用程序84ppt精選版SSH登錄權(quán)限設(shè)置SSH是什么？84ppt精選版SSH登錄權(quán)限設(shè)置配置SSH的原因：Hadoop名稱節(jié)點(diǎn)（NameNode）需要啟動(dòng)集群中所有機(jī)器的Hadoop守護(hù)進(jìn)程，這個(gè)過程需要通過SSH登錄來實(shí)現(xiàn)。Hadoop并沒有提供SSH輸入密碼登錄的形式，因此，為了能夠順利登錄每臺(tái)機(jī)器，需要將所有機(jī)器配置為名稱節(jié)點(diǎn)可以無密碼登錄它們85ppt精選版SSH登錄權(quán)限設(shè)置配置SSH的原因：85ppt精選版安裝Java環(huán)境Java環(huán)境可選擇Oracle的JDK，或是OpenJDK可以在Ubuntu中直接通過命令安裝OpenJDK7$sudoapt-getinstallopenjdk-7-jreopenjdk-7-jdk還需要配置一下JAVA_HOME環(huán)境變量

具體請參考網(wǎng)絡(luò)教程：/blog/install-hadoop/86ppt精選版安裝Java環(huán)境Java環(huán)境可選擇Oracle的JDK單機(jī)安裝配置Hadoop2可以到官網(wǎng)下載，需要下載

hadoop-2.x.y.tar.gz

這個(gè)格式的文件，這是編譯好的，另一個(gè)包含src的則是Hadoop源代碼，需要進(jìn)行編譯才可使用Hadoop2安裝文件的下載如果讀者是使用虛擬機(jī)方式安裝Ubuntu系統(tǒng)的用戶，請用虛擬機(jī)中的Ubuntu自帶firefox瀏覽器訪問本指南，再點(diǎn)擊下載地址，才能把hadoop文件下載虛擬機(jī)ubuntu中。請不要使用Windows系統(tǒng)下的瀏覽器下載，文件會(huì)被下載到Windows系統(tǒng)中，虛擬機(jī)中的Ubuntu無法訪問外部Windows系統(tǒng)的文件，造成不必要的麻煩。如果讀者是使用雙系統(tǒng)方式安裝Ubuntu系統(tǒng)的用戶，請進(jìn)去Ubuntu系統(tǒng)，在Ubuntu系統(tǒng)打開firefox瀏覽器，再點(diǎn)擊下載單機(jī)安裝配置Hadoop2可以到官網(wǎng)下載，需要下載

ha單機(jī)安裝配置選擇將Hadoop安裝至/usr/local/中$sudotar-zxf~/下載/hadoop-2.6.0.tar.gz-C/usr/local#解壓到/usr/local中$cd/usr/local/$sudomv./hadoop-2.6.0/./hadoop#將文件夾名改為hadoop$sudochown-Rhadoop:hadoop./hadoop#修改文件權(quán)限Hadoop解壓后即可使用。輸入如下命令來檢查Hadoop是否可用，成功則會(huì)顯示Hadoop版本信息：$cd/usr/local/hadoop$./bin/hadoopversionHadoop默認(rèn)模式為非分布式模式（本地模式），無需進(jìn)行其他配置即可運(yùn)行。單機(jī)安裝配置選擇將Hadoop安裝至/usr/loca偽分布式安裝配置Hadoop可以在單節(jié)點(diǎn)上以偽分布式的方式運(yùn)行，Hadoop進(jìn)程以分離的Java進(jìn)程來運(yùn)行，節(jié)點(diǎn)既作為NameNode也作為DataNode，同時(shí)，讀取的是HDFS中的文件Hadoop的配置文件位于/usr/local/hadoop/etc/hadoop/中，偽分布式需要修改2個(gè)配置文件

core-site.xml

和

hdfs-site.xml

Hadoop的配置文件是xml格式，每個(gè)配置以聲明property的name和value的方式來實(shí)現(xiàn)89ppt精選版?zhèn)畏植际桨惭b配置Hadoop可以在單節(jié)點(diǎn)上以偽分布式的方式偽分布式安裝配置實(shí)驗(yàn)步驟：修改配置文件：core-site.xml，hdfs-site.xml，mapred-site.xml初始化文件系統(tǒng)hadoopnamenode-format啟動(dòng)所有進(jìn)程start-all.sh訪問web界面，查看Hadoop信息運(yùn)行實(shí)例90ppt精選版?zhèn)畏植际桨惭b配置實(shí)驗(yàn)步驟：90ppt精選版?zhèn)畏植际桨惭b配置修改配置文件

hdfs-site.xml<c偽分布式安裝配置name為fs.defaultFS的值，表示hdfs路徑的邏輯名稱hadoop.tmp.dir表示存放臨時(shí)數(shù)據(jù)的目錄，即包括NameNode的數(shù)據(jù)，也包括DataNode的數(shù)據(jù)。該路徑任意指定，只要實(shí)際存在該文件夾即可

偽分布式安裝配置name為fs.defaultFS的值，表示偽分布式安裝配置修改配置文件

hdfs-site.xml<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>dfs.replication表示副本的數(shù)量，偽分布式要設(shè)置為1.dir表示本地磁盤目錄，是存儲(chǔ)fsimage文件的地方dfs.datanode.data.dir表示本地磁盤目錄，HDFS數(shù)據(jù)存放block的地方偽分布式安裝配置修改配置文件

hdfs-site.xml<c偽分布式安裝配置關(guān)于三種Shell命令方式的區(qū)別：1.hadoopfs2.hadoopdfs3.hdfsdfshadoopfs適用于任何不同的文件系統(tǒng)，比如本地文件系統(tǒng)和HDFS文件系統(tǒng)hadoopdfs只能適用于HDFS文件系統(tǒng)hdfsdfs跟hadoopdfs的命令作用一樣，也只能適用于HDFS文件系統(tǒng)偽分布式安裝配置關(guān)于三種Shell命令方式的區(qū)別：2.4.1集群節(jié)點(diǎn)類型2.4.2集群規(guī)模2.4.3集群硬件配置2.4.4集群網(wǎng)絡(luò)拓?fù)?.4.5集群的建立與安裝2.4.6集群基準(zhǔn)測試2.4.7在云計(jì)算環(huán)境中使用Hadoop2.4Hadoop集群的部署與使用2.4.1集群節(jié)點(diǎn)類型2.4Hadoop集群的部署與使用2.4.1Hadoop集群中有哪些節(jié)點(diǎn)類型Hadoop框架中最核心的設(shè)計(jì)是為海量數(shù)據(jù)提供存儲(chǔ)的HDFS和對數(shù)據(jù)進(jìn)行計(jì)算的MapReduceMapReduce的作業(yè)主要包括：（1）從磁盤或從網(wǎng)絡(luò)讀取數(shù)據(jù)，即IO密集工作；（2）計(jì)算數(shù)據(jù)，即CPU密集工作Hadoop集群的整體性能取決于CPU、內(nèi)存、網(wǎng)絡(luò)以及存儲(chǔ)之間的性能平衡。因此運(yùn)營團(tuán)隊(duì)在選擇機(jī)器配置時(shí)要針對不同的工作節(jié)點(diǎn)選擇合適硬件類型一個(gè)基本的Hadoop集群中的節(jié)點(diǎn)主要有NameNode：負(fù)責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲(chǔ)DataNode：存儲(chǔ)被拆分的數(shù)據(jù)塊JobTracker：協(xié)調(diào)數(shù)據(jù)計(jì)算任務(wù)TaskTracker：負(fù)責(zé)執(zhí)行由JobTracker指派的任務(wù)SecondaryNameNode：幫助NameNode收集文件系統(tǒng)運(yùn)行的狀態(tài)信息2.4.1Hadoop集群中有哪些節(jié)點(diǎn)類型Hadoop框架2.4.2集群硬件配置在集群中，大部分的機(jī)器設(shè)備是作為Datanode和TaskTracker工作的Datanode/TaskTracker的硬件規(guī)格可以采用以下方案：4個(gè)磁盤驅(qū)動(dòng)器（單盤1-2T），支持JBOD(JustaBunchOfDisks，磁盤簇)2個(gè)4核CPU,至少2-2.5GHz16-24GB內(nèi)存千兆以太網(wǎng)2.4.2集群硬件配置在集群中，大部分的機(jī)器設(shè)備是作為Da2.4.2集群硬件配置NameNode提供整個(gè)HDFS文件系統(tǒng)的NameSpace(命名空間)管理、塊管理等所有服務(wù)，因此需要更多的RAM，與集群中的數(shù)據(jù)塊數(shù)量相對應(yīng)，并且需要優(yōu)化RAM的內(nèi)存通道帶寬，采用雙通道或三通道以上內(nèi)存。硬件規(guī)格可以采用以下方案：8-12個(gè)磁盤驅(qū)動(dòng)器（單盤1-2T）2個(gè)4核/8核CPU16-72GB內(nèi)存千兆/萬兆以太網(wǎng)2.4.2集群硬件配置NameNode提供整個(gè)HDFS文件2.4.2集群硬件配置SecondaryNameNode在小型集群中可以和NameNode共用一臺(tái)機(jī)器，較大的群集可以采用與NameNode相同的硬件2.4.2集群硬件配置SecondaryNameNode在2.4.3集群規(guī)模要多大

Hadoop集群規(guī)?？纱罂尚?，初始時(shí)，可以從一個(gè)較小規(guī)模的集群開始，比如包含10個(gè)節(jié)點(diǎn)，然后，規(guī)模隨著存儲(chǔ)器和計(jì)算需求的擴(kuò)大而擴(kuò)大如果數(shù)據(jù)每周增大1TB，并且有三個(gè)HDFS副本，然后每周需要一個(gè)額外的3TB作為原始數(shù)據(jù)存儲(chǔ)。要允許一些中間文件和日志（假定30%）的空間，由此，可以算出每周大約需要增加一臺(tái)新機(jī)器。存儲(chǔ)兩年數(shù)據(jù)的集群，大約需要100臺(tái)機(jī)器對于一個(gè)小的集群，名稱節(jié)點(diǎn)（NameNode）和JobTracker運(yùn)行在單個(gè)節(jié)點(diǎn)上，通常是可以接受的。但是，隨著集群和存儲(chǔ)在HDFS中的文件數(shù)量的增加，名稱節(jié)點(diǎn)需要更多的主存，這時(shí)，名稱節(jié)點(diǎn)和JobTracker就需要運(yùn)行在不同的節(jié)點(diǎn)上第二名稱節(jié)點(diǎn)（SecondaryNameNode）會(huì)和名稱節(jié)點(diǎn)可以運(yùn)行在相同的機(jī)器上，但是，由于第二名稱節(jié)點(diǎn)和名稱節(jié)點(diǎn)幾乎具有相同的主存需求，因此，二者最好運(yùn)行在不同節(jié)點(diǎn)上2.4.3集群規(guī)模要多大Hadoop集群規(guī)?？纱罂尚?，初2.4.4集群網(wǎng)絡(luò)拓?fù)淦胀ǖ腍adoop集群結(jié)構(gòu)由一個(gè)兩階網(wǎng)絡(luò)構(gòu)成每個(gè)機(jī)架（Rack）有30-40個(gè)服務(wù)器，配置一個(gè)1GB的交換機(jī)，并向上傳輸?shù)揭粋€(gè)核心交換機(jī)或者路由器（1GB或以上）在相同的機(jī)架中的節(jié)點(diǎn)間的帶寬的總和，要大于不同機(jī)架間的節(jié)點(diǎn)間的帶寬總和2.4.4集群網(wǎng)絡(luò)拓?fù)淦胀ǖ腍adoop集群結(jié)構(gòu)由一個(gè)兩階2.4.5集群的建立與安裝采購好相關(guān)的硬件設(shè)備后，就可以把硬件裝入機(jī)架，安裝并運(yùn)行Hadoop安裝Hadoop有多種方法：（1）手動(dòng)安裝（2）自動(dòng)化安裝為了緩解安裝和維護(hù)每個(gè)節(jié)點(diǎn)上相同的軟件的負(fù)擔(dān)，可以使用一個(gè)自動(dòng)化方法實(shí)現(xiàn)完全自動(dòng)化安裝，比如RedHatLinux’Kickstart、Debian或者Docker自動(dòng)化安裝部署工具，會(huì)通過記錄在安裝過程中對于各個(gè)選項(xiàng)的回答來完成自動(dòng)化安裝過程。

2.4.5集群的建立與安裝采購好相關(guān)的硬件設(shè)備后，就可以把2.4.6Hadoop集群基準(zhǔn)測試如何判斷一個(gè)Hadoop集群是否已經(jīng)正確安裝？可以運(yùn)行基準(zhǔn)測試Hadoop自帶有一些基準(zhǔn)測試程序，被打包在測試程序JAR文件中用TestDFSIO基準(zhǔn)測試，來測試HDFS的IO性能用排序測試MapReduce：Hadoop自帶一個(gè)部分排序的程序，這個(gè)測試過程的整個(gè)數(shù)據(jù)集都會(huì)通過洗牌（Shuffle）傳輸至Reducer，可以充分測試MapReduce的性能2.4.6Hadoop集群基準(zhǔn)測試如何判斷一個(gè)Hadoop2.4.7在云計(jì)算環(huán)境中使用HadoopHadoop不僅可以運(yùn)行在企業(yè)內(nèi)部的集群中，也可以運(yùn)行在云計(jì)算環(huán)境中可以在AmazonEC2中運(yùn)行Hadoop。EC2是一個(gè)計(jì)算服務(wù)，允許客戶租用計(jì)算機(jī)（實(shí)例），來運(yùn)行自己的應(yīng)用?？蛻艨梢园葱柽\(yùn)行或終止實(shí)例，并且按照實(shí)際使用情況來付費(fèi)Hadoop自帶有一套腳本，用于在EC2上面運(yùn)行Hadoop在EC2上運(yùn)行Hadoop尤其適用于一些工作流。例如，在AmazonS3中存儲(chǔ)數(shù)據(jù)，在EC2上運(yùn)行集群，在集群中運(yùn)行MapReduce作業(yè)，讀取存儲(chǔ)在S3中的數(shù)據(jù)，最后，在關(guān)閉集群之前將輸出寫回S3中；如果長期使用集群，復(fù)制S3數(shù)據(jù)到運(yùn)行在EC2上的HDFS中，則可以使得數(shù)據(jù)處理更加高效，因?yàn)?，HDFS可以充分利用數(shù)據(jù)的位置，S3則做不到，因?yàn)?，S3與EC2的存儲(chǔ)不在同一個(gè)節(jié)點(diǎn)上2.4.7在云計(jì)算環(huán)境中使用HadoopHadoop不僅可本章小結(jié)Hadoop被視為事實(shí)上的大數(shù)據(jù)處理標(biāo)準(zhǔn)，本章介紹了Hadoop的發(fā)展歷程，并闡述了Hadoop的高可靠性、高效性、高可擴(kuò)展性、高容錯(cuò)性、成本低、運(yùn)行在Linux平臺(tái)上、支持多種編程語言等特性Hadoop目前已經(jīng)在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用，雅虎、Facebook、百度、淘寶、網(wǎng)易等公司都建立了自己的Hadoop集群經(jīng)過多年發(fā)展，Hadoop項(xiàng)目已經(jīng)變得非常成熟和完善，包括Common、Avro、Zookeeper、HDFS、MapReduce、HBase、Hive、Chukwa、Pig等子項(xiàng)目，其中，HDFS和MapReduce是Hadoop的兩大核心組件本章最后介紹了如何在Linux系統(tǒng)下完成Hadoop的安裝和配置，這個(gè)部分是后續(xù)章節(jié)實(shí)踐環(huán)節(jié)的基礎(chǔ)105ppt精選版本章小結(jié)Hadoop被視為事實(shí)上的大數(shù)據(jù)處理標(biāo)準(zhǔn)，本章介紹了第三章分布式文件系統(tǒng)HDFS106ppt精選版第三章分布式文件系統(tǒng)HDFS106ppt精選版提綱3.1分布式文件系統(tǒng)3.2HDFS簡介3.3HDFS相關(guān)概念3.4HDFS體系結(jié)構(gòu)3.5HDFS存儲(chǔ)原理3.6HDFS數(shù)據(jù)讀寫過程3.7HDFS編程實(shí)踐提綱3.1分布式文件系統(tǒng)3.1 分布式文件系統(tǒng)3.1.1 計(jì)算機(jī)集群結(jié)構(gòu)3.1.2 分布式文件系統(tǒng)的結(jié)構(gòu)108ppt精選版3.1 分布式文件系統(tǒng)3.1.1 計(jì)算機(jī)集群結(jié)構(gòu)108ppt3.1.1 計(jì)算機(jī)集群結(jié)構(gòu)分布式文件系統(tǒng)把文件分布存儲(chǔ)到多個(gè)計(jì)算機(jī)節(jié)點(diǎn)上，成千上萬的計(jì)算機(jī)節(jié)點(diǎn)構(gòu)成計(jì)算機(jī)集群與之前使用多個(gè)處理器和專用高級硬件的并行化處理裝置不同的是，目前的分布式文件系統(tǒng)所采用的計(jì)算機(jī)集群，都是由普通硬件構(gòu)成的，這就大大降低了硬件上的開銷3.1.1 計(jì)算機(jī)集群結(jié)構(gòu)分布式文件系統(tǒng)把文件分布存儲(chǔ)到多個(gè)3.1.1 計(jì)算機(jī)集群結(jié)構(gòu)圖3-1計(jì)算機(jī)集群的基本架構(gòu)3.1.1 計(jì)算機(jī)集群結(jié)構(gòu)圖3-1計(jì)算機(jī)集群的基本架構(gòu)3.1.2 分布式文件系統(tǒng)的結(jié)構(gòu)分布式文件系統(tǒng)在物理結(jié)構(gòu)上是由計(jì)算機(jī)集群中的多個(gè)節(jié)點(diǎn)構(gòu)成的，這些節(jié)點(diǎn)分為兩類，一類叫“主節(jié)點(diǎn)”(MasterNode)或者也被稱為“名稱結(jié)點(diǎn)”(NameNode)，另一類叫“從節(jié)點(diǎn)”（SlaveNode）或者也被稱為“數(shù)據(jù)節(jié)點(diǎn)”(DataNode)3.1.2 分布式文件系統(tǒng)的結(jié)構(gòu)分布式文件系統(tǒng)在物理結(jié)構(gòu)上是3.1.2 分布式文件系統(tǒng)的結(jié)構(gòu)圖3-2大規(guī)模文件系統(tǒng)的整體結(jié)構(gòu)3.1.2 分布式文件系統(tǒng)的結(jié)構(gòu)圖3-2大規(guī)模文件系統(tǒng)的整3.2 HDFS簡介總體而言，HDFS要實(shí)現(xiàn)以下目標(biāo)：●兼容廉價(jià)的硬件設(shè)備●流數(shù)據(jù)讀寫●大數(shù)據(jù)集●簡單的文件模型●強(qiáng)大的跨平臺(tái)兼容性HDFS特殊的設(shè)計(jì)，在實(shí)現(xiàn)上述優(yōu)良特性的同時(shí)，也使得自身具有一些應(yīng)用局限性，主要包括以下幾個(gè)方面：●不適合低延遲數(shù)據(jù)訪問●無法高效存儲(chǔ)大量小文件●不支持多用戶寫入及任意修改文件3.2 HDFS簡介總體而言，HDFS要實(shí)現(xiàn)以下目標(biāo)：●兼容3.3.1 塊HDFS默認(rèn)一個(gè)塊64MB，一個(gè)文件被分成多個(gè)塊，以塊作為存儲(chǔ)單位塊的大小遠(yuǎn)遠(yuǎn)大于普通文件系統(tǒng)，可以最小化尋址開銷3.3.1 塊HDFS默認(rèn)一個(gè)塊64MB，一個(gè)文件被分成多個(gè)3.3.1 塊HDFS采用抽象的塊概念可以帶來以下幾個(gè)明顯的好處：●支持大規(guī)模文件存儲(chǔ)：文件以塊為單位進(jìn)行存儲(chǔ)，一個(gè)大規(guī)模文件可以被分拆成若干個(gè)文件塊，不同的文件塊可以被分發(fā)到不同的節(jié)點(diǎn)上，因此，一個(gè)文件的大小不會(huì)受到單個(gè)節(jié)點(diǎn)的存儲(chǔ)容量的限制，可以遠(yuǎn)遠(yuǎn)大于網(wǎng)絡(luò)中任意節(jié)點(diǎn)的存儲(chǔ)容量●簡化系統(tǒng)設(shè)計(jì)：首先，大大簡化了存儲(chǔ)管理，因?yàn)槲募K大小是固定的，這樣就可以很容易計(jì)算出一個(gè)節(jié)點(diǎn)可以存儲(chǔ)多少文件塊；其次，方便了元數(shù)據(jù)的管理，元數(shù)據(jù)不需要和文件塊一起存儲(chǔ)，可以由其他系統(tǒng)負(fù)責(zé)管理元數(shù)據(jù)●適合數(shù)據(jù)備份：每個(gè)文件塊都可以冗余存儲(chǔ)到多個(gè)節(jié)點(diǎn)上，大大提高了系統(tǒng)的容錯(cuò)性和可用性3.3.1 塊HDFS采用抽象的塊概念可以帶來以下幾個(gè)明顯的3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)在HDFS中，名稱節(jié)點(diǎn)（NameNode）負(fù)責(zé)管理分布式文件系統(tǒng)的命名空間（Namespace），保存了兩個(gè)核心的數(shù)據(jù)結(jié)構(gòu)，即FsImage和EditLogFsImage用于維護(hù)文件系統(tǒng)樹以及文件樹中所有的文件和文件夾的元數(shù)據(jù)操作日志文件EditLog中記錄了所有針對文件的創(chuàng)建、刪除、重命名等操作名稱節(jié)點(diǎn)記錄了每個(gè)文件中各個(gè)塊所在的數(shù)據(jù)節(jié)點(diǎn)的位置信息名稱節(jié)點(diǎn)的數(shù)據(jù)結(jié)構(gòu)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)在HDFS中，名稱節(jié)點(diǎn)（Nam3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)圖3-3名稱節(jié)點(diǎn)的數(shù)據(jù)結(jié)構(gòu)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)圖3-3名稱節(jié)點(diǎn)的數(shù)據(jù)結(jié)構(gòu)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)FsImage文件包含文件系統(tǒng)中所有目錄和文件inode的序列化形式。每個(gè)inode是一個(gè)文件或目錄的元數(shù)據(jù)的內(nèi)部表示，并包含此類信息：文件的復(fù)制等級、修改和訪問時(shí)間、訪問權(quán)限、塊大小以及組成文件的塊。對于目錄，則存儲(chǔ)修改時(shí)間、權(quán)限和配額元數(shù)據(jù)FsImage文件沒有記錄塊存儲(chǔ)在哪個(gè)數(shù)據(jù)節(jié)點(diǎn)。而是由名稱節(jié)點(diǎn)把這些映射保留在內(nèi)存中，當(dāng)數(shù)據(jù)節(jié)點(diǎn)加入HDFS集群時(shí)，數(shù)據(jù)節(jié)點(diǎn)會(huì)把自己所包含的塊列表告知給名稱節(jié)點(diǎn)，此后會(huì)定期執(zhí)行這種告知操作，以確保名稱節(jié)點(diǎn)的塊映射是最新的。FsImage文件3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)FsImage文件包含文件系統(tǒng)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)在名稱節(jié)點(diǎn)啟動(dòng)的時(shí)候，它會(huì)將FsImage文件中的內(nèi)容加載到內(nèi)存中，之后再執(zhí)行EditLog文件中的各項(xiàng)操作，使得內(nèi)存中的元數(shù)據(jù)和實(shí)際的同步，存在內(nèi)存中的元數(shù)據(jù)支持客戶端的讀操作。一旦在內(nèi)存中成功建立文件系統(tǒng)元數(shù)據(jù)的映射，則創(chuàng)建一個(gè)新的FsImage文件和一個(gè)空的EditLog文件名稱節(jié)點(diǎn)起來之后，HDFS中的更新操作會(huì)重新寫到EditLog文件中，因?yàn)镕sImage文件一般都很大（GB級別的很常見），如果所有的更新操作都往FsImage文件中添加，這樣會(huì)導(dǎo)致系統(tǒng)運(yùn)行的十分緩慢，但是，如果往EditLog文件里面寫就不會(huì)這樣，因?yàn)镋ditLog要小很多。每次執(zhí)行寫操作之后，且在向客戶端發(fā)送成功代碼之前，edits文件都需要同步更新名稱節(jié)點(diǎn)的啟動(dòng)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)在名稱節(jié)點(diǎn)啟動(dòng)的時(shí)候，它會(huì)將F3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)在名稱節(jié)點(diǎn)運(yùn)行期間，HDFS的所有更新操作都是直接寫到EditLog中，久而久之，EditLog文件將會(huì)變得很大雖然這對名稱節(jié)點(diǎn)運(yùn)行時(shí)候是沒有什么明顯影響的，但是，當(dāng)名稱節(jié)點(diǎn)重啟的時(shí)候，名稱節(jié)點(diǎn)需要先將FsImage里面的所有內(nèi)容映像到內(nèi)存中，然后再一條一條地執(zhí)行EditLog中的記錄，當(dāng)EditLog文件非常大的時(shí)候，會(huì)導(dǎo)致名稱節(jié)點(diǎn)啟動(dòng)操作非常慢，而在這段時(shí)間內(nèi)HDFS系統(tǒng)處于安全模式，一直無法對外提供寫操作，影響了用戶的使用名稱節(jié)點(diǎn)運(yùn)行期間EditLog不斷變大的問題3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)在名稱節(jié)點(diǎn)運(yùn)行期間，HDFS的3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)如何解決？答案是：SecondaryNameNode第二名稱節(jié)點(diǎn)第二名稱節(jié)點(diǎn)是HDFS架構(gòu)中的一個(gè)組成部分，它是用來保存名稱節(jié)點(diǎn)中對HDFS元數(shù)據(jù)信息的備份，并減少名稱節(jié)點(diǎn)重啟的時(shí)間。SecondaryNameNode一般是單獨(dú)運(yùn)行在一臺(tái)機(jī)器上3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)如何解決？答案是：Second3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)SecondaryNameNode的工作情況：（1）SecondaryNameNode會(huì)定期和NameNode通信，請求其停止使用EditLog文件，暫時(shí)將新的寫操作寫到一個(gè)新的文件edit.new上來，這個(gè)操作是瞬間完成，上層寫日志的函數(shù)完全感覺不到差別；（2）SecondaryNameNode通過HTTPGET方式從NameNode上獲取到FsImage和EditLog文件，并下載到本地的相應(yīng)目錄下；（3）SecondaryNameNode將下載下來的FsImage載入到內(nèi)存，然后一條一條地執(zhí)行EditLog文件中的各項(xiàng)更新操作，使得內(nèi)存中的FsImage保持最新；這個(gè)過程就是EditLog和FsImage文件合并；（4）SecondaryNameNode執(zhí)行完（3）操作之后，會(huì)通過post方式將新的FsImage文件發(fā)送到NameNode節(jié)點(diǎn)上（5）NameNode將從SecondaryNameNode接收到的新的FsImage替換舊的FsImage文件，同時(shí)將edit.new替換EditLog文件，通過這個(gè)過程EditLog就變小了3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)SecondaryNameNo3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn)是分布式文件系統(tǒng)HDFS的工作節(jié)點(diǎn)，負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和讀取，會(huì)根據(jù)客戶端或者是名稱節(jié)點(diǎn)的調(diào)度來進(jìn)行數(shù)據(jù)的存儲(chǔ)和檢索，并且向名稱節(jié)點(diǎn)定期發(fā)送自己所存儲(chǔ)的塊的列表每個(gè)數(shù)據(jù)節(jié)點(diǎn)中的數(shù)據(jù)會(huì)被保存在各自節(jié)點(diǎn)的本地Linux文件系統(tǒng)中數(shù)據(jù)節(jié)點(diǎn)（DataNode）3.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn)是分布式文件系統(tǒng)HDF3.4 HDFS體系結(jié)構(gòu)3.4.1 HDFS體系結(jié)構(gòu)概述3.4.2 HDFS命名空間管理3.4.3 通信協(xié)議3.4.4 客戶端3.4.5 HDFS體系結(jié)構(gòu)的局限性126ppt精選版3.4 HDFS體系結(jié)構(gòu)3.4.1 HDFS體系結(jié)構(gòu)概述123.4.1 HDFS體系結(jié)構(gòu)概述HDFS采用了主從（Master/Slave）結(jié)構(gòu)模型，一個(gè)HDFS集群包括一個(gè)名稱節(jié)點(diǎn)（NameNode）和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)（DataNode）（如圖3-4所示）。名稱節(jié)點(diǎn)作為中心服務(wù)器，負(fù)責(zé)管理文件系統(tǒng)的命名空間及客戶端對文件的訪問。集群中的數(shù)據(jù)節(jié)點(diǎn)一般是一個(gè)節(jié)點(diǎn)運(yùn)行一個(gè)數(shù)據(jù)節(jié)點(diǎn)進(jìn)程，負(fù)責(zé)處理文件系統(tǒng)客戶端的讀/寫請求，在名稱節(jié)點(diǎn)的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制等操作。每個(gè)數(shù)據(jù)節(jié)點(diǎn)的數(shù)據(jù)實(shí)際上是保存在本地Linux文件系統(tǒng)中的3.4.1 HDFS體系結(jié)構(gòu)概述HDFS采用3.4.1 HDFS體系結(jié)構(gòu)概述圖3-4HDFS體系結(jié)構(gòu)3.4.1 HDFS體系結(jié)構(gòu)概述圖3-4HDFS體系結(jié)構(gòu)3.4.2 HDFS命名空間管理HDFS的命名空間包含目錄、文件和塊在HDFS1.0體系結(jié)構(gòu)中，在整個(gè)HDFS集群中只有一個(gè)命名空間，并且只有唯一一個(gè)名稱節(jié)點(diǎn)，該節(jié)點(diǎn)負(fù)責(zé)對這個(gè)命名空間進(jìn)行管理HDFS使用的是傳統(tǒng)的分級文件體系，因此，用戶可以像使用普通文件系統(tǒng)一樣，創(chuàng)建、刪除目錄和文件，在目錄間轉(zhuǎn)移文件，重命名文件等3.4.2 HDFS命名空間管理HDFS的命名空間包含目錄、3.4.3 通信協(xié)議HDFS是一個(gè)部署在集群上的分布式文件系統(tǒng)，因此，很多數(shù)據(jù)需要通過網(wǎng)絡(luò)進(jìn)行傳輸所有的HDFS通信協(xié)議都是構(gòu)建在TCP/IP協(xié)議基礎(chǔ)之上的客戶端通過一個(gè)可配置的端口向名稱節(jié)點(diǎn)主動(dòng)發(fā)起TCP連接，并使用客戶端協(xié)議與名稱節(jié)點(diǎn)進(jìn)行交互名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)之間則使用數(shù)據(jù)節(jié)點(diǎn)協(xié)議進(jìn)行交互客戶端與數(shù)據(jù)節(jié)點(diǎn)的交互是通過RPC（RemoteProcedureCall）來實(shí)現(xiàn)的。在設(shè)計(jì)上，名稱節(jié)點(diǎn)不會(huì)主動(dòng)發(fā)起RPC，而是響應(yīng)來自客戶端和數(shù)據(jù)節(jié)點(diǎn)的RPC請求3.4.3 通信協(xié)議HDFS是一個(gè)部署在集群上的分布式文件系3.4.4 客戶端客戶端是用戶操作HDFS最常用的方式，HDFS在部署時(shí)都提供了客戶端HDFS客戶端是一個(gè)庫，暴露了HDFS文件系統(tǒng)接口，這些接口隱藏了HDFS實(shí)現(xiàn)中的大部分復(fù)雜性嚴(yán)格來說，客戶端并不算是HDFS的一部分客戶端可以支持打開、讀取、寫入等常見的操作，并且提供了類似Shell的命令行方式來訪問HDFS中的數(shù)據(jù)此外，HDFS也提供了JavaAPI，作為應(yīng)用程序訪問文件系統(tǒng)的客戶端編程接口3.4.4 客戶端客戶端是用戶操作HDFS最常用的方式，HD3.4.5 HDFS體系結(jié)構(gòu)的局限性HDFS只設(shè)置唯一一個(gè)名稱節(jié)點(diǎn)，這樣做雖然大大簡化了系統(tǒng)設(shè)計(jì)，但也帶來了一些明顯的局限性，具體如下：（1）命名空間的限制：名稱節(jié)點(diǎn)是保存在內(nèi)存中的，因此，名稱節(jié)點(diǎn)能夠容納的對象（文件、塊）的個(gè)數(shù)會(huì)受到內(nèi)存空間大小的限制。（2）性能的瓶頸：整個(gè)分布式文件系統(tǒng)的吞吐量，受限于單個(gè)名稱節(jié)點(diǎn)的吞吐量。（3）隔離問題：由于集群中只有一個(gè)名稱節(jié)點(diǎn)，只有一個(gè)命名空間，因此，無法對不同應(yīng)用程序進(jìn)行隔離。（4）集群的可用性：一旦這個(gè)唯一的名稱節(jié)點(diǎn)發(fā)生故障，會(huì)導(dǎo)致整個(gè)集群變得不可用。3.4.5 HDFS體系結(jié)構(gòu)的局限性HDFS只設(shè)置唯一一個(gè)名3.5 HDFS存儲(chǔ)原理3.5.1 冗余數(shù)據(jù)保存3.5.2 數(shù)據(jù)存取策略3.5.3 數(shù)據(jù)錯(cuò)誤與恢復(fù)133ppt精選版3.5 HDFS存儲(chǔ)原理3.5.1 冗余數(shù)據(jù)保存133ppt3.5.1 冗余數(shù)據(jù)保存

作為一個(gè)分布式文件系統(tǒng)，為了保證系統(tǒng)的容錯(cuò)性和可用性，HDFS采用了多副本方式對數(shù)據(jù)進(jìn)行冗余存儲(chǔ)，通常一個(gè)數(shù)據(jù)塊的多個(gè)副本會(huì)被分布到不同的數(shù)據(jù)節(jié)點(diǎn)上，如圖3-5所示，數(shù)據(jù)塊1被分別存放到數(shù)據(jù)節(jié)點(diǎn)A和C上，數(shù)據(jù)塊2被存放在數(shù)據(jù)節(jié)點(diǎn)A和B上。這種多副本方式具有以下幾個(gè)優(yōu)點(diǎn)：（1）加快數(shù)據(jù)傳輸速度（2）容易檢查數(shù)據(jù)錯(cuò)誤（3）保證數(shù)據(jù)可靠性圖3-5HDFS數(shù)據(jù)塊多副本存儲(chǔ)3.5.1 冗余數(shù)據(jù)保存作為一個(gè)分布式文件系3.5.2 數(shù)據(jù)存取策略1.數(shù)據(jù)存放Block的副本放置策略第一個(gè)副本：放置在上傳文件的數(shù)據(jù)節(jié)點(diǎn)；如果是集群外提交，則隨機(jī)挑選一臺(tái)磁盤不太滿、CPU不太忙的節(jié)點(diǎn)第二個(gè)副本：放置在與第一個(gè)副本不同的機(jī)架的節(jié)點(diǎn)上第三個(gè)副本：與第一個(gè)副本相同機(jī)架的其他節(jié)點(diǎn)上更多副本：隨機(jī)節(jié)點(diǎn)3.5.2 數(shù)據(jù)存取策略1.數(shù)據(jù)存放Block的副本放置策略3.5.2

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)技術(shù)原理與應(yīng)用完整版課件

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)技術(shù)原理與應(yīng)用 完整版課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

大數(shù)據(jù)技術(shù)原理與應(yīng)用完整版課件