Chapter2-廈門大學-林子雨-大數(shù)據(jù)技術(shù)原理與應(yīng)用-第二章-大數(shù)據(jù)處理架構(gòu)Hadoop_第1頁
Chapter2-廈門大學-林子雨-大數(shù)據(jù)技術(shù)原理與應(yīng)用-第二章-大數(shù)據(jù)處理架構(gòu)Hadoop_第2頁
Chapter2-廈門大學-林子雨-大數(shù)據(jù)技術(shù)原理與應(yīng)用-第二章-大數(shù)據(jù)處理架構(gòu)Hadoop_第3頁
Chapter2-廈門大學-林子雨-大數(shù)據(jù)技術(shù)原理與應(yīng)用-第二章-大數(shù)據(jù)處理架構(gòu)Hadoop_第4頁
Chapter2-廈門大學-林子雨-大數(shù)據(jù)技術(shù)原理與應(yīng)用-第二章-大數(shù)據(jù)處理架構(gòu)Hadoop_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

廈門大學計算機科學系2015年版林子雨廈門大學計算機科學系主頁:

第二章大數(shù)據(jù)處理架構(gòu)Hadoop

〔PPT版本號:2015年6月第1.0版〕《大數(shù)據(jù)技術(shù)原理與應(yīng)用》溫馨提示:編輯幻燈片母版,可以修改每頁PPT的廈大校徽和底部文字提綱2.1概述2.2Hadoop工程結(jié)構(gòu)2.3Hadoop的安裝與使用歡送訪問《大數(shù)據(jù)技術(shù)原理與應(yīng)用》教材官方網(wǎng)站:本PPT是如下教材的配套講義:21世紀高等教育計算機規(guī)劃教材《大數(shù)據(jù)技術(shù)原理與應(yīng)用——概念、存儲、處理、分析與應(yīng)用》〔2015年6月第1版〕廈門大學林子雨編著,人民郵電出版社ISBN:978-7-115-39287-92.1概述2.1.1 Hadoop簡介2.1.2 Hadoop開展簡史2.1.3 Hadoop的特性2.1.4 Hadoop的應(yīng)用現(xiàn)狀2.1.1Hadoop簡介Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺,為用戶提供了系統(tǒng)底層細節(jié)透明的分布式根底架構(gòu)Hadoop是基于Java語言開發(fā)的,具有很好的跨平臺特性,并且可以部署在廉價的計算機集群中Hadoop的核心是分布式文件系統(tǒng)HDFS〔HadoopDistributedFileSystem〕和MapReduceHadoop被公認為行業(yè)大數(shù)據(jù)標準開源軟件,在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力幾乎所有主流廠商都圍繞Hadoop提供開發(fā)工具、開源軟件、商業(yè)化工具和技術(shù)效勞,如谷歌、雅虎、微軟、思科、淘寶等,都支持Hadoop2.1.2Hadoop開展簡史Hadoop最初是由ApacheLucene工程的創(chuàng)始人DougCutting開發(fā)的文本搜索庫。Hadoop源自始于2002年的ApacheNutch工程——一個開源的網(wǎng)絡(luò)搜索引擎并且也是Lucene工程的一局部在2004年,Nutch工程也模仿GFS開發(fā)了自己的分布式文件系統(tǒng)NDFS〔NutchDistributedFileSystem〕,也就是HDFS的前身2004年,谷歌公司又發(fā)表了另一篇具有深遠影響的論文,闡述了MapReduce分布式編程思想2005年,Nutch開源實現(xiàn)了谷歌的MapReduceHadoop的標志2.1.2Hadoop開展簡史到了2006年2月,Nutch中的NDFS和MapReduce開始獨立出來,成為Lucene工程的一個子工程,稱為Hadoop,同時,DougCutting加盟雅虎2008年1月,Hadoop正式成為Apache頂級工程,Hadoop也逐漸開始被雅虎之外的其他公司使用2008年4月,Hadoop打破世界紀錄,成為最快排序1TB數(shù)據(jù)的系統(tǒng),它采用一個由910個節(jié)點構(gòu)成的集群進行運算,排序時間只用了209秒在2009年5月,Hadoop更是把1TB數(shù)據(jù)排序時間縮短到62秒。Hadoop從此名聲大震,迅速開展成為大數(shù)據(jù)時代最具影響力的開源分布式開發(fā)平臺,并成為事實上的大數(shù)據(jù)處理標準2.1.3Hadoop的特性Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,并且是以一種可靠、高效、可伸縮的方式進行處理的,它具有以下幾個方面的特性:高可靠性高效性高可擴展性高容錯性本錢低運行在Linux平臺上支持多種編程語言2.1.3Hadoop的應(yīng)用現(xiàn)狀Hadoop憑借其突出的優(yōu)勢,已經(jīng)在各個領(lǐng)域得到了廣泛的應(yīng)用,而互聯(lián)網(wǎng)領(lǐng)域是其應(yīng)用的主陣地2007年,雅虎在Sunnyvale總部建立了M45——一個包含了4000個處理器和1.5PB容量的Hadoop集群系統(tǒng)Facebook作為全球知名的社交網(wǎng)站,Hadoop是非常理想的選擇,F(xiàn)acebook主要將Hadoop平臺用于日志處理、推薦系統(tǒng)和數(shù)據(jù)倉庫等方面國內(nèi)采用Hadoop的公司主要有百度、淘寶、網(wǎng)易、華為、中國移動等,其中,淘寶的Hadoop集群比較大2.2Hadoop工程結(jié)構(gòu)經(jīng)過多年的開展,Hadoop工程不斷完善和成熟,目前已經(jīng)包含多個子工程〔如圖2-2所示〕除了核心的HDFS和MapReduce以外,Hadoop工程還包括Common、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子工程,它們提供了互補性效勞或在核心層上提供了更高層的效勞圖2-2Hadoop工程結(jié)構(gòu)圖2.3 Hadoop的安裝與使用Hadoop根本安裝配置主要包括以下幾個步驟:創(chuàng)立Hadoop用戶Java安裝SSH登錄權(quán)限設(shè)置單機安裝配置偽分布式安裝配置2.3.1創(chuàng)立Hadoop用戶添加用戶-----useradd刪除用戶-----userdel更改密碼-----passwd在本次實驗中,創(chuàng)立的用戶名為hadoop2.3.2Java安裝使用CentOS自帶的java版本安裝Oracle官方j(luò)ava版本2.3.3SSH登錄權(quán)限配置SSH的原因:Hadoop名稱節(jié)點〔NameNode〕需要啟動集群中所有機器的Hadoop守護進程,這個過程需要通過SSH登錄來實現(xiàn)。Hadoop并沒有提供SSH輸入密碼登錄的形式,因此,為了能夠順利登錄每臺機器,需要將所有機器配置為名稱節(jié)點可以無密碼登錄它們。SSH是什么?SSH

SecureShell

的縮寫,是建立在應(yīng)用層和傳輸層根底上的平安協(xié)議。SSH是由客戶端和效勞端的軟件組成,效勞端是一個守護進程(daemon),他在后臺運行并響應(yīng)來自客戶端的連接請求,客戶端包含ssh程序以及像scp〔遠程拷貝〕、slogin〔遠程登陸〕、sftp〔平安文件傳輸〕等其他的應(yīng)用程序。2.3.4安裝單機HadoopHadoop版本:下載地址:實驗步驟:解壓縮修改hadoop-env.sh查看hadoop版本信息:./hadoopversion運行hadoop實例2.3.5Hadoop偽分布式安裝文件名稱格式描述hadoop-env.shBash腳本記錄配置Hadoop運行所需的環(huán)境變量,以運行Hadoopcore-site.xmlHadoop配置XMLHadoopcore的配置項,例如HDFS和MapReduce常用的I/O設(shè)置等hdfs-site.xmlHadoop配置XMLHadoop的守護進程的配置項,包括NameNode、SecondaryNameNode和DataNode等mapred-site.xmlHadoop配置XMLMapReduce守護進程的配置項,包括JobTracker和TaskTrackermasters純文本運行SecondaryNameNode的機器列表(每行一個)slaves純文本運行DataNode和TaskTracker的機器列表(每行一個)pertiesJava屬性控制metrics在Hadoop上如何發(fā)布的屬性Hadoop配置文件2.3.5Hadoop偽分布式安裝實驗步驟:修改配置文件:core-site.xml,hdfs-site.xml,mapred-site.xml初始化文件系統(tǒng)hadoopnamenode-format啟動所有進程start-all.sh訪問web界面,查看Hadoop信息運行實例本章小結(jié)Hadoop被視為事實上的大數(shù)據(jù)處理標準,本章介紹了Hadoop的開展歷程,并闡述了Hadoop的高可靠性、高效性、高可擴展性、高容錯性、本錢低、運行在Linux平臺上、支持多種編程語言等特性Hadoop目前已經(jīng)在各個領(lǐng)域得到了廣泛的應(yīng)用,雅虎、Facebook、百度、淘寶、網(wǎng)易等公司都建立了自己的Hadoop集群經(jīng)過多年開展,Hadoop工程已經(jīng)變得非常成熟和完善,包括Common、Avro、Zookeeper、HDFS、MapReduce、HBase、Hive、Chukwa、Pig等子工程,其中,HDFS和MapReduce是Hadoop的兩大核心組件本章最后介紹了如何在Linux系統(tǒng)下完成Hadoop的安裝和配置,這個局部是后續(xù)章節(jié)實踐環(huán)節(jié)的根底主講教師和助

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論