hadoop教程-培訓(xùn)課件_第1頁(yè)
hadoop教程-培訓(xùn)課件_第2頁(yè)
hadoop教程-培訓(xùn)課件_第3頁(yè)
hadoop教程-培訓(xùn)課件_第4頁(yè)
hadoop教程-培訓(xùn)課件_第5頁(yè)
已閱讀5頁(yè),還剩34頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

法律【】和幻燈片為煉數(shù)成金網(wǎng)絡(luò)課程的教學(xué)資料,所有資料只能在課程內(nèi)使用,不得在課程以外范圍散播,違者將可能被法律和經(jīng)濟(jì)責(zé)任。課程詳情

煉數(shù)成金培訓(xùn)http:

2013.7.132DATAGURU專業(yè)數(shù)據(jù)分析關(guān)于本課程的預(yù)備知識(shí)Linux:懂基本操作Java:能看懂Java程序2013.7.133DATAGURU專業(yè)數(shù)據(jù)分析Hadoop是什么?面向大數(shù)據(jù)處理擅長(zhǎng)離線數(shù)據(jù)分析分布式文件系統(tǒng)+計(jì)算框架Hadoop不是數(shù)據(jù)庫(kù),Hbase才是數(shù)據(jù)庫(kù)Hadoop是一個(gè)快速進(jìn)化的生態(tài)系統(tǒng)Hadoop會(huì)使用在哪些行業(yè)?2013.7.134DATAGURU專業(yè)數(shù)據(jù)分析大數(shù)據(jù)平臺(tái)知識(shí)路線圖2013.7.135DATAGURU專業(yè)數(shù)據(jù)分析Hadoop典型職位運(yùn)維Hadoop程序員(M-R,源代碼)架構(gòu)師數(shù)據(jù)倉(cāng)庫(kù)工程師2013.7.136DATAGURU專業(yè)數(shù)據(jù)分析課程目標(biāo)部署:Hadoop,Hbase,Hive,Pig數(shù)據(jù)集成:Sqoop,與Oracle、Mysql等關(guān)系型數(shù)據(jù)庫(kù)集成,與應(yīng)用集成,與R等常用數(shù)據(jù)分析工具集成掌握HDFS原理和基本操作掌握Map-Reduce工作原理,知道怎樣把M-R算法用于解決實(shí)際場(chǎng)景能書寫基本的Map-Reduce程序,懂得提交作業(yè)和對(duì)運(yùn)行狀況進(jìn)行監(jiān)視了解整個(gè)Hadoop生態(tài)系統(tǒng)的各個(gè)子產(chǎn)品,知道在大數(shù)據(jù)平臺(tái)架構(gòu)時(shí)應(yīng)該使用哪些產(chǎn)品具備初步閱讀源代碼的能力2013.7.137DATAGURU專業(yè)數(shù)據(jù)分析典型實(shí)驗(yàn)環(huán)境(擁有服務(wù)器)服務(wù)器:ESXi,可以在上面部署多臺(tái)虛擬機(jī),能同時(shí)啟動(dòng)3臺(tái)PC:要求linux環(huán)境或windows+Cygwin,linux可以是standalone或者使用虛擬機(jī)SSH:windows下可以使用SecureCRT或putty等ssh

client程序,作用是用來

連接linux服務(wù)器,linux下可以直接使用ssh命令Vmware

client:用于管理ESXiHadoop:使用1.x或2.x2013.7.138DATAGURU專業(yè)數(shù)據(jù)分析典型實(shí)驗(yàn)環(huán)境(只有PC或筆記本,基于win)至少4G內(nèi)存,最好運(yùn)行64位windows系統(tǒng),因?yàn)?2位xp只能支持3G多的內(nèi)存安裝vmwareworkstation或virtual

box部署3臺(tái)虛擬機(jī),能同時(shí)運(yùn)行,如果只能運(yùn)行2臺(tái)虛擬機(jī),那么可以把host也作為一個(gè)節(jié)點(diǎn)(使用cygwin),虛擬網(wǎng)絡(luò)配置為網(wǎng)橋方式安裝linux和java如果配置實(shí)在太低只好使用偽分布式2013.7.139DATAGURU專業(yè)數(shù)據(jù)分析Hadoop的思想之源:earth,學(xué)術(shù),搜索引擎,Gmail,安卓,Appspot翻譯,

+,下一步Maps,what??2013.7.1310DATAGURU專業(yè)數(shù)據(jù)分析的低成本之道不使用超級(jí)計(jì)算機(jī),不使用

(淘寶的去i,去e,去o

)大量使用普通的pc服務(wù)器(去掉機(jī)箱,外設(shè),硬盤),提供有冗余的集群服務(wù)全世界多個(gè)數(shù)據(jù)中心,有些附帶發(fā)電廠運(yùn)營(yíng)商向

倒2013.7.1311DATAGURU專業(yè)數(shù)據(jù)分析集裝箱數(shù)據(jù)中心位于Mountain

View,

Calif總部的數(shù)據(jù)中心總功率為10000千瓦,擁有45個(gè)集裝箱,每個(gè)集裝箱中有1160臺(tái)服務(wù)器,該數(shù)據(jù)中心的能效比為1.25(

PUE

1

表示數(shù)據(jù)中心沒有能源損耗,而根據(jù)2006年的統(tǒng)計(jì),一般公司數(shù)據(jù)中心的能效比為

2.0

或更高。 的

1.16

已經(jīng)低于

能源部2011年的1.2的目標(biāo))2013.7.1312DATAGURU專業(yè)數(shù)據(jù)分析面對(duì)的數(shù)據(jù)和計(jì)算難題大量的網(wǎng)頁(yè)怎么

?搜索算法Rank計(jì)算問題2013.7.1313DATAGURU專業(yè)數(shù)據(jù)分析倒排索引2013.7.1314DATAGURU專業(yè)數(shù)據(jù)分析Page

Rank“在

中找黃金這是

的算法,用于給每個(gè)網(wǎng)頁(yè)價(jià)值評(píng)分,是”的關(guān)鍵算法,這個(gè)算法成就了今天的2013.7.1315DATAGURU專業(yè)數(shù)據(jù)分析Map-reduce思想:計(jì)算PR2013.7.1316DATAGURU專業(yè)數(shù)據(jù)分析計(jì)算PR值2013.7.1317DATAGURU專業(yè)數(shù)據(jù)分析計(jì)算PR值2013.7.1318DATAGURU專業(yè)數(shù)據(jù)分析計(jì)算PR值2013.7.1319DATAGURU專業(yè)數(shù)據(jù)分析帶給

的和思想GFSMap-ReduceBigtable(后面講)2013.7.1320DATAGURU專業(yè)數(shù)據(jù)分析Hadoop的源起——Lucene類似的全文搜索功能Doug

Cutting開創(chuàng)的開源

,用java書寫代碼,實(shí)現(xiàn)與,它提供了全文檢索引擎的架構(gòu),包括完整的查詢引擎和索引引擎和SourceF

e,2001年年底成為apachejakarta的早期發(fā)布在個(gè)人一個(gè)子項(xiàng)目Lucene的目的是為開發(fā)

提供一個(gè)簡(jiǎn)單易用的工具包,以方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎對(duì)于大數(shù)量的場(chǎng)景,Lucene面對(duì)與

同樣的

。迫使DougCutting學(xué)習(xí)和模仿

解決這些問題的辦法一個(gè)微縮版:Nutch2013.7.1321DATAGURU專業(yè)數(shù)據(jù)分析從lucene到nutch,從nutch到hadoop2003-2004年, 公開了部分GFS和Mapreduce思想的細(xì)節(jié),以此為基礎(chǔ)DougCutting等人用了2年業(yè)余時(shí)間實(shí)現(xiàn)了DFS和Mapreduce機(jī)制,使Nutch性能飆升Yahoo招安Doug

Cutting及其項(xiàng)目Hadoop于2005年秋天作為L(zhǎng)ucene的子項(xiàng)目Nutch的一部分正式引入Apache基金會(huì)。2006年3月份,Map-Reduce和NutchDistributedFileSystem(NDFS)分別被納入稱為Hadoop的項(xiàng)目中名字來源于Doug

Cutting兒子的玩具大象2013.7.1322DATAGURU專業(yè)數(shù)據(jù)分析目前Hadoop達(dá)到的高度實(shí)現(xiàn)云計(jì)算的事實(shí)標(biāo)準(zhǔn)開源包含數(shù)十個(gè)具有強(qiáng)大生命力的子項(xiàng)目已經(jīng)能在數(shù)千節(jié)點(diǎn)上運(yùn)行,處理數(shù)據(jù)量和排序時(shí)間不斷打破世界2013.7.1323DATAGURU專業(yè)數(shù)據(jù)分析Hadoop子項(xiàng)目2013.7.1324DATAGURU專業(yè)數(shù)據(jù)分析Hadoop的架構(gòu)2013.7.1325DATAGURU專業(yè)數(shù)據(jù)分析NamenodeHDFS的守護(hù)程序

文件是如何分割成數(shù)據(jù)塊的,以及這些數(shù)據(jù)塊被

到哪些節(jié)點(diǎn)上對(duì)內(nèi)存和I/O進(jìn)行集中管理是個(gè)單點(diǎn),發(fā)生故障將使集群2013.7.1326DATAGURU專業(yè)數(shù)據(jù)分析Secondary

NamenodeHDFS狀態(tài)的輔助

程序每個(gè)集群都有一個(gè)與NameNode進(jìn)行通訊,定期保存HDFS元數(shù)據(jù)快照當(dāng)NameNode故障可以作為備用NameNode使用2013.7.1327DATAGURU專業(yè)數(shù)據(jù)分析DataNode每臺(tái)從服務(wù)器都運(yùn)行一個(gè)負(fù)責(zé)把HDFS數(shù)據(jù)塊讀寫到本地文件系統(tǒng)2013.7.1328DATAGURU專業(yè)數(shù)據(jù)分析JobTracker用于處理作業(yè)(用戶提交代碼)的后臺(tái)程序決定有哪些文件參與處理,然后切割task并分配節(jié)點(diǎn)task,重啟失敗的task(于不同的節(jié)點(diǎn))每個(gè)集群只有唯一一個(gè)JobTracker,位于Master節(jié)點(diǎn)2013.7.1329DATAGURU專業(yè)數(shù)據(jù)分析TaskTracker位于slave節(jié)點(diǎn)上,與datanode結(jié)合(代碼與數(shù)據(jù)一起的原則)管理各自節(jié)點(diǎn)上的task(由jobtracker分配)每個(gè)節(jié)點(diǎn)只有一個(gè)tasktracker,但一個(gè)tasktracker可以啟動(dòng)多個(gè)JVM,用于并行執(zhí)行map或reduce任務(wù)與jobtracker交互2013.7.1330DATAGURU專業(yè)數(shù)據(jù)分析Master與SlaveMaster:Namenode、SecondaryNamenode、Jobtracker。瀏覽器(用于 管理界面),其它Hadoop工具Slave:Tasktracker、DatanodeMaster不是唯一的2013.7.1331DATAGURU專業(yè)數(shù)據(jù)分析Why

hadoop?2013.7.1332DATAGURU專業(yè)數(shù)據(jù)分析場(chǎng)景:電信運(yùn)營(yíng)商信令分析與監(jiān)測(cè)原數(shù)據(jù)庫(kù)服務(wù)器配置:HP小型機(jī),128G內(nèi)存,48顆CPU,2節(jié)點(diǎn)RAC,其中一個(gè)節(jié)點(diǎn)用于入庫(kù),另外一個(gè)節(jié)點(diǎn)用于查詢:HP虛擬化

,>1000個(gè)盤數(shù)據(jù)庫(kù)架構(gòu)采用Oracle雙節(jié)點(diǎn)RAC問題:1

入庫(kù)瓶頸2

查詢瓶頸2013.7.1333DATAGURU專業(yè)數(shù)據(jù)分析數(shù)據(jù)分析者

的問題數(shù)據(jù)日趨龐大,無論是入庫(kù)和查詢,都出現(xiàn)性能瓶頸用戶的應(yīng)用和分析結(jié)果呈整合趨勢(shì),對(duì)實(shí)時(shí)性和響應(yīng)時(shí)間要求越來越高使用的模型越來越復(fù)雜,計(jì)算量指數(shù)級(jí)上升2013.7.1334DATAGURU專業(yè)數(shù)據(jù)分析數(shù)據(jù)分析者期待的解決方案完美解決性能瓶頸,在可見未來不容易出現(xiàn)新瓶頸過去所擁有的技能可以平穩(wěn)過渡。比如SQL、R轉(zhuǎn)移平臺(tái)的成本有多高?平臺(tái)軟硬件成本,再開發(fā)成本,技能再培養(yǎng)成本,

成本2013.7.1335DATAGURU專業(yè)數(shù)據(jù)分析Hadoop的思想2013.7.1336DATAGURU專業(yè)數(shù)據(jù)分析Why

not

Hadoop?Java?難以駕馭?數(shù)據(jù)集成

?Hadoop

vs

Oracle2013.7.1337DATAGURU專業(yè)數(shù)據(jù)分析Hadoop體系下的分析主流:Java程序輕量級(jí)的

語(yǔ)言:PigSQL技巧平穩(wěn)過渡:HiveNoSQL:HBase2013.7.1338DATAGURU專業(yè)數(shù)據(jù)分析煉數(shù)成金逆向

式網(wǎng)絡(luò)課程Dataguru(煉數(shù)成金)是專業(yè)數(shù)據(jù)分析

,提供教育,

,內(nèi)容,社區(qū),

,數(shù)據(jù)分析業(yè)務(wù)等服務(wù)。

的課程采用新興的互聯(lián)網(wǎng)教育形式,獨(dú)創(chuàng)地發(fā)展了逆向式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論