版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
法律【】和幻燈片為煉數(shù)成金網(wǎng)絡(luò)課程的教學(xué)資料,所有資料只能在課程內(nèi)使用,不得在課程以外范圍散播,違者將可能被法律和經(jīng)濟(jì)責(zé)任。課程詳情
煉數(shù)成金培訓(xùn)http:
2013.7.132DATAGURU專業(yè)數(shù)據(jù)分析關(guān)于本課程的預(yù)備知識(shí)Linux:懂基本操作Java:能看懂Java程序2013.7.133DATAGURU專業(yè)數(shù)據(jù)分析Hadoop是什么?面向大數(shù)據(jù)處理擅長(zhǎng)離線數(shù)據(jù)分析分布式文件系統(tǒng)+計(jì)算框架Hadoop不是數(shù)據(jù)庫(kù),Hbase才是數(shù)據(jù)庫(kù)Hadoop是一個(gè)快速進(jìn)化的生態(tài)系統(tǒng)Hadoop會(huì)使用在哪些行業(yè)?2013.7.134DATAGURU專業(yè)數(shù)據(jù)分析大數(shù)據(jù)平臺(tái)知識(shí)路線圖2013.7.135DATAGURU專業(yè)數(shù)據(jù)分析Hadoop典型職位運(yùn)維Hadoop程序員(M-R,源代碼)架構(gòu)師數(shù)據(jù)倉(cāng)庫(kù)工程師2013.7.136DATAGURU專業(yè)數(shù)據(jù)分析課程目標(biāo)部署:Hadoop,Hbase,Hive,Pig數(shù)據(jù)集成:Sqoop,與Oracle、Mysql等關(guān)系型數(shù)據(jù)庫(kù)集成,與應(yīng)用集成,與R等常用數(shù)據(jù)分析工具集成掌握HDFS原理和基本操作掌握Map-Reduce工作原理,知道怎樣把M-R算法用于解決實(shí)際場(chǎng)景能書寫基本的Map-Reduce程序,懂得提交作業(yè)和對(duì)運(yùn)行狀況進(jìn)行監(jiān)視了解整個(gè)Hadoop生態(tài)系統(tǒng)的各個(gè)子產(chǎn)品,知道在大數(shù)據(jù)平臺(tái)架構(gòu)時(shí)應(yīng)該使用哪些產(chǎn)品具備初步閱讀源代碼的能力2013.7.137DATAGURU專業(yè)數(shù)據(jù)分析典型實(shí)驗(yàn)環(huán)境(擁有服務(wù)器)服務(wù)器:ESXi,可以在上面部署多臺(tái)虛擬機(jī),能同時(shí)啟動(dòng)3臺(tái)PC:要求linux環(huán)境或windows+Cygwin,linux可以是standalone或者使用虛擬機(jī)SSH:windows下可以使用SecureCRT或putty等ssh
client程序,作用是用來
連接linux服務(wù)器,linux下可以直接使用ssh命令Vmware
client:用于管理ESXiHadoop:使用1.x或2.x2013.7.138DATAGURU專業(yè)數(shù)據(jù)分析典型實(shí)驗(yàn)環(huán)境(只有PC或筆記本,基于win)至少4G內(nèi)存,最好運(yùn)行64位windows系統(tǒng),因?yàn)?2位xp只能支持3G多的內(nèi)存安裝vmwareworkstation或virtual
box部署3臺(tái)虛擬機(jī),能同時(shí)運(yùn)行,如果只能運(yùn)行2臺(tái)虛擬機(jī),那么可以把host也作為一個(gè)節(jié)點(diǎn)(使用cygwin),虛擬網(wǎng)絡(luò)配置為網(wǎng)橋方式安裝linux和java如果配置實(shí)在太低只好使用偽分布式2013.7.139DATAGURU專業(yè)數(shù)據(jù)分析Hadoop的思想之源:earth,學(xué)術(shù),搜索引擎,Gmail,安卓,Appspot翻譯,
+,下一步Maps,what??2013.7.1310DATAGURU專業(yè)數(shù)據(jù)分析的低成本之道不使用超級(jí)計(jì)算機(jī),不使用
(淘寶的去i,去e,去o
)大量使用普通的pc服務(wù)器(去掉機(jī)箱,外設(shè),硬盤),提供有冗余的集群服務(wù)全世界多個(gè)數(shù)據(jù)中心,有些附帶發(fā)電廠運(yùn)營(yíng)商向
倒2013.7.1311DATAGURU專業(yè)數(shù)據(jù)分析集裝箱數(shù)據(jù)中心位于Mountain
View,
Calif總部的數(shù)據(jù)中心總功率為10000千瓦,擁有45個(gè)集裝箱,每個(gè)集裝箱中有1160臺(tái)服務(wù)器,該數(shù)據(jù)中心的能效比為1.25(
PUE
為
1
表示數(shù)據(jù)中心沒有能源損耗,而根據(jù)2006年的統(tǒng)計(jì),一般公司數(shù)據(jù)中心的能效比為
2.0
或更高。 的
1.16
已經(jīng)低于
能源部2011年的1.2的目標(biāo))2013.7.1312DATAGURU專業(yè)數(shù)據(jù)分析面對(duì)的數(shù)據(jù)和計(jì)算難題大量的網(wǎng)頁(yè)怎么
?搜索算法Rank計(jì)算問題2013.7.1313DATAGURU專業(yè)數(shù)據(jù)分析倒排索引2013.7.1314DATAGURU專業(yè)數(shù)據(jù)分析Page
Rank“在
中找黃金這是
最
的算法,用于給每個(gè)網(wǎng)頁(yè)價(jià)值評(píng)分,是”的關(guān)鍵算法,這個(gè)算法成就了今天的2013.7.1315DATAGURU專業(yè)數(shù)據(jù)分析Map-reduce思想:計(jì)算PR2013.7.1316DATAGURU專業(yè)數(shù)據(jù)分析計(jì)算PR值2013.7.1317DATAGURU專業(yè)數(shù)據(jù)分析計(jì)算PR值2013.7.1318DATAGURU專業(yè)數(shù)據(jù)分析計(jì)算PR值2013.7.1319DATAGURU專業(yè)數(shù)據(jù)分析帶給
的和思想GFSMap-ReduceBigtable(后面講)2013.7.1320DATAGURU專業(yè)數(shù)據(jù)分析Hadoop的源起——Lucene類似的全文搜索功能Doug
Cutting開創(chuàng)的開源
,用java書寫代碼,實(shí)現(xiàn)與,它提供了全文檢索引擎的架構(gòu),包括完整的查詢引擎和索引引擎和SourceF
e,2001年年底成為apachejakarta的早期發(fā)布在個(gè)人一個(gè)子項(xiàng)目Lucene的目的是為開發(fā)
提供一個(gè)簡(jiǎn)單易用的工具包,以方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎對(duì)于大數(shù)量的場(chǎng)景,Lucene面對(duì)與
同樣的
。迫使DougCutting學(xué)習(xí)和模仿
解決這些問題的辦法一個(gè)微縮版:Nutch2013.7.1321DATAGURU專業(yè)數(shù)據(jù)分析從lucene到nutch,從nutch到hadoop2003-2004年, 公開了部分GFS和Mapreduce思想的細(xì)節(jié),以此為基礎(chǔ)DougCutting等人用了2年業(yè)余時(shí)間實(shí)現(xiàn)了DFS和Mapreduce機(jī)制,使Nutch性能飆升Yahoo招安Doug
Cutting及其項(xiàng)目Hadoop于2005年秋天作為L(zhǎng)ucene的子項(xiàng)目Nutch的一部分正式引入Apache基金會(huì)。2006年3月份,Map-Reduce和NutchDistributedFileSystem(NDFS)分別被納入稱為Hadoop的項(xiàng)目中名字來源于Doug
Cutting兒子的玩具大象2013.7.1322DATAGURU專業(yè)數(shù)據(jù)分析目前Hadoop達(dá)到的高度實(shí)現(xiàn)云計(jì)算的事實(shí)標(biāo)準(zhǔn)開源包含數(shù)十個(gè)具有強(qiáng)大生命力的子項(xiàng)目已經(jīng)能在數(shù)千節(jié)點(diǎn)上運(yùn)行,處理數(shù)據(jù)量和排序時(shí)間不斷打破世界2013.7.1323DATAGURU專業(yè)數(shù)據(jù)分析Hadoop子項(xiàng)目2013.7.1324DATAGURU專業(yè)數(shù)據(jù)分析Hadoop的架構(gòu)2013.7.1325DATAGURU專業(yè)數(shù)據(jù)分析NamenodeHDFS的守護(hù)程序
文件是如何分割成數(shù)據(jù)塊的,以及這些數(shù)據(jù)塊被
到哪些節(jié)點(diǎn)上對(duì)內(nèi)存和I/O進(jìn)行集中管理是個(gè)單點(diǎn),發(fā)生故障將使集群2013.7.1326DATAGURU專業(yè)數(shù)據(jù)分析Secondary
NamenodeHDFS狀態(tài)的輔助
程序每個(gè)集群都有一個(gè)與NameNode進(jìn)行通訊,定期保存HDFS元數(shù)據(jù)快照當(dāng)NameNode故障可以作為備用NameNode使用2013.7.1327DATAGURU專業(yè)數(shù)據(jù)分析DataNode每臺(tái)從服務(wù)器都運(yùn)行一個(gè)負(fù)責(zé)把HDFS數(shù)據(jù)塊讀寫到本地文件系統(tǒng)2013.7.1328DATAGURU專業(yè)數(shù)據(jù)分析JobTracker用于處理作業(yè)(用戶提交代碼)的后臺(tái)程序決定有哪些文件參與處理,然后切割task并分配節(jié)點(diǎn)task,重啟失敗的task(于不同的節(jié)點(diǎn))每個(gè)集群只有唯一一個(gè)JobTracker,位于Master節(jié)點(diǎn)2013.7.1329DATAGURU專業(yè)數(shù)據(jù)分析TaskTracker位于slave節(jié)點(diǎn)上,與datanode結(jié)合(代碼與數(shù)據(jù)一起的原則)管理各自節(jié)點(diǎn)上的task(由jobtracker分配)每個(gè)節(jié)點(diǎn)只有一個(gè)tasktracker,但一個(gè)tasktracker可以啟動(dòng)多個(gè)JVM,用于并行執(zhí)行map或reduce任務(wù)與jobtracker交互2013.7.1330DATAGURU專業(yè)數(shù)據(jù)分析Master與SlaveMaster:Namenode、SecondaryNamenode、Jobtracker。瀏覽器(用于 管理界面),其它Hadoop工具Slave:Tasktracker、DatanodeMaster不是唯一的2013.7.1331DATAGURU專業(yè)數(shù)據(jù)分析Why
hadoop?2013.7.1332DATAGURU專業(yè)數(shù)據(jù)分析場(chǎng)景:電信運(yùn)營(yíng)商信令分析與監(jiān)測(cè)原數(shù)據(jù)庫(kù)服務(wù)器配置:HP小型機(jī),128G內(nèi)存,48顆CPU,2節(jié)點(diǎn)RAC,其中一個(gè)節(jié)點(diǎn)用于入庫(kù),另外一個(gè)節(jié)點(diǎn)用于查詢:HP虛擬化
,>1000個(gè)盤數(shù)據(jù)庫(kù)架構(gòu)采用Oracle雙節(jié)點(diǎn)RAC問題:1
入庫(kù)瓶頸2
查詢瓶頸2013.7.1333DATAGURU專業(yè)數(shù)據(jù)分析數(shù)據(jù)分析者
的問題數(shù)據(jù)日趨龐大,無論是入庫(kù)和查詢,都出現(xiàn)性能瓶頸用戶的應(yīng)用和分析結(jié)果呈整合趨勢(shì),對(duì)實(shí)時(shí)性和響應(yīng)時(shí)間要求越來越高使用的模型越來越復(fù)雜,計(jì)算量指數(shù)級(jí)上升2013.7.1334DATAGURU專業(yè)數(shù)據(jù)分析數(shù)據(jù)分析者期待的解決方案完美解決性能瓶頸,在可見未來不容易出現(xiàn)新瓶頸過去所擁有的技能可以平穩(wěn)過渡。比如SQL、R轉(zhuǎn)移平臺(tái)的成本有多高?平臺(tái)軟硬件成本,再開發(fā)成本,技能再培養(yǎng)成本,
成本2013.7.1335DATAGURU專業(yè)數(shù)據(jù)分析Hadoop的思想2013.7.1336DATAGURU專業(yè)數(shù)據(jù)分析Why
not
Hadoop?Java?難以駕馭?數(shù)據(jù)集成
?Hadoop
vs
Oracle2013.7.1337DATAGURU專業(yè)數(shù)據(jù)分析Hadoop體系下的分析主流:Java程序輕量級(jí)的
語(yǔ)言:PigSQL技巧平穩(wěn)過渡:HiveNoSQL:HBase2013.7.1338DATAGURU專業(yè)數(shù)據(jù)分析煉數(shù)成金逆向
式網(wǎng)絡(luò)課程Dataguru(煉數(shù)成金)是專業(yè)數(shù)據(jù)分析
,提供教育,
,內(nèi)容,社區(qū),
,數(shù)據(jù)分析業(yè)務(wù)等服務(wù)。
的課程采用新興的互聯(lián)網(wǎng)教育形式,獨(dú)創(chuàng)地發(fā)展了逆向式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度大數(shù)據(jù)中心建設(shè)與運(yùn)維合同
- 2024年度供應(yīng)鏈管理與融資合同
- 2024年度CRM系統(tǒng)升級(jí)合同:增強(qiáng)銷售合同管理功能
- 2024年度5G基站建設(shè)施工合同
- 2024年建筑工程環(huán)保分包合同
- 2024上海市室內(nèi)裝修合同協(xié)議書范本
- 2024年度企業(yè)合規(guī)性檢查與咨詢服務(wù)合同
- 2024天然氣管網(wǎng)運(yùn)營(yíng)管理合同
- 2024年度智能化控制系統(tǒng)燈具集成安裝合同
- 2024年公司控制權(quán)及相關(guān)股東間股權(quán)轉(zhuǎn)讓合同
- 2023年高中學(xué)業(yè)水平合格考試英語(yǔ)詞匯表完整版(復(fù)習(xí)必背)
- 《英語(yǔ)大字典》word版
- 詢價(jià)單模板模板
- GB/T 14074-2017木材工業(yè)用膠粘劑及其樹脂檢驗(yàn)方法
- 鋼棧橋工程安全檢查和驗(yàn)收
- FDS軟件介紹及實(shí)例應(yīng)用
- 無配重懸挑裝置吊籃施工方案
- 強(qiáng)基計(jì)劃解讀系列課件
- 2022-2023學(xué)年山東省濟(jì)南市高一上學(xué)期期中考試英語(yǔ)試題 Word版含答案
- 《24點(diǎn)大挑戰(zhàn)》教學(xué)-完整版課件
- 胸痛的鑒別診斷與危險(xiǎn)分層課件
評(píng)論
0/150
提交評(píng)論