




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
法律【】和幻燈片為煉數(shù)成金網(wǎng)絡(luò)課程的教學(xué)資料,所有資料只能在課程內(nèi)使用,不得在課程以外范圍散播,違者將可能被法律和經(jīng)濟責任。課程詳情
煉數(shù)成金培訓(xùn)http:
2013.7.132DATAGURU專業(yè)數(shù)據(jù)分析關(guān)于本課程的預(yù)備知識Linux:懂基本操作Java:能看懂Java程序2013.7.133DATAGURU專業(yè)數(shù)據(jù)分析Hadoop是什么?面向大數(shù)據(jù)處理擅長離線數(shù)據(jù)分析分布式文件系統(tǒng)+計算框架Hadoop不是數(shù)據(jù)庫,Hbase才是數(shù)據(jù)庫Hadoop是一個快速進化的生態(tài)系統(tǒng)Hadoop會使用在哪些行業(yè)?2013.7.134DATAGURU專業(yè)數(shù)據(jù)分析大數(shù)據(jù)平臺知識路線圖2013.7.135DATAGURU專業(yè)數(shù)據(jù)分析Hadoop典型職位運維Hadoop程序員(M-R,源代碼)架構(gòu)師數(shù)據(jù)倉庫工程師2013.7.136DATAGURU專業(yè)數(shù)據(jù)分析課程目標部署:Hadoop,Hbase,Hive,Pig數(shù)據(jù)集成:Sqoop,與Oracle、Mysql等關(guān)系型數(shù)據(jù)庫集成,與應(yīng)用集成,與R等常用數(shù)據(jù)分析工具集成掌握HDFS原理和基本操作掌握Map-Reduce工作原理,知道怎樣把M-R算法用于解決實際場景能書寫基本的Map-Reduce程序,懂得提交作業(yè)和對運行狀況進行監(jiān)視了解整個Hadoop生態(tài)系統(tǒng)的各個子產(chǎn)品,知道在大數(shù)據(jù)平臺架構(gòu)時應(yīng)該使用哪些產(chǎn)品具備初步閱讀源代碼的能力2013.7.137DATAGURU專業(yè)數(shù)據(jù)分析典型實驗環(huán)境(擁有服務(wù)器)服務(wù)器:ESXi,可以在上面部署多臺虛擬機,能同時啟動3臺PC:要求linux環(huán)境或windows+Cygwin,linux可以是standalone或者使用虛擬機SSH:windows下可以使用SecureCRT或putty等ssh
client程序,作用是用來
連接linux服務(wù)器,linux下可以直接使用ssh命令Vmware
client:用于管理ESXiHadoop:使用1.x或2.x2013.7.138DATAGURU專業(yè)數(shù)據(jù)分析典型實驗環(huán)境(只有PC或筆記本,基于win)至少4G內(nèi)存,最好運行64位windows系統(tǒng),因為32位xp只能支持3G多的內(nèi)存安裝vmwareworkstation或virtual
box部署3臺虛擬機,能同時運行,如果只能運行2臺虛擬機,那么可以把host也作為一個節(jié)點(使用cygwin),虛擬網(wǎng)絡(luò)配置為網(wǎng)橋方式安裝linux和java如果配置實在太低只好使用偽分布式2013.7.139DATAGURU專業(yè)數(shù)據(jù)分析Hadoop的思想之源:earth,學(xué)術(shù),搜索引擎,Gmail,安卓,Appspot翻譯,
+,下一步Maps,what??2013.7.1310DATAGURU專業(yè)數(shù)據(jù)分析的低成本之道不使用超級計算機,不使用
(淘寶的去i,去e,去o
)大量使用普通的pc服務(wù)器(去掉機箱,外設(shè),硬盤),提供有冗余的集群服務(wù)全世界多個數(shù)據(jù)中心,有些附帶發(fā)電廠運營商向
倒2013.7.1311DATAGURU專業(yè)數(shù)據(jù)分析集裝箱數(shù)據(jù)中心位于Mountain
View,
Calif總部的數(shù)據(jù)中心總功率為10000千瓦,擁有45個集裝箱,每個集裝箱中有1160臺服務(wù)器,該數(shù)據(jù)中心的能效比為1.25(
PUE
為
1
表示數(shù)據(jù)中心沒有能源損耗,而根據(jù)2006年的統(tǒng)計,一般公司數(shù)據(jù)中心的能效比為
2.0
或更高。 的
1.16
已經(jīng)低于
能源部2011年的1.2的目標)2013.7.1312DATAGURU專業(yè)數(shù)據(jù)分析面對的數(shù)據(jù)和計算難題大量的網(wǎng)頁怎么
?搜索算法Rank計算問題2013.7.1313DATAGURU專業(yè)數(shù)據(jù)分析倒排索引2013.7.1314DATAGURU專業(yè)數(shù)據(jù)分析Page
Rank“在
中找黃金這是
最
的算法,用于給每個網(wǎng)頁價值評分,是”的關(guān)鍵算法,這個算法成就了今天的2013.7.1315DATAGURU專業(yè)數(shù)據(jù)分析Map-reduce思想:計算PR2013.7.1316DATAGURU專業(yè)數(shù)據(jù)分析計算PR值2013.7.1317DATAGURU專業(yè)數(shù)據(jù)分析計算PR值2013.7.1318DATAGURU專業(yè)數(shù)據(jù)分析計算PR值2013.7.1319DATAGURU專業(yè)數(shù)據(jù)分析帶給
的和思想GFSMap-ReduceBigtable(后面講)2013.7.1320DATAGURU專業(yè)數(shù)據(jù)分析Hadoop的源起——Lucene類似的全文搜索功能Doug
Cutting開創(chuàng)的開源
,用java書寫代碼,實現(xiàn)與,它提供了全文檢索引擎的架構(gòu),包括完整的查詢引擎和索引引擎和SourceF
e,2001年年底成為apachejakarta的早期發(fā)布在個人一個子項目Lucene的目的是為開發(fā)
提供一個簡單易用的工具包,以方便的在目標系統(tǒng)中實現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎對于大數(shù)量的場景,Lucene面對與
同樣的
。迫使DougCutting學(xué)習(xí)和模仿
解決這些問題的辦法一個微縮版:Nutch2013.7.1321DATAGURU專業(yè)數(shù)據(jù)分析從lucene到nutch,從nutch到hadoop2003-2004年, 公開了部分GFS和Mapreduce思想的細節(jié),以此為基礎(chǔ)DougCutting等人用了2年業(yè)余時間實現(xiàn)了DFS和Mapreduce機制,使Nutch性能飆升Yahoo招安Doug
Cutting及其項目Hadoop于2005年秋天作為Lucene的子項目Nutch的一部分正式引入Apache基金會。2006年3月份,Map-Reduce和NutchDistributedFileSystem(NDFS)分別被納入稱為Hadoop的項目中名字來源于Doug
Cutting兒子的玩具大象2013.7.1322DATAGURU專業(yè)數(shù)據(jù)分析目前Hadoop達到的高度實現(xiàn)云計算的事實標準開源包含數(shù)十個具有強大生命力的子項目已經(jīng)能在數(shù)千節(jié)點上運行,處理數(shù)據(jù)量和排序時間不斷打破世界2013.7.1323DATAGURU專業(yè)數(shù)據(jù)分析Hadoop子項目2013.7.1324DATAGURU專業(yè)數(shù)據(jù)分析Hadoop的架構(gòu)2013.7.1325DATAGURU專業(yè)數(shù)據(jù)分析NamenodeHDFS的守護程序
文件是如何分割成數(shù)據(jù)塊的,以及這些數(shù)據(jù)塊被
到哪些節(jié)點上對內(nèi)存和I/O進行集中管理是個單點,發(fā)生故障將使集群2013.7.1326DATAGURU專業(yè)數(shù)據(jù)分析Secondary
NamenodeHDFS狀態(tài)的輔助
程序每個集群都有一個與NameNode進行通訊,定期保存HDFS元數(shù)據(jù)快照當NameNode故障可以作為備用NameNode使用2013.7.1327DATAGURU專業(yè)數(shù)據(jù)分析DataNode每臺從服務(wù)器都運行一個負責把HDFS數(shù)據(jù)塊讀寫到本地文件系統(tǒng)2013.7.1328DATAGURU專業(yè)數(shù)據(jù)分析JobTracker用于處理作業(yè)(用戶提交代碼)的后臺程序決定有哪些文件參與處理,然后切割task并分配節(jié)點task,重啟失敗的task(于不同的節(jié)點)每個集群只有唯一一個JobTracker,位于Master節(jié)點2013.7.1329DATAGURU專業(yè)數(shù)據(jù)分析TaskTracker位于slave節(jié)點上,與datanode結(jié)合(代碼與數(shù)據(jù)一起的原則)管理各自節(jié)點上的task(由jobtracker分配)每個節(jié)點只有一個tasktracker,但一個tasktracker可以啟動多個JVM,用于并行執(zhí)行map或reduce任務(wù)與jobtracker交互2013.7.1330DATAGURU專業(yè)數(shù)據(jù)分析Master與SlaveMaster:Namenode、SecondaryNamenode、Jobtracker。瀏覽器(用于 管理界面),其它Hadoop工具Slave:Tasktracker、DatanodeMaster不是唯一的2013.7.1331DATAGURU專業(yè)數(shù)據(jù)分析Why
hadoop?2013.7.1332DATAGURU專業(yè)數(shù)據(jù)分析場景:電信運營商信令分析與監(jiān)測原數(shù)據(jù)庫服務(wù)器配置:HP小型機,128G內(nèi)存,48顆CPU,2節(jié)點RAC,其中一個節(jié)點用于入庫,另外一個節(jié)點用于查詢:HP虛擬化
,>1000個盤數(shù)據(jù)庫架構(gòu)采用Oracle雙節(jié)點RAC問題:1
入庫瓶頸2
查詢瓶頸2013.7.1333DATAGURU專業(yè)數(shù)據(jù)分析數(shù)據(jù)分析者
的問題數(shù)據(jù)日趨龐大,無論是入庫和查詢,都出現(xiàn)性能瓶頸用戶的應(yīng)用和分析結(jié)果呈整合趨勢,對實時性和響應(yīng)時間要求越來越高使用的模型越來越復(fù)雜,計算量指數(shù)級上升2013.7.1334DATAGURU專業(yè)數(shù)據(jù)分析數(shù)據(jù)分析者期待的解決方案完美解決性能瓶頸,在可見未來不容易出現(xiàn)新瓶頸過去所擁有的技能可以平穩(wěn)過渡。比如SQL、R轉(zhuǎn)移平臺的成本有多高?平臺軟硬件成本,再開發(fā)成本,技能再培養(yǎng)成本,
成本2013.7.1335DATAGURU專業(yè)數(shù)據(jù)分析Hadoop的思想2013.7.1336DATAGURU專業(yè)數(shù)據(jù)分析Why
not
Hadoop?Java?難以駕馭?數(shù)據(jù)集成
?Hadoop
vs
Oracle2013.7.1337DATAGURU專業(yè)數(shù)據(jù)分析Hadoop體系下的分析主流:Java程序輕量級的
語言:PigSQL技巧平穩(wěn)過渡:HiveNoSQL:HBase2013.7.1338DATAGURU專業(yè)數(shù)據(jù)分析煉數(shù)成金逆向
式網(wǎng)絡(luò)課程Dataguru(煉數(shù)成金)是專業(yè)數(shù)據(jù)分析
,提供教育,
,內(nèi)容,社區(qū),
,數(shù)據(jù)分析業(yè)務(wù)等服務(wù)。
的課程采用新興的互聯(lián)網(wǎng)教育形式,獨創(chuàng)地發(fā)展了逆向式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 漢字:起源與演變
- 共建班級文化
- 2025至2030年中國純數(shù)字視頻采集卡市場分析及競爭策略研究報告
- 2025至2030年中國注塑成型模具行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國單管定碳爐數(shù)據(jù)監(jiān)測研究報告
- 2025-2035年全球及中國計算機攝影和數(shù)字攝影行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 人教A版高中數(shù)學(xué)選擇性必修三-8.2第2課時-一元線性回歸模型的綜合問題-導(dǎo)學(xué)案【含答案】
- 指向數(shù)學(xué)核心素養(yǎng)的單元統(tǒng)整教學(xué)研究報告-以“立體圖形的表面積與體積”為例
- 鋼筋和預(yù)應(yīng)力筋加工、安裝及張拉工程現(xiàn)場質(zhì)量檢驗報告
- 2024年中國吸收式熱泵行業(yè)市場全景評估及未來投資趨勢預(yù)測報告(智研咨詢)
- 2020年國際命名化妝品原料INCI英漢對照名稱
- 課題申報參考:中華君子文化融入時代新人培養(yǎng)的價值與路徑研究
- 2025年高考數(shù)學(xué)二級結(jié)論篇(核心知識背記手冊)-專項訓(xùn)練
- 2025年天津市事業(yè)單位面向甘南籍畢業(yè)生招聘35人歷年高頻重點提升(共500題)附帶答案詳解
- 廣東省肇慶市2025屆高中畢業(yè)班第二次模擬考試生物學(xué)試題(含答案)
- 2025屆湖北省武漢市高考數(shù)學(xué)一模試卷含解析
- 2025版《實驗室緊急噴淋裝置安全操作規(guī)程》
- 第21課《殖民體系的瓦解與新興獨立國家的發(fā)展》中職高一下學(xué)期高教版(2023)世界歷史全一冊
- 演出系列活動采購服務(wù) 投標方案(技術(shù)方案)
- 中南大學(xué)《通信原理》2023-2024學(xué)年第一學(xué)期期末試卷
評論
0/150
提交評論