版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、簡單闡述hdfs的體系結(jié)構(gòu)大數(shù)據(jù)開發(fā)全棧課程體系-學(xué)習(xí)猿地大數(shù)據(jù)概論應(yīng)知應(yīng)會:認(rèn)識大數(shù)據(jù)基本概念2認(rèn)識大數(shù)據(jù)生態(tài)圈3認(rèn)識大數(shù)據(jù)行業(yè)落地案例業(yè)務(wù)實(shí)戰(zhàn):搭建Hadoop分布式集群HTML5(H5)基本文檔結(jié)構(gòu)大數(shù)據(jù)背景認(rèn)識HadoopHadoop架構(gòu)和組件Hadoop生態(tài)系統(tǒng)Hadoop經(jīng)典落地案例Hadoop安裝部署及集群搭建訪問HDFS應(yīng)知應(yīng)會:1掌握HDFS的特性2理解HDFS的設(shè)計目標(biāo)3掌握HDFS的體系結(jié)構(gòu)4理解數(shù)據(jù)塊基本概念5掌握數(shù)據(jù)塊復(fù)制原理6掌握HDFS安全模式7理解HDFS心跳機(jī)制8掌握HDFS核心架構(gòu)業(yè)務(wù)實(shí)戰(zhàn):闡述HDFS分布式文件系統(tǒng)的原理HDFS特性HDFS目標(biāo)HDFS核心
2、設(shè)計數(shù)據(jù)塊數(shù)據(jù)復(fù)制副本存放策略安全模式心跳機(jī)制HDFS體系結(jié)構(gòu)Master/SlaveNN、SNN、DNHDFS接口應(yīng)知應(yīng)會:1掌握HDFS常用的命令行操作接口2學(xué)會查看HDFS文件列表3掌握文件的上傳、下載、刪除4掌握HDFS的Java訪問接口業(yè)務(wù)實(shí)戰(zhàn):利用命令行和Java接口訪問HDFS分布式文件系統(tǒng)數(shù)據(jù)庫安裝和使用命令行接口查看文件列表創(chuàng)建目錄上傳文件下載文件查看文件刪除數(shù)據(jù)Java接口從HadoopURL讀取數(shù)據(jù)通過FileSystemAPI讀取數(shù)據(jù)寫入數(shù)據(jù)創(chuàng)建目錄查詢文件系統(tǒng)刪除數(shù)據(jù)HDFS分布式文件系統(tǒng)的運(yùn)行機(jī)制應(yīng)知應(yīng)會:1掌握HDFS中的數(shù)據(jù)流讀寫2掌握RPC的實(shí)現(xiàn)流程及模型3掌
3、握文件的讀取、寫入及文件的一致性模型4掌握HA高可靠機(jī)制5熟悉HDFS的Federation機(jī)制業(yè)務(wù)實(shí)戰(zhàn):搭建HA應(yīng)用開發(fā)平臺HDFS中數(shù)據(jù)流的讀寫RPC實(shí)現(xiàn)流程RPC實(shí)現(xiàn)模型文件的讀取文件的寫入文件的一致模型HDFS的HA機(jī)制為什么有HA機(jī)制HA集群架構(gòu)HDFS的Federation機(jī)制為什么引入Federation機(jī)制Federation架構(gòu)多命名空間管理HadoopI/O詳解應(yīng)知應(yīng)會:理解HDFS的數(shù)據(jù)完整性掌握HDFS的數(shù)據(jù)壓縮算法掌握HDFS序列化接口掌握Hadoop數(shù)據(jù)結(jié)構(gòu)理解SequenceFile存儲業(yè)務(wù)實(shí)戰(zhàn):利用HDFS序列化Writable接口實(shí)現(xiàn)SequenceFile的
4、寫入數(shù)據(jù)庫安裝和使用HDFS的數(shù)據(jù)完整性驗(yàn)證數(shù)據(jù)完整性文件壓縮Hadoop支持的壓縮格式壓縮解壓縮算法codec壓縮和輸入分片文件序列化Writable接口WritableComparable接口自定義Writable接口Writable實(shí)現(xiàn)類實(shí)現(xiàn)定制的Writable類型序列化框架Hadoop文件的數(shù)據(jù)結(jié)構(gòu)SequenceFile存儲MapFile存儲MapReduce編程模型應(yīng)知應(yīng)會:1掌握MapReduce編程模型編寫WordCount事例掌握HadoopMapReduce架構(gòu)MapReduce編程模型簡介WordCount編程實(shí)例HadoopMapReduce架構(gòu)MapReduce應(yīng)用
5、編程開發(fā)應(yīng)知應(yīng)會:配置MapReduce應(yīng)用編程開發(fā)環(huán)境掌握MapReduce程序設(shè)計思路掌握Mapper和Reducer的編寫4掌握集群上運(yùn)行作業(yè)熟練作業(yè)的的狀態(tài)查看與檢測掌握MapReduce作業(yè)的調(diào)試7掌握常見的MapReduce的輸入輸出的格式業(yè)務(wù)實(shí)戰(zhàn):開發(fā)MapReduce分布式并行程序MapReduce的編程配置開發(fā)環(huán)境設(shè)計思路編寫Mapper類編寫Reducer類編寫main方法在集群上的運(yùn)作打包作業(yè)啟動作業(yè)通過WebUI查看Job狀態(tài)獲取結(jié)果作業(yè)調(diào)試MapReduce類型與格式MapReduce中的鍵值對輸入格式輸出格式MapReduce的工作機(jī)制與丫ARN平臺應(yīng)知應(yīng)會:1掌握
6、MapReduce作業(yè)的運(yùn)行過程2掌握Shuffle的運(yùn)行過程和原理3.掌握Map段shuffle與Reduce段shuffle的原理4理解YARN平臺的工作原理及架構(gòu)掌握ResouceManager的資源分配掌握NodeManager的工作原理掌握ApplicationMaster的工作原理理解Container容器的工作原理掌握作業(yè)的調(diào)度業(yè)務(wù)實(shí)戰(zhàn):刨析MapReduce作業(yè)的Shuffle過程通過案例剖析MapReduce作業(yè)運(yùn)行過程shuffle和排序亠L(fēng)Umap端I亠L(fēng)Ureduce端shuffle過程YARN平臺簡介YARN的誕生YARN的作用YARN的架構(gòu)ResourceManag
7、erApplicationMaster資源模型ResourceRequest和ContainerContainer規(guī)范作業(yè)的調(diào)度公平調(diào)度器計算能力調(diào)度器項(xiàng)目實(shí)戰(zhàn):日志數(shù)據(jù)分析系統(tǒng)應(yīng)知應(yīng)會:掌握項(xiàng)目的業(yè)務(wù)需求掌握項(xiàng)目的系統(tǒng)架構(gòu)掌握項(xiàng)目的需求分析掌握項(xiàng)目的概要設(shè)計掌握項(xiàng)目的詳細(xì)設(shè)計掌握項(xiàng)目的系統(tǒng)開發(fā)掌握項(xiàng)目的單元測試掌握項(xiàng)目的系統(tǒng)測試掌握項(xiàng)目的上線部署掌握項(xiàng)目的運(yùn)營測試掌握項(xiàng)目集群環(huán)境的搭建測試業(yè)務(wù)實(shí)戰(zhàn):MapReduce開發(fā)工程師項(xiàng)目名稱:日志數(shù)據(jù)分析系統(tǒng)數(shù)據(jù)體量:5000W+/日硬件環(huán)境:Hadoop集群12臺軟件環(huán)境:Hadoop2.5.2+Hive1.2.1+MR+OraclelOg開發(fā)工
8、具:Eclipse+Jdk1.7+ETL項(xiàng)目職責(zé):主要負(fù)責(zé)數(shù)據(jù)清洗,分析客戶需求數(shù)據(jù)的抓取和處理。項(xiàng)目描述:搜狗每天產(chǎn)生大量的日志數(shù)據(jù),從日志數(shù)據(jù)里面能提取到有用的數(shù)據(jù)包括每個用戶的ID、瀏覽次數(shù)、月/日瀏覽頻率、訪問源、瀏覽內(nèi)容等等,提取這些內(nèi)容、統(tǒng)計數(shù)據(jù)分析每個用戶行為,從而做出有利的決定。本次項(xiàng)目使用MapReduce框架對數(shù)據(jù)進(jìn)行處理,HDFS作為底層存儲,使用Hive大大加快了項(xiàng)目的進(jìn)度,Hive自帶的數(shù)據(jù)庫并不適用于項(xiàng)目,用MySql代替,這里用到了Hive但是底層處理計算還是MapReduce,其最突出的地方就是其對MapReduce進(jìn)行了包裝,減少了使用MapReduce需要寫大量重復(fù)JAVA代碼的時間。實(shí)例分析,客戶需要知道瀏覽過“仙劍奇?zhèn)b傳”的用戶還瀏覽過其他什么內(nèi)容,我們就利用MapReduce對數(shù)據(jù)進(jìn)行處理得出所有瀏覽過“仙劍奇?zhèn)b傳”的用戶ID,在由ID取出他們除了“仙劍奇?zhèn)b傳”之外的瀏覽內(nèi)容,值得一提的是這次任務(wù)中很好的利用MapReduce的shuffle階段的處理將大大減少任務(wù)的難度。查
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 維修勞務(wù)合同模板(2篇)
- 南京航空航天大學(xué)《編譯原理》2021-2022學(xué)年第一學(xué)期期末試卷
- 南京工業(yè)大學(xué)浦江學(xué)院《市場營銷》2023-2024學(xué)年第一學(xué)期期末試卷
- 房建施工組織設(shè)計
- 某市中心諾蘭攝影工作室工程項(xiàng)目施工組織設(shè)計
- 壓濾車間施工組織設(shè)計
- 《小星星》說課稿
- 南京工業(yè)大學(xué)浦江學(xué)院《給排水工程制圖與CAD》2023-2024學(xué)年第一學(xué)期期末試卷
- 南京工業(yè)大學(xué)《自動控制原理》2021-2022學(xué)年第一學(xué)期期末試卷
- 南京工業(yè)大學(xué)《藥物新劑型與新技術(shù)》2022-2023學(xué)年第一學(xué)期期末試卷
- 金融服務(wù)營銷報告總結(jié)
- 35kv集電線路監(jiān)理標(biāo)準(zhǔn)細(xì)則
- 橋式起重機(jī)定期檢查記錄表
- T∕CACM 1090-2018 中醫(yī)治未病技術(shù)操作規(guī)范 穴位敷貼
- 2024版人教版英語初一上單詞默寫單
- 化學(xué)實(shí)驗(yàn)室安全智慧樹知到期末考試答案2024年
- 經(jīng)典房地產(chǎn)營銷策劃培訓(xùn)(全)
- 工人入場安全教育課件
- 【川教版】《生命 生態(tài) 安全》二年級上冊第12課 少點(diǎn)兒馬虎 多點(diǎn)兒收獲 課件
- 人教版數(shù)學(xué)四年級上冊第五單元 《平行四邊形和梯形》 大單元作業(yè)設(shè)計
- 靜配中心差錯預(yù)防
評論
0/150
提交評論