




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
工作流程概述2學(xué)習(xí)任務(wù)了解MapReduce相關(guān)知識(shí)點(diǎn)掌握MapReduce工作流程3知識(shí)目標(biāo)學(xué)習(xí)MapReduce程序執(zhí)行流程了解MapReduce相關(guān)知識(shí)了解MapReduce主要功能01能力目標(biāo)熟練了解MapReduce工作原理熟悉MapReduce主要功能02學(xué)習(xí)目標(biāo)4目錄01MapReduce簡(jiǎn)介02MapReduce程序執(zhí)行流程03MapReduce工作原理04MapReduce主要功能5MapReduce簡(jiǎn)介MapReduce是一種并行可擴(kuò)展計(jì)算模型,并且有較好的容錯(cuò)性,主要解決海量離線數(shù)據(jù)的批處理。實(shí)現(xiàn)下面目標(biāo)。易于編程良好的擴(kuò)展性高容錯(cuò)性6MapReduce程序執(zhí)行流程程序執(zhí)行流程圖如下圖所示:7MapReduce程序執(zhí)行流程(1)開(kāi)發(fā)人員編寫好MapReduceprogram,將程序打包運(yùn)行。(2)JobClient向JobTracker申請(qǐng)可用Job,JobTracker返回JobClient一個(gè)可用JobID。(3)JobClient得到JobID后,將運(yùn)行Job所需要的資源拷貝到共享文件系統(tǒng)HDFS中。(4)資源準(zhǔn)備完備后,JobClient向JobTracker提交Job。(5)
JobTracker收到提交的Job后,初始化Job。(6)初始化完成后,JobTracker從HDFS中獲取輸入splits(作業(yè)可以該啟動(dòng)多少M(fèi)apper任務(wù))。8MapReduce程序執(zhí)行流程(7)與此同時(shí),TaskTracker不斷地向JobTracker匯報(bào)心跳信息,并且返回要執(zhí)行的任務(wù)。(8)
TaskTracker得到JobTracker分配(盡量滿足數(shù)據(jù)本地化)的任務(wù)后,向HDFS獲取Job資源(若數(shù)據(jù)是本地的,不需拷貝數(shù)據(jù))。(9)獲取資源后,TaskTracker會(huì)開(kāi)啟JVM子進(jìn)程運(yùn)行任務(wù)。注:(3)中資源具體指什么?主要包含:
程序jar包、作業(yè)配置文件xml
輸入劃分信息,決定作業(yè)該啟動(dòng)多少個(gè)map任務(wù)
本地文件,包含依賴的第三方j(luò)ar包(-libjars)、依賴的歸檔文件(-archives)和普通文件(-files),如果已經(jīng)上傳,則不需上傳9MapReduce工作原理工作原理圖如下圖所示:10MapReduce工作原理程序會(huì)根據(jù)InputFormat將輸入文件分割成splits,每個(gè)split會(huì)作為一個(gè)maptask的輸入,每個(gè)maptask會(huì)有一個(gè)內(nèi)存緩沖區(qū),輸入數(shù)據(jù)經(jīng)過(guò)map階段處理后的中間結(jié)果會(huì)寫入內(nèi)存緩沖區(qū),并且決定數(shù)據(jù)寫入到哪個(gè)partitioner,當(dāng)寫入的數(shù)據(jù)到達(dá)內(nèi)存緩沖區(qū)的的閥值(默認(rèn)是0.8),會(huì)啟動(dòng)一個(gè)線程將內(nèi)存中的數(shù)據(jù)溢寫入磁盤,同時(shí)不影響map中間結(jié)果繼續(xù)寫入緩沖區(qū)。在溢寫過(guò)程中,MapReduce框架會(huì)對(duì)key進(jìn)行排序,如果中間結(jié)果比較大,會(huì)形成多個(gè)溢寫文件,最后的緩沖區(qū)數(shù)據(jù)也會(huì)全部溢寫入磁盤形成一個(gè)溢寫文件(最少有一個(gè)溢寫文件),如果是多個(gè)溢寫文件,則最后合并所有的溢寫文件為一個(gè)文件。maptask11MapReduce工作原理當(dāng)所有的maptask完成后,每個(gè)maptask會(huì)形成一個(gè)最終文件,并且該文件按區(qū)劃分。reduce任務(wù)啟動(dòng)之前,一個(gè)maptask完成后,就會(huì)啟動(dòng)線程來(lái)拉取map結(jié)果數(shù)據(jù)到相應(yīng)的reducetask,不斷地合并數(shù)據(jù),為reduce的數(shù)據(jù)輸入做準(zhǔn)備,當(dāng)所有的maptesk完成后,數(shù)據(jù)也拉取合并完畢后,reducetask啟動(dòng),最終將輸出輸出結(jié)果存入HDFS上。reducetask12MapReduce主要功能系統(tǒng)自動(dòng)將一個(gè)作業(yè)(Job)待處理的大數(shù)據(jù)劃分為很多個(gè)數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊對(duì)應(yīng)于一個(gè)計(jì)算任務(wù)(Task),并自動(dòng)調(diào)度計(jì)算節(jié)點(diǎn)來(lái)處理相應(yīng)的數(shù)據(jù)塊。作業(yè)和任務(wù)調(diào)度功能主要負(fù)責(zé)分配和調(diào)度計(jì)算節(jié)點(diǎn)(Map節(jié)點(diǎn)或Reduce節(jié)點(diǎn)),同時(shí)負(fù)責(zé)監(jiān)控這些節(jié)點(diǎn)的執(zhí)行狀態(tài),并負(fù)責(zé)Map節(jié)點(diǎn)執(zhí)行的同步控制。數(shù)據(jù)劃分和計(jì)算任務(wù)調(diào)度:13MapReduce主要功能為了減少數(shù)據(jù)通信,一個(gè)基本原則是本地化數(shù)據(jù)處理,即一個(gè)計(jì)算節(jié)點(diǎn)盡可能處理其本地磁盤上所分布存儲(chǔ)的數(shù)據(jù),這實(shí)現(xiàn)了代碼向數(shù)據(jù)的遷移;當(dāng)無(wú)法進(jìn)行這種本地化數(shù)據(jù)處理時(shí),再尋找其他可用節(jié)點(diǎn)并將數(shù)據(jù)從網(wǎng)絡(luò)上傳送給該節(jié)點(diǎn)(數(shù)據(jù)向代碼遷移),但將盡可能從數(shù)據(jù)所在的本地機(jī)架上尋找可用節(jié)點(diǎn)以減少通信延遲。數(shù)據(jù)/代碼互定位:14MapReduce主要功能以低端商用服務(wù)器構(gòu)成的大規(guī)模MapReduce計(jì)算集群中,節(jié)點(diǎn)硬件(主機(jī)、磁盤、內(nèi)存等)出錯(cuò)和軟件出錯(cuò)是常態(tài),因此MapReduce需要能檢測(cè)并隔離出錯(cuò)節(jié)點(diǎn),并調(diào)度分配新的節(jié)點(diǎn)接管出錯(cuò)節(jié)點(diǎn)的計(jì)算任務(wù)。同時(shí),系統(tǒng)還將維護(hù)數(shù)據(jù)存儲(chǔ)的可靠性,用多備份冗余存
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 海南科技職業(yè)大學(xué)《大學(xué)體育(Ⅳ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 懷化學(xué)院《草地農(nóng)業(yè)生態(tài)系統(tǒng)概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 紹興文理學(xué)院《大學(xué)生的衛(wèi)生與健康》2023-2024學(xué)年第二學(xué)期期末試卷
- 西昌學(xué)院《新聞與紀(jì)實(shí)攝影》2023-2024學(xué)年第二學(xué)期期末試卷
- 吉林大學(xué)《紡織物理》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖北輕工職業(yè)技術(shù)學(xué)院《虛擬現(xiàn)實(shí)開(kāi)發(fā)與設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 天津體育職業(yè)學(xué)院《醫(yī)用化學(xué)實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 北京郵電大學(xué)世紀(jì)學(xué)院《蒙臺(tái)梭利教育活動(dòng)設(shè)計(jì)與實(shí)施》2023-2024學(xué)年第二學(xué)期期末試卷
- 天津體育學(xué)院《服務(wù)營(yíng)銷》2023-2024學(xué)年第二學(xué)期期末試卷
- Adverb revision(教學(xué)設(shè)計(jì))-2023-2024學(xué)年譯林版(三起)英語(yǔ)六年級(jí)下冊(cè)
- 《公司法完整版》課件2024
- 2024年下半年信息系統(tǒng)項(xiàng)目管理師真題及答案
- ??低曤娏π袠I(yè)系統(tǒng)解決方案
- 2024-2030年中國(guó)街舞培訓(xùn)行業(yè)發(fā)展趨勢(shì)及競(jìng)爭(zhēng)格局分析報(bào)告
- 期末練習(xí)卷(模擬試題)-2024-2025學(xué)年 一年級(jí)上冊(cè)數(shù)學(xué)人教版
- 白血病合并感染
- GB/T 18601-2024天然花崗石建筑板材
- 有機(jī)肥配施氮肥對(duì)玉米根系生長(zhǎng)、氮素利用及產(chǎn)量和品質(zhì)的影響
- 2024年山西省中考語(yǔ)文試卷
- 《大學(xué)美育教程》第二單元-心靈的熏陶:審美活動(dòng)
- 2023年云南公務(wù)員錄用考試《行測(cè)》題
評(píng)論
0/150
提交評(píng)論