




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、of39電子工業(yè)出版社云計(jì)算(第三版)配套課件云 計(jì) 算(第三版)CLOUD COMPUTING Third Edition主編:劉鵬 教授第 5 章Hadoop 2.0 主流開源云架構(gòu)(四)本套PPT下載地址:http:/ 教授、博導(dǎo)、學(xué)科帶頭人,清華大學(xué)博士。現(xiàn)任中國云計(jì)算專家咨詢委員會(huì)秘書長、中國信息協(xié)會(huì)大數(shù)據(jù)分會(huì)副會(huì)長、工業(yè)與信息化部云計(jì)算研究中心專家。 主持完成科研項(xiàng)目25項(xiàng),發(fā)表論文80余篇,出版專業(yè)書籍15本。獲部級科技進(jìn)步二等獎(jiǎng)4項(xiàng)、三等獎(jiǎng)4項(xiàng)。主編了國內(nèi)第一本云計(jì)算教材云計(jì)算和第一本云計(jì)算編程書籍實(shí)戰(zhàn)Hadoop。創(chuàng)辦了知名的中國云計(jì)算()和中國大數(shù)據(jù)()網(wǎng)站。 曾率隊(duì)奪得2
2、002 PennySort國際計(jì)算機(jī)排序比賽冠軍,兩次奪得全國高校科技比賽最高獎(jiǎng),并三次奪得清華大學(xué)科技比賽最高獎(jiǎng)。 榮獲“全軍十大學(xué)習(xí)成才標(biāo)兵”(排名第一)、南京“十大杰出青年”、江蘇省“333高層次人才培養(yǎng)工程”中青年科學(xué)技術(shù)帶頭人、清華大學(xué)“學(xué)術(shù)新秀”等稱號。劉 鵬5.1 引例5.2 Hadoop 2.0簡述5.3 Hadoop 2.0部署5.4 Hadoop 2.0體系架構(gòu)5.5 Hadoop 2.0訪問接口5.6 Hadoop 2.0編程接口5.4 Hadoop 2.0體系架構(gòu)5.4.1 Hadoop 2.0公共組件Common5.4.2 分布式文件系統(tǒng)HDFS5.4.3 分布式操作
3、系統(tǒng)Yarn5.4.4 Hadoop 2.0安全機(jī)制簡介of39云計(jì)算第三版配套PPT課件65.4 Hadoop 2.0體系架構(gòu)定位管理計(jì)算機(jī)資源提供用戶接口一方面管理整個(gè)集群的計(jì)算資源(CPU、內(nèi)存等)另一方面提供用戶程序訪問系統(tǒng)資源的API。分布式操作系統(tǒng)的基本功能:Yarnof39云計(jì)算第三版配套PPT課件75.4 Hadoop 2.0體系架構(gòu)體系架構(gòu)Yarn的主要思想是將MRv1版JobTracker的兩大功能資源管理和任務(wù)調(diào)度,拆分成兩個(gè)獨(dú)立的進(jìn)程:資源管理模塊全局資源管理進(jìn)程ResourceManager任務(wù)管理模塊任務(wù)管理進(jìn)程ApplicationMasterl Yarn依舊是m
4、aster/slave結(jié)構(gòu)l 主進(jìn)程ResourceManager是整個(gè)集群資源仲裁中心l 從進(jìn)程N(yùn)odeManager管理本機(jī)資源l ResourceManager和從屬節(jié)點(diǎn)的進(jìn)程N(yùn)odeManager組成了Hadoop 2.0的分布式數(shù)據(jù)計(jì)算框架of39云計(jì)算第三版配套PPT課件8ClientClientRespirceManagerNodeManagerContainerApp MstrNodeManagerContainerApp MstrNodeManagerContainerContainerMapReduce StatusJob SubmissionNode StatusReso
5、urce Request5.4 Hadoop 2.0體系架構(gòu)體系架構(gòu)of39云計(jì)算第三版配套PPT課件9Yarn在執(zhí)行時(shí)包含以下獨(dú)立實(shí)體: Client:客戶端,負(fù)責(zé)向集群提交作業(yè)。 ResourceManager:集群主進(jìn)程,仲裁中心,負(fù)責(zé)集群資源管理和任務(wù)調(diào)度。 Scheduler:資源仲裁模塊。 ApplicationManager:選定,啟動(dòng)和監(jiān)管ApplicationMaster。 NodeManager:集群從進(jìn)程,管理監(jiān)視Containers,執(zhí)行具體任務(wù)。 Container:本機(jī)資源集合體,如某Container為4個(gè)CPU,8GB內(nèi)存。 ApplicationMaster:
6、任務(wù)執(zhí)行和監(jiān)管中心。5.4 Hadoop 2.0體系架構(gòu)體系架構(gòu)ClientClientContainerContainerContainerContainerContainerContainerApplicationMasterApplicationManagerSchenulerof39云計(jì)算第三版配套PPT課件115.4 Hadoop 2.0體系架構(gòu)體系架構(gòu)作業(yè)提交任務(wù)分配任務(wù)執(zhí)行任務(wù)完成進(jìn)度和狀態(tài)更新ApplicationMaster失敗ApplicationManager會(huì)重新選擇一個(gè)Container再次執(zhí)行此任務(wù)對應(yīng)的ApplicationMaster計(jì)算節(jié)點(diǎn)失敗Applicat
7、ionMaster首先向Scheduler申請資源,接著根據(jù)申請到的資源重新分配失敗節(jié)點(diǎn)上的任務(wù)任務(wù)失敗orof39云計(jì)算第三版配套PPT課件125.4 Hadoop 2.0體系架構(gòu)體系架構(gòu)從Yarn架構(gòu)和Yarn任務(wù)執(zhí)行過程能看出Yarn具有巨大優(yōu)勢:Yarn的設(shè)計(jì)大大減輕了ResourceManager的資源消耗,并且ApplicationMaster可分布于集群中任意一臺(tái)機(jī)器,設(shè)計(jì)上更加優(yōu)美。SchedulerApplicationMaster純粹的資源仲裁中心ApplicationManager只監(jiān)管ApplicationMaster負(fù)責(zé)任務(wù)整體執(zhí)行of39云計(jì)算第三版配套PPT課件1
8、3WebAppServerProxyResourceMangerJobHistoryServerNodeManagerNodeManagerNodeManager5.4 Hadoop 2.0體系架構(gòu)體系架構(gòu)Yarn典型拓?fù)涑薘esourceManager和NodeManager兩個(gè)實(shí)體外,Yarn還包括WebAppProxyServer和JobHistoryServer兩個(gè)實(shí)體。of39云計(jì)算第三版配套PPT課件145.4 Hadoop 2.0體系架構(gòu)體系架構(gòu)JobHistoryServer管理已完成的Yarn任務(wù)WebAppProxyServer 任務(wù)執(zhí)行時(shí)的Web頁面代理l 歷史任務(wù)的日
9、志和執(zhí)行時(shí)的各種統(tǒng)計(jì)信息統(tǒng)一由JobTracker管理l Yarn將管理歷史任務(wù)的功能抽象成一獨(dú)立實(shí)體JobHistoryServerl 通過使用代理,不僅進(jìn)一步降低了ResourceManager的壓力,還能降低Yarn受到的Web攻擊l 負(fù)責(zé)監(jiān)管具體MapReduce任務(wù)執(zhí)行全過程,將從Container那里收集過的任務(wù)執(zhí)行信息匯總并顯示到一個(gè)Web界面上of39云計(jì)算第三版配套PPT課件155.4 Hadoop 2.0體系架構(gòu)編程模板ApplicationMaster 是一個(gè)可變更的部分,只要實(shí)現(xiàn)不同的ApplicationMaster,就可以實(shí)現(xiàn)不同的編程模式MapReduce模板Ma
10、pReduce類型的ApplicationMasterdistributedshell模板distributedshell類型的ApplicationMaster示例模板MapReduce模板Yarn的示例編程為“distributedshell”,該程序可以將給定的shell命令分布到機(jī)器執(zhí)行Map把任務(wù)分解成為多個(gè)任務(wù),Reduce把分解后多任務(wù)處理的結(jié)果匯總起來,得到最終結(jié)果of39云計(jì)算第三版配套PPT課件16分段0分段1分段2分段3分段M-1Map()Map()Map()Map()Map()Reduce()Reduce()Reduce()Reduce()結(jié)果0結(jié)果1結(jié)果2結(jié)果R-1輸
11、入M個(gè)map任務(wù)R個(gè)Reduce任務(wù)輸出分區(qū)5.4 Hadoop 2.0體系架構(gòu)編程模板of39云計(jì)算第三版配套PPT課件175.4 Hadoop 2.0體系架構(gòu)編程模板映射階段MapReduce框架將用戶輸入的數(shù)據(jù)分割為M個(gè)片斷,對應(yīng)M個(gè)Map任務(wù)。化簡階段每一個(gè)Reduce操作的輸入是一個(gè)片斷,Reduce操作調(diào)用用戶定義的Reduce函數(shù),生成用戶需要的鍵值對進(jìn)行輸出。一個(gè)MapReduce操作分為兩個(gè)階段:映射階段和化簡階段。of39云計(jì)算第三版配套PPT課件185.4 Hadoop 2.0體系架構(gòu)調(diào)度策略容量調(diào)度算法(CapacityScheduler)公平調(diào)度算法(FairSche
12、duler)核心問題YarnMapReduce任務(wù)的調(diào)度策略ResourceManager的Scheduler模塊支持插拔,通過配置文件,用戶可以個(gè)性化指定其調(diào)度策略of39云計(jì)算第三版配套PPT課件195.4 Hadoop 2.0體系架構(gòu)調(diào)度策略CapacityScheduler是一種多用戶多任務(wù)調(diào)度策略,它以隊(duì)列為單位劃分任務(wù),以Container為單位分配資源,它也是Hadoop 2.0默認(rèn)的調(diào)度策略,為多個(gè)用戶共享集群資源提供安全可靠的保障。通過共建集群的方式,不但可以提高資源利用率,還能在必要時(shí)刻使用更多的集群資源,同時(shí),組織機(jī)構(gòu)間共建集群也大大降低了運(yùn)維成本,容量調(diào)度策略通過隊(duì)列來
13、劃分資源,隊(duì)列間關(guān)系類似于一棵多叉樹,隊(duì)列間一層層繼承,根隊(duì)列稱為root隊(duì)列,Yarn初次啟動(dòng)時(shí)默認(rèn)啟動(dòng)隊(duì)列為root.default隊(duì)列。容量調(diào)度算法of39云計(jì)算第三版配套PPT課件205.4 Hadoop 2.0體系架構(gòu)調(diào)度策略多級隊(duì)列容量確定性安全性彈性多用戶易操作性容量調(diào)度策略以隊(duì)列來劃分集群資源,不同機(jī)構(gòu)可以在集群里新建不同隊(duì)列規(guī)定某隊(duì)列占用集群資源的上下限,能夠確保即使其他隊(duì)列用到其最高峰時(shí),也能預(yù)留充足資源留給此隊(duì)列每個(gè)隊(duì)列都有相應(yīng)的訪問控制列表ACL文件通過設(shè)置隊(duì)列額外資源使用量,能夠讓此隊(duì)列使用超出規(guī)定的資源量通過設(shè)置不同隊(duì)列擁有資源的比例,避免某用戶或某進(jìn)程獨(dú)占集群資源
14、,實(shí)現(xiàn)多用戶多任務(wù)調(diào)度主要包括實(shí)時(shí)配置和實(shí)時(shí)更改隊(duì)列狀態(tài)of39云計(jì)算第三版配套PPT課件215.4 Hadoop 2.0體系架構(gòu)調(diào)度策略實(shí)時(shí)配置:管理員能夠以安全的方式,在不停止集群的情況下,實(shí)時(shí)更新隊(duì)列配置實(shí)時(shí)更改隊(duì)列狀態(tài):基于資源調(diào)度:Yarn支持資源密集型作業(yè),作業(yè)在分配Container時(shí)其Container所包含的資源量是一定的,但Yarn允許此Container在執(zhí)行時(shí)占用更多的資源,目前只支持內(nèi)存。運(yùn)行態(tài)停止態(tài)不暫停集群管理用戶權(quán)限作業(yè)提交Yarnof39云計(jì)算第三版配套PPT課件225.4 Hadoop 2.0體系架構(gòu)調(diào)度策略管理接口Web接口Shell命令接口yarn-si
15、te.xml指定使用容量調(diào)度策略。capacity-scheduler.xml配置全局多級隊(duì)列和隊(duì)列的ACL文件。mapred-site.xml配置客戶端提交MapReduce任務(wù)時(shí)使用的隊(duì)列。Hadoop-policy.xml配置全局ACL文件。$HADOOP_YARN_HOME/bin/yarn rmadmin refreshQueues,管理員可以通過此命令在不停止集群的情況下,使多級隊(duì)列的配置立即生效。of39云計(jì)算第三版配套PPT課件235.4 Hadoop 2.0體系架構(gòu)調(diào)度策略公平調(diào)度策略FairScheduler是一種允許多個(gè)Yarn任務(wù)公平使用集群資源的可插拔式調(diào)度策略Fai
16、rScheduler會(huì)將資源分配給集群中所有的任務(wù)FairScheduler則會(huì)將正在執(zhí)行任務(wù)釋放的部分資源分配給等待隊(duì)列里的任務(wù)集群資源滿足時(shí)受限時(shí)從宏觀上看,集群資源公平地為每一個(gè)任務(wù)所擁有,它不僅可以讓短作業(yè)在合理的時(shí)間內(nèi)完成,也避免了長作業(yè)長期得不到執(zhí)行的尷尬局面。of39云計(jì)算第三版配套PPT課件245.4 Hadoop 2.0體系架構(gòu)調(diào)度策略默認(rèn)隊(duì)列隊(duì)列間權(quán)重配置隊(duì)列內(nèi)多調(diào)度策略隊(duì)列下限支持多用戶訪問控制列表ACL公平調(diào)度策略也通過隊(duì)列來組織和管理任務(wù),并且也支持多級隊(duì)列,其隊(duì)列之間為多叉樹結(jié)構(gòu)設(shè)置某隊(duì)列資源權(quán)重,權(quán)重越大,獲得資源的比例越大隊(duì)列內(nèi)部的調(diào)度策略是可配置的,默認(rèn)為Fa
17、irSharePolicy策略為每個(gè)隊(duì)列設(shè)置資源下限值,大大提高集群資源利用率通過多級隊(duì)列可以將不同的用戶分配到不同的隊(duì)列里管理員可以設(shè)置隊(duì)列的ACL文件,嚴(yán)格控制用戶訪問of39云計(jì)算第三版配套PPT課件255.4 Hadoop 2.0體系架構(gòu)調(diào)度策略接口yarn-site.xmlfair-scheduler.xml設(shè)定屬性yarn.resourcemanager.scheduler.classYarn啟動(dòng)公平調(diào)度策略,設(shè)置屬性yarn.scheduler.fair.allocation.file來指定多級隊(duì)列文件位置。配置多級隊(duì)列的文件,此文件名與位置是通過Yarn配置文件yarn-sit
18、e.xml里yarn.scheduler.fair.allocation.file屬性指定5.4 Hadoop 2.0體系架構(gòu)5.4.1 Hadoop 2.0公共組件Common5.4.2 分布式文件系統(tǒng)HDFS5.4.3 分布式操作系統(tǒng)Yarn5.4.4 Hadoop 2.0安全機(jī)制簡介of39云計(jì)算第三版配套PPT課件275.4 Hadoop 2.0體系架構(gòu)Hadoop 2.0安全機(jī)制簡介早期Hadoop版本假定HDFS和MapReduce運(yùn)行在安全的環(huán)境中,它基本上沒有安全措施。集群內(nèi)部集群外部任何用戶提交的MR任務(wù)都可以任意訪問HDFS數(shù)據(jù)我們甚至可以啟動(dòng)一個(gè)非法slave連接到mas
19、ter,從而冒充集群slave騙取集群數(shù)據(jù)。隨著Hadoop應(yīng)用越來越廣泛,它的安全機(jī)制也在不斷完善。of39云計(jì)算第三版配套PPT課件285.4 Hadoop 2.0體系架構(gòu)Hadoop安全機(jī)制背景Hadoop 0.16Hadoop 0.20Hadoop 0.21Hadoop 0.22基本上沒有安全機(jī)制模仿Linux文件權(quán)限開始引入第三認(rèn)證Kerberos繼續(xù)引入第三認(rèn)證KerberosKerberos認(rèn)證開始穩(wěn)定of39云計(jì)算第三版配套PPT課件295.4 Hadoop 2.0體系架構(gòu)Hadoop安全機(jī)制背景數(shù)據(jù)未加密用戶和服務(wù)弱驗(yàn)證Hadoop可能面臨的安全問題使用Kerberos來實(shí)現(xiàn)Hadoop用戶認(rèn)證Kerberos 鑒定登錄用戶(服務(wù))是否是其聲稱的用戶(服務(wù))Hadoop 決定這個(gè)用戶到底擁有多少權(quán)限本章未完待續(xù)百度排名首位的大數(shù)據(jù)資料和交流中心百 度 排 名 首 位 的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年棉混紡紗行業(yè)深度研究分析報(bào)告
- 5《琥珀》(教學(xué)設(shè)計(jì))2023-2024學(xué)年統(tǒng)編版語文四年級下冊
- 12《在天晴了的時(shí)候》教學(xué)設(shè)計(jì)-2023-2024學(xué)年語文四年級下冊統(tǒng)編版
- 全國河大音像版初中信息技術(shù)八年級上冊第五章第三節(jié)《無人駕駛智能小車程序設(shè)計(jì)與實(shí)踐》教學(xué)設(shè)計(jì)
- 6-1 《記念劉和珍君》教學(xué)設(shè)計(jì) 2024-2025學(xué)年統(tǒng)編版高中語文選擇性必修中冊
- 全國人教版高中信息技術(shù)必修一第1章1.3數(shù)據(jù)科學(xué)與大數(shù)據(jù)1.3.1《數(shù)據(jù)科學(xué)的興起》教學(xué)設(shè)計(jì)
- 第十課稻田的守護(hù)者(教學(xué)設(shè)計(jì))湖北科技版六年級上冊綜合實(shí)踐活動(dòng)
- 二手房改造裝修合同模板
- 2025年度紅薯種植與農(nóng)業(yè)科技示范園區(qū)建設(shè)合同
- 2025年沼氣集中供氣系統(tǒng)項(xiàng)目建議書
- 《企業(yè)成功轉(zhuǎn)型》課件
- 接地電阻的計(jì)算
- 小學(xué)傳承經(jīng)典筑夢未來演講稿500字11篇
- 五年級上冊數(shù)學(xué)應(yīng)用題100題及答案
- 2024年4月重慶公務(wù)員考試申論真題及答案解析
- 2024年南京科技職業(yè)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 懷念戰(zhàn)友混聲四部合唱譜
- 操作流程及方法1
- 云計(jì)算部門KPI設(shè)計(jì)
- 初中物理新課程標(biāo)準(zhǔn)2023全解
- 智慧工廠計(jì)劃總結(jié)匯報(bào)
評論
0/150
提交評論