




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、of39電子工業(yè)出版社云計算(第三版)配套課件云 計 算(第三版)CLOUD COMPUTING Third Edition主編:劉鵬 教授第 5 章Hadoop 2.0 主流開源云架構(四)本套PPT下載地址:http:/ 教授、博導、學科帶頭人,清華大學博士?,F任中國云計算專家咨詢委員會秘書長、中國信息協會大數據分會副會長、工業(yè)與信息化部云計算研究中心專家。 主持完成科研項目25項,發(fā)表論文80余篇,出版專業(yè)書籍15本。獲部級科技進步二等獎4項、三等獎4項。主編了國內第一本云計算教材云計算和第一本云計算編程書籍實戰(zhàn)Hadoop。創(chuàng)辦了知名的中國云計算()和中國大數據()網站。 曾率隊奪得2
2、002 PennySort國際計算機排序比賽冠軍,兩次奪得全國高??萍急荣愖罡擢?,并三次奪得清華大學科技比賽最高獎。 榮獲“全軍十大學習成才標兵”(排名第一)、南京“十大杰出青年”、江蘇省“333高層次人才培養(yǎng)工程”中青年科學技術帶頭人、清華大學“學術新秀”等稱號。劉 鵬5.1 引例5.2 Hadoop 2.0簡述5.3 Hadoop 2.0部署5.4 Hadoop 2.0體系架構5.5 Hadoop 2.0訪問接口5.6 Hadoop 2.0編程接口5.4 Hadoop 2.0體系架構5.4.1 Hadoop 2.0公共組件Common5.4.2 分布式文件系統(tǒng)HDFS5.4.3 分布式操作
3、系統(tǒng)Yarn5.4.4 Hadoop 2.0安全機制簡介of39云計算第三版配套PPT課件65.4 Hadoop 2.0體系架構定位管理計算機資源提供用戶接口一方面管理整個集群的計算資源(CPU、內存等)另一方面提供用戶程序訪問系統(tǒng)資源的API。分布式操作系統(tǒng)的基本功能:Yarnof39云計算第三版配套PPT課件75.4 Hadoop 2.0體系架構體系架構Yarn的主要思想是將MRv1版JobTracker的兩大功能資源管理和任務調度,拆分成兩個獨立的進程:資源管理模塊全局資源管理進程ResourceManager任務管理模塊任務管理進程ApplicationMasterl Yarn依舊是m
4、aster/slave結構l 主進程ResourceManager是整個集群資源仲裁中心l 從進程NodeManager管理本機資源l ResourceManager和從屬節(jié)點的進程NodeManager組成了Hadoop 2.0的分布式數據計算框架of39云計算第三版配套PPT課件8ClientClientRespirceManagerNodeManagerContainerApp MstrNodeManagerContainerApp MstrNodeManagerContainerContainerMapReduce StatusJob SubmissionNode StatusReso
5、urce Request5.4 Hadoop 2.0體系架構體系架構of39云計算第三版配套PPT課件9Yarn在執(zhí)行時包含以下獨立實體: Client:客戶端,負責向集群提交作業(yè)。 ResourceManager:集群主進程,仲裁中心,負責集群資源管理和任務調度。 Scheduler:資源仲裁模塊。 ApplicationManager:選定,啟動和監(jiān)管ApplicationMaster。 NodeManager:集群從進程,管理監(jiān)視Containers,執(zhí)行具體任務。 Container:本機資源集合體,如某Container為4個CPU,8GB內存。 ApplicationMaster:
6、任務執(zhí)行和監(jiān)管中心。5.4 Hadoop 2.0體系架構體系架構ClientClientContainerContainerContainerContainerContainerContainerApplicationMasterApplicationManagerSchenulerof39云計算第三版配套PPT課件115.4 Hadoop 2.0體系架構體系架構作業(yè)提交任務分配任務執(zhí)行任務完成進度和狀態(tài)更新ApplicationMaster失敗ApplicationManager會重新選擇一個Container再次執(zhí)行此任務對應的ApplicationMaster計算節(jié)點失敗Applicat
7、ionMaster首先向Scheduler申請資源,接著根據申請到的資源重新分配失敗節(jié)點上的任務任務失敗orof39云計算第三版配套PPT課件125.4 Hadoop 2.0體系架構體系架構從Yarn架構和Yarn任務執(zhí)行過程能看出Yarn具有巨大優(yōu)勢:Yarn的設計大大減輕了ResourceManager的資源消耗,并且ApplicationMaster可分布于集群中任意一臺機器,設計上更加優(yōu)美。SchedulerApplicationMaster純粹的資源仲裁中心ApplicationManager只監(jiān)管ApplicationMaster負責任務整體執(zhí)行of39云計算第三版配套PPT課件1
8、3WebAppServerProxyResourceMangerJobHistoryServerNodeManagerNodeManagerNodeManager5.4 Hadoop 2.0體系架構體系架構Yarn典型拓撲除了ResourceManager和NodeManager兩個實體外,Yarn還包括WebAppProxyServer和JobHistoryServer兩個實體。of39云計算第三版配套PPT課件145.4 Hadoop 2.0體系架構體系架構JobHistoryServer管理已完成的Yarn任務WebAppProxyServer 任務執(zhí)行時的Web頁面代理l 歷史任務的日
9、志和執(zhí)行時的各種統(tǒng)計信息統(tǒng)一由JobTracker管理l Yarn將管理歷史任務的功能抽象成一獨立實體JobHistoryServerl 通過使用代理,不僅進一步降低了ResourceManager的壓力,還能降低Yarn受到的Web攻擊l 負責監(jiān)管具體MapReduce任務執(zhí)行全過程,將從Container那里收集過的任務執(zhí)行信息匯總并顯示到一個Web界面上of39云計算第三版配套PPT課件155.4 Hadoop 2.0體系架構編程模板ApplicationMaster 是一個可變更的部分,只要實現不同的ApplicationMaster,就可以實現不同的編程模式MapReduce模板Ma
10、pReduce類型的ApplicationMasterdistributedshell模板distributedshell類型的ApplicationMaster示例模板MapReduce模板Yarn的示例編程為“distributedshell”,該程序可以將給定的shell命令分布到機器執(zhí)行Map把任務分解成為多個任務,Reduce把分解后多任務處理的結果匯總起來,得到最終結果of39云計算第三版配套PPT課件16分段0分段1分段2分段3分段M-1Map()Map()Map()Map()Map()Reduce()Reduce()Reduce()Reduce()結果0結果1結果2結果R-1輸
11、入M個map任務R個Reduce任務輸出分區(qū)5.4 Hadoop 2.0體系架構編程模板of39云計算第三版配套PPT課件175.4 Hadoop 2.0體系架構編程模板映射階段MapReduce框架將用戶輸入的數據分割為M個片斷,對應M個Map任務。化簡階段每一個Reduce操作的輸入是一個片斷,Reduce操作調用用戶定義的Reduce函數,生成用戶需要的鍵值對進行輸出。一個MapReduce操作分為兩個階段:映射階段和化簡階段。of39云計算第三版配套PPT課件185.4 Hadoop 2.0體系架構調度策略容量調度算法(CapacityScheduler)公平調度算法(FairSche
12、duler)核心問題YarnMapReduce任務的調度策略ResourceManager的Scheduler模塊支持插拔,通過配置文件,用戶可以個性化指定其調度策略of39云計算第三版配套PPT課件195.4 Hadoop 2.0體系架構調度策略CapacityScheduler是一種多用戶多任務調度策略,它以隊列為單位劃分任務,以Container為單位分配資源,它也是Hadoop 2.0默認的調度策略,為多個用戶共享集群資源提供安全可靠的保障。通過共建集群的方式,不但可以提高資源利用率,還能在必要時刻使用更多的集群資源,同時,組織機構間共建集群也大大降低了運維成本,容量調度策略通過隊列來
13、劃分資源,隊列間關系類似于一棵多叉樹,隊列間一層層繼承,根隊列稱為root隊列,Yarn初次啟動時默認啟動隊列為root.default隊列。容量調度算法of39云計算第三版配套PPT課件205.4 Hadoop 2.0體系架構調度策略多級隊列容量確定性安全性彈性多用戶易操作性容量調度策略以隊列來劃分集群資源,不同機構可以在集群里新建不同隊列規(guī)定某隊列占用集群資源的上下限,能夠確保即使其他隊列用到其最高峰時,也能預留充足資源留給此隊列每個隊列都有相應的訪問控制列表ACL文件通過設置隊列額外資源使用量,能夠讓此隊列使用超出規(guī)定的資源量通過設置不同隊列擁有資源的比例,避免某用戶或某進程獨占集群資源
14、,實現多用戶多任務調度主要包括實時配置和實時更改隊列狀態(tài)of39云計算第三版配套PPT課件215.4 Hadoop 2.0體系架構調度策略實時配置:管理員能夠以安全的方式,在不停止集群的情況下,實時更新隊列配置實時更改隊列狀態(tài):基于資源調度:Yarn支持資源密集型作業(yè),作業(yè)在分配Container時其Container所包含的資源量是一定的,但Yarn允許此Container在執(zhí)行時占用更多的資源,目前只支持內存。運行態(tài)停止態(tài)不暫停集群管理用戶權限作業(yè)提交Yarnof39云計算第三版配套PPT課件225.4 Hadoop 2.0體系架構調度策略管理接口Web接口Shell命令接口yarn-si
15、te.xml指定使用容量調度策略。capacity-scheduler.xml配置全局多級隊列和隊列的ACL文件。mapred-site.xml配置客戶端提交MapReduce任務時使用的隊列。Hadoop-policy.xml配置全局ACL文件。$HADOOP_YARN_HOME/bin/yarn rmadmin refreshQueues,管理員可以通過此命令在不停止集群的情況下,使多級隊列的配置立即生效。of39云計算第三版配套PPT課件235.4 Hadoop 2.0體系架構調度策略公平調度策略FairScheduler是一種允許多個Yarn任務公平使用集群資源的可插拔式調度策略Fai
16、rScheduler會將資源分配給集群中所有的任務FairScheduler則會將正在執(zhí)行任務釋放的部分資源分配給等待隊列里的任務集群資源滿足時受限時從宏觀上看,集群資源公平地為每一個任務所擁有,它不僅可以讓短作業(yè)在合理的時間內完成,也避免了長作業(yè)長期得不到執(zhí)行的尷尬局面。of39云計算第三版配套PPT課件245.4 Hadoop 2.0體系架構調度策略默認隊列隊列間權重配置隊列內多調度策略隊列下限支持多用戶訪問控制列表ACL公平調度策略也通過隊列來組織和管理任務,并且也支持多級隊列,其隊列之間為多叉樹結構設置某隊列資源權重,權重越大,獲得資源的比例越大隊列內部的調度策略是可配置的,默認為Fa
17、irSharePolicy策略為每個隊列設置資源下限值,大大提高集群資源利用率通過多級隊列可以將不同的用戶分配到不同的隊列里管理員可以設置隊列的ACL文件,嚴格控制用戶訪問of39云計算第三版配套PPT課件255.4 Hadoop 2.0體系架構調度策略接口yarn-site.xmlfair-scheduler.xml設定屬性yarn.resourcemanager.scheduler.classYarn啟動公平調度策略,設置屬性yarn.scheduler.fair.allocation.file來指定多級隊列文件位置。配置多級隊列的文件,此文件名與位置是通過Yarn配置文件yarn-sit
18、e.xml里yarn.scheduler.fair.allocation.file屬性指定5.4 Hadoop 2.0體系架構5.4.1 Hadoop 2.0公共組件Common5.4.2 分布式文件系統(tǒng)HDFS5.4.3 分布式操作系統(tǒng)Yarn5.4.4 Hadoop 2.0安全機制簡介of39云計算第三版配套PPT課件275.4 Hadoop 2.0體系架構Hadoop 2.0安全機制簡介早期Hadoop版本假定HDFS和MapReduce運行在安全的環(huán)境中,它基本上沒有安全措施。集群內部集群外部任何用戶提交的MR任務都可以任意訪問HDFS數據我們甚至可以啟動一個非法slave連接到mas
19、ter,從而冒充集群slave騙取集群數據。隨著Hadoop應用越來越廣泛,它的安全機制也在不斷完善。of39云計算第三版配套PPT課件285.4 Hadoop 2.0體系架構Hadoop安全機制背景Hadoop 0.16Hadoop 0.20Hadoop 0.21Hadoop 0.22基本上沒有安全機制模仿Linux文件權限開始引入第三認證Kerberos繼續(xù)引入第三認證KerberosKerberos認證開始穩(wěn)定of39云計算第三版配套PPT課件295.4 Hadoop 2.0體系架構Hadoop安全機制背景數據未加密用戶和服務弱驗證Hadoop可能面臨的安全問題使用Kerberos來實現Hadoop用戶認證Kerberos 鑒定登錄用戶(服務)是否是其聲稱的用戶(服務)Hadoop 決定這個用戶到底擁有多少權限本章未完待續(xù)百度排名首位的大數據資料和交流中心百 度 排 名 首 位 的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 嵌入式開發(fā)職業(yè)生涯交流試題及答案
- 測試執(zhí)行中常見的錯誤與解決方案試題及答案
- 探索軟件缺陷管理的技巧試題及答案
- 公路交通工程試車試題及答案
- 四級計算機考試日常練習試題及答案
- 安全生產維修管理制度
- 廣東會所店長管理制度
- 出口企業(yè)備案管理制度
- 公路視頻監(jiān)控管理制度
- 地面保潔人員管理制度
- 河南大河網數字科技有限公司招聘筆試題庫2025
- 2025年商法知識競賽考試試卷及答案
- 水電項目實施中的環(huán)境保護措施試題及答案
- 2025屆廣東省佛山市順德區(qū)龍江鎮(zhèn)八下物理期末統(tǒng)考試題含解析
- 2025年山東省臨沂市平邑縣中考一模語文試題(含答案)
- 2025年電子信息工程專業(yè)考試試題及答案
- 【威?!?025年山東省威海技師學院公開招聘工作人員29人筆試歷年典型考題及考點剖析附帶答案詳解
- 2025年第六屆全國國家版圖知識競賽題庫及答案
- 機械租賃投標服務方案
- 食品安全自查、從業(yè)人員健康管理、進貨查驗記錄、食品安全事故處置保證食品安全的規(guī)章制度
- 2025中考語文??甲魑难侯}(10大主題+10篇范文)
評論
0/150
提交評論