![大數(shù)據(jù)存儲(chǔ)和計(jì)算資源管理單超_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/27/2058b307-54a4-4897-ac28-be5afa27a533/2058b307-54a4-4897-ac28-be5afa27a5331.gif)
![大數(shù)據(jù)存儲(chǔ)和計(jì)算資源管理單超_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/27/2058b307-54a4-4897-ac28-be5afa27a533/2058b307-54a4-4897-ac28-be5afa27a5332.gif)
![大數(shù)據(jù)存儲(chǔ)和計(jì)算資源管理單超_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/27/2058b307-54a4-4897-ac28-be5afa27a533/2058b307-54a4-4897-ac28-be5afa27a5333.gif)
![大數(shù)據(jù)存儲(chǔ)和計(jì)算資源管理單超_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/27/2058b307-54a4-4897-ac28-be5afa27a533/2058b307-54a4-4897-ac28-be5afa27a5334.gif)
![大數(shù)據(jù)存儲(chǔ)和計(jì)算資源管理單超_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/27/2058b307-54a4-4897-ac28-be5afa27a533/2058b307-54a4-4897-ac28-be5afa27a5335.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、唯品會(huì)大數(shù)據(jù)平臺(tái)大數(shù)據(jù)存儲(chǔ)和計(jì)算資源管理郵箱: 微信: shanchaoeric唯品會(huì)大數(shù)據(jù)平臺(tái)規(guī)劃離線計(jì)算A臺(tái)流B計(jì)算A臺(tái)VDProcess實(shí)時(shí)計(jì)算VDBank實(shí)時(shí)接入VDEngine分布式存 (R E(實(shí)時(shí)推薦A臺(tái) ABT(分流與實(shí)S)oring(初 選 Sorting(精 E Filtering(過 S 個(gè)性化推薦廣告聯(lián)盟精準(zhǔn)營銷CRMMixer(接入分發(fā) DMP統(tǒng)一T戶 數(shù)D貨品 畫像驗(yàn) P型訓(xùn)練A臺(tái)SparkDNN算法 庫數(shù)D分M數(shù)D服務(wù)數(shù)DF索數(shù)D管控標(biāo)準(zhǔn)化元數(shù)De i V 控校準(zhǔn)gV R 維 控 c唯品會(huì)大數(shù)據(jù)平臺(tái)現(xiàn)狀大數(shù)據(jù)管理工作范疇 業(yè)務(wù)系統(tǒng) 調(diào)度系統(tǒng)ETL 數(shù)據(jù)模型 元數(shù)據(jù)
2、/主數(shù)據(jù)管理 數(shù)據(jù)質(zhì)量 開發(fā)流程 運(yùn)維流程 數(shù)據(jù)審計(jì)和安全資源管理“數(shù)據(jù)平臺(tái)使用申請(qǐng)”用戶提交:資源類型hdfs存儲(chǔ)/hive數(shù)據(jù)庫/hive計(jì)算資源/mr計(jì)算資 源.資源數(shù)目100T存儲(chǔ)/1T內(nèi)存/1000顆CPU.訪問方式hive/presto/spark/webhdfs管理員處理:hdfs分配:path/name quota/space quotahive分配: 數(shù)據(jù)庫/授權(quán)yarn分配:隊(duì)列最小資源/最大資源/weight理想很豐滿,現(xiàn)實(shí)很骨感系統(tǒng)強(qiáng)大數(shù)據(jù)規(guī)范流程規(guī)范技術(shù)成熟業(yè)務(wù)成熟模型變更迅速,開發(fā)周期短用戶能力參差不齊大量的歷史包袱大量的技術(shù)包袱平臺(tái)不穩(wěn)定,掌控力差分層不明確理想現(xiàn)
3、實(shí)各種問題這個(gè)任務(wù)昨天還好好的,為什么今天跑不出來了?2-10倍的數(shù)據(jù)量,能撐得住嗎?怎么幾千個(gè)任務(wù)都慢了?最近磁盤使用急劇增加,誰在用?這個(gè)表好像不用了,我能刪除掉嗎?集群要擴(kuò)容嗎?擴(kuò)多少?核心 資源管控分田到戶目的:從亂序到有序申請(qǐng)和分配有據(jù)可查規(guī)則公開透明數(shù)據(jù)公開透明有多少資源,干多少事合理的KPI和懲罰機(jī)制ROI,資源傾斜給回報(bào)率高的項(xiàng)目資源有什么?為什么存儲(chǔ)和計(jì)算需要關(guān)注?Scale Up Scale OutNamenode - 存儲(chǔ)(2億blocks/2億files)standby namenode updateCountForQuota緩慢影響主從一致性,進(jìn)而影響切換(HDFS-
4、6763)standby checkpoint緩慢導(dǎo)致增量blockreport匯報(bào)被skip, 影響主從一致性,進(jìn)而影響切換(HDFS-7097)standby checkpoint GC導(dǎo)致transfer Fsimage超時(shí)失敗集群啟動(dòng)期間, blockreport需要錯(cuò)開,導(dǎo)致啟動(dòng)緩慢,namenode壓力增加ResourceManager - 計(jì)算(1k+并行job/40w+ job每天)大量任務(wù)運(yùn)行期間,resource manager分配能力不足/jira/browse/YARN-3547 部分解決問題https:/issues.a
5、/jira/browse/YARN-5188 our patch for fairscheduler隊(duì)列分配過粗,互相影響嚴(yán)重開源節(jié)流Federation 存儲(chǔ)優(yōu)化管理 計(jì)算優(yōu)化管理提升namenode rpc性能 提升yarn的containaer assign性能增加機(jī)器存儲(chǔ)資源管理存儲(chǔ)資源管理- hdfs存儲(chǔ)資源存儲(chǔ)資源管理- 如何獲取存儲(chǔ)數(shù)據(jù)hdfs -lsR slow but easyload【均為【均為hive table】文件元數(shù)據(jù)信息hive表元數(shù)據(jù)信息調(diào)度任務(wù)元數(shù)據(jù)信息路徑訪問信息calc1. 維度 分區(qū)/表/數(shù)據(jù)庫/任務(wù)/業(yè)務(wù)/人/目錄層級(jí)/時(shí)間2. 指標(biāo)
6、 全量/增量/趨勢/平均文件大小/最大文件 大小/最小文件大小/文件數(shù)目/占比3. 熱度 哪些表被頻繁訪問?哪些表3個(gè)月都沒人訪問了?4. 安全 有沒有敏感信息被非法訪問fsimage parser fast but need devhive metastoreETL metadatahdfs audit log資源管控系統(tǒng)-demo資源管控系統(tǒng)-demo存儲(chǔ)資源管理- 如何使用存儲(chǔ)數(shù)據(jù)容量計(jì)費(fèi)通過計(jì)費(fèi)來控制資源存儲(chǔ)數(shù)據(jù)完整透明消費(fèi)預(yù)警,提前知會(huì)用戶空間管理自動(dòng)配置生命周期管理規(guī)則存儲(chǔ)格式,壓縮格式選擇(orc+gzip)文件管理自動(dòng)配置生命周期管理規(guī)則小文件har歸檔存儲(chǔ)資源管理- 控制存儲(chǔ)
7、的價(jià)值解決NN“單點(diǎn)”瓶頸控制服務(wù)器數(shù)量,降低成本規(guī)范數(shù)據(jù)生命周期管理統(tǒng)計(jì)冷熱數(shù)據(jù)使用,反饋給ETL生命周期管理計(jì)算資源管理計(jì)算資源管理yarn - 統(tǒng)一調(diào)度管理yarn,好像搞定了資源管理,我們還需要管理什么?計(jì)算資源管理- beyond yarn隊(duì)列管理,共享還是獨(dú)享?隊(duì)列分到多細(xì)合適?如何確保關(guān)鍵隊(duì)列的資源?每個(gè)隊(duì)列的使用情況如何?這個(gè)部門的新同事總是寫錯(cuò)sql, 占用大量資源,怎么辦?晚上3點(diǎn)多A隊(duì)列資源緊張,在干什么?B任務(wù),最近消耗資源情況怎么樣?B任務(wù),C sql, 為什么step1的application突然跑慢了?今天最消耗資源的application是哪個(gè)?能優(yōu)化嗎?有沒有
8、數(shù)據(jù)傾斜造成的任務(wù)延遲?我們要解決一下這么多機(jī)器,分配的任務(wù)數(shù)均衡嗎?有沒有一些機(jī)器任務(wù)失敗率特別高?計(jì)算資源管理- 實(shí)時(shí)計(jì)算資源信息yarn - mapreducewebui業(yè)務(wù)應(yīng)用mr codespark commandhive cmdexecutor(hive/ spark)hiveservermysql/hbase每分鐘 app快 照實(shí)時(shí) app基 本信息實(shí)時(shí)明 細(xì)task 信息ETL任務(wù)信息+job基 礎(chǔ)信息分鐘快照實(shí)時(shí)快照明細(xì)task信息ETL相關(guān)信息隊(duì)列資源 使用實(shí)時(shí) 信息計(jì)算資源管理- 離線計(jì)算資源信息分鐘任務(wù)快照loadyarn每分鐘的任務(wù)快照yarn的明細(xì)的任務(wù)執(zhí)行信 息E
9、TL的任務(wù)信息ETL任務(wù)內(nèi)部的job信息隊(duì)列使用信息【均為hive tablecalc1.維度 任務(wù)/業(yè)務(wù)/人/隊(duì)列/時(shí)間/類 型(map|reduce)/服務(wù)器2.指標(biāo) 全量/增量/趨勢/占比/讀寫資 源/cpu資源/shuffle資源實(shí)時(shí)任務(wù)快照task執(zhí)行明細(xì)ETL信息隊(duì)列使用信息計(jì)算資源管理- 如何使用計(jì)算資源容量計(jì)費(fèi)通過計(jì)費(fèi)來控制資源存儲(chǔ)數(shù)據(jù)完整透明消費(fèi)預(yù)警,提前知會(huì)用戶實(shí)時(shí)告警和自動(dòng)處理根據(jù)隊(duì)列設(shè)置不同的規(guī)則,如運(yùn)行時(shí)長,使用資源,自動(dòng)發(fā)現(xiàn)和觸發(fā)停止動(dòng)作通過業(yè)務(wù)注碼,自動(dòng)展示運(yùn)行中的業(yè)務(wù)細(xì)節(jié)數(shù)據(jù)傾斜自動(dòng)識(shí)別隊(duì)列數(shù)據(jù)化運(yùn)營計(jì)算資源管理- 公平調(diào)度我們的管理原則:盡量細(xì)化,單個(gè)業(yè)務(wù)分配
10、單獨(dú)隊(duì)列隊(duì)列分配的min/max/weight由實(shí)際業(yè)務(wù)來評(píng)估,上線初期會(huì)不斷調(diào)整min是保證的最小資源,確保優(yōu)先獲得max是業(yè)務(wù)的最大資源限制,確保不會(huì)超過每個(gè)隊(duì)列由多個(gè)不同級(jí)別的子隊(duì)列組成,子隊(duì)列業(yè)務(wù)可靈活調(diào)整子隊(duì)列大小可以基于時(shí)間動(dòng)態(tài)調(diào)整自天,天任務(wù)隊(duì)列縮小,小時(shí)任務(wù)隊(duì)列放大夜晚,天任務(wù)隊(duì)列放大,小時(shí)任務(wù)隊(duì)列縮小關(guān)鍵任務(wù)確保隊(duì)列內(nèi)的最小隊(duì)列保證計(jì)算資源管理- Yarn實(shí)時(shí)運(yùn)行情況監(jiān)控優(yōu)點(diǎn)數(shù)據(jù)完全實(shí)時(shí)缺點(diǎn)展現(xiàn)不夠直觀無歷史時(shí)序數(shù)據(jù)計(jì)算資源管理(秒級(jí))- 數(shù)據(jù)獲取historylog通過實(shí)時(shí)計(jì)算框架,獲取每個(gè)application的明細(xì)執(zhí)行結(jié)果缺點(diǎn):任務(wù)完成后才能獲取到完整信息job api
11、通過api實(shí)時(shí)獲取到所有job的基礎(chǔ)信息比默認(rèn)rm的api提供更多字段信息,如sql信息缺點(diǎn):不是100%完整的數(shù)據(jù),定期獲取必然會(huì)丟失數(shù)據(jù)計(jì)算資源管理(秒級(jí))- 用戶查詢識(shí)別示例Thu Apr 21 18:48:01 CST 2016 jobname=-xxx.chen-qid:152011-.100(Stage-2) user=xxx.chen job_id=job_1459656116710_7806076 starttime=1461232053 exceed 3600 seconds,killing.計(jì)算資源管理(秒級(jí))-實(shí)時(shí)監(jiān)控task kill ratio計(jì)算資源管理(分鐘級(jí))-
12、 jmx數(shù)據(jù)來補(bǔ)充jmx: http:/%s:8088/jmx % (IP)返回格式:#name : Hadoop:service=ResourceManager,name=QueueMetrics,q0=root,q1=mapreduce,q2=xxx,q3=panda,#modelerType : QueueMetrics,q0=root,q1=mapreduce,q2=xxx,q3=panda,#tag.Queue : root.mapreduce.xxx.panda,#tag.Context : yarn,#tag.Hostname : xxxx,#running_0 : 0,#run
13、ning_60 : 0,#running_300 : 0,#running_1440 : 0,#FairShareMB : 0,#FairShareVCores : 0,#SteadyFairShareMB : 1228800,#SteadyFairShareVCores : 0,計(jì)算資源管理(分鐘級(jí))- 單個(gè)隊(duì)列監(jiān)控實(shí)例隊(duì)列分配紅線跑平 隊(duì)列等待藍(lán)線升高-結(jié)論,單個(gè)業(yè)務(wù)資源吃緊-需要增加最大可分配資源計(jì)算資源管理(分鐘級(jí))- resourcemanager metric監(jiān)控示例調(diào)整前: 高峰期app pending增加 凌晨任務(wù)1個(gè)小時(shí)任務(wù)延遲調(diào)整min后: 最大pending不超過100
14、pending很快下降計(jì)算資源管理(分鐘級(jí))- resourcemanager metric監(jiān)控示例高峰期資源需求增加,但是分配能力下降yarn分配能力受到影響,將問題加劇計(jì)算資源管理(分鐘級(jí))- 優(yōu)化展現(xiàn)集群總體資源分布情況最消耗資源的是什么任務(wù)實(shí)時(shí)/歷史的數(shù)據(jù)查看計(jì)算資源管理(分鐘級(jí))- 隊(duì)列總覽展現(xiàn)計(jì)算資源管理(分鐘級(jí))- 隊(duì)列總覽展現(xiàn)計(jì)算資源管理(天級(jí))- 離線資源使用查詢集群的資源使用場景時(shí)間/應(yīng)用/隊(duì)列維度的資源使用情況核心ETL任務(wù)近期map/reduce使用情況單個(gè)attempt的metrics指標(biāo)查看,如讀取超過1kw行數(shù)據(jù)的map任務(wù)等等計(jì)算資源管理(天級(jí))- 數(shù)據(jù)傾斜識(shí)別示例計(jì)算資源管理-計(jì)算資源優(yōu)化實(shí)例用更少的資源計(jì)算orcfile, 壓縮率更高,列式存儲(chǔ)降低資源消耗權(quán)衡資源和性能,基于record而不是size調(diào)整reduce數(shù)量基于hll的uv估算函數(shù),提供可增量的uv計(jì)算計(jì)算資源管理-計(jì)算資源優(yōu)化實(shí)例用更多的資源計(jì)算,更快的釋放sparksql,內(nèi)存需求高,復(fù)雜計(jì)算快presto/impala, 利用mpp框架提高計(jì)算性能計(jì)算資源管理-計(jì)算資源優(yōu)化實(shí)例不同隊(duì)列的資源使用上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年節(jié)能高效果汁濃縮設(shè)備項(xiàng)目申請(qǐng)報(bào)告模板
- 2025年個(gè)體之間土地轉(zhuǎn)讓策劃合同樣本
- 2025年倉儲(chǔ)租賃安全條款協(xié)議示范
- 2025年買賣雙方貨物運(yùn)輸合同書
- 2025年專賣店裝潢工程合同
- 2025年會(huì)員費(fèi)用結(jié)算示例協(xié)議
- 2025年公寓樓建筑項(xiàng)目合同示例
- 2025年企業(yè)員工租賃住房協(xié)議模版
- 2025年個(gè)人擔(dān)保契約協(xié)議書
- 2025年保安人員租賃合作協(xié)議
- 8.4+同一直線上二力的合成課件+2024-2025學(xué)年人教版物理八年級(jí)下冊(cè)
- 地質(zhì)災(zāi)害防治工程施工技術(shù)要點(diǎn)課件
- 防涉黃課件教學(xué)課件
- 家政公司服務(wù)員考試題庫單選題100道及答案解析
- 人工智能:AIGC基礎(chǔ)與應(yīng)用 課件 實(shí)訓(xùn)項(xiàng)目九 使用度加創(chuàng)作工具和剪映進(jìn)行智能化短視頻創(chuàng)作
- 企業(yè)人才招聘與選拔方法論研究
- 《日影的朝向及長短》課件
- 《MATLAB編程及應(yīng)用》全套教學(xué)課件
- GB/T 11263-2024熱軋H型鋼和剖分T型鋼
- 醫(yī)療器械軟件研究報(bào)告 適用嵌入式和桌面式 2023版
- 果園軌道運(yùn)輸施工方案
評(píng)論
0/150
提交評(píng)論