版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
01云原生智算服務關鍵技術 02智算服務可觀測需求與挑戰(zhàn)智算服務可觀測Pipeline智算服務可觀測Pipeline技術實踐 03下一代可觀測Pipeline 05未來展望?AI在計算機視覺、語音、?AI在計算機視覺、語音、NLP等領域取得突破,已深入影響各行各業(yè),并催生出了自動駕駛等領域。?AI服務上云形成趨勢,深度學習/AIGC應用廣泛采用容器等云原生技術。深度學習的特點深度學習的特點?持續(xù)迭代優(yōu)化–梯度下降,超參數(shù)調(diào)優(yōu),Prompt工程?任務長時運行–小時/天/周/月?消耗海量數(shù)據(jù)和大量算力AI工程中的計算需求常常具有高度的動態(tài)性,如模型訓練和推理AI工程通常涉及多個團隊,不同任務需要獨立的資源隔離,避免環(huán)境一致性海量小文件數(shù)據(jù)集讀取?資源管理分散?資源管理分散、資源利開發(fā)模型訓練模型發(fā)布模型AI工程平臺GPU池存儲池到2025年,接近50%的企業(yè)內(nèi)部的數(shù)據(jù)密集型或性能密集型計算工作負載都將遷移到云云原生AI云原生AIAI異構工作負載TensorflowPytorchTensorflowPytorchDeepspeedHuggingfaceLangchain統(tǒng)一工作流,統(tǒng)一工作流,統(tǒng)一調(diào)度統(tǒng)一管理統(tǒng)一管理模型訓練可觀測人工智能平臺PAI(PaaS)模型推理可觀測模型訓練可觀測人工智能平臺PAI(PaaS)模型推理可觀測容器服務ACK(CaaS)智算服務PAI-靈駿(IaaS)生態(tài)擴展、集成工具鏈、APIAI作業(yè)生命周期管理高性能計算、存儲、網(wǎng)絡容器平臺云計算、存儲、網(wǎng)絡等資源異構,數(shù)據(jù)豐富度與時效性要求高。可觀測數(shù)據(jù)異構:不同的模型的觀測計算、存儲、網(wǎng)絡等資源異構,數(shù)據(jù)豐富度與時效性要求高。可觀測數(shù)據(jù)異構:不同的模型的觀測?可觀測數(shù)據(jù)采集的隔離性?全面的數(shù)據(jù)采集能力、靈活的數(shù)據(jù)處理彈性:工作負載增刪頻繁、生命周期不確定、流量突發(fā)大據(jù)大,擴容速度10kpod/min源變動等,需要彈性保證訓練連續(xù)性化實現(xiàn)擴縮容集群規(guī)模大?分布式訓練多個節(jié)點協(xié)同工作,可觀測數(shù)據(jù)一致性?跨地域/多集群的穩(wěn)定性與可管控性?強大的彈性能力?性能好、資源開銷低、穩(wěn)定可靠?支持多租?管控能力強,易用LoongCollectorLoongCollector是一款集卓越性能 iLogtail 服務發(fā)現(xiàn)LoongcollectorTelemetry一個輕量、高效、穩(wěn)定、可靠的架構,能夠?qū)崿F(xiàn)高吞吐量,Agent采集速率參數(shù):logs-per-15Vector4488645iLogtailiLogtail在采集速率上優(yōu)勢明顯?!薄缎阅芘c可靠的超強碰撞!第三方測評基于時間片調(diào)度ZeroCopy:減少內(nèi)存拷貝Schema固定(where/extend)Schema-free處理Schema固定(where/extend)Schema-free處理(project-away/keep)Schema-free處理(parsejson/csv/regex)TaskTaskTaskTaskTask開放的管控協(xié)議百萬級機器管控、靈活分組及采集配置分發(fā)支持采集配置、進程配置、自定義命令開放的管控協(xié)議百萬級機器管控、靈活分組及采集配置分發(fā)支持采集配置、進程配置、自定義命令商業(yè)版管控(百萬級機器管控,企業(yè)級穩(wěn)定性)開源版管控服務(完全開源,可自由擴展)托管版管控服務(免運維,敬請期待)任何遵守開源管控協(xié)議v2的自有實現(xiàn)管控IP型機器組IP型機器組標識型機器組(相同user_defined_id)增強型機器組(基于ECS屬性,即將支持)言法SPL處理/編排VRL力現(xiàn)無無無力強中中后續(xù)通過eBPF能力持續(xù)中強中低中列t機制.列型GPUGPUGPUGPUGPUGPURoCERDMA網(wǎng)絡并行文件存儲并行文件存儲CPFS云產(chǎn)品用戶Target1Target2Target3…云產(chǎn)品用戶Target1Target2Target3…Worker管理、服務發(fā)現(xiàn)、負載均衡、水平擴容、平滑升級采集目標TargetN?MetricsServer云產(chǎn)品工程師容器GPU容器GPU監(jiān)控能力GPU壞卡狀態(tài)檢測多集多卡AIGPU壞卡狀態(tài)檢測多集多卡AI訓練,存儲時延增加導致GPU等待高性能計算,重負載情況下時延增加,毛刺增多高性能計算,重負載情況下時延增加,毛刺增多K8s每個Node部署一個日志Agent。負責采集當前Node所有容器標準輸出、文件日志或宿主機文件。一個POD中運行一個Sidecar僅采集該POD內(nèi)業(yè)務容器產(chǎn)生的文件日志。Logging-E.g.Ingress Logging-AuditLogging–ApplicationLogsLaongLaongcollector樣例通過字節(jié)流解析應用層協(xié)議,屏蔽了編程語言和編程框架的影響,大幅減少開發(fā)的復雜度。集群網(wǎng)絡拓撲-連通性診斷Thread1Thread1……Thread1Thread1Thread1 ……Thread8…?LoongCollector單機極限性能?極簡模式440M/s?多行切分模式400M/s?客戶端?服務器資源?LoongCollector?LoongCollector整體狀態(tài)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 嶺南師范學院《因明學發(fā)展史》2023-2024學年第一學期期末試卷
- 2024年度國際貨物銷售合同:出口商與國外分銷商之間的商品交易3篇
- 2024年墻紙軟包材料供銷合同及新型材料研發(fā)與應用3篇
- 2024年中國香蘭素市場調(diào)查研究報告
- 門面房租賃合同
- 2024年墻紙環(huán)保材料研究與市場推廣合同3篇
- 1 草原 教學實錄 -2024-2025學年統(tǒng)編版語文六年級上冊
- 三室一廳房屋短期租賃合同
- 2024年汽車租賃掛靠合同3篇
- 2024版二手房出售含物業(yè)費結算及過戶手續(xù)服務合同2篇
- 心理健康教育主題班會課件(共38張)
- 五年級上冊《勞動與技術》期中期末復習測試卷(附答案)
- 了解世界各大宗教的信仰
- 一例縫線傷口延遲愈合患者的個案護理體會
- 自然資源數(shù)據(jù)平臺建設需求
- (完整)中小學教師職稱評定答辯題
- 電工高級工理論題庫(帶答案)
- 沈從文先生在西南聯(lián)大全文
- 訴訟前和解申請書
- 自然辯證法概論-第4章(2018新大綱)
- 市場營銷(第2版) 課件 王永貴 第1、2章-市場與市場營銷概述及發(fā)展、營銷環(huán)境與市場感知
評論
0/150
提交評論