面向超萬卡集群的新型智算技術(shù)白皮書_第1頁
面向超萬卡集群的新型智算技術(shù)白皮書_第2頁
面向超萬卡集群的新型智算技術(shù)白皮書_第3頁
面向超萬卡集群的新型智算技術(shù)白皮書_第4頁
面向超萬卡集群的新型智算技術(shù)白皮書_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章:超萬卡集群背景與趨勢(shì) 11.1大模型驅(qū)動(dòng)智能算力爆發(fā)式增長(zhǎng) 11.2超萬卡集群的建設(shè)正在提速 1第二章:超萬卡集群面臨的挑戰(zhàn) 42.1極致算力使用效率的挑戰(zhàn) 42.2海量數(shù)據(jù)處理的挑戰(zhàn) 42.3超大規(guī)?;ヂ?lián)的挑戰(zhàn) 52.4集群高可用和易運(yùn)維挑戰(zhàn) 52.5高能耗高密度機(jī)房設(shè)計(jì)的挑戰(zhàn) 6第三章:超萬卡集群的核心設(shè)計(jì)原則和總體架構(gòu) 83.1超萬卡集群的核心設(shè)計(jì)原則 83.2超萬卡集群的總體架構(gòu)設(shè)計(jì) 8第四章:超萬卡集群關(guān)鍵技術(shù) 4.1集群高能效計(jì)算技術(shù) 4.2高性能融合存儲(chǔ)技術(shù) 4.3大規(guī)模機(jī)間高可靠網(wǎng)絡(luò)技術(shù) 4.4高容錯(cuò)高效能平臺(tái)技術(shù) 4.5新型智算中心機(jī)房設(shè)計(jì) 第五章:未來展望 縮略語列表 28參考文獻(xiàn) 291自ChatGPT面世以來,大模型步入了迅猛發(fā)展期,模型層出不窮,爆點(diǎn)頻出,大模型所使用的數(shù)據(jù)量和參數(shù)規(guī)模呈現(xiàn)“指數(shù)級(jí)”增長(zhǎng),2018年BERT模型參數(shù)量?jī)H有1.1億,到2021年GPT-3達(dá)到了1750億。隨著MixtureofExperts(MoE)[2]等先進(jìn)模型結(jié)構(gòu)的出現(xiàn),模型參數(shù)邁入萬億規(guī)模。預(yù)計(jì)在未來的2-3年,隨著Al大模型能力的不斷躍遷,使得超長(zhǎng)序列應(yīng)用、文生視頻、文生音頻等基于多模態(tài)活帶來了巨大影響。ChatGLM、LLaMA[3]、Gemini等大模型的發(fā)布更加堅(jiān)定了科技界持續(xù)摸高大模型能力天花板的決心;文生視頻多模態(tài)大模型Sora的問世更加引爆了行業(yè)熱點(diǎn),促使業(yè)界在大模型的技術(shù)、規(guī)模和應(yīng)用上不斷挖掘,以期能創(chuàng)造下一輪據(jù)公開信息報(bào)道,GPT-3訓(xùn)練所消耗的電力,相當(dāng)于美國(guó)約121個(gè)家庭一整年的用電量。GPT-4擁有16個(gè)專家模型共1.8萬億參數(shù),一次訓(xùn)練需要在大約25000個(gè)A100上訓(xùn)練90到100天。大模型對(duì)底層算力、空間、水電能源產(chǎn)生極大消耗,對(duì)新一代智算設(shè)施的設(shè)計(jì)要求也日益嚴(yán)苛。更高密度的算存硬件、高性能無阻塞的網(wǎng)絡(luò)連接以及更高并行度的通信和計(jì)算范式成為新一代智算中心的設(shè)計(jì)目標(biāo),新型智算中人工智能新紀(jì)元,算力為企業(yè)科技創(chuàng)新和轉(zhuǎn)型提供有力支撐。在全球化的科技競(jìng)爭(zhēng)格局中,領(lǐng)先的科技公司正積極部署千卡乃至超萬卡規(guī)模的計(jì)算集群,既是展現(xiàn)其在人工智能、數(shù)據(jù)分析、大模型研發(fā)等前沿領(lǐng)域的技術(shù)實(shí)力,也向外界展示了公司對(duì)2在國(guó)際舞臺(tái)上,諸如Google、Meta、Microsoft等科技巨頭推動(dòng)其在基座大模型、智能算法研發(fā)及生態(tài)服務(wù)等方面的技術(shù)創(chuàng)新。如Google推出超級(jí)計(jì)算機(jī)A3VirtualMachines,擁有26000塊NvidiaH100GPU,同時(shí)基于自研芯片搭建TPUv5p8960卡集群。Meta在2022年推出了一個(gè)擁有16,000塊NvidiaA100的Al研究超級(jí)集群AlResearchSuperCluster,2024年初又公布2個(gè)24576塊NvidiaH100集群,用于支持下一代生成式Al模型的成千上萬臺(tái)服務(wù)器組成的集群計(jì)算優(yōu)勢(shì),不斷優(yōu)化服務(wù)架構(gòu),提升用戶體驗(yàn),加速新在國(guó)內(nèi),通信運(yùn)營(yíng)商、頭部互聯(lián)網(wǎng)、大型Al研發(fā)企業(yè)、Al初創(chuàng)企業(yè)等均在超萬配套設(shè)施優(yōu)勢(shì),正加速推進(jìn)超萬卡集群智算中心的建設(shè)。這一舉措不僅為運(yùn)營(yíng)商自身的大模型研發(fā)提供強(qiáng)大的計(jì)算支持,同時(shí)也為政府、高校和企業(yè)客戶帶來了前所未有的高質(zhì)量智算服務(wù)。隨著智算中心建設(shè)的不斷深入,運(yùn)營(yíng)商站在連接技術(shù)創(chuàng)新與行業(yè)應(yīng)用的關(guān)鍵位置,其在推動(dòng)社會(huì)數(shù)字化轉(zhuǎn)型和智大數(shù)據(jù)分析和大模型研發(fā)等領(lǐng)域的突破。字節(jié)跳動(dòng)、阿里巴巴、百度為代表的互聯(lián)網(wǎng)公司在積極推進(jìn)超萬卡集群的建設(shè)。其中,字節(jié)跳動(dòng)搭建了一個(gè)12288卡Ampere架構(gòu)訓(xùn)練集群,研發(fā)MegaScale生產(chǎn)系統(tǒng)用于訓(xùn)練大語言模型[5]。通過集群的強(qiáng)大計(jì)算力,這些頭部互聯(lián)網(wǎng)公司不僅加速了自身業(yè)極投建超萬卡集群。這些公司作為人工智能領(lǐng)域的先行者,正積極投建超萬卡集群以滿足其大模型的計(jì)算需求。如科大訊飛,2023年建設(shè)成首個(gè)支持大模型訓(xùn)練的超萬卡集群算力平臺(tái)“飛星一號(hào)”。此類集群的建立,不僅為這3中移智庫些企業(yè)在Al領(lǐng)域的深入研究提供了必須的算力支撐(四)Al初創(chuàng)企業(yè)則更傾向于采取靈活的租用模式,利用已有的超萬卡集群來支持其創(chuàng)新項(xiàng)目。這些企業(yè)為了能夠?qū)崿F(xiàn)應(yīng)用和投入平衡,大多對(duì)基礎(chǔ)設(shè)施采取靈活的租用模式,利用超萬卡集群的強(qiáng)大計(jì)算能力來支持其創(chuàng)新項(xiàng)目。這種模式降低了初創(chuàng)企業(yè)的初始投資門檻,使他們能夠快速獲得高性能的計(jì)算資整體而言,無論是通信運(yùn)營(yíng)商、頭部互聯(lián)網(wǎng)企業(yè)、大型Al研發(fā)企業(yè)還是Al初創(chuàng)企業(yè),都在通過自建或使用超萬卡集群加速其在人工智能領(lǐng)域的技術(shù)突破和產(chǎn)業(yè)創(chuàng)新。隨著超萬卡集群建設(shè)的不斷深入,我們預(yù)見這一趨勢(shì)將為整個(gè)智算產(chǎn)業(yè)的發(fā)展帶4當(dāng)前,超萬卡集群的建設(shè)仍處于起步階段,主要依賴英偉達(dá)GPU及配套設(shè)備實(shí)現(xiàn)。英偉達(dá)作為全球領(lǐng)先的GPU供應(yīng)商,其產(chǎn)品在大模型訓(xùn)練上有較大優(yōu)勢(shì)。得益于政策加持和應(yīng)用驅(qū)動(dòng),國(guó)產(chǎn)Al芯片在這兩年取得長(zhǎng)足進(jìn)步,但在整體性能和生態(tài)構(gòu)建方面仍存在一定差距。構(gòu)建一個(gè)基于國(guó)產(chǎn)生態(tài)體系、技術(shù)領(lǐng)先的超萬卡集群仍面的訓(xùn)練對(duì)checkpoint的讀寫吞吐性能更是要求高達(dá)10TB/s,現(xiàn)有智算存儲(chǔ)系統(tǒng)在5中國(guó)移動(dòng)中移智庫和普通性能存儲(chǔ)集群之間遷移??缦到y(tǒng)的數(shù)據(jù)管理模型規(guī)模擴(kuò)大到萬億量級(jí),數(shù)據(jù)的吞吐量和計(jì)算量已遠(yuǎn)遠(yuǎn)超過目前最強(qiáng)單機(jī)單卡能力,多機(jī)多卡互聯(lián)和并行訓(xùn)練策略成為必須。以在超萬卡集群部署1.8萬億GPT-4為例,在大模型訓(xùn)練過程中,每輪迭代計(jì)算都涉及前反向傳播算法的計(jì)并行(PipelineParallel,PP)流量,參數(shù)面網(wǎng)絡(luò)帶寬需達(dá)到200Gbps至400Gbps,數(shù)據(jù)面網(wǎng)絡(luò)需要配備100Gbps帶寬,保證數(shù)據(jù)讀取不成為訓(xùn)練瓶頸。此外,參數(shù)面網(wǎng)絡(luò)還需要應(yīng)對(duì)因多租戶多任務(wù)并上下行ECMP(EqualCostMultiPath)選路不均衡而引發(fā)的高速大象流的交TP)的通信無法被計(jì)算掩蓋,不僅要求卡間互聯(lián)帶寬達(dá)到幾百甚至上千GB的量級(jí),而且應(yīng)突破當(dāng)前單機(jī)8卡的限制,以支持更大參數(shù)量的模型訓(xùn)練。超萬卡集群承載萬億模型訓(xùn)練意味著千萬器件的滿負(fù)荷高速運(yùn)轉(zhuǎn),任一部件不可千臺(tái)存儲(chǔ)設(shè)備以及數(shù)萬根光纖/數(shù)萬顆光模塊構(gòu)成,訓(xùn)練任務(wù)涉及千萬顆元器6件滿負(fù)荷高速運(yùn)轉(zhuǎn),基于固有的元器件硬件失效率和海量的器程,一旦發(fā)生問題定界定位復(fù)雜。業(yè)界典型硬件故障定位需1~2天,復(fù)雜應(yīng)用類故障定位可能長(zhǎng)達(dá)數(shù)十天??焖僮詣?dòng)定界定位能力需要結(jié)合實(shí)際運(yùn)維經(jīng)驗(yàn)伴隨集群規(guī)模的增長(zhǎng)越來越短,萬億大模型訓(xùn)練作業(yè)中斷群持續(xù)穩(wěn)定運(yùn)行僅數(shù)天,斷點(diǎn)續(xù)訓(xùn)恢復(fù)緩慢,直接影●在供電方面,當(dāng)芯片TDP設(shè)計(jì)功率上升至400~700W,單柜功率從原先的7~8KW上升至40KW甚至60KW,集群整體功耗將攀升至數(shù)十~上百M(fèi)W,入液冷方案,確保智算芯片的高速運(yùn)行,單機(jī)柜重量達(dá)1-2噸,對(duì)機(jī)房承重●在機(jī)房潔凈度方面,由于超萬卡集群參數(shù)面網(wǎng)絡(luò)使用大量100G、200G甚至400G的高速光模塊,高速光模塊本身是一個(gè)集成度極高的器件,裸露的光纖通道和內(nèi)部器件都比較脆弱,要盡可能避免落入灰塵,降低故障率。因此機(jī)房需要綜合考量制冷和通風(fēng)方案,在設(shè)備側(cè)保持較高的潔凈度標(biāo)準(zhǔn),確保后期集7中移智庫放量也隨之增大。以一個(gè)1.8萬卡的智算集群為例,需要布放10萬量級(jí)的線纜,這將對(duì)走線架的寬度和承重帶來新的挑戰(zhàn)。可見,超萬卡集群提出了對(duì)高壓直流供電技術(shù)、高效液冷散熱技術(shù)、超大規(guī)模網(wǎng)絡(luò)工程便捷落地的剛性需求。這就要求機(jī)房配套設(shè)施在建設(shè)之初,提前對(duì)機(jī)房供電、制冷、承重等進(jìn)行配套設(shè)計(jì),以更好的支撐超萬卡集群快速建設(shè)、便捷部署和長(zhǎng)期穩(wěn)8在大算力結(jié)合大數(shù)據(jù)生成大模型的發(fā)展路徑下,超萬卡集群的搭建不是簡(jiǎn)簡(jiǎn)單單的算力堆疊,要讓數(shù)萬張GPU卡像一臺(tái)“超級(jí)計(jì)算機(jī)”一樣高效運(yùn)轉(zhuǎn),超萬卡集群件滿負(fù)荷運(yùn)行系統(tǒng),持續(xù)提升MTBF和降低MTTR并實(shí)現(xiàn)自動(dòng)斷點(diǎn)超萬卡集群的總體架構(gòu)由四層一域構(gòu)成(如圖1),四層分別是機(jī)房配套、基礎(chǔ)9中移智庫應(yīng)用使能智算平臺(tái)基礎(chǔ)設(shè)施機(jī)房配套裸金屬實(shí)例虛擬機(jī)實(shí)例容器實(shí)例走線架設(shè)計(jì)高效供電承重設(shè)計(jì)風(fēng)冷液冷高效供電承重設(shè)計(jì)運(yùn)營(yíng)管理模塊編排調(diào)度計(jì)量計(jì)費(fèi)租戶隔離任務(wù)調(diào)度智算運(yùn)維故障檢測(cè)故障隔離性能調(diào)優(yōu)日志管理圖1面向超萬卡集群的新型智算總體架構(gòu)設(shè)計(jì)數(shù)據(jù)面、業(yè)務(wù)面、管理面獨(dú)立組網(wǎng),參數(shù)面/數(shù)據(jù)面采用大帶寬RoCE交換和二層無阻塞CLOS組網(wǎng)滿足大象流,支持參數(shù)面負(fù)載均衡和多租安全隔離;面向存儲(chǔ),引入資源進(jìn)行納管的基礎(chǔ)上,進(jìn)一步實(shí)現(xiàn)大規(guī)模集群的自動(dòng)化精準(zhǔn)故障管理,以達(dá)成高效訓(xùn)練、長(zhǎng)穩(wěn)運(yùn)行的目標(biāo)。面向未來,考慮集群中引入異廠家GPU芯片,為避免智算實(shí)現(xiàn)對(duì)通信和計(jì)算重疊的優(yōu)化、算子融合以及網(wǎng)絡(luò)性能的高效調(diào)優(yōu);另一方面,研發(fā)沉淀數(shù)據(jù)服務(wù)、模型部署開發(fā)等工具集,逐步實(shí)現(xiàn)由人工處理到基于工具對(duì)外提供自第四章:超萬卡集群關(guān)鍵技術(shù)隨著大模型從千億參數(shù)的自然語言模型向萬億參數(shù)的多模態(tài)模型升級(jí)演進(jìn),超萬卡集群亟需全面提升底層計(jì)算能力。具體而言,包括增強(qiáng)單芯片能力、提升超節(jié)點(diǎn)計(jì)算能力、基于DPU(DataProcessingUnit)實(shí)現(xiàn)多計(jì)算能力融合以及追求極致算力能效比。這些系統(tǒng)性的提升將共同支持更大規(guī)模的模型訓(xùn)練和推理任務(wù),滿足迅速增在單個(gè)GPU計(jì)算性能方面,首先需要設(shè)計(jì)先進(jìn)的GPU處理器,在功耗允許條件下,研發(fā)單GPU更多并行處理核心,努力提高運(yùn)行頻率。其次,通過優(yōu)化高速緩存設(shè)計(jì),減少GPU訪問內(nèi)存延遲,進(jìn)一步提升單GPU芯片運(yùn)行效率。第三,優(yōu)化浮點(diǎn)數(shù)表示格式,探索從FP16到FP8浮點(diǎn)數(shù)的表示格式,通過在芯片中引入新的存儲(chǔ)方式和精度,在保持一定精度條件下,大幅提升計(jì)算性能。最后,針對(duì)特定計(jì)算任務(wù),可在GPU芯片上集成定制化的硬件加速邏輯單元,這種基于DSA(Domain要求顯存支持高帶寬、大容量的能力,確保計(jì)算單元能夠高效完成訪存任務(wù),維持系統(tǒng)的低能耗運(yùn)行。為便捷訪問顯存數(shù)據(jù),建議GPU顯存采用基于2.5D/3D堆疊的HBM技術(shù)[6],減少數(shù)據(jù)傳輸距離,降低訪存延遲,提升GPU計(jì)算單通過這些技術(shù)的實(shí)施,超萬卡集群不僅能夠?yàn)橹撬阒行奶峁?qiáng)大的單卡算力處理針對(duì)萬億模型的訓(xùn)練與推理任務(wù),特別是在超長(zhǎng)序列輸入和MoE架構(gòu)的應(yīng)用背景下,應(yīng)重點(diǎn)優(yōu)化巨量參數(shù)和龐大數(shù)據(jù)樣本的計(jì)算效率,滿足由此引發(fā)的All2All通中移智庫信模式下的GPU卡間通信需求。為此,建議超萬卡集群的改進(jìn)策略集中在以下幾個(gè)●加速推進(jìn)超越單機(jī)8卡的超節(jié)點(diǎn)形態(tài)服務(wù)器為滿足萬億或更大參數(shù)量模型的部署需求,建議產(chǎn)業(yè)界致力于研制突破單機(jī)8卡限制的超節(jié)點(diǎn)形態(tài)服務(wù)器,通過利用提高GPU南向的Scaleup互聯(lián)能力,提升張量并行或MoE并行對(duì)大模型訓(xùn)練任務(wù)的收益,實(shí)現(xiàn)性能躍升,縮短訓(xùn)練總時(shí)長(zhǎng),實(shí)現(xiàn)大模型訓(xùn)練整體性能的優(yōu)化?!窦涌煲朊嫦騍caleup的Switch芯片建議在節(jié)點(diǎn)內(nèi)集成支持Scaleup能力的Switch芯片,以優(yōu)化GPU南向的互聯(lián)效率和規(guī)模,增強(qiáng)張量并行或MoE并行的數(shù)據(jù)傳輸能力。如圖2所示,通過引入節(jié)點(diǎn)內(nèi)的Switch芯片,以增強(qiáng)GPU卡間的點(diǎn)對(duì)點(diǎn)(PointtoPoint,P2P)帶寬,有效提升節(jié)點(diǎn)內(nèi)的網(wǎng)絡(luò)傳輸效率,滿足大模型日益增長(zhǎng)的GPU互聯(lián)和帶寬需求,為大規(guī)模并行計(jì)算任務(wù)提供強(qiáng)有力的硬件支持。GPU-0GPU-1GPU-0GPU-1GPU-4GPU-圖2在服務(wù)器內(nèi)部引入Switch芯片示例●優(yōu)化GPU卡間互聯(lián)協(xié)議以實(shí)現(xiàn)通信效率躍升建議對(duì)GPU卡間互聯(lián)協(xié)議進(jìn)行系統(tǒng)性優(yōu)化和重構(gòu),以提升All2All模式下的通信效率。通過重新設(shè)計(jì)卡間通信過程中的數(shù)據(jù)報(bào)文格式、引入CPO(Co-PackagedOptics)/NPO(NearPackagedOp控制和重傳機(jī)制以及多異構(gòu)芯片C2C(Chip-to-Chip)封裝等多種途徑,提高超萬卡集群的GPU卡間互聯(lián)的網(wǎng)絡(luò)利用率,減少通信時(shí)延,實(shí)現(xiàn)帶寬能力躍升,從而支持面向超萬卡集群,考慮到智算中心內(nèi)部成倍增長(zhǎng)的數(shù)據(jù)交換需求,通過堆疊CPU資源來處理網(wǎng)絡(luò)數(shù)據(jù)的做法無疑是低效且昂貴的,對(duì)此,智算中心的計(jì)算架構(gòu)需要轉(zhuǎn)變方向,將原本運(yùn)行在CPU、GPU中的數(shù)據(jù)處理任務(wù)卸載至具有層級(jí)化可編程、低具體地,可以對(duì)智算中心進(jìn)行軟硬一體重構(gòu),打造計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、安全、管●計(jì)算引擎卸載加速I/0設(shè)備的數(shù)據(jù)路徑與控制路徑,面向節(jié)點(diǎn)提供標(biāo)準(zhǔn)化的virtio-net(Virtuall/ONetwork)、virtio-blk(Virtiuall/Oblock)后端接口,屏蔽廠商專用●存儲(chǔ)引擎在DPU上實(shí)現(xiàn)存儲(chǔ)后端接口,可基于傳統(tǒng)TCP/IP網(wǎng)絡(luò)協(xié)議?;騌DMA(RemoteDirectMemoryAccess)網(wǎng)絡(luò)功能連接塊存儲(chǔ)集群、對(duì)象存儲(chǔ)集群、文流量的卸載,全線速釋放硬件性能;同時(shí)集成RDMA網(wǎng)絡(luò)功能,降低多機(jī)多卡間端到端通信時(shí)延,提升多機(jī)間端到端通信帶寬至400G級(jí)別,構(gòu)建節(jié)點(diǎn)間數(shù)據(jù)交換的●管控引擎屏蔽裸金屬、虛擬機(jī)和容器等算力單元的形態(tài)差異,實(shí)現(xiàn)DPU資源中移智庫●以上述五大引擎為藍(lán)圖,中國(guó)移動(dòng)于2020開始打造具有自主知識(shí)產(chǎn)權(quán)的磐石DPU,并于2021年正式推出磐石DPU版本。經(jīng)過移動(dòng)云現(xiàn)網(wǎng)的打磨,中國(guó)移動(dòng)持續(xù)升級(jí)磐石DPU產(chǎn)品能力,并于2024年將磐石DPU的FPGA架構(gòu)全面升級(jí)為ASIC架構(gòu),旨在圍繞磐石DPU軟硬融合重構(gòu)算力基礎(chǔ)設(shè)施,重新定義算力時(shí)代云計(jì)將以磐石DPU為代表的DPU芯片融入現(xiàn)有智算中心技術(shù)體系,將算力集群由CPU+GPU雙平臺(tái)支撐擴(kuò)展至由CPU+GPU+DPU三平臺(tái)支撐,可以有效聯(lián)合集群節(jié)點(diǎn)間因數(shù)據(jù)I/O瓶頸而產(chǎn)生的算力孤島,突破現(xiàn)有技術(shù)架構(gòu)下的集群規(guī)模極限,使超在制程工藝相對(duì)固定的條件下,芯片的高性能無疑會(huì)增加芯片的功耗,從而影響整機(jī)的散熱。面對(duì)高性能計(jì)算芯片功率密度急劇上升的現(xiàn)狀,需要通過制冷系統(tǒng)和在制冷系統(tǒng)方面,當(dāng)前單機(jī)8卡GPU服務(wù)器功耗已經(jīng)數(shù)倍于通用服務(wù)器,由于實(shí)現(xiàn)高性能與低能耗之間的平衡。在芯片工藝領(lǐng)域,建議采用更加先進(jìn)的半導(dǎo)體制造工藝,如7nm或更小的特征尺寸,以此降低晶體管的功耗,同時(shí)提升單芯片集成度。此外,應(yīng)加強(qiáng)超萬卡集群內(nèi)GPU架構(gòu)的創(chuàng)新設(shè)計(jì),包括優(yōu)化片上總線設(shè)計(jì)、改進(jìn)流水線結(jié)構(gòu)、優(yōu)化電壓和頻率策略以及精確的時(shí)鐘門控技術(shù),從而在不同工作狀態(tài)下實(shí)現(xiàn)最優(yōu)的能耗效率。在軟件層面,超萬卡集群應(yīng)采用更加精細(xì)的監(jiān)控和分析,實(shí)時(shí)跟蹤GPU的運(yùn)行數(shù)據(jù),并不斷優(yōu)化算法和工作負(fù)載分配,以實(shí)現(xiàn)更加均衡和高效的算力利用。通過上述設(shè)計(jì)和優(yōu)化,不僅能提高用戶的計(jì)算體驗(yàn),降低成本,也為智算中為了實(shí)現(xiàn)存儲(chǔ)空間高效利用、數(shù)據(jù)高效流動(dòng),并支持智算集群大規(guī)模擴(kuò)展,超萬卡集群應(yīng)采用多協(xié)議融合和自動(dòng)分級(jí)存儲(chǔ)技術(shù),提升智算數(shù)據(jù)處理效率,助力超萬卡超萬卡集群融合存儲(chǔ)底座承載Al全流程業(yè)務(wù)數(shù)據(jù)處理,兼容Al全流程工具鏈所需的NFS(NetworkFilePOSIX(PortableOperatingSystemInterface)等協(xié)議,支持各協(xié)議語義無損,達(dá)到與原生協(xié)議一樣的生態(tài)兼容性要求,在不同階段實(shí)現(xiàn)數(shù)據(jù)零拷貝和格式零轉(zhuǎn)換,確保前一階段的輸出可以作為后一階段的輸入,實(shí)現(xiàn)Al各階段協(xié)同業(yè)務(wù)的無縫對(duì)接,達(dá)到為滿足超萬卡集群大模型對(duì)于存儲(chǔ)高吞吐性能需求,基于全局文件系統(tǒng)技術(shù),可支持超3000節(jié)點(diǎn)擴(kuò)展規(guī)模,為大模型訓(xùn)練提供百PB級(jí)全閃存儲(chǔ)大集群能力,從閃實(shí)現(xiàn)存儲(chǔ)集群10TB/s級(jí)聚合吞吐帶寬、億級(jí)IOPS,智能算力利用率提升20%以上,大模型checkpoint恢復(fù)時(shí)長(zhǎng)從分鐘級(jí)提升至秒級(jí),同時(shí)對(duì)高價(jià)值智算存儲(chǔ)數(shù)據(jù)提供強(qiáng)一致性訪問和99.9999%可靠性能力。超萬卡集群數(shù)據(jù)量巨大,其中大部分是溫冷數(shù)據(jù),統(tǒng)籌考慮性能和成本因素,規(guī)劃普通性能、高性能兩類存儲(chǔ)集群。普通性能存儲(chǔ)集群使用混閃存儲(chǔ)介質(zhì),具備低成本和大容量?jī)?yōu)勢(shì),提供溫冷數(shù)據(jù)存儲(chǔ);高性能存儲(chǔ)集群使用全閃存儲(chǔ)介質(zhì),為大模型訓(xùn)練提供數(shù)據(jù)高吞吐能力,主要用于存放熱數(shù)據(jù)。為智算應(yīng)用高效管理和訪問數(shù)據(jù),兩類存儲(chǔ)集群應(yīng)該對(duì)外呈現(xiàn)統(tǒng)一命名空間,提供基于策略的數(shù)據(jù)自動(dòng)分級(jí)流動(dòng)能力,超萬卡集群網(wǎng)絡(luò)包括參數(shù)面網(wǎng)絡(luò)、數(shù)據(jù)面網(wǎng)絡(luò)、業(yè)務(wù)面網(wǎng)絡(luò)、管理面網(wǎng)絡(luò)。業(yè)務(wù)面網(wǎng)絡(luò)、管理面網(wǎng)絡(luò)一般采用傳統(tǒng)的TCP方式部署,參數(shù)面網(wǎng)絡(luò)用于計(jì)算節(jié)點(diǎn)之間參數(shù)交換,要求具備高帶寬無損能力。數(shù)據(jù)面網(wǎng)絡(luò)用于計(jì)算節(jié)點(diǎn)訪問存儲(chǔ)節(jié)點(diǎn),也有高帶寬無損網(wǎng)絡(luò)的訴求。超萬卡集群對(duì)參數(shù)面網(wǎng)絡(luò)要求最高,主要體現(xiàn)在四個(gè)方面:太網(wǎng)新一代智算中心網(wǎng)絡(luò)技術(shù),包括由中國(guó)移動(dòng)主導(dǎo)的全調(diào)度以太網(wǎng)(GlobalEthernetConsortium,UEC),兩者通過革新以太網(wǎng)現(xiàn)有通信棧,突破傳統(tǒng)以太網(wǎng)性能瓶頸,為后續(xù)人工智能和高性能計(jì)算提供高性能網(wǎng)絡(luò)。中國(guó)移動(dòng)也將加速推動(dòng)GSE根據(jù)不同的Al服務(wù)器規(guī)模,參數(shù)面網(wǎng)絡(luò)推薦采用Spine-Leaf兩層組網(wǎng)或胖樹Spine-Leaf兩層組網(wǎng)如圖3所示。每8臺(tái)Leaf交換機(jī)和下掛的Al服務(wù)器做為一個(gè)group,以group為單位進(jìn)行擴(kuò)展。在group內(nèi)部,推薦采用多軌方案將2號(hào)網(wǎng)口上連至Leaf2,依此類推,所有8號(hào)網(wǎng)口上連至Leaf8。Spine交換機(jī)和胖樹(Fat-Tree)組網(wǎng)由Leaf交換機(jī)、Spine交換機(jī)和Core交換機(jī)組成,如圖4所示。每8臺(tái)Leaf交換機(jī)和下掛的Al服務(wù)器做為一個(gè)group,8臺(tái)Leaf交換機(jī)又和上面N臺(tái)Spine交換機(jī)組成一個(gè)pod,胖樹組網(wǎng)以pod為單位進(jìn)行擴(kuò)展。在胖樹組網(wǎng)中,Spine交換機(jī)和Leaf交換機(jī)之間采用Fullmesh全連接,所有Spinel都Full-Mesh連接至第一組Core,所有Spine2都Full-Mesh連接至第二組Core,依次類推。Spine交換機(jī)和Leaf交換機(jī)上下行收斂比都為1:1。分布式高性能應(yīng)用的特點(diǎn)是“多打一”的Incast流量模型。對(duì)于以太交換機(jī),Incast流量易造成交換機(jī)內(nèi)部隊(duì)列緩存的瞬時(shí)突發(fā)擁塞甚至丟包,帶來應(yīng)用時(shí)延的增加和吞吐的下降,從而損害分布式應(yīng)用的性能。Al人工智能計(jì)算場(chǎng)景通常采用Notification)標(biāo)記,傳統(tǒng)方式的ECN門限值是通過手工配置的,這種靜態(tài)的ECN水線無法適配所有的業(yè)務(wù)流量模型;水線配置低了,頻繁進(jìn)行ECN通告,網(wǎng)絡(luò)吞吐上不來;水線配置高了,可能導(dǎo)致頻繁觸發(fā)PFC通過Al算法,根據(jù)網(wǎng)絡(luò)業(yè)務(wù)流量模型,計(jì)算出對(duì)應(yīng)的ECN水線配置,達(dá)到在保證無論是靜態(tài)ECN還是動(dòng)態(tài)ECN,本質(zhì)上都是被動(dòng)擁塞控制機(jī)制,通過反壓源端降低報(bào)文發(fā)送速度來保證網(wǎng)絡(luò)無損,實(shí)際上并沒有達(dá)到提升吞吐率效果,反而降低了GPU利用率。因此,中國(guó)移動(dòng)提出GSE技術(shù),通過全局動(dòng)態(tài)的主動(dòng)授權(quán)機(jī)制,從根本上最大限度消除網(wǎng)絡(luò)擁塞,減少網(wǎng)絡(luò)設(shè)備隊(duì)列資源的開銷,降低模型訓(xùn)練任務(wù)的長(zhǎng)Al人工智能計(jì)算場(chǎng)景的流量特征是流數(shù)少、單流帶寬大。傳統(tǒng)的ECMP(EqualCostMultiPath)是基于5元組的逐流HASH,在流數(shù)少的時(shí)候極易出現(xiàn)HASH不端口級(jí)負(fù)載均衡部署在Leaf交換機(jī)上,以源端口或目的端口作為數(shù)據(jù)流均衡的影響因子,在一個(gè)端口組內(nèi)將歸屬于不同端口的數(shù)據(jù)流均衡到本地出端口集合上,消信息通知給網(wǎng)絡(luò)控制器,網(wǎng)絡(luò)控制器結(jié)合已經(jīng)建立的整網(wǎng)拓?fù)湫畔?,進(jìn)行整網(wǎng)最優(yōu)轉(zhuǎn)發(fā)路徑計(jì)算,計(jì)算完成后自動(dòng)生成路徑并動(dòng)態(tài)下發(fā)到網(wǎng)絡(luò)設(shè)備,實(shí)現(xiàn)多任務(wù)全網(wǎng)負(fù)載均衡。使網(wǎng)絡(luò)吞吐可以達(dá)到95%以上,接近滿吞吐。超萬卡集群中網(wǎng)絡(luò)作為業(yè)務(wù)流量的調(diào)度中樞,其穩(wěn)定性決定著整個(gè)集群的運(yùn)行效通過感知端口狀態(tài)、路由收斂、轉(zhuǎn)發(fā)路徑切換等操作,完成流量從故障鏈路到備用鏈路的收斂。但是這個(gè)時(shí)間一般在秒級(jí)。然而在Al場(chǎng)景里面,每次通信時(shí)間在毫秒級(jí)別,秒級(jí)時(shí)間內(nèi)正常情況下已完成了多輪通信。如果依靠傳統(tǒng)的路由收斂方式,將極DPFR(DataPlaneFastRecovery)技術(shù)在此場(chǎng)景下,可以做到毫秒級(jí)收斂,提供基于數(shù)據(jù)面的本地快收斂或遠(yuǎn)程快收斂。特性包含故障快速感知,故障本地快速收斂,故障通告生成、接收和中繼處理,故障遠(yuǎn)程快速收斂和表項(xiàng)老化處理。針對(duì)關(guān)鍵應(yīng)用,盡量做到應(yīng)用無感知的故障快速收斂效果,即在鏈路故障發(fā)生時(shí)業(yè)務(wù)性能無明智算平臺(tái)是智算中心承載模型訓(xùn)練、推理和部署的綜合性平臺(tái)系統(tǒng),在智算中心技術(shù)體系架構(gòu)中承擔(dān)著重要的角色,對(duì)算力基礎(chǔ)設(shè)施進(jìn)行統(tǒng)一納管、調(diào)度、分配和全生命周期管理,主要包含對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等laaS資源的云化管控,在此基礎(chǔ)上通過云原生的容器底座能力,實(shí)現(xiàn)智算資源納管分配、Al任務(wù)作業(yè)調(diào)度、拓?fù)涓兄{(diào)隨著模型參數(shù)量和數(shù)據(jù)量的激增,訓(xùn)練所需的單集群規(guī)模來到萬級(jí),但是智算平臺(tái)的性能通常不能隨著算力線性增長(zhǎng),而是會(huì)出現(xiàn)耗損,因此大模型訓(xùn)練還需要高效的算力調(diào)度來發(fā)揮算力平臺(tái)的效能。而這不僅需要依賴算法、框架的優(yōu)化,還需要借助高效的算力調(diào)度平臺(tái),根據(jù)算力集群的硬件特點(diǎn)和計(jì)算負(fù)載特性實(shí)現(xiàn)最優(yōu)化的算力調(diào)度,來保障集群可靠性和計(jì)算效率。針對(duì)以上問題,業(yè)界多以斷點(diǎn)續(xù)訓(xùn)、并行計(jì)算4.4.1斷點(diǎn)續(xù)訓(xùn)高容錯(cuò)能力中移智庫大模型訓(xùn)練面臨的困難在于確保訓(xùn)練任務(wù)能夠持續(xù)進(jìn)行而不中斷。在訓(xùn)練過程中,可能會(huì)遇到硬件故障、軟件故障、網(wǎng)絡(luò)故障以及其他故障。這種頻繁中斷導(dǎo)致的訓(xùn)練進(jìn)度的損失對(duì)于耗時(shí)又耗資源的大模型訓(xùn)練來說是難以承受的,需要具備自動(dòng)故障檢測(cè)和訓(xùn)練重啟。當(dāng)前業(yè)界大模型訓(xùn)練主要容錯(cuò)方案依賴于訓(xùn)練過程中周期性保存checkpoint,故障發(fā)生后從上一個(gè)周期性checkpoint重新啟動(dòng)訓(xùn)練?;谄脚_(tái)的運(yùn)維監(jiān)控能力,可以實(shí)現(xiàn)對(duì)超萬卡集群的軟硬件故障檢測(cè)和預(yù)警,但是當(dāng)故障發(fā)生且導(dǎo)致模型訓(xùn)練中斷或停止時(shí),通常需要人工介入排查故障信息,隔離故障并重新觸發(fā)容器pod資源調(diào)度,重新完成并行訓(xùn)練中集合通信的初始化,重新加載基于中斷前最近一次保存的checkpoint信息,最后經(jīng)歷算子庫的重新編譯,完成訓(xùn)練任務(wù)的繼續(xù)。圖5為典型的斷點(diǎn)續(xù)訓(xùn)流程:判斷是否可熱恢復(fù)中否是在斷點(diǎn)續(xù)訓(xùn)過程中,checkpoint是模型中斷訓(xùn)練后恢復(fù)的關(guān)鍵點(diǎn),因此checkpoint密集程度、保存和恢復(fù)的性能尤為重要,checkpoint本身的耗時(shí)與模型鐘到十幾分鐘之間。此時(shí),訓(xùn)練任務(wù)需要暫停,使得用戶難以頻繁進(jìn)行checkpoint為解決該問題,需要盡量降低checkpoint流程的開銷,既能大幅降低訓(xùn)練暫停時(shí)間,也能支持高頻的checkpoint來減少容錯(cuò)時(shí)浪費(fèi)的迭代步數(shù)。業(yè)界通常采用checkpoint多級(jí)存儲(chǔ)的方式,構(gòu)建基于更高IO性能的內(nèi)存介質(zhì)構(gòu)建存儲(chǔ)系統(tǒng),相比等待時(shí)間。同時(shí),結(jié)合業(yè)務(wù)需求定期地將checkpoint異步寫入到持久化的存儲(chǔ)系統(tǒng)中,異步流程不干擾正常的訓(xùn)練。當(dāng)發(fā)生故障導(dǎo)致訓(xùn)練任務(wù)重啟時(shí),由于內(nèi)存系統(tǒng)中的checkpoint數(shù)據(jù)并未丟失,新啟動(dòng)的訓(xùn)練進(jìn)程可以直接讀取內(nèi)存系統(tǒng)中的斷點(diǎn)續(xù)訓(xùn)基于多級(jí)checkpoint存儲(chǔ)、軟硬件協(xié)同優(yōu)化以及全棧系統(tǒng)級(jí)容錯(cuò),實(shí)現(xiàn)訓(xùn)練任務(wù)分鐘級(jí)恢復(fù),在技術(shù)價(jià)值方面,實(shí)現(xiàn)故障檢測(cè)、故障隔離、資源重調(diào)度、訓(xùn)練任務(wù)恢復(fù)無人工全流程自動(dòng)化;在商業(yè)價(jià)值方面,作為智算平臺(tái)關(guān)鍵特性提供給搭建用于并行處理深度學(xué)習(xí)模型分布式訓(xùn)練任務(wù)的工具集合,其將訓(xùn)練任務(wù)劃分為多個(gè)子任務(wù),通過在多臺(tái)計(jì)算機(jī)上并行執(zhí)行,實(shí)現(xiàn)高效、可靠和快速的分布式大模型訓(xùn)超萬卡集群因節(jié)點(diǎn)數(shù)眾多、資源類型不統(tǒng)一、數(shù)據(jù)量大、網(wǎng)絡(luò)環(huán)境復(fù)雜,給大模與標(biāo)稱最大吞吐量之比,是評(píng)估模型訓(xùn)練效率的通用指標(biāo),可以直接反映端到端的訓(xùn)練效率。為了訓(xùn)練大模型,需要將模型分布為多個(gè)GPU上,并且中移智庫GPU之間需進(jìn)行大量通信。除了通信之外,如操作符優(yōu)化、數(shù)據(jù)預(yù)處理和GPU內(nèi)存消耗等因素對(duì)MFU也有著顯著影響。挑戰(zhàn)二:實(shí)現(xiàn)訓(xùn)練的高穩(wěn)定性,即在整個(gè)過程中保持高效率訓(xùn)練。在大模型訓(xùn)練中,穩(wěn)定性十分重要,失敗和延遲雖是大模型訓(xùn)練中的常態(tài),但其故障成本極高,如何縮短故障恢復(fù)時(shí)間至關(guān)重要。目前分布式并行框架在進(jìn)行模型訓(xùn)練時(shí)流程如下:圖6分布式并行訓(xùn)練流程其中,每個(gè)步驟都涉及到影響模型運(yùn)行效率的問題。針對(duì)如上步驟,超萬卡集群分布式框架需針對(duì)以上流程進(jìn)行優(yōu)化,且支持更多類型的模型加速訓(xùn)練技術(shù),如自動(dòng)并行方案生成、自動(dòng)觸發(fā)計(jì)算圖優(yōu)化,數(shù)據(jù)流水線管理等?!褡詣?dòng)3D并行策略:支持基礎(chǔ)數(shù)據(jù)并行、模型并行及流水線并行的一種或多●自動(dòng)并行方案生成:根據(jù)模型結(jié)構(gòu)及參數(shù)量、現(xiàn)有硬件資源拓?fù)淝闆r、網(wǎng)絡(luò)帶寬等信息,以通信代價(jià)最小為目標(biāo),自動(dòng)生成配置模型訓(xùn)練過程的最優(yōu)3D并行參數(shù)被目前主流框架如TensorFlow和PyTorch所使用或者作為標(biāo)準(zhǔn)文件格式來導(dǎo)出模型。計(jì)算圖的執(zhí)行效率極大程度上影響代碼執(zhí)行效率。構(gòu)建高效算子庫,預(yù)置算子融合庫,設(shè)計(jì)子圖替換規(guī)則,以計(jì)算圖在節(jié)點(diǎn)間的計(jì)算通信信息為輸入,盡量使每個(gè)節(jié)度訓(xùn)練等,通過綜合使用多種顯存優(yōu)化方法,降低顯存消耗,提高大模型訓(xùn)練的穩(wěn)定隨著智算集群規(guī)模不斷擴(kuò)大,集群運(yùn)維管控與集群應(yīng)用之間的矛盾日益凸顯。隨著單集群的Al加速卡數(shù)量從從千級(jí)增長(zhǎng)到萬級(jí),相應(yīng)的故障范圍擴(kuò)大超過10倍。亟需引入新的運(yùn)維理念和技術(shù),以集群全鏈路可視化監(jiān)控、故障快速定位和運(yùn)維側(cè)快超萬卡集群智能運(yùn)維系統(tǒng)需要具備算、網(wǎng)、存協(xié)同管理的端到端系統(tǒng)運(yùn)維管理能力,包括計(jì)算設(shè)備、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備、光模塊設(shè)備管理、控制以及分析等全生命新的集群智能運(yùn)維管理系統(tǒng)從底層建設(shè)開始應(yīng)具備統(tǒng)一的容器化平臺(tái)與公共技術(shù)底座。系統(tǒng)南向的實(shí)現(xiàn)應(yīng)采用統(tǒng)一的采集框架,統(tǒng)一對(duì)被管理的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、光模塊單元進(jìn)行資源、性能、告警、日志、拓?fù)涞刃畔⒌牟杉⒋娣诺郊袛?shù)據(jù)底座中。運(yùn)維系統(tǒng)應(yīng)構(gòu)建公共的服務(wù)及數(shù)據(jù)底座,為整個(gè)系統(tǒng)提供基礎(chǔ)服務(wù)及數(shù)據(jù)存儲(chǔ)能力,并基于容器化平臺(tái)與公共技術(shù)底座構(gòu)建基礎(chǔ)的公共服務(wù),提供資源管理、服務(wù)中移智庫集群計(jì)算智能運(yùn)維管理系統(tǒng)在實(shí)際業(yè)務(wù)布局中應(yīng)具備與Al作業(yè)任務(wù)密切相關(guān)的作業(yè)路徑需支持展示與訓(xùn)練作業(yè)相關(guān)的資源視圖,包括參數(shù)面交換機(jī)、智算服務(wù)管理與訓(xùn)練作業(yè)相關(guān)的資源和關(guān)鍵數(shù)據(jù)。作業(yè)路徑可視的業(yè)務(wù)范圍包括訓(xùn)練作業(yè)關(guān)聯(lián)資源管理,支持填寫訓(xùn)練作業(yè)ID,查詢關(guān)聯(lián)資源,管理作業(yè)分布資源并查看相關(guān)Issue和KPI指標(biāo)。支持可視化展示作業(yè)鏈路的設(shè)備運(yùn)行狀態(tài),動(dòng)態(tài)評(píng)估任務(wù)路徑的環(huán)境健康檢查包括集群環(huán)境健康檢查和作業(yè)運(yùn)行前環(huán)境檢查兩種類型,均與Al作業(yè)訓(xùn)練的環(huán)境準(zhǔn)備相關(guān)。集群環(huán)境健康檢查:對(duì)集群環(huán)境進(jìn)行全面檢查,規(guī)避軟硬件問題。對(duì)集群軟硬件、環(huán)境配置及性能進(jìn)行健康評(píng)估,并輸出完整報(bào)告。作業(yè)運(yùn)行對(duì)執(zhí)行失敗的作業(yè)進(jìn)行智能故障診斷定界,分析全鏈路影響因子,基于作業(yè)運(yùn)行環(huán)境日志進(jìn)行診斷,覆蓋常見軟件棧報(bào)錯(cuò),同時(shí)對(duì)計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)域的告警、故障進(jìn)行時(shí)空關(guān)聯(lián)分析,實(shí)現(xiàn)多種典型故障的實(shí)時(shí)診斷?;贏l訓(xùn)練場(chǎng)景搭建故障知識(shí)提供作業(yè)集群管理能力,包括集群名稱、狀態(tài)、計(jì)算節(jié)點(diǎn)個(gè)數(shù)等信息。支持對(duì)集提供集群內(nèi)計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)、光模塊等全量設(shè)備的靜態(tài)數(shù)據(jù)錄入、采集和管理能力,能夠快速檢索查看設(shè)備的詳細(xì)信息,提升Al集群資源的管理效率。支持將服務(wù)器設(shè)備添加到智能運(yùn)維管理系統(tǒng)進(jìn)行統(tǒng)一管理,監(jiān)控資源、告警、性能數(shù)據(jù),提升動(dòng)態(tài)評(píng)估和監(jiān)控軟硬件、作業(yè)的運(yùn)行狀態(tài),提供監(jiān)控分享告警、日志分析與檢索,快面向高密度高能耗智能算力發(fā)展,對(duì)于部署超萬卡集群的新型智算中心來說,需敏捷部署、綠色低碳等特征,并實(shí)現(xiàn)智能化運(yùn)維管理。新型智算中心機(jī)房的關(guān)鍵要素智算中心催生了海量算力需求,芯片TDP不斷攀升,風(fēng)冷難以散熱,同時(shí)也帶來總功耗不斷增加,散熱和能耗成為智算中心迫在眉睫的問題,液

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論