2023AI服務(wù)器技術(shù)規(guī)范_第1頁
2023AI服務(wù)器技術(shù)規(guī)范_第2頁
2023AI服務(wù)器技術(shù)規(guī)范_第3頁
2023AI服務(wù)器技術(shù)規(guī)范_第4頁
2023AI服務(wù)器技術(shù)規(guī)范_第5頁
已閱讀5頁,還剩172頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

AI服務(wù)器技術(shù)規(guī)范(2023年)I前 言在當(dāng)前快速發(fā)展的信息時代,人工智能(AI)已經(jīng)成為引領(lǐng)科技革命和產(chǎn)業(yè)升級的重要引擎。AIAIAIODCCAI白皮書,對AIAI評測指標(biāo)、發(fā)展趨勢等方面進(jìn)行了詳細(xì)的梳理,以期更進(jìn)一步推動AIAIAI計算機視覺、自然語言處理等應(yīng)用領(lǐng)域中的關(guān)鍵作用。我們將對當(dāng)AIAI以及其對于數(shù)字經(jīng)濟、科技創(chuàng)新和產(chǎn)業(yè)轉(zhuǎn)型的深遠(yuǎn)影響。通過深入AI未來的重要地位,為推動人工智能技術(shù)的發(fā)展和應(yīng)用創(chuàng)造更加有利的條件。同時,本白皮書也旨在為相關(guān)領(lǐng)域的決策者、研究者和從VV目 錄版權(quán)明 I編寫組 II前言 V一、研究背景 1二、人工智能發(fā)展歷程 2三、大模型時代的開挑戰(zhàn) 7(一)訓(xùn)大型涌現(xiàn)強工能光現(xiàn) 9(二)ChatGPT發(fā)AI產(chǎn)業(yè)新開大型紀(jì)元 12(三)內(nèi)廠布模型千級數(shù)推算力求長 20四、AI服務(wù)器核心需求 22(一)行理力展 23(二)計力配性能儲 25(三)持速據(jù)的互網(wǎng)絡(luò) 26(四)散熱 27五、AI服務(wù)器架構(gòu)及鍵技術(shù) 27(一)AI服器體構(gòu) 29(二)構(gòu)算速芯片 31GPU:AI力核心 32FPGA 47ASIC 54(三)板線 61PCIe/PCIeSwitch 61NVlink/NVSwitch 68商案 76(四)布訓(xùn)練 82群絡(luò) 83群儲 95(五)冷術(shù) 106冷術(shù)景 106冷術(shù)展 107(六)1171.1182.118中供電 120六、典型AI服務(wù)器配置 122(一)為Atlas800 122型置 123術(shù)點 124(二)為Atlas900PoD群礎(chǔ)元 124型置 125術(shù)點 126(三)科控X7840H0 127型置 127術(shù)點 128(四)暢X660G45LP 128型置 129術(shù)點 130(五)潮NF5698G7 130型置 131術(shù)點 131(六)H3CUniServerR5500G6 132型置 133術(shù)點 134七、行業(yè)情況分析 135(一)業(yè)狀 135能力業(yè)狀政策撐新市前廣闊 135AI務(wù)行現(xiàn)中國場軍創(chuàng)驅(qū)未來 140AI片業(yè)狀術(shù)蓬發(fā),場速張 142(二)業(yè)勢 145術(shù)新造AI器未來 145業(yè)態(tài)設(shè)造AI服務(wù)市格局 147元體作動AI服務(wù)的來 149色持是AI器未的向 152準(zhǔn)動AI服的未發(fā)展 155(三)用踐 157AI務(wù)在算的應(yīng)實踐 157AI務(wù)在興中的用 160AI務(wù)在型的應(yīng)實踐 162PAGEPAGE10AI服務(wù)器白皮書(2023年)一、研究背景人工智能是當(dāng)下熱點,作為計算能力的主要提供者,面向人工智能的服務(wù)器技術(shù)再次成為業(yè)界關(guān)注的焦點。隨著大模型的興起和深度學(xué)習(xí)等復(fù)雜任務(wù)的崛起,AI服務(wù)器需求日益增長。AI服務(wù)器不僅需要具備高性能計算能力,還需要應(yīng)對大規(guī)模數(shù)據(jù)處理和存儲的挑戰(zhàn),以及高速數(shù)據(jù)通信和互連的需求。此外,超大規(guī)模集群是大模型訓(xùn)練不可忽視的關(guān)鍵要素。AI服務(wù)器在各個領(lǐng)域發(fā)揮著重要作用,為數(shù)字經(jīng)濟的高速發(fā)展提供了強大的支撐。首先,AI服務(wù)器為數(shù)據(jù)的處理和分析提供了高效的計算能力,加速了數(shù)字經(jīng)濟中海量數(shù)據(jù)的挖掘和利用過程。例如在金融領(lǐng)域,AI服務(wù)器通過深度學(xué)習(xí)等技術(shù),實現(xiàn)了更精準(zhǔn)的風(fēng)險評估和投資決策,為金融業(yè)務(wù)提供了更有競爭力的服務(wù)。其次,AI服務(wù)器推動了人工智能技術(shù)在各個行業(yè)的應(yīng)用與落地。在醫(yī)療領(lǐng)域,AI服務(wù)器助力醫(yī)療影像診斷和藥物研發(fā),提高了醫(yī)療效率和準(zhǔn)確性。同時,AI服務(wù)器也促進(jìn)了科技創(chuàng)新的發(fā)展,為科學(xué)家們提供了強大的計算支持,加速了科技突破和創(chuàng)新的進(jìn)程。隨著AIAI戰(zhàn)。一方面,AI不斷增長的計算需求。另一方面,AI成為關(guān)鍵,以提升計算效率和性能。此外,AI服務(wù)器在數(shù)據(jù)安全和隱私保護(hù)方面也面臨挑戰(zhàn),需要在保證計算性能的同時,保障數(shù)據(jù)的安全和隱私。二、人工智能發(fā)展歷程人工智能(ArtificialIntelligence,AI),是研究、開發(fā)用于模擬、延伸和擴展人類智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的前沿綜合性學(xué)科。從上世紀(jì)30-40年代開始,人工智能從早期的數(shù)理邏輯萌芽,到后來的專家系統(tǒng),再到神經(jīng)網(wǎng)絡(luò)的出現(xiàn),幾經(jīng)起落,直到最近這輪以Transformer為基礎(chǔ)的人工智能浪潮,算力需求一直是推動人工智能發(fā)展的主要動力。第一階段:萌芽階段(1956年以前)1956年以前,數(shù)學(xué)、邏輯、計算機等理論和技術(shù)方面的研究為人工智能的出現(xiàn)奠定了基礎(chǔ)。十七世紀(jì)法國物理學(xué)家、數(shù)學(xué)家B.Pascal制成了世界上第一臺會演算的機械加法器。十八世紀(jì)德國數(shù)Leibnitz1934W.McCulloch和W.Pitts建立了第一個神經(jīng)網(wǎng)絡(luò)模型,為以后的人工神經(jīng)網(wǎng)絡(luò)研究奠定了基礎(chǔ)。英A.M.Turing19361950靈測試,被譽為“人工智能之父”。1946年美國科學(xué)家J.W.MauchlyEckert機ENIAC,之后VonNeumann第二階段:誕生及第一個興旺階段(1956年-1973年)1956人工智能的研究方向和學(xué)科,并推動了全球第一次人工智能浪潮的出現(xiàn)。這段時期研究的主要方向是機器翻譯、定理證明、博弈等,1957Simon等開發(fā)了最早的一種AIIPL(InformationProcessingLanguage);1959年,A..M.SamuelA..M.Samuel本人;1960McCarthyLISP;1964STUDENT;1965J.RobinsonMITELIZA(internationalConferencesOnArtificialIntelligence)成立,它標(biāo)志著人工智能這門新興學(xué)科得到了世界范圍的公認(rèn)。在當(dāng)時,一系列的成功使人工智能科學(xué)家們認(rèn)為可以研究和總結(jié)人類思維的普遍規(guī)律并用計算機模擬它的實第三階段:第一個蕭條波折階段(1973年-1980年)由于人工智能所基于的數(shù)學(xué)模型和數(shù)學(xué)手段存在的缺陷和呈指數(shù)增加的計算復(fù)雜度等問題,當(dāng)人們進(jìn)行了比較深入的工作后,發(fā)現(xiàn)邏輯證明器、感知器、增強學(xué)習(xí)等等只能做很簡單、非常專門且很窄的任務(wù),稍微超出范圍就無法應(yīng)對。因此,各國政府勒令大規(guī)模削減人工智能方面的投入,人工智能在這一時期受到了各種責(zé)難。1973第四階段:第二個興旺期(1980年-1987年)專家系統(tǒng)(ExpectSystem)作為具有專門知識和經(jīng)驗的計算機智能程序,它的出現(xiàn)使人工智能技術(shù)研究出現(xiàn)新高潮。1980年,卡內(nèi)基?梅隆大學(xué)為DEC公司設(shè)計了名為XCON的專家系統(tǒng),一度能夠為該公司每年節(jié)省四千萬美元。1982年,斯坦福大學(xué)國際研究所研制的地質(zhì)勘探專家系統(tǒng)PROSPECTOR預(yù)測了一個鉬礦位置,其開采價值超過了一億美元。有了成功商業(yè)模式的推動,相關(guān)產(chǎn)業(yè)應(yīng)運而生,Symbolics、LispMachines等硬件公司和IntelliCorp、Aion與此同時,業(yè)界出現(xiàn)了許多人工智能數(shù)學(xué)模型方面的重大發(fā)明,(1986)和BP(1986年)等,也出現(xiàn)了能與人類下象棋的高度智能機(1989年)其它成果包括通過人工智能網(wǎng)絡(luò)能自動識別信封上郵政編碼的機器,99由于理論研究和計算機軟、硬件的飛速發(fā)展,各種人工智能實用系統(tǒng)開始商業(yè)化并進(jìn)入市場,取得了較大的經(jīng)濟效益和社會效益,展示了人工智能應(yīng)用的廣闊前景,人工智能研究從蕭條期轉(zhuǎn)入第二第五階段:第二個蕭條波折階段(1987年-1993年)上世紀(jì)八十年代中后期,由于個人計算機性能的迅猛發(fā)展,使用“增強智能”看似比人工智能有更大的發(fā)展,同時專家系統(tǒng)的機器維護(hù)費用居高不下,系統(tǒng)難以升級,軟件以及算法層面的挑戰(zhàn)沒有突破,于是業(yè)界開始將資本投向于那些看起來更容易出成果的項LISP第六階段:平穩(wěn)發(fā)展階段(1993年-現(xiàn)在)在這一時期,由于互聯(lián)網(wǎng)的蓬勃發(fā)展、計算機性能的突飛猛進(jìn)、分布式系統(tǒng)的廣泛應(yīng)用以及人工智能多分支的協(xié)同發(fā)展,以及發(fā)展具備實用性和功能性的人工智能成為業(yè)界共識,帶來了人工智能新的繁榮。其中,包括圖模型、圖優(yōu)化、深度學(xué)習(xí)網(wǎng)絡(luò)在內(nèi)的數(shù)據(jù)工具被重新挖掘或者發(fā)明,具有明確數(shù)理邏輯的數(shù)學(xué)模型使得理論分析和證明成為可能,摩爾定律驅(qū)動下的計算能力提升顯著提高了人其中,1997IBM2006,GeoffreyHinton(DeepLearning)。2009年,洛桑聯(lián)邦理工學(xué)院發(fā)起的藍(lán)腦計劃聲2012GeoffreyHintonImageNet2016AlphoGo4:1世石讓人工智能進(jìn)入大眾視野,帶領(lǐng)人工智能進(jìn)入又一波高潮。隨著硬件計算能力的提升和云計算的普及,研究人員開始構(gòu)建2018OpenAIGPT1.52019BERT3.420202021OpenAIGPT-31750GPT-3引起了廣泛的關(guān)注。大模型的出現(xiàn),推動了自然語言處理、計算機視覺、智能語音等領(lǐng)域的飛速發(fā)展。然而,大模型也面臨著巨大的挑戰(zhàn),包括計算資源的需求、數(shù)據(jù)隱私的問題和模型可解釋性等方面。當(dāng)前人工智能技術(shù)的發(fā)展一路高歌猛進(jìn),正在以前所未有的速度快速滲透到生產(chǎn)生活的方方面面。未來,隨著技術(shù)的不斷演進(jìn)和研究的深入,人工智能有望進(jìn)入更加成熟和普及的階段,為人類社會帶來更多的便利和創(chuàng)新。三、大模型時代的開啟與挑戰(zhàn)在人工智能領(lǐng)域,近年來預(yù)訓(xùn)練大模型的潛力正迅速涌現(xiàn),給強人工智能的實現(xiàn)帶來了曙光。預(yù)訓(xùn)練大模型是指利用海量的未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)通用的語言知識和語境理解能力,然后再通過有監(jiān)督學(xué)習(xí)進(jìn)行微調(diào),從而為機器賦予更強大的語言理解和推理能力。這種方法的引入在很大程度上解決了傳統(tǒng)機器學(xué)習(xí)方法中數(shù)據(jù)稀缺和特征工程的問題,為人工智能的發(fā)展帶來了新的思路和可能性。20182019傳統(tǒng)的數(shù)學(xué)理論認(rèn)為,隨著模型參數(shù)增多,模型過擬合會導(dǎo)致訓(xùn)練誤差先下降后上升,因此尋找誤差最小點成為調(diào)整模型的目標(biāo)。然而,研究者發(fā)現(xiàn):在模型規(guī)模不斷增大時,測試誤差會在上升后再次下降,且這種誤差下降趨勢會隨著模型規(guī)模的增加而越發(fā)顯著。來源:《DEEPDOUBLEDESCENT:WHEREBIGGERMODELSANDMOREDATAHURT》圖1.測試誤差雙下降(WeshowthatthedoubledescentphenomenonoccursinCNNs,ResNets,andtransformers:performancefirstimproves,thengetsworse,andthenimprovesagainwithincreasingmodelsize,datasize,ortrainingtime.)我們發(fā)現(xiàn)雙下降現(xiàn)象在卷積神經(jīng)網(wǎng)絡(luò)(CNNs)、殘差網(wǎng)絡(luò)(ResNets)和Transformer模中出現(xiàn):能在大小、據(jù)規(guī)模或訓(xùn)練時間增加時,首先會有所提升,然后變差,接著再次提升 --OpenAI)深度學(xué)習(xí)模型的規(guī)模不再受限,而是可以不斷擴展,這為提升準(zhǔn)確率提供了新的機會。人工智能領(lǐng)域逐步進(jìn)入大模型時代。(一)預(yù)訓(xùn)練大模型潛力涌現(xiàn),強人工智能曙光出現(xiàn)預(yù)訓(xùn)練大模型的基本原理是通過大規(guī)模的非監(jiān)督學(xué)習(xí)來訓(xùn)練模型。這種非監(jiān)督學(xué)習(xí)的方式是通過學(xué)習(xí)海量的未標(biāo)記數(shù)據(jù)中的統(tǒng)計規(guī)律和語義信息,來為模型提供一個初始的語義知識庫。在這個階段,模型可以通過自我監(jiān)督的方式進(jìn)行預(yù)測任務(wù),如掩碼語言模型、下一句預(yù)測等。通過這樣的預(yù)訓(xùn)練,模型可以學(xué)習(xí)到豐富的語義表示,從而具備更好的泛化能力。隨著預(yù)訓(xùn)練大模型的突破和應(yīng)用,人工智能領(lǐng)域發(fā)生了深刻的變革。以BERT(BidirectionalEncoderRepresentationsfromTransformers)為代表的預(yù)訓(xùn)練大模型在多個自然語言處理任務(wù)上實現(xiàn)了突破性的性能提升。BERT掩碼語言模型中,模型需要預(yù)測句子中被掩碼的單詞;在下一句預(yù)測任務(wù)中,模型需要判斷兩個句子是否按順序相連。通過這樣的預(yù)訓(xùn)練過程,BERT模型能夠?qū)W習(xí)到豐富的語言表示,從而在各種自然語言處理任務(wù)中取得顯著的性能提升。傳統(tǒng)的自然語言處理任務(wù),如文本分類、命名實體識別等,在BERTBERT模型能夠更好地捕捉句子的語義信息,提高分類的準(zhǔn)確性。在命名實體識別任務(wù)中,BERT模型能夠識別出實體的邊界和類別,提高實體識別的精度。在情感分析任務(wù)中,BERT模型能夠理解句子的情感傾向,提高情感分類的效果。來源:《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》圖2.大語言模型發(fā)展分支為了評估預(yù)訓(xùn)練大模型在多個任務(wù)上的表現(xiàn),研究人員提出了GLUE(GeneralLanguageUnderstandingEvaluation)BERTGLUE上的得分超過了傳統(tǒng)模型,證明了預(yù)訓(xùn)練大模型在各種任務(wù)上的優(yōu)越性能。除了自然語言處理任務(wù),預(yù)訓(xùn)練大模型還在問答系統(tǒng)、對話系統(tǒng)、機器翻譯等領(lǐng)域展現(xiàn)出了強大的應(yīng)用能力。在問答系統(tǒng)中,預(yù)訓(xùn)練模型可以理解問題并生成準(zhǔn)確的回答。在對話系統(tǒng)中,它能夠生成連貫、自然的對話內(nèi)容。在機器翻譯中,預(yù)訓(xùn)練模型可以學(xué)習(xí)到多種語言之間的對應(yīng)關(guān)系,提供更準(zhǔn)確的翻譯結(jié)果。由此可見,預(yù)訓(xùn)練大模型通過在大規(guī)模未標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,在各種自然語言處理任務(wù)中取得了突破性的成果。它們的應(yīng)用不僅強人工智能是指具備與人類相當(dāng)或超越人類智能水平的人工智能系統(tǒng)。其目標(biāo)是使計算機系統(tǒng)能夠像人類一樣具備復(fù)雜的智能能力,如理解自然語言、推理、學(xué)習(xí)和創(chuàng)造等。預(yù)訓(xùn)練大模型的涌現(xiàn)為實現(xiàn)強人工智能打開了一扇門。通過在大規(guī)模未標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,預(yù)訓(xùn)練大模型能夠?qū)W習(xí)到豐富的語言表示和語境理解能力。這使得計算機系統(tǒng)能夠更好地理解和處理自然語言,如閱讀理解、文本生成等。以GPT訓(xùn)練學(xué)習(xí)了大量的語言數(shù)據(jù),能夠生成連貫、語義準(zhǔn)確的文本。在GPT有想象力和藝術(shù)性的文本。這顯示出預(yù)訓(xùn)練大模型在創(chuàng)造性任務(wù)中的潛力,為實現(xiàn)強人工智能提供了可能性。預(yù)訓(xùn)練大模型的突破為構(gòu)建強人工智能系統(tǒng)鋪平了道路,為實現(xiàn)智能對話、情感分析、自然而,實現(xiàn)強人工智能仍然面臨一些挑戰(zhàn)。首先,預(yù)訓(xùn)練大模型需要大量的計算資源和存儲空間。其次,數(shù)據(jù)集的規(guī)模和質(zhì)量對模型的效果有重要影響。此外,對模型性能的進(jìn)一步優(yōu)化、更好的數(shù)據(jù)集構(gòu)建和創(chuàng)新的算法設(shè)計也是未來發(fā)展的方向。針對這些挑戰(zhàn)和發(fā)展方向,研究人員和專家提出了許多觀點和創(chuàng)新方法。例如,通過模型的分布式訓(xùn)練和加速硬件的使用,可以提高訓(xùn)練效率。同時,積極構(gòu)建更大規(guī)模、高質(zhì)量的數(shù)據(jù)集,可以改善模型的性能。此外,還需要不斷創(chuàng)新和改進(jìn)預(yù)訓(xùn)練算法,以提高模型在各種任務(wù)上的表現(xiàn)。總之,預(yù)訓(xùn)練大模型為實現(xiàn)強人工智能帶來了曙光。通過在大規(guī)模未標(biāo)注數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,它們能夠為計算機系統(tǒng)賦予更接近人類水平的智能能力。然而,實現(xiàn)強人工智能仍然面臨一些挑戰(zhàn),需要進(jìn)一步的研究和創(chuàng)新。(二ChatGPT引發(fā)AIGPT(GenerativePre-training)模型,是由OpenAI于2018年6月在論文《ImprovingLanguageUnderstandingbyGenerativePre-TrainingGPT-1TransformerTransformer構(gòu)相比,GPT-1只保留了架構(gòu)中的解碼器(Decoder)部分。GPT-1的訓(xùn)練過程可分為兩個階段:首先是無監(jiān)督預(yù)訓(xùn)練階段,在大型文本語料庫上訓(xùn)練高容量的語言模型。隨后是有監(jiān)督微調(diào)階段,建立在預(yù)訓(xùn)練階段的基礎(chǔ)上,通過調(diào)整參數(shù)來適應(yīng)特定的監(jiān)督目標(biāo)任務(wù),來源:《ImprovingLanguageUnderstandingbyGenerativePre-Training》圖3.GPT-1邏輯(在無監(jiān)督訓(xùn)練階段,采用了一個由12層解碼器(Decoder)層疊而成的Transformer模型,總共包含12個maskedself-attentionheadBooksCorpus7000文本。有監(jiān)督微調(diào)階段,則根據(jù)不同任務(wù)類型可以選擇不同的數(shù)據(jù)集。)2019LanguageModelsareUnsupervisedMultitaskLearners》,其理論基礎(chǔ)涉及到"無監(jiān)督學(xué)習(xí)的全局最小也必定是監(jiān)督學(xué)習(xí)的全局最小",這個觀點強調(diào)了無監(jiān)督學(xué)習(xí)在學(xué)習(xí)表示和結(jié)構(gòu)時具有潛在的監(jiān)督信息,從而在一定程度上能夠支持監(jiān)督任務(wù)GPT-2fine-tune不再針對各種任務(wù)單獨進(jìn)行微調(diào)。相反,它通過增加網(wǎng)絡(luò)參數(shù)數(shù)量GPT-2數(shù),可以顯著提高模型的泛化能力。這意味著可以用一個模型完成GPT-2GPT圖4.GPT數(shù)據(jù)量增長20205OpenAILanguageModelsareFew-ShotLearners1750GPT-3GPT-3繼承了GPT-2提高模型的泛化能力,并進(jìn)一步將參數(shù)規(guī)模擴大(模型參數(shù)從GPT-215GPT-31750100few-shotGPT-2OpenAIzero-shot方法的特點是在下游任務(wù)的訓(xùn)練中,模型沒有接收到任何具體任務(wù)的示例,這被認(rèn)為是一種極端的訓(xùn)練策略。盡管GPT-2在某些任務(wù)上展現(xiàn)出了不錯的效果,但在其他任務(wù)上其表現(xiàn)并不理想。為了解決這一問題,OpenAI在GPT-3中引入了few-shot學(xué)習(xí)方法。與zero-shot不同,few-shot方法為模型提供了特定任務(wù)的少量示例(10100條件,而不涉及任何的梯度更新或模型微調(diào)。綜合多種任務(wù)的訓(xùn)練few-shotzero-shot這驗證了少量示例學(xué)習(xí)在任務(wù)特定的準(zhǔn)確性和樣本效率之間提供了來源:《LanguageModelsareFew-ShotLearners》圖5.“更大的模型越來越高效地利用上下文信息”(RLHF)來微調(diào)GPT-3,模型微調(diào),可使模型輸出與人類需求對齊,微調(diào)后的模型被命名為InstructGPT(ChatGPTInstructGPT性,由于它們的目標(biāo)略有不同(一個更側(cè)重于聊天,另一個側(cè)重于按照指令生成內(nèi)容),它們區(qū)別在在某些細(xì)節(jié)和數(shù)據(jù)集選擇上會有所不同)。來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》圖6.InstructGPT訓(xùn)練三步驟InstructGPT的訓(xùn)練過程簡略可分為有監(jiān)督微調(diào)(SFT)、獎勵模型訓(xùn)練(RM)、近端策略優(yōu)化(PPO)進(jìn)行強化學(xué)習(xí)三個步驟,以實現(xiàn)人工反饋強化學(xué)習(xí)。20228OpenAIGPT-4OpenAIGPT-4技術(shù)文檔中沒有公開與模型架構(gòu)、硬件、訓(xùn)練計算、數(shù)據(jù)集構(gòu)建和根據(jù)業(yè)界內(nèi)的信息評估OpenAIGPT-4ChatGPT(業(yè)。(交叉注意力(Cross-attention)機制將視覺信息直接融合到語言模型解碼器的層中,而不是使用圖像作為語言模型的附加前綴,交叉注意力將相同維度的獨立嵌入序列進(jìn)行非對稱的整合。這類架構(gòu)可有效地平衡文本生成能力和視覺信息。VisualGPT、VC-GPT和Flamingo等模型也使用這種預(yù)訓(xùn)練策略,并使用圖像字幕和視覺問答)但是,文檔還是提供了以下核心信息:1.GPT-4基于transformertoken2.在數(shù)據(jù)源方面,它主要使用了公開的互聯(lián)網(wǎng)數(shù)據(jù)和經(jīng)第三方授權(quán)的數(shù)據(jù)進(jìn)行訓(xùn)練。3。業(yè)界猜測,GPT-41.8GPT-31016MoE,每個MoE1110(MLP)參數(shù)。圖7.GPT發(fā)展除了模型訓(xùn)練,ChatGPT在實際應(yīng)用中也需要強大的計算能力來進(jìn)行推斷。ChatGPT文進(jìn)行推斷,并生成回復(fù)。這個推斷過程需要快速、高效地執(zhí)行,以滿足用戶的實時交互需求。然而,由于模型的復(fù)雜性和參數(shù)量巨大,傳統(tǒng)的計算機和服務(wù)器往往無法在實時性要求下完成推斷過程。ChatGPTAIChatGPT自然語言處理和上下文理解能力,因此用戶對其的使用和期望也日益增加。然而,這種用戶需求的迅速增長導(dǎo)致大量用戶同時向系統(tǒng)發(fā)送請求,使得通信系統(tǒng)承受了巨大的壓力。用戶希望ChatGPT能夠提供快速、準(zhǔn)確的回復(fù),因此他們頻繁地與ChatGPT進(jìn)行交互。這意味著通信系統(tǒng)面臨著大量的請求,需要處理大量的數(shù)據(jù)傳輸和處理任務(wù)。然而,處理和分析自然語言數(shù)據(jù)是一項復(fù)雜而耗時的任務(wù),需要大量的計算資源和高效的通信機制來支持。傳統(tǒng)的通信系統(tǒng)可能無法有效處理這種大規(guī)模的請求,導(dǎo)致系統(tǒng)延遲增加和服務(wù)質(zhì)量下降。為了滿足用戶的需求并確保高質(zhì)量的通信體驗,需要對通信系統(tǒng)進(jìn)行優(yōu)化和升級,包括增加帶寬、改進(jìn)網(wǎng)絡(luò)架構(gòu)、優(yōu)化數(shù)據(jù)傳輸和處理機制等方面的改進(jìn)。只有充分滿足通信需求,才能更好地支持ChatGPT的廣泛應(yīng)用和用戶體驗。為了應(yīng)對算力和通信需求的躍升,研究人員和行業(yè)專家提出了一系列解決方案。一方面,他們致力于開發(fā)更高效的模型訓(xùn)練和推斷算法,以減少計算資源的消耗。其中,一種常見的方法是使用剪枝和量化等技術(shù)來減少模型的參數(shù)量和計算量。另一方面,他們探索新的硬件架構(gòu)和加速技術(shù),如圖形處理器(GPU)和專用神經(jīng)網(wǎng)絡(luò)芯片(ASIC),以提供更強大的計算能力。此外,還有研究人員致力于開發(fā)更高速、低延遲的網(wǎng)絡(luò)技術(shù),以滿足通信需求。未來,隨著對話系統(tǒng)的發(fā)展和應(yīng)用場景的擴展,ChatGPT及其類似的模型將面臨更多的挑戰(zhàn)和需求。因此,需要進(jìn)一步研究和創(chuàng)新,以提供更高效、更強大的模型訓(xùn)練和推斷算法,并開發(fā)更先進(jìn)的硬件和網(wǎng)絡(luò)技術(shù),以滿足ChatGPT等大模型的算力和通信需求。AI(三)國內(nèi)外廠商布局大模型,千億級參數(shù)量推動算力需求增長受益于ChatGPT的成功問世,大模型的理解能力、推理能力、泛化能力得到充分驗證,海內(nèi)外企業(yè)紛紛加速。2021年初,谷歌發(fā)布了一篇名為《SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity》的論文。與GPT-31750SwitchTransformers1.6用了一種稱為“SwitchRouting”的優(yōu)化版本的MoE(MixtureofExperts來源:《SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity》圖8.SwitchTransformer編碼器塊20211011--Megatron-Turing自然語言生成模型(MT-NLG)。該模型擁有5300億參數(shù),構(gòu)建于105層的transformer結(jié)構(gòu)。國內(nèi)廠商與研究機構(gòu)積極跟進(jìn)大模型相關(guān)的產(chǎn)業(yè)布局,全面擁抱大模型時代的技術(shù)變革。2019年,百度發(fā)布了參數(shù)量達(dá)到40億的ERNIE(EnhancedRepresentationthroughknowledgeIntegration)模型。2022年11月,百度發(fā)布了文心大模型的最新升級,文心大模型涵蓋基礎(chǔ)大2023316AINLP2021NLP200020237月盤古大模型3.05+N+XL0;L1層是NL2大模型采用完全的分層解耦設(shè)計,可以快速適配、快速滿足行業(yè)的多變需求。這些大模型的布局和推動,不僅是為了追求更好的性能,還是為了走向更廣闊的應(yīng)用場景。通過增加參數(shù)量和模型規(guī)模,可以提高模型對數(shù)據(jù)的理解能力和判斷能力,從而在更多的實際應(yīng)用中發(fā)揮作用。例如,大模型在自然語言處理、圖像識別和機器翻譯等任務(wù)中取得了顯著的突破,為智能客服、智能駕駛和智能醫(yī)療等領(lǐng)域的應(yīng)用提供了更多可能性。然而,大模型的布局也帶來了巨大的算力需求。以GPT-3為例,GPT-3為了滿足這種巨大的算力需求,各種新的計算硬件和架構(gòu)也應(yīng)運而生。例如,圖形處理器(GPU)在高性能計算中的作用越來越重要。GPUGPU綜上所述,國內(nèi)外廠商的布局和推動使得大模型成為當(dāng)前人工智能領(lǐng)域的熱點和趨勢。大模型在各種任務(wù)中取得了良好的性能,并在許多領(lǐng)域中發(fā)展出更廣闊的應(yīng)用前景。與此同時,大模型的布局也帶來了巨大的算力需求,對計算資源提出了更高的要求。四、AI服務(wù)器核心需求隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,每日涌入服務(wù)器的數(shù)據(jù)量如潮水般洶涌,這種指數(shù)級爆炸式的數(shù)據(jù)量增長,不僅極大地豐富了我們的生活維度、改變了生活習(xí)慣和方式,還為數(shù)據(jù)的高效分析和處理帶來了前所未有的挑戰(zhàn)。在此背景下,數(shù)據(jù)量的激增已成為推動服務(wù)器技術(shù)革新的核心動力。90SVM場景中取得了顯著的成功。然而,受限于當(dāng)時的計算能力,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)并未完全發(fā)揮其潛力。這輪以深度神經(jīng)網(wǎng)絡(luò)為核心的人工智能熱潮進(jìn)一步加劇了服務(wù)器對計算與渴求。特別是GPT系列模型,具備強大的自然語言處理能力。這些模型背后的算法,如自注意力機制,要求處理大量的并行運算,從而對服務(wù)器的計算和網(wǎng)絡(luò)帶寬AITransformer務(wù)器的計算能力、網(wǎng)絡(luò)帶寬以及能效都提出了新的挑戰(zhàn)。這些挑戰(zhàn)主要表現(xiàn)為:并行處理能力的進(jìn)一步擴展、配合計算需求的大容量高速緩存、高帶寬低延遲的互聯(lián)網(wǎng)絡(luò)、以及更加高效的散熱和低功耗設(shè)計。(一)并行處理能力擴展從前文所述的人工智能發(fā)展歷程,可以看出,計算能力在人工智能的發(fā)展中起著至關(guān)重要的作用。典型的Transformer結(jié)構(gòu)主要包括多頭自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層。其基本組成部分是點積、縮放、和累加操作,這些通常可以映射到矩陣乘法并進(jìn)行并行計算。因此,海量的并行處理成為了AI服務(wù)器的核心任務(wù)。而在傳統(tǒng)的計算架構(gòu)中,服務(wù)器主要依賴于中央處理單元(CPU)作為其主要的算力來源。由于CPU如引入大量的分支、跳轉(zhuǎn)和中斷處理來滿足邏輯判斷的需求,其內(nèi)部結(jié)構(gòu)通常極為復(fù)雜。然而,隨著半導(dǎo)體制造技術(shù)逐漸接近物理極限,CPU特別是當(dāng)考慮到用于人工智能的服務(wù)器和傳統(tǒng)服務(wù)器之間的使用場景差異時,這種減緩變得尤為明顯。例如,在代表深度學(xué)習(xí)的DNN算法中,存在大量需要處理的卷積和全連接操作,盡管傳統(tǒng)的CPU服務(wù)器可以用于這種計算,但由于CPU內(nèi)部大量的計算邏輯和控制單AICPUAIAI需求,引入了專門的計算單元進(jìn)行高度并行化的計算,從而強化AIGPUFPGAASICAI(二)與計算力匹配的高性能存儲在現(xiàn)代人工智能與大模型計算領(lǐng)域,服務(wù)器的并行計算能力在不斷進(jìn)步。但然而,隨之而來的是,存儲能力的短板逐漸顯現(xiàn),這AI中,數(shù)據(jù)訪問模式通常呈現(xiàn)為“一次寫入,多次讀取”,數(shù)據(jù)讀寫基于馮·諾依曼體系結(jié)構(gòu)的計算芯片,如CPU和GPU,在執(zhí)行計算任務(wù)之前,需要先從外部存儲器獲取數(shù)據(jù),隨后再將其讀入內(nèi)部緩存或寄存器中。這種數(shù)據(jù)移動的需求導(dǎo)致了一個核心挑戰(zhàn):存儲訪問速度可能無法跟上計算單元對數(shù)據(jù)的高速消耗,從而形成了所謂的“存儲墻”問題,使系統(tǒng)性能受到限制。AI架構(gòu)。通過精細(xì)調(diào)整各級緩存和主存的容量和性能,并在必要時引入新的存儲層次,可以有效緩解“存儲墻”帶來的瓶頸。此外,將計算與數(shù)據(jù)存儲更緊密地集成,以減少數(shù)據(jù)在不同存儲級別之間的移動,亦是提高整體系統(tǒng)性能的關(guān)鍵方向。這種對高性能存儲系統(tǒng)AI(三)支持高速數(shù)據(jù)傳輸?shù)幕ヂ?lián)網(wǎng)絡(luò)數(shù)據(jù)傳輸和共享已對服務(wù)器系統(tǒng)提出了嚴(yán)格的新要求,這些要求關(guān)注于在計算和存儲設(shè)備之間實現(xiàn)高性能數(shù)據(jù)傳輸,以及在多服務(wù)器環(huán)境中高效地共享數(shù)據(jù)。伴隨數(shù)據(jù)規(guī)模的指數(shù)級增長和處理任務(wù)的復(fù)雜性增加,我們觀察到數(shù)據(jù)存儲的異構(gòu)化趨勢。在一個給定的處理場景中,所需的數(shù)據(jù)可能散布在多種存儲介質(zhì)中,這種分散性強調(diào)了計算單元,特別是為大型模型設(shè)計,需要與各種存儲系統(tǒng)之間維持高帶寬和低延遲PCIeCPUAIGPUNVLinkRoCE此外,大模型訓(xùn)練時,服務(wù)器的集群化和資源池化策略日益受到關(guān)注。在這樣的集群環(huán)境中,服務(wù)器之間的數(shù)據(jù)交互和同步至關(guān)重要。傳統(tǒng)的以太網(wǎng)已無法滿足這種需求,因此,更先進(jìn)的網(wǎng)絡(luò)技400GbpsInfinibandRoCEAIAI(四)強散熱在人工智能與大模型計算的現(xiàn)代應(yīng)用中,專用并行計算芯片,如GPU提高計算速度的同時,也引入了一個顯著的挑戰(zhàn):巨大的功耗和由AI盡管在傳統(tǒng)服務(wù)器硬件組件,如硬盤和主板,在功耗和熱量方面的貢獻(xiàn)相對較小,但它們對于整體系統(tǒng)的穩(wěn)定運行仍然至關(guān)重要。AI。因此,隨著計算單元數(shù)量的增加和復(fù)雜性的提高,高效的散熱解傳統(tǒng)的風(fēng)冷技術(shù)雖然在某些情境下仍然有效,但其固有的限制AI器部署中逐漸被其他更高效的技術(shù)取代。考慮到此,液冷技術(shù)已經(jīng)受到了越來越多的關(guān)注。這些液體冷卻方法能夠更有效地吸收和傳導(dǎo)熱量,同時減少機械噪音,為數(shù)據(jù)中心提供了一個更為安靜和效率更高的環(huán)境。預(yù)計在未來,隨著其技術(shù)的完善和成本的降低,液冷方案將在AI五、AI服務(wù)器架構(gòu)及關(guān)鍵技術(shù)人工智能行業(yè)是對算力、算法和數(shù)據(jù)等數(shù)字資源進(jìn)行創(chuàng)造、加工、整合,最終實現(xiàn)用機器替代人,為傳統(tǒng)行業(yè)智慧賦能。算力、算法、數(shù)據(jù)是人工智能的三大要素。人工智能產(chǎn)業(yè)鏈包括三層:基礎(chǔ)層、技術(shù)層和應(yīng)用層。(1)基礎(chǔ)層:人工智能產(chǎn)業(yè)的基礎(chǔ),主要提供AIAIAI;(2)AIAIAI神經(jīng)網(wǎng)絡(luò)需要的快速,低精度,浮點運算高度并行數(shù)值計算,搭載大量計算內(nèi)核和高帶寬內(nèi)存資源,用于支撐深度學(xué)習(xí)訓(xùn)練和線上推理計算框架模型和應(yīng)用,可以在多個節(jié)點之間高速互聯(lián)、高效地擴展的硬件平臺。有別于傳統(tǒng)服務(wù)器以CPUCPU+GPUCPU+FPGA、CPU+ASIC等多種形式。通過搭配不同的異構(gòu)加速芯片,形成不同性AI是CPU+GPU。AI模型平臺和數(shù)據(jù)基礎(chǔ)服務(wù)平臺,支撐技術(shù)層和應(yīng)用層的人工智能應(yīng)用場景落地。隨著大模型訓(xùn)練對云端算力的持續(xù)增長需求,AI服務(wù)器部署規(guī)模越來越大,持續(xù)增長的計算速度和計算效率需求,推動著AI來源:英偉達(dá)圖9.英偉達(dá)DGX-1SystemArchitecture(一)AI服務(wù)器總體架構(gòu)隨著人工智能和大模型應(yīng)用的持續(xù)演進(jìn)和廣泛部署,“CPU+”架構(gòu)已成為人工智能服務(wù)器的設(shè)計藍(lán)本。,CPU角色,負(fù)責(zé)任務(wù)的調(diào)度、系統(tǒng)管理和部分計算工作。然而,為了適AI有豐富計算核心的硬件加速器,能夠在短時間內(nèi)處理大量的數(shù)據(jù)和計算任務(wù)。圖10.人工智能服務(wù)器的“CPU+”架構(gòu)以人工智能計算領(lǐng)域中廣泛使用的GPU計算部件為典型代表,詳細(xì)描述了在現(xiàn)代“CPU+”架構(gòu)中,人工智能加速部件與CPU的協(xié)同工作流程。在這種架構(gòu)中,待處理的數(shù)據(jù)首先從CPU內(nèi)存?zhèn)鬏數(shù)紾PUPCIeNVLinkGPUGPUGPU的強大并行計算GPU并行處理大規(guī)模的矩陣乘法和卷積操作。計算完成后,結(jié)果存儲在顯存中,并在需要時傳輸回CPU內(nèi)存。從“CPU+”這種架構(gòu)的應(yīng)用中,可以明顯看出CPU的角色更偏向于指令協(xié)調(diào)和結(jié)果匯總,而實際上的高并行度計算任務(wù)則交給了GPU這類加速部件。這種分工策略符AmdahlCPU和專門設(shè)計的硬件加速器如GPU結(jié)合,從而實現(xiàn)高效并行處理,滿足日益增長的計算需求。(二)異構(gòu)計算加速計算芯片異構(gòu)計算指的是在一個計算系統(tǒng)中使用多種不同類型的處理器或核心來執(zhí)行計算任務(wù)。這種方式旨在利用各種處理器的特定優(yōu)勢,CPUCPU很強的通用性,需要處理各種不同的數(shù)據(jù)類型,通常負(fù)責(zé)執(zhí)行計算機和操作系統(tǒng)所需的命令和流程,因此其擅長無序超標(biāo)量與復(fù)雜控本輪人工智能熱潮的理論基礎(chǔ)是人工神經(jīng)網(wǎng)絡(luò),為了更好地訓(xùn)練和使用深度神經(jīng)網(wǎng)絡(luò),就需要對計算密集型大規(guī)模矩陣進(jìn)行并行處理。CPU構(gòu)計算加速器集成大量計算核心,簡化邏輯控制單元設(shè)計,提升系當(dāng)前異構(gòu)計算加速器發(fā)展呈現(xiàn)多樣化。人工智能芯片按照技術(shù)架構(gòu)分類,可以劃分為圖像處理單元(GPU)、現(xiàn)場可編程門陣列(FPGA)、專用集成電路(ASIC)等。GPU:AI算力的核心GPUCPU與控制。CPU作為中央處理核心,其硬件架構(gòu)中為了滿足高性能和低延遲的需求,特地增強了高速緩存(Cache)和控制單元(Control)的比例。相較之下,算術(shù)邏輯單元(ALU)在整體構(gòu)造中所占的份額較小,這限制了CPU在大規(guī)模并行計算方面的表現(xiàn)。GPU專為處理高度并行和線程化的計算任務(wù)而生,具有大規(guī)模并行計算的能力。這使得GPU能夠同時處理大量的矩陣運算和向量計算,非常來源:英偉達(dá)圖11.CPU核與GPU核對比GPU單元等部分,來同時滿足圖形渲染和并行計算的需求;但在數(shù)據(jù)分析、人工智能領(lǐng)域,并行計算才是核心目的,因此GPGPU應(yīng)運而生;其優(yōu)化掉了顯示接口和渲染單元等組件,進(jìn)一步增強了計算陣列GPGPU在現(xiàn)代AIChatGPTTransformerCPU主要處理順GPUCPUAIGPUGPUGPUGridwork-itemworkgroupworkgroup會被進(jìn)一步分配到不同的計算核心上,并被分解為多個wavefront來執(zhí)行。每個wavefront都在一個SIMD(SingleInstructionMultipleData)wavefrontGPU特別適合執(zhí)行諸如Transformer中的矩陣乘法這樣的并行化計算任務(wù),因為ComputeTask GPUArchitecture HASComputeModelGridWorkgroupWorkgroupGridGridWorkgroupWorkgroupGridGPUGPUCoreGPUCoreWorkgroup

Workitem Wavefront圖12.GPU并行計算邏輯圖相對于傳統(tǒng)的CPU運算,GPU并行運算有以下特點:核心數(shù)量差異:相對于CPU,GPU設(shè)計為擁有成千上萬的小型計算核心,專為并行處理而設(shè)計。這種設(shè)計尤其適合大規(guī)模模延遲隱藏與存儲訪問:GPUcache外部存儲訪問性能。這種能力對于頻繁讀寫權(quán)重和參數(shù)的大模型訓(xùn)練至關(guān)重要。GPUTransformer架構(gòu)進(jìn)行優(yōu)化成為可能。相CPU計算能力:GPU恰好滿足了深度學(xué)習(xí)需要,因為這類模型依賴于大量的矩陣乘法和加法操作。GPUGDDRHBMCPUDDRHBM:傳統(tǒng)的GDDRGPUPCB可能會限制數(shù)據(jù)傳輸?shù)乃俾屎涂偞鎯θ萘?。隨著技術(shù)的發(fā)展,這些限制逐漸成為了圖形處理性能的瓶頸。為了解決這個問題,HBM(HighBandwidthMemory)技術(shù)應(yīng)運而生。HBM使用了TSV(Through-SiliconVias)技術(shù),允許多個DRAMHBMGPU的互連層實現(xiàn),這不僅進(jìn)一步提高了數(shù)據(jù)傳輸速率,而且大大減少了PCB盡管HBM在帶寬、體積和能效上都展現(xiàn)出了明顯的優(yōu)勢,但由GDDRGPUHBM圖13.HBM與GDDR對比NVIDIAGPUNNVIDIA,成立于1993年,最初是為了滿足視頻游戲市場的需求而設(shè)計圖形處理器(GPU)的公司。然而,隨著時間的推移,NVIDIA的技術(shù)不僅被廣泛用于視頻游戲,還被用于各種其他計算密集型任務(wù),特別是人工智能和深度學(xué)習(xí)。近年來,深度學(xué)習(xí)模型的OpenAIGPTGPUNVIDIAAICUDA(臺和API)和cuDNN(用于深度神經(jīng)網(wǎng)絡(luò)的GPU)。2016NVIDIADGX-1AI8塊TeslaP100GPU卡。NVIDIACEODGX-1OpenAI,DGX-1圖14.英偉達(dá)交付OpenAI的第一臺DGX-12018OpenAIAzure云計算平A100機架確保了這些芯片能夠有效地協(xié)同工作。在這一先進(jìn)的超級計算基礎(chǔ)設(shè)施上,OpenAI的模型經(jīng)歷了迅速且持續(xù)的進(jìn)化,為后續(xù)ChatGPT2022年春季GTC大會上,英偉達(dá)發(fā)布其新款NVIDIAGraceHopperHopperH100TensorCoreGPU。來源:英偉達(dá)圖15.SXM5模組上的NVIDIAH100GPUH100SXM5GPUH100SXM5SXM5H100GPUHBM3NVLinkPCIe5.0HGXH1004GPU8GPU4GPUGPUP2PNVLinkCPUGPU8GPUNVSwitchGPUSHARP900GB/sNVLinkSXM5GPUDGXH100DGXSuperPODH100PIe50GUH100PCIe5.0配置可在僅為350瓦的熱設(shè)計功耗(TDP)下提供H100SXM5GPU的所有功能。此配置可以選擇使用NVLink600GB/sGPUPCIe5.05H100PCIe降)12GPU包括AI推理和一些HPC應(yīng)用H100PCIeGPU可高效提供達(dá)到H100SXM5GPU65%的性能,同時功耗僅為50%。NVIDIAGH100(GPU)由多個GPUGPCs)、TPCsSMsL2HBM3完整的GH100GPU架構(gòu)包括以下單元:8GPC72TPC(9個TPC/GPC)、2SM/TPC144個SM;每個SM128FP32CUDACore個完整GPU18432FP32CUDACore核心;每個SM4TensorCoreGPU576TensorCore;6HBM3HBM2e1251260MB采用SXM5NVIDIA10GPU8GPC、66TPC、2SM/TPC、每個GPU132SM;每個SM128FP32CUDACoreGPU16896FP32CUDACoreSM4TensorCore528TensorCore80GBHBM35HBM3棧、1051250MBNVLinkPCIe5.0。采用PCIe5.0主板封裝的NVIDAH100GPU78GPC57TPC、2SM/TPCGPU114;每個SM128FP32CUDACoreGPU14592個FP32CUDACore核心;每個SM4TensorCore核心、每個GPU456TensorCore核心;80GBHBM2e、5HBM2e1051250MBPCIe5.0。來源:英偉達(dá)圖16.配備144個SM的完整GH100GPU核心H100SM架構(gòu)基于NVIDIAA100TensorCoreGPUSMH100SM引入了FP8,其每SMA100于所有先前的TensorCoreFP32FP64H100SMA100來源:英偉達(dá)圖17.NVIDIAH100TensorCoreGPU初步性能規(guī)格來源:英偉達(dá)圖18.英偉達(dá)GH100SMH100TensorCore架構(gòu)TensorCores是專門針對矩陣乘法和累加(MMA)數(shù)學(xué)運算的高性能計算核心,為AIHPCTensorCoresNVIDIAGPU(SM)19.H100TF32、FP64INT8TensorCoreA1003Gaudi2GPU2022510HabanaLabs(專AI)度學(xué)習(xí)處理器HabanaGaudi2。來源:英特爾圖20.IntelHabanaGaudi2Gaudi2Gaudi以多方位性能與能效比提升,加速高性能大語言模型運行。具備:24Tensor(TPCs);21100Gbps(RoCEv2)96GBHBM2E2.4TB/48MB片上SRAM。Gaudi22.4T24x100GbpsRoCEV2RDMAGaudiGaudi296GBHBM2E2.45TB/48MBSRAMMME、TPCDMAsRDMANICsFP32,TF32,BF16,FP16GPT-3MLPerf為Gaudi2AI服務(wù)器白皮書(2023年)海光DCU海光深算系列產(chǎn)品DCU,以GPGPU架構(gòu)為基礎(chǔ),支持各類數(shù)據(jù)精度,建立了完善、好用、易用的人工智能軟件開發(fā)體系,兼容國際主流商業(yè)計算軟件和人工智能軟件,軟硬件生態(tài)豐富。目前海光研發(fā)的DCU644個SIMT1SIMTSIMT64SIMTDCU4096來源:海光圖21.海光DCU架構(gòu)海光DCU具有生態(tài)友好、精度覆蓋、安全筑底,三大特點。目DCUHygonIntel、AMDCPU44AI服務(wù)器白皮書(2023年)國內(nèi)外主流OS包括TensorFlowPytorch、PaddlePaddle)(CVNLP)來源:海光圖22.海光DCU目前,第一代DCU運營商、科研等重要行業(yè),支持機器視覺,自然語言處理(包括通用人工智能大模型),語音語義,機器學(xué)習(xí),OCR,科學(xué)計算,AIforScience,GPGPUAI45PAGEPAGE136沐曦MXC500GPUIP片設(shè)計,能夠提供涵蓋大規(guī)模人工智能訓(xùn)練、高并發(fā)實時人工智能推理、數(shù)據(jù)挖掘和數(shù)據(jù)分析等各種通用計算領(lǐng)域的一站式解決方案。MXC500GPU計算單元實現(xiàn)人工智能等領(lǐng)域上層應(yīng)用的并行計算加速。一方面,GPUCPUNPU、DSAASICAIMXC500GPU算單元由8DPC(DataProcessingCluster)組成,DPCAP(AccelerationProcessor),GPUCommandEngine(thread)APL1L2PCIe議MetaXLink)DMA(DirectMemoryAccess)來源:沐曦圖23.沐曦MXC500架構(gòu)顯存:MXC5004HBM2e2.5D總?cè)萘繛?4GB,帶寬高達(dá)1.55TB/s。拓?fù)渲С郑篗XC500通過沐曦自研的私有化通信協(xié)議MetaXLink實現(xiàn)多GPU8FPGAFPGA(Field-ProgrammableGateArray)CPU、GPUASIC在硬件固定的前提下,允許使用者靈活使用軟件進(jìn)行編程。它的開ASICASICFPGAFPGAASICFPGA占據(jù)了重要地位。它們都明確地將策略重心放在了數(shù)據(jù)中心市場,并努力簡化FPGA的編程過程。盡管GPUFPGAGPUCUDA從CPU(DRAM)GPU(Launch)GPU(Kernel);GPUCPUGPU將計算結(jié)果傳回CPU的DRAM。CPUGPU圖24:FPGA與GPU處理流程FPGABRAM可以在不讀寫外部存儲的情況下GPUDRAM來源:英特爾圖25.FPGA與GPU處理流程(左)GPU數(shù)據(jù)從張量核心處理的內(nèi)存系統(tǒng)中讀取,寫回內(nèi)存系統(tǒng)。(右)FPGA數(shù)據(jù)可以從內(nèi)存中讀取,但數(shù)據(jù)流可以并行安排到一個或多個張量核心。任意數(shù)量的張量核心都能以最小的傳輸開銷使用輸出。數(shù)據(jù)可以被寫回內(nèi)存或路由到其他任何地方。來源-intel)FPGA(Batch-less)架構(gòu)使其在AI的時延優(yōu)勢。隨著網(wǎng)絡(luò)條件的限制和對低時延的需求,很多決策無法及時上傳至云端進(jìn)行處理,而需要在本地執(zhí)行,這種計算形式被稱為邊緣計算。邊緣計算常受時延和功耗的雙重約束。與此相對,GPU在處理數(shù)據(jù)時經(jīng)常依賴于批處理機制。為了最大化并行性,GPU需要將多個數(shù)據(jù)樣本組合成一個"批次"(Batch)來同時處理。一個批次通常包含數(shù)十到數(shù)百個樣本。這種處理方式在訓(xùn)練大數(shù)據(jù)集時具有明顯優(yōu)勢,但在進(jìn)行小樣本的推理時,它可能會增加不必要的GPUFPGAFPGAAI推理任務(wù)中,特別是在需要快速響應(yīng)的應(yīng)用中,具有顯著的優(yōu)勢。來源:Xilinx圖26.GPU與FPGA推理流程時延現(xiàn)象對比FPGA在接口靈活性方面表現(xiàn)出色,這使其特別適合多種工業(yè)應(yīng)用。實際上,工業(yè)環(huán)境常常由眾多特定、小批量的場景組成,其中涉及許多非標(biāo)準(zhǔn)的接口。例如,在工業(yè)圖像傳感器中,LVDS編碼格式可能并不遵循統(tǒng)一的標(biāo)準(zhǔn),這使得工程師在尋找專用芯片以便與之對接時面臨挑戰(zhàn)。而GPU,雖然強大,但其接口主要限于PCIe。相比之下,F(xiàn)PGA的可編程特性讓它可以與各種器件通信,能夠輕松適應(yīng)各種標(biāo)準(zhǔn)和非標(biāo)準(zhǔn)接口。這種硬件可編程所帶來的高度靈活性是FPGA與GPUFPGA浮點計算:在多數(shù)高性能計算應(yīng)用中,如深度學(xué)習(xí)、地球物理探測、流體力學(xué)、基因計算和高頻交易等,浮點數(shù)據(jù)類型是主流。FPGA當(dāng)需要進(jìn)行浮點運算時,開發(fā)者必須使用定點運算單元和其他邏輯FPGAFPGAFPGA計算和存儲單元之間的轉(zhuǎn)移非常靈活,但這些存儲資源是有限的,對于數(shù)據(jù)密集型應(yīng)用,如大模型的深度學(xué)習(xí),這種有限的容量可能不足以滿足需求。通常,開發(fā)者可能會選擇外部DDR來補充存儲,圖27.GPU與FPGA應(yīng)用場景對比FPGAI/O其在AI2020618Stratix10NXFPGAAIINT8、INT4FP16AgilexFPGADSP功能。采用AI張量模塊的增強型DSPAIFFT()FIR(復(fù)雜有限脈沖響應(yīng))濾波器。第一種模式可通過INT8張量模式增強AI用AI張量模塊的增強型DSP中提供20次INT8乘法。與之前的AgilexINT85INT32和FP32的級聯(lián)和累加功能,還支持塊浮點指數(shù),以改善推理精度和低精度訓(xùn)練。此外,DSPAIINT9乘法器(Multiplier)升級到了六個INT9乘法器。這些模式對以AIDSP來源:英特爾圖28.AI和DSP計算密度的數(shù)量級提升第二種新模式是復(fù)數(shù)運算,可在運行復(fù)數(shù)乘法時使張量模塊的性能翻倍。過去,復(fù)數(shù)乘法需要兩個DSP模塊,在最新英特爾AgilexFPGAAIDSP16ASICASIC(ApplicationSpecificIntegratedCircuit)集成電路,是為特定應(yīng)用而設(shè)計的定制芯片,這使得它們在執(zhí)行特AI以被視為ASIC考慮到人工智能算法對高計算能力的要求,ASIC能夠為特定的AI算法進(jìn)行定制,它的高度定制化特性使其可以針對特定的計算環(huán)境進(jìn)行優(yōu)化,無論是在深度學(xué)習(xí)的訓(xùn)練還是推理階段,ASIC都有其優(yōu)勢所在。因此,眾多全球芯片制造商都在積極布局AI專用的ASIC芯片。然而,ASIC務(wù)定制的,一旦這些算法發(fā)生改變或被取代,ASIC可能會變得不再適用。這種固化的特性在人工智能的動態(tài)發(fā)展背景下尤為明顯,因為AIAIAI作負(fù)載設(shè)計了TensorProcessingUnit(TPUAlphaGo20169AIMovidius20187ASICeASICeASICASICFPGA()ASICFPGANPUNPU(NeuralProcessingUnit)優(yōu)化的處理器。在近年的人工智能和深度學(xué)習(xí)發(fā)展中,大量的計算NPU特定的硬件架構(gòu)設(shè)計和優(yōu)化,使得神經(jīng)網(wǎng)絡(luò)運算更為高效,從而加速模型的訓(xùn)練和推理。NPU可以被認(rèn)為是一種ASIC,因為它是為神昇NPU是面向AI16*16*163DCube設(shè)409616位半精度浮點MAC來源:華為圖29.達(dá)芬奇架構(gòu)基于統(tǒng)一的達(dá)芬奇架構(gòu),可以支持端邊云不同場景的差異化算力需求,并具備從幾十毫瓦IP到幾百瓦芯片的平滑擴展,覆蓋了端邊云全場景部署的能力。昇騰處理器是全球首個覆蓋全場景AI芯片,構(gòu)建了昇騰計算產(chǎn)品、使能上層軟件和應(yīng)用的底座,也是全產(chǎn)業(yè)鏈可持續(xù)創(chuàng)新和發(fā)展的驅(qū)動力。昇騰推理處理器高效、靈活、可編程,基于典型配置,性能達(dá)22TOPSINT811TFLOPSFP168WAI從數(shù)據(jù)中心延伸到邊緣設(shè)備,為平安城市、自動駕駛、云服務(wù)和昇400TFLOPSFP16。(SoC),除了集成達(dá)芬奇架構(gòu)的AI核外,集成了CPUCoreDVPP(TaskScheduler),可以減少和HostCPU昇理器還集成了HCCSPCIe5.0和RoCEv2接口,為構(gòu)建橫向擴展(ScaleOut)和縱向擴展(ScaleUp)系統(tǒng)提供了靈活高效的方法。來源:華為圖30.華為昇騰芯片規(guī)格DSADSA(DomainSpecialArchitecture),這是一個根據(jù)用戶需要可以進(jìn)行裁剪的架構(gòu)(選擇對應(yīng)到功能進(jìn)行組合),DSADSA2022MLU370。采用7nm390256T力,擁有新一代張量運算單元多算子硬件融合技術(shù)??芍С諭NT8/INT16/FP16/BF16/FP32AIMLU370-X84MLU370MLU-Link多芯互聯(lián)技術(shù),主要面向訓(xùn)練任務(wù)。在YOLOv3、Transofrmer,8350WGPU155%。Hybrid架構(gòu)(GPGU+DSA)HybridGPGPUAI實現(xiàn)很高的加速比,同時又能夠兼顧云計算場景中絕大部分通用并HyrbidGPGPUDSAAI一種平衡設(shè)計的架構(gòu)狀態(tài),在工程實用性上具有更好的總體表現(xiàn)。XPUHybridXPU單元主要承載了通用并行計算的功能,SDNN單元則更多承載了AI20202代的XPU–RCLUSTERSDNNAI來源:昆侖芯圖31.昆侖芯2代芯片XPUCuster:張量的部分。Cluster是通用計算核,用來處理標(biāo)量和向量計算。支持SIMDClusterXPUCoreCluster非常好的通用性和可編程性,用戶可以根據(jù)需求來靈活實現(xiàn)各種函數(shù)。SDNN(SofwaredfinedNeualNetorkngin):U的AI計算單元-軟件定義神經(jīng)網(wǎng)絡(luò)引擎,是用來處理張量和向量運算,可以極快速度處理深度學(xué)習(xí)中張量計算的流水線。通過軟件編程,能靈活實現(xiàn)卷積,矩陣計算,element-wise等操作。SharedMeory為該Cptent512GB/s,能提供比片外DDRXPU-Lik0BGDDR6高帶寬內(nèi)存,每個昆侖芯ComputeUnit容量為32GB,內(nèi)存帶寬為512GB/s。PCIeGen4x6兼容.2/01Bs,32GB/sComputeUnits隨著芯片廠商研發(fā)能力的增強,過去被認(rèn)為只具備專用性的ASICDSAAI含有與英偉達(dá)GPUCUDACoreGPGPU產(chǎn)品中,也因為兼顧AIGPGPUTensorcoreDSAGPU、ASICDSAAI片企業(yè)在架構(gòu)設(shè)計中需要關(guān)注的是通用和專用計算單元的搭配,以便應(yīng)對AI(三)主板總線隨著模型復(fù)雜程度增加,單張GPU無法完成訓(xùn)練任務(wù),需要聯(lián)合多張GPU,乃至多臺服務(wù)器搭建集群協(xié)同工作,并需要GPU及服務(wù)器之間進(jìn)行數(shù)據(jù)傳輸交互。由于大模型數(shù)據(jù)量極大,在機器學(xué)習(xí)訓(xùn)練過程中,數(shù)據(jù)傳輸速度成為制約訓(xùn)練速度提升的瓶頸。在早期,GPU,PCIeGPUPCIePCIe/PIeSwtchPCIExpress(PeripheralComponentInterconnectExpress,簡稱PCIe)總線是一種高速串行計算機擴展總線標(biāo)準(zhǔn)。廣泛應(yīng)用于顯GPUSSDCPUPCIe由PCISIG(PCISpecialInterestGroupIntel、AMDNVidiaDellEMCKeysight、Synopsys、ARM、QualcommVTM700PCIe屬于高速串行點對點雙通道高帶寬傳輸,所連接的設(shè)備分配獨享通道帶寬,這意味著它是直接連接兩個設(shè)備,而不是像傳統(tǒng)的PCI總線那樣共享總線。這種設(shè)計可以大大減少數(shù)據(jù)傳輸中的延遲和干擾。在物理層方面,PCIe12.5Gbps25Gbps38Gbps416Gbps532Gbps,其典型連接方式有金手指連接、背板連接、芯片直接互聯(lián)以及電纜連接等。根據(jù)不同的總線帶寬需求,其連接位寬可以選擇X1、X4X8、X16X16516Gbps128GB/s2023PCIe5.02022111PCI-SIGPCIExpress6.0最終(1.0)規(guī)范。延續(xù)了以往慣例,帶寬速度繼續(xù)增倍,使其在每個8GB/x16128GB/sPCIe256GB/s。圖32.PCIe各個版本規(guī)范的帶寬信息匯總2022PCI-SIG,PCI-SIGPCIe7.0PCIe7.0PCIe16GB/x16256GB/128GT/s。圖33.PCIe協(xié)議發(fā)展路標(biāo)按照目前業(yè)內(nèi)主流AI芯片互聯(lián)方,式可分為PCIe/NVlink(或等同的其他國產(chǎn)自研互聯(lián)協(xié)議)。形態(tài)一:PCIe互聯(lián)的AI服務(wù)器架構(gòu)系統(tǒng):來源:中科可控圖34.PCIe互聯(lián)的AI服務(wù)器系統(tǒng)設(shè)計整體包含硬件系統(tǒng)架構(gòu)系統(tǒng)、機構(gòu)模塊系統(tǒng)、電源模塊系統(tǒng)、散熱系統(tǒng)、服務(wù)器基礎(chǔ)軟件BIOS和BMC系統(tǒng)。硬件系統(tǒng)架構(gòu)模塊包含CPU計算主板、底板、硬盤擴展背板這些板卡。來源:浪潮圖35.服務(wù)器主板邏輯圖GPUswitch12PCIeslot,從PCIeSW擴展,每個slot可提供x16帶寬,實現(xiàn)balance\common\cascadeBalance36.Balance拓?fù)涮攸c:每顆CPU下連接一個PCIeSwitch,每個PCIeSwitch4GPUCPU但遠(yuǎn)端GPUP2PCPUUPI適用場景:適用于HPC、VDI、公有云、AI訓(xùn)練等場景,是PCIE互聯(lián)主板的主流拓?fù)?。Common37.CommonCPU02PCIeSwitch,每個PCIeSwitch4GPUGPU通信無需跨CPUGPUP2PCPUP2PResnet101/50。Cascade38.CascadeCPU0PCIeSwitchPCIeSwitchPCIeSwitchPCIeSwitch4GPU。SwitchGPUP2PCPUGPUCPUP2PVGG-16。來源:浪潮圖39.機構(gòu)系統(tǒng)整體布局例:沐曦MXC50016-lanePCIe5.0128GB/sMXC500PCIe8PCIeMXC500PCIe42PCIeSwitch來源:沐曦圖40.沐曦PCIe系統(tǒng)互聯(lián)圖NVlinkNVSwtchGPUPCIe結(jié)構(gòu)。例如,使用PCIe4.0x1664GB/s嚴(yán)重的是,當(dāng)GPUPCIeCPUPCIeNVIDIAP100GPUGPUNVLinkNVLinkGPUsGPUCPU比傳統(tǒng)的PCIExpress(PCIe)來源:英偉達(dá)圖41.兩GPU通過PCIe總線與通過NVLink通信對比NVLink2016NVIDIAPascalGPUNVIDIAGPU隨著新一代NVLink。來源:英偉達(dá)圖42.NVLink各代與GPU同步演進(jìn)2017NVIDIAHGX-1/DGX-18V100的混合立方網(wǎng)格拓?fù)浣Y(jié)構(gòu)。盡管每個V100GPU6NVLinkGPU之間的最大連接只2NVLink100G/sGPUCPUPCIeCPUQPI(QuickPathInterconnect)CPUNodeCPUNodeGPU來源:英偉達(dá)圖43.HGX-1/DGX-1網(wǎng)格拓?fù)浣Y(jié)構(gòu)8GPU2018GPU(GTC)就像PCIe通過PCIeSwitch來擴展其拓?fù)洌琋VIDIA也通過NVSwitchNVLinkNVIDIANVSwitch換架構(gòu),可支持單個服務(wù)器節(jié)點中16個全互聯(lián)的GPU部8個GPU對分別達(dá)到300GB/s16GPU(32GBV100)用,作為單個大型加速器,擁有0.5TB的統(tǒng)一顯存空間以及2PetaFLOPS來源:英偉達(dá)圖44.NVSwitch發(fā)展來源:英偉達(dá)圖45.NVSwitch性能使用第四代NVLinkNVSwitchNVIDIAH100TensorCoreGPU,具有3.6TB/s的等分帶寬(bisectionbandwidth)450GB/s(AllReducebandwidth)。1.53來源:英偉達(dá)圖46.第三代NVSwitch芯片借助第四代NVLink、第三代NVSwitch以及外部的NVIDIANVLinkSwitch,NVLinkDGX/HGXNvlinkAI來源:英偉達(dá)圖47.NVLink互聯(lián)的AI服務(wù)器來源:英偉達(dá)圖48.HGXA1008-GPU物理視圖來源:英偉達(dá)圖49.HGXA1008-GPU基板的邏輯圖來源:浪潮圖50.服務(wù)器主板邏輯機構(gòu)系統(tǒng)整體布局如下圖所示:來源:浪潮圖51.搭載HGX模組AI服務(wù)器廠商方案OAIOAI(OpenAcceleratorInfrastructure)是一個廣泛的硬件接口規(guī)范,旨在標(biāo)準(zhǔn)化高性能計算中的加速器部署,確保加速器模塊如GPU、FPGA和其他特定的硬件能夠適應(yīng)并且在數(shù)據(jù)中心環(huán)境中進(jìn)行標(biāo)準(zhǔn)化部署。來源:《OCPUniversalBaseboard(UBB)DesignSpecificationv1.5》圖52.OAI系統(tǒng)構(gòu)建(UniversalBaseboard,UBB)采用模塊化設(shè)計,具有高度的靈活性,旨在適配OAM(OpenAcceleratorModule)模塊,并為未來的系統(tǒng)設(shè)計提供極大的可擴展性。UBB最大可以支持8個OAM(TDP)以優(yōu)化設(shè)計后的Gaudi2HLBA-2258Gaudi2Mezzanine來源:《HABANAGAUDI2WHITEPAPER》圖53.HLBA-225關(guān)鍵組件每個OAM24x100GbEPAM4SerDes21間互聯(lián),36QSFP-DD來源:《HABANAGAUDI2WHITEPAPER》圖54.HLBA-225高速框圖來源:《HABANAGAUDI2WHITEPAPER》圖55.基于HLBA-255基板的HLS-Gaudi2系統(tǒng)布局昆侖芯XPU-Link昆侖芯二代架構(gòu)XPU-RXPULinkPCIeR300UBB2個通信環(huán)路,每個R300200GB/sAIAI圖56.昆侖芯架構(gòu)圖8IBRoCER300(比如:100G200G),節(jié)點XPULinkR300RDMA沐曦MetaXLinkMXC500MetaXLinkMetaXLink,MXC500PCIe4FC(FulledConnected)圖57.MXC500PCIe產(chǎn)品支持4卡FC拓?fù)鋱DMXC500OAM產(chǎn)品支持8卡FC拓?fù)洌缦聢D:58.MXC500OAM8FC海光xHCL海光DCU自研xHCL(externalHygonChipLink)卡間互聯(lián)技術(shù),其是一種用于跨多個GPU的高速內(nèi)存互連技術(shù)。它允許多個GPU在高速通信通道上直接交換數(shù)據(jù),而無需通過主機內(nèi)存進(jìn)行傳輸。GPUGPU24來源:海光圖59.海光xHCL連接方案(四)分布式訓(xùn)練GPTGPT-31.171750()也由5GB提升至45TB。為了縮短訓(xùn)練時長,常采用分布式訓(xùn)練方法,將模型和數(shù)據(jù)進(jìn)行分割,并利用多機多卡并行處理,從而將訓(xùn)練時間減少至數(shù)月甚至數(shù)周。圖60.AI模型快速成熟,驅(qū)動計算平臺持續(xù)迭代演進(jìn)集群網(wǎng)絡(luò)AI集群對網(wǎng)絡(luò)性能有著更高的要求,特別是因為東西向流量的快AIGPU數(shù)據(jù)并行訓(xùn)練:單個模型在多個設(shè)備上復(fù)制,并分別處理不同模型并行訓(xùn)練:單個模型的不同部分在不同設(shè)備上運行。流水線并行訓(xùn)練:將模型的不同層放置到不同的計算設(shè)備上,降低每個設(shè)備的顯存消耗。其中,解決服務(wù)器間通信瓶頸是并行訓(xùn)練的核心挑戰(zhàn),特別是NVLINK(900GB/s)高速光模塊需求的持續(xù)增長,其迭代速度也變得更快。在推理工作負(fù)載方面,AI集群將更多時間分配給用戶請求的處理。由于使用了vGPU虛擬計算技術(shù)和需要滿足多用戶的并發(fā)訪問,多臺服務(wù)器的處理變得尤為必要。由于服務(wù)器節(jié)點眾多且跨服務(wù)器通信需求巨大,網(wǎng)絡(luò)帶寬成為限制GPU集群性能的瓶頸。解決方法包括增加單節(jié)點的通信帶寬和降低網(wǎng)絡(luò)的收斂比。RDMAsendsendtoCPU在用戶態(tài)和內(nèi)核態(tài)之間頻繁切換,這會消耗大CPU核空間,并在接收時進(jìn)行反向復(fù)制,這增加了數(shù)據(jù)傳輸?shù)难舆t。最后,CPU這會對CPURemoteDirectMemoryAccess(RDMA)允許兩臺聯(lián)網(wǎng)的計算機在不依賴于任一計算機的處理器、緩存或操作系統(tǒng)的情況下在主內(nèi)存中交換數(shù)據(jù)。RDMA通過釋放資源來提高吞吐量和性能,從而在支持RDMA的系統(tǒng)之間實現(xiàn)更快的數(shù)據(jù)傳輸速率和更低的延遲。圖61.RDMA技術(shù)RDMA主內(nèi)存直接讀取數(shù)據(jù)并直接寫入另一臺計算機的主內(nèi)存成為可能。RDMARDMA圖62.傳統(tǒng)模式vsRDMA模式網(wǎng)絡(luò)通信InfiniBandInfiniBand是一個行業(yè)標(biāo)準(zhǔn)規(guī)范,定義了用于連接服務(wù)器、通/InfiniBand發(fā)送/接收以及無需軟件干預(yù)的內(nèi)存操作語義(RDMA)確保了最低的延遲和最高的應(yīng)用程序性能。圖63.IB網(wǎng)絡(luò)協(xié)議InfiniBandHPCAI地擴展到數(shù)千個節(jié)點。這種可擴展性對于需要跨多個計算節(jié)點進(jìn)行InfiniBand10Gb/s400Gb/s20236TOP50010063了IB低延遲:InfiniBand的超低延遲,其端到端的測量延遲為600納秒,InfiniBandAI如GPU、CPU高效性:InfiniBand提供了對高級可靠傳輸協(xié)議的支持,例如遠(yuǎn)程直接內(nèi)存訪問(RDMA),以確??蛻艄ぷ髫?fù)載處理的最高效率。RDMA顯著地減少了CPU開銷和延遲,使其非常適合涉及節(jié)點之間頻繁數(shù)據(jù)交換的分布式訓(xùn)練工作負(fù)載。結(jié)構(gòu)整合和低能耗:InfiniBand可以在單個結(jié)構(gòu)上整合網(wǎng)絡(luò)、集群和存儲數(shù)據(jù),顯著降低了服務(wù)器和存儲所需的總功率、占地面積和管理開銷。為了支持日益增加的虛擬化解決方案部署,InfiniBand可以處理連接到單一物理端口的多個虛擬機,從而顯著減少了子網(wǎng)管理器的負(fù)擔(dān)。可靠、穩(wěn)定的連接:InfiniBand非常適合滿足今天企業(yè)的關(guān)鍵任務(wù)需求,因為它可以實現(xiàn)完全冗余且無損的I/O大的錯誤檢測和糾正機制,確保數(shù)據(jù)傳輸?shù)目煽啃?,以及自動路徑故障轉(zhuǎn)移和鏈路層多路徑功能,以滿足最高的可用性水平。它還支AI來源:IBTA圖64.IB網(wǎng)絡(luò)發(fā)展路標(biāo)RoCE(RDMAoverConvergedEthernet)網(wǎng)絡(luò)RoCERDMARoCE勢在于它的延遲較低,因此可提高網(wǎng)絡(luò)利用率;同時它可避開TCP/IPCPU圖65.RoCEv1和RoCEv2包結(jié)構(gòu)RoCEv1RDMAIB通過Ethertype0x8915RoCERoCEv2UDP/IPRDMAIBUDPIPUDP4791RoCERoCEv2支持基于源端口號hash,采用ECMPRoCEv2IBRDMAPFC,ECNPFC(PriorityFlowControl,基于優(yōu)先級的流量控制)為多種流量類型提供了基于每一跳的優(yōu)先級控制。當(dāng)交換設(shè)備轉(zhuǎn)發(fā)報文時,它會通過查詢優(yōu)先級映射表來確定報文的優(yōu)先級,并將報文分配到相應(yīng)的隊列進(jìn)行調(diào)度和轉(zhuǎn)發(fā)。當(dāng)某一優(yōu)先級的報文的發(fā)送速率超過其接收速率,且接收端緩存空間不足時,接收端會向發(fā)送端發(fā)送PFCPFCPFCXONPFC可以暫?;蛑匦聠尤魏侮犃?,而不會中斷其他隊列中的流量,這來源:華為圖66.PFC工作機制ECN(ExplicitCongestionNotification)是IPECNIPECNECN表1:RoCE,IB對比IBRoCEv2開放性私有技術(shù),專用專網(wǎng)開放以太,融合網(wǎng)絡(luò)國產(chǎn)化被美國NVIDIA收購基于開放標(biāo)準(zhǔn),自主可控成本高低開局部署即插即用較復(fù)雜,ZTP可簡化部署傳輸帶寬演進(jìn)較慢領(lǐng)先傳輸時延低靜態(tài)時延略高,總體持平流控?zé)o損-信用值無損-PFC管控面集中式分布式兼容IP生態(tài)不兼容兼容云化部署差(不支持VXLAN)好,支持租戶配置動態(tài)部署產(chǎn)業(yè)生態(tài)一家獨大,發(fā)展受限,運維支持能力有限規(guī)模大,發(fā)展迅速,運維支持好高可擴展性:這兩種網(wǎng)絡(luò)協(xié)議都具有高可擴展性和靈活性,其中InfinibandInfiniband個節(jié)點。此外,它還提供相對簡單且可擴展的架構(gòu)。高性能:RoCE提高了企業(yè)數(shù)據(jù)中心的速度和功率,同時降低了總體擁有成本,而無需更換以太網(wǎng)基礎(chǔ)設(shè)施。Infiniband,它使用串行鏈路和總線一次一位地發(fā)送數(shù)據(jù),從而實現(xiàn)更快、更高效的通信。IB口承載大量應(yīng)用,增加了企業(yè)的計算成本、維護(hù)成本和管理成本。相比之下,使用以太網(wǎng)交換機的RoCE更具成本效益。因此,InfinibandHPC網(wǎng)絡(luò)設(shè)備:RoCE是通過以太網(wǎng)交換機實現(xiàn)數(shù)據(jù)傳輸,而Infiniband則采用獨立架構(gòu)的IB交換機來承載應(yīng)用。通常,IB交換機必須與支持IB協(xié)議的設(shè)備互連,并且相對封閉且難以更換。對于智算網(wǎng)絡(luò),核心需求是:0丟包、高帶寬、大規(guī)模、無收斂圖67:傳統(tǒng)通用計算集群網(wǎng)絡(luò)vs智算集群網(wǎng)絡(luò)在大型模型的訓(xùn)練過程中,主要通信發(fā)生在相同編號的GPU卡112卡與另一個2號卡間,依此類推。跨卡號通信較為少見。以英偉達(dá)HGX8業(yè)務(wù)網(wǎng)卡,跨服務(wù)器的東西流量通過網(wǎng)卡實現(xiàn),服務(wù)器內(nèi)部通信,通過NVLink來源:英偉達(dá)圖68.單據(jù)HGX系統(tǒng)內(nèi)8網(wǎng)卡通信88GPU8Leaf8Leaf8SpineLeaf來源:英偉達(dá)圖69.SUPERPPD單個單元網(wǎng)絡(luò)拓?fù)溆ミ_(dá)SUPERPOD設(shè)計中IB

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論