淺談ChatGPT技術(shù)背后的超算

上傳人：1*** IP屬地：湖南上傳時間：2024-03-02 格式：DOC 頁數(shù)：6 大?。?08KB 積分：6 舉報 版權(quán)申訴

已閱讀5頁，還剩1頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

淺談ChatGPT技術(shù)背后的超算ChatGPT能成為如今火遍全球的頂流模型，少不了背后超強的算力。

數(shù)據(jù)顯示，ChatGPT的總算力消耗約為3640PF-days（即假如每秒計算一千萬億次，需要計算3640天）。

那么，作為依托的那臺微軟專為OpenAI打造的超級計算機，又是如何誕生的呢？

周一，微軟在官博上連發(fā)兩文，親自解密這臺超級昂貴的超級計算機，以及Azure的重磅升級——加入成千上萬張英偉達(dá)最強的H100顯卡以及更快的InfiniBand網(wǎng)絡(luò)互連技術(shù)。

基于此，微軟也官宣了最新的NDH100v5虛擬機，具體規(guī)格如下：

8個NVIDIAH100TensorCoreGPU通過下一代NVSwitch和NVLink4.0互聯(lián)每個GPU有400Gb/s的NVIDIAQuantum-2CX7InfiniBand，每個虛擬機有3.2Tb/s的無阻塞胖樹型網(wǎng)絡(luò)NVSwitch和NVLink4.0在每個虛擬機的8個本地GPU之間具有3.6TB/s的雙向帶寬第四代英特爾至強可擴展處理器PCIEGen5到GPU互連，每個GPU有64GB/s帶寬16通道4800MHzDDR5DIMM數(shù)億美元撐起來的算力大約五年前，OpenAI向微軟提出了一個大膽的想法——建立一個可以永遠(yuǎn)改變?nèi)藱C交互方式的人工智能系統(tǒng)。

當(dāng)時，沒人能想到，這將意味著AI可以用純語言創(chuàng)造出人類所描述的任何圖片，人類可以用聊天機器人來寫詩、寫歌詞、寫論文、寫郵件、寫菜單……

為了建立這個系統(tǒng)，OpenAI需要很多算力——可以真正支撐起超大規(guī)模計算的那種。

但問題是，微軟能做到嗎？

畢竟，當(dāng)時既沒有能滿足OpenAI需要的硬件，也無法確定在Azure云服務(wù)中構(gòu)建這樣龐大的超級計算機會不會直接把系統(tǒng)搞崩。

隨后，微軟便開啟了一段艱難的摸索。

為了構(gòu)建支持OpenAI項目的超級計算機，它斥資數(shù)億美元，在Azure云計算平臺上將幾萬個NvidiaA100芯片連接在一起，并改造了服務(wù)器機架。

此外，為了給OpenAI量身打造這個超算平臺，微軟十分盡心，一直在密切關(guān)注著OpenAI的需求，隨時了解他們在訓(xùn)練AI時最關(guān)鍵的需要。

這么一個大工程，成本究竟是多少呢？微軟負(fù)責(zé)云計算和人工智能的執(zhí)行副總裁ScottGuthrie不愿透露具體數(shù)目，但他表示，「可能不止」幾億美元。

OpenAI出的難題微軟負(fù)責(zé)戰(zhàn)略合作伙伴關(guān)系的高管PhilWaymouth指出，OpenAI訓(xùn)練模型所需要的云計算基礎(chǔ)設(shè)施規(guī)模，是業(yè)內(nèi)前所未有的。

呈指數(shù)級增長的網(wǎng)絡(luò)GPU集群規(guī)模，超過了業(yè)內(nèi)任何人試圖構(gòu)建的程度。

微軟之所以下定決心與OpenAI合作，是因為堅信，這種前所未有的基礎(chǔ)設(shè)施規(guī)模將改變歷史，造出全新的AI，和全新的編程平臺，為客戶提供切實符合他們利益的產(chǎn)品和服務(wù)。

現(xiàn)在看來，這幾億美元顯然沒白花——寶押對了。

在這臺超算上，OpenAI能夠訓(xùn)練的模型越來越強大，并且解鎖了AI工具令人驚嘆的功能，幾乎開啟人類第四次工業(yè)革命的ChatGPT，由此誕生。

非常滿意的微軟，在1月初又向OpenAI狂砸100億美元。

可以說，微軟突破AI超算界限的雄心，已經(jīng)得到了回報。而這背后體現(xiàn)的，是從實驗室研究，到AI產(chǎn)業(yè)化的轉(zhuǎn)變。

目前，微軟的辦公軟件帝國已經(jīng)初具規(guī)模。

ChatGPT版必應(yīng)，可以幫我們搜索假期安排；VivaSales中的聊天機器人可以幫營銷人員寫郵件；GitHubCopilot可以幫開發(fā)者續(xù)寫代碼；AzureOpenAI服務(wù)可以讓我們訪問OpenAI的大語言模型，還能訪問Azure的企業(yè)級功能。

和英偉達(dá)聯(lián)手其實，在去年11月，微軟就曾官宣，要與Nvidia聯(lián)手構(gòu)建「世界上最強大的AI超級計算機之一」，來處理訓(xùn)練和擴展AI所需的巨大計算負(fù)載。

這臺超級計算機基于微軟的Azure云基礎(chǔ)設(shè)施，使用了數(shù)以萬計個NvidiaH100和A100TensorCoreGPU，及其Quantum-2InfiniBand網(wǎng)絡(luò)平臺。

Nvidia在一份聲明中表示，這臺超級計算機可用于研究和加速DALL-E和StableDiffusion等生成式AI模型。

隨著AI研究人員開始使用更強大的GPU來處理更復(fù)雜的AI工作負(fù)載，他們看到了AI模型更大的潛力，這些模型可以很好地理解細(xì)微差別，從而能夠同時處理許多不同的語言任務(wù)。

簡單來說，模型越大，你擁有的數(shù)據(jù)越多，你能訓(xùn)練的時間越長，模型的準(zhǔn)確性就越好。

但是這些更大的模型很快就會到達(dá)現(xiàn)有計算資源的邊界。而微軟明白，OpenAI需要的超級計算機是什么樣子，需要多大的規(guī)模。

這顯然不是說，單純地購買一大堆GPU并將它們連接在一起之后，就可以開始協(xié)同工作的東西。

微軟Azure高性能計算和人工智能產(chǎn)品負(fù)責(zé)人NidhiChappell表示：「我們需要讓更大的模型訓(xùn)練更長的時間，這意味著你不僅需要擁有最大的基礎(chǔ)設(shè)施，你還必須讓它長期可靠地運行?！?/p>

Azure全球基礎(chǔ)設(shè)施總監(jiān)AlistairSpeirs表示，微軟必須確保它能夠冷卻所有這些機器和芯片。比如，在較涼爽的氣候下使用外部空氣，在炎熱的氣候下使用高科技蒸發(fā)冷卻器等。

此外，由于所有的機器都是同時啟動的，所以微軟還不得不考慮它們和電源的擺放位置。就像你在廚房里同時打開微波爐、烤面包機和吸塵器時可能會發(fā)生的情況，只不過是數(shù)據(jù)中心的版本。

大規(guī)模AI訓(xùn)練完成這些突破，關(guān)鍵在哪里？

難題就是，如何構(gòu)建、操作和維護數(shù)萬個在高吞吐量、低延遲InfiniBand網(wǎng)絡(luò)上互連的共置GPU。

這個規(guī)模，已經(jīng)遠(yuǎn)遠(yuǎn)超出了GPU和網(wǎng)絡(luò)設(shè)備供應(yīng)商測試的范圍，完全是一片未知的領(lǐng)域。沒有任何人知道，在這種規(guī)模下，硬件會不會崩。

微軟Azure高性能計算和人工智能產(chǎn)品負(fù)責(zé)人NidhiChappell解釋道，在LLM的訓(xùn)練過程中，涉及到的大規(guī)模計算通常會被劃分到一個集群中的數(shù)千個GPU上。

在被稱為allreduce的階段，GPU之間會互相交換它們所做工作的信息。此時就需要通過InfiniBand網(wǎng)絡(luò)進行加速，從而讓GPU在下一塊計算開始之前完成。

NidhiChappell表示，由于這些工作跨越了數(shù)千個GPU，因此除了要確?；A(chǔ)設(shè)施的可靠外，還需要大量很多系統(tǒng)級優(yōu)化才能實現(xiàn)最佳的性能，而這是經(jīng)過許多代人的經(jīng)驗總結(jié)出來的。

所謂系統(tǒng)級優(yōu)化，其中就包括能夠有效利用GPU和網(wǎng)絡(luò)設(shè)備的軟件。

在過去的幾年里，微軟已經(jīng)開發(fā)出了這種技術(shù)，在使訓(xùn)練具有幾十萬億個參數(shù)的模型的能力得到增長的同時，降低了訓(xùn)練和在生產(chǎn)中提供這些模型的資源要求和時間。

Waymouth指出，微軟和合作伙伴也一直在逐步增加GPU集群的容量，發(fā)展InfiniBand網(wǎng)絡(luò)，看看他們能在多大程度上推動保持GPU集群運行所需的數(shù)據(jù)中心基礎(chǔ)設(shè)施，包括冷卻系統(tǒng)、不間斷電源系統(tǒng)和備用發(fā)電機。

微軟AI平臺公司副總裁EricBoyd表示，這種為大型語言模型訓(xùn)練和下一波AI創(chuàng)新而優(yōu)化的超算能力，已經(jīng)可以在Azure云服務(wù)中直接獲得。

并且微軟通過與OpenAI的合作，積累了大量經(jīng)驗，當(dāng)其他合作方找來、想要同樣的基礎(chǔ)設(shè)施時，微軟也可以提供。

現(xiàn)在，微軟的Azure數(shù)據(jù)中心已經(jīng)覆蓋了全球60多個地區(qū)。

全新虛擬機：NDH100v5在上面這個基礎(chǔ)架構(gòu)上，微軟一直在繼續(xù)改進。

今天，微軟就官宣了全新的可大規(guī)模擴展虛擬機，這

人人文庫> 全部分類> 圖紙下載 > 課程設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

淺談ChatGPT技術(shù)背后的超算

文檔簡介

溫馨提示

最新文檔

評論

淺談ChatGPT技術(shù)背后的超算

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔