版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ChatGPT對GPU算力的需求測算與相關分析1.ChatGPT是什么——OpenAI開發(fā)的聊天機器人,擁有創(chuàng)造能力生成式AI:實現創(chuàng)造,部分領域的能力超越人類的基準水平不同于分析式AI只能做些分析型或機械式的認知計算,生成式AI可以創(chuàng)造有意義并具備美感的東西,而且在某些情況下,其生成的結果可能比人類手工創(chuàng)造的還要好。機器可以分析數據,并針對不同用例需求找到相應的規(guī)律,且在不斷迭代,變得越來越聰明,這種機器被稱為“分析式人工智能”(AnalyticalAI),或者傳統AI。機器并非如之前那樣僅分析已有的數據,而是創(chuàng)造了全新的東西,這一新型的AI被稱為“生成式人工智能”(GenerativeAI)。2017年谷歌推出一種用于自然語言理解的新型神經網絡架構——Transformers模型,不但能生成質量上乘的語言模型,同時具有更高的可并行性,大大降低了所需的訓練時間。這些小樣本學習模型,可以更容易地針對特定領域做定制修改。2015-2020年,用于訓練這些模型的計算量增加了6個數量級,其表現在手寫、語音和圖像識別、閱讀理解和語言理解方面超過了人類的基準水平。預訓練模型:大模型提高準確率,2018年開始步入快車道預訓練模型使得模型的訓練可以被復用,大幅降低訓練成本,但是前期需要大量的數據進行預訓練。預訓練模型是一種遷移學習的應用,對句子每一個成員的上下文進行相關的表示,通過隱式的方式完成了語法語義知識的學習。預訓練模型通過微調的方式具備很強的擴展性,每次擴展到新場景時,只需要針對這個場景的特定標注數據進行定向的學習,便可以快速應用。ChatGPT:基于OpenAI推出的深度學習模型GPT打造,成為迄今增長最快的消費應用程序ChatGPT(ChatGenerativePre-trainedTransformer,聊天生成式預訓練器)是OpenAI開發(fā)的聊天機器人,于2022年11月推出。它建立在OpenAI開發(fā)的GPT-3大型語言模型之上,并使用監(jiān)督學習和強化學習(人類監(jiān)督)技術進行了微調。雖然聊天機器人的核心功能是模仿人類談話者,但ChatGPT是多功能的。例如,它可以編寫和調試計算機程序,創(chuàng)作音樂、電視劇、童話故事和學生論文;回答測試問題(有時根據測試的不同,答題水平要高于平均水平);寫詩和歌詞;模擬Linux系統;模擬整個聊天室等。ChatGPT背后的公司為OpenAI,成立于2015年,由特斯拉CEO埃隆·馬斯克、PayPal聯合創(chuàng)始人彼得·蒂爾、Linkedin創(chuàng)始人里德·霍夫曼、創(chuàng)業(yè)孵化器YCombinator總裁阿爾特曼(SamAltman)等人出資10億美元創(chuàng)立。OpenAI的誕生旨在開發(fā)通用人工智能(AGI)并造福人類。ChatGPT中的GPT(GenerativePre-trainedTransformer),是OpenAI推出的深度學習模型。ChatGPT就是基于GPT-3.5版本的聊天機器人。截至2022年12月4日,OpenAI估計ChatGPT用戶已經超過100萬;2023年1月,ChatGPT用戶超過1億,成為迄今增長最快的消費應用程序。2023年2月,OpenAI開始接受美國客戶注冊一項名為ChatGPTPlus的高級服務,每月收費20美元;此外,OpenAI正計劃推出一個每月42美元的ChatGPT專業(yè)計劃,當需求較低時可以免費使用。算力需求:計算資源每3~4個月翻一倍,投入資金指數級增長OpenAI預計人工智能科學研究要想取得突破,所需要消耗的計算資源每3~4個月就要翻一倍,資金也需要通過指數級增長獲得匹配。在算力方面,GPT-3.5在微軟AzureAI超算基礎設施(由V100GPU組成的高帶寬集群)上進行訓練,總算力消耗約3640PF-days(即每秒一千萬億次計算,運行3640天)。在大數據方面,GPT-2用于訓練的數據取自于Reddit上高贊的文章,數據集共有約800萬篇文章,累計體積約40G;GPT-3模型的神經網絡是在超過45TB的文本上進行訓練的,數據相當于整個維基百科英文版的160倍。2.GPGPU是什么——通用計算GPU,算力強大,應用于加速計算場景GPU是什么?GPU(GraphicsProcessingUnit,圖形處理器):是一種專門在個人電腦、工作站、游戲機和一些移動設備(如平板電腦、智能手機等)上做圖像加速和通用計算工作的微處理器。GPU是英偉達公司在1999年8月發(fā)表NVIDIAGeForce256(GeForce256)繪圖處理芯片時首先提出的概念。GPU應用場景。圖形加速:此時GPU內部的頂點渲染、像素渲染以及幾何渲染操作都可以通過流處理器完成。通用計算:計算通常采用CPU+GPU異構模式,由CPU負責執(zhí)行復雜邏輯處理和事務處理等不適合數據并行的計算,由GPU負責計算密集型的大規(guī)模數據并行計算。從GPU到GPGPU的跨越,英偉達CUDA降低開發(fā)門檻GPGPU(general-purposeGPU,通用計算圖形處理器),利用圖形處理器進行非圖形渲染的高性能計算。為了進一步專注通用計算,GPGPU去掉或減弱GPU的圖形顯示部分能力,將其余部分全部投入通用計算,實現處理人工智能、專業(yè)計算等加速應用。2007年6月,NVIDIA推出了CUDA(ComputerUnifiedDeviceArchitecture計算統一設備結構)。CUDA是一種將GPU作為數據并行計算設備的軟硬件體系。在CUDA的架構中,不再像過去GPU架構那樣將通用計算映射到圖形API中,對于開發(fā)者來說,CUDA的開發(fā)門檻大大降低了。CUDA的編程語言基于標準C,因此任何有C語言基礎的用戶都很容易地開發(fā)CUDA的應用程序。由于這些特性,CUDA在推出后迅速發(fā)展,被廣泛應用于石油勘測、天文計算、流體力學模擬、分子動力學仿真、生物計算、圖像處理、音視頻編解碼等領域。2020年GPU全球市場254億美元,獨顯市場英偉達份額約80%根據VerifiedMarketResearch數據,2020年,全球GPU市場規(guī)模為254.1億美元(約1717.2億人民幣)。隨著需求的不斷增長,預計到2028年,這一數據將達到2465.1億美元(約1.67萬億人民幣),年復合增長率為32.82%。市場研究機構JonPeddieResearch的最新數據顯示,2022年二季度,全球獨立GPU市場出貨量同比增長2.4%至1040萬臺,但是較一季度環(huán)比則下滑了22.6%。從市場份額來看,英偉達的獨立GPU的市場份額從22Q1的75%增加到22Q2的79.6%,保持了與去年同期相當的份額。AMD和Intel則分別占比20%/1%。中國市場,GPU服務器在AI服務器中占比92%,占主導地位據IDC數據,2021年,全球AI服務器市場規(guī)模達156億美元,同比增長39.1%;IDC預測,2025年全球AI服務器市場規(guī)模將達317.9億美元,年復合增長率為19%。IDC報告顯示,2021年中國加速服務器市場規(guī)模達到53.9億美元(約350.3億人民幣),同比+68.6%;預計到2026年將達到103.4億美元。年復合增長率為19%,占全球整體服務器市場近三成。根據IDC數據,2021年,GPU服務器以91.9%的份額占國內加速服務器市場的主導地位;NPU、ASIC和FPGA等非GPU加速服務器占比8.1%。IDC預計2024年中國GPU服務器市場規(guī)模將達到64億美元。從行業(yè)的角度看,互聯網依然是最大的采購行業(yè),占整體加速服務器市場近60%的份額;2021年,用于推理工作負載的加速服務器占比已經達到57.6%,預計到2026年將超過60%。3.GPGPU的壁壘是什么——高精度浮點計算+CUDA生態(tài)壁壘一——高精度浮點計算CPU是串行處理器,而GPU是并行處理器。在機器學習中,絕大多數任務會涉及到耗費時間的大量運算,而且隨著數據集的增加,運算量會越來越大。解決這個問題的一個方法就是使用多線程并行計算。CUDA核能夠以相對稍慢的速度運行,但是能夠通過使用大量運算邏輯單元(ALU)來提供很大的并行度。每個GPU核都能運行一個獨立的線程,對于矩陣相乘運算來說大大縮短了計算時間。對于每個小片的結果可以由一組線程負責,其中每個線程對應小片中的一個元素。這個線程組將A的行小片和B的列小片一一載入共享內存,在共享內存上對其做矩陣相乘,然后疊加在原有結果上。所以對于2000×2000的矩陣乘法,只需要2000次并行運行。但是對于CPU來說,因為是串行計算的,所以需要4000000次運行。人工智能的實現包括兩個環(huán)節(jié):推理(Inference)和訓練(Training)訓練需要密集的計算得到模型,沒有訓練,就不可能會有推理。訓練是指通過大數據訓練出一個復雜的神經網絡模型,通過大量標記過的數據來訓練相應的系統得到模型,使其能夠適應特定的功能。訓練需要較高的計算性能、能夠處理海量的數據、具有一定的通用性,以便完成各種各樣的學習任務(大數據分析淘寶推薦“你可能感興趣的產品”模型)。推理是指利用訓練好的模型,使用新數據推理出各種結論。借助神經網絡模型進行運算,利用輸入的新數據來一次性獲得正確結論的過程。這也有叫做預測或推斷(用戶打開手機被推送“可能感興趣的產品”)。AI推理端:浮點型量化為整形數據,降低算力、加速推理、降低功耗量化是通過一組離散符號或整數值去逼近一個連續(xù)信號的過程,利用低比特量化(權重或激活)可以在不影響精度的前提下加快推理階段。隨著模型越來越大,需求越來越高,模型的量化自然是少不了的一項技術。在低比特表達中(如FP16、INT16、FP8、INT8、INT4等),INT8因兼顧效率和精度,而被廣泛采用。一方面,INT8的運行速度是FP16/INT16的兩倍,并且相比FP8,能被更多的硬件設備支持。另一方面,INT8的量化范圍(-128~127)比INT4(-8~7)或其它更低的比特(小于4比特)大,表達能力更強。經過INT8量化后的模型:模型容量變小了,FP32的權重變成INT8,大小直接縮了4倍模型,運行速度可以提升,使用INT8的模型耗電量更少,對于嵌入式側端設備來說提升巨大。4.GPGPU主要應用場景——AI計算和高性能計算GPGPU在計算領域應用:AI計算和高性能計算GPU在通用計算領域分為兩種應用場景,人工智能(AI)計算和高性能計算(HPC)。AI所需的計算力不需要太高精度。一些AI應用需要處理的對象是語音、圖片或視頻,運行低精度計算甚至整型計算即可完成推理或訓練。智能計算機是一種專用算力,它們在推理或訓練等智能計算方面的確表現出色,但由于AI推理或訓練一般僅用到單精度甚至半精度計算、整型計算,多數智能計算機并不具備高精度數值計算能力,這也限制其在AI計算之外的應用場景使用。英偉達新推出的H100芯片搭載Transformer引擎,使用每層統計分析來確定模型每一層的最佳精度(FP16或FP8),在保持模型精度的同時實現最佳性能,相較于上一代產品提供9倍的訓練吞吐量,性能提升6倍。高性能計算是一種通用算力,設計目標是提供完備、復雜的計算能力,在高精度計算上能力更強。應用場景包括行星模擬、分子藥物設計等。超級計算機主要測試的是雙精度浮點運算能力(FP64)。對比單精度(32位,FP32)、半精度(16位,FP16)以及整數類型(如INT8、INT4)等,數字位數越高,意味著人們可以在更大范圍內的數值內體現0/1兩個數值的變化,從而實現更精確計算。AI芯片的三種較為主流的技術路線——GPU、FPGA和ASICAI芯片被稱為AI加速器或計算卡,即專門用于加速AI應用中的大量計算任務的模塊(其他非計算任務仍由CPU負責),面向AI計算應用的芯片都可以稱為AI芯片,包括GPU、FPGA、ASIC等。FPGA更適合處理多指令流單數據流,從而適應于推理階段FPGA沒有極致的性能特點與量產單價高是其未來發(fā)展的瓶頸,更適合用于細分、快速變化的垂直行業(yè),應用面上較為狹窄。優(yōu)點:1.突破馮諾依曼結構,可直接實現算法,沒有指令譯碼和解讀的過程,功效能耗比是CPU的10倍以上、GPU的3倍,處理速度和效率要高于GPU。2.可編譯,靈活性很高,開發(fā)周期短。FPGA具有可編輯性,用戶可以根據自身需求實現芯片功能的轉換?;贔PGA靈活編譯的特點,其開發(fā)周期較短,上市速度快。FPGA更適合處理多指令流單數據流,從而適應于推理階段。缺點:1.價格較高,規(guī)模量產后的單價更是遠高于ASIC。目前FPGA的造價相比GPU更為高昂,如果規(guī)模量產后,其不像ASIC可以分攤固定成本,存在單個芯片的編譯成本,所以單價遠高于ASIC。2.計算能力和峰值性能不如GPU。3.靈活性占優(yōu)的同時犧牲了速度與能耗。效率和功耗上劣于專用芯片ASIC。4.FPGA的語言技術門檻較高。目前FPGA的設置要求用戶用硬件描述語言對其進行編程,需要專業(yè)的硬件知識,具有較高的技術門檻。5.國內GPGPU發(fā)展水平——落后海外5~10年,多點開花尋求突破制造:目前國內AI芯片先進工藝多集中在7nm,國際大廠已經來到4nm大陸的先進工藝設計(16nm及以下)集中于AI芯片(包含云端及智能駕駛芯片)、交換機芯片、CPU/GPU/DP
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國統一通信(uc)行業(yè)發(fā)展動態(tài)及投資規(guī)劃研究報告新版
- 2025-2030年中國米香型酒市場發(fā)展現狀及投資策略研究報告
- 2025-2030年中國空氣清新機產業(yè)競爭格局及前景趨勢預測報告
- 2025-2030年中國碳酸氫銨行業(yè)發(fā)展現狀及前景趨勢分析報告
- 2025-2030年中國真空鍍膜機行業(yè)需求分析規(guī)劃研究報告
- 2025-2030年中國電視傳媒行業(yè)運行動態(tài)及前景趨勢預測報告
- 2025-2030年中國牙科單齒X射線機市場競爭格局及發(fā)展決策分析報告
- 2025-2030年中國液態(tài)奶市場運營狀況發(fā)展規(guī)劃研究報告
- 2025-2030年中國沙灘車市場運行動態(tài)及前景趨勢預測報告
- 2025-2030年中國汽車用品行業(yè)市場競爭格局及未來投資趨勢分析報告新版
- MT/T 199-1996煤礦用液壓鉆車通用技術條件
- GB/T 6144-1985合成切削液
- GB/T 10357.1-2013家具力學性能試驗第1部分:桌類強度和耐久性
- 第三方在線糾紛解決機制(ODR)述評,國際商法論文
- 公寓de全人物攻略本為個人愛好而制成如需轉載注明信息
- 第5章-群體-團隊溝通-管理溝通
- 腎臟病飲食依從行為量表(RABQ)附有答案
- 深基坑-安全教育課件
- 園林施工管理大型園林集團南部區(qū)域養(yǎng)護標準圖例
- 排水許可申請表
- 低血糖的觀察和護理課件
評論
0/150
提交評論