人工智能教學(xué)實(shí)訓(xùn)綜合應(yīng)用平臺(tái)需求說(shuō)明_第1頁(yè)
人工智能教學(xué)實(shí)訓(xùn)綜合應(yīng)用平臺(tái)需求說(shuō)明_第2頁(yè)
人工智能教學(xué)實(shí)訓(xùn)綜合應(yīng)用平臺(tái)需求說(shuō)明_第3頁(yè)
人工智能教學(xué)實(shí)訓(xùn)綜合應(yīng)用平臺(tái)需求說(shuō)明_第4頁(yè)
人工智能教學(xué)實(shí)訓(xùn)綜合應(yīng)用平臺(tái)需求說(shuō)明_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余2頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能教學(xué)實(shí)訓(xùn)綜合應(yīng)用平臺(tái)需求說(shuō)明一、建設(shè)背景與目標(biāo)2024年,全國(guó)共有618所高職院校備案人工智能技術(shù)應(yīng)用(服務(wù))專業(yè),占全國(guó)1547所高職院校的近40%;高職院校紛紛抓住“人工智能”這把打開(kāi)未來(lái)之門(mén)的鑰匙,從找準(zhǔn)定位,培養(yǎng)人工智能產(chǎn)業(yè)鏈上的技能人才,到持續(xù)探索,應(yīng)對(duì)“人工智能+”的全面來(lái)臨;人工智能教學(xué)實(shí)訓(xùn)綜合應(yīng)用平臺(tái),可服務(wù)全校師生的科研任務(wù),提供大模型訓(xùn)練、人工智能內(nèi)容生成、圖像渲染等任務(wù);同時(shí),可服務(wù)于電子信息專業(yè)群開(kāi)設(shè)人工智能實(shí)訓(xùn)課程(含大數(shù)據(jù)技術(shù)、計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、電子信息工程技術(shù)、集成電路技術(shù)等4個(gè)專業(yè)學(xué)生),預(yù)計(jì)可服務(wù)人數(shù)450人/年;二、設(shè)備清單序號(hào)設(shè)備名稱數(shù)量單位1教學(xué)實(shí)訓(xùn)科研綜合平臺(tái)1套2AI計(jì)算節(jié)點(diǎn)12臺(tái)3AI計(jì)算節(jié)點(diǎn)21臺(tái)4存儲(chǔ)節(jié)點(diǎn)1臺(tái)5萬(wàn)兆交換機(jī)2臺(tái)三、技術(shù)參數(shù)序號(hào)設(shè)備名稱技術(shù)參數(shù)1教學(xué)實(shí)訓(xùn)科研綜合平臺(tái)1.總體要求:采用國(guó)產(chǎn)AI算法集群管理平臺(tái),面向深度學(xué)習(xí)開(kāi)發(fā)場(chǎng)景,實(shí)現(xiàn)從數(shù)據(jù)管理、模型開(kāi)發(fā)、模型訓(xùn)練、模型管理、模型測(cè)試及發(fā)布的全生命周期管理;為了保證軟件的成熟度及可迭代,須提供商業(yè)版人工智能開(kāi)發(fā)平臺(tái)軟件;2.通過(guò)容器快速創(chuàng)建計(jì)算環(huán)境,基于Kubernetes進(jìn)行可移植容器的編排管理,計(jì)算環(huán)境隔離互不影響,內(nèi)置各種AI框架鏡像,例如TensorFlow、Caffe、PyTorch、PaddlePaddle、MXNet、昇思等主流框架,兼容web開(kāi)源鏡像和用戶自定義鏡像;3.環(huán)境軟件應(yīng)提供最近一年的版本,并可持續(xù)升級(jí)更新;4.提供集群資源統(tǒng)一調(diào)度,能夠多用戶,多作業(yè)同時(shí)運(yùn)行,通過(guò)調(diào)度器來(lái)給作業(yè)動(dòng)態(tài)分配資源,提供單節(jié)點(diǎn)單GPU,單節(jié)點(diǎn)多GPU,多節(jié)點(diǎn)多GPU以及多節(jié)點(diǎn)GPU,以及CPU/GPU混合的多種調(diào)度方式;5.數(shù)據(jù)管理:提供基于Web的文件管理功能,提供文件和文件夾的創(chuàng)建、刪除、重命名、在線編輯、權(quán)限設(shè)置,提供文件批量上傳和打包下載;平臺(tái)提供數(shù)據(jù)隔離與協(xié)同,個(gè)人數(shù)據(jù)可通過(guò)共享提供給平臺(tái)其他人員使用;平臺(tái)提供模型開(kāi)發(fā)時(shí)的數(shù)據(jù)加速功能,用戶可直接使用遠(yuǎn)端共享存儲(chǔ)上的文件,也可以將遠(yuǎn)端存儲(chǔ)的文件拉取到計(jì)算節(jié)點(diǎn)本地參加計(jì)算,從而提升計(jì)算性能,同時(shí)減輕高并發(fā)下存儲(chǔ)Server端的I/O壓力;6.交互式開(kāi)發(fā):用戶通過(guò)平臺(tái)內(nèi)置AI鏡像或用戶自定義鏡像進(jìn)行環(huán)境創(chuàng)建交互式開(kāi)發(fā)環(huán)境,環(huán)境實(shí)例可以使用CPU資源也可以使用GPU資源;開(kāi)發(fā)環(huán)境提供Jupyter、webshell等在線交互開(kāi)發(fā),支持對(duì)接第三方開(kāi)發(fā)工具(如VSCode、PyCharm等);平臺(tái)提供開(kāi)發(fā)實(shí)例的持久化功能,在實(shí)例中安裝的軟件包在下次創(chuàng)建啟動(dòng)后可以繼續(xù)使用;7.模型訓(xùn)練:提供基于容器的模型訓(xùn)練功能;對(duì)TensorFlow、Caffe、PyTorch、PaddlePaddle、MXNet等框架,用戶可自定義訓(xùn)練使用的框架版本,容器數(shù)量,GPU數(shù)量,內(nèi)存,指定不同的GPU型號(hào)資源,并且可以實(shí)時(shí)查看訓(xùn)練日志,監(jiān)控各容器內(nèi)資源使用狀況;提供AI模型的多機(jī)分布式訓(xùn)練,提供模板可以提交TensorFlow、Caffe、PyTorch、PaddlePaddle、MXNet等框架的分布式訓(xùn)練作業(yè);8.資源調(diào)度能力:提供任務(wù)級(jí)別的資源調(diào)度方式功能,提供指定節(jié)點(diǎn)、GPU型號(hào)親和調(diào)度、數(shù)據(jù)親和調(diào)度策略,提供用戶資源配額,用戶組輪詢調(diào)度等策略,高/中/低優(yōu)先調(diào)度、支持緊急任務(wù)調(diào)度;9.GPU利用率:為了更好的支持教學(xué)和科研,平臺(tái)須提供基于web的GPU細(xì)粒度調(diào)度設(shè)置,允許多個(gè)任務(wù)指定GPU顯存,調(diào)度到同一張GPU卡,GPU切分需同時(shí)支持:1)MIG模式:每張卡獨(dú)立配置MIG方案;2)GPU顯存切分(隔離模式):按GPU顯存進(jìn)行任意大小的切分,支持切分顯存≥1GB;3)復(fù)用率:按GPU上并發(fā)任務(wù)個(gè)數(shù)進(jìn)行配置;10.在進(jìn)行訓(xùn)練任務(wù)時(shí),業(yè)務(wù)應(yīng)用支持資源彈性使用,用戶可基于業(yè)務(wù)需求對(duì)任務(wù)進(jìn)行擴(kuò)縮容管理,提升GPU使用效率;11.提供大模型訓(xùn)練容錯(cuò),平臺(tái)自動(dòng)檢測(cè)異常訓(xùn)練節(jié)點(diǎn)、出現(xiàn)異常節(jié)點(diǎn)自動(dòng)業(yè)務(wù)遷移,自動(dòng)加載斷點(diǎn)重新發(fā)起任務(wù);12.報(bào)表統(tǒng)計(jì):從集群、資源組、節(jié)點(diǎn)三個(gè)維度進(jìn)行計(jì)算資源的性能及使用統(tǒng)計(jì),包括CPU利用率、GPU利用率、CPU使用核數(shù)、GPU使用卡數(shù)信息;對(duì)集群周期內(nèi)的任務(wù)情況進(jìn)行統(tǒng)計(jì),按任務(wù)規(guī)模和任務(wù)時(shí)長(zhǎng)進(jìn)行數(shù)量統(tǒng)計(jì);用戶和用戶組統(tǒng)計(jì)周期內(nèi)的資源使用明細(xì),包括任務(wù)總量、任務(wù)總機(jī)時(shí)、任務(wù)總CPU核時(shí)、任務(wù)總GPU卡時(shí)、數(shù)據(jù)存儲(chǔ);13.兼容性:提供異構(gòu)GPU管理,包括英偉達(dá)GPU和國(guó)產(chǎn)主流GPU(支持昇騰、天數(shù)智芯,燧原,昆侖芯等GPU卡)的統(tǒng)一管理與監(jiān)控;在界面能夠顯示納管的不同類型GPU型號(hào)、數(shù)量;14.提供對(duì)接多種存儲(chǔ)系統(tǒng),包括NFS、BeeGFS、HDFS等;支持通過(guò)界面配置同時(shí)對(duì)接多個(gè)存儲(chǔ)系統(tǒng);15.提供高可用:平臺(tái)自動(dòng)檢測(cè)主備機(jī)狀態(tài)及HA服務(wù)狀態(tài),當(dāng)發(fā)現(xiàn)主機(jī)存在異常需要切換備機(jī)時(shí),HA模塊會(huì)自動(dòng)切換管理服務(wù)到備機(jī),并且在切換過(guò)程中不影響用戶運(yùn)行任務(wù);16.提供自動(dòng)告警功能,能夠提供物理節(jié)點(diǎn)或容器的CPU、網(wǎng)絡(luò)、GPU、磁盤(pán)使用的實(shí)時(shí)數(shù)據(jù)統(tǒng)計(jì),達(dá)到告警閾值時(shí)自動(dòng)告警;17.提供集群橫向擴(kuò)展:當(dāng)系統(tǒng)出現(xiàn)性能瓶頸,可以通過(guò)新增節(jié)點(diǎn),添加到集群中實(shí)時(shí)擴(kuò)展;18.提供數(shù)據(jù)緩存加速機(jī)制,數(shù)據(jù)集可高速并行緩存到計(jì)算節(jié)點(diǎn)本地,并提供緩存數(shù)據(jù)的生命周期管理,支持緩存進(jìn)度查看,可進(jìn)行緩存數(shù)據(jù)的增量更新、手動(dòng)清理等;19.提供斷點(diǎn)續(xù)訓(xùn),針對(duì)長(zhǎng)時(shí)間多機(jī)多卡分布式訓(xùn)練場(chǎng)景的斷點(diǎn)續(xù)訓(xùn)功能;在出現(xiàn)硬件故障或其他導(dǎo)致訓(xùn)練任務(wù)異常中斷的情況下,具備在上一次訓(xùn)練狀態(tài)的基礎(chǔ)上繼續(xù)訓(xùn)練的能力,避免從頭開(kāi)始訓(xùn)練;20.提供用戶對(duì)大語(yǔ)言模型進(jìn)行微調(diào)功能,支持主流的SFT任務(wù),可以選擇Full、Freeze、LoRA等多種微調(diào)方法,滿足不同業(yè)務(wù)場(chǎng)景訴求;提供圖形化界面,降低用戶使用門(mén)檻;21.提供5年軟件升級(jí)維護(hù);2AI計(jì)算節(jié)點(diǎn)11.總體要求:機(jī)架式服務(wù)器,高度≥4U;2.處理器:配置≥兩顆Intel處理器,單顆處理器主頻≥2.1GHz,核數(shù)≥48核;3.內(nèi)存:配置≥1TBDDR5內(nèi)存,單條內(nèi)存≥64GB,頻率≥5600MHz,支持≥32個(gè)內(nèi)存插槽;4.硬盤(pán):支持≥12塊2.5寸硬盤(pán)或24塊2.5寸硬盤(pán),支持≥8塊NVME硬盤(pán);本次配置≥2*960GSSD硬盤(pán),≥4*7.68TNVMeSSD,配置Raid卡(含≥4G緩存);5.GPU擴(kuò)展:8張GPU卡(單張顯存≥48GB,帶寬≥864GB/s,F(xiàn)P32≥91TFLOPS,F(xiàn)P16≥733TFLOPS),提供PCIEswitch模塊,能夠?qū)崿F(xiàn)卡間的P2P通訊;6.網(wǎng)卡:≥2張雙口萬(wàn)兆光口(含光模塊),≥1塊雙口千兆以太網(wǎng)端口;7.電源:配置≥4個(gè)2000W熱插拔冗余電源;8.5年原廠硬件保修;3AI計(jì)算節(jié)點(diǎn)21、CPU、AI處理器使用國(guó)產(chǎn)自研芯片;2.處理器:配置≥4顆處理器,單顆處理器主頻≥2.6GHz,單顆處理器核心數(shù)≥48核;3.內(nèi)存:配置≥512GBDDR4內(nèi)存,單條內(nèi)存≥32GB,頻率≥3200MHz;4.存儲(chǔ):配置≥2塊960GBSSD硬盤(pán),≥4塊7.68TBNVMeSSD硬盤(pán);5.AI加速模組:配置8塊AI模組卡(單顆AI處理器提供不低于32GBHBM,速度不低于800GB/S,單顆AI處理器FP16算力≥280TFLOPS,F(xiàn)P32算力≥75TFLOPS),提供≥4.4POPSNT8或2.2PFLOPSFP16或0.6PFLOPSFP32;6.網(wǎng)卡:≥4個(gè)萬(wàn)兆以太網(wǎng)端口(含光模塊);7.服務(wù)器管理系統(tǒng)支持國(guó)產(chǎn)自研管理芯片;

8.支持中文BIOS界面;9.需提供配套國(guó)產(chǎn)AI并行計(jì)算調(diào)度框架;10.RAID:raid卡采用國(guó)產(chǎn)自主可控芯片;11.電源:滿配冗余熱插拔電源,并提供配套的電源連接線:4個(gè)熱插拔2600W交流電源模塊,支持2+2冗余;12.5年原廠硬件保修;4存儲(chǔ)節(jié)點(diǎn)1.控制器框提供≥25個(gè)硬盤(pán)槽位;2.每個(gè)控制器均可提供NAS協(xié)議(包括NFS、CIFS以及NDMP)、不需單獨(dú)NAS網(wǎng)關(guān);3.支持控制器擴(kuò)展,最大支持≥8控;4.配置2個(gè)控制器,控制器采用多核處理器,且單控控制器處理器核心數(shù)≥16核,CPU主頻率≥2.0GHz;5.系統(tǒng)內(nèi)總一級(jí)緩存容量配置≥128GB,且任意控制器一級(jí)緩存容量≥64GB(不含任何性能加速模塊、FlashCache、PAM卡,SSDCache、SCM等);6.配置≥4*10GbpsEthernet接口(滿配多模光模塊),≥8*1GbpsEthernet接口;7.配置≥

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論