




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1信息技術人工智能服務器系統(tǒng)性能測試規(guī)范本文件規(guī)定了人工智能服務器系統(tǒng),完成深度學習訓練及推理任務的性能(運行時間、能耗、實際吞吐率、能效、效率、彈性、承壓能力等)測試方法。本文件適用于人工智能服務器系統(tǒng)的性能評估。被測系統(tǒng)systemundertest一次測試中,處理測試者給出的測試作業(yè),并返回結(jié)果的系統(tǒng)。被測者testedparty一次測試中,籌備、操作被測系統(tǒng)實施測試,并按測試協(xié)議的規(guī)定享有測試結(jié)果使用權的機構(gòu)或個3.3參考模型referecemmdel用于定義系統(tǒng)測試要求的標準化的模型。3.4計時timing獲取并返回被測系統(tǒng)當前時間戳。2含有專為人工智能計算設計的計算機構(gòu),能夠為人工智能應用提供專用加速計算能力的服務器。人工智能服務器集群artificialintelligenceservercluster遵循統(tǒng)一控制的,人工智能計算功能單元的集合。人工智能服務器系統(tǒng)artificialintelligenceserversystem由人工智能服務器及其他必要的計算、存儲設備組成,承擔人工智能運算任務的計算系統(tǒng)。測試數(shù)據(jù)testdata用于測試最終機器學習模型功能的數(shù)據(jù)。組織、開展測試的機構(gòu)或個人。注:測試者使用測試系統(tǒng)實施測試,它向被測系統(tǒng)(3.10)發(fā)送作業(yè)(3.11),接收輸出,計算性能(3.12)指標。執(zhí)行測試所使用的硬件、軟件及數(shù)據(jù)。3T/CESA1169—20213.11作業(yè)job注:性能可基于一個或多個參數(shù)(如運行時間、能耗、實際吞吐率、能效、效率、彈性、承壓能力等)的測量或計[參考:ISO/IEC20000.10—2018,3.1.16和ISO13372—2012,2.3]4縮略語AUC曲線下面積(AreaUnderCurve)AUTOML自動機器學習(AutomatedMachineLearning)BFLOAT16腦半精度浮點數(shù)(BrainFloating-point)FP16半精度浮點數(shù)(Half-precisionFloating-pointformat)FP32單精度浮點數(shù)(Single-precisionFloating-pointformat)FP64雙精度浮點數(shù)(Double-precisionFloating-pointformat)INT44位整型數(shù)INT88位整型數(shù)4MAP平均準確率均值(MeanAveragePrecision)MIOU平均交并比(MeanIntersectionOverUnion)NFS網(wǎng)絡文件系統(tǒng)OCR光學字符識別(NetworkFileSystem)(OpticalCharacterRecognition)SUT被測系統(tǒng)(SystemUnderTeTF32張量單精度浮點數(shù)(TensorFloating-point)UINT44位無符號整型數(shù)(4-bitUnsigUINT88位無符號整型數(shù)(8-bitUnsignedInteger)5.1封閉模式5.1.1封閉式訓練給定訓練集和目標模型結(jié)構(gòu)、精度,利用受測AI服務器系統(tǒng),運行建模、優(yōu)化算法得到目標模型,應符合給定測試集上的準確率門限。51.2封閉式推理給定模型(參考實現(xiàn))、精度、測試集,利用受測AI服務器系統(tǒng),運行模型定義的推理過程,輸出推理結(jié)果,結(jié)果應符合精度及給定測試集上的準確率要求。5.2開放模式5.2.1開放式訓練給定訓練集,利用受測AI服務器系統(tǒng)實施訓練模型,結(jié)果模型應符合精度及給定測試集上的準確率5.2.2開放式推理給定測試集,被測者提供已訓練好的模型,利用AI服務器系統(tǒng),運算輸出推理結(jié)果,結(jié)果應符合精度及給定測試集上的準確率要求。5.3場景a)通用:針對共性問題,參考或使用公共可獲得的模型和數(shù)據(jù)集,完成訓練、推理任務;b)專用:針對行業(yè)領域問題,使用專用模型和數(shù)據(jù)集,完成訓練、推理任務;5訓練過程中數(shù)據(jù)預處理(訓√√√√√√√√√√√√√√√√√√5.4測試信息b)測試ID(用于標識測試);c)是否開放(0-封閉、1-開放);d)是否專用(0-通用、1-專用);e)是否訓練(0-推理、1-訓練);f)模型編號(對封閉模式有效,開放模式為模型名);g)提交時間(格式[yyyy:MM:ddHH:mm:ss]);h)測試對象類型(0-單機、1-集群/計算中心);6i)節(jié)點數(shù)(當“測試對象類型”不為“0”時有效);j)每節(jié)點信息[節(jié)點型號、節(jié)點標稱計算能力、節(jié)點芯片數(shù)];1)節(jié)點間組織關系(0-單節(jié)點、1-主從、2-環(huán)形、3-樹狀、4-其他);m)操作系統(tǒng)標識(名稱、內(nèi)核版本號);In)機器學習框架標識(名稱、版本號);o)是否應用虛擬化技術(0-不使用、1-使用);p)虛擬化組件標識(名稱、版本號);q)批(minibatch)大小(batchsize)可變標識(0-不可變、1-可變);r)批(minibatch)大小的值(正整數(shù),僅當q)為0時有效];s)優(yōu)化器聲明(算法名);t)是否混合精度訓練(僅對訓練有效,0-不使用、1-使用,附加精度列表);u)是否使用AUTOML完成測試(0-不使用、1-使用,附加AUTOML算法名稱);v)是否使用并行訓練完成測試(0-不使用、1-模型并行、2-數(shù)據(jù)并行、3-混合并行、4-其他并行算法并附加算法名稱);w)并行訓練時,是否采用異步參數(shù)更新[0-不使用(即同步更新)、1-使用];x)是否使用稀疏化(對推理有效,0-不使用、1-使用,附加方法名稱);y)是否使用量化(對推理有效,0-不使用、1-使用,附加量化方法名稱)。6.1測試流程6.1.1基本要求訓練測試過程,應符合以下要求:a)在一次測試中,訓練測試對象包含以下AI服務器系統(tǒng)硬件及配套軟件(不含模型或算法負載):2)AI服務器集群(含云化的AI服務器集群);·被測者于測試前,取得測試集;·如需要,被測者可對數(shù)據(jù)進行必要的格式轉(zhuǎn)化或封裝;·被測者按測試內(nèi)容,編寫并運行必要的訓練代碼(包含數(shù)據(jù)預處理、數(shù)據(jù)讀入、訓練、(結(jié)果模型格式轉(zhuǎn)化與持久化),得到結(jié)果模型;·訓練期間,記錄過程數(shù)據(jù)、計算指標值、記錄日志、生成結(jié)果數(shù)據(jù);3)結(jié)果報送:7a)訓練測試,不應實施以下操作:1)在測試過程中進行硬件或軟件改配;2)使用本文件規(guī)定之外的訓練集進行模型訓練,也不應實施模型預訓練及遷移學習策略;3)訓練測試過程中,對已實現(xiàn)的指標測量函數(shù)或測試流程控制函數(shù)實施改動、繼承或重載(要求被測者實現(xiàn)的方法除外);4)在數(shù)據(jù)準備過程中:·減少數(shù)據(jù)集中的樣本(封閉模式有效,除不足1batch的殘余數(shù)據(jù)之外);·除b)2)規(guī)定的操作生成的樣本外,增加數(shù)據(jù)集中的樣本(封閉模式有效);·分析數(shù)據(jù)規(guī)律或預先提取、編碼、保存樣本特征(封閉模式有效);·對數(shù)據(jù)做排序、索引或拆分操作(封閉模式有效);5)在訓練過程中改變指定的優(yōu)化方法(封閉模式有效);6)使用AUTOML完成訓練任務時,在整個訓練過程中變更模型變異算法;1)應編制并運行的訓練測試代碼:·使用測試工具提供的日志記錄方法(對工具的要求見6.4);2)數(shù)據(jù)準備時:·訓練數(shù)據(jù)尺寸不同或不符合模型需要時,可實施尺寸調(diào)整操作;·在不改變輸入圖像(對視覺類場景)像素值的情況下,可實施插值操作,包含但不限于:線性插值、雙線性插值、區(qū)域插值等;·訓練集、驗證集、測試集的劃分比例,默認為75%、10%及15%,特殊的劃分應符合表3的規(guī)定(封閉模式有效);3)訓練過程中:·試驗次數(shù)應符合場景要求(封閉模式見表3,開放模式在測試時統(tǒng)一確定);4)實施基于AUTOML的訓練時:·應按6.1.2b)1)-6.1.2b)3)的要求執(zhí)行(除6.1.2b)2)中注明為“封閉模式有效”的規(guī)定外];·應區(qū)分模型結(jié)構(gòu)生成(變異)階段和訓練(針對某一代變異調(diào)整模型參數(shù))階段,至少在模型結(jié)構(gòu)生成(變異)過程執(zhí)行前后、訓練開始前后,分別記錄時點;5)實施分布式訓練時:8T/CESA1169—2021·并行訓練,方式可包含但不限于模型并行、數(shù)據(jù)并行及混合并行;·可使用分布式文件系統(tǒng)(如NFS)或存儲服務器存放、使用訓練數(shù)據(jù)。6.1.3訓練結(jié)果a)訓練結(jié)果模型與參考模型一致,符合以下要求:1)訓練結(jié)果模型精度應符合表3及表5的規(guī)定;2)封閉模式下,訓練模型腳本與參考腳本(見表3及表5)應定義一致的網(wǎng)絡結(jié)構(gòu),訓練模型·改變的激勵函數(shù)(對應層之間);·改變的池化方法(對應層之間);b)訓練過程應符合6.1.2的規(guī)定;2)場景要求的指標值(見表3及表5);3)訓練程序源代碼,符合附錄A的要求;4)訓練日志:·對非AUTOML訓練,日志按每個epoch輸出。每個epoch對應的格式為:“[yyyy:MM:dd出時的時間戳,第二項為訓練次數(shù)(正整數(shù)),第三項為epoch數(shù)(正整數(shù)),第四項為當前測試集上的準確率(依照場景要求的指標定義);·對AUTOML訓練,日志按每次模型變異及對應訓練過程輸出。每次模型變異后,輸出變[generation_number]-[number_of_nodes]”。其中,第一項為變異開始時間,第二項為變異完成時間,第三項為變異代次計數(shù),第四項為當前變異結(jié)果模型的節(jié)點數(shù)(對初始化模型的訓練,變異起止時間為空,代次記為0);對變異后模型的訓練,日志按每個epoch輸出,格式符合4中“對非AUTOML訓練”規(guī)定;5)結(jié)果模型文件(含權重和結(jié)構(gòu)信息;AUTOML訓練,為最終結(jié)果模型文件);6)規(guī)則檢查結(jié)果(對AUTOML訓練,6.1.2中關于AUTOML的規(guī)則有效)。6.2場景6.2.1通用測試場景B6.2.1.1封閉測試場景應符合表3的要求,場景說明見附錄B9T/CESA1169—2021分割12111優(yōu)化方法試驗次數(shù)結(jié)果模型精度數(shù)據(jù)集優(yōu)化方法結(jié)果模型精度損失函數(shù)試驗次數(shù)結(jié)果模型精度損失函數(shù)優(yōu)化方法結(jié)果模型精度損失函數(shù)模型數(shù)據(jù)集優(yōu)化方法試驗次數(shù)結(jié)果模型精度損失函數(shù)AI服務器Topl-準確率>75%5Top1-準確率>74%5555AI服務器集群Topl-準確率>75%7Topl-準確率>74%7777T/CESA1169—2021數(shù)據(jù)集1損失函數(shù)2數(shù)據(jù)集2優(yōu)化方法損失函數(shù)數(shù)據(jù)集優(yōu)化方法試驗次數(shù)損失函數(shù)數(shù)據(jù)集22損失函數(shù)表3通用訓練性能測試場景(封閉)f5f75cn-wiki/en-wiki5WMT18英-德、英-中5dgcn-wiki/en-wiki5T/CESA1169—2021表3通用訓練性能測試場景(封閉)(續(xù))改變數(shù)據(jù)的值(如圖像像素值),數(shù)據(jù)格式轉(zhuǎn)換過程不計時。Np*——ground-truth的標簽;6.2.1.2開放測試場景應符合表4的要求,場景說明見附錄B。表4通用訓練性能測試場景(開放)類型11FP16/FP32·pascalvoc2012推薦1112AI服務器MIOU>85%criteocn-wikiMIOU>85%criteocn-wiki6.2.2專用測試場景6.2.2.1封閉測試場景應符合表5的要求,場景說明見附錄B。表5專用訓練性能測試場景(封閉)AI服務器EAST5LFW5EAST7LFW7T/CESA1169—2021表5專用訓練性能測試場景(封閉)(續(xù))技術要素優(yōu)化方法試驗次數(shù)結(jié)果模型精度AI服務器集群797注:表中的“/”符號,表示“或”。訓練數(shù)據(jù)的格式,沒有嚴格的限定,被測者可以根據(jù)本地框架進行格式轉(zhuǎn)換,格式轉(zhuǎn)換過程不應改變數(shù)據(jù)的值(如圖像像素值),數(shù)據(jù)格式轉(zhuǎn)換過程不計時。bE表中未確定的模型及數(shù)據(jù)集,可在具體測試前,由測試者按專用系統(tǒng)的要求統(tǒng)一確定。AST和FaceNet的損失函數(shù)的定義與實現(xiàn)分別見[8]和[9]6.2.2.2開放測試場景應符合表6的要求,場景說明見附錄B表6專用訓練性能測試場景(開放)技術要素數(shù)據(jù)集結(jié)果模型精度數(shù)據(jù)集結(jié)果模型精度金融行業(yè)測試集LFW金融行業(yè)測試集LFW注:表中的“/”符號,表示“或”。訓練數(shù)據(jù)的格式,沒有嚴格的限定,被測者可以根據(jù)本地框架進行格式轉(zhuǎn)換,格式轉(zhuǎn)換過程不應改變數(shù)據(jù)的值(如圖像像素值),數(shù)據(jù)格式轉(zhuǎn)換過程不計時。b表中未確定的模型及數(shù)據(jù)集,可在具體測試前,由測試者按專用系統(tǒng)的要求統(tǒng)一確定。b6.3.1時間時間單位為毫秒(ms)。訓練相關用時及測量方法,應符合表7及圖1的規(guī)定:總體訓練用從訓練開始讀入數(shù)據(jù),到模型訓練完畢、完成在非電易失性存儲器上的持久化,所使用的總時長a)在讀入訓練數(shù)據(jù)命令前,緊鄰該命令計時,獲得時間點ts;b)在輸出模型持久化完成后,串行并緊鄰調(diào)用計時命令,獲得表7訓練時間測量方法(續(xù))數(shù)據(jù)讀入用訓練啟動用第j次(j為正整數(shù))驗模型格式轉(zhuǎn)模型持久化節(jié)點間通信為訓練目的,訓練數(shù)據(jù)被讀入加速器內(nèi)存(使用通用計算環(huán)境、加速器缺少或不配置存儲時,可為主存),達至可用狀態(tài),所使用的時間多加速器訓練時,從訓練開始指令到所有加速器都被分配并開始執(zhí)行訓練任務所經(jīng)歷的時長出之間的時間間隔訓練過程第i次遍歷(使用)訓練集所用的時間第j次使用驗證數(shù)據(jù)集試運行當前模型,得出當前模型準確率等指標值的過程訓練完畢后,將結(jié)果模型轉(zhuǎn)化為要求格式所耗費的時間并完整寫入非電易失性存儲所用的視覺源節(jié)點開始發(fā)送數(shù)據(jù)至目標節(jié)點完全接收數(shù)據(jù)的用時測量方法b)在訓練數(shù)據(jù)讀取完成時,串行并緊鄰調(diào)用計時命令,獲得時間點b)在每個加速器進入訓練狀態(tài)時,取時間點,直到最后一個加速器a)模型格式轉(zhuǎn)化前,串行并緊鄰調(diào)用計時命令,獲得時間tvi;c)模型持久化用時:Tp=t?-t?c)節(jié)點間通信時延Tc=tc?-t注:假設訓練數(shù)據(jù)已封裝為機器學習框架能夠處理的格式。訓練退出可有多種充分條件。正常結(jié)束訓練退出條件,如測試集準確率門限等。訓練任務的用時包含數(shù)據(jù)預處理用時。d表中受測系統(tǒng)無法統(tǒng)計的時間,不作要求。d數(shù)據(jù)讀入過程可伴隨訓練同步發(fā)生,時間計入訓練用時。久化用時久化用時tsu2twitvig-2…e1102tovltwtvig-2第次1證圖1訓練時間序6.3.2功耗訓練功耗單位為瓦(W)。訓練相關功耗及測量方法,應符合表8的規(guī)定:單臺AI服務器在某次訓練單臺AI服務器在某次訓練全程(T)中,服務器各部件處于(接近)滿負載壓力b)空載600s,采樣100次以上,測得時整機的空載平均負載功率c)在訓練用時中(見圖1),周期性測量整機的負載功率,并求d)求得Pπmax=PrMax-PrE2)按單機訓練平均功率測量方法實施,測得每節(jié)點i(i為正整數(shù))實際吞吐率代表人工智能服務器系統(tǒng)對特定訓練作業(yè)的有效計算能力,提升有效計算能力可達到硬件系統(tǒng)擴容的同樣效果。對視覺類測試,單位為圖片數(shù)每秒(images/s),對自然語言處理類測試,單位為句數(shù)每秒(sentences/s)。訓練相關實際吞吐率及測量方法,應符合表9的規(guī)定:T/CESA1169—2021表9訓練吞吐率測量方法指標AI服務器訓練實際吞吐率AI服務器集群訓練實際吞吐率訓練有效計算能力(AI服務器系統(tǒng)訓練吞吐率綜合加速AI服務器系統(tǒng)在訓練過程中,每個epoch處理的數(shù)據(jù)量與時間的比值AI服務器系統(tǒng)在給定任務集合S上,實際吞吐率與每任務基線吞吐率之比的加測量方法a)統(tǒng)計每個epochi(i為正整數(shù))所使用的時間Tp(1);b)基于1)的結(jié)果,統(tǒng)計每epoch平均Tp;a)在集群每個節(jié)點n(n為正整數(shù))上,計算該節(jié)點訓練吞吐率Th。;c)計算AI服務器集群訓練綜合相對吞吐率(見上4))a)對于給定的訓練場景集合S,對每個場景負載s∈S,使用某特定參照計算系統(tǒng),在s上測得吞吐率Ths,作為基線;b)設SUT在s上測得的訓練實際吞吐率為Ths,則訓練綜合相對吞吐ThsThZThZTs注1:如測得場景resnet50_v1.5及bert-large的實際吞吐率Thrn,ThBL,訓練吞吐率綜合加速比可由下式計算:Thg*——resnet50_v1.5對應的基線吞吐率;Thu*——bert-large對應的基線吞吐率;Tpv——resnet50_v1.5對應TBL——bert-large對應的權值。注2:AI服務器系統(tǒng)訓練吞吐率綜合加速比參考[15]。6.3.4資源利用率資源利用率包含加速器利用率,單位為百分率(%)。訓練相關資源利用率及測量方法,應符合表T/CESA1169—2021AI服務器集群表10訓練期間(Tm),服務器上所有指定參與訓練任務的加速芯片的平均利集群上所有指定參與訓練任務的加速芯片的平訓練過程資源利用率測量方法a)在每個epochi內(nèi)(假設一趟訓練過程有I個epochs),對每個確到0.01);c)對每個epochi,求出多芯片平均利用率(如K=1,本步驟忽略):KK6.3.5能效訓練能效是AI服務器系統(tǒng)在單位時間,消耗單位功耗,消化的訓練數(shù)據(jù)量,單位為兆字節(jié)每秒瓦表11訓練過程能效測量方法指標說明測量方法b)測量每個epoch的平均用時Tp;AI服務器單位時間內(nèi)消c)計算AI服務器訓練能效:AI服務器訓數(shù)據(jù)量Epa)算出每臺AI服務器,每epoch的平均功率Pp;(i為正整數(shù))和用時AI服務器集群單位時間Tpp;AI服務器集內(nèi)消耗單位功耗消化的b)計算AI服務器集群訓練能效a:訓練效率是AI服務器系統(tǒng)訓練得到某模型,其預測準確率與訓練代價的比值,單位為每秒千瓦時[1a)訓練結(jié)束時,記錄模型在測試集上的實際準確率(具體指標參見場景列表);b)記錄訓練時長Tπ;TTR*Psa)訓練結(jié)束時,記錄模型在測試集上的實際準確率(具體指標參見場景列表);b)記錄訓練時長Tn;TTR*Ps6.4訓練用測試系統(tǒng)要求6.4.1功能要求測試系統(tǒng)符合以下規(guī)定,包含但不限于:a)應能自動檢測服務器或接收手動填表的被測系統(tǒng)軟、硬件信息,符合5.4的規(guī)定;b)應能使用機器學習框架,AI服務器系統(tǒng)提供的使能軟件函數(shù)庫及其他必要信息,完成6.3規(guī)定c)應至少能實施6.2.1規(guī)定的場景的測試;d)應至少支持以下計算精度中的一種:2)FP32;4)FP16;5)BFLOAT16;T/CESA1169—20216)INT8;7)UNIT8;8)INT4;9)UINT4;e)應支持配置了容器或使用虛擬化組件的AI服務器系統(tǒng)的性能測試;f)測試完成后應能完全卸載,不殘留任何測試組件(不含測試數(shù)據(jù));g)應提供日志函數(shù),日志所含內(nèi)容及格式符合6.1.3c)的規(guī)定;h)應支持測試者對測試過程的管理和監(jiān)測,包含但不限于:1)訓練過程子階段開始或完成事件,包含:2)訓練結(jié)果數(shù)據(jù),符合6.1.3c)的規(guī)定;4)能提供證據(jù)輔助測試者實施測試結(jié)果的有效性判定,或自動判定;i)在提前獲得測試項目授權后,應支持被測者在測試期內(nèi)的任意時間發(fā)起測試;j)應能在測試者,為不同測試項維護獨立的結(jié)果數(shù)據(jù)目錄;k)應能支持本地測試(測試者不介入的測試,如預測試、系統(tǒng)調(diào)試等)及遠程測試(測試者介入)。6.4.2公平性保障要求應提供策略及實現(xiàn),支持以下公平性保障功能,包含但不限于:a)防止對指標計算函數(shù)的修改;b)防止測試時對指標計算函數(shù)的替代使用;c)防止在測試結(jié)果上傳前對測試結(jié)果數(shù)據(jù)的修改,結(jié)果的規(guī)定見6.1.3;d)防止在測試開始后,結(jié)果上傳完畢之前對測試代碼的修改;e)防止除測試系統(tǒng)外的其他進程向被測者傳輸過程及結(jié)果數(shù)據(jù);g)測試過程中測試者與被測者通信的加密,信息完整性檢查。7推理過程7.1測試流程推理測試過程,應符合以下規(guī)定:2)AI服務器集群(包含云化的AI服務器集群)。b)推理測試過程,包含以下步驟:·被測者按測試內(nèi)容,載入模型(可預先準備好)和數(shù)據(jù)集;7.1.2規(guī)則1)推理測試源碼:·應實現(xiàn)必要接口(數(shù)據(jù)準備、輸入、輸出);·不應對已實現(xiàn)的指標測量函數(shù)或測試流程控制函數(shù)實施改動、繼承或重載(要求被測者實現(xiàn)的函數(shù)或接口除外)?!つP途幾g、部署時,不應使用其他模型替換測試模型;·測試前,除數(shù)據(jù)集封裝格式轉(zhuǎn)化外,不應瀏覽或記錄數(shù)據(jù)、修改數(shù)據(jù)(非預處理)、瀏覽數(shù)據(jù)、拷貝數(shù)據(jù),以及分析、提取、緩存數(shù)據(jù)特征;·測試過程中,不應實施以下操作:以推理測試進程之外的任何進程,修改、記錄日志;以推理測試進程之外的任何進程,存取測試輸入、輸出數(shù)據(jù);緩存、復用輸入、輸出及過程(預處理結(jié)果、后處理輸入)數(shù)據(jù);修改內(nèi)存中模型參數(shù);保存、緩存后處理過程輸入數(shù)據(jù);記錄、分析或使用作業(yè)到達模式來預測某時段內(nèi)的作業(yè)量;根據(jù)過程b)封閉模式推理時,模型壓縮,不應實施如下操作:2)使用剪枝或其他改變模型結(jié)構(gòu)的方法;3)實施模型蒸餾。c)封閉模式推理時,模型量化,符合以下要求:1)不同場景下量化的模型對象應與表15一致;2)量化結(jié)果不應出現(xiàn)6.1.3a)2)列出的情況。d)推理精度應符合7.2.3,7.2.4中按場景的要求;T/CESA1169—2021e)應聲明推理所用批大小的信息,符合5.4的規(guī)定。7.1.3推理結(jié)果b)推理結(jié)果包含如下信息:2)推理作業(yè)到達模式序號(見表14);3)推理使用的實際精度;4)場景要求的指標值(具體指標,符合“通用推理性能測試場景(封閉)”表及“專用推理性能測試場景(封閉)”的要求);·第二項為當前累計的準確率(具體指標的選取,符合“通用推理性能測試場景(封閉)”表及“專用推理性能測試場景(封閉)”的要求);·第三項為當前已返回結(jié)果的作業(yè)數(shù);·第五項為當前未能在超時范圍內(nèi)處理的樣本數(shù),即丟失樣本數(shù);7)合規(guī)性檢查結(jié)果。7.2場景7.2.1推理作業(yè)a)作業(yè)從測試系統(tǒng)發(fā)往被測系統(tǒng),結(jié)果從被測系統(tǒng)發(fā)送回測試系統(tǒng);b)每個樣本僅含有推理模塊要求的必要(輸入)參數(shù),不含有額外信息;c)推理作業(yè)遵循特定的到達模式,符合7.2.2的要求;d)作業(yè)丟失指被測系統(tǒng)無法在超時控制門限內(nèi)返回結(jié)果的情況;e)超時控制門限指測試者從發(fā)送作業(yè)到收到對應結(jié)果之間允許的最大時間間隔。7.2.2作業(yè)到達模式推理作業(yè)到達模式,應符合表13的定義:T/CESA1169—2021表13推理作業(yè)到達模式表02345第i(i為正整數(shù))個作業(yè)在第(i-1)個作業(yè)完成后P(X=k)=λ(λ為正整數(shù))是單位時間(如每秒)作業(yè)平均到個作業(yè)/s),短周期內(nèi)的作業(yè)到達,符合固定周期在連續(xù)到達、固定周期到達、泊松分布到達、高峰到達、離線到達模式中,加入與當前測試場景不同運行趟數(shù)運行趟數(shù)2否214是1414是14是是是是117.2.3通用測試場景7.2.3.1封閉測試場景應符合表14的要求,場景說明見附錄B。12Top1-準確率>74%表14通用推理性能測試場景(封閉)(續(xù))111121模型作業(yè)到達模式及參數(shù)3bGNMTv2BLEU>24%(適用于兩種翻譯)布到達、離線到達、高峰到達7.2.3.2開放測試場景應符合表15的要求,場景說明見附錄B。T/CESA1169—20211111121作業(yè)到達模式及作業(yè)到達模式及作業(yè)到達模式及作業(yè)到達模式及作業(yè)到達模式及Topl-準確率>75%Topl-準確率>75%連續(xù)單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高連續(xù)單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高連續(xù)單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高連續(xù)單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高cn-wiki連續(xù)單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高BLEU>24%(適用于兩種翻譯)連續(xù)單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高連續(xù)單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高泊松分布到達(λ=20)、離線到達、泊松分布到達(λ=20)、離線到達、泊松分布到達(λ=20)、離線到達、cn-wiki泊松分布到達(λ=20)、離線到達、泊松分布到達(λ=20)、離線到達、T/CESA1169—20217.2.4專用測試場景7.2.4.1封閉測試場景符合表16的要求,場景說明見附錄B。表16專用推理性能場景(封閉)作業(yè)到達模式及參數(shù)2作業(yè)到達模式及參數(shù)金融行業(yè)測試集LFW金融行業(yè)測試集6泊松分布到達(λ=20)、離線到達、LFW泊松分布到達(λ=20)、離線到達、泊松分布到達(λ=20)、離線到達、推理數(shù)據(jù)的格式,沒有嚴格的限定,被測者可以根據(jù)本地框架進行格式轉(zhuǎn)換,格式轉(zhuǎn)換過程不應改變數(shù)據(jù)的值(如圖像像素值),數(shù)據(jù)格式轉(zhuǎn)換過程不計時。作業(yè)到達模式及參數(shù)AI服務器LFW金融行業(yè)測試集泊松分布到達(λ=20),離線到達,LFW泊松分布到達(λ=20),離線到達,推理數(shù)據(jù)的格式,沒有嚴格的限定,被測者可以根據(jù)本地框架進行格式轉(zhuǎn)換,格式轉(zhuǎn)換過程不應改變數(shù)據(jù)的值(如圖像像素值),數(shù)據(jù)格式轉(zhuǎn)換過程不計時。7.3.1時間時間單位為毫秒(ms)。說明a推理總延推理總延總延時延時T?延時T&推理延時TiN分派處理延時Tppp測試者發(fā)送樣本時間與收到結(jié)果時間的差測試者發(fā)送樣本時間與被測者收到樣本時被測者發(fā)送結(jié)果時間與測試者收到結(jié)果時被測者收到樣本時間到處理前時間的差被測者對某樣本預處理的開始時間與結(jié)束時間的差被測者對某樣本推理的開始時間與結(jié)束時被測者對某樣本后處理的開始時間與結(jié)束時間的差被測者處理樣本的開始時間與結(jié)束時間的差。處理延時約是預處理、推理、后處理時間的總和被測者完整收到樣本的時間與處理結(jié)束時推理相關用時及測量方法,應符合表18及圖2的規(guī)定:表18推理時間測量方法測量方法a)測試者在發(fā)送第1個樣本的第1字節(jié)前,緊鄰計時,得到時間點tis;b)測試者在接收到所有樣本的最后1字節(jié)后,緊鄰或在最后一個處理超時時間點計時,得到時間點tīt;c)計算得到推理總延時T?=tie-tisa)測試者在發(fā)送某樣本第1字節(jié)前,緊鄰計時,得到時間點tns;b)測試者在接收完該樣本返回結(jié)果的最后1字節(jié)后,緊鄰計時,得到時間點t;a)測試者在發(fā)送某樣本第1字節(jié)前,緊鄰計時,得到時間點tns(tns=tis);b)被測者在收到樣本最后1字節(jié)后,緊鄰計時,得到時間點tm;a)被測者在發(fā)送結(jié)果第1字節(jié)前,緊鄰計時,得到時間點tns;b)測試者在收到結(jié)果最后1字節(jié)后,緊鄰計時,得到時間點tim(tn=tm);a)被測者收到樣本最后1字節(jié)后,緊鄰計時,得到時間點tniss;b)被測者開始處理前,緊鄰計時,得到時間點tns;a)被測者對某樣本的預處理開始前,緊鄰計時,得到時間點trps;b)被測者對某樣本的預處理結(jié)束后,緊鄰計時,得到時間點tip;a)被測者針對某樣本推理開始前,緊鄰計時,得到時間點tins;b)被測者針對某樣本推理結(jié)束后,緊鄰計時,得到時間點tive;a)被測者對某樣本的后處理開始前,緊鄰計時,得到時間點tipos;b)被測者對某樣本的后處理結(jié)束后,緊鄰計時,得到時間點tipo;a)被測者對某樣本的處理開始前,緊鄰計時,得到時間點tis(tips=tips);b)被測者對某樣本的處理結(jié)束后,緊鄰計時,得到時間點tie(tm=tip);a)被測者收到樣本最后1字節(jié)后,緊鄰計時,得到時間點tirs(tnps=tnss);b)被測者對某樣本的處理結(jié)束后,緊鄰計時,得到時間點tp(tp=tip);Tor測試者從發(fā)送樣本到的最大時間間隔T/CESA1169—2021表18推理時間測量方法(續(xù))b處理時間的計法為:存在預處理時,以預處理開始時間計;如不存在,以推理開始時間計。tour為常量?!瓨颖綢PR推理延時(TW)處理延時(IP)端到端推理時間第1個樣本端到端推理用時分派處理延時(Ipip)第j個樣本端到端推理用時注2:推理的中間結(jié)果,可在AI服務器系統(tǒng)內(nèi)部轉(zhuǎn)移或拷貝,以便處理。圖2推理時間序7.3.2功耗推理功耗以功率計算,單位為瓦(W)。推理功耗及測量方法,應符合表19的規(guī)定:表19推理功耗測量方法AI服務器單機推理平均測量方法測量方法單臺AI服務器在某次推理全程中的平均功率c)求均值AI服務器數(shù)據(jù)預處理平表表單臺單臺AI服務器在某次推理全程中,數(shù)據(jù)預處理階段的a)在SUT,配套使用功率計;均功率AI服務器推理峰值功率單臺AI服務器在某次推理全程中,服務器各部件處于(接近)滿負載壓力狀態(tài)下的最大瞬時功率a)在SUT,配套使用功率計;b)在數(shù)據(jù)預處理延時(T)期間,周期性測量整機的負載功率;c)取最大值a)在SUT各節(jié)點配套使用功率計;AI服務器集群,在某次推理b)在相同時間點,周期性測量每個節(jié)點服務器的負載功率;功率d)求均值7.3.3實際吞吐率實際吞吐率代表人工智能服務器系統(tǒng)對特定推理作業(yè)的有效計算能力,提升有效計算能力可達到硬件系統(tǒng)擴容的同樣效果。對視覺類測試,單位是images/s,對自然語言處理類測試,單位是sentences/s。推理相關實際吞吐率及測量方法,應符合表20的規(guī)定:表20推理吞吐率測量方法AI服務器系統(tǒng)AI服務器系統(tǒng)在單位時間a)在整個推理測試過程中(T內(nèi)),累計所有實際發(fā)送的樣本,及實率完整處理的樣本數(shù)量b)計算其與實際分派處理推理延時總覆蓋時間的比值集合S上,實際吞吐率與每率,作為基線;權幾何平均c)使用表9“AI服務器系統(tǒng)訓練吞吐率綜合加速比”的公式計算率綜合加速比)7.3.4能效T/CESA1169—2021表21推理能效比測量方法測量方法視覺任務能效比自然語言任務能效比語音任務能效比單位為每秒瓦處理的圖像單位為每秒瓦處理的單詞數(shù)單位為每秒瓦處理的句數(shù)a)被測者在整個推理測試過程中(T內(nèi)),在每個端到端推理時間內(nèi),周期性讀取功率計測量值,求出平均功率P?;b)測試者累計返回結(jié)果的任務圖像(幀)數(shù)N;c)測試者累計實際分派處理延時總覆蓋時間Tpp;NPa)在整個推理測試過程中(T內(nèi)),在每個端到端推理時間內(nèi),周期性讀取功率計測量值,求出平均功率Pr;b)累計返回結(jié)果的單詞數(shù)W;c)累計實際分派處理延時總覆蓋時間Tnp;WPa)在整個推理測試過程中(T?內(nèi)),在每個端到端推理時間內(nèi),周期性讀取功率計測量值,求出平均功率P?;b)累計返回結(jié)果的句子數(shù)S;c)累計實際分派處理延時總覆蓋時間Tpp;d)計算語音任務能效比SP行業(yè)任務能效比按視覺、自然語言任務能效參考本表中視覺任務能效比及自然語言任務能效比7.3.5效率推理效率是AI服務器系統(tǒng)完成推理任務與代價的比值,單位為每秒千瓦時[1/(s·kWh)]。推理效率及測量方法,應符合表22的規(guī)定:AI服務器推理AI服務器實際推理準確率3與推理能耗的比值a)b)表22推理效率測量方法測量方法推理結(jié)束時,記錄模型在測試集上的實際準確率(具體指標參見場景列表);記錄實際分派處理延時總覆蓋時間Tpp;準確率指標值TDlpXPsTE1169-2021AI服務器推理說明測量方法f)記錄實際分派處理延時總覆蓋時間Tmp;AI服務器實際推理準確率?與推AI服務器實際推理準確率?與推當準確率指標(設值為a,a≥0且a≤1)為負向指標(如WER)時,則以(1-a)計。7.3.6彈性推理彈性單位是百分率每兆字節(jié)(%/MB)。推理彈性指標及測量方法,應符合表23的規(guī)定:表23推理彈性測量方法指標說明測量方法b)被測者記錄,每單位時間內(nèi),收到的樣本數(shù)據(jù)總量及對應的最大AI服務器系統(tǒng)(T-max;EL=N7.3.7承壓力推理承壓力的單位為兆字節(jié)每秒(MB/s)。推理承壓力指標及測量方法,應符合表24的定義:表24推理承壓力測量方法AI服務器或集群推理承壓力被測AI服務器系統(tǒng)在并發(fā)壓力門AI服務器或集群推理承壓力T/CESA1169—2021b)被測者周期性獲取并發(fā)度,記錄其大7.3.8視頻分析最大路數(shù)視頻分析最大路數(shù),單位是“路”,指標及測量方法,應符合表25的定義:表25推理視頻分析最大路數(shù)測量方法指標說明測量方法說明用解碼器(軟件或硬件實現(xiàn));初始值為1,每個作業(yè)含有1幀(1個圖像樣本);被測AI服務器系統(tǒng),在給定響應超能承受的最大路數(shù)f能承受的最大路數(shù)Td)如被測系統(tǒng)能按表13規(guī)定的超時門限輸出處理結(jié)果,則將n的值調(diào)整為(n+1);定的超時門限返回處理結(jié)果為止,則視頻分析7.4推理用測試系統(tǒng)要求7.4.1功能要求a)應能自動檢測服務器或接收手動填表的被測系統(tǒng)軟、硬件信息,符合5.4的要求;b)應符合7.2.2要求的模式發(fā)生推理作業(yè);c)應能接收推理結(jié)果并為完成計算指標實現(xiàn)必要的功能,包含:2)作業(yè)超時(丟失)率門限檢查;d)應能使用機器學習框架,AI服務器系統(tǒng)提供的使能軟件函數(shù)庫及其他必要信息,完成7.3規(guī)定e)應至少能實施7.2.3規(guī)定的場景的測試;f)應支持數(shù)據(jù)類型,符合6.4.ld)的規(guī)定;g)應支持配置了容器或使用虛擬化組件的AI服務器系統(tǒng)的性能測試;h)測試完成后應能完全卸載,不殘留任何測試組件(不含測試數(shù)據(jù));i)應提供日志函數(shù),日志所含內(nèi)容及格式符合7.1.3b)6)的規(guī)定;j)應支持測試者對測試過程的管理和監(jiān)測,包含但不限于:1)推理過程子階段的開始或完成事件,包含:2)推理結(jié)果數(shù)據(jù),符合7.1.3b)的規(guī)定;3)測試者對重測的允許及次數(shù)控制;4)能提供證據(jù)輔助測試者實施測試結(jié)果的有效性判定,或自動判定;k)在提前獲得測試項目授權后,應支持被測者在測試期內(nèi)的任意時間發(fā)起測試;l)應能在測試者,為不同測試項維護獨立的結(jié)果數(shù)據(jù)目錄;m)應能支持本地測試(測試者不介入的測試,如預測試、系統(tǒng)調(diào)試等)及遠程測試(測試者介入)。7.4.2公平性保障要求應提供策略及實現(xiàn),包含但不限于6.4.2規(guī)定的項目。其中,對推理結(jié)果的要求符合7.1.3b)。T/CESA1169—2021附錄A(規(guī)范性)A.1通則1)公開條件檢查:測試者確認測試結(jié)果有效性,應符合6.1.3及7.1.3的規(guī)定;2)公開協(xié)議檢查:代碼公開前,按協(xié)議檢查并實施公開事項。未簽署協(xié)議的,按本文件的規(guī)注:測試者與被測者宜在測試前或測試后簽訂的代碼公開協(xié)議。3)代碼公開:公布于測試者與被測者商定的場所或網(wǎng)絡媒體;4)結(jié)束公開:在規(guī)定的公開周期后,結(jié)束公開,原公開場所、媒體上,代碼將不可訪問。代碼結(jié)束公開時,代碼公開協(xié)議即告結(jié)束。1)測試代碼可向測試者及組織成員公開。具備合法訪問權限時,組織、成員應能瀏覽、下載;2)被測者不負責向測試者及組織成員之外的機構(gòu)、團體、企業(yè)及個人解釋、講解代碼原理或3)已達成協(xié)議的不公開部分,不應公開;4)測試代碼公開,可不包含:——被測者私有的工具源碼(如模型格式轉(zhuǎn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2022年大連交通大學自考英語(二)練習題(附答案解析)
- 幼兒園小班數(shù)學三只熊的早餐教案
- 2024北京九中高二(下)開學考語文試題及答案
- 2025年國際市場分析與策略能力測評試卷及答案
- 《連鎖經(jīng)營》課件項目八連鎖
- 2025年公共衛(wèi)生管理專業(yè)研究生入學考試試卷及答案
- 中職班團活動策劃與實施
- 2025年信息安全工程師職業(yè)資格考試試卷及答案
- 2025年城市生態(tài)與環(huán)境建設考試題及答案
- 2025年護士專業(yè)考試試題及答案
- 2024-2025學年人教版一年級下數(shù)學期末試卷(含答案)
- 2025山西萬家寨水務控股集團所屬企業(yè)校園招聘82人筆試參考題庫附帶答案詳解
- 牙科手術安全核查流程與標準
- 【MOOC】《中國哲學》(北京師范大學) 章節(jié)作業(yè)中國大學慕課答案
- 中國當代文學專題-003-國開機考復習資料
- 杜邦安全理念課件
- 管道無損檢測施工專項方案
- 酒店工程部考核表
- 槽鋼樁支護施工方案
- 土石壩剖面圖繪制12.28
- 水利水電工程防滲墻工程質(zhì)量檢測
評論
0/150
提交評論