CESA-2021-3-004《??智能芯片 計算機(jī)視覺推理用云側(cè)深度學(xué)習(xí)芯片測試指標(biāo)與測試方法》團(tuán)體標(biāo)準(zhǔn)(征求意見稿)_第1頁
CESA-2021-3-004《??智能芯片 計算機(jī)視覺推理用云側(cè)深度學(xué)習(xí)芯片測試指標(biāo)與測試方法》團(tuán)體標(biāo)準(zhǔn)(征求意見稿)_第2頁
CESA-2021-3-004《??智能芯片 計算機(jī)視覺推理用云側(cè)深度學(xué)習(xí)芯片測試指標(biāo)與測試方法》團(tuán)體標(biāo)準(zhǔn)(征求意見稿)_第3頁
CESA-2021-3-004《??智能芯片 計算機(jī)視覺推理用云側(cè)深度學(xué)習(xí)芯片測試指標(biāo)與測試方法》團(tuán)體標(biāo)準(zhǔn)(征求意見稿)_第4頁
CESA-2021-3-004《??智能芯片 計算機(jī)視覺推理用云側(cè)深度學(xué)習(xí)芯片測試指標(biāo)與測試方法》團(tuán)體標(biāo)準(zhǔn)(征求意見稿)_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

ICS31.200

CCSL56

團(tuán)體標(biāo)準(zhǔn)

T/CESAXXX-202X

人工智能芯片計算機(jī)視覺推理用云側(cè)深度

學(xué)習(xí)芯片測試指標(biāo)與測試方法

AIchips-Computervision-Testmetricsandtestmethodofdeeplearningchipsfor

cloudsideinference

征求意見稿

在提交反饋意見時,請將您知道的相關(guān)專利連同支持性文件一并附上。

已授權(quán)的專利證明材料為專利證書復(fù)印件或扉頁,已公開但尚未授權(quán)的專利申

請證明材料為專利公開通知書復(fù)印件或扉頁,未公開的專利申請的證明材料為專利

申請?zhí)柡蜕暾埲掌凇?/p>

202X-XX-XX發(fā)布202X-XX-XX實(shí)施

中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會發(fā)布

T/CESAXXXX—202X

前??言

本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起

草。

本文件由上海商湯科技開發(fā)有限公司提出。

本文件由中國電子技術(shù)標(biāo)準(zhǔn)化研究院、中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會歸口。

本文件起草單位:。

本文件主要起草人:。

IV

T/CESAXXXX—202X

人工智能芯片計算機(jī)視覺推理用云側(cè)深度學(xué)習(xí)芯片測試指標(biāo)與測

試方法

1范圍

本文件規(guī)定了計算機(jī)視覺領(lǐng)域面向云側(cè)的深度學(xué)習(xí)推理芯片的基本規(guī)格、功能、性能、軟件生態(tài)、

應(yīng)用場景等評測指標(biāo)及測試方法。

本文件適用于芯片生產(chǎn)廠商、應(yīng)用廠商及第三方機(jī)構(gòu)對計算機(jī)視覺領(lǐng)域面向云側(cè)的深度學(xué)習(xí)推理芯

片進(jìn)行測試與評估,也適用于計算機(jī)視覺領(lǐng)域深度學(xué)習(xí)推理芯片產(chǎn)品的采購、設(shè)計。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

T/CESA1119—2020人工智能芯片面向云側(cè)的深度學(xué)習(xí)芯片測試指標(biāo)與測試方法

3術(shù)語和定義

T/CESA1119-2020界定的以及下列術(shù)語和定義適用于本文件。

3.1

推理inference

從給定的前提進(jìn)行論證并得出結(jié)論。

注1:在人工智能領(lǐng)域中,一個前提是一個事實(shí)、一個規(guī)則、一個模型、一個特征或原始數(shù)據(jù)。

注2:術(shù)語“推理”既指過程也指結(jié)果。

[來源:ISO/IEC2382:20152123828有修改]

3.2

計算機(jī)視覺computervision

一種具備獲取、處理和解釋視覺數(shù)據(jù)能力的功能單元。

[來源:ISO/IEC2382:20153.1.11有修改]

4縮略語

下列縮略語適用于本文件。

FPS:幀率(FramePerSecond)

MAP:平均精度均值(Meanaverageprecision)

5測試說明

1

T/CESAXXXX—202X

5.1測試環(huán)境

本文件的測試環(huán)境及測試流程均應(yīng)符合T/CESA1119—2020《人工智能芯片面向云側(cè)的深度學(xué)

習(xí)芯片測試指標(biāo)與測試方法》標(biāo)準(zhǔn)的相關(guān)要求。

5.2測試對象

本文件的測試對象是含有計算機(jī)視覺推理用云側(cè)深度學(xué)習(xí)芯片(卡/棒)的控制主機(jī),指以芯片(卡

/棒)形態(tài)進(jìn)行使用的深度學(xué)習(xí)芯片,如GPU、FPGA以及ASIC等深度學(xué)習(xí)芯片(卡/棒),可通過PCIE、

USB等接口與測試主機(jī)連接。

5.3測試內(nèi)容

計算機(jī)視覺推理芯片的測評指標(biāo),主要包括基本技術(shù)規(guī)格、功能、性能、軟件生態(tài)以及應(yīng)用場景測

試等部分,在依據(jù)本文件進(jìn)行測試的過程中:

a)涉及功能、性能、應(yīng)用場景等相關(guān)指標(biāo)將通過第三方測試工具進(jìn)行評測;

b)涉及基本技術(shù)規(guī)格和軟件生態(tài)部分的指標(biāo)將采信被測對象標(biāo)稱值及其他技術(shù)信息,作為先進(jìn)性

的參考。

6測試指標(biāo)

6.1基本技術(shù)規(guī)格

6.1.1內(nèi)存

內(nèi)存指代推理芯片的設(shè)備端內(nèi)存(對應(yīng)GPU的顯存),相關(guān)指標(biāo)及參考值見表1。

表1內(nèi)存相關(guān)指標(biāo)及參考值

維度指標(biāo)參考值

內(nèi)存內(nèi)存類型/

內(nèi)存容量(GB)40

內(nèi)存帶寬(GB/s)1555

6.1.2互聯(lián)

互聯(lián)指代主機(jī)端CPU與設(shè)備端推理芯片的通信接口,相關(guān)指標(biāo)及參考值見表2。

表2互聯(lián)相關(guān)指標(biāo)及參考值

測試維度測試指標(biāo)參考值

接口類型PCIe4.0

互聯(lián)

接口帶寬(GB/s)64

6.1.3算力

算力指代推理芯片所能提供的所有計算能力,包含提供核心矩陣/卷積運(yùn)算加速的計算單元以及提

供相對通用計算的計算單元的算力(對應(yīng)GPU的TensorCore與CudaCore),但對于不同計算單元提供

的同樣數(shù)據(jù)類型的算力需要進(jìn)行區(qū)分,相關(guān)指標(biāo)及參考值見表3。

2

T/CESAXXXX—202X

表3算力相關(guān)指標(biāo)及參考值

測試維度測試指標(biāo)參考值

int8(TOPS)624

float16(TFLOPS)312

bfloat16(TFLOPS)312

算力

float32(TFLOPS)19.5

tfloat32(TFLOPS)156

float64(TFLOPS)19.5/9.7

6.1.4視頻圖像編解碼能力

視頻圖像編解碼能力指代推理芯片所能提供的硬件編解碼器的能力,包含視頻/圖像、編碼/解碼共

四種任務(wù)的能力。相關(guān)指標(biāo)及參考值見表4。

表4視頻圖像編解碼能力相關(guān)指標(biāo)及參考值

測試維度測試指標(biāo)參考值

視頻(HEVC、H.264、VP9等)1080p、4K

編碼格式、分辨率支持

圖像(JPEG、PNG等)4K

解碼:H.265128路1080P30FPS

編解碼能力圖像最大處理能力(編碼格式、路數(shù)、分辨率、FPS)

編碼:H.26524路1080P30FPS

解碼:JPEG4K384FPS

視頻最大處理能力(編碼格式、路數(shù)、分辨率、FPS)

編碼:JPEG4K192FPS

6.1.5功耗

功耗指代設(shè)備端的加速卡的整體功耗,相關(guān)指標(biāo)及參考值見表5。

表5功耗相關(guān)指標(biāo)及參考值

測試維度測試指標(biāo)參考值

待機(jī)功耗(W)/

功耗滿載功耗(W)/

最大熱設(shè)計功耗TDP(W)250

6.1.6制程

制程指代推理芯片的芯片代工制程。相關(guān)指標(biāo)及參考值見表6。

表6制程相關(guān)指標(biāo)及參考值

測試維度測試指標(biāo)參考值

芯片代工廠/

制程

芯片制程(nm)/

6.2功能

6.2.1算子功能

3

T/CESAXXXX—202X

算子功能主要評測推理芯片對于計算機(jī)視覺任務(wù)常用的算子的支持度。待測算子采用ONNX格式

表示,詳細(xì)的待測算子列表參考附錄B.1,算子類別及權(quán)重設(shè)置見表7。

注:算子功能章節(jié)的待測算子從附錄B.3的待測模型池中挑選而來,并基于算子在待測模型池中所有模型的出現(xiàn)頻

率和組成模型必要性分為三個級別,并分別賦予權(quán)重。

表7算子類別及權(quán)重設(shè)置

算子級別權(quán)重級別描述

第一級算子0.5核心算子。組成計算機(jī)視覺模型的最基本的算子集合,如Conv等。

第二級算子0.3高頻算子。除核心算子外,在計算機(jī)視覺模型中使用頻率較高的算子集合,用于組成某些常

用的網(wǎng)絡(luò)結(jié)構(gòu),比如Resize常用于FPN結(jié)構(gòu)中。

第三級算子0.2領(lǐng)域?qū)S盟阕印3鲜鏊阕油?,在特定?yīng)用領(lǐng)域需要支持的算子,比如目標(biāo)檢測領(lǐng)域的后處

理需要支持NonMaxSuppression。

采用推理芯片在上述三級算子的支持率作為評分依據(jù),支持率如公式(1)所示:

·····························(1)

對于推理芯片在上述三級算子的評分按照賦予的權(quán)重進(jìn)行加權(quán)求和得到算子功能評分,如公式(2)

下所示:

··················(2)

6.2.2模型功能

模型功能主要評測推理芯片在計算機(jī)視覺任務(wù)中典型模型的支持度。待測模型池基于典型計算機(jī)視

覺任務(wù)的常用公開模型并兼顧實(shí)際使用情況,采用ONNX格式表示,并作為算子、模型測試的基準(zhǔn)模

型池。待測模型池分為圖像分類、目標(biāo)檢測、語義分割三個領(lǐng)域,詳細(xì)待測模型列表參考附錄B.3,權(quán)

重設(shè)置見表8。

表8模型功能及權(quán)重設(shè)置

模型領(lǐng)域權(quán)重

圖像分類0.5

目標(biāo)檢測0.3

語義分割0.2

采用推理芯片在上述三類模型的支持率作為評分依據(jù),支持率如公式(3)所示:

·····························(3)

4

T/CESAXXXX—202X

對于推理芯片在上述三類模型的評分按照賦予的權(quán)重進(jìn)行加權(quán)求和得到模型功能評分,如公式(4)

所示:

··················(4)

6.3性能

6.3.1算子性能

算子性能主要評測推理芯片在核心算子和相對耗時算子上的整體性能。待測算子采用ONNX格式

表示,選擇范圍見附錄B.1,詳細(xì)待測算子列表和對應(yīng)的算子參數(shù)列表參考附錄B.2。算子性能及權(quán)重

設(shè)置見表9。

表9算子性能及權(quán)重設(shè)置

算子類別權(quán)重類別說明

Conv0.4Conv是計算機(jī)視覺任務(wù)中耗時占比最高的算子,其性能決定了推理芯片在大多數(shù)模型中的

整體性能。

Gemm0.3Gemm是實(shí)現(xiàn)計算機(jī)視覺任務(wù)加速的最基本的運(yùn)算形式,其性能體現(xiàn)了推理芯片核心計算單

元的綜合性能。

其他算子0.3待測模型中包含較多邏輯判斷且無法使用矩陣運(yùn)算有效加速而稱為模型性能瓶頸的算子,

目前暫選擇NonMaxSuppression、TopK、RoiAlign三個算子作為待測算子。

采用推理延遲與參考平臺的參考推理延遲的比值作為評分依據(jù),比值越低評分越高。同時考慮到不

同推理芯片會支持不同的數(shù)據(jù)類型且會有不同的推理性能,因此需采用同樣的數(shù)據(jù)類型,分別得到比值

后取最大值,如公式(5)所示。

·············(5)

對于相同算子下多個算子的參數(shù)配置,需要體現(xiàn)推理芯片的綜合性能,因此采用均等權(quán)重,如公式

(6)所示。

····························(6)

推理芯片在上述三類算子的評分按照賦予的權(quán)重應(yīng)進(jìn)行加權(quán)求和得到算子性能評分,如公式(7)

所示??紤]到不同的應(yīng)用場景對于推理芯片在推理延遲和推理帶寬上有不同的需求,因此推理芯片在單

batch和多batch下的性能需要分別評測。

··························(7)

5

T/CESAXXXX—202X

6.3.2模型性能

模型性能主要評測推理芯片在各計算機(jī)視覺領(lǐng)域中典型模型的整體推理性能。待測模型采用ONNX

格式表示,選擇范圍見附錄B.2,待測模型列表參考附錄B.4,算子性能及權(quán)重設(shè)置見表10。

表10模型性能及權(quán)重設(shè)置

模型領(lǐng)域權(quán)重

圖像分類0.5

目標(biāo)檢測0.3

語義分割0.2

采用推理延遲與參考平臺的參考推理延遲的比值作為評分依據(jù),比值越低評分越高。同時考慮到不

同推理芯片會支持多種數(shù)據(jù)類型的模型推理,且模型推理已經(jīng)比較接近實(shí)際應(yīng)用場景需求,因此對于每

個待測模型,只設(shè)置一個參考推理延遲,而對于推理芯片所支持的多種數(shù)據(jù)類型,分別算出比值并取最

大值,如公式(8)所示。考慮到不同的應(yīng)用場景對于推理芯片在推理延遲和推理帶寬上有不同的需求,

因此推理芯片在單batch和多batch下的性能需要分別評測。

············(8)

對于同一領(lǐng)域內(nèi)的模型采用均等權(quán)重,如公式(9)所示。

··································(9)

對于推理芯片在多個領(lǐng)域的評分按照相應(yīng)的權(quán)重進(jìn)行加權(quán)求和得到模型性能評分,如公式(10)所

示。

··························(10)

6.4軟件生態(tài)

軟件生態(tài)應(yīng)從多個維度評測推理芯片的軟件棧支持的特性,具體評測指標(biāo)參考附錄B.6。

6.5應(yīng)用場景測試

應(yīng)用場景測試章節(jié)主要評測包含推理芯片在內(nèi)的系統(tǒng)在實(shí)際計算機(jī)視覺任務(wù)的完整pipeline下的

綜合性能,包含推理芯片在內(nèi)的設(shè)備端的總線接口、視頻/圖像解碼、圖像前處理、模型推理、后處理

等能力。

具體待測任務(wù)參考附錄B.5的應(yīng)用場景測試-待測任務(wù)列表。

通過測試,采用實(shí)測整體吞吐量與參考平臺的參考吞吐量的比值作為評分依據(jù),比值越高評分越高。

數(shù)據(jù)類型在滿足精度損失要求下,選擇吞吐量最高時對應(yīng)的數(shù)據(jù)類型,如公式(11)所示。

6

T/CESAXXXX—202X

························(11)

對推理芯片在附錄B.5中的多個應(yīng)用場景測試任務(wù)的評分賦予均等的權(quán)重,如公式(12)所示。

····································(12)

7測試方法

7.1基本技術(shù)規(guī)格

基本技術(shù)規(guī)格章節(jié)的各項指標(biāo)的測試結(jié)果目前采用推理芯片的相關(guān)技術(shù)文檔中的標(biāo)稱值以及廠商

提供的其他相關(guān)技術(shù)信息。

7.2功能

7.2.1測試目標(biāo)

測試推理芯片以及其軟件棧是否支持附錄B.1(算子功能-待測算子列表)和附錄B.3(模型功能-

待測模型列表)所列的算子與模型。

7.2.2測試準(zhǔn)備

功能測試需要被測方提供以下內(nèi)容:

a)應(yīng)提供處于最佳工作環(huán)境、廠商標(biāo)配的主機(jī)配置、廠商標(biāo)配的推理芯片產(chǎn)品形態(tài);

b)應(yīng)提供推理芯片軟件棧的相關(guān)技術(shù)文檔;

c)應(yīng)提供單算子的編譯庫與運(yùn)行庫;

d)應(yīng)提供模型的編譯庫與運(yùn)行庫;

e)宜提供模型量化工具。

7.2.3測試要求

推理芯片以及其軟件棧應(yīng)滿足以下要求:

a)支持給定單算子或者模型的編譯。其中,不要求單算子與推理芯片底層算子是一對一的關(guān)系,

可以是多個底層算子組成的子圖,即計算行為一致即可;

b)支持至少一種數(shù)據(jù)類型。對于給定單算子或者模型,其輸入輸出要求是float32,若使用整型

計算,量化與反量化應(yīng)由推理芯片軟件棧支持解決;

c)支持給定單算子的運(yùn)行,且在相同輸入下,推理芯片的輸出應(yīng)與ONNXRuntimeCPU(v1.10.0,

Inteli7-8700@3.2GHz)的輸出對齊,或在可接受精度損失范圍內(nèi);

d)支持給定模型的運(yùn)行,且在模型指定的數(shù)據(jù)集輸入下,推理芯片的輸出精度與模型提供的官方

精度的誤差不超過1%。

7.2.4算子功能測試流程

表11算子功能測試流程

7

T/CESAXXXX—202X

序號步驟步驟描述

1數(shù)據(jù)準(zhǔn)備針對每一個算子,給定標(biāo)準(zhǔn)輸入輸出數(shù)據(jù),其中標(biāo)準(zhǔn)輸入數(shù)據(jù)為算子對應(yīng)的float32類型的測

試輸入數(shù)據(jù),標(biāo)準(zhǔn)輸出數(shù)據(jù)為在標(biāo)準(zhǔn)輸入數(shù)據(jù)下的ONNXRuntimeCPU的輸出,通常也為float32

類型,某些情況下會包含int32等其他數(shù)據(jù)類型輸出。

2算子編譯與調(diào)用推理芯片的單算子編譯庫、量化工具(如必要)、運(yùn)行庫完成單算子的編譯與運(yùn)行,在

運(yùn)行給定的標(biāo)準(zhǔn)輸入數(shù)據(jù)下獲取推理芯片輸出數(shù)據(jù)。

3精度對比使用絕對誤差和相對誤差綜合比較標(biāo)準(zhǔn)輸出數(shù)據(jù)和推理芯片輸出數(shù)據(jù),判斷其是否在可接受

精度損失范圍內(nèi),對于不同的數(shù)據(jù)類型有不同的精度要求。

7.2.5模型功能測試流程

表12模型功能測試流程

序號步驟步驟描述

1數(shù)據(jù)準(zhǔn)備針對每一個模型,給定測試數(shù)據(jù)集和官方測試精度。

2模型編譯與調(diào)用推理芯片的模型編譯庫、量化工具(如必要)、運(yùn)行庫完成模型的編譯與運(yùn)行,在給定

運(yùn)行的測試數(shù)據(jù)集下測試得到推理芯片測試精度(top1/top5、mAP、mIoU等)。

3精度對比直接比較推理芯片測試精度與模型官方測試精度的誤差(通常要求誤差不超過1%)。

7.3性能

7.3.1測試目標(biāo)

測試推理芯片以及其軟件棧在附錄B.2算子性能-待測算子與算子參數(shù)列表的多算子和多算子參數(shù)

以及附錄B.4模型性能-待測模型列表中的多模型下的推理耗時,其中單batch與多batch分別測試。

7.3.2測試準(zhǔn)備

性能測試需要被測方提供以下內(nèi)容:

a)應(yīng)提供處于最佳工作環(huán)境、廠商標(biāo)配的主機(jī)配置、廠商標(biāo)配的推理芯片產(chǎn)品形態(tài);

b)應(yīng)提供推理芯片軟件棧的相關(guān)技術(shù)文檔;

c)應(yīng)提供單算子的編譯庫與運(yùn)行庫;

d)應(yīng)提供模型的編譯庫與運(yùn)行庫;

e)宜提供模型量化工具;

f)宜提供profiling工具。

7.3.3測試要求

測試推理芯片在單算子和模型的推理耗時有以下測試要求:

a)應(yīng)先完成單算子或者模型的精度測試,且能滿足精度要求;

b)運(yùn)行端宜采用C/C++接口,以保證測試結(jié)果的準(zhǔn)確度;

注:使用C的time模塊或者C++的chrono模塊測試推理前后的時間差(設(shè)備端)作為推理耗時,不包含主機(jī)端

與設(shè)備端間數(shù)據(jù)傳輸?shù)暮臅r。如推理芯片有提供profiling工具,可采用profiling工具的測試結(jié)果作為參考,但

不作為推理耗時測試結(jié)果。

c)單batch下應(yīng)測試最短的推理耗時,多batch下應(yīng)測試能達(dá)到最大吞吐量的推理耗時;

注:其中,多batch會選擇8、16、32、64、128、256作為固定測試檔位以減少測試量,多batch在推理芯片上

的高效調(diào)度需由廠商提供的軟件?;蛱峁┍匾臏y試樣例。

8

T/CESAXXXX—202X

d)對于單算子或者模型的量化場景而言,在實(shí)際測試中runtime階段因量化或格式轉(zhuǎn)換引入的時

間應(yīng)作為推理耗時。

7.3.4算子性能測試流程

表13算子性能測試流程

序號步驟步驟描述

1數(shù)據(jù)準(zhǔn)備針對每一個算子,給定標(biāo)準(zhǔn)輸入輸出數(shù)據(jù),其中標(biāo)準(zhǔn)輸入數(shù)據(jù)為算子對應(yīng)的float32類型的

測試輸入數(shù)據(jù),標(biāo)準(zhǔn)輸出數(shù)據(jù)為在標(biāo)準(zhǔn)輸入數(shù)據(jù)下的ONNXRuntimeCPU的輸出,通常也為

float32類型,某些情況下會包含int32等其他數(shù)據(jù)類型輸出。

2單算子編譯調(diào)用推理芯片的單算子編譯庫、量化工具(如必要)完成單算子的編譯,需包含單batch以

及多batch的編譯。

3設(shè)備環(huán)境準(zhǔn)備完成必要的設(shè)備runtime管理,并完成必要的warmup,并將輸入數(shù)據(jù)放在設(shè)備端內(nèi)存上。

4單算子運(yùn)行完成單算子在單batch下和多batch下的推理,記錄推理前后時間差,并輔以profiling工具

測試記錄。

5設(shè)備環(huán)境重置重置設(shè)備runtime環(huán)境。

7.3.5模型性能測試流程

表14模型性能測試流程

序號步驟步驟描述

1數(shù)據(jù)準(zhǔn)備針對每一個模型,給定測試數(shù)據(jù)集和官方測試精度。

2模型編譯調(diào)用推理芯片的模型編譯庫、量化工具(如必要)完成模型的編譯,需包含單batch以及多

batch的編譯。

3設(shè)備環(huán)境準(zhǔn)備完成必要的設(shè)備runtime管理,并完成必要的warmup,并將輸入數(shù)據(jù)放在設(shè)備端內(nèi)存上。

4模型運(yùn)行完成模型在單batch和多batch下的推理,記錄推理前后時間差,并輔以profiling工具測試

記錄。

5設(shè)備環(huán)境重置重置設(shè)備runtime環(huán)境。

7.4軟件生態(tài)

軟件生態(tài)章節(jié)的各項指標(biāo)的評分應(yīng)根據(jù)推理芯片的相關(guān)技術(shù)文檔、配套的軟件棧以及廠商提供的其

他相關(guān)技術(shù)信息確定。

7.5應(yīng)用場景測試

7.5.1測試目標(biāo)

測試推理芯片以及其軟件棧在附錄B.5應(yīng)用場景-待測任務(wù)列表的整體吞吐量(fps)。

7.5.2測試準(zhǔn)備

應(yīng)用場景測試需要被測方提供以下內(nèi)容:

a)應(yīng)提供功能與性能測試所要求的材料;

b)應(yīng)提供應(yīng)用場景測試的測試樣例;

注:每一個應(yīng)用場景對應(yīng)一個樣例,同時需提供詳細(xì)的文檔說明。

c)測試樣例應(yīng)包含明確的運(yùn)行時的各項信息以及測試結(jié)果。

9

T/CESAXXXX—202X

7.5.3測試要求

測試推理芯片在待測任務(wù)下的整體吞吐量應(yīng)滿足以下要求:

a)應(yīng)用場景測試的測試用例由推理芯片廠商提供,以滿足對應(yīng)模型功能測試的精度要求下追求系

統(tǒng)整體的最大吞吐量;

b)對主機(jī)端CPU不做要求,以廠商推薦的主機(jī)端配置為準(zhǔn);

注:但不能使用主機(jī)端CPU完成諸如數(shù)據(jù)前后處理、視頻圖像編解碼,只做計算調(diào)度使用,如因推理芯片無

法共相應(yīng)的能力需要主機(jī)端CPU協(xié)助計算,應(yīng)單獨(dú)標(biāo)明。

c)整體流程符合基本要求,采用給定的輸入測試數(shù)據(jù),保證測試吞吐量的真實(shí)性;

d)測試精度滿足模型功能測試的精度要求。

7.5.4測試流程

推理芯片廠商提供的實(shí)際應(yīng)用場景的測試樣例應(yīng)滿足以下測試流程:

表15應(yīng)用場景的測試流程

序號步驟步驟說明

1準(zhǔn)備數(shù)據(jù)準(zhǔn)備輸入圖像數(shù)據(jù)或者視頻數(shù)據(jù)。

2數(shù)據(jù)傳輸將輸入數(shù)據(jù)由主機(jī)端傳輸?shù)皆O(shè)備端。

3解碼圖像或者視頻數(shù)據(jù)解碼。

4前處理完成必要的圖像前處理。

5模型推理完成對應(yīng)模型的推理。

6后處理完成必要的后處理操作。

7數(shù)據(jù)傳輸將輸出數(shù)據(jù)由設(shè)備端傳輸?shù)街鳈C(jī)端。

8精度對比將輸出數(shù)據(jù)與參考輸出數(shù)據(jù)進(jìn)行對比得到整體精度。

9多路配置上述步驟可以并行執(zhí)行多路處理流程以達(dá)到系統(tǒng)整體最大吞吐量。

10

T/CESAXXXX—202X

附錄A

(資料性)

推理測試參考框架

A.1推理測試框架

推理測試框架說明見圖A.1。

測試框架被測系統(tǒng)

模型模型處理

數(shù)據(jù)集數(shù)據(jù)預(yù)處理

執(zhí)行推理

性能結(jié)果

板卡/模組

后處理

X-PU

精度結(jié)果精度計算

能效比功耗采集

注:X-PU為被測計算機(jī)視覺推理用深度學(xué)習(xí)芯?,包括GPU、NPU等。

1.輸入,本標(biāo)準(zhǔn)指定的模型和數(shù)據(jù)集;

2.模型處理,可選,如量化、使用模型轉(zhuǎn)換工具對模型進(jìn)行轉(zhuǎn)換;

3.送測方提供使能其系統(tǒng)的接口供測試框架調(diào)用,比如初始化,模型加載、執(zhí)行、卸載。

圖A.1推理測試框架

11

T/CESAXXXX—202X

附錄B

(規(guī)范性)

算子及模型列表

B.1算子功能測試列表

表B.1算子功能測試列表

級別算子備注

Add,AveragePool,Concat,Conv,Gemm,GlobalAveragePool,GlobalMaxPool,

第1級算子

MaxPool,Relu,Reshape

Argmax,BatchNormalization,ConvTranspose,LeakyRelu,MatMul,PRelu,

第2級算子Resize,RoiAlign,Slice,Squeeze,Unsqueeze,Transpose,Sigmoid,

Softmax

Cast,Clip,ConstantOfShape,Div,Exp,Expand,Equal,Greater,Less,

第3級算子LRN,Not,Mul,NonMaxSuppression,Range,ReduceMax,ScatterND,Shape,

Sub,Tile,TopK,Where

B.2算子性能配置列表

表B.2Conv算子計算配置

序號CiWHCokernelpadstride

1322422464311

264112112128311

31285656256311

42562828512311

55121414512311

651277512311

7322422464732

8192282832521

9192282864101

10512141448521

115121414192101

1283277256101

1383277128521

1414804816311

15162402432311

16321201264311

1764606128311

18310810864312

1964545464311

12

T/CESAXXXX—202X

201282727128311

211281414256311

2225677512311

2364565664311

24645656256102

251282828128311

261282828512102

272561414256311

2825614141024102

2951277512101

30204877512132

316411211264101

32645656256101

表B.3Gemm算子計算配置

序號MNKATransposeBTranspose

111000204801

214096921601

314096409601

411000409601

511000128001

611000102401

71100051201

8140962508801

9110241254401

1011024102401

11110248101

121102432001

表B.4NonMaxSuppression算子計算配置

序號max_output_boxes_per_classiou_thresholdscore_thresholdboxes(dim)scores(dim)

110000.70(1,1000,4)(1,1,1000)

21000.50.05(1,80000,4)(1,1,80000)

32000.50.05(1,3900,4)(1,80,3900)

注:上述各項配置的centor_point_box設(shè)置為0。

表B.5TopK算子計算配置

序號axislargestsortedX(dim)K

13

T/CESAXXXX—202X

1-111(1,72)5/20

2-111(1,1000)8/100/400/600

3-111(1,80000)8/100/400/600

4-111(1,312000)8/100/400/600

表B.6RoiAlign算子計算配置

inputrois

序號output_heightoutput_widthspatial_scale

(dim)(dim)

1770.25(1,256,140,84)(1000,5)

2770.125(1,256,70,42)(1000,5)

3770.0625(1,256,35,21)(1000,5)

4770.03125(1,256,18,11)(1000,5)

514140.25(1,256,140,84)(100,5)

614140.125(1,256,70,42)(100,5)

714140.0625(1,256,35,21)(100,5)

814140.03125(1,256,18,11)(100,5)

注:上述各項配置的coordinate_transformation_mode為half_pixel,sampling_ratio為0,mode為avg。

B.3模型功能測試列表

表B.7模型功能測試列表

類別網(wǎng)絡(luò)模型數(shù)據(jù)集(精度驗(yàn)證)備注

圖像分類alexnetImageNet2012來自openmmlab的模型,使用項目提供的模型

googlenetval轉(zhuǎn)換腳本將模型轉(zhuǎn)換成onnx模型,腳本路徑

zfnet(Top-1,Top-5)/open-mmlab/mmclassifi

vgg16cation/blob/master/tools/deployment/pyto

efficientnetrch2onnx.py。

squeezenet

resnet50-v1

resnext50

se-resnet50

shufflenet-v2

mobilenet-v2

inception-v3

densenet121

目標(biāo)檢測faster-rcnnCOCO來自openmmlab的模型,使用項目提供的模型

mask-rcnnval2017轉(zhuǎn)換腳本將模型轉(zhuǎn)換成onnx模型,腳本路徑

retinanet(mAP)/open-mmlab/mmdetectio

fsafn/blob/master/tools/deployment/pytorch2o

14

T/CESAXXXX—202X

ssdnnx.py

yolo-v3

fcos

solo

語義分割deeplab-v3Cityscapes來自openmmlab的模型,使用項目提供的模型

pspnet(mIoU)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論