版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1人工智能計算機視覺系統(tǒng)測評規(guī)范本文件規(guī)定了基于機器學習的計算機視覺系統(tǒng)的測評規(guī)范,包括測評指標體系和測評流程。本文件適用于企業(yè)、研究機構(gòu)等對基于機器學習的計算機視覺系統(tǒng)的設(shè)計、研發(fā)、測試、部署與運維,其他人工智能領(lǐng)域可參考使用。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T25000.10-2016系統(tǒng)與軟件工程系統(tǒng)與軟件質(zhì)量要求和評價(SQuaRE)第10部分:系統(tǒng)與軟件質(zhì)量模型T/CESA1026-2018人工智能深度學習算法評估規(guī)范ISO22300:2021安全與恢復力術(shù)語(Securityandresilience-Vocabulary)3術(shù)語和定義T/CESA1026-2018界定的以及下列術(shù)語和定義適用于本文件。3.1計算機視覺系統(tǒng)computervisionsystem基于機器學習算法,對數(shù)字圖像或視頻中的目標實現(xiàn)分類、檢測、分割任務(wù)的計算機應用系統(tǒng)。注:本文件所述計算機視覺系統(tǒng),不包括非機器學習的系統(tǒng),且只關(guān)3.2圖像分類imageclassification根據(jù)一定的規(guī)則,將圖像自動劃分到某一個預定義類別。3.3圖像分割imagesegmentation將圖像分解成若干個各向同性區(qū)域。3.4語義分割semanticsegmentation給圖像中每個像素賦予一個所屬對象類別的標簽。將圖像分成若干部分,每一部分屬于某一類型對3.5實例分割instancesegmentation標記圖像中每個像素所屬的物體實例。3.6目標檢測objectdetection確認圖像中是否存在指定類別的對象并確定其位置和大小。3.7混淆矩陣confusionmatrix2每一類事件(對象、物體等)被預測為所有類型事件(對象、物體等)的概率。3.8精度precision被預測為正樣本的集合中正樣本的比率。3.9召回率recall被正確預測的正樣本占全部正樣本的比率。3.10F1測度F1score精度和召回率的調(diào)和平均值。3.11受試者工作特征曲線receiveroperatingcharacteristiccurve由不同設(shè)定條件下的真正率和假正率值畫出的響應曲線。3.12真負率truenegativerate被正確預測的負樣本占全部負樣本的比率。3.13假正率falsepositiverate被錯誤預測的負樣本占全部負樣本的比率。3.14錯誤接受率falseacceptancerate接受不該接受的樣本的比率。[來源:ISO22300:2021,3.2.18]3.15錯誤拒絕率falserejectionrate拒絕不該拒絕的樣本的比率。[來源:ISO22300:2021,3.2.19]3.16可解釋性interpretability人類能夠理解人工智能技術(shù)內(nèi)在工作原理及其作出決策原因的程度。4縮略語下列縮略語適用于本文件。ARM:高級精簡指令集機器(AdvancedRISCMachine)AUC:曲線下面積(AreaUnderCurve)CPU:中央處理器(CentralProcessingUnit)FN:假負(FalseNegative)FP:假正(FalsePositive)FWIoU:頻率加權(quán)交并比(FrequencyWeightedIntersectionoverUnion)GPU:圖形處理器(GraphicProcessingUnit)IoU:交并比(IntersectionoverUnion)mAP:整體平均準確率(MeanAveragePrecision)MIoU:平均交并比(MeanIntersectionoverUnion)MIPS:無內(nèi)部互鎖流水級的微處理器(MicroprocessorwithoutInterlockedPipedStagesarchitecture)3MPA:平均像素準確率(MeanPixelAccuracy)NPU:神經(jīng)網(wǎng)絡(luò)處理器(Neural-networkProcessingUnit)PA:像素準確率(PixelAccuracy)ROC:受試者操作特性曲線(ReceiverOperatingCharacteristic)TP:真正(TruePositive)TN:真負(TrueNegative)5計算機視覺系統(tǒng)的基本框架本文件所述的計算機視覺系統(tǒng),主要是指連接在圖像采集系統(tǒng)之后,對輸入的圖像或視頻進行處理的應用系統(tǒng),分為預處理模塊和模型兩部分,其基本框架如圖1所示。其中,預處理模塊對圖像或視頻輸入做一些必要的處理(如圖像裁剪、圖像分辨率調(diào)整、圖像色彩和光照的轉(zhuǎn)換等模型對預處理后的圖像或視頻進行推斷,模型的參數(shù)值由訓練數(shù)據(jù)訓練所得。圖1基于機器學習的計算機視覺系統(tǒng)基本框架6計算機視覺系統(tǒng)測評指標6.1概述本文件給出了一套計算機視覺系統(tǒng)的測評指標體系,如圖2所示,包含10個一級指標和47個二級指標。在實施測評過程中,應根據(jù)系統(tǒng)的質(zhì)量目標選取相應指標。4圖2計算機視覺系統(tǒng)測評指標體系6.2計算機視覺系統(tǒng)的功能有效性用戶可以根據(jù)實際的應用場景選擇相關(guān)的基本指標,用于評估計算機視覺系統(tǒng)實現(xiàn)的功能是否滿足要求。根據(jù)視覺系統(tǒng)的任務(wù)不同,功能有效性的評估應包括但不限于下列內(nèi)容:a)圖像分類任務(wù)的評估指標:51)混淆矩陣:在二分類任務(wù)中,混淆矩陣是通過樣本的標簽和模型分類結(jié)果組成的2×2矩陣,其中,左上角為真正樣本數(shù)(真實值和模型預測值同時為正,TP),左下角為假正樣本數(shù)(真實值為負,而模型預測值為正,F(xiàn)P),右上角為假負樣本數(shù)(真實值為正,而模型預測值為負,F(xiàn)N右下角為真負樣本數(shù)(真實值和模型預測值同時為負,TN表1二分類混淆矩陣在多分類任務(wù)中,混淆矩陣的每一列代表了預測類別,每一列的總數(shù)等于預測為該類別數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的真實歸屬類別,每一行的數(shù)據(jù)總數(shù)等于該類別數(shù)據(jù)實例的數(shù)目;第i行第j列的數(shù)值表示第i類數(shù)據(jù)被預測為第j類的數(shù)目,見表2。表2多分類混淆矩陣aaaaaaaaa2)準確率:對于給定的數(shù)據(jù)集,正確分類的樣本數(shù)占全部樣本數(shù)的比率。3)精度:對于給定的數(shù)據(jù)集,被預測為正樣本的集合中正樣本的比率。4)召回率:對于給定的數(shù)據(jù)集,被正確預測的正樣本占全部正樣本的比率5)真負率:對于給定的數(shù)據(jù)集,被正確預測的負樣本占全部負樣本的比率。6)錯誤接受率:也稱假正率,對于給定數(shù)據(jù)集,被錯誤預測的負樣本占全部負樣本的比率。7)錯誤拒絕率:對于給定的數(shù)據(jù)集,預測錯誤的正例樣本占所有實際為正例樣本的比率。8)F1測度:精度和召回率的調(diào)和平均值。9)多分類任務(wù)下的指標計算:在n分類任務(wù)中,根據(jù)表2的多分類混淆矩陣得到了所有種類的預測值分布情況,并基于這些數(shù)據(jù)計算多分類任務(wù)的準確率、精度、召回率、F1測度等指標,在此基礎(chǔ)上,進一步采用宏平均和微平均來評價整個多分類任務(wù)的功能有效性。宏平均:對每一個類別分別計算統(tǒng)計指標值,即把每個類別視作二分類情況進行統(tǒng)計,然后再對所有類的結(jié)果取算術(shù)平均值。如:宏準確率=微平均:把所有類別的真正、真負、假正、假負類相加,計算類別預測的統(tǒng)計指標。如:610)ROC曲線:ROC的橫軸是假正率,代表所有被錯誤預測的負樣本占全部負樣本的比率。ROC的縱軸是召回率,代表所有正樣本中預測正確的概率。每次選取一個不同的正負判定閾值,就可以得到一組假正率和召回率,即ROC曲線上的一點。將正負判定閾值從0到1取不同的值時,可以得到一系列(假正率,召回率)點。將這些點連接起來,就得到了ROC曲線。ROC曲線的對角線坐標對應于隨機猜測,而坐標點(0,1)也即是左上角坐標對應理想模型。曲線越接近左上角代表模型的效果越好。ROC曲線如圖3所示:11)AUC:即為ROC曲線下面積,AUC越接近于1,分類性能越好。b)目標檢測任務(wù)的評估指標:注:分類任務(wù)的指標也適用于目標檢測任務(wù)。1)交并比:用來評價目標框和預測框之間重合度。計算公式如下所示,其中Bp代表預測的矩形框區(qū)域、Bgt代表標注的矩形框區(qū)域。2)整體平均準確率:對于每一個類別,首先按照置信度(如IoU值大?。┌衙總€預測結(jié)果進行排序,再取不同置信度閾值,把每個預測結(jié)果分為真正、假正、真負和假負類,從而獲得在該閾值下的精度和召回率值。畫出該類別以精度為縱軸,召回率為橫軸所繪制的P-R曲線,該類別的平均準確率就是此P-R曲線下的面積。以上過程遍歷所有的類別之后,對所有類別的平均準確率求平均,即可得到模型整體的平均準確率mAP。c)圖像分割任務(wù)的評估指標:假設(shè)共有k+1類(語義分割與實例分割均可將目標分類,為L0,...,Lk,包括對象、類別、空類或者是背景pij表示屬于第i類被分到第j類的像素數(shù)量。則圖像分割的評估指標有:1)像素準確率(PA):正確分類的像素數(shù)量與所有像素數(shù)量的比值。2)平均像素準確率(MPA):按類計算正確分類像素的與該類像素數(shù)量的比值,再由類總數(shù)取平均。3)平均交并比(MIoU按類計算第i類像素集合與被預測為第i類的像素集合的交集與其并集的重合比例,再將所有類取平均。74)頻率加權(quán)交并比(FWIoU是對MIoU的改進,對每個類別按照重要性進行加權(quán),重要性來自于其出現(xiàn)的頻率。6.3計算機視覺系統(tǒng)的性能用戶可以根據(jù)實際的應用場景選擇相關(guān)的基本指標,用于評估計算機視覺系統(tǒng)的性能是否滿足要求,應包括但不限于下列內(nèi)容:a)系統(tǒng)推斷時間:計算機視覺系統(tǒng)對給定的n個數(shù)據(jù)樣本進行推斷并獲得結(jié)果所需要的平均時間、最短時間和最長時間。b)系統(tǒng)運行占用的系統(tǒng)資源:包括系統(tǒng)運行時占用的系統(tǒng)CPU、GPU、NPU、內(nèi)存、顯存等。c)模型的算力需求:對于給定模型,執(zhí)行推斷所需要的算力。d)模型的存儲需求:對于給定模型,存儲模型所需要的存儲空間。e)模型壓縮性能:針對不同的壓縮比例(如90%,80%,70%,60%),比較模型在壓縮后與壓縮前的預測性能。f)系統(tǒng)業(yè)務(wù)吞吐量:單位時間內(nèi)系統(tǒng)處理的圖像或視頻的數(shù)據(jù)量。6.4計算機視覺系統(tǒng)的兼容性用于評估計算機視覺系統(tǒng)對不同圖像、視頻格式的兼容性,應包括下列內(nèi)容:a)系統(tǒng)對不同圖像、視頻格式的兼容性:評估模型能否根據(jù)用戶需求處理不同格式的圖像或視頻。b)系統(tǒng)對不同分辨率的兼容性:評估模型能否根據(jù)用戶需求處理不同分辨率的圖像或視頻。c)計算機視覺系統(tǒng)對操作系統(tǒng)的兼容性:評估計算機視覺系統(tǒng)能否根據(jù)用戶需求兼容不同操作系統(tǒng),或兼容同一類型操作系統(tǒng)的不同版本。d)計算機視覺系統(tǒng)對其他軟件的兼容性:評估視覺系統(tǒng)能夠根據(jù)客戶需求兼容同一操作系統(tǒng)下其他軟件。6.5計算機視覺系統(tǒng)的維護性用于評估計算機視覺系統(tǒng)能夠被運維人員修改的有效性和效率以及自身的可恢復性,應包括下列內(nèi)a)模型的迭代更新頻率:評估模型迭代更新的時間周期及模型訓練時間。b)模型迭代的質(zhì)量變化:評估模型迭代后系統(tǒng)的功能有效性、性能、魯棒性等變化趨勢。c)系統(tǒng)的可恢復性:評估計算機視覺系統(tǒng)發(fā)生故障時,恢復功能所需要的時間。d)計算機視覺系統(tǒng)宜支持系統(tǒng)配置、監(jiān)控告警、日志等管理功能。6.6計算機視覺系統(tǒng)的可移植性用于評估計算機視覺系統(tǒng)能夠從一種運行環(huán)境遷移到另一種運行環(huán)境的有效性和效率,應包括下列a)系統(tǒng)對硬件設(shè)備的可移植性:評估視覺系統(tǒng)是否擁有跨硬件架構(gòu)的移植能力,即系統(tǒng)是否支持在基于至少2種或多種架構(gòu)處理器的設(shè)備上運行,且運行性能保持一致,如X86、X86-64、ARM、MIPS等。b)系統(tǒng)對人工智能框架的可移植性:評估視覺系統(tǒng)是否擁有跨人工智能框架之間的移植能力,即是否支持在至少2種或多種人工智能框架之間相互轉(zhuǎn)換,且運行性能保持一致,如Tensorflow,PyTorch,PaddlePaddle等。86.7訓練數(shù)據(jù)集的質(zhì)量評估訓練數(shù)據(jù)集的質(zhì)量,應包括下列內(nèi)容:a)訓練數(shù)據(jù)集規(guī)模:通常用樣本數(shù)量來衡量。b)訓練數(shù)據(jù)集標注質(zhì)量:指數(shù)據(jù)集標注信息是否準確、完備并符合要求。c)訓練數(shù)據(jù)集均衡性:指數(shù)據(jù)集包含的各種類別的樣本數(shù)量分布的偏差程度。d)訓練數(shù)據(jù)集的多樣性:指數(shù)據(jù)集包括不同光照條件、不同分辨率、不同角度等情形的多樣性。6.8對抗性樣本的影響評估對抗性樣本對計算機視覺系統(tǒng)的影響,應包括下列內(nèi)容:a)對抗性樣本生成測試:用不同方法生成對抗樣本,評估系統(tǒng)的脆弱性。生成方法包括:1)白盒方式生成的樣本:指目標模型已知的情況下,利用梯度下降等方式生成對抗性樣本;2)黑盒方式生成的樣本:指目標模型未知的情況下,利用一個替代模型進行模型估計,針對替代模型使用白盒方式生成對抗性樣本;b)對抗性樣本的物理可行性:評估生成的對抗性樣本在現(xiàn)實中的可實現(xiàn)性,能否通過打印、貼紙等方式實現(xiàn)對抗性樣本的攻擊;能否應對角度、尺度光照等變換;能否在壓縮算法、拍攝設(shè)備等因素造成的模糊下實施攻擊。c)系統(tǒng)對對抗性樣本的防御性,包括:1)評估系統(tǒng)是否進行過對抗訓練。2)對于黑盒攻擊,評估生成一個對抗性樣本的平均查詢次數(shù)。3)系統(tǒng)防御對抗性樣本的成功率:統(tǒng)計一定數(shù)量對抗性樣本對系統(tǒng)攻擊的失敗率。6.9對應用場景數(shù)據(jù)的魯棒性評估應用場景數(shù)據(jù)對系統(tǒng)的影響,應考慮下列內(nèi)容:a)干擾數(shù)據(jù)對系統(tǒng)的影響:評估異常的輸入數(shù)據(jù)對系統(tǒng)準確率的影響,包括模糊的圖像或視頻、部分遮擋的圖像或視頻、光照不足或過強的圖像或視頻、有噪聲的圖像或視頻。結(jié)合實際場景,考慮天氣和氣候變化下,不同場景中的干擾數(shù)據(jù),如雨霧,雪霜,風沙,粉塵等影響視覺能見度的場景。評估異常輸入數(shù)據(jù)集的預測準確率、精度、召回率、真負率、F1測度等指標。b)數(shù)據(jù)集分布對系統(tǒng)的影響:統(tǒng)計真實環(huán)境下輸入數(shù)據(jù)集的正負例分布或各類別樣本分布,評估不同數(shù)據(jù)集分布情況下系統(tǒng)預測的準確率、精度、召回率、真負率、F1測度等指標。c)業(yè)務(wù)不相關(guān)數(shù)據(jù)對系統(tǒng)的影響:當輸入數(shù)據(jù)并非系統(tǒng)業(yè)務(wù)相關(guān)數(shù)據(jù)(比如不屬于分類模型中任何一類的數(shù)據(jù)),評估系統(tǒng)能否對其作合適的處理(比如識別為“其他”類)。6.10計算機視覺系統(tǒng)的可解釋性評估人類能夠理解視覺系統(tǒng)的輸出決策原因的程度。根據(jù)人類能夠理解系統(tǒng)決策原因的程度,將計算機視覺系統(tǒng)的可解釋性分為強、弱、無三個級別:a)強可解釋性:可通過數(shù)學證明來說明視覺模型做出決策的原因,并給出推理和決策的路徑。b)弱可解釋性:可通過計算機視覺系統(tǒng)的輸入輸出、視覺系統(tǒng)中的部分參數(shù)值、提取的特征值或這些數(shù)值的可視化來說明視覺系統(tǒng)做出決策的原因。c)無可解釋性:無法了解計算機視覺系統(tǒng)做出決策的原因。6.11計算機視覺系統(tǒng)的安全性除GB/T25000.10-2016中規(guī)定的軟件系統(tǒng)的信息安全性要求之外,評估計算機視覺系統(tǒng)的安全性,還應包括下列內(nèi)容:a)機密性:通過對被測系統(tǒng)的持續(xù)訪問推測出視覺模型的參數(shù),與原模型的相似度。b)隱私性:1)訓練數(shù)據(jù)中脫敏數(shù)據(jù)占比。92)系統(tǒng)預測結(jié)果中含個人信息數(shù)量和種類。3)系統(tǒng)的最大查詢次數(shù)上限。c)輸入防御:1)系統(tǒng)有無對惡意輸入樣本的檢測機制,如檢測輸入樣本和正常數(shù)據(jù)間的差異、輸入樣本的分布特征、輸入樣本的歷史等。2)系統(tǒng)有無對輸入樣本作防御性預處理,如對輸入樣本進行變形轉(zhuǎn)化、加噪、去噪、自動編碼等。7計算機視覺系統(tǒng)測評流程計算機視覺系統(tǒng)的測評流程如圖4所示。圖4計算機視覺系統(tǒng)測評流程7.1確定計算機視覺系統(tǒng)質(zhì)量目標應運用以下步驟確定計算機視覺系統(tǒng)的質(zhì)量目標:a)場景分析分析計算機視覺系統(tǒng)的應用場景、運行環(huán)境與使用流程,既要考慮系統(tǒng)正常使用的情況,也要考慮可預見的異常情況。b)風險分析根據(jù)計算機視覺系統(tǒng)的不同應用場景,通過多種途徑開展有關(guān)計算機視覺系統(tǒng)失效的風險識別,如系統(tǒng)失效模式分析、場景模擬、歷史運行數(shù)據(jù)分析、專家委員會評審等技術(shù)。可考慮的風險包括但不限1)由于計算機視覺系統(tǒng)的失效導致對人類生命、健康、財產(chǎn)或自然環(huán)境等的威脅;2)對計算機視覺系統(tǒng)的攻擊帶來的安全隱患;3)計算機視覺系統(tǒng)對個人隱私數(shù)據(jù)的侵犯和泄露的風險;4)潛在的道德和法律的風險。c)確定系統(tǒng)質(zhì)量目標根據(jù)系統(tǒng)的應用場景和風險,確定計算機視覺系統(tǒng)的質(zhì)量目標,包括:1)確定系統(tǒng)功能有效性、性能、兼容性、維護性、可移植性、訓練數(shù)據(jù)集的質(zhì)量、對抗樣本的影響、對應用場景數(shù)據(jù)的魯棒性、可解釋性、安全性的指標要求。2)確定測評指標評價的準則。7.2構(gòu)建測試數(shù)據(jù)集按照實際業(yè)務(wù)的情況構(gòu)建覆蓋多種視覺影像的測試數(shù)據(jù)集用以開展測試。對測試數(shù)據(jù)集的要求包括但不限于:a)測試數(shù)據(jù)集標注質(zhì)量:數(shù)據(jù)集標注信息準確、完備并符合要求。b)測試數(shù)據(jù)集的多樣性:測試數(shù)據(jù)集應體現(xiàn)真實應用場景,類別覆蓋全面,且包括不同光照條件、不同分辨率、不同角度等情形的樣本。c)測試數(shù)據(jù)集與訓練數(shù)據(jù)集的互斥性:測試數(shù)據(jù)集中不應
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 下半造價師工程計價知識點缺陷責任期考試試題
- 公開課英語單詞快速記憶
- 高中語文第3單元古思今賞第8課寡人之于國也課件新人教版必修
- 窗簾布藝:團隊卓越之旅-項目管理能力與團隊合作精進之路
- 獨樹一幟的中國畫 課件 2024-2025學年人教版初中美術(shù)九年級上冊
- 高中語文10蜀道難登高課件蘇教版必修
- 2024至2030年中國控天線彈簧數(shù)據(jù)監(jiān)測研究報告
- 2024至2030年中國引線式石英晶體振蕩器行業(yè)投資前景及策略咨詢研究報告
- 2024至2030年中國差速器十字軸行業(yè)投資前景及策略咨詢研究報告
- 2024至2030年中國大小鼠灌胃針行業(yè)投資前景及策略咨詢研究報告
- 《倍的認識》整理與復習
- GB/T 27677-2017鋁中間合金
- GB/T 16400-2015絕熱用硅酸鋁棉及其制品
- 專利撰寫模板五書
- 旅客地道施工方案
- 一年級上冊語文《語文園地三》人教部編版課件
- 培訓合格證書結(jié)業(yè)證書畢業(yè)證書模板
- 十八般兵器解讀課件
- 交集教學課件
- 兒童科幻畫作品課件
- 產(chǎn)品質(zhì)量保證計劃課件
評論
0/150
提交評論