《電力人工智能模型場景化驗證及評價體系構建規(guī)范》_第1頁
《電力人工智能模型場景化驗證及評價體系構建規(guī)范》_第2頁
《電力人工智能模型場景化驗證及評價體系構建規(guī)范》_第3頁
《電力人工智能模型場景化驗證及評價體系構建規(guī)范》_第4頁
《電力人工智能模型場景化驗證及評價體系構建規(guī)范》_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS國際標準分類號

CCS中國標準文獻分類號

團體標準

T/CESXXX-XXXX

電力人工智能模型場景化驗證及評價體

系構建規(guī)范

Ascenariomodelverificationandapplicationevaluationstandard

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

中國電工技術學會發(fā)布

T/CESXXX—XXXX

電力人工智能模型場景化驗證及評價標準

1范圍

本文件規(guī)定了電力人工智能場景化模型驗證及評價體系構建及評估目標的確定、選擇評估指標選

取、設定權重、收集數(shù)據(jù)以及分析數(shù)據(jù)。適用于電力負荷預測、電力市場價格預測、電力設備故障診斷、

電力系統(tǒng)優(yōu)化等預測診斷模型在性能、可靠性、準確性等方面表現(xiàn)的好壞,幫助評估模型的優(yōu)劣并提高

模型的性能和應用效果。

2規(guī)范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。

凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

ISO9001質量管理體系標準質量管理框架

ISO14001環(huán)境管理體系標準環(huán)境管理體系

ISO50001能源管理體系標準

3術語和定義

下列術語和定義適用于本文件。

AHP(AnalyticHierarchyProcess)分析層次過程:

一種用于解決決策問題的系統(tǒng)性方法,通過對問題進行結構化分解,將復雜問題劃分為易于處理

的層次結構,然后對每個層次結構進行成對比較和計算來確定最佳決策方案。

3.1場景化模型Scenario-basedmodel:

將實際場景中的特定問題建模為可計算和可分析的數(shù)學模型,以支持決策制定和問題解決。

3.2驗證verification:

利用統(tǒng)計方法和實驗數(shù)據(jù),對模型的有效性和可靠性進行確認和核實。

3.3評價體系evaluationsystem:

對特定目標、問題或場景進行全面評價的框架和方法。

3.4權重分配weightallocation:

根據(jù)比較結果為每個因素分配相應的權重值,以反映其對最終決策方案的重要性。

3.5層次結構hierarchicalstructure:

將復雜問題分解為多個層次,從全局到局部逐步分析和解決問題的方法。

3.6比較矩陣Comparisonmatrix:

用于記錄因素之間的兩兩比較結果,以計算其相對權重的矩陣。

3.7最大特征值eigenvalueofmaximum:

比較矩陣的最大特征值用于確定權重向量,并衡量相對重要性。

3.8一致性比率(CR):

1

T/CESXXX—XXXX

對比較矩陣中的一致性進行度量和評估的方法,其值應小于0.1以保證一致性。

4符號、代號和縮略語

下列符號、代號和縮略語適用于本文件。

本文未定義符號、代號和縮略語。

5業(yè)務場景使用規(guī)范

AHP(層次分析法)是一種常見的多標準決策分析方法,它可以用于對復雜問題進行結構化、分

層和優(yōu)先級排序;它能夠將復雜的決策問題分解為一系列層級結構,在不同層次上分析決策因素的重

要程度,并最終得出決策結果。如在碳計量中常見的技術中有以下幾個場景使用到了AHP技術:

(1)碳排放因子選擇:在碳計量中,計算碳排放量需要用到碳排放因子,而不同的排放因子對應

不同種類的活動,因此需要對不同的碳排放因子進行優(yōu)先級排序,以便選擇最適合特定活動的排放因

子。通過運用AHP方法,可以根據(jù)多個因素如可靠性、數(shù)據(jù)可得性、地區(qū)和行業(yè)特點等來評估不同的

排放因子。

(2)能源消耗分析:對企業(yè)的能源消耗進行分析,通過對能源消耗的分類和評估指標的定義,將

不同形式的能源消耗轉化為統(tǒng)一的碳排放量表達方式,提高碳排放量的準確度。在此過程中,AHP可

以被用于對各種能源消耗類型進行排序和評估。

(3)碳減排方案比較:對企業(yè)實施減碳方案的選擇決策。AHP可以用于在參考多個因素(如經(jīng)濟

、技術可行性等)的情況下確定最佳方案。通過使用AHP方法,可以將各個因素權重進行比較和歸一

化,確定最佳的減排方案和最佳的投資組合。

(4)供應鏈碳足跡計算:一個清晰的供應鏈碳足跡計算功能,需要對整條供應鏈中的各個最小碳

排放環(huán)節(jié)進行監(jiān)測和計算。AHP可以用于選擇最適合的監(jiān)測技術和方法,來提高精度和便利度。

在總體上,AHP可以用于許多應用場景,如對碳排放數(shù)據(jù)的分析、碳減量方案的制定、企業(yè)能源管理

、供應鏈管理等

6電力人工智能模型場景化驗證及評價標準

6.1人工智能artificialintelligence

利用數(shù)字計算機或者由數(shù)字計算機控制的機器,模擬、延伸和擴展人類的智能,感知環(huán)境、獲取知

識并使用知識獲得最佳結果的理論、方法、技術和應用系統(tǒng)。

6.2人工智能模型artificialintelligencemodel

通過學習海量樣本數(shù)據(jù)中的內在規(guī)律和表現(xiàn)層次,實現(xiàn)包括分類、回歸、聚類、目標檢測、光學字

符識別、自然語言處理、語音識別等任務。

6.3分類模型classificationmodel

判斷一個新的觀察樣本所屬的類別的模型。

6.4回歸模型regressionmodel

預測一個新的觀察樣本的連續(xù)型目標值的模型。

6.5聚類模型clusteringmodel

劃分無標記的數(shù)據(jù)集為多個類別的模型。

6.6目標檢測模型objectdetectionmodel

確定圖像上目標類別和位置屬性信息的模型。

2

T/CESXXX—XXXX

6.7光學字符識別模型opticalcharacterrecognitionmodel

將圖片、照片上的文字內容轉換為直接可編輯文字的模型。

6.8自然語言處理模型naturallanguageprocessingmodel

人與計算機之間用自然語言進行有效通信的模型,用于人類與機器的交互。

6.9語音識別speechrecognition

將人類的聲音信號轉化為文字或者指令的過程。

6.10語音識別模型speechrecognitionmodel

將語音數(shù)據(jù)轉換為機器可讀數(shù)據(jù)(文本內容、二進制編碼、字符序列等)的模型。

6.11聲音檢測類sounddetectionandrecognition

主要以檢測連續(xù)或者孤立語流中的特定命令或關鍵詞為主要目的的任務。

6.12文字輸入類textinput

以文字錄入為主要目的,要求把語音轉化為文字的任務。

6.13訓練數(shù)據(jù)集trainingset

模型構建過程中使用的數(shù)據(jù)集合。

6.14測試數(shù)據(jù)集testingset

評估模型構建質量的數(shù)據(jù)集合。

6.15交并比intersectionoverunion

計算兩個矩形框交集與并集的比值,用于評價兩個矩形框的相似度。

6.16真正例truepositives

模型正確判定的正類樣本。

6.17假正例falsepositives

被模型判定為正類的負類樣本。

6.18真負例truenegative

模型正確判定的負類樣本。

6.19假負例falsenegative

被模型判定為負類的正類樣本。

6.20真正例率truepositiverate

模型正確判定的正類樣本占所有正類樣本的比例。

6.21假正例率falsepositiverate

被模型判定為正類的負類樣本占所有負類樣本的比例。

6.22正確率accuracy

模型判斷正確的樣本占所有樣本的比例。

3

T/CESXXX—XXXX

6.23精確率precision

模型正確判定的正類樣本占所有模型判定的正類樣本的比例。

6.24召回率recall

模型正確判定的正類樣本占所有正類樣本的比例。

6.25F1值F1-score

精確率和召回率的調和平均。

6.26對數(shù)損失logloss

模型決策所包含的信息量。

6.27P-R曲線precisionrecallcurve

以精確率為縱軸、召回率為橫軸作圖得到的曲線。

6.28平均精確率meanprecision

模型判定所有類別的精確率的均值。

6.29平均召回率meanrecall

模型判定的所有類別的召回率的均值。

6.30平均精度averageprecision

在P-R曲線下,召回率從0到1各個點的精確率的均值,即P-R曲線下的面積。

6.31平均精度均值meanaverageprecision

模型判定的所有類別的平均精度的均值。

6.32平均絕對誤差meanabsoluteerror

模型預測結果與目標值的差的絕對值的平均值。

6.33均方誤差meansquareerror

模型預測結果與目標值的差的平方的平均值。

6.34均方根誤差rootmeansquareerror

模型預測結果與目標值的差的平方的平均值的根。

6.35決定系數(shù)r-squared

描述回歸方程與真實樣本輸出之間的相似程度。

6.36校正決定系數(shù)adjustedr-squared

描述回歸方程與真實樣本輸出之間的相似程度,基于決定系數(shù)的調整。

6.37蘭德系數(shù)randindex

模型劃分正確的樣本對數(shù)占所有樣本對數(shù)的比例。

6.38調整蘭德系數(shù)adjustedrandindex

蘭德系數(shù)的去均值歸一化。

4

T/CESXXX—XXXX

6.39互信息mutualinformation

描述兩個變量之間重疊的信息量。

6.40調整互信息adjustedmutualinformation

一種基于互信息的聚類效果評價方法。

6.41輪廓系數(shù)silhouettecoefficient

結合簇內凝聚度和分離度的一種聚類效果評價方式。

6.42平均編輯距離averageeditdistance

模型識別的字符串變換到標準字符串進行的插入、刪除、替換操作次數(shù)的均值。

6.43字符識別準確率characterrecognitionaccuracy

模型正確識別字符數(shù)占所有識別字符數(shù)的比例。

6.44字符識別召回率characterrecognitionrecall

模型正確識別字符數(shù)占所有標準字符數(shù)的比例。

6.45文本行定位準確率textlinepositioningaccuracy

模型正確定位的文本行數(shù)占所有文本行數(shù)的比例。

6.46文本行定位召回率textlinepositioningrecall

模型正確定位的文本行數(shù)占所有標準文本行數(shù)的比例。

6.47詞錯誤率worderrorrate

模型輸出詞序列與標準詞序列的標準編輯距離占標準詞序列中所有詞語的比例。

6.48字錯誤率charactererrorrate

模型輸出字序列與標準字序列的標準編輯距離占標準字序列中所有字的比例。

6.49句錯誤率sentenceerrorrate

模型輸出錯誤句子的個數(shù)占所有句子的比例。

6.50雙語評估替換bilingualevaluationunderstudy

用于評估自然語言處理領域生成類文本的質量,簡稱BLEU。

6.51魯棒性robustness

描述擾動、異常和危險情況下模型的工作能力。

6.52時間效率timeefficiency

模型對給定的數(shù)據(jù)進行運算并獲得結果所需要的時間。

6.53空間效率spaceefficiency

模型運行過程中顯存最大占用率。

6.54完備性completeness

模型具有算法框架、開發(fā)語言、模型版本、運行環(huán)境等完整信息以及模型文件及附屬源信息齊全等。

5

T/CESXXX—XXXX

6.55受試者特征曲線receiveroperatingcharacteristiccurve

以真正例率為縱軸、假正例率為橫軸作圖得到的曲線。

6.56受試者特征曲線下面積areaunderreceiveroperatingcharacteristiccurve

在ROC曲線下,假正例率從0到1各個點的真正例率的均值,即ROC曲線下的面積。

6.57KS曲線kolmogorov-smirnov

用于評估模型風險區(qū)分能力,指標衡量的是好壞樣本累計分部之間的差值。

6.58黑盒攻擊blackboxattack

攻擊者未知攻擊模型的內部結構,訓練參數(shù),防御方法,通過一定規(guī)則構造攻擊樣本以完成攻擊。

6.59白盒攻擊whiteboxattack

攻擊者已知攻擊模型的內部結構,訓練參數(shù),防御方法,構造特定的攻擊樣本以完成攻擊。

6.60快速梯度符號法fastgradientsignmethod

基于模型梯度獲得攻擊樣本的一種白盒攻擊方法。

6.61投影梯度下降法projectgradientdescentmethod

基于模型梯度多次迭代獲得攻擊樣本的一種白盒攻擊方法。

7.評價指標與計算

7.1功能性

被評價模型如涉及光學字符識別、自然語言處理、目標檢測、語音識別相關功能,宜優(yōu)先選用本導

則中光學字符識別、自然語言處理、目標檢測、語音識別模型功能性指標進行評價。

7.1.1分類模型功能性指標

用于評價電力人工智能分類模型實現(xiàn)的功能是否滿足要求,宜包括下列內容:

a)正確率Accuracy,按式(1)計算:

Accuracy=(TN+TP)(/TN++TPFP+FN)(1)

b)精確率Precision,按式(2)計算:

Precision=TP/(TP+FP)(2)

c)召回率Recall,按式(3)計算:

Recall=TP/(TP+FN)(3)

d)F1值,按式(4)計算:

F12=××(PrecisionRecall)/(Precision+Recall)(4)

e)對數(shù)損失(Logloss),按式(5)計算:

6

T/CESXXX—XXXX

1NM

(5)

Logloss=?∑∑yijlog(pij)

Nij=11=

其中,TP表示預測正確的正樣本,TN預測是正確的負樣本,F(xiàn)P表示預測是錯誤的正樣本,F(xiàn)N表示

預測是錯誤的負樣本,為實例總數(shù),為類別總數(shù),是一個二值指標,表示第個輸入實例是否是

NMyijij

類別(表示是,反之為否),為分類模型預測出的第個實例屬于類的概率。

yij=1pijij

f)AUC,按式(6)和(7)計算:

∑IP(,)正樣本P負樣本

AUC=MN*(6)

1,PP>

正樣本負樣本

IP(,P)=0.5,P正樣本=P負樣本

正樣本負樣本(7)

0,PP正樣本<負樣本

其中,P正樣本表示分類模型預測的正樣本的概率,P負樣本表示分類模型預測的負樣本的概率,M表

示測試集中正樣本數(shù)量,N表示測試集中負樣本數(shù)量。

7.1.2回歸模型功能性指標

用于評價電力人工智能回歸模型實現(xiàn)的功能是否滿足要求,宜包括下列內容:

a)平均絕對誤差MAE,按式(8)計算:

MAE=∑?|(y?y)|/n(8)

b)均方誤差MSE,按式(9)計算:

MSE=∑?(y?y)2/n(9)

c)均方根誤差RMSE,按式(10)計算:

RMSE=∑?(y?y)2/n(10)

2

d)決定系數(shù)R,按式(11)計算:

2

??

2∑()yy

R=1?2(11)

∑()yy?

其中,y表示真實值,y?預測值,y表示全部預測值的平均值。

e)校正決定系數(shù)R2_adjusted,按式(12)計算:

2

2(1??Rn)(1)

R_adjusted=1?np??1(12)

其中,式(8)-(12)中,y表示真實值,y?預測值,y表示全部預測值的平均值,n表示測試集

樣本數(shù)量,p表示特征數(shù)量。

7.1.3聚類模型性能指標

用于評價電力人工智能聚類模型實現(xiàn)的功能是否滿足要求,宜包括下列內容:

a)調整蘭德系數(shù)ARI,按式(13)計算:

ARI=(RI??E(RI))/(max(RI)E(RI))(13)

b)調整互信息AMI,按式(14)、(15)計算:

=MI?E()MI(14)

AMImax(HU(),HV())?EMI()

||UV||

=Pij(,)(15)

MI∑∑P(i,j)log(Pi(),P′(j))

ij=11=

7

T/CESXXX—XXXX

其中,U、V是N個樣本標簽的兩種不同分配情況,注:表示U中類別為的樣本的概率,

Pi()Ui

即=||Ui,表示V中類別為的樣本的概率,即=||Vj,表示在U中類別為,在

Pi()NPj()VjPj()NPi(,j)Ui

V中類別為的樣本的概率,即。指的是數(shù)據(jù)集U的信息熵,

VjPi(,j)=|Uij∩V|/NHU()

||U

HU()=?∑Pi()log(Pi()),HV()指的是數(shù)據(jù)集V的信息熵。

i=1

c)輪廓系數(shù)SC,按式(16)計算:

b(j)?ai()

SC=max{ai(),b(j)}(16)

其中,a(i)=average(i),i表示向量到所有它屬于的簇中其它點的距離,計算b(j)=min(j),j

表示向量到某一不包含它的簇內的所有點的平均距離

7.1.4目標檢測模型性能指標

用于評價目標檢測模型的實現(xiàn)的功能是否滿足要求,宜包括下列內容:

a)IoU大于或等于預設值,判斷為真正例;IoU小于預設值,判斷為真反例。IoU預設值推薦為

0.5。

b)平均精確率MP,按式(17)計算:

∑Precision

MP=N(17)

其中,N表示目標類別數(shù),Precision表示每類目標的精確率。

c)平均召回率MR,按式(18)計算:

∑Recall

MR=N(18)

d)平均精度AP,按式(19)計算:

1

AP=p()rdr(19)

∫0

其中,pr()表示模型的P-R曲線函數(shù)。

e)平均精度均值MAP,按式(20)計算:

∑AP

MAP=N(20)

其中,N表示目標類別數(shù)。

7.1.5光學字符識別模型性能指標

用于評價光學字符識別模型實現(xiàn)的功能是否滿足要求,宜包括下列內容:

a)平均編輯距離AED可按式(21)計算:

∑insert(result,labeL)++delete(result,label)replace(result,label)

AED=N(21)

其中,N表示測試數(shù)據(jù)集中的文本行數(shù),result表示模型識別出的一行文本,label表示標準文本,

insert(result,)label表示將result編輯為label需要執(zhí)行的插入操作次數(shù),delete(result,)label表示

將result編輯為label需要執(zhí)行的刪除操作次數(shù),replace(result,)label表示將result編輯為label需

要執(zhí)行的替換操作次數(shù)。

b)字符識別準確率CRA,按式(22)計算:

∑Cright

CRA=(22)

Call

其中,表示識別正確的字符數(shù),表示總識別出的字符數(shù)。

CrightCall

8

T/CESXXX—XXXX

c)字符識別召回率CRR,按式(23)計算:

∑Cright

CRR=Ctruth(23)

其中,表示識別正確的字符數(shù),表示標準字符數(shù)。

CrightCtruth

d)文本行定位準確率TLPA,按式(24)計算:

∑Tright

TLPA=(24)

Tall

其中,表示定位正確的文本行數(shù),表示定位出的文本總行數(shù)。

TrightTall

e)文本行定位召回率TLPR,按式(25)計算:

∑Tright

TLPR=(25)

Ttruth

其中,表示定位正確的文本行數(shù),表示標準文本行數(shù)。

TrightTtruth

7.1.6語音識別模型功能性指標

設正確文本字數(shù)為N,識別結果文本字數(shù)為M,按照識別結果文本與正確文本根據(jù)“最小代價匹配”

原則運用動態(tài)規(guī)劃算法,得到正確識別字數(shù)Mc、刪除錯誤字數(shù)D、插入錯誤字數(shù)I、替換錯誤字數(shù)R、出

錯句子數(shù)S和句子總數(shù)Sn,則有:N=Mc+R+D,M=Mc+R+J。

定義以下性能指標:

a)字錯誤率CER,按式(26)計算:

CER=(I++RD)/N×100%(26)

b)句錯誤率SER,按式(27)計算:

(27)

SER=S/Sn×100%

c)字匹配率MCR,按式(28)計算:

(28)

MCR=Mc/N×100%

d)字準確率WCR,按式(29)計算:

×(29)

WCR=(Mc-1)/N100%=-100%CER

(2)用于評價聲音檢測識別類語音識別模型實現(xiàn)的功能是否滿足要求,宜包括下列內容:

該類型模型應兼顧動作的可靠性問題,指標定義如下:

假設關鍵詞表的詞匯量為KW(個),檢測語音長度為HR(小時),出現(xiàn)關鍵詞N(次),C為每小時。每個

關鍵詞最大容忍的誤報個數(shù)(一般取10),系統(tǒng)報出關鍵詞M(個),其中,正確FD(個),錯誤FA(個),F(xiàn)D+FA=M。

則:

a)誤報率Far,按式(31)計算:

Far=FA/(KW×HR××C)100%(30)

b)漏報率Frr,按式(32)計算:

Frr=(N?×FD)/N100%(31)

c)檢出率Fdr,按式(33)計算:

(32)

Fdr=FD/N×100%

等錯率EER:DET曲線上Far=Frr時,F(xiàn)ar或Frr的值。

質量因數(shù)FOM:ROC曲線上Far=0%,10%,20%,40%,60%,80%,100%時,F(xiàn)dr的算術平

均值一般以EER或FOM值度量系統(tǒng)性能指標。

(3)用于評價語音識別類模型響應時間,宜包括下列內容:

假設識別語音用時Tr,語音實際時常Ts,則:

語音識別模型響應系數(shù)RF,按式(34)計算:

RFT(33)

=Trs

9

T/CESXXX—XXXX

7.1.7自然語言處理模型功能性指標

(1)針對情感分析、詞義消歧、詞性標注等分類任務,可根據(jù)樣本的預測結果參照使用式(1)、

(3)、(4)對模型的精確率、召回率和F1值進行評價。

(2)對于機器翻譯、摘要抽取等生成式任務,還可以使用BLEU等相對指標對模型性能進行評估,

具體計算公式如下:

∑∑Countclip(n?gram)

∈?∈

bleu=ccandidatesngramc

n∑∑Count(n?gram')(34)

c'∈candidatesn?∈gram''c

其中,canditiate表示模型生成句子的集合,reference表示給定的標準譯文,n-gram表示長度為n的連

續(xù)單詞切片,對于分子,其第一個求和符號處理模型生成的所有句子,第二個求和符號處理生成句子中

的每個n-gram,()表示n-gram切片在reference中的個數(shù)。故分子的含義為在給定

句子中有多少出現(xiàn)在標準譯文中。分母的含義與分子相同,其統(tǒng)計了所有生成句子中的總

n-gram????????????????????????????????????n-gram

數(shù)。BLEU可根據(jù)????????????????????n-gram的不同劃分為多種評價指標,常見的有?????????????????????BLEU-1、BLEU-2、BLEU-3、BLEU-4四

種,其中BLEU-1衡量的是單詞級別的準確性,更高階的BLEU可以衡量句子的流暢性。

7.2安全性

用于評價電力人工智能模型的安全程度,宜包括但不限于下列內容:

a)通過黑盒攻擊算法構建攻擊樣本數(shù)據(jù)集。

b)通過白盒攻擊算法構建攻擊樣本數(shù)據(jù)集。

7.3魯棒性

用于評價電力人工智能模型是否在樣本變動時仍能維持性能,應包括但不限于下列內容:

a)圖像類樣本應經(jīng)過旋轉、裁剪、平移、模糊、加噪、縮放構建新的測試數(shù)據(jù)集,計算模型在新

測試數(shù)據(jù)集上的功能性指標。

b)文本類樣本應擴展、插值、交換、刪除、分隔、詞匯替換構建新的測試數(shù)據(jù)集,計算模型在新

測試數(shù)據(jù)集上的功能性指標。

c)語音類樣本應經(jīng)過擴展、加噪構建新的測試數(shù)據(jù)集,計算模型在新測試數(shù)據(jù)集上的功能性指標。

d)目標檢測類模型的魯棒性評價樣本應包含光照或角度變化、相似物與遮擋物干擾。

e)光學字符識別模型宜包含字體變換,手寫與印刷字符變換等,可根據(jù)具體業(yè)務應用。

f)自然語言處理模型魯棒性評價樣本應包含同義詞、近義詞和反義詞干擾,停用詞干擾。

g)語音識別類模型的魯棒性評價樣本應包含語速、語調、聲調、口音、表達方式變化。

7.4效率性

用于評價電力人工智能模型運行效率是否滿足要求,宜包括但不限于下列內容:

a)優(yōu)化算法:可以通過優(yōu)化算法來提高模型的算力效率。例如使用并行計算技術,將計算任務分

配給多個處理器同時進行計算。

b)硬件設備升級:對于計算資源有限的場景,可以考慮升級硬件設備。使用更快的CPU、更多的

內存或更高效的GPU等。

c)數(shù)據(jù)處理優(yōu)化:考慮使用更高效的數(shù)據(jù)存儲和處理方法來優(yōu)化模型的計算效率,例如將數(shù)據(jù)存

儲在高速緩存中,采用分布式存儲和處理等。

d)資源合理規(guī)劃:如果遇到計算任務較多的場景,可以通過任務調度等方法來合理分配計算資源,

以保證計算效率最大化。

優(yōu)化算法、硬件設備升級、數(shù)據(jù)處理優(yōu)化、資源合理規(guī)劃等手段應作為提高模型效率性的方法,具

體指標需根據(jù)業(yè)務實際需求確定。

8.模型評價流程

10

T/CESXXX—XXXX

人工智能模型評價流程包括模型完備性評價、評價測試集選取、選擇模型評價指標等五個步驟。

8.1模型完備性評價

圖1模型評價流程

具備完備性的人工智能模型應具備以下條件:

a)模型應有對應的模型描述文件,具體應包含模型名稱、模型用途、運行模式、模型類型、模

型運行環(huán)境、開發(fā)語言、開發(fā)框架、模型版本、模型提供單位、模型訓練數(shù)據(jù)集規(guī)模等基本

描述信息;

b)模型宜提供模型源文件和模型相關附屬源文件等。

8.2評價測試數(shù)據(jù)集選取

a)測試數(shù)據(jù)集應與訓練數(shù)據(jù)集具有互斥性,即測試數(shù)據(jù)集與訓練數(shù)據(jù)集不重合;

b)測試數(shù)據(jù)類型為圖像文件時,圖片宜為RGB三通道彩色圖像,圖片分辨率宜不低于500*500

像素,圖片格式宜為jpg、png、jpeg、bmp、tif等;

c)分類模型與聚類模型測試數(shù)據(jù)集中所有類別樣本數(shù)量比例建議相同,可根據(jù)具體業(yè)務需求進

行調整;

d)目標檢測模型測試數(shù)據(jù)集中包含目標樣本與不包含目標樣本比例建議為7:3,且每一個目標

類別的樣本數(shù)量宜不少于500張;

e)測試數(shù)據(jù)集樣本標注信息應完備并準確無誤,且應避免被人為添加的惡意數(shù)據(jù)污染。

f)語音測試樣本格式宜為cpm、speex、speex-wb、mp3等,音頻采樣率宜不低于8kHz,音頻

長度宜不少于3秒且不超過180秒,語言種類包括中文、英文、地方方言等;

11

T/CESXXX—XXXX

g)自然語言處理模型的測試數(shù)據(jù),宜為UTF-8純文本格式文件,單次文本長度宜不超過5000

字符(一個漢字、英文字母、標點符號,均記為一個字符),文件內宜根據(jù)具體需求涵蓋單

句、段落、文章、詩詞等多種文學結構的文本。

8.3選擇模型評價指標

應結合具體業(yè)務應用場景和模型類型選擇模型評價指標。具體選取規(guī)則如下:

a)模型評價宜包含功能性、安全性、魯棒性和效率性等內容;

b)功能性評價至少應包含目標監(jiān)測模型性能指標、光學字符識別模型性能指標、語音識別功能

性指標、自然語言處理模型功能性指標;

c)安全性評價:基于模型安全測試樣本,計算功能性指標,觀察指標變化評價模型安全性,

d)魯棒性評價:基于模型魯棒性測試樣本,計算功能性指標,觀察指標變化評價模型魯棒性。

8.4評估指標確定

a)確定層次結構:將復雜的決策問題分解成若干層次,并明確每個因素的關系和作用

b)確定比較矩陣:將同一層次的因素兩兩進行比較,構建成一個比較矩陣。比較矩陣中的元素

代表比較兩個因素重要性的權重比例,通常用1-9的數(shù)字表示,其中1表示兩個因素同等重

要,9表示一個因素比另一個因素重要程度是極大的差異。如果兩個因素之間的重要性不能

確定,則取介于1和9之間的插值數(shù)。

c)計算權重向量:通過計算比較矩陣的特征向量,得到每個因素的權重向量。特征向量是指矩

陣中的一個向量,使該向量與矩陣相乘后,得到的向量與原向量具有相同的方向。特征向量

的長度是任意的,但是可以通過對其進行歸一化來得到權重向量。

d)一致性檢驗:為了驗證比較矩陣的一致性,需要計算一致性指標和一致性比率。如果一致性

比率小于0.1,即認為比較矩陣是一致的。

e)建立判斷矩陣:判斷矩陣是指對于層次結構中的每一層,將各個因素兩兩比較得到的矩陣。

對于每個比較.判斷矩陣是AHP方法得以實現(xiàn)的基礎。

8.5權重分配方法

a)計算權重向量:通過計算判斷矩陣的特征向量和特征值,可以得到每個因素的權重向量。權

重值越高,該因素在決策中的作用越大。例如本標準可引用的指標有:發(fā)電成本、負載穩(wěn)定

性、系統(tǒng)安全、能源供應穩(wěn)定性、能源供需平衡。

b)一致性檢驗:AHP方法中的一致性檢驗是為了驗證判斷矩陣不出現(xiàn)矛盾信息的程度。利用計

算出的特征向量、特征值,計算一致性指標和一致性比例。若一致性比例接近于1,即代表

該判斷矩陣在權重分配過程中是一致的。

c)敏感性分析:由于AHP方法中涉及到多個指標的權值分配和影響力較大的因素之間的比較,

通常會運用敏感性分析來分析權重選擇下的決策效果。

d)選擇最優(yōu)決策選取最優(yōu)決策方案:計算出每個因素的權重后,將各因素的結果進行加權求

和,可以得到不同方案之間的比較結果,從而選出最優(yōu)決策方案。

9.模型功能性等級判定

9.1一般規(guī)則

a)本導則適用于模型部署應用前的入網(wǎng)評價和部署應用后的應用效果評價;

12

T/CESXXX—XXXX

b)本導則對模型的功能性進行等級判定,實際應用中應考慮模型安全性、魯棒性、效率性等其他

因素。

c)本導則的模型等級是對業(yè)務應用功能相近的模型進行歸類,不對模型的可用性進行定義,被測

模型最終評價結果宜參考具體業(yè)務場景的相關規(guī)范。

9.2分類模型等級判定

功能性評價評價等級參考以下規(guī)則:

表1分類模型評價值計算

指標判定模型等級

準確率≥95%,精確率≥95%,召回率≥95%,F(xiàn)1值≥0.95,對數(shù)損失≤0.7,

C1

AUC≤0.7

準確率≥85%,精確率≥85%,召回率≥85%,F(xiàn)1值≥0.85,對數(shù)損失

C2

≤0.75,AUC≤0.75

準確率≥80%、精確率≥80%,召回率≥80%,F(xiàn)1值≥0.8,對數(shù)損失

C3

≤0.8,AUC≤0.8

準確率≥75%、精確率≥75%,召回率≥75%,F(xiàn)1值≥0.75,對數(shù)損失

C4

≤0.85,AUC≤0.85

準確率≥70%、精確率≥70%,召回率≥70%,F(xiàn)1值≥0.7,對數(shù)損失

C5

≤0.95,AUC≤0.95

9.3回歸模型等級判定

功能性評價等級參考以下規(guī)則:

表2回歸模型評價值計算

指標判定模型等級

決定系數(shù)≥0.90C1

決定系數(shù)≥0.85C2

決定系數(shù)≤0.80C3

決定系數(shù)≤0.75C4

決定系數(shù)≤0.7C5

9.4聚類模型等級判定

功能性評價等級參考以下規(guī)則:

表3聚類模型評價值計算

指標判定模型等級

調整蘭德系數(shù)≥0.95,調整互信息≥0.95,輪廓系數(shù)≥0.95C1

調整蘭德系數(shù)≥0.85,調整互信息≥0.85,輪廓系數(shù)≥0.85C2

整蘭德系數(shù)≥0.8,調整互信息≥0.8,輪廓系數(shù)≥0.8C3

調整蘭德系數(shù)≥0.75,調整互信息≥0.75,輪廓系數(shù)≥0.75C4

調整蘭德系數(shù)≥0.7,調整互信息≥0.7,輪廓系數(shù)≥0.7C5

9.5光學字符識別模型等級判定

功能性評價等級參考以下規(guī)則:

表4光學字符識別模型評價值計算

指標判定模型等級

13

T/CESXXX—XXXX

平均編輯距離,字符識別準確率≥95%,字符識別召回率≥95%,文本定位

C1

準確率≥95%,文本定位召回率≥95%

平均編輯距離,字符識別準確率≥85%,字符識別召回率≥85%,文本定

C2

位準確率≥85%,文本定位召回率≥85%

平均編輯距離,字符識別準確率≤80%,字符識別召回率≥80%,文本定

C3

位準確率≤80%,文本定位召回率≤80%

平均編輯距離,字符識別準確率≥75%,字符識別召回率≥75%,文本定

C4

位準確率≥75%,文本定位召回率≥75%

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論