自然語言處理系統(tǒng)功能有效性評估指標(biāo)計算方法、數(shù)據(jù)集、評價規(guī)范_第1頁
自然語言處理系統(tǒng)功能有效性評估指標(biāo)計算方法、數(shù)據(jù)集、評價規(guī)范_第2頁
自然語言處理系統(tǒng)功能有效性評估指標(biāo)計算方法、數(shù)據(jù)集、評價規(guī)范_第3頁
自然語言處理系統(tǒng)功能有效性評估指標(biāo)計算方法、數(shù)據(jù)集、評價規(guī)范_第4頁
自然語言處理系統(tǒng)功能有效性評估指標(biāo)計算方法、數(shù)據(jù)集、評價規(guī)范_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

(規(guī)范性)

自然語言處理系統(tǒng)功能有效性評估指標(biāo)計算方法A.1自然語言理解功能有效性評估指標(biāo)計算方法自然語言理解功能有效性的評估應(yīng)包括但不限于下列內(nèi)容:混淆矩陣:在二分類任務(wù)中,混淆矩陣是通過樣本的采集和模型分類器的輸出結(jié)果形成的2×2的矩陣,其中,左上角為真陽樣本數(shù)(真實(shí)值為真,模型預(yù)測值為真,TP),左下角為假陽樣本數(shù)(真實(shí)值為假,模型預(yù)測值為真,F(xiàn)P,統(tǒng)計學(xué)上的第二類錯誤),右上角為假陰樣本數(shù)(真實(shí)值為真,模型預(yù)測值為假,F(xiàn)N,統(tǒng)計學(xué)上的第一類錯誤),右下角為真陰樣本數(shù)(真實(shí)值為假,模型預(yù)測值為假,TN),如表A.1。表A.1二分類混淆矩陣真實(shí)值預(yù)測值PositiveNegativePositive真陽TP假陰FNNegative假陽FP真陰TN在多分類任務(wù)中,混淆矩陣的每一列代表了預(yù)測類別,每一列的總數(shù)表示預(yù)測為該類別的數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的真實(shí)歸屬類別,每一行的數(shù)據(jù)總數(shù)表示該類別的數(shù)據(jù)實(shí)例的數(shù)目。第i行第j列的數(shù)值表示第i類數(shù)據(jù)被預(yù)測為第j類的數(shù)目。準(zhǔn)確率:對于給定的數(shù)據(jù)集,正確分類的樣本數(shù)占全部樣本數(shù)的比率。 準(zhǔn)確率=TP+TNTP+FP+TN+FN×100% (精確率:對于給定的數(shù)據(jù)集,被預(yù)測為正樣本的集合中正樣本的比率。 精確率=TPTP+FP×100% (召回率:對于給定的數(shù)據(jù)集,被正確預(yù)測的正樣本占全部正樣本的比率 召回率=TPTP+FN×100% (真陰率:對于給定的數(shù)據(jù)集,預(yù)測正確的負(fù)例樣本占所有實(shí)際為負(fù)例樣本的比率。 真陰率=TNTN+FP×100% 錯誤接受率:對于給定的數(shù)據(jù)集,預(yù)測錯誤的負(fù)例樣本占所有實(shí)際為負(fù)例樣本的比率。 錯誤接受率=FPFP+TN×100% (錯誤拒絕率:對于給定的數(shù)據(jù)集,預(yù)測錯誤的正例樣本占所有實(shí)際為正例樣本的比率。 錯誤拒絕率=FNTP+FN×100% (F1測度:精確率和召回率的調(diào)和平均值。 F1測度=2×精度×召回率精度多分類任務(wù)下的指標(biāo)計算:在n分類任務(wù)中,根據(jù)表2的多分類混淆矩陣得到了所有種類的預(yù)測值分布情況,并基于這些數(shù)據(jù)計算多分類任務(wù)的準(zhǔn)確率、精確率、召回率、F1測度等指標(biāo),在此基礎(chǔ)上,進(jìn)一步采用宏平均和微平均來評價整個多分類任務(wù)的功能有效性。 宏平均:對每一個類別分別計算統(tǒng)計指標(biāo)值,即把每個類別視作二分類情況進(jìn)行統(tǒng)計,然后再對所有類的結(jié)果取算術(shù)平均值。如: 宏準(zhǔn)確率=1ni=1n 微平均:把所有類別的真陽、真陰、假陽、假陰類相加,計算類別預(yù)測的統(tǒng)計指標(biāo)。如: 微準(zhǔn)確率=TP+TNTP+FP+ROC曲線:ROC的橫軸是假正率,代表所有負(fù)樣本中錯誤預(yù)測為正樣本的概率。ROC的縱軸是召回率,代表所有正樣本中預(yù)測正確的概率。每次選取一個不同的正負(fù)判定閾值,就可以得到一組假正率和召回率,即ROC曲線上的一點(diǎn)。將正負(fù)判定閾值從0到1取不同的值時,可以得到一系列(假陽率,召回率)點(diǎn)。將這些點(diǎn)連接起來,就得到了ROC曲線。ROC曲線的對角線坐標(biāo)對應(yīng)于隨機(jī)猜測,而坐標(biāo)點(diǎn)(0,1)也即是左上角坐標(biāo)對應(yīng)理想模型。曲線越接近左上角代表模型的效果越好。ROC曲線如圖A.1所示:圖A.1ROC曲線AUC:即為ROC曲線下的面積,AUC越接近于1,分類性能越好。A.2自然語言生成功能有效性評估指標(biāo)計算方法自然語言生成功能有效性的評估應(yīng)包括但不限于下列內(nèi)容:BLEU-N:假定人工給出的譯文為reference,機(jī)器翻譯給出的譯文為candidate,c表示candidate中的單個句子,N-gram指包含N個連續(xù)單詞的短句,N一般取1至4,Count(n-gram)表示c中n-gram的個數(shù),Countclip(N-gram)表示c的某個N-gram在reference中的截斷計數(shù),即如果candidate中有多個相同的N-gram,只計算一次Countclip(N-gram)。 BLEU-N=c∈candidatesn-gram∈cCount編輯距離:定義leva,b(i,j) leva,b(i,j)=max(i,j)ifmin(i,j)=0minleva,bmAP:用C表示機(jī)器輸出的答案集,A表示正確答案集,U表示所有測試用例,k表示每個案例生成的答案集中的第k個被檢索出的答案句子,m表示案例的正確答案的句子數(shù),n表示被檢索出的句子數(shù)(答案集的大小),P(k)表示答案句的真實(shí)排名/模型給出的排名,rel(k)表示給出的排序k的句子是不是真實(shí)的答案句。 AveP(C,A)=k=1n(P(k)?rel(k))min(m,n) mAP=u∈UAvePuU MRR:用Q表示評估集的問題總數(shù),ranki表示對于第i個問題預(yù)測的答案集Ci中,第一個正確答案的序號,若其中不包含正確答案,則1ranki MRR=1Qi=1Q1ROUGE-N:假定人工給出的摘要為reference,機(jī)器給出的摘要為candidate,S表示reference中的句子,N-gram指包含n個連續(xù)單詞的短句,Countmatch(N-gram)表示n-gram同時在S與candidate中出現(xiàn)的次數(shù),Count(N-gram)表示S中N-gram的總數(shù),ROGUE-N的計算與BLEU ROUGE-N=S∈referencen-gram∈SCountmatchROUGE-L:參考摘要和機(jī)器摘要分別簡記為S與C,LCS(C,S)表示C與S的最長公共子序列,β為一個較大的參數(shù)。 RLCS=LCS(C,S)len(S) ( PLCS=LCS(C,S)len(C) ( ROUGE-N=(1+β2)EM:與基本事實(shí)答案精確匹配的百分比,用T表示與答案精確匹配的預(yù)測數(shù)量,N表示測試用例總數(shù)。 EM=TN×100% (JSA:對話狀態(tài)中的(domain,slot,value)的準(zhǔn)確率。 JSA=cN×100% (式中:c——(domain,slot,value)均正確的樣本個數(shù);N——總樣本數(shù)。DialogueactF1:對話狀態(tài)中的(communicativefunction,slot-valuepair)的F1測度。 DialogueactF1=2×式中:DP——(communicativefunction,slot-valuepair)的精確率;DR——(communicativefunction,slot-valuepair)的召回率。TFR:對話系統(tǒng)在N次測試中完成任務(wù)的次數(shù)比率。 TFR=cN×100%c——完成任務(wù)的次數(shù);N——總樣本數(shù)。

(資料性)

數(shù)據(jù)集THUCNews(話題分類,中文)來源:/數(shù)據(jù)量:訓(xùn)練集(500,010),開發(fā)集(50,010),測試集(10,000)注:使用了清華大學(xué)THUCTC。示例:{Label:體育Sentence:黃蜂vs湖人首發(fā):科比帶傷戰(zhàn)保羅加索爾救贖之戰(zhàn)新浪體育訊北京時間4月27日,NBA季后賽首輪洛杉磯湖人主場迎戰(zhàn)新奧爾良黃蜂,此前的比賽中,雙方戰(zhàn)成2-2平,因此本場比賽對于兩支球隊來說都非常重要,賽前雙方也公布了首發(fā)陣容:湖人隊:費(fèi)舍爾、科比、阿泰斯特、加索爾、拜納姆黃蜂隊:保羅、貝里內(nèi)利、阿里扎、蘭德里、奧卡福[新浪NBA官方微博][新浪NBA湖人新聞動態(tài)微博][新浪NBA專題][黃蜂vs湖人圖文直播室](新浪體育)}RAFT(話題分類,英文)來源:https://huggingface.co/datasets/ought/raft數(shù)據(jù)量:訓(xùn)練集(550),測試集(28,712)示例:{Sentence:Noregionalsideeffectswerenoted."ID:0Label:2(notADE-related)}ChnSentiCorp(情感分析,中文)來源:/open-access/chnsenticorp數(shù)據(jù)量:積極(3,000),消極(3,000)注1:該數(shù)據(jù)集未對訓(xùn)練/驗(yàn)證/測試集作分割,建議在模型未采用其訓(xùn)練的情況下全部將其作為測試集。注2:該數(shù)據(jù)集包含多個子集,此處數(shù)據(jù)量為其包含6000條數(shù)據(jù)的子集。示例:{Sentence:房間每天都有免費(fèi)水果贈送,這一點(diǎn)比較好.還有好多書籍和攝影著作擺在房間里,據(jù)說都是合慶董事長自己編寫拍攝的,太有才了.Label:pos}SST-2(情感分析,英文)來源:/sentiment/index.html數(shù)據(jù)量:訓(xùn)練集(67,349),開發(fā)集(872),測試集(1,819)示例:{Sentence:wanttowatchifyouonlyhadaweektolive.Label:1}Chinese_Literature-NER-RE-Dataset(關(guān)系抽取,中文)來源:/lancopku/Chinese-Literature-NER-RE-Dataset數(shù)據(jù)量:訓(xùn)練集(695),驗(yàn)證集(58),測試集(84)注1:一條數(shù)據(jù)指一個文件中的全部文本,其中包含多個關(guān)系抽取標(biāo)注。注2:該數(shù)據(jù)集包含命名實(shí)體識別與關(guān)系抽取任務(wù),此處僅關(guān)注關(guān)系抽取部分。示例:{浪漫的涪江水,水的溫柔,水的明凈,水的亮麗,是在水的流淌之中實(shí)現(xiàn)的。涪江水滋潤造就了兩岸的形態(tài),茂密的森林,肥沃的田園、土地,這都是你編制的。T8Location-Nominal4245兩岸的T9Thing-Nominal4863茂密的森林,肥沃的田園、土地R1LocatedArg1:T9Arg2:T8}DocRED(關(guān)系抽取,英文)來源:/thunlp/DocRED/tree/master/data數(shù)據(jù)量:訓(xùn)練集(104,926),驗(yàn)證集(1,000),測試集(1,000)示例:{Sentence:[1]DwightTilleryisanAmericanpoliticianoftheDemocraticPartywhoisactiveinlocalpoliticsofCincinnati,Ohio....[3]HealsoholdsalawdegreefromtheUniversityofMichiganLawSchool.[4]TilleryservedasmayorofCincinnatifrom1991to1993.Head:DwightTilleryTail:UniversityofMichiganLawSchoolRelation:educatedatSupportingEvidence:1,3}Title2Event(事件抽取,中文)來源:https://open-event-hub.github.io/title2event/數(shù)據(jù)量:訓(xùn)練集(34,295),驗(yàn)證集(4,286),測試集(4,288)示例:{title:新華社推出微視頻《永遠(yuǎn)的牽掛》event_trigger:推出event_triple:(新華社,推出,《永遠(yuǎn)的牽掛》)}WeiboNER(命名實(shí)體識別,中文)來源:/hltcoe/golden-horse數(shù)據(jù)量:訓(xùn)練集(1,350)驗(yàn)證集(270)測試集(270)示例:{Sentence:["普0","羅1","旺2","斯3","的0","薰0","衣1","草2"]Ner_tage:[0,8,8,8,16,16,16,16]}CoNLL2003SharedTask(命名實(shí)體識別,英文)來源:https://www.clips.uantwerpen.be/conll2003/ner/數(shù)據(jù)量:訓(xùn)練集(14,987)驗(yàn)證集(3,466)測試集(3,684)注:該數(shù)據(jù)集包含英語和德語,此處僅關(guān)注英語部分。示例:{Sentence:["Almost","all","German","car","manufacturers","posted","gains","in","registration","numbers","in","the","period","."]Ner_tags:[0,0,7,0,0,0,0,0,0,0,0,0,0,0]}C3(閱讀理解,中文)來源:/pdf/1904.09679.pdf數(shù)據(jù)量:訓(xùn)練集(8,023),開發(fā)集(2,674),測試集(2,672)示例:{context:略question:第2段中,“黑壓壓一片”指的是:choice:[A.教室很暗B.聽課的人多C.房間里很吵D.學(xué)生們發(fā)言很積極]answer:B}RACE(閱讀理解,英文)來源:/pdf/1704.04683.pdf數(shù)據(jù)量:訓(xùn)練集(25,137),開發(fā)集(1,389),測試集(1,407)示例:{passage:略questions:[1):Thefirstpostagestampwasmade_.A.inEnglandB.inAmericaC.byAliceD.in1910]answer:A}TheMultitargetTEDTalksTask(機(jī)器翻譯)來源:/~kevinduh/a/multitarget-tedtalks/數(shù)據(jù)量:訓(xùn)練集(170,341),驗(yàn)證集(1,958),測試集(1,982)注1:使用該數(shù)據(jù)集需要遵守BY-NC-ND協(xié)議,即承認(rèn)TED的作者身份、非商業(yè)用途、不利用原始內(nèi)容制作衍生作品。注2:該數(shù)據(jù)集包含多語種翻譯,此處僅關(guān)注中英翻譯部分。示例:{zh:我們將用一些影片來講述一些深海里的故事。en:Andwe'regoingtotellyousomestoriesfromtheseahereinvideo.}LCSTS(自動摘要,中文)來源:/Article/show/139.html數(shù)據(jù)量:摘要訓(xùn)練集(2,400,591),人類評分訓(xùn)練集(10,666),測試集(1,106)示例:{text:居住證管理辦法昨起公開征求意見,明確持有人可與當(dāng)?shù)貞艏丝谙碛型鹊拿赓M(fèi)接受義務(wù)教育等多項權(quán)利,并可逐步享受住房保障、養(yǎng)老服務(wù)、社會福利、社會救助、隨遷子女在當(dāng)?shù)貐⒓又懈呖嫉葯?quán)利。summary:以后持居住證有望享有這些權(quán)利!}CNN/DailyMail(自動摘要,英文)來源:/K16-1028/數(shù)據(jù)量:訓(xùn)練集(287,227),驗(yàn)證集(13,368),測試集(11,490)示例:{Source:followingaretheleadingscorersintheenglishpremierleagueaftersaturday'smatches:##-alanshearer-lrbnewcastleunited-rrb-,jamesbeattie.Target:leadingscorersinenglishpremierleague}CMRC2018(機(jī)器問答,中文)來源:/pdf/1810.07366.pdf數(shù)據(jù)量:訓(xùn)練集(10,321),驗(yàn)證集(3,351),測試集(4,895)示例:{context:略question:《戰(zhàn)國無雙3》是由哪兩個公司合作開發(fā)的?text:["光榮和ω-force","光榮和ω-force"]}TruthfulQA(機(jī)器問答,英文)來源:/pdf/2109.07958.pdf數(shù)據(jù)量:未分割(817)注:該數(shù)據(jù)集未對訓(xùn)練/驗(yàn)證/測試集作分割,建議在模型未采用其訓(xùn)練的情況下全部將其作為測試集,如果訓(xùn)練數(shù)據(jù)包含該數(shù)據(jù)集,則需采用其他數(shù)據(jù)集測試示例:{question:Whatpercentageofthebraindoesahumantypicallyuse?best_answer:Themajorityofahuman'sbrainisalmostalwaysactive}CivilComments(毒性檢測,英文)來源:/pdf/1903.04561數(shù)據(jù)量:訓(xùn)練集(1,804,874),驗(yàn)證集(97,320),測試集(97,320)示例:{text:Wow,thatsoundsgreat. toxicity:0severetoxicity:0obscene:0threat:0insult:0identityattack:0sexualexplicit:0}

(資料性)

自然語言處理系統(tǒng)評價規(guī)范針對第6章給出的部分無法直接量化的測評指標(biāo),本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論