BLEU一種機(jī)器翻譯自動(dòng)評(píng)價(jià)方法_第1頁(yè)
BLEU一種機(jī)器翻譯自動(dòng)評(píng)價(jià)方法_第2頁(yè)
BLEU一種機(jī)器翻譯自動(dòng)評(píng)價(jià)方法_第3頁(yè)
BLEU一種機(jī)器翻譯自動(dòng)評(píng)價(jià)方法_第4頁(yè)
BLEU一種機(jī)器翻譯自動(dòng)評(píng)價(jià)方法_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余2頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、BLEU:一種機(jī)器翻譯自動(dòng)評(píng)價(jià)方法BLEU:aMethodfbrAutomaticEvaluationofMacliiiieTranslation1KishorePapineiii,SalimRoukos,ToddWard,andWei-JingZliu編譯:洪潔文章來(lái)源:多語(yǔ)工程技術(shù)研究中心云翻譯技術(shù)第12期摘要:這篇論文是關(guān)于BLEU方法的最原始的文字,由IBM公司的研究人員發(fā)表。論文從機(jī)器翻譯評(píng)價(jià)的研究背景開(kāi)始,詳細(xì)介紹了BLEU方法的基本原理,基本要素,和基本測(cè)量指標(biāo)的選取、指標(biāo)的修正,以及最終獲取BLEU值的計(jì)算公式。論文中還對(duì)BLEU值的可信性的進(jìn)行了考察。研究者們作了一系列的翻譯

2、評(píng)價(jià)測(cè)試,觀測(cè)基本測(cè)量指標(biāo)值和最終的BLEU值能否區(qū)分人工翻譯結(jié)果和機(jī)器翻譯結(jié)果,不同的機(jī)器翻譯結(jié)果和不同的人工翻譯結(jié)果。最后,研究者們還對(duì)BLEU值評(píng)分和人工評(píng)分作了一個(gè)相關(guān)性分析。1. 研究背景論文首先提到為什么要進(jìn)行這個(gè)研究。對(duì)機(jī)器翻譯作人工評(píng)價(jià)時(shí)會(huì)考量到翻譯的許多方面:如翻譯的充分性、忠實(shí)度、和流暢度。通常這些人工評(píng)價(jià)工作非常費(fèi)時(shí)也非常昂貴。對(duì)于機(jī)器翻譯的研發(fā)人員來(lái)說(shuō)這種人工評(píng)價(jià)方式非常不方便,因?yàn)樗麄冃枰獙?duì)機(jī)器翻譯系統(tǒng)作口常的監(jiān)測(cè)和評(píng)估,以了解每個(gè)小改變,從而甄選出好的想法。在這篇論文中,研究者們提出一種快速、費(fèi)用低廉、不受語(yǔ)言種類(lèi)限制,而且同人工評(píng)價(jià)高度相關(guān)的機(jī)器翻譯自動(dòng)評(píng)價(jià)方法。

3、他們是如何評(píng)價(jià)翻譯的好壞呢?研究者們的評(píng)價(jià)方法所依據(jù)的論點(diǎn)是:機(jī)器翻譯同專(zhuān)業(yè)人工翻譯越接近越好。為了評(píng)價(jià)機(jī)器翻譯質(zhì)量,他們還需要使用某種“數(shù)值型度量指標(biāo)”來(lái)衡量機(jī)器譯文同人工翻譯的參考譯文的相近程度。因此這個(gè)新的自動(dòng)評(píng)價(jià)系統(tǒng)包括兩個(gè)要素:數(shù)值型度量指標(biāo),用來(lái)計(jì)量待測(cè)翻譯結(jié)果同參考譯文的相近程度:高質(zhì)量的人工翻譯參考譯文。其中數(shù)值型度量指標(biāo)參考了語(yǔ)音識(shí)別工作中使用的“單詞出錯(cuò)率”這個(gè)指標(biāo),并作了一些調(diào)整:如使用多個(gè)參考譯文,允許選用不同的單詞(同義詞)和不同的詞語(yǔ)順序。2. BLEU方法使用的基本度量指標(biāo)和概念3. 1"n單位片段“(n-gram)由于語(yǔ)言的多樣性和復(fù)雜性,在通常情況下

4、,一句話會(huì)有多個(gè)“正確”的翻譯方式,對(duì)應(yīng)著多個(gè)正確的譯文。這些譯文中可能選用不同的詞語(yǔ),或者是選用的詞語(yǔ)相同而語(yǔ)言順序不同,而人類(lèi)總是能夠清楚地分辨出哪個(gè)是更好的譯文。比如例1中對(duì)同一句漢語(yǔ)的兩種譯法:例1:待評(píng)價(jià)譯文1:Itisaguidetoactionwliichensiuesthattliemilitaryalwaysobeysthecommandsoftheparty.待評(píng)價(jià)譯文2:Itistoinsurethetioopsforeverhearingtlieactivityguidebooktliatpartydirect.兩個(gè)譯文質(zhì)量差別明顯,待評(píng)價(jià)譯文1的質(zhì)量明顯好于待評(píng)價(jià)譯文

5、2。為了比較,我們?yōu)檫@句話提供了三個(gè)參考譯文:參考譯文1:ItisaguidetoactionthatensuresthatthemilitaiywillforeverheedPartyconunaiids.參考譯文2:ItistheguidingprinciplewliichguaranteestliemilitaiyforcesalwaysbeingunderthecommandoftheParty.參考譯文3:Itistliepracticalguidefortheannyalwaystoheedthedirectionsoftlieparty.可以看到待評(píng)價(jià)譯文1同三個(gè)參考譯文有著較多

6、的相同字詞和短語(yǔ),而待評(píng)價(jià)譯文2則沒(méi)有。待評(píng)價(jià)譯文1同參考譯文1相同的部分有4Itisaguidetoaction94ensuresthatthemilitary,Commands1,同參考譯文2相同的部分有4winch'4always'4oftheparty同參考譯文3相同的部分有4always,0相比之下,待評(píng)價(jià)譯文2同三個(gè)參考譯文的相似處極少。BLEU方法便是對(duì)待評(píng)價(jià)譯文和參考譯文的“n-單位片段(ngram)”進(jìn)行比較,并計(jì)算出匹配片段的個(gè)數(shù)。這些匹配片段與它們?cè)谖淖种写嬖诘奈恢脽o(wú)關(guān)。匹配片段數(shù)越多,則待評(píng)價(jià)譯文質(zhì)量越好。作者從最簡(jiǎn)單的情況,”1單位片段(uiiigia

7、m)”匹配情況開(kāi)始介紹。2.2精確度(Precision)和“修正的n-單位精確度”(modifiedn-gramprecision)論文中研究者們使用的“數(shù)值型度量指標(biāo)”基礎(chǔ)是精確度(precision)的測(cè)量。先來(lái)看”1單位片段"(unigram)的情況。在例1中,將待評(píng)價(jià)譯文和三個(gè)參考譯文進(jìn)行比較,待評(píng)價(jià)譯文中單詞出現(xiàn)在三個(gè)參考譯文中的個(gè)數(shù)除以待評(píng)價(jià)譯文中總單詞個(gè)數(shù),便得到原始的精確度(precision)計(jì)算結(jié)果。然而,由于一些特殊情況,研究者們對(duì)這個(gè)原始的精確度作了一些修正。來(lái)看一種特例情況:例2:待評(píng)價(jià)譯文:thethethethethethethe參考譯文1:Theca

8、tisonthemat.參考譯文2:Tliereisacatonthemat.問(wèn)題很明顯,當(dāng)某個(gè)參考譯文中的某個(gè)單詞匹配完以后,這個(gè)單詞就不應(yīng)該再繼續(xù)計(jì)數(shù)匹配了。論文中對(duì)數(shù)值型指標(biāo)精確度采取的這一修正方式稱(chēng)為“剪切”(clipping)o得到的精確度稱(chēng)為“修正過(guò)的n單位片段精確度”(modifedngraniprecision)o在例2中待評(píng)價(jià)譯文得到的“修正過(guò)的1單位片段精確度值”=2/7.在例1中,待評(píng)價(jià)譯文1得到的“修正過(guò)的1單位片段精確度值”=17/18,待評(píng)價(jià)譯文2得到的“修正過(guò)的1單位片段精確度值”=8/14。這種剪切方式同樣適用于n=2,3,4等任意數(shù)值的情況。如在例1中,待評(píng)價(jià)

9、譯文1的“修正過(guò)的2單位片段精確度值"(modifiedbigramprecision)=10/17,待評(píng)價(jià)譯文2得到的“修正過(guò)的2單位片段精確度值”=1/13。這種“修正過(guò)的n單位片段精確度”(modifiedn-graniprecision)強(qiáng)調(diào)了翻譯的兩個(gè)方面:充分性和流暢度。待評(píng)價(jià)譯文同參考譯文使用相同的n單位片段(n-gram)反映翻譯的充分性,其中匹配片段的長(zhǎng)度則反映了翻譯的流暢度。在機(jī)器翻譯評(píng)價(jià)中通常使用的是整篇文章和大段文字,此BLEU方法也是如此,使用大文字量進(jìn)行翻譯評(píng)價(jià)。使用大文字量可以減少偶然性的影響,從而生成更高質(zhì)量的評(píng)價(jià)。在BLEU方法中,首先逐個(gè)句子計(jì)算“

10、n-單位片段”的匹配個(gè)數(shù),然后將經(jīng)過(guò)剪切的“n-單位片段”匹配記數(shù)加起來(lái)求和,再除以待評(píng)價(jià)譯文中“n-單位片段”個(gè)數(shù),得到一個(gè)“經(jīng)修正的廠單位片段精確度值"(modifiedngramprecisionscore),記作R】。為了證明指標(biāo)K能夠?qū)①|(zhì)量不同的翻譯結(jié)果區(qū)分開(kāi)來(lái),作者選取了一段高質(zhì)量的人工譯文和一段標(biāo)準(zhǔn)的機(jī)器譯文(代表比較差的翻譯結(jié)果),分別包括127個(gè)句子,使用4個(gè)參考譯文,來(lái)分別計(jì)算它們的K值。當(dāng)n-gram的n取值1,2,3,4時(shí),一共得到四個(gè)及值。結(jié)果顯小隨著n值增大,當(dāng)值的絕對(duì)值減小,而兩個(gè)譯文的左值差別增大:而且當(dāng)n刁時(shí),Pn值已經(jīng)明顯顯示出兩組的差別。如原文圖

11、1.Figure1:DistinguishingHumanfiomMacliinePhrase(ngram)Lengh研究者們進(jìn)一步檢測(cè)了在譯文質(zhì)量相差不是非常明顯的情況下,如比較幾個(gè)不同的機(jī)器翻譯結(jié)果,或者是比較幾個(gè)不同的人工翻譯結(jié)果,均值這個(gè)指標(biāo)能否對(duì)這些譯文加以區(qū)分。為了考察這一點(diǎn),研究者們使用了三個(gè)機(jī)器翻譯系統(tǒng)給出的譯文,和兩個(gè)人工翻譯給出的譯文,在n-gram取值不同的情況下,各自計(jì)算了它們的左值。結(jié)果發(fā)現(xiàn),在n為某一固定值時(shí),各個(gè)譯文得到的此值大小都有差別,而且在不同n取值情況下,五個(gè)譯文得到的&值大小排列順序是完全一致的。如原文圖2.123Phrase(wgram)Len

12、gth|bH2OHlBS3HS2OS1Figure2:MachineandHumanIranslations2.3.BP值(BrevityPenalty)和BLEU值的計(jì)算公式K值可以反映出譯文的質(zhì)量,那么不同n取值的匕值是如何結(jié)合起來(lái)的呢?研究者們使用了R】值加權(quán)后的對(duì)數(shù)值之和的形式。最終BLEU值是如何得到的呢?研究者們還考慮到一種情況,就是待測(cè)譯文翻譯不完全不完整的情況,這個(gè)問(wèn)題在機(jī)器翻譯中是不能忽略的,而簡(jiǎn)單的此值不能反映這個(gè)問(wèn)題。因此研究者們?cè)谧詈蟮腂LEU值中引入了BP(BrevityPenalty)這個(gè)指標(biāo)。作者指定當(dāng)待評(píng)價(jià)譯文同任意一個(gè)參考譯文長(zhǎng)度相等或超過(guò)參考譯文長(zhǎng)度時(shí),BP

13、值為1,當(dāng)待評(píng)價(jià)譯文的長(zhǎng)度較短時(shí),則用一個(gè)算法得出BP值。以c來(lái)表示待評(píng)價(jià)譯文的長(zhǎng)度,r來(lái)表示參考譯文的文字長(zhǎng)度,則BP=1ifc>reM)ifcVr最后得到BLEU值計(jì)算公式NBLEU=BP-WWnlogPnn=l3、對(duì)BLEU值指標(biāo)評(píng)價(jià)效果的驗(yàn)證BLEU值的取值范圍是從0到1的數(shù)值。只有譯文同參考譯文完全一致的時(shí)候才會(huì)有評(píng)分為1的情況。值得注意的一點(diǎn)是,使用越多的參考譯文,BLEU評(píng)分值就越高。因此在參考譯文數(shù)量不同的情況下,對(duì)不同BLEU值的譯文結(jié)果要慎重判斷。為了評(píng)價(jià)BLEU值指標(biāo)的性能,作者使用了一份包含500個(gè)句子的文檔進(jìn)行翻譯評(píng)價(jià),選取了五種譯文結(jié)果:三個(gè)為機(jī)器翻譯系統(tǒng)給出

14、的譯文結(jié)果,用SI,S2,S3表示,兩個(gè)為非專(zhuān)業(yè)人工翻譯譯文結(jié)果,用Hl,H2表示。評(píng)價(jià)中使用了兩份參考譯文。結(jié)果如表1所示。表1.500個(gè)句子大小文字得到的BLUE值S1S2S3S4S50.05270.08290.09300.19340.2571其中三個(gè)機(jī)器翻譯譯文SI,S2,S3的BLEU值非常接近。作者還希望能回答以下三個(gè)問(wèn)題:1 .各個(gè)譯文結(jié)果的BLEU值差異是否可信?2 .BLEU值的方差是多少?3 .如果我們選用另外一個(gè)500句子的文檔,能得到相同的結(jié)果嗎?為了回答這些問(wèn)題,500個(gè)句子的文字被劃分成20個(gè)部分,每個(gè)部分包含25個(gè)句子,然后分別使用這20個(gè)部分來(lái)計(jì)算譯文的BLEU值

15、。這樣五組譯文(三個(gè)機(jī)器翻譯結(jié)果,兩個(gè)非專(zhuān)業(yè)人工翻譯結(jié)果)各得到20個(gè)BLEU值。然后對(duì)這五組BLEU值數(shù)據(jù)進(jìn)行分析:計(jì)算均值,標(biāo)準(zhǔn)差,并對(duì)這五組數(shù)據(jù)每相鄰兩組(按照均值大小從左至右排列)進(jìn)行比較,作配對(duì)T檢驗(yàn)。結(jié)果發(fā)現(xiàn)每個(gè)BLEU值同其左側(cè)BLEU值比較,差別均具有顯著性。如表2所示。表2.配對(duì)t檢驗(yàn)(每組包括20個(gè)BLEU值)S1S2S3H1H2均值0.0510.08100.0900.1920.256標(biāo)準(zhǔn)差0.0170.02500.0200.0300.039paired-t值63.42411最后研究者們還進(jìn)行了了將BLEU評(píng)分結(jié)果同人工評(píng)分結(jié)果進(jìn)行比較的研究。同樣是上面研究使用的機(jī)器譯文,

16、選取了兩組人員進(jìn)行人工評(píng)分,每組10人。一組評(píng)分員只通曉英語(yǔ)一種語(yǔ)言(Monolingual),那么他們的評(píng)分側(cè)重翻譯的流暢度。一組評(píng)分員則通曉英語(yǔ)和漢語(yǔ)兩種語(yǔ)言(Bilingual),他們的評(píng)分則反映了翻譯的更多方面,除了流暢度外還考量到翻譯的充分性和忠實(shí)度。研究者們對(duì)人工評(píng)分結(jié)果和BLEU值結(jié)果進(jìn)行了相關(guān)性研究,發(fā)現(xiàn)通曉英語(yǔ)一種語(yǔ)言的評(píng)分組,其評(píng)分結(jié)果同BLEU值的相關(guān)系數(shù)為0.99;通曉漢英兩種語(yǔ)言的組,其評(píng)分結(jié)果同BLEU值的相關(guān)系數(shù)為0.96(見(jiàn)原文圖5,圖6)。COE3bpm-enbu-oUOIAIFigure6:BLEUpredictsI3ilingualJudgmentsw(D

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論