第四屆全國機(jī)器翻譯研討會(huì)CCID技術(shù)報(bào)告PPT課件_第1頁
第四屆全國機(jī)器翻譯研討會(huì)CCID技術(shù)報(bào)告PPT課件_第2頁
第四屆全國機(jī)器翻譯研討會(huì)CCID技術(shù)報(bào)告PPT課件_第3頁
第四屆全國機(jī)器翻譯研討會(huì)CCID技術(shù)報(bào)告PPT課件_第4頁
第四屆全國機(jī)器翻譯研討會(huì)CCID技術(shù)報(bào)告PPT課件_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第四屆全國機(jī)器翻譯研討會(huì)第四屆全國機(jī)器翻譯研討會(huì)CCID技技術(shù)報(bào)告術(shù)報(bào)告 中國電子信息產(chǎn)業(yè)發(fā)展研究院 孫廣范引言引言 l本文對(duì)中國電子信息產(chǎn)業(yè)發(fā)展研究院(CCID)參加第四屆全國機(jī)器翻譯研討會(huì)評(píng)測的漢英和英漢機(jī)器翻譯系統(tǒng)進(jìn)行描述。參加的評(píng)測項(xiàng)目包括漢英新聞?lì)I(lǐng)域機(jī)器翻譯、英漢新聞?lì)I(lǐng)域機(jī)器翻譯、英漢科技領(lǐng)域機(jī)器翻譯。其中,漢英機(jī)器翻譯系統(tǒng)包括一個(gè)基于規(guī)則的系統(tǒng)和一個(gè)基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),英漢機(jī)器翻譯系統(tǒng)是一個(gè)基于規(guī)則和模板的系統(tǒng)。系統(tǒng)系統(tǒng) l系統(tǒng)1:基于規(guī)則和模板的漢英機(jī)器翻譯系統(tǒng)l本系統(tǒng)是傳統(tǒng)的基于規(guī)則的系統(tǒng),其中融入了模板技術(shù)、統(tǒng)計(jì)技術(shù),屬于基于轉(zhuǎn)換的機(jī)器翻譯系統(tǒng)。其既有規(guī)則系統(tǒng)的適應(yīng)面

2、較寬的特點(diǎn),也有規(guī)則方法固有的知識(shí)顆粒度粗的不足。另外,本系統(tǒng)面向新聞?lì)I(lǐng)域語料調(diào)試工作做得較少,也是其處理新聞?wù)Z料效果不十分理想的原因之一。系統(tǒng)系統(tǒng)l系統(tǒng)2:基于規(guī)則和模板的英漢機(jī)器翻譯系統(tǒng)l本系統(tǒng)采用規(guī)則和模板相結(jié)合的技術(shù),面向英語新聞?lì)I(lǐng)域進(jìn)行了針對(duì)性調(diào)試,因此處理英語新聞?wù)Z料效果較好。同時(shí),由于針對(duì)科技領(lǐng)域語料調(diào)試量較少,所以針對(duì)科技語料的處理效果差些。系統(tǒng)系統(tǒng)l系統(tǒng)3:基于短語的漢英統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)l本系統(tǒng)的訓(xùn)練語料包括400萬句對(duì)的通用漢英平行語料,其中包括863評(píng)測提供的83萬漢英平行語料。分詞工具采用自己研制的分詞工具,采用GIZA+、中科院計(jì)算所的Camel解碼器。訓(xùn)練結(jié)果生成了

3、1千萬條的短語翻譯表,語言模型是從其中2百萬句對(duì)中的英文部分訓(xùn)練出來的。l由于本系統(tǒng)的訓(xùn)練語料對(duì)于新聞?lì)I(lǐng)域的針對(duì)性不強(qiáng),導(dǎo)致了本次測試結(jié)果的BLEU值不高。下一步時(shí)擬增加新聞?lì)I(lǐng)域語料的收集,這樣可以有效提高系統(tǒng)面向新聞?lì)I(lǐng)域語料處理的效果。 實(shí)驗(yàn)實(shí)驗(yàn) l系統(tǒng)1:基于規(guī)則和模板的漢英機(jī)器翻譯系統(tǒng)l 實(shí)驗(yàn)實(shí)驗(yàn)l系統(tǒng)3:基于短語的漢英統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)l本次評(píng)測(CWMT2008)中的面向新聞?wù)Z料的測試結(jié)果:實(shí)驗(yàn)實(shí)驗(yàn)l系統(tǒng)2:基于規(guī)則和模板的英漢機(jī)器翻譯系統(tǒng) l本次評(píng)測(CWMT2008)中的面向新聞?wù)Z料的測試結(jié)果:實(shí)驗(yàn)實(shí)驗(yàn)l本次評(píng)測(CWMT2008)中的面向科技語料的測試結(jié)果:討論討論 l機(jī)器翻譯方法中,目前研究的熱點(diǎn)是統(tǒng)計(jì)機(jī)器翻譯方法,其優(yōu)點(diǎn)是可以從平行語料庫中快速地學(xué)習(xí)出大量的短語及其對(duì)譯表達(dá),并且可以訓(xùn)練出目標(biāo)語語言模型,這樣可以使其能夠擁有比規(guī)則方法的系統(tǒng)更多的短語(特別是非句法成分的短語),目標(biāo)語語言模型可以使其選擇譯文搭配時(shí)可以區(qū)分得更細(xì),這樣使的其譯文與人工譯文的相同語言片段數(shù)量增加,從而BLEU增加。統(tǒng)計(jì)方法的缺點(diǎn)是長距離調(diào)序能力較差,因?yàn)槠湔{(diào)序時(shí)較少考慮人的語言知識(shí)。規(guī)則和模板相結(jié)合的系統(tǒng)在模板數(shù)量達(dá)到一定量(幾萬條)時(shí)也可以表現(xiàn)出較好的翻譯性能,其瓶頸在于大量的模板的獲取問題的解決?;诰浞ǖ慕y(tǒng)計(jì)機(jī)器翻譯方法的研究可能為將統(tǒng)計(jì)機(jī)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論