版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、摘摘摘要要要機器翻譯是自然語言處理領域中最困難的問題之一,具有重大的研究價值和實用價值。翻譯模板作為一種有效的知識表示,可以為機器翻譯提供翻譯知識源?;诮y(tǒng)計的機器翻譯是近年來機器翻譯研究的熱點,通過對在統(tǒng)計機器翻譯系統(tǒng)中融入翻譯模板相關技術的研究,能夠優(yōu)化機器翻譯系統(tǒng)的知識表示,提高統(tǒng)計機器翻譯系統(tǒng)的翻譯質量。本文的研究主要分為三個部分:統(tǒng)計機器翻譯系統(tǒng)中一類翻譯模板的自動抽取和應用(改進的調序翻譯模板的抽取和應用),對自動抽取的翻譯模板的評價和應用(基于熵的翻譯模板的評價和應用),統(tǒng)計機器翻譯系統(tǒng)中非自動抽取翻譯模板的應用(人工書寫翻譯模板在統(tǒng)計機器翻譯系統(tǒng)中的應用)。具體來說,取得的成果
2、主要有以下幾方面:1、改進的調序翻譯模板的抽取和應用在翻譯模板的自動抽取中,常常采用一些啟發(fā)式限制來限制抽取出的翻譯模板集的數(shù)量。這些限制保證了抽取和翻譯的效率,但是也過濾了一些重要的翻譯模板,影響了翻譯質量,尤其影響機器翻譯中調序的效果。本文提出了一種輕量級的改進的調序翻譯模板自動抽取方法。該方法從語料庫中抽取與調序有關的翻譯模板,并加入原有的翻譯模板集合中。抽取出的調序翻譯模板能夠彌補現(xiàn)有系統(tǒng)翻譯模板的不足,并且實現(xiàn)簡單,不增加過多的系統(tǒng)開銷。實驗證明,加入該方法抽取的調序翻譯模板后,提高了層次短語統(tǒng)計機器翻譯系統(tǒng)的調序和翻譯質量。2、基于熵的翻譯模板的評價和應用由于翻譯模板的數(shù)量較多,質
3、量參差不齊,需要對其進行評價和過濾,尤其對于實用機器翻譯系統(tǒng)。本文采用了基于變量熵的對于翻譯模板的評價標準,對自動抽取的翻譯模板進行自動評價,并根據(jù)該評價過濾統(tǒng)計機器翻譯系統(tǒng)使用的翻譯模板。我們還將變量熵作為一個特征加入統(tǒng)計機器翻譯系統(tǒng)中,幫助翻譯模板的選取。實驗證明,使用變量熵作為評價標準能夠有效地實現(xiàn)翻譯模板的過濾,變量熵作為一個特征對于翻譯過程中翻譯模板的選擇也有幫助。3、人工書寫翻譯模板在統(tǒng)計機器翻譯系統(tǒng)中的應用人工書寫的翻譯模板是人類語言的重要資源,它們能夠準確捕捉翻譯對之間的關系,反映句子的主干信息。雖然人工書寫的翻譯模板成本較高,但是在機器翻譯系統(tǒng)中,尤其在特定領域的機器翻譯系統(tǒng)
4、中,它們是重要的知識源。本文提出了一種將人工書寫翻譯模板應用于統(tǒng)計機器翻譯系統(tǒng)的方法,將人工書寫的翻譯模板視為可信度較高的翻譯模板,利用統(tǒng)計機器翻譯的對數(shù)線性模型在翻譯過程中動態(tài)匹配和選擇要使用的翻譯模板。實驗表明,這種方法能夠提高統(tǒng)計機器翻譯系統(tǒng)的翻譯質量。iv融合翻譯模板的統(tǒng)計機器翻譯技術研究關鍵詞:翻譯模板,機器翻譯,統(tǒng)計機器翻譯abstractapplicationsoftranslationtemplatesinstatisticalmachinetranslationshucaidirectedbyyajuanluasoneofthemostdifcultproblemsinnat
5、urallanguageprocessing,machinetranslationhasgreatsignicanceinresearchandpracticaluse.translationtemplate(rule),asaneffec-tiveknowledgerepresentation,couldservethemachinetranslationtaskastheknowledgesource.statisticalmachinetranslationisahotresearchareainrecentmachinetransla-tionresearch.researchonth
6、eapplicationoftranslationtemplatesinstatisticalmachinetranslationsystemscouldoptimizetheknowledgerepresentation,andthusimprovethetranslationqualityofstatisticalmachinetranslationsystems.inthisdissertation,wepresenttheresearchresultsonthestatisticalmachinetransla-tiontechnologiesincorporatingthetrans
7、lationtemplates.therearethreeaspectswefocuson:theextractionoftheimprovedreorderingtranslationrules;theevaluationandlteringoftranslationtemplatesbasedonentropy;theapplicationofhuman-writtentemplatesinthestatisticalmachinetranslationsystems.ourmaincontributionsareasfollows:1automaticextractionofimprov
8、edreorderingtranslationrulesintheautomaticextractionoftranslationtemplates,therearegenerallysomeheuristicconstraintstorestrictthenumberofthetranslationruleset.althoughtheseconstraintsmayensuretheefciencyoftheextractionanddecoding,theyalsoltersomeusefultranslationpatterns,duringwhichmighthurtthetrans
9、lationperformance,especiallythereorderingperformance.weproposealight-weightedmethodtoautomaticallyextracttheimprovedreorderingtranslationrules.thismethodextractssometranslationtemplatesforreorder-ingfromthecorpus,andaddsthemtotheoriginaltranslationruleset.thismethod,withasimpleimplementation,couldim
10、provethetranslationqualityofstatisticalmachinetrans-lationsystemswithoutaddingtoomuchcosttothesystem.experimentsshowthatthereorderingandtranslationqualityofhierarchicalphrase-basedmachinetranslationsystemisimprovedafteraddingtheimprovedreorderingtranslationrules.2evaluationandlteringoftranslationtem
11、platesbasedonentropysincethequantityoftranslationtemplatesislarge,andtheirqualitiesaregenerallydifferent,itisnecessarytondsomewaytoevaluatethetranslationtemplates,andl-terthetranslationtemplatesusedinstatisticalmachinetranslationsystemsbasedontheirvi融合翻譯模板的統(tǒng)計機器翻譯技術研究scores,especiallyinpracticalmachi
12、netranslationsystems.inthisdissertation,weauto-maticallyevaluatethetranslationtemplatesextractedbasedonvariableentropy.thecri-terionmeasuresgeneralizationabilityofthetranslationtemplates.wealsousethevalueofthiscriterionasafeatureinthestatisticalmachinetranslationsystemstohelpselectthetranslationtemp
13、lates.experimentsshowthatthevariableentropyisaneffectivecriteriontolterthetranslationtemplates.variableentropyisalsohelpfulasafeatureduringtheselectionoftemplatesduringtranslation.3applicationofhuman-writtentranslationtemplatesinthestatisticalmachinetranslationsystemstranslationtemplateswrittenbyhum
14、anareimportantresourcesofhumanlanguage.theycouldaccuratelycapturethecorrespondencesbetweenlanguagepairs,andreectthestructuralinformationofthesentences.althoughthetranslationtemplateswrittenbyhumanhaveahighcost,theyaresignicantknowledgesourcesinmachinetranslationsystems,especiallyintranslationsystems
15、forspecicdomains.wepresentamethodtoapplythehuman-writtentranslationtemplatestothestatisticalmachinetranslationsys-tems.inthismethod,weusethehuman-writtentranslationtemplatesastranslationtem-plateswithhighcredibility,andincorporatethemintothetranslationprocess.log-linearmodel,whichisoftenusedinstatis
16、ticalmachinetranslation,isusedtomatchandselectthetranslationtemplatesdynamically.experimentsshowthatthismethodwouldimprovethetranslationqualityofstatisticalmachinetranslation.keywords:translationtemplates;machinetranslation;statisticalmachinetranslation目目目錄錄錄摘要iiiabstractv目錄vii第一章引言11.1研究背景及意義.11.2翻
17、譯模板簡介.11.2.1機器翻譯系統(tǒng)與翻譯模板.11.2.2翻譯模板的特點和形式定義.21.3國內外研究現(xiàn)狀分析.41.3.1機器翻譯和統(tǒng)計機器翻譯的發(fā)展.41.3.2翻譯模板自動抽取相關研究.61.3.3翻譯模板在統(tǒng)計機器翻譯中的使用相關研究.71.4主要的研究目標和內容.81.5論文的組織結構.8第二章融合翻譯模板的統(tǒng)計機器翻譯技術的研究框架92.1基本框架.92.2任務分析與界定.102.2.1改進的調序翻譯模板的抽取和應用.102.2.2基于熵的翻譯模板的評價及應用.102.2.3人工書寫翻譯模板在統(tǒng)計機器翻譯系統(tǒng)中的應用.112.3本章小結.11第三章改進的調序翻譯模板的抽取和應用1
18、33.1相關工作.133.1.1簡單調序方法.133.1.2詞匯化調序模型.133.1.3句法調序模型.143.1.4基于翻譯模板調序.14viii融合翻譯模板的統(tǒng)計機器翻譯技術研究3.1.5小結.143.2改進的調序模板抽取.143.2.1層次短語翻譯模型模板抽取和使用.143.2.2改進調序翻譯模板.163.2.3改進調序翻譯模板的抽取.203.3改進調序模板在統(tǒng)計機器翻譯系統(tǒng)中的使用.213.4改進調序模板的實驗結果及分析.223.4.1數(shù)據(jù)和系統(tǒng)介紹.223.4.2實驗結果與分析.233.5本章小結.25第四章基于熵的翻譯模板的評價和應用274.1相關工作.274.2基于熵的翻譯模板的
19、評價.274.2.1翻譯模板變量熵簡介.274.2.2翻譯模板的評價和過濾.294.3變量熵的應用.304.4實驗結果.304.4.1數(shù)據(jù)和系統(tǒng)介紹.304.4.2實驗結果與分析.314.5本章小結.34第五章人工書寫翻譯模板在統(tǒng)計機器翻譯系統(tǒng)中的應用355.1相關工作.355.1.1人工書寫翻譯模板與自動抽取翻譯模板.355.1.2人工書寫翻譯模板的應用.365.2人工書寫模板在統(tǒng)計機器翻譯系統(tǒng)中的應用.365.2.1人工書寫翻譯模板簡介.365.2.2模板匹配算法實現(xiàn).375.3融合人工書寫翻譯模板的統(tǒng)計機器翻譯解碼.395.3.1統(tǒng)計機器翻譯系統(tǒng)中的對數(shù)線性模型.395.3.2融合人工翻
20、譯模板的解碼方法.395.4實驗結果分析.41目錄ix5.4.1數(shù)據(jù)和系統(tǒng)介紹.415.4.2實驗結果及分析.425.5本章小結.43第六章總結與展望456.1總結.456.2展望.45參考文獻47簡歷55致謝57表表表格格格3.1不同初始短語長度限制時的翻譯模板數(shù)量(抽取于fbis語料).173.2圖3.3抽取的調序翻譯模板.213.3開發(fā)集和測試集的統(tǒng)計數(shù)據(jù).233.4翻譯模板的統(tǒng)計數(shù)據(jù).233.5實驗中的bleu值%(不區(qū)分大小寫)(*:置信水平為0.99的統(tǒng)計顯著性).243.6去除各種調序翻譯模板和匹配限制后的bleu%值(不區(qū)分大小寫))243.7翻譯結果對比.244.1開發(fā)集和測
21、試集的統(tǒng)計數(shù)據(jù).314.2用模板頻率過濾翻譯模板后的實驗結果(新聞領域).314.3用模板頻率過濾翻譯模板后的實驗結果(專利領域).324.4用樸素方法過濾翻譯模板后的實驗結果(新聞領域).324.5用樸素方法過濾翻譯模板后的實驗結果(專利領域).324.6用考慮同性質詞的方法過濾翻譯模板后的實驗結果(新聞領域).334.7用考慮同性質詞的方法過濾翻譯模板后的實驗結果(專利領域).334.8過濾后翻譯模板數(shù)量對比.334.9加入變量熵特征后的新聞領域實驗結果.344.10加入變量熵特征后的專利領域實驗結果.345.1人工書寫翻譯模板和自動抽取翻譯模板的特性對比.355.2開發(fā)集和測試集模板的人
22、工書寫模板匹配情況.425.3實驗結果對比.42插插插圖圖圖2.1翻譯模板在統(tǒng)計機器翻譯系統(tǒng)中應用的基本流程.93.1語言對之間的關系:正序.173.2語言對之間的關系:逆序.183.3一個調序實例上的調序翻譯模板抽取.214.1翻譯模板抽取圖例.285.1人工書寫模板匹配過程圖.385.2融合人工書寫翻譯模板的統(tǒng)計機器翻譯總體流程圖.405.3融合模板匹配的改進cky算法偽代碼.415.4實驗翻譯結果對比.43第第第一一一章章章引引引言言言1.1研研研究究究背背背景景景及及及意意意義義義隨著國內外政治、經(jīng)濟、文化、科技等方面交流的日益頻繁,國家與國家之間的交流越來越重要,因此對于語言翻譯的需
23、求越來越多。特別是近年來,互聯(lián)網(wǎng)迅速普及,極大地促進了世界各地人們的交流,而這些交流經(jīng)常需要通過不同語言之間的互譯來完成。相對于人工翻譯,機器翻譯具有速度快,成本低,易配置的優(yōu)點。因此,近年來機器翻譯在國內外得到了蓬勃發(fā)展,機器翻譯系統(tǒng)也逐漸走向實用化。機器翻譯系統(tǒng)向實用系統(tǒng)的發(fā)展對機器翻譯系統(tǒng)的準確率,可擴展性,速度等特性都提出了更高的要求。能夠進行機器翻譯的前提之一是能從語言現(xiàn)象中總結出用于指導翻譯過程的知識。這些知識描述從一種語言翻譯到另一種語言時所需遵循的限制和對應關系。在機器翻譯的過程中,我們先讓計算機”學習”到這些知識和它們的應用范圍,然后讓計算機利用這些知識進行翻譯。這些知識通常
24、按表示方法的不同分為字典,語料實例庫,轉換規(guī)則,翻譯模板等。翻譯模板(1.2節(jié))作為一種有效的翻譯知識表示形式,在機器翻譯過程中發(fā)揮了重要作用。翻譯模板的獲取和使用問題是機器翻譯中最核心的問題之一,因為它代表了自然語言處理問題中一種知識源的獲取和使用。不同的翻譯系統(tǒng)可能需要不同類型的翻譯模板,但是翻譯模板的獲取,使用等是每個使用翻譯模板的機器翻譯系統(tǒng)都必須面對的問題。對這些問題具體方法的研究有助于提高機器翻譯系統(tǒng)的翻譯質量,使系統(tǒng)能夠被更好地應用。二十一世紀以來,基于統(tǒng)計的機器翻譯系統(tǒng)逐漸成為主流的機器翻譯系統(tǒng),在研究界和工業(yè)界都顯露出它的重要性?;诮y(tǒng)計的機器翻譯系統(tǒng)的翻譯模板使用方便,易于
25、抽取,但是這些翻譯模板通常數(shù)量多,質量不統(tǒng)一,占用系統(tǒng)資源多。因此,研究對翻譯模板抽取過程,使用方法等的改進對現(xiàn)有基于統(tǒng)計的機器翻譯系統(tǒng)具有重要意義。1.2翻翻翻譯譯譯模模模板板板簡簡簡介介介1.2.1機機機器器器翻翻翻譯譯譯系系系統(tǒng)統(tǒng)統(tǒng)與與與翻翻翻譯譯譯模模模板板板按使用的知識表示的形式劃分,機器翻譯系統(tǒng)可以分為基于規(guī)則的機器翻譯系統(tǒng),基于實例的機器翻譯系統(tǒng)以及基于統(tǒng)計的機器翻譯系統(tǒng)三大類?;谝?guī)則的機器翻譯是機器翻譯方法中較傳統(tǒng)的方法,采用規(guī)則作為其知識表示形式。這些規(guī)則的典型形式是用產(chǎn)生式形式表示的“條件動作”對;條件部分表示規(guī)則適用的條件,動作部分是進行的操作。條件部分可以是詞性,句法
26、結構,語義結構等。例如,句法結構生成規(guī)則的條件是給出的源語言的結構,動作是生成2融合翻譯模板的統(tǒng)計機器翻譯技術研究目標語言的句法結構?;谝?guī)則的機器翻譯系統(tǒng)能夠將算法和語法分開處理,體現(xiàn)語法的翻譯規(guī)則一般由語言學工作者編寫,而在翻譯系統(tǒng)中使用這些翻譯規(guī)則的算法一般由程序設計人員編寫。這樣的處理有利于程序設計者和語言學工作者的分工合作,便于將復雜的語言結構用直觀的方法表示出來,不依賴于具體的訓練語料。但是這樣的規(guī)則比較抽象,容易沖突,系統(tǒng)擴展成本高,而且人工書寫的翻譯規(guī)則帶有很大主觀性。基于實例的機器翻譯和基于統(tǒng)計的機器翻譯都從語料庫中學習知識,即自動抽取翻譯知識。與基于規(guī)則的機器翻譯不同,它們
27、不依賴于人工編寫的翻譯知識,而是可以針對不同的領域使用不同的語料庫的知識。這一做法優(yōu)于基于規(guī)則的機器翻譯的是,從語料庫中學習翻譯知識的機器翻譯系統(tǒng)開發(fā)成本低,速度快,學習到的知識也比較客觀。而這種做法的缺點是它們的性能依賴于特定的語料庫,受數(shù)據(jù)稀疏問題的影響,學習到的知識的覆蓋粒度通常較人工書寫的小,即概括性不如人工定義的規(guī)則?;趯嵗臋C器翻譯通常使用翻譯實例作為翻譯知識表示。一個翻譯實例是由源語言句子以及它對應的譯文句子組成的,翻譯時,通過比較待翻譯句子與翻譯實例庫中的源語言句子,來模擬與待翻譯句子相對應的譯文。翻譯模板是介于“翻譯規(guī)則”和“翻譯實例”之間的翻譯知識表示形式,可以理解為帶有
28、變量部分的翻譯實例或由常量和變量組成的翻譯規(guī)則。由于翻譯規(guī)則顆粒度較大,容易過分抽象,而翻譯實例顆粒度較小,容易過分具體,翻譯模板剛好可以結合這兩種表示的優(yōu)點,減少它們的不足之處。翻譯模板可以被用在各種機器翻譯系統(tǒng)中,尤其適合混合各種翻譯知識表示的機器翻譯系統(tǒng)。翻譯模板具有表達直觀,概括性適中的特點?;诮y(tǒng)計的機器翻譯和基于實例的機器翻譯使用翻譯模板的方式不同。基于實例的機器翻譯通過尋找從語料庫中學習的翻譯模板進行翻譯,而基于統(tǒng)計的機器翻譯引入了信源-信道模型以及概率論的知識,為機器翻譯建立了概率模型,概率模型為翻譯模板的沖突問題提供了解決方案。基于統(tǒng)計的機器翻譯使用的翻譯模板是帶有概率信息的
29、,這些信息從語料庫中采用統(tǒng)計方法估算出來。1.2.2翻翻翻譯譯譯模模模板板板的的的特特特點點點和和和形形形式式式定定定義義義根據(jù)一種漢英翻譯模板提取方法(1)中的定義,翻譯模板的廣義定義如下:翻譯模板是一種翻譯規(guī)范,是所有符合某種翻譯規(guī)則的翻譯實例的集合,對于集合的每一個元素,它的源語部分必須按照特定的約束翻譯成目標語。本文中的翻譯模板符合上述的廣義定義,同時進一步細化翻譯模板的定義如下:分別用源語和目標語兩種語言書寫的包含常量(具體詞語片段)和變量(可變詞語片段)的字符串,而且這兩個字符串之間存在對應互譯關系。第一章引言3一個翻譯模板包括上述兩個字符串及其變量之間的映射關系。一個漢語-英語的
30、簡單翻譯模板的例子如下:這是x1。thisisx1.在這個模板中,中文部分的每一個漢語常量詞對應于英文部分相應位置的英語常量詞,即“這”對應“this”,“是”對應“is”。中文部分中x1和英文部分中x1為變量部分,且中文部分中x1的翻譯是英文部分中的x1。實際上,翻譯模板的對應關系可能比這種一一對應復雜得多。這種對應關系的復雜性是使用翻譯模板的優(yōu)點之一,因為我們不需要再在翻譯過程中計算這些已經(jīng)由翻譯模板描述的對應關系,而只需要找出正確的翻譯模板。因此,翻譯模板的質量對機器翻譯的質量有重要的影響。上例的簡單翻譯模板已經(jīng)能夠描述泛化的多種常見句型,例如:介紹人物:這是小張”及其相應翻譯“this
31、isxiaozhang”;指代物品“這是一個蘋果”及其相應翻譯“thisisanapple”;說明原因“這是因為他沒來”及其相應翻譯“thisisbecausehedidnotshowup”等。翻譯模板尤其適用于具有固定格式的文本,例如描述特定領域知識的文本。一個中藥專利領域的翻譯模板如下:一種具有x1作用的x2及其制備方法ax2havingx1effects,anditspreparingmethod這個模板能夠覆蓋待翻譯句子的主干內容,描述復雜的雙語之間的順序關系,并且能夠泛化到多種結構相似句子的翻譯。例如”一種具有補血作用的藥物及其制備方法”,”一種具有防止脫發(fā)作用的沖劑及其制備方法”等
32、。由于這些句式在其領域中出現(xiàn)頻繁,這樣的翻譯模板對提高翻譯準確率非常有效。翻譯模板還可以帶有附加匹配條件,提高模板匹配的準確率。例如限定x1必須是名詞短語。在翻譯過程中,翻譯模板可以被用來翻譯未出現(xiàn)在語料庫中的文本,只要這些文本具有與翻譯模板常量部分相同的結構,以及滿足變量部分匹配的條件。這個特性可以彌補基于語料庫的翻譯對語料庫的依賴性。由于模板的可泛化的特點,翻譯模板可以看成對雙語文本的適當概括。使用翻譯模板的機器翻譯具有可擴展性,質量高的翻譯模板常常能夠準確描述句子骨干的翻譯和長距離調序的信息。具有相同源語言部分的翻譯模板可以有不同的目標語言部分。這與自然語言的可改寫性(paraphras
33、ing)有關,即相同的句子可以有不同的表達方法,也可以有不同的翻譯。所以翻譯模板的源語言部分和目標語言部分存在多對多的對應關系。在機器翻譯過程中,需要根據(jù)不同的上下文,從待翻譯部分的候選模板中選擇最合適的翻譯模板。4融合翻譯模板的統(tǒng)計機器翻譯技術研究按照抽取方式分,翻譯模板可以分為人工書寫翻譯模板和自動抽取翻譯模板兩大類。人工書寫翻譯模板是由人編寫的,獲得成本高,但準確率和概括性好。自動抽取翻譯模板是根據(jù)一些算法從語料中自動抽取的,抽取成本低,但準確率和概括性通常不如人工書寫模板。在機器翻譯系統(tǒng)中使用翻譯模板,相關的問題主要有如下幾點:1.抽取問題。由于翻譯模板質量對機器翻譯質量的影響,怎樣從
34、語料庫中或其他語言資源中抽取準確描述語言現(xiàn)象并符合語法句法限制的翻譯模板,是翻譯模板研究必須面對的問題。2.評價問題。在語料庫較大時,從語料庫中自動抽取出的翻譯模板數(shù)量較多,質量不統(tǒng)一,可能影響機器翻譯系統(tǒng)的速度和質量。對翻譯模板做評價,過濾掉評價較低的翻譯模板,保留評價較高的翻譯模板能夠降低機器翻譯系統(tǒng)的資源使用,提高翻譯質量。3.應用問題。翻譯句子時,需要尋找合適的翻譯模板并應用,而且正確應用的方法與句子結構有關。在翻譯過程中消除翻譯模板沖突,尋找正確翻譯模板的應用也是亟待解決的問題之一。1.3國國國內內內外外外研研研究究究現(xiàn)現(xiàn)現(xiàn)狀狀狀分分分析析析1.3.1機機機器器器翻翻翻譯譯譯和和和統(tǒng)
35、統(tǒng)統(tǒng)計計計機機機器器器翻翻翻譯譯譯的的的發(fā)發(fā)發(fā)展展展機器翻譯是自然語言處理領域最古老也最具有挑戰(zhàn)性的問題之一。機器翻譯的目的是使用計算機把一種自然語言(源語言)翻譯成另一種自然語言(目標語言)。它涉及到計算機科學,數(shù)學,語言學,認知科學等多種學科的知識,屬于典型的交叉學科。在計算機學科中,它屬于人工智能分支,是用機器模擬人的行為。機器翻譯在當前研究界是一個熱點問題。在剛剛結束的自然語言處理領域重要學術會議acl年會(annualmeetingoftheassociationforcomputationallinguistics)上,機器翻譯的長文達到23篇,約占全部長文(120篇)的1/6。機
36、器翻譯方法按其知識表示劃分可以分為規(guī)則機器翻譯,實例機器翻譯,統(tǒng)計機器翻譯。規(guī)則機器翻譯和實例機器翻譯在20世紀比較流行,現(xiàn)在仍有一些公司和研究者使用基于規(guī)則和實例的機器翻譯系統(tǒng),如systran公司1。自ibm研究中心的brown等人提出統(tǒng)計機器翻譯的模型2以來,統(tǒng)計機器翻譯獲得了極快的發(fā)展。統(tǒng)計機器翻譯已成為當前熱門的機器翻譯技術,出現(xiàn)了一系列統(tǒng)計機器翻譯方法。按照利用語言學知識的粒度來分,可以進一步分成基于詞的統(tǒng)計機器翻譯方法,基于短語的統(tǒng)計機器翻譯方法,基于句法的統(tǒng)計機器翻譯方法,基于語義的統(tǒng)計機器翻譯方法等。1/第一章引言5基于詞的統(tǒng)
37、計機器翻譯方法始于ibm研究中心為機器翻譯建立概率模型的研究3。ibm研究中心建立的機器翻譯模型是信源-信道模型。假設源語言(f)是由目標語言(e)經(jīng)過噪聲信道傳輸?shù)玫降模瑱C器翻譯的目標就是將f還原成e,即一個解碼的過程。基本方程式如下:e=argmaxep(e)p(f|e)上式是統(tǒng)計機器翻譯基本方程式,其中p(e)被稱為語言模型,p(f|e)被稱為翻譯模型。語言模型反映了目標語言的流利度,翻譯模型反映了f翻譯到e的準確度。翻譯時,我們搜索能使p(e)p(f|e)的值最大的e,將它作為最佳翻譯?;谠~的統(tǒng)計機器翻譯方法將機器翻譯問題轉化成一個搜索問題,但是這個搜索空間是np完全的4。基于短語的
38、統(tǒng)計機器翻譯方法始于franzjosefoch在2002年acl年會上獲得最佳論文獎的論文5。不同于信源-信道模型,基于短語的統(tǒng)計機器翻譯使用對數(shù)線性模型。信源-信道模型是生成模型(generativemodel),是對p(ef)的建模,其中f是源語言(可觀察值),e是目標語言(未知值)。對數(shù)線性模型則是對p(e|f)的建模,即對目標函數(shù)的直接建模。翻譯概率的公式如下:pr(e|f)p1m(e|f)=expmm=1mhm(e,f)eexpmm=1mhm(e,f)其中hm(e,f)為與e,f有關的某個特征值,m為與該特征相對應的權重。對數(shù)線性模型可以融合多種語言學特征?;诙陶Z的統(tǒng)計機器翻譯系統(tǒng)
39、以短語(任意連續(xù)詞串)作為翻譯的最小單位,翻譯時將輸入的句子與短語詞典匹配,選擇最好的短語劃分,連接成目標語言的翻譯結果?;诙陶Z的統(tǒng)計機器翻譯系統(tǒng)已廣泛應用于研究界和實用機器翻譯系統(tǒng)中。moses26是英國愛丁堡大學philippkoehn牽頭開發(fā)的基于短語的統(tǒng)計機器翻譯系統(tǒng),是目前機器翻譯研究界和工業(yè)界十分流行的開源機器翻譯系統(tǒng)?;诙陶Z的統(tǒng)計機器翻譯方法模型訓練簡便,局部翻譯效果較好,但泛化能力較差,長距離調序較困難?;诰浞ǖ慕y(tǒng)計機器翻譯方法在統(tǒng)計機器翻譯中加入了句法限制。基于句法的統(tǒng)計機器翻譯模型分兩種:基于形式句法的翻譯模型和基于語言學句法的模型。前者利用形式上的句法學習翻譯知識;
40、而后者利用句法分析的知識?;诰浞ǖ慕y(tǒng)計機器翻譯解碼方法是在對源語言分析的同時產(chǎn)生目標語言的結構,采用類似句法分析的解碼方式。著名的基于形式句法的統(tǒng)計機器翻譯模型有davidchiang提出的層次短語翻譯模型7和吳德凱提出的基于itg句法的翻譯模型8等。著名的基于語2/moses6融合翻譯模板的統(tǒng)計機器翻譯技術研究言學句法的統(tǒng)計機器翻譯模型有劉洋等提出的樹到串翻譯模型9,南加州大學研究者提出的串到樹翻譯模型10,米海濤,黃亮等提出的森林到串的翻譯模型11,以及yuanding等提出的基于依存句法的統(tǒng)計機器翻譯模型12,微軟研究院的chrisquirk等提出的基于依存
41、樹片斷的統(tǒng)計機器翻譯模型13等。近年來基于句法的統(tǒng)計機器翻譯系統(tǒng)也得到了很大的發(fā)展。johnshopkins大學牽頭實現(xiàn)了基于(形式)句法的開源統(tǒng)計機器翻譯系統(tǒng)joshua314,進一步推動了基于句法的統(tǒng)計機器翻譯系統(tǒng)的實用化?;诰浞ǖ慕y(tǒng)計機器翻譯方法的優(yōu)點是加入了語法知識作為翻譯的限制,能夠更好地處理長距離調序等問題。目前基于語義的統(tǒng)計機器翻譯方法尚未得到充分發(fā)展,基于短語的統(tǒng)計機器翻譯方法和基于句法的統(tǒng)計機器翻譯方法,以及它們的混合方法是目前的主流統(tǒng)計機器翻譯方法。1.3.2翻翻翻譯譯譯模模模板板板自自自動動動抽抽抽取取取相相相關關關研研研究究究最初的對翻譯模板的研究是在基于實例的翻譯研
42、究基礎上進行的。日本的kaji等人15在長尾真教授基于實例的翻譯研究16的基礎上給出了翻譯模板的定義,并且描述了一種從雙語語料庫中學習翻譯模板的算法。koichitakeda等人在17給出了翻譯模板的一種形式化定義,并給出了相應的翻譯算法和算法復雜性的理論證明。土耳其科學家h.altayguvenir和ilyascicekli合作對從語料庫實例中抽取翻譯模板的方法進行了研究1819,中國科學院計算技術研究所的張健也在碩士論文20中對機器翻譯中泛化翻譯模板的方法進行了研究。ibm研究中心的feixia等在21中描述了重寫規(guī)則(一種使用句法標記的翻譯模板)的抽取方法,并且使用這種重寫規(guī)則對翻譯句子
43、進行預處理。這些方法都希望找出從翻譯實例中自動歸納翻譯模板的方法,主要根據(jù)詞典等語料庫資源決定翻譯模板的對應關系。簡言之,翻譯模板刻畫了兩種語言在互譯時的一種結構上的對應關系,在統(tǒng)計機器翻譯中,這樣的結構信息是必要的。在統(tǒng)計機器翻譯中融入結構信息的努力始于香港科技大學吳德凱的研究8。這篇文章引入了新的文法:反向轉錄語法(itg)和括號轉錄語法(btg)。itg是一種遵循形式句法的上下文無關文法,是一種類似翻譯模板的規(guī)則。在解碼中,遞歸應用itg規(guī)則,生成目標語言的樹形結構。btg是itg的簡化,itg中的非終結符帶句法標記,btg中的非終結符一律以x表示,給每條規(guī)則賦予先驗概率。這些規(guī)則可視為
44、由雙語對齊語料庫中抽取的翻譯模板。btg形式句法的限制雖然簡單,但被實驗證明非常有效。davidchiang的文章22及7為統(tǒng)計機器翻譯中的另一類重要模型基于短語的模型引入了翻譯模板的概念。這兩篇文章引入了層次短語(hierarchicalphrase)的概念,提出了層次短語翻譯模型,這種模型也是一種基于形式句法的機器翻譯模型。層次短語的規(guī)則形式屬于翻譯模板,含非終結符和終結符,從雙語對齊語料中3/ccb/joshua/index.html第一章引言7自動獲取,用統(tǒng)計方法估計概率。在解碼中,遞歸應用這些規(guī)則,用統(tǒng)計機器翻譯模型的分數(shù)計算方法選出最好的翻譯。基于語言學
45、句法的模型也引入了翻譯模板的概念。南加州大學的研究者們在23中給出了基于語言學句法的翻譯模板抽取算法的數(shù)學理論。微軟研究院的quirk等24描述了抽取依存樹對-字符串翻譯規(guī)則并應用到翻譯中的概念,這種規(guī)則是一種帶句法限制信息的依存樹到串的翻譯模板。南加州大學isi研究所的研究者在1025中提出了串到樹的翻譯模型,根據(jù)目標語言端的句法分析結果抽取翻譯模板,中科院計算所的劉洋等人在9中提出了一種基于樹到串對齊模板的翻譯模型,根據(jù)源語言端的句法分析結果抽取翻譯模板。在樹模板的基礎上,中科院計算所的米海濤等在11提出了森林的概念,在26描述了基于森林到串對齊模板的抽取方法。基于句法的統(tǒng)計機器翻譯模型使
46、用的翻譯模板的共同特點是抽取的翻譯模板數(shù)量較多,并且這些翻譯模板都帶有句法標記,翻譯時,需要句法分析的支持。由于用于抽取翻譯模板的語料庫需要經(jīng)過預處理,而現(xiàn)有的語料預處理方法詞語對齊,詞法分析,句法分析等可能存在錯誤,一些研究者也關注改進翻譯模板的抽取,從而提高翻譯模板質量的方法?;谏值慕y(tǒng)計機器翻譯26通過引入更多的句法分析結果和更簡潔的表示來減少句法分析錯誤對翻譯模板抽取造成的影響。rochester大學的dingliu等人在27中描述了使用em重估樹到串模板概率的一種方法。1.3.3翻翻翻譯譯譯模模模板板板在在在統(tǒng)統(tǒng)統(tǒng)計計計機機機器器器翻翻翻譯譯譯中中中的的的使使使用用用相相相關關關研
47、研研究究究上一節(jié)介紹了對翻譯模板抽取的相關研究。在統(tǒng)計機器翻譯系統(tǒng)中使用翻譯模板同樣有很多相關問題,在本節(jié)中給出一個簡單的綜述。翻譯模板的評價,過濾是針對自動抽取的翻譯模板數(shù)量過多,質量不統(tǒng)一的問題而采取的措施。4.1節(jié)介紹了一些對翻譯模板評價和過濾的相關工作。由于統(tǒng)計機器翻譯系統(tǒng)實用化的趨勢,很多研究者開始關注在統(tǒng)計機器翻譯系統(tǒng)上應用翻譯模板的具體問題,如數(shù)據(jù)結構表示,匹配算法等。美國馬里蘭大學的adamlopez提出了用后綴數(shù)組表示層次短語翻譯模型中翻譯模板的方法28。美國賓州大學的黃亮等人提出了cubepruning和cubegrowing算法29,以加快統(tǒng)計機器翻譯系統(tǒng)中的解碼速度。新
48、加坡國立大學的張慧等提出了一種基于超樹(hypertree)的翻譯模板匹配算法30,用于改進基于句法的統(tǒng)計機器翻譯系統(tǒng)中的翻譯模板匹配。中科院計算所的何中軍等人提出了部分匹配算法31以改進基于短語的統(tǒng)計機器翻譯系統(tǒng)中的數(shù)據(jù)稀疏問題??梢酝ㄟ^加入人工書寫的翻譯模板為機器翻譯系統(tǒng)引入新的知識源。中科院計算所的付雷等32嘗試解決融合句型模板和統(tǒng)計機器翻譯技術的問題,將人工書寫8融合翻譯模板的統(tǒng)計機器翻譯技術研究的模板和統(tǒng)計機器翻譯結合起來。這種方法為現(xiàn)有統(tǒng)計機器翻譯系統(tǒng)提供了一種添加語言學知識的方法。由于同一個源語言端可以對應到多個不同的目標端,在翻譯過程中,翻譯模板的選擇,消岐對于生成的翻譯質量至
49、關重要。何中軍等在33和34中利用最大熵分類模型改進了翻譯模板選擇的方法。語義信息也可以被用于消岐,如詞義消岐的相關工作3536。1.4主主主要要要的的的研研研究究究目目目標標標和和和內內內容容容綜上所述,統(tǒng)計機器翻譯系統(tǒng)中使用的翻譯模板,作為一種重要的知識表示,對機器翻譯的質量,速度等都有重要的影響。到目前為止,對翻譯模板的研究仍然是機器翻譯研究中的重要內容,通過對翻譯模板的改進,統(tǒng)計機器翻譯系統(tǒng)能夠得到發(fā)展。本課題研究的總體目標是研究融合翻譯模板的統(tǒng)計機器翻譯系統(tǒng)的相關技術,使翻譯模板在統(tǒng)計機器翻譯系統(tǒng)中能夠更好地得到使用,期望通過這些研究提高統(tǒng)計機器翻譯系統(tǒng),特別是實用統(tǒng)計機器翻譯系統(tǒng)的
50、翻譯速度和質量。本論文的研究工作主要集中在以下三個方面:1.研究翻譯模板的抽取,期望從現(xiàn)有語料庫中抽取能夠提高機器翻譯質量的翻譯模板。2.研究利用變量熵來對翻譯模板做評價,起到過濾翻譯模板,提高翻譯質量的作用。3.研究將人工書寫的翻譯模板應用于統(tǒng)計機器翻譯系統(tǒng)的方法,改進統(tǒng)計機器翻譯系統(tǒng)的質量。1.5論論論文文文的的的組組組織織織結結結構構構本文的組織結構如下:本章給出了翻譯模板的定義和國內外相關研究現(xiàn)狀,以及本文研究的目標;在第二章中介紹了本文的研究框架。在第三章中介紹了一種改進調序模板的自動抽取算法,并介紹該調序模板應用在層次短語翻譯系統(tǒng)中的實驗結果;在第四章中介紹了利用變量熵作為評價標準,過濾翻譯模板,并作為一個特征幫助統(tǒng)計機器翻譯系統(tǒng)選擇翻譯模板的方法。在第五章中介紹了將人工書寫的翻譯模板應用于統(tǒng)計機器翻譯系統(tǒng)的研究;最后一章對全文進行了總結,并指出了下一步的研究方向。第第第二二二章章章融融融合合合翻翻翻譯譯譯模模模板板板的的的統(tǒng)統(tǒng)統(tǒng)計計計機機機器器器翻翻翻譯譯譯技技技術術術的的的研研研究究究框框框架架架2.1基基基本本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東理工學院《虛擬商業(yè)創(chuàng)新創(chuàng)業(yè)實訓》2023-2024學年第一學期期末試卷
- 廣東江門中醫(yī)藥職業(yè)學院《地理空間分析與建?!?023-2024學年第一學期期末試卷
- 廣東環(huán)境保護工程職業(yè)學院《雕塑語言實踐》2023-2024學年第一學期期末試卷
- 廣東工貿職業(yè)技術學院《運籌學A》2023-2024學年第一學期期末試卷
- 廣東工程職業(yè)技術學院《社會體育指導與管理專業(yè)導論》2023-2024學年第一學期期末試卷
- 廣東第二師范學院《兼并與收購》2023-2024學年第一學期期末試卷
- 火災安全課件
- 《計算機通信與實驗》課件
- 安全月學生培訓課件
- 贛南科技學院《材料加工工藝和設備》2023-2024學年第一學期期末試卷
- 2024年新高考Ⅰ卷作文審題立意及寫作指導+課件
- 2024年山東臨沂市恒源熱力集團限公司高校畢業(yè)生招聘9人重點基礎提升難、易點模擬試題(共500題)附帶答案詳解
- 2024年房屋頂賬協(xié)議模板(二篇)
- 美國史智慧樹知到期末考試答案章節(jié)答案2024年東北師范大學
- 售后服務方案及運維方案
- 機加工工作計劃安排
- 2024年巴西手游市場市場前景及投資研究報告
- 習慣性違章培訓
- 2024年云南昆明市公安局直屬部門缺勤務輔警招聘筆試參考題庫附帶答案詳解
- 碼頭建設報批程序
- 商務數(shù)據(jù)分析智慧樹知到期末考試答案2024年
評論
0/150
提交評論