




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于微引擎流水線的機(jī)器翻譯系統(tǒng)結(jié)構(gòu) 本文工作受國(guó)家重點(diǎn)基礎(chǔ)研究計(jì)劃(973)支持,項(xiàng)目編號(hào)是G1998030507-4和G1998030510。劉群中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京100080北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所,北京100871liuqun摘要:本文比較了現(xiàn)有各種多引擎機(jī)器翻譯方法的優(yōu)缺點(diǎn),提出了基于微引擎流水線的機(jī)器翻譯系統(tǒng)結(jié)構(gòu),詳細(xì)介紹了有關(guān)的數(shù)據(jù)結(jié)構(gòu)和算法。這種結(jié)構(gòu)的優(yōu)點(diǎn)在于在部件層次上實(shí)現(xiàn)多種算法的并存,通過(guò)對(duì)微引擎的增刪和流水線結(jié)構(gòu)的調(diào)整可以方便地嘗試各種機(jī)器翻譯方法的組合,而不需要修改系統(tǒng)的整體算法。文章最后介紹了這種機(jī)器翻譯系統(tǒng)結(jié)構(gòu)在面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)中的具體實(shí)現(xiàn)
2、,給出了實(shí)驗(yàn)數(shù)據(jù),并進(jìn)行了總結(jié)。摘要:多引擎機(jī)器翻譯 微引擎流水線1 引言由于各種不同的機(jī)器翻譯方法各有特長(zhǎng),也各有缺點(diǎn),沒(méi)有哪一種單一的機(jī)器翻譯方法能夠達(dá)到理想的效果,因此采用多引擎的方法,希望各種方法能夠互補(bǔ),以達(dá)到總體效果的最優(yōu),就成為了一種自然的選擇。目前多引擎的機(jī)器翻譯目前已經(jīng)被廣泛采用,而實(shí)踐證明這種方法也確實(shí)有效。目前常用的多引擎機(jī)器翻譯系統(tǒng)主要有三種結(jié)果形式,我們稱之為并行的結(jié)構(gòu)、串行的結(jié)構(gòu)和混合的結(jié)構(gòu)。在并行結(jié)構(gòu)的多引擎機(jī)器翻譯系統(tǒng)中,各個(gè)翻譯引擎各自獨(dú)立地對(duì)輸入的文本進(jìn)行翻譯,并將翻譯的結(jié)果放到一個(gè)統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)中,最后由一個(gè)譯文選擇模塊選擇出最好的譯文組合。Frederk
3、ing1提出了一種典型的并行多引擎機(jī)器翻譯的方法。該方法基本思想描述如下:1. 多個(gè)的翻譯引擎同時(shí)對(duì)輸入的句子進(jìn)行翻譯,不僅僅對(duì)整個(gè)句子進(jìn)行翻譯,而且對(duì)句子的任何一個(gè)片斷也可以給出相應(yīng)的譯文,同時(shí)對(duì)這些譯文片斷給出一個(gè)評(píng)分。2. 各個(gè)翻譯引擎共享一個(gè)類似線圖的數(shù)據(jù)結(jié)構(gòu),根據(jù)其源文片斷所處的位置,將這些譯文片斷放在這個(gè)公共的線圖結(jié)構(gòu)之中。3. 對(duì)各個(gè)引擎給出的片斷的評(píng)分進(jìn)行一致化處理,使之具有可比較性。4. 采用一個(gè)動(dòng)態(tài)規(guī)劃算法(稱為Chart Walk算法)選擇一組剛好能覆蓋整個(gè)源文輸入句子,同時(shí)又具有最高總分的譯文片斷,作為最后輸出的譯文。系統(tǒng)結(jié)構(gòu)如圖1所示:圖1:并行多引擎機(jī)器翻譯系統(tǒng)結(jié)構(gòu)
4、Hogan2通過(guò)一個(gè)簡(jiǎn)單的實(shí)驗(yàn),證明這種方法確實(shí)可以得到比任何一種單一的方法都更高的準(zhǔn)確率。美國(guó)卡內(nèi)基梅隆大學(xué)等單位研制的一個(gè)著名多引擎的西班牙英語(yǔ)的機(jī)器翻譯系統(tǒng)PANGLOSS系統(tǒng)就是采用的這種結(jié)構(gòu)3。該系統(tǒng)總共包括三個(gè)翻譯引擎:一個(gè)基于轉(zhuǎn)換的翻譯引擎、一個(gè)基于知識(shí)(中間語(yǔ)言)的翻譯引擎和一個(gè)基于實(shí)例的翻譯引擎。其系統(tǒng)結(jié)構(gòu)如圖2所示: Source TextTransfer MTEBMTKBMTChartELMCAMT Post-EditHA Target TextFA Target Text圖2:Pangloss多引擎機(jī)器翻譯系統(tǒng)的結(jié)構(gòu)在很多多引擎的機(jī)器翻譯系統(tǒng)中,并不是采用完全獨(dú)立的多個(gè)
5、翻譯引擎對(duì)源文進(jìn)行翻譯,而是在機(jī)器翻譯的不同階段采用不同的算法,例如,在句法階段采用基于規(guī)則的方法,在轉(zhuǎn)換階段采用基于實(shí)例的方法,而在生成階段采用基于統(tǒng)計(jì)的方法。我們把這一種結(jié)構(gòu)稱為串行的多引擎機(jī)器翻譯結(jié)構(gòu)。在這種情況下,每個(gè)引擎實(shí)際上是翻譯系統(tǒng)的一個(gè)部件,并不獨(dú)立完成翻譯任務(wù)45。還有很多系統(tǒng)采用的是一種混合的結(jié)構(gòu),并行中有串行(并行的多個(gè)翻譯引擎之一又采用串行的多引擎結(jié)構(gòu)),串行中有并行(串行的多個(gè)翻譯部件之一又采用多個(gè)組件并行),形成一種復(fù)雜的體系結(jié)構(gòu)。并行的機(jī)器翻譯結(jié)構(gòu)各個(gè)翻譯引擎的顆粒度非常大,引擎之間的結(jié)合非常松散,一個(gè)翻譯引擎無(wú)法引用另一個(gè)翻譯引擎的中間結(jié)果,這嚴(yán)重限制了整個(gè)系統(tǒng)
6、性能的提高。因此,采用這種方法的系統(tǒng)實(shí)際上比較少見(jiàn),大多數(shù)多引擎的機(jī)器翻譯系統(tǒng)實(shí)際上都是采用后兩種結(jié)構(gòu)。不過(guò),并行的多引擎機(jī)器翻譯方法有一個(gè)突出的優(yōu)點(diǎn)也是另外兩種方法所不具備的,就是其易擴(kuò)充性。在這種結(jié)構(gòu)下,各個(gè)翻譯引擎的程序接口完全相同,添加和刪除新的翻譯引擎變得非常簡(jiǎn)單,這使得程序的擴(kuò)充變得非常容易。而在串行和混合的多引擎機(jī)器翻譯結(jié)構(gòu)中,各個(gè)翻譯引擎(部件)由于實(shí)現(xiàn)的功能不盡相同,各個(gè)翻譯引擎之間存在復(fù)雜的通訊關(guān)系,翻譯引擎無(wú)法采用統(tǒng)一的程序接口,這使得程序的擴(kuò)充變得非常困難。由德國(guó)教育與研究部(BMBF)資助開(kāi)發(fā)的Verbmobil語(yǔ)音機(jī)器翻譯系統(tǒng)就是一個(gè)典型的混合結(jié)構(gòu)的多引擎機(jī)器翻譯系
7、統(tǒng)6。該系統(tǒng)規(guī)模非常龐大,整個(gè)系統(tǒng)的研制為期8年(1993-2000),涉及三種語(yǔ)言(德語(yǔ)、英語(yǔ)、日語(yǔ))的雙向翻譯。世界三大洲的31個(gè)研究機(jī)構(gòu)、369名科學(xué)家和919名學(xué)生(碩士生、博士生和博士后)參與了這個(gè)項(xiàng)目的研究。系統(tǒng)采用的技術(shù)也非常龐雜,語(yǔ)音處理領(lǐng)域和自然語(yǔ)言處理領(lǐng)域中常見(jiàn)各種技術(shù)都在這個(gè)系統(tǒng)中有所反映。整個(gè)系統(tǒng)由69個(gè)互相交互的模塊構(gòu)成。其中用到的自然語(yǔ)言處理技術(shù)包括:組塊分析、概率LR分析、HPSG分析、對(duì)話行為(Dialog Act)分析、基于統(tǒng)計(jì)的翻譯、基于子串(substring)的翻譯、基于模板的翻譯、基于模板的轉(zhuǎn)換、語(yǔ)義分析、上下文相關(guān)歧義的消解、基于規(guī)劃的話語(yǔ)生成,等等
8、。為了解決翻譯引擎之間通訊的問(wèn)題,Verbmobil系統(tǒng)采用一種多黑板結(jié)構(gòu)用于模塊之間的數(shù)據(jù)交互,模塊之間不能直接通信。黑板結(jié)構(gòu)還有利于各個(gè)模塊之間的并行執(zhí)行??偣膊捎昧?98個(gè)黑板結(jié)構(gòu)用于69個(gè)不同模塊之間的通訊。一種叫做VIT(Verbmobil Interface Terms)的數(shù)據(jù)結(jié)構(gòu)在中心黑板的深層處理中用作深層的語(yǔ)義表示形式。該系統(tǒng)的整體結(jié)構(gòu)如圖3所示??梢钥吹剑捎诤诎宓脑O(shè)定是比較隨意的,整個(gè)系統(tǒng)的復(fù)雜程度依然很高,模塊的劃分還不是非常清晰,系統(tǒng)的可擴(kuò)充性也不是很好。圖3:Verbmobil語(yǔ)音機(jī)器翻譯系統(tǒng)結(jié)構(gòu)2 微引擎流水線的機(jī)器翻譯系統(tǒng)結(jié)構(gòu) “面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”
9、是國(guó)家重點(diǎn)基礎(chǔ)研究項(xiàng)目(973)下的一個(gè)子課題78。在該系統(tǒng)中,我們?cè)O(shè)計(jì)了一種“基于微引擎流水線的機(jī)器翻譯系統(tǒng)結(jié)構(gòu)”。這種結(jié)構(gòu)本質(zhì)上也是一種混合的多引擎機(jī)器翻譯系統(tǒng)結(jié)構(gòu)。與一般的混合多引擎結(jié)構(gòu)不同之處在于,我們?yōu)槊恳粋€(gè)機(jī)器翻譯引擎(我們稱為微引擎)定義了統(tǒng)一的幾類接口,并給出了清晰的引擎調(diào)度算法,即總體翻譯算法。微引擎的增加、減少和修改都變得非常簡(jiǎn)單,并且一個(gè)微引擎的調(diào)整不會(huì)對(duì)其他微引擎的算法和總體翻譯算法造成干擾,這樣,系統(tǒng)的擴(kuò)充變得非常容易。2.1 微引擎流水線的程序模塊結(jié)構(gòu)一個(gè)微引擎流水線的程序模塊結(jié)構(gòu)由以下一個(gè)七元組構(gòu)成: ,, , 其中:是一個(gè)“識(shí)別器(Recognizer)”的集合
10、;:是一個(gè)“選擇器(Selector)”的集合;:是一個(gè)“轉(zhuǎn)換器(Transferror)”的集合;:是一個(gè)“生成器(Generator)”的集合;:是一個(gè)向量:12n,其中iRS,1in;:是一個(gè)向量:12m;其中jG,1jm;:是一個(gè)RT的映射,即對(duì)任意rR,存在唯一的tT,使得t =(r);以上識(shí)別器(Recognizer)、選擇器(Selector)、轉(zhuǎn)換器(Transferror)、生成器(Generator)統(tǒng)稱為微引擎(Micro-Engine)。是一個(gè)由識(shí)別器和選擇器組成的流水線,稱為分析流水線;是一個(gè)由生成器組成的流水線,稱為生成流水線。整個(gè)微引擎流水線結(jié)構(gòu)如圖4所示:圖:微
11、引擎流水線機(jī)器翻譯系統(tǒng)結(jié)構(gòu)圖源文文本識(shí)別器識(shí)別器識(shí)別器選擇器部分源文樹(shù)部分源文樹(shù)完全源文樹(shù)轉(zhuǎn)換器轉(zhuǎn)換器生成器選擇器轉(zhuǎn)換器生成器生成器譯文文本譯文樹(shù)分析流水線生成流水線識(shí)別器部分源文樹(shù)轉(zhuǎn)換器轉(zhuǎn)換器轉(zhuǎn)換器圖4:微引擎流水線機(jī)器翻譯系統(tǒng)結(jié)構(gòu)由圖中可以看出,識(shí)別流水線結(jié)構(gòu)較為復(fù)雜,由一系列識(shí)別器和選擇器構(gòu)成,其中每個(gè)識(shí)別器又對(duì)應(yīng)于一個(gè)轉(zhuǎn)換器(分析器可以共享轉(zhuǎn)換器)。生成流水線結(jié)構(gòu)較為簡(jiǎn)單,單純由一系列生成器構(gòu)成。2.2 微引擎流水線的公共數(shù)據(jù)結(jié)構(gòu)微引擎流水線的公共數(shù)據(jù)結(jié)構(gòu)總共包括兩類:一類是線圖結(jié)構(gòu),一類是句法樹(shù)結(jié)構(gòu)。其中句法樹(shù)結(jié)構(gòu)又分為源文句法樹(shù)和譯文句法樹(shù)。線圖結(jié)構(gòu)如圖5所示:圖5:微引擎流水線的
12、公共數(shù)據(jù)結(jié)構(gòu):線圖線圖中涉及的數(shù)據(jù)結(jié)構(gòu)定義見(jiàn)表1:SrcSection線圖結(jié)構(gòu)中相鄰兩個(gè)詞語(yǔ)節(jié)點(diǎn)之間的一段文本,是句子中可能構(gòu)成詞的最小單位,一般是一個(gè)漢字,或一串?dāng)?shù)字,或一個(gè)外文單詞。SrcSectionTable是一個(gè)由SrcSection組成的數(shù)組。SrcNode線圖中的弧,或句法樹(shù)中的結(jié)點(diǎn),可以是一個(gè)詞,也可以是一個(gè)短語(yǔ)或句子;每一個(gè)SrcNode由首尾兩個(gè)SrcSection確定其位置。SrcPackage位置相同的所有SrcNode構(gòu)成一個(gè)結(jié)點(diǎn)包,存放在一個(gè)SrcPackage的數(shù)據(jù)結(jié)構(gòu)中。SrcPackageTable是一個(gè)由SrcPackage組成的數(shù)組,通過(guò)函數(shù):
13、 getPackage(int first,int last)可以存取任何指定位置的SrcPackage,參數(shù)first和last用于指定首尾SrcSection序號(hào)。SrcChart由一個(gè)SrcSectionTable和一個(gè)SrcPackageTable組成。表1:線圖結(jié)構(gòu)的數(shù)據(jù)說(shuō)明同時(shí),各SrcNode通過(guò)子結(jié)點(diǎn)關(guān)系構(gòu)成源文句法樹(shù)。源文句法樹(shù)經(jīng)過(guò)轉(zhuǎn)換生成就得到了譯文句法樹(shù)。其形式與源文句法樹(shù)類似。2.3 各種微引擎的程序接口和功能說(shuō)明1. 識(shí)別器(Recognizer)識(shí)別器需要實(shí)現(xiàn)兩個(gè)函數(shù):函數(shù):初始化(Initialize)輸入:線圖結(jié)構(gòu)(SrcChart)輸出:無(wú)說(shuō)明:為識(shí)別操作準(zhǔn)備
14、初始數(shù)據(jù),每個(gè)識(shí)別器只需執(zhí)行一次。函數(shù):識(shí)別(Recognize)輸入:線圖結(jié)構(gòu)(SrcChart)輸出:一個(gè)源文結(jié)點(diǎn)(SrcNode)說(shuō)明:從線圖結(jié)構(gòu)中識(shí)別出一個(gè)結(jié)點(diǎn)。此操作被反復(fù)執(zhí)行。2. 選擇器(Selector)選擇器需要實(shí)現(xiàn)兩個(gè)函數(shù):函數(shù):初始化(Initialize)輸入:線圖結(jié)構(gòu)(SrcChart)輸出:無(wú)說(shuō)明:為選擇操作準(zhǔn)備初始數(shù)據(jù),每個(gè)選擇器只需執(zhí)行一次;函數(shù):選擇(Select)輸入:線圖結(jié)構(gòu)(SrcChart)輸出:一個(gè)源文結(jié)點(diǎn)表(list<SrcNodes>)說(shuō)明:從線圖結(jié)構(gòu)中選擇一些結(jié)點(diǎn)放入輸出的源文結(jié)點(diǎn)表中,凡是不在該表中的結(jié)點(diǎn)將在后續(xù)的操作中不再有效(
15、被剪枝)。要注意的是,選擇器并不要求輸出唯一的結(jié)果,暫時(shí)無(wú)法解決的歧義結(jié)點(diǎn)完全可以都保留下來(lái),留給以后處理;3. 轉(zhuǎn)換器(Transferror)轉(zhuǎn)換器需要實(shí)現(xiàn)兩個(gè)函數(shù):函數(shù):初始化(Initialize)輸入:一個(gè)源文結(jié)點(diǎn)(SrcNode)輸出:無(wú)說(shuō)明:為轉(zhuǎn)換操作準(zhǔn)備數(shù)據(jù)。由于轉(zhuǎn)換所需的與結(jié)點(diǎn)有關(guān)的數(shù)據(jù)都存放在SrcNode(或其派生類)中,因此此操作需對(duì)每個(gè)SrcNode執(zhí)行一次。函數(shù):轉(zhuǎn)換(Transfer)輸入:一個(gè)源文結(jié)點(diǎn)(SrcNode)輸出:一個(gè)譯文結(jié)點(diǎn)(TgtNode)說(shuō)明:對(duì)以輸入的源文結(jié)點(diǎn)為根結(jié)點(diǎn)的源文子樹(shù)進(jìn)行轉(zhuǎn)換,得到一個(gè)譯文子樹(shù),并輸出譯文子樹(shù)的根結(jié)點(diǎn)。此函數(shù)可通過(guò)遞歸
16、調(diào)用,實(shí)現(xiàn)對(duì)其子孫結(jié)點(diǎn)的轉(zhuǎn)換。4. 生成器(Generator)生成器需要實(shí)現(xiàn)兩個(gè)函數(shù):函數(shù):初始化(Initialize)輸入:一個(gè)譯文結(jié)點(diǎn)(TgtNode)輸出:無(wú)說(shuō)明:為生成操作準(zhǔn)備數(shù)據(jù)。此操作需對(duì)每個(gè)TgtNode執(zhí)行一次。函數(shù):生成(Generate)輸入:一個(gè)譯文結(jié)點(diǎn)(TgtNode)輸出:另一個(gè)譯文結(jié)點(diǎn)(TgtNode)說(shuō)明:對(duì)以輸入的譯文結(jié)點(diǎn)為根結(jié)點(diǎn)的譯文子樹(shù)進(jìn)行某種特定類型生成操作,并輸出所得的新譯文子樹(shù)的根結(jié)點(diǎn)。2.4 總體翻譯算法對(duì)于微引擎流水線結(jié)構(gòu)的機(jī)器翻譯系統(tǒng)來(lái)說(shuō),總體翻譯算法是固定的,不需要修改。對(duì)于翻譯系統(tǒng)的調(diào)整主要體現(xiàn)在微引擎的實(shí)現(xiàn)算法和流水線的安排上。整個(gè)翻譯
17、算法分為分析、轉(zhuǎn)換、生成三個(gè)步驟。1. 分析算法BEGINREPEAT 依次從分析流水線中取一個(gè)微引擎WHILE 該微引擎不為空IF 該微引擎是識(shí)別器THEN調(diào)用該識(shí)別器的初始化函數(shù)REPEAT 調(diào)用該識(shí)別器的識(shí)別函數(shù)IF 識(shí)別出的結(jié)點(diǎn)覆蓋整個(gè)輸入文本THEN 返回成功,將該結(jié)點(diǎn)置為源文根結(jié)點(diǎn)ELSE 將識(shí)別出的結(jié)點(diǎn)加入到線圖結(jié)構(gòu)中ENDIFENDREPEATELSE 調(diào)用該選擇器的初始化函數(shù)調(diào)用該選擇器的選擇函數(shù)根據(jù)返回的結(jié)點(diǎn)表重新構(gòu)造線圖結(jié)構(gòu),刪除不在表中的結(jié)點(diǎn)ENDIFENDREPEAT返回失敗END2. 轉(zhuǎn)換算法BEGIN取源文根結(jié)點(diǎn)的識(shí)別器取該識(shí)別器對(duì)應(yīng)的轉(zhuǎn)換器調(diào)用該轉(zhuǎn)換器的初始化函
18、數(shù),對(duì)源文結(jié)構(gòu)樹(shù)根結(jié)點(diǎn)進(jìn)行轉(zhuǎn)換初始化調(diào)用該轉(zhuǎn)換器的轉(zhuǎn)換函數(shù),對(duì)源文結(jié)構(gòu)樹(shù)進(jìn)行轉(zhuǎn)換返回得到的譯文結(jié)點(diǎn),作為譯文結(jié)構(gòu)樹(shù)根結(jié)點(diǎn)END3. 生成算法BEGINREPEAT 依次從生成流水線中取一個(gè)生成器WHILE 該生成器不為空調(diào)用該生成器的初始化函數(shù),對(duì)譯文結(jié)構(gòu)樹(shù)根結(jié)點(diǎn)進(jìn)行生成初始化調(diào)用該生成器的生成函數(shù),對(duì)譯文結(jié)構(gòu)樹(shù)進(jìn)行生成將返回的譯文結(jié)點(diǎn)作為新的譯文結(jié)構(gòu)樹(shù)根結(jié)點(diǎn)ENDREPEAT返回譯文根結(jié)點(diǎn)END可以看到,在分析過(guò)程中,各個(gè)識(shí)別器依次對(duì)輸入文本進(jìn)行處理,由于各個(gè)識(shí)別器采用的算法不同,各種算法取長(zhǎng)補(bǔ)短,盡可能得到一個(gè)較好的分析結(jié)果。而選擇器用于對(duì)過(guò)多的識(shí)別結(jié)果進(jìn)行剪枝排歧,以減少搜索的空間。在轉(zhuǎn)
19、換算法中,采用的方法是自頂向下的一遍掃描。不同的轉(zhuǎn)換器用于對(duì)不同類型的識(shí)別器產(chǎn)生的結(jié)點(diǎn)進(jìn)行轉(zhuǎn)換。在生成算法中,采用的方法是自頂向下的多遍掃描。每一個(gè)生成器都要對(duì)整個(gè)譯文結(jié)構(gòu)樹(shù)進(jìn)行一次掃描。3 具體實(shí)現(xiàn)方案目前在我們現(xiàn)有的“面向新聞?lì)I(lǐng)域的機(jī)器翻譯系統(tǒng)”中,已經(jīng)實(shí)現(xiàn)了這種基于微引擎流水線的機(jī)器翻譯系統(tǒng)結(jié)構(gòu)。其實(shí)現(xiàn)方案如下:分析流水線依次由以下識(shí)別器構(gòu)成:1. 詞法分析識(shí)別器:一個(gè)融漢語(yǔ)詞語(yǔ)切分、未定義詞識(shí)別、詞性標(biāo)注為一體的詞法分析模塊;2. 擴(kuò)充詞典識(shí)別器:我們綜合了幾十部詞典,采用自動(dòng)整理加少量人工校對(duì)的辦法,合成了一部大規(guī)模的漢英詞典10。對(duì)于詞法分析識(shí)別器沒(méi)有識(shí)別出的詞或短語(yǔ),可以利用這部
20、詞典作為補(bǔ)充;3. 短語(yǔ)庫(kù)識(shí)別器:利用一個(gè)短語(yǔ)庫(kù)識(shí)別句子中的短語(yǔ);4. 基于規(guī)則的識(shí)別器:利用一套句法分析規(guī)則和線圖分析算法識(shí)別句子中的短語(yǔ);5. 軟失敗識(shí)別器:在無(wú)法將輸入句子分析得到一個(gè)完整的結(jié)點(diǎn)時(shí),使用軟失敗識(shí)別器將已有的結(jié)點(diǎn)盡可能組合成一個(gè)覆蓋整個(gè)句子的結(jié)點(diǎn)。轉(zhuǎn)換器包括以下幾種:1. 核心詞典轉(zhuǎn)換器:根據(jù)核心詞典進(jìn)行轉(zhuǎn)換;2. 擴(kuò)充詞典轉(zhuǎn)換器:根據(jù)擴(kuò)充詞典進(jìn)行轉(zhuǎn)換;3. 中國(guó)人名轉(zhuǎn)換器:中國(guó)人名的翻譯;4. 中國(guó)地名轉(zhuǎn)換器:中國(guó)地名的翻譯;5. 譯名轉(zhuǎn)換器:譯名的翻譯;6. 數(shù)詞轉(zhuǎn)換器:數(shù)詞的翻譯;7. 短語(yǔ)庫(kù)轉(zhuǎn)換器:根據(jù)短語(yǔ)庫(kù)進(jìn)行轉(zhuǎn)換;8. 基于規(guī)則的轉(zhuǎn)換器:根據(jù)轉(zhuǎn)換規(guī)則進(jìn)行轉(zhuǎn)換;9
21、. 軟失敗轉(zhuǎn)換器:對(duì)軟失敗識(shí)別器產(chǎn)生的結(jié)點(diǎn)進(jìn)行轉(zhuǎn)換。生成流水線依次由以下生成器構(gòu)成:1. 基于規(guī)則的結(jié)構(gòu)生成器:根據(jù)原有基于規(guī)則的機(jī)器翻譯系統(tǒng)中的結(jié)構(gòu)生成模塊改造而來(lái),采用一種基于合一的語(yǔ)法形式進(jìn)行英語(yǔ)句法結(jié)構(gòu)的調(diào)整,主要進(jìn)行局部詞序的調(diào)整和根據(jù)時(shí)態(tài)和語(yǔ)態(tài)添加助動(dòng)詞;2. 基于規(guī)則的詞語(yǔ)生成器:生成英語(yǔ)詞語(yǔ)的變形,包括動(dòng)詞的分詞形式和動(dòng)名詞形式、名詞復(fù)數(shù)形式、形容詞比較級(jí)和最高級(jí)等等??梢钥吹?,目前的微引擎流水線結(jié)構(gòu)還是比較簡(jiǎn)單的,主要是在已有的基于規(guī)則的機(jī)器翻譯系統(tǒng)基礎(chǔ)上擴(kuò)充整理而成。也還沒(méi)有用到選擇器。4 實(shí)驗(yàn)結(jié)果及分析這個(gè)系統(tǒng)的基礎(chǔ)是我們?cè)乳_(kāi)發(fā)的一個(gè)基于合一語(yǔ)法的機(jī)器翻譯系統(tǒng)劉群,19
22、97。在現(xiàn)在這個(gè)基于微引擎流水線的機(jī)器翻譯系統(tǒng)中,原先的機(jī)器翻譯系統(tǒng)被拆分成若干個(gè)微引擎,并和新增加的微引擎合成了一個(gè)整體。我們利用了一個(gè)美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)開(kāi)發(fā)的機(jī)器翻譯自動(dòng)評(píng)測(cè)程序來(lái)對(duì)我們的系統(tǒng)在不同的微引擎組合情況下的翻譯結(jié)果進(jìn)行了測(cè)試。NIST的自動(dòng)評(píng)測(cè)系統(tǒng)源于IBM在其機(jī)器翻譯自動(dòng)評(píng)測(cè)程序BLEU中提出的基于N元語(yǔ)法的機(jī)器翻譯自動(dòng)評(píng)測(cè)的思想9。其基本設(shè)想是首先請(qǐng)多位翻譯人員(一般至少4位)對(duì)被測(cè)試的語(yǔ)料進(jìn)行翻譯,然后將機(jī)器翻譯的譯文跟這些人工翻譯得到的參考譯文進(jìn)行比較,計(jì)算機(jī)器譯文中的單詞、2元單詞組、3元單詞組、N元單詞組在參考譯文中出現(xiàn)的比例,從而得到對(duì)機(jī)器譯文的
23、評(píng)價(jià)。NIST對(duì)BLEU的改進(jìn)主要是對(duì)每個(gè)N元語(yǔ)法根據(jù)其所包含的信息量進(jìn)行了加權(quán),從而使得測(cè)試系統(tǒng)對(duì)不同質(zhì)量的譯文比NIST具有更好的區(qū)分能力 關(guān)于NIST評(píng)測(cè)系統(tǒng)的詳情請(qǐng)?jiān)L問(wèn)網(wǎng)站:/speech/tests/mt,上面有未正式發(fā)表的論文:Automatic evaluation of Machine Translation Quality: Using n-gram Co-occurence Statistics, Research Report for NIST MT Evaluation和相關(guān)的測(cè)試軟件(用Perl語(yǔ)言編寫(xiě))。表2是我們利用NIST的測(cè)
24、試程序,對(duì)于不同的微引擎組合情況下,對(duì)機(jī)器翻譯系統(tǒng)產(chǎn)生的譯文的測(cè)試結(jié)果:ExDict Transferor used for SegTag TecognizerPhraseRecognizer & TransferorExDictRecognizer & TransferorRuleBasedRecognizer & TransferorTimeNIST ScorexXxx32931725.8697xXx1036095.4669xXx9625945.7706xX972505.2793xxx33866725.8351xx431105.4073xx6665165.6695x
25、275155.1449Xxx33978285.4332Xx967975.0443Xx9061875.3243X979374.8343xx32249685.3866x525164.9869x6588595.2121361724.6993表2:各種微引擎組合情況下的NIST測(cè)試結(jié)果上表中,第一列如果沒(méi)有選中(對(duì)應(yīng)單元格為空),表示只將切分標(biāo)注產(chǎn)生的詞送到核心詞典轉(zhuǎn)換器進(jìn)行轉(zhuǎn)換,而不送到擴(kuò)充詞典轉(zhuǎn)換器,如果選中(對(duì)應(yīng)單元格為x),表示將切分標(biāo)注產(chǎn)生的詞,在通過(guò)核心詞典轉(zhuǎn)換器進(jìn)行轉(zhuǎn)換失敗時(shí),送到擴(kuò)充詞典轉(zhuǎn)換器進(jìn)行轉(zhuǎn)換;第二列表示是否使用短語(yǔ)庫(kù)識(shí)別引擎和短語(yǔ)庫(kù)轉(zhuǎn)換引擎;第三列表示是否使用擴(kuò)充詞典識(shí)別引擎
26、和擴(kuò)充詞典轉(zhuǎn)換引擎;第四列表示是否使用規(guī)則識(shí)別引擎和規(guī)則轉(zhuǎn)換引擎。最后兩列分別是翻譯時(shí)間和NIST評(píng)分。從上面的結(jié)果可以看到,僅使用一部核心詞典和漢語(yǔ)切分標(biāo)注程序,結(jié)果評(píng)分即可達(dá)到4.6993。僅加入規(guī)則引擎,結(jié)果評(píng)分可達(dá)到5.2121,僅加入擴(kuò)充詞典和短語(yǔ)庫(kù),不使用規(guī)則引擎,結(jié)果評(píng)分可達(dá)到5.4669,加入全部微引擎,結(jié)果評(píng)分可達(dá)到5.8697。這個(gè)結(jié)果告訴我們,通過(guò)擴(kuò)充詞典導(dǎo)致的翻譯效果改善甚至?xí)笥诩尤敕g規(guī)則導(dǎo)致的翻譯效果改善,而綜合使用所有引擎,翻譯效果有很大提高。通過(guò)這個(gè)實(shí)驗(yàn)可以看到,在微引擎流水線的機(jī)器翻譯結(jié)構(gòu)下,我們可以方便地實(shí)現(xiàn)翻譯微引擎的自由組合,通過(guò)對(duì)不同組合情況下的結(jié)果
27、進(jìn)行評(píng)分,我們很容易了解各個(gè)微引擎在系統(tǒng)中所起到的作用,這特別有利于我們對(duì)各種翻譯算法進(jìn)行取舍和調(diào)整。5 總結(jié)在本文中,我們提出并實(shí)現(xiàn)了一種微引擎流水線的機(jī)器翻譯體系結(jié)構(gòu),其優(yōu)點(diǎn)如下:1. 在機(jī)器翻譯的每個(gè)階段,都可以采用多個(gè)算法不同的微引擎,以達(dá)到取長(zhǎng)補(bǔ)短的效果;2. 句法分析階段,將分析器和選擇器的功能分開(kāi);分析器只關(guān)注可能性,無(wú)需考慮與其他結(jié)點(diǎn)的沖突;選擇器專門(mén)處理結(jié)點(diǎn)間的沖突,這種分工有助于在系統(tǒng)設(shè)計(jì)中對(duì)排歧問(wèn)題進(jìn)行更全面考慮,更有益于歧義沖突的解決;3. 每個(gè)微引擎的編程接口非常清晰,微引擎設(shè)計(jì)者在了解自己的任務(wù)分配的情況下,可以著重關(guān)注于算法本身,而無(wú)需考慮與其他模塊的交互,這樣就
28、把復(fù)雜的機(jī)器翻譯問(wèn)題分解成了一系列可以獨(dú)立處理的小問(wèn)題,化繁為簡(jiǎn),有助于對(duì)機(jī)器翻譯系統(tǒng)進(jìn)行團(tuán)隊(duì)式開(kāi)發(fā),有利于探索機(jī)器翻譯中的新算法和新思路;4. 采用面向?qū)ο蟮木幊谭椒ǎ_(kāi)發(fā)一個(gè)新的微引擎只需在已有的微引擎基類的基礎(chǔ)上派生出新的子類,可靠性高,易于實(shí)現(xiàn);5. 整個(gè)的機(jī)器翻譯算法是固定的,任何時(shí)候都無(wú)需改變;通過(guò)設(shè)計(jì)新的微引擎和調(diào)整微引擎流水線的結(jié)構(gòu),可以實(shí)現(xiàn)對(duì)翻譯系統(tǒng)功能的任意裁減,以產(chǎn)生不同的輸出結(jié)果(如產(chǎn)生切分標(biāo)注結(jié)果的輸出、句法分析結(jié)果的輸出等)。參考文獻(xiàn):1 Frederking R. and Nirenburg S., Three Heads are Better than One,
29、 In: Proceedings of the Fourth Conference on Applied Natural Language Processing (ANLP-94), Stuttgart, Germany, 1994, pages 95-1002 Hogan C. and Frederking R., An Evaluation of Multi-engine MT Architecture, In: Third Conference of the Association for Machine Translation in Americas (AMTA98), , Langh
30、orne, PA. USA, Oct. 1998, published as: Machine Translation and the Information Soup, Springer, pages 113-1233 Brown R. and Frederking R. Applying Statistical English Language Modeling to Symbolic Machine Translation. In: Proceedings of the Sixth International Conference on Theoretical and Methodolo
31、gical Issues in Machine Translation (TMI-95),. Leuven, Belgium. 1995, pages. 221-2394 Zhang Min, Choi Key-Sun, Multi-Engine Machine Translation: Accomplishment of MATES/CK System, Proceedings of TMI99, pages:228-2385 Hatzivassiloglou V. and Knight K., Unification-Based Glossing, In: Proc. Of 14th In
32、t. Joint Conf. Artificial Intelligence, 19956 Wahlster W., Mobile Speech-to-Speech Translation of Spontaneous Dialogs: An Overview of the Final Verbmobil System, In Wolfgang Wahlster eds., Verbmobil: Foundations of Speech-to-Speech Translation, Springer, 2000, ISBN 3-540-67783-6, pp 3-217 Liu Qun, C
33、hang Baobao, Zhan Weidong, Zhou Qiang, A News-oriented Chinese-English Machine Translation System, In: International Conference on Chinese Computing (ICCC2001), Singapore, 2001 8 Liu Qun,A Chinese-English Machine Translation System Based on Micro-engine Architecture,In: Chan Sin-Wai eds., Translatio
34、n and Information Technology, The Chinese University Press, Hong Kong, 2002, page 23-309 Papineni K., Roukos S., Ward T., Zhu Wei-Jing, Bleu: a Method for Automatic Evaluation of Machine Translation, IBM Research, RC22176 (W0109-022) Sep. 17, 200110 劉群,張彤,漢英機(jī)器翻譯系統(tǒng)擴(kuò)充詞典的建造,黃河燕主編,機(jī)器翻譯研究進(jìn)展(全國(guó)機(jī)器翻譯研討
35、會(huì)論文集),電子工業(yè)出版社,2002.11,第25-33頁(yè)Liu Qun, Zhang Tong, Construction of Chinese-English Expanded Dictionary for Machine Translation System, in Huang Heyan eds., Development on Machine Translation Research (Proceedings of National Symposium on Machine Translation), Publishing House of Electronics Industry,
36、 Nov. 2002, pages 25-33.Machine Translation Architecture based on Micro-Engine Pipeline LIU QunInstitute of Computing Technology, Chinese Academy of Sciences, Beijing 100080Institute of Computational Linguistics, Peking University, Beijing 100871liuqunAbstract:This paper surveys current approaches of multi-engine machine translation and propose a micro-engine pipeline machine translation architecture, giving the data structure and algorithm in detail. In such architecture several components with different algorithms are
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年高中歷史上學(xué)期第2周 專題五 現(xiàn)代中國(guó)的對(duì)外關(guān)系教學(xué)實(shí)錄 必修1
- 23月光曲第二課時(shí)教學(xué)設(shè)計(jì)-2024-2025學(xué)年六年級(jí)上冊(cè)語(yǔ)文統(tǒng)編版
- 27紀(jì)昌學(xué)射(教學(xué)設(shè)計(jì))2024-2025學(xué)年四年級(jí)上冊(cè)語(yǔ)文統(tǒng)編版
- 1 100以內(nèi)的加法和減法(三) (教學(xué)設(shè)計(jì))-2024-2025學(xué)年二年級(jí)上冊(cè)數(shù)學(xué)蘇教版
- 2016九年級(jí)化學(xué)下冊(cè) 第十單元 酸和堿教學(xué)實(shí)錄 新人教版
- A visit to the zoo(教學(xué)設(shè)計(jì))-2024-2025學(xué)年外研版(三起)英語(yǔ)六年級(jí)上冊(cè)
- 2024年五年級(jí)語(yǔ)文上冊(cè) 第六單元 19 父愛(ài)之舟教學(xué)實(shí)錄 新人教版
- 2024-2025學(xué)年高中歷史 專題五 走向世界的資本主義市場(chǎng) 一 開(kāi)辟文明交往的航線(4)教學(xué)教學(xué)實(shí)錄 人民版必修2
- 2023一年級(jí)數(shù)學(xué)下冊(cè) 一 100以內(nèi)數(shù)的認(rèn)識(shí)(綜合與實(shí)踐 有趣的數(shù) )教學(xué)實(shí)錄 西師大版
- 28 制作小臺(tái)燈 (教學(xué)設(shè)計(jì))-四年級(jí)科學(xué)上冊(cè)青島版(五四制)
- DB63∕T 1729-2019 地球化學(xué)樣品中鉑、鈀、釕、銠、鋨、銥的測(cè)定 锍鎳試金富集-電感耦合等離子體質(zhì)譜法
- 鑄件(原材料)材質(zhì)報(bào)告
- 焦慮抑郁自評(píng)量表(綜合版)
- 二手房屋買賣物品交接清單
- 十年土地革命戰(zhàn)爭(zhēng)97張課件
- 多元線性回歸模型-課件
- 農(nóng)產(chǎn)品質(zhì)量安全風(fēng)險(xiǎn)防范措施
- 濕式電除塵器-使用說(shuō)明書(shū)
- 金融服務(wù)營(yíng)銷PPT完整全套教學(xué)課件
- 2023年06月上海市浦東新區(qū)臨港新片區(qū)文員招考聘用筆試歷年難、易錯(cuò)考點(diǎn)試題含答案詳解
- 奉賢東部分區(qū)單元(FX3)地質(zhì)災(zāi)害危險(xiǎn)性評(píng)估報(bào)告
評(píng)論
0/150
提交評(píng)論