




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 人工智能與機(jī)器翻譯人工智能與機(jī)器翻譯機(jī)器翻譯部分機(jī)器翻譯部分 第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 機(jī)器翻譯的處理對象是自然語言,而人類機(jī)器翻譯的處理對象是自然語言,而人類對于語言認(rèn)知的過程還未研究清楚,因此,要對于語言認(rèn)知的過程還未研究清楚,因此,要實(shí)現(xiàn)理想、高質(zhì)量的機(jī)器翻譯至少目前還有較實(shí)現(xiàn)理想、高質(zhì)量的機(jī)器翻譯至少目前還有較大的距離。機(jī)器翻譯是大的距離。機(jī)器翻譯是21世紀(jì)要解決的科技難世紀(jì)要解決的科技難題之一,主要困難是自然語言在各個層次上的題之一,主要困難是自然語言在各個層次上的歧義性歧義性 。解決歧義問題很難從根本上突破,它。解決歧義問題很難從根本上突破,它將涉及到處理的難
2、度和翻譯的速度,翻譯的復(fù)將涉及到處理的難度和翻譯的速度,翻譯的復(fù)雜性,因此,尋求簡單的翻譯方法是一個重要雜性,因此,尋求簡單的翻譯方法是一個重要課題,它可以降低歧義處理難度,增加解決這課題,它可以降低歧義處理難度,增加解決這一科技難題的希望。一科技難題的希望。第第 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 自然語言的機(jī)器翻譯目前一般以句子為翻譯自然語言的機(jī)器翻譯目前一般以句子為翻譯單位。句子又分為句、短語、詞三個層次。分析單位。句子又分為句、短語、詞三個層次。分析階段一般分為詞法分析、句法分析、語義分析、階段一般分為詞法分析、句法分析、語義分析、語境分析、
3、語用分析等,其中以詞法分析和句法語境分析、語用分析等,其中以詞法分析和句法分析為主。分析為主。 面對這么多而復(fù)雜的分析模塊(機(jī)器翻譯中,面對這么多而復(fù)雜的分析模塊(機(jī)器翻譯中,每一種分析組成一個軟件模塊),面對這么龐大每一種分析組成一個軟件模塊),面對這么龐大的軟件系統(tǒng),研究者必須有清晰的思維、正確的的軟件系統(tǒng),研究者必須有清晰的思維、正確的切入點(diǎn),才可能把翻譯軟件設(shè)計得好一些,再好切入點(diǎn),才可能把翻譯軟件設(shè)計得好一些,再好一些?;谶@樣的認(rèn)識,本章將首先討論現(xiàn)有的一些?;谶@樣的認(rèn)識,本章將首先討論現(xiàn)有的機(jī)器翻譯方法,并把重點(diǎn)放在基于實(shí)例的機(jī)器翻機(jī)器翻譯方法,并把重點(diǎn)放在基于實(shí)例的機(jī)器翻譯上
4、。譯上。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 人作翻譯時,把一個源語言句子譯成目標(biāo)語言句子,涉及人作翻譯時,把一個源語言句子譯成目標(biāo)語言句子,涉及到四個基本操作:目標(biāo)語言單詞的檢索、調(diào)序、刪詞、增詞;機(jī)到四個基本操作:目標(biāo)語言單詞的檢索、調(diào)序、刪詞、增詞;機(jī)器翻譯系統(tǒng)的操作過程也不例外,有檢索、分析、轉(zhuǎn)換和生成的器翻譯系統(tǒng)的操作過程也不例外,有檢索、分析、轉(zhuǎn)換和生成的主要四個階段。這被稱為基于分析和轉(zhuǎn)換的機(jī)器翻譯系統(tǒng)。也被主要四個階段。這被稱為基于分析和轉(zhuǎn)換的機(jī)器翻譯系統(tǒng)。也被認(rèn)為是模擬人類翻譯活動最恰當(dāng)?shù)臋C(jī)制。認(rèn)為是模擬人類翻譯活動最恰當(dāng)?shù)臋C(jī)制。 基于分析和轉(zhuǎn)換的機(jī)器翻譯方法就是自動
5、實(shí)現(xiàn)源語言到目標(biāo)基于分析和轉(zhuǎn)換的機(jī)器翻譯方法就是自動實(shí)現(xiàn)源語言到目標(biāo)語言的轉(zhuǎn)換,它采取了一系列的分析和轉(zhuǎn)換的生成層次,使一個語言的轉(zhuǎn)換,它采取了一系列的分析和轉(zhuǎn)換的生成層次,使一個源語言句子經(jīng)過不同的中間表達(dá)形式,最終達(dá)到目標(biāo)語言句子的源語言句子經(jīng)過不同的中間表達(dá)形式,最終達(dá)到目標(biāo)語言句子的表示。其目的是盡可能地加深對源語言的理解,生成盡可能恰當(dāng)表示。其目的是盡可能地加深對源語言的理解,生成盡可能恰當(dāng)?shù)哪繕?biāo)語言形式。這種方法比較全面地體現(xiàn)了語言學(xué)知識在機(jī)器的目標(biāo)語言形式。這種方法比較全面地體現(xiàn)了語言學(xué)知識在機(jī)器翻譯中的應(yīng)用,是了解機(jī)器翻譯實(shí)現(xiàn)過程的非常合適的模式。翻譯中的應(yīng)用,是了解機(jī)器翻譯實(shí)
6、現(xiàn)過程的非常合適的模式。4 . 1 機(jī)器翻譯的四種實(shí)現(xiàn)方法機(jī)器翻譯的四種實(shí)現(xiàn)方法4 . 1 . 1 基于分析和轉(zhuǎn)換的機(jī)器翻譯方法基于分析和轉(zhuǎn)換的機(jī)器翻譯方法第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 在在“機(jī)器翻譯的常規(guī)步驟機(jī)器翻譯的常規(guī)步驟”實(shí)際上已經(jīng)慨略實(shí)際上已經(jīng)慨略的介紹了這一方法的全過程,這里再補(bǔ)充闡述一的介紹了這一方法的全過程,這里再補(bǔ)充闡述一些內(nèi)容:些內(nèi)容: 句子經(jīng)過分析階段之后,進(jìn)入轉(zhuǎn)換和生成階句子經(jīng)過分析階段之后,進(jìn)入轉(zhuǎn)換和生成階段。這兩者一般聯(lián)系得比較緊密,有時無法嚴(yán)格段。這兩者一般聯(lián)系得比較緊密,有時無法嚴(yán)格區(qū)分,因?yàn)檗D(zhuǎn)換到目標(biāo)語言也就是要生成目標(biāo)語區(qū)分,因?yàn)檗D(zhuǎn)換到目標(biāo)語
7、言也就是要生成目標(biāo)語言的詞匯、短語、句子。可以把句子結(jié)構(gòu)的轉(zhuǎn)換言的詞匯、短語、句子??梢园丫渥咏Y(jié)構(gòu)的轉(zhuǎn)換也就是源語言的句法樹轉(zhuǎn)換長合適的目標(biāo)語言對也就是源語言的句法樹轉(zhuǎn)換長合適的目標(biāo)語言對應(yīng)形式當(dāng)作轉(zhuǎn)換,而后續(xù)的許多處理都當(dāng)作生成應(yīng)形式當(dāng)作轉(zhuǎn)換,而后續(xù)的許多處理都當(dāng)作生成階段的處理步驟看待。階段的處理步驟看待。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 實(shí)質(zhì)上,機(jī)器翻譯方法對語言的處理就是實(shí)質(zhì)上,機(jī)器翻譯方法對語言的處理就是在兩種語言之間搭一座橋,實(shí)現(xiàn)一種語言到另在兩種語言之間搭一座橋,實(shí)現(xiàn)一種語言到另一種語言意義等價的轉(zhuǎn)換。它并非象自然語言一種語言意義等價的轉(zhuǎn)換。它并非象自然語言理解那樣只
8、是對一種語言的操作,只需作針對理解那樣只是對一種語言的操作,只需作針對一種語言的分析。作為一個機(jī)器翻譯系統(tǒng),它一種語言的分析。作為一個機(jī)器翻譯系統(tǒng),它既要考慮源語言的語法和語義規(guī)律,也要考慮既要考慮源語言的語法和語義規(guī)律,也要考慮目標(biāo)語言的這方面規(guī)律,忽略了任何一方都是目標(biāo)語言的這方面規(guī)律,忽略了任何一方都是不行的。也就是說,對于雙語互譯規(guī)律的發(fā)現(xiàn)不行的。也就是說,對于雙語互譯規(guī)律的發(fā)現(xiàn)和應(yīng)用才是機(jī)器翻譯最本質(zhì)的特征。所以,在和應(yīng)用才是機(jī)器翻譯最本質(zhì)的特征。所以,在詞、短語和句子這三個層次上尋找源語言的目詞、短語和句子這三個層次上尋找源語言的目標(biāo)語言翻譯的等價物是機(jī)器翻譯中轉(zhuǎn)換與生成標(biāo)語言翻譯
9、的等價物是機(jī)器翻譯中轉(zhuǎn)換與生成的任務(wù)。的任務(wù)。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 通常,機(jī)器翻譯的研究中將轉(zhuǎn)換看做整個翻譯過程中的一個階段。然而,在語義結(jié)構(gòu)上進(jìn)行轉(zhuǎn)換卻是一種好的方式。語義結(jié)構(gòu)可以是跨語言的,有能力同時應(yīng)用于分析和生成。另一方面,當(dāng)機(jī)器翻譯系統(tǒng)的翻譯語言對擴(kuò)展時,還可以應(yīng)用于多種不同的語言。但要注意,大規(guī)模的自然語言語義描述相當(dāng)復(fù)雜,因而在機(jī)器翻譯系統(tǒng)中的應(yīng)用往往會受到限制,難以采用這樣的語義表示作為轉(zhuǎn)換的基本結(jié)構(gòu)。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 一般情況下,分析以句法為主、語義一般情況下,分析以句法為主、語義為輔,正確的句法結(jié)構(gòu)轉(zhuǎn)換加正確的詞匯為輔,正
10、確的句法結(jié)構(gòu)轉(zhuǎn)換加正確的詞匯譯文可以從源語言向目標(biāo)語言傳遞完整的譯文可以從源語言向目標(biāo)語言傳遞完整的正確信息。因此,以句法結(jié)構(gòu)轉(zhuǎn)換附加上正確信息。因此,以句法結(jié)構(gòu)轉(zhuǎn)換附加上一定的語義信息,能夠構(gòu)成轉(zhuǎn)換的基本層一定的語義信息,能夠構(gòu)成轉(zhuǎn)換的基本層次。不足之處是:因?yàn)榫浞ǚ治龅慕Y(jié)果是次。不足之處是:因?yàn)榫浞ǚ治龅慕Y(jié)果是面向源語言的,而要生成合適的目標(biāo)語言面向源語言的,而要生成合適的目標(biāo)語言譯文,轉(zhuǎn)換部分常常引入許多目標(biāo)語言方譯文,轉(zhuǎn)換部分常常引入許多目標(biāo)語言方面的約束,使得轉(zhuǎn)換規(guī)則變得復(fù)雜了。面的約束,使得轉(zhuǎn)換規(guī)則變得復(fù)雜了。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 就標(biāo)準(zhǔn)的機(jī)器翻譯系統(tǒng)來說,
11、句子和短語就標(biāo)準(zhǔn)的機(jī)器翻譯系統(tǒng)來說,句子和短語層次的結(jié)構(gòu)轉(zhuǎn)換是機(jī)器翻譯轉(zhuǎn)換部分的研究重層次的結(jié)構(gòu)轉(zhuǎn)換是機(jī)器翻譯轉(zhuǎn)換部分的研究重點(diǎn)。通常使用轉(zhuǎn)換規(guī)則,就可以實(shí)現(xiàn)源語言句點(diǎn)。通常使用轉(zhuǎn)換規(guī)則,就可以實(shí)現(xiàn)源語言句法結(jié)構(gòu)到目標(biāo)語言句法結(jié)構(gòu)的轉(zhuǎn)換。這方面一法結(jié)構(gòu)到目標(biāo)語言句法結(jié)構(gòu)的轉(zhuǎn)換。這方面一般采用產(chǎn)生式方式的轉(zhuǎn)換規(guī)則形式:般采用產(chǎn)生式方式的轉(zhuǎn)換規(guī)則形式:S:S1+S2+SiT1+T2+Tj :T 上式理解為:上式理解為:S是是SL(源語言)的某個待(源語言)的某個待翻譯單位(句子、短語等等),翻譯單位(句子、短語等等),S1Si是是S中的中的下一級組成單位;對于下一級組成單位;對于S,如果滿足條件,
12、如果滿足條件,則,則TL(目標(biāo)語言)中有(目標(biāo)語言)中有T1Tj譯譯文構(gòu)成了相應(yīng)的等價物文構(gòu)成了相應(yīng)的等價物T。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 這樣的方法有兩個特點(diǎn):一是面向源這樣的方法有兩個特點(diǎn):一是面向源語言分析,因?yàn)樵凑Z言中的一個句子已經(jīng)語言分析,因?yàn)樵凑Z言中的一個句子已經(jīng)由句法、語義分析等階段分析完畢,生成由句法、語義分析等階段分析完畢,生成了關(guān)于源語言句子的某種中間表示,轉(zhuǎn)換了關(guān)于源語言句子的某種中間表示,轉(zhuǎn)換以這種源語言中間表示作為輸入;二是直以這種源語言中間表示作為輸入;二是直接轉(zhuǎn)換,即對于接轉(zhuǎn)換,即對于S表示,直接給出譯文形表示,直接給出譯文形式,一般不需要在目標(biāo)
13、語言內(nèi)再作進(jìn)一步式,一般不需要在目標(biāo)語言內(nèi)再作進(jìn)一步轉(zhuǎn)換,轉(zhuǎn)換,T1Tj可以直接包括目標(biāo)語言的詞可以直接包括目標(biāo)語言的詞匯,也可以是對應(yīng)于匯,也可以是對應(yīng)于S1Si的譯文組塊。的譯文組塊。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 上述方法稱為基于句法的轉(zhuǎn)換方法,上述方法稱為基于句法的轉(zhuǎn)換方法,因?yàn)橐驗(yàn)?S1+S2+Si一般來說就是源語言的一般來說就是源語言的的句法結(jié)構(gòu)表示;也可以稱為直接轉(zhuǎn)換方的句法結(jié)構(gòu)表示;也可以稱為直接轉(zhuǎn)換方法,因?yàn)閷τ诿總€源語言的翻譯組塊,都法,因?yàn)閷τ诿總€源語言的翻譯組塊,都馬上給出一個目標(biāo)語言組塊與之對應(yīng)。應(yīng)馬上給出一個目標(biāo)語言組塊與之對應(yīng)。應(yīng)該說,這種轉(zhuǎn)換方法符
14、合人的直覺認(rèn)識,該說,這種轉(zhuǎn)換方法符合人的直覺認(rèn)識,也能夠?qū)崿F(xiàn)。也能夠?qū)崿F(xiàn)。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 基于中間語言的翻譯方法是對源語言基于中間語言的翻譯方法是對源語言進(jìn)行分析以后產(chǎn)生一種稱為中間語言的表進(jìn)行分析以后產(chǎn)生一種稱為中間語言的表示形式,然后直接由這種中間語言的表示示形式,然后直接由這種中間語言的表示形式生成目標(biāo)語言。所謂中間語言就是自形式生成目標(biāo)語言。所謂中間語言就是自然語言的計算機(jī)表示形式的系統(tǒng)化,它試然語言的計算機(jī)表示形式的系統(tǒng)化,它試圖創(chuàng)造出一種獨(dú)立于各種自然語言,同時圖創(chuàng)造出一種獨(dú)立于各種自然語言,同時又能表示各種自然語言的人工語言。又能表示各種自然語言的
15、人工語言。4.1.2 基于中間語言的翻譯方法基于中間語言的翻譯方法第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 基于中間語言的機(jī)器翻譯方法主要有兩個優(yōu)點(diǎn)?;谥虚g語言的機(jī)器翻譯方法主要有兩個優(yōu)點(diǎn)。首先,獨(dú)立的中間表示形式為多語種之間的互譯的實(shí)首先,獨(dú)立的中間表示形式為多語種之間的互譯的實(shí)現(xiàn)提供了一種經(jīng)濟(jì)有效的途徑。假設(shè)要對現(xiàn)提供了一種經(jīng)濟(jì)有效的途徑。假設(shè)要對N種語言進(jìn)種語言進(jìn)行互譯,則有行互譯,則有N(N-1)個語言對。不同方向的翻譯是個語言對。不同方向的翻譯是不同的語言對。此時如果采用基于轉(zhuǎn)換的方法,因?yàn)椴煌恼Z言對。此時如果采用基于轉(zhuǎn)換的方法,因?yàn)榘岩环N語言翻譯成另一種語言都需要一個不同的
16、轉(zhuǎn)換把一種語言翻譯成另一種語言都需要一個不同的轉(zhuǎn)換機(jī)制(或模塊),所以機(jī)制(或模塊),所以N(N-1)個語言對共需要個語言對共需要N(N-1)個獨(dú)立的轉(zhuǎn)換機(jī)制。而采用中間語言的方法,由個獨(dú)立的轉(zhuǎn)換機(jī)制。而采用中間語言的方法,由于對每一種語言只需實(shí)現(xiàn)將該種語言翻譯成中間語言于對每一種語言只需實(shí)現(xiàn)將該種語言翻譯成中間語言和把中間語言翻譯成該種語言的目標(biāo)語言這樣兩個模和把中間語言翻譯成該種語言的目標(biāo)語言這樣兩個模塊,所以總共只需要塊,所以總共只需要2N個模塊。其次,中間語言不僅個模塊。其次,中間語言不僅是對基于中間語言的機(jī)器翻譯方法這一特定目的有意是對基于中間語言的機(jī)器翻譯方法這一特定目的有意義,同
17、時,作為一種通用的自然語言表示,也值得深義,同時,作為一種通用的自然語言表示,也值得深入研究。入研究。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 基于中間語言的機(jī)器翻譯方法的優(yōu)勢基于中間語言的機(jī)器翻譯方法的優(yōu)勢是無需一種語言到另一種語言的一一轉(zhuǎn)換,是無需一種語言到另一種語言的一一轉(zhuǎn)換,對于多語種的翻譯系統(tǒng)可以節(jié)約大量的轉(zhuǎn)對于多語種的翻譯系統(tǒng)可以節(jié)約大量的轉(zhuǎn)換知識的手工獲取工作量。假如有換知識的手工獲取工作量。假如有N種語種語對需要相互翻譯,只要有對需要相互翻譯,只要有2N個分析和生成個分析和生成模塊就夠了。其中一半是源語言分析模塊,模塊就夠了。其中一半是源語言分析模塊,輸入為原文,輸出以輸入
18、為原文,輸出以IL表示;另一半是目表示;另一半是目標(biāo)語言生成模塊,輸入為標(biāo)語言生成模塊,輸入為IL表示,輸出為表示,輸出為目標(biāo)語言譯文。目標(biāo)語言譯文。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 中間語言通常用語義概念表示,這些概念中間語言通常用語義概念表示,這些概念符號采用英語單詞符號或其它自行定義的符號來符號采用英語單詞符號或其它自行定義的符號來表示。大規(guī)模的表示。大規(guī)模的IL需要大量的概念表示,需要需要大量的概念表示,需要生成對應(yīng)的概念詞典。如果用語義概念來描寫一生成對應(yīng)的概念詞典。如果用語義概念來描寫一個句子,則構(gòu)成復(fù)雜的語義網(wǎng)絡(luò)。個句子,則構(gòu)成復(fù)雜的語義網(wǎng)絡(luò)。 對于多語種的機(jī)器翻譯來
19、說,使用中間語言對于多語種的機(jī)器翻譯來說,使用中間語言作為相互翻譯的中介是可取的。在理想狀態(tài)下,作為相互翻譯的中介是可取的。在理想狀態(tài)下,中間語言應(yīng)該沒有或極少有歧義,結(jié)構(gòu)嚴(yán)謹(jǐn),詞中間語言應(yīng)該沒有或極少有歧義,結(jié)構(gòu)嚴(yán)謹(jǐn),詞匯單義,便于計算機(jī)處理。有了中間語言,一切匯單義,便于計算機(jī)處理。有了中間語言,一切源語言分析的結(jié)果和目標(biāo)語言生成的開端都由它源語言分析的結(jié)果和目標(biāo)語言生成的開端都由它來表示。來表示。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 然而,中間語言的機(jī)器翻譯方法也常然而,中間語言的機(jī)器翻譯方法也常遭到懷疑。因?yàn)槭欠衲軌驑?gòu)造出表示各種遭到懷疑。因?yàn)槭欠衲軌驑?gòu)造出表示各種不同的自然語
20、言語法、語義的中間語言至不同的自然語言語法、語義的中間語言至少目前還是未知數(shù)。此外,中間語言能不少目前還是未知數(shù)。此外,中間語言能不能把各種語言的所有特征保留下來,又能能把各種語言的所有特征保留下來,又能很好生成對應(yīng)的各種語言也是問題。所以,很好生成對應(yīng)的各種語言也是問題。所以,構(gòu)造中間語言是一個巨大、復(fù)雜的工程,構(gòu)造中間語言是一個巨大、復(fù)雜的工程,還包含許多理論研究,迄今為止的探索還還包含許多理論研究,迄今為止的探索還沒有好的答案。沒有好的答案。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法基于統(tǒng)計的機(jī)器翻譯方法,一般不要任何語言學(xué)知識,它的基基于統(tǒng)計的機(jī)器翻譯方法,一般不要任何語言學(xué)知識,它
21、的基本原理是實(shí)現(xiàn)源語言詞匯到目標(biāo)語言詞匯的映射。其思路受到本原理是實(shí)現(xiàn)源語言詞匯到目標(biāo)語言詞匯的映射。其思路受到語音識別研究的啟發(fā),因而應(yīng)用了類似的方法來實(shí)現(xiàn)。研究者語音識別研究的啟發(fā),因而應(yīng)用了類似的方法來實(shí)現(xiàn)。研究者用大規(guī)模的雙語語料庫作為基礎(chǔ),對源語言和目標(biāo)語言詞匯的用大規(guī)模的雙語語料庫作為基礎(chǔ),對源語言和目標(biāo)語言詞匯的對應(yīng)關(guān)系進(jìn)行統(tǒng)計,根據(jù)統(tǒng)計規(guī)律輸出譯文。這種方法沒有使對應(yīng)關(guān)系進(jìn)行統(tǒng)計,根據(jù)統(tǒng)計規(guī)律輸出譯文。這種方法沒有使用語言知識,主要特征是概率統(tǒng)計與隨機(jī)過程的方法成為了分用語言知識,主要特征是概率統(tǒng)計與隨機(jī)過程的方法成為了分析和生成過程的唯一方法。它的主要內(nèi)容是雙語句對的對齊,析
22、和生成過程的唯一方法。它的主要內(nèi)容是雙語句對的對齊,通過詞匯同現(xiàn)的可能性來計算一種語言的一個詞映射到另一種通過詞匯同現(xiàn)的可能性來計算一種語言的一個詞映射到另一種語言的一個詞(或兩個、零個詞)的概率。應(yīng)該說,基于統(tǒng)計語言的一個詞(或兩個、零個詞)的概率。應(yīng)該說,基于統(tǒng)計的機(jī)器翻譯方法的出現(xiàn)改變了機(jī)器翻譯研究的面貌,從而開始的機(jī)器翻譯方法的出現(xiàn)改變了機(jī)器翻譯研究的面貌,從而開始了機(jī)器翻譯研究的新階段。不過,有些學(xué)者也對純統(tǒng)計方法提了機(jī)器翻譯研究的新階段。不過,有些學(xué)者也對純統(tǒng)計方法提出了異議,認(rèn)為必須引入高層語法、語義模型,顯然這是正確出了異議,認(rèn)為必須引入高層語法、語義模型,顯然這是正確的。否則
23、,基于統(tǒng)計的機(jī)器翻譯方法不可能產(chǎn)生高質(zhì)量。的。否則,基于統(tǒng)計的機(jī)器翻譯方法不可能產(chǎn)生高質(zhì)量。4.1.3 4.1.3 基于統(tǒng)計的機(jī)器翻譯方法基于統(tǒng)計的機(jī)器翻譯方法第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 統(tǒng)計方法最先在語音識別領(lǐng)域取得了成功。由于當(dāng)統(tǒng)計方法最先在語音識別領(lǐng)域取得了成功。由于當(dāng)前計算機(jī)在運(yùn)算速度和存儲容量方面都有巨大的提高,前計算機(jī)在運(yùn)算速度和存儲容量方面都有巨大的提高,可以獲取大量的機(jī)讀語料庫,因此在機(jī)器翻譯中應(yīng)用統(tǒng)可以獲取大量的機(jī)讀語料庫,因此在機(jī)器翻譯中應(yīng)用統(tǒng)計方法的條件已經(jīng)成熟。計方法的條件已經(jīng)成熟。 機(jī)器翻譯的噪聲通道模型可以視作最早的機(jī)器翻譯機(jī)器翻譯的噪聲通道模型可
24、以視作最早的機(jī)器翻譯思想的某中復(fù)活,其思路可以這樣理解:思想的某中復(fù)活,其思路可以這樣理解: 假設(shè)說話者已經(jīng)用目標(biāo)語想好了一句話假設(shè)說話者已經(jīng)用目標(biāo)語想好了一句話T,但是說,但是說出的卻是源語言句子出的卻是源語言句子S。這樣一個過程可以看成為編碼過。這樣一個過程可以看成為編碼過程。而統(tǒng)計的機(jī)器翻譯就是要從程。而統(tǒng)計的機(jī)器翻譯就是要從S回推回推T,可以看成解碼,可以看成解碼過程。這樣,統(tǒng)計的機(jī)器翻譯任務(wù)分為兩個部分:一是過程。這樣,統(tǒng)計的機(jī)器翻譯任務(wù)分為兩個部分:一是建模,即建立翻譯的計算方法以及從雙語語料庫中估計建模,即建立翻譯的計算方法以及從雙語語料庫中估計模型的參數(shù);二是解碼,即尋求一種高
25、效搜索算法取有模型的參數(shù);二是解碼,即尋求一種高效搜索算法取有關(guān)概率計算的最大值。關(guān)概率計算的最大值。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 在概率計算的前后,轉(zhuǎn)換是進(jìn)行有關(guān)預(yù)處在概率計算的前后,轉(zhuǎn)換是進(jìn)行有關(guān)預(yù)處理和后處理,例如句子當(dāng)中的日期、時間、數(shù)字、理和后處理,例如句子當(dāng)中的日期、時間、數(shù)字、人名等應(yīng)該用適當(dāng)?shù)念悇e標(biāo)志加以替換,以便更人名等應(yīng)該用適當(dāng)?shù)念悇e標(biāo)志加以替換,以便更好地進(jìn)行計算,計算后再換回來。因?yàn)檫@類詞不好地進(jìn)行計算,計算后再換回來。因?yàn)檫@類詞不屬于一般的詞匯,單詞本身在語料庫中的出現(xiàn)缺屬于一般的詞匯,單詞本身在語料庫中的出現(xiàn)缺乏代表性。乏代表性。 建模就是設(shè)計各個模
26、型的計算公式。因?yàn)橹苯>褪窃O(shè)計各個模型的計算公式。因?yàn)橹苯佑嬎隳硞€句子出現(xiàn)的概率是比較困難的,語料接計算某個句子出現(xiàn)的概率是比較困難的,語料庫不可能足夠大到包含所有句子,必須進(jìn)行合理庫不可能足夠大到包含所有句子,必須進(jìn)行合理的、適當(dāng)?shù)暮喕_@是統(tǒng)計方法的特點(diǎn),所得到的、適當(dāng)?shù)暮喕?。這是統(tǒng)計方法的特點(diǎn),所得到的結(jié)果是近似值,但是因?yàn)楦怕时旧砭筒皇蔷_的結(jié)果是近似值,但是因?yàn)楦怕时旧砭筒皇蔷_的,所以這些近似完全可以接受。的,所以這些近似完全可以接受。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 總之,基于統(tǒng)計的機(jī)器翻譯方法可以總之,基于統(tǒng)計的機(jī)器翻譯方法可以簡單的這樣看:將原始的某個句子按詞折
27、簡單的這樣看:將原始的某個句子按詞折開,然后全部單詞存儲;翻譯則是取出,開,然后全部單詞存儲;翻譯則是取出,按概率統(tǒng)計的方法重組句子,這樣的句子按概率統(tǒng)計的方法重組句子,這樣的句子就是統(tǒng)計方法的翻譯結(jié)果。就是統(tǒng)計方法的翻譯結(jié)果。 當(dāng)然,我們還是認(rèn)為應(yīng)該加強(qiáng)統(tǒng)計方當(dāng)然,我們還是認(rèn)為應(yīng)該加強(qiáng)統(tǒng)計方法與語法分析、語義分析相結(jié)合的研究。法與語法分析、語義分析相結(jié)合的研究。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 建立機(jī)器翻譯系統(tǒng)需要大量的知識。在基于轉(zhuǎn)換和建立機(jī)器翻譯系統(tǒng)需要大量的知識。在基于轉(zhuǎn)換和基于中間語言的機(jī)器翻譯方法中,知識按一定規(guī)則譯成基于中間語言的機(jī)器翻譯方法中,知識按一定規(guī)則譯成代碼
28、,這既耗時花費(fèi)也大。此外,知識獲取瓶頸阻礙了代碼,這既耗時花費(fèi)也大。此外,知識獲取瓶頸阻礙了機(jī)器翻譯的快速發(fā)展,這是早期機(jī)器翻譯面臨的重大難機(jī)器翻譯的快速發(fā)展,這是早期機(jī)器翻譯面臨的重大難題。題。 為克服這一困難,除了上節(jié)介紹的統(tǒng)計方法外,日為克服這一困難,除了上節(jié)介紹的統(tǒng)計方法外,日本機(jī)器翻譯專家本機(jī)器翻譯專家Nagao在在80年代提出了一種新方法,用年代提出了一種新方法,用已經(jīng)存在的翻譯實(shí)例(雙語文本)作為知識源,這種方已經(jīng)存在的翻譯實(shí)例(雙語文本)作為知識源,這種方法稱為基于類比的翻譯,后來普遍稱為基于實(shí)例的翻譯。法稱為基于類比的翻譯,后來普遍稱為基于實(shí)例的翻譯?;趯?shí)例的思想已被廣泛的
29、采用,既用于機(jī)器翻譯的設(shè)基于實(shí)例的思想已被廣泛的采用,既用于機(jī)器翻譯的設(shè)計,也用于機(jī)器翻譯不同處理階段的實(shí)現(xiàn)中。用不斷積計,也用于機(jī)器翻譯不同處理階段的實(shí)現(xiàn)中。用不斷積累的已經(jīng)譯好的文本作為機(jī)器翻譯的樣本的思想,也是累的已經(jīng)譯好的文本作為機(jī)器翻譯的樣本的思想,也是具有吸引力的。具有吸引力的。4.1.44.1.4基于實(shí)例的機(jī)器翻譯方法基于實(shí)例的機(jī)器翻譯方法第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 基于實(shí)例的機(jī)器翻譯方法通過結(jié)構(gòu)化的翻基于實(shí)例的機(jī)器翻譯方法通過結(jié)構(gòu)化的翻譯例子直接把源語言的短語和句子與目標(biāo)語言譯例子直接把源語言的短語和句子與目標(biāo)語言的短語和句子對應(yīng)起來。方法的不同使得處理的短語
30、和句子對應(yīng)起來。方法的不同使得處理步驟或多或少,但都必須實(shí)現(xiàn)源語言到目標(biāo)語步驟或多或少,但都必須實(shí)現(xiàn)源語言到目標(biāo)語言的轉(zhuǎn)換,其映射關(guān)系或者是詞到詞,或者是言的轉(zhuǎn)換,其映射關(guān)系或者是詞到詞,或者是短語或句子到與之相應(yīng)的等價物,或者是一棵短語或句子到與之相應(yīng)的等價物,或者是一棵句法樹到另一棵句法樹。句法樹到另一棵句法樹。 基于實(shí)例的機(jī)器翻譯(基于實(shí)例的機(jī)器翻譯(EBMT)的實(shí)現(xiàn)過)的實(shí)現(xiàn)過程簡單概述如下:給定源語言輸入句子程簡單概述如下:給定源語言輸入句子S,在,在雙語語料庫雙語語料庫C中匹配查找一個最相近的句子中匹配查找一個最相近的句子S , 則則S的譯文的譯文T就被接受為就被接受為S的譯文。的
31、譯文。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 翻譯的過程一般就是查找和復(fù)現(xiàn)相似的例翻譯的過程一般就是查找和復(fù)現(xiàn)相似的例子,發(fā)現(xiàn)和記起特定的源語言表達(dá)或相似的表達(dá)子,發(fā)現(xiàn)和記起特定的源語言表達(dá)或相似的表達(dá)在以前是如何翻譯的,把以前的翻譯實(shí)例作為主在以前是如何翻譯的,把以前的翻譯實(shí)例作為主要知識源。要知識源。 基于實(shí)例的機(jī)器翻譯方法的基本思想:基于實(shí)例的機(jī)器翻譯方法的基本思想: (1)把翻譯實(shí)例存入翻譯數(shù)據(jù)庫。例如,存)把翻譯實(shí)例存入翻譯數(shù)據(jù)庫。例如,存入漢語和英語句子對;入漢語和英語句子對; (2)對輸入的句子,在翻譯數(shù)據(jù)庫中檢索類)對輸入的句子,在翻譯數(shù)據(jù)庫中檢索類似的翻譯例句;似的翻譯
32、例句; (3)調(diào)整實(shí)例后生成譯文。)調(diào)整實(shí)例后生成譯文。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 基于實(shí)例的機(jī)器翻譯方法可以按如下步驟實(shí)基于實(shí)例的機(jī)器翻譯方法可以按如下步驟實(shí)現(xiàn):現(xiàn): (1)對雙語語料庫進(jìn)行句子級對齊;)對雙語語料庫進(jìn)行句子級對齊; (2)在語料庫的源語言一邊進(jìn)行句子分塊,)在語料庫的源語言一邊進(jìn)行句子分塊,稱為組塊。然后檢索輸入組塊的最佳匹配侯選,稱為組塊。然后檢索輸入組塊的最佳匹配侯選,稱為源語言內(nèi)部匹配;稱為源語言內(nèi)部匹配; (3)在源語言最佳匹配后選的組塊中檢索)在源語言最佳匹配后選的組塊中檢索對應(yīng)目標(biāo)語言組塊,稱為雙語匹配;對應(yīng)目標(biāo)語言組塊,稱為雙語匹配; (4)
33、對組塊級檢索結(jié)果進(jìn)行組合,以獲得)對組塊級檢索結(jié)果進(jìn)行組合,以獲得整個源語言文本的翻譯結(jié)果。整個源語言文本的翻譯結(jié)果。 第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 源語言的內(nèi)部匹配就是在語料庫中查找一個源語言的內(nèi)部匹配就是在語料庫中查找一個與待譯句子最相似的句子。對于任意給定的一個與待譯句子最相似的句子。對于任意給定的一個句子,很難在語料庫中找到與之完全匹配的句子,句子,很難在語料庫中找到與之完全匹配的句子,所以對輸入文本在語料庫源語言一邊的匹配查找所以對輸入文本在語料庫源語言一邊的匹配查找采用了松弛匹配技術(shù)。松弛匹配就是部分匹配,采用了松弛匹配技術(shù)。松弛匹配就是部分匹配,不同的部分匹配被賦
34、予不同的分值,以反映輸入不同的部分匹配被賦予不同的分值,以反映輸入串和語料庫中某些句子串的接近程度。整個輸入串和語料庫中某些句子串的接近程度。整個輸入組塊與語料庫組塊匹配的分值由一定的公式計算組塊與語料庫組塊匹配的分值由一定的公式計算出來。最后,待翻譯文本中所有被匹配的每個輸出來。最后,待翻譯文本中所有被匹配的每個輸入組塊都在語料庫中檢索出若干個最相近的組塊,入組塊都在語料庫中檢索出若干個最相近的組塊,組塊可以是一個句子、或者是一個從句、或者是組塊可以是一個句子、或者是一個從句、或者是一個短語,按照匹配分?jǐn)?shù)從大到小排列。一個短語,按照匹配分?jǐn)?shù)從大到小排列。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻
35、譯方法 源語言內(nèi)部匹配的輸出成為輸入,即把前面從語源語言內(nèi)部匹配的輸出成為輸入,即把前面從語料庫中查到的組塊、所在的句子和對應(yīng)譯文等構(gòu)成當(dāng)料庫中查到的組塊、所在的句子和對應(yīng)譯文等構(gòu)成當(dāng)前處理步驟的輸入。因?yàn)槊總€輸入組塊可能在語料庫前處理步驟的輸入。因?yàn)槊總€輸入組塊可能在語料庫中匹配若干組塊,所以每個組塊有待進(jìn)一步處理,即中匹配若干組塊,所以每個組塊有待進(jìn)一步處理,即在雙語匹配處理過程中又分為若干子過程,包括通過在雙語匹配處理過程中又分為若干子過程,包括通過查詞典獲取詞組譯文;建立詞匯級雙語對照表;通過查詞典獲取詞組譯文;建立詞匯級雙語對照表;通過評分機(jī)制求出最佳翻譯句等等。評分機(jī)制求出最佳翻譯
36、句等等。 基于實(shí)例的機(jī)器翻譯方法的輸出結(jié)果帶有相應(yīng)的基于實(shí)例的機(jī)器翻譯方法的輸出結(jié)果帶有相應(yīng)的分?jǐn)?shù),這些分值來自不同的標(biāo)準(zhǔn),相差可能很大。因分?jǐn)?shù),這些分值來自不同的標(biāo)準(zhǔn),相差可能很大。因此必須采用合適的函數(shù)(方式)對所有分?jǐn)?shù)進(jìn)行統(tǒng)一此必須采用合適的函數(shù)(方式)對所有分?jǐn)?shù)進(jìn)行統(tǒng)一(歸一化),然后這些分值才有可比性。(歸一化),然后這些分值才有可比性。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 基于實(shí)例的機(jī)器翻譯方法的其它優(yōu)點(diǎn):基于實(shí)例的機(jī)器翻譯方法的其它優(yōu)點(diǎn): (1)可以通過索引和并行處理提高處)可以通過索引和并行處理提高處理速度;理速度; (2)可以采用最佳匹配推理;)可以采用最佳匹配推理;
37、 (3)可以較好地利用翻譯專家的專業(yè))可以較好地利用翻譯專家的專業(yè)知識(通過翻譯實(shí)例);知識(通過翻譯實(shí)例); (4)一個基于實(shí)例的機(jī)器翻譯系統(tǒng)的)一個基于實(shí)例的機(jī)器翻譯系統(tǒng)的知識可以移植、共享。知識可以移植、共享。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 基于實(shí)例的機(jī)器翻譯方法的基本結(jié)構(gòu):基于實(shí)例的機(jī)器翻譯方法的基本結(jié)構(gòu): 實(shí)例庫實(shí)例庫 輸入句子輸入句子 檢檢 索索 同義詞詞典同義詞詞典 調(diào)整調(diào)整 檢索到的實(shí)例檢索到的實(shí)例 輸出輸出第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 (1)翻譯實(shí)例庫)翻譯實(shí)例庫 翻譯實(shí)例庫就是翻譯句子集,是系統(tǒng)的主要知識源。翻譯實(shí)例句子有翻譯實(shí)例庫就是翻譯句子
38、集,是系統(tǒng)的主要知識源。翻譯實(shí)例句子有多種形式,如沒有處理的雙語句對,不同領(lǐng)域翻譯例句的組合,已經(jīng)具有分多種形式,如沒有處理的雙語句對,不同領(lǐng)域翻譯例句的組合,已經(jīng)具有分析句法樹的例句對。析句法樹的例句對。 (2)同義詞詞典)同義詞詞典 同義詞詞典應(yīng)該包括詞義的層次結(jié)構(gòu),以便計算句子間的相似度。同義詞詞典應(yīng)該包括詞義的層次結(jié)構(gòu),以便計算句子間的相似度。 (3) 檢索檢索 檢索模塊從實(shí)例庫中檢索與輸入句子最相似的例句。標(biāo)準(zhǔn)做法是:首先檢索模塊從實(shí)例庫中檢索與輸入句子最相似的例句。標(biāo)準(zhǔn)做法是:首先定義樣本和新句間相似度;然后計算每個相似例句的相似度;然后再選最優(yōu)定義樣本和新句間相似度;然后計算每個
39、相似例句的相似度;然后再選最優(yōu)者。者。 (4)調(diào)整)調(diào)整 調(diào)整模塊的任務(wù)是調(diào)整輸入新句的檢索實(shí)例,產(chǎn)生翻譯結(jié)果。檢索出來調(diào)整模塊的任務(wù)是調(diào)整輸入新句的檢索實(shí)例,產(chǎn)生翻譯結(jié)果。檢索出來的例句和新句應(yīng)十分相似,但并非完全相同。因此需要一種調(diào)整它們不同之的例句和新句應(yīng)十分相似,但并非完全相同。因此需要一種調(diào)整它們不同之處的方法。處的方法。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 在機(jī)器翻譯領(lǐng)域,機(jī)器翻譯方法可以看成在機(jī)器翻譯領(lǐng)域,機(jī)器翻譯方法可以看成是兩大類共四種方法,兩大類是:基于規(guī)是兩大類共四種方法,兩大類是:基于規(guī)則一類;基于語料庫一類。顯而易見,基則一類;基于語料庫一類。顯而易見,基于規(guī)
40、則一類包括了基于轉(zhuǎn)換的機(jī)器翻譯方于規(guī)則一類包括了基于轉(zhuǎn)換的機(jī)器翻譯方法和基于中間語言的機(jī)器翻譯方法;基于法和基于中間語言的機(jī)器翻譯方法;基于語料庫一類包括了基于統(tǒng)計的機(jī)器翻譯方語料庫一類包括了基于統(tǒng)計的機(jī)器翻譯方法和基于實(shí)例的機(jī)器翻譯方法。法和基于實(shí)例的機(jī)器翻譯方法。4.1.5 4.1.5 機(jī)器翻譯方法的小結(jié)機(jī)器翻譯方法的小結(jié)第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 基于規(guī)則的一類方法的一個基本假設(shè)就是認(rèn)為翻譯基于規(guī)則的一類方法的一個基本假設(shè)就是認(rèn)為翻譯過程是一個需要對源語言的分析和進(jìn)行源語言意義的表過程是一個需要對源語言的分析和進(jìn)行源語言意義的表示,然后再生成等價的目標(biāo)語言的過程?;谝?guī)
41、則的一示,然后再生成等價的目標(biāo)語言的過程?;谝?guī)則的一類機(jī)器翻譯方法的基本特點(diǎn)可以概括為層次性和模塊性。類機(jī)器翻譯方法的基本特點(diǎn)可以概括為層次性和模塊性。層次性指機(jī)器翻譯采取由詞到句的不同層次的分析過程,層次性指機(jī)器翻譯采取由詞到句的不同層次的分析過程,建立一種中間表示,然后完成由句到詞的不同層次的轉(zhuǎn)建立一種中間表示,然后完成由句到詞的不同層次的轉(zhuǎn)換生成過程。這樣就達(dá)到了語言學(xué)處理過程和機(jī)器翻譯換生成過程。這樣就達(dá)到了語言學(xué)處理過程和機(jī)器翻譯系統(tǒng)實(shí)現(xiàn)的模塊化相輔助,源語言和目標(biāo)語言模塊的描系統(tǒng)實(shí)現(xiàn)的模塊化相輔助,源語言和目標(biāo)語言模塊的描述分開?;谝?guī)則的一類機(jī)器翻譯方法經(jīng)過多年的發(fā)展,述分開。
42、基于規(guī)則的一類機(jī)器翻譯方法經(jīng)過多年的發(fā)展,有許多不同的實(shí)現(xiàn)方式,但基本思路與上述相同。有許多不同的實(shí)現(xiàn)方式,但基本思路與上述相同。 基于規(guī)則的一類方法在機(jī)器翻譯界一直占有主導(dǎo)地基于規(guī)則的一類方法在機(jī)器翻譯界一直占有主導(dǎo)地位,直到今天仍然發(fā)揮著重要作用,現(xiàn)在有影響的機(jī)器位,直到今天仍然發(fā)揮著重要作用,現(xiàn)在有影響的機(jī)器翻譯系統(tǒng)也都是基于規(guī)則的。翻譯系統(tǒng)也都是基于規(guī)則的。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 基于規(guī)則的一類方法在機(jī)器翻譯的發(fā)展中確實(shí)起了基于規(guī)則的一類方法在機(jī)器翻譯的發(fā)展中確實(shí)起了非常重要的作用,但是,隨著研究的深入,研究者們發(fā)非常重要的作用,但是,隨著研究的深入,研究者們發(fā)現(xiàn)
43、人工確定的有限規(guī)則難以正確翻譯大規(guī)模的現(xiàn)實(shí)語句?,F(xiàn)人工確定的有限規(guī)則難以正確翻譯大規(guī)模的現(xiàn)實(shí)語句。因此,人們不斷地尋找新的方法,從而產(chǎn)生了基于語料因此,人們不斷地尋找新的方法,從而產(chǎn)生了基于語料庫的一類方法。所謂語料庫,就是把各類在現(xiàn)實(shí)當(dāng)中使庫的一類方法。所謂語料庫,就是把各類在現(xiàn)實(shí)當(dāng)中使用的真實(shí)文本收集在一起,并不對原來的語句進(jìn)行修飾用的真實(shí)文本收集在一起,并不對原來的語句進(jìn)行修飾潤色,這樣構(gòu)成的集合稱為語料庫。顯然,機(jī)器翻譯只潤色,這樣構(gòu)成的集合稱為語料庫。顯然,機(jī)器翻譯只有對語料庫中真實(shí)句子進(jìn)行翻譯研究,才有可能建立起有對語料庫中真實(shí)句子進(jìn)行翻譯研究,才有可能建立起滿足現(xiàn)實(shí)要求的機(jī)器翻譯
44、系統(tǒng)。早期的語料庫主要是為滿足現(xiàn)實(shí)要求的機(jī)器翻譯系統(tǒng)。早期的語料庫主要是為自然語言研究提供眾多的實(shí)例,如用于詞頻統(tǒng)計,以后自然語言研究提供眾多的實(shí)例,如用于詞頻統(tǒng)計,以后逐漸發(fā)展為對其進(jìn)行大規(guī)模的語法信息標(biāo)注,如詞性標(biāo)逐漸發(fā)展為對其進(jìn)行大規(guī)模的語法信息標(biāo)注,如詞性標(biāo)注、句法符號標(biāo)注等。這樣,對語料庫進(jìn)行收集、整理、注、句法符號標(biāo)注等。這樣,對語料庫進(jìn)行收集、整理、加工的研究誕生了一門新的語言學(xué)分支,就稱為語料庫加工的研究誕生了一門新的語言學(xué)分支,就稱為語料庫語言學(xué)。語言學(xué)。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 為機(jī)器翻譯服務(wù)的語料庫應(yīng)該是源語言和為機(jī)器翻譯服務(wù)的語料庫應(yīng)該是源語言和目標(biāo)
45、語言雙語對照的雙語語料庫,或者是多種目標(biāo)語言雙語對照的雙語語料庫,或者是多種自然語言對照的語料庫。在研究中,一方面可自然語言對照的語料庫。在研究中,一方面可以直接使用語料庫進(jìn)行機(jī)器翻譯中的分析、轉(zhuǎn)以直接使用語料庫進(jìn)行機(jī)器翻譯中的分析、轉(zhuǎn)換和生成,另一方面可以間接使用語料庫,將換和生成,另一方面可以間接使用語料庫,將其作為獲取翻譯知識和統(tǒng)計知識的依據(jù)。其作為獲取翻譯知識和統(tǒng)計知識的依據(jù)。 十多年來,對機(jī)器翻譯的多方面研究使許十多年來,對機(jī)器翻譯的多方面研究使許多人認(rèn)為,好的機(jī)器翻譯系統(tǒng)應(yīng)采用混合方法,多人認(rèn)為,好的機(jī)器翻譯系統(tǒng)應(yīng)采用混合方法,因?yàn)榫湍壳扒闆r看,無論采用何種方法實(shí)現(xiàn)的因?yàn)榫湍壳扒闆r
46、看,無論采用何種方法實(shí)現(xiàn)的機(jī)器翻譯系統(tǒng),都沒有混合方法質(zhì)量好。機(jī)器翻譯系統(tǒng),都沒有混合方法質(zhì)量好。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法完全實(shí)例的翻譯就是對待翻譯的源語句通過翻譯實(shí)例數(shù)據(jù)庫檢索出要翻譯的目標(biāo)語句,翻譯的操作就是檢索。 這種方法用已經(jīng)存在的翻譯實(shí)例(雙語文本)作為知識源。 工作之初,選擇了一些常用的雙語翻譯實(shí)例輸入,構(gòu)造成一個特別的模塊(翻譯實(shí)例數(shù)據(jù)庫)。4.2 4.2 基于實(shí)例的機(jī)器翻譯改進(jìn)方法基于實(shí)例的機(jī)器翻譯改進(jìn)方法4.2.1 4.2.1 完全實(shí)例的翻譯完全實(shí)例的翻譯第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法例如:在漢譯英翻譯實(shí)例數(shù)據(jù)庫中有例如:在漢譯英翻譯實(shí)例數(shù)據(jù)
47、庫中有(1)源)源 語語 句句 水的熱容量比沙大水的熱容量比沙大 目標(biāo)語句目標(biāo)語句 Water has a greater heat capacity than sand.(2)源)源 語語 句句 太陽離我們比其它任何恒星都更近一太陽離我們比其它任何恒星都更近一些些 目標(biāo)語句目標(biāo)語句 The sun is closer to us than any of the other stars.(3)源)源 語語 句句 對于生物來說,沒有什么東西比太陽對于生物來說,沒有什么東西比太陽更重要了。更重要了。 目標(biāo)語句目標(biāo)語句 There is nothing more There is nothing m
48、ore important to life than the sun.important to life than the sun.第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 之后,不斷積累已經(jīng)譯好的文本作為機(jī)器翻譯的樣本。當(dāng)然,之后,不斷積累已經(jīng)譯好的文本作為機(jī)器翻譯的樣本。當(dāng)然,如果所要翻譯的語言是由有限個常用句子構(gòu)成,這種處理方法如果所要翻譯的語言是由有限個常用句子構(gòu)成,這種處理方法的實(shí)用性會大一些;但是,每一種自然語言都是由無限多個句的實(shí)用性會大一些;但是,每一種自然語言都是由無限多個句子構(gòu)成,計算機(jī)永遠(yuǎn)不可能完全存儲,因此這種處理方法的實(shí)子構(gòu)成,計算機(jī)永遠(yuǎn)不可能完全存儲,因此這種處
49、理方法的實(shí)用性很小。用性很小。 雖然我們對完全實(shí)例的翻譯并不寄于厚望,但我們的翻譯雖然我們對完全實(shí)例的翻譯并不寄于厚望,但我們的翻譯系統(tǒng)仍然建立了這一模塊,收集的是一些成熟的、常用的雙語系統(tǒng)仍然建立了這一模塊,收集的是一些成熟的、常用的雙語翻譯實(shí)例。翻譯實(shí)例。 這樣做的理由是,這樣做的理由是, 完全實(shí)例的翻譯處理方法省完全實(shí)例的翻譯處理方法省略了自動分詞、詞義消歧、句法分析、語義分析、譯文轉(zhuǎn)換等略了自動分詞、詞義消歧、句法分析、語義分析、譯文轉(zhuǎn)換等許多步驟。對具體待翻譯的多個源語句來說,這種翻譯(檢索)許多步驟。對具體待翻譯的多個源語句來說,這種翻譯(檢索)即使部分成功,目的也達(dá)到了,因?yàn)樗?/p>
50、譯文是高質(zhì)量的,與即使部分成功,目的也達(dá)到了,因?yàn)樗淖g文是高質(zhì)量的,與人工翻譯一致;不成功,再采取二、三種處理方法。人工翻譯一致;不成功,再采取二、三種處理方法。 當(dāng)然,當(dāng)然,要這樣做,還應(yīng)該采用高效的映射式檢索算法,才能保證機(jī)譯要這樣做,還應(yīng)該采用高效的映射式檢索算法,才能保證機(jī)譯速度速度. . 第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 完全實(shí)例的翻譯譯文是高質(zhì)量的,與人工完全實(shí)例的翻譯譯文是高質(zhì)量的,與人工翻譯一致,但它的成功率很低,而且并不與翻翻譯一致,但它的成功率很低,而且并不與翻譯實(shí)例數(shù)據(jù)庫的雙語實(shí)例句數(shù)量成正比。譯實(shí)例數(shù)據(jù)庫的雙語實(shí)例句數(shù)量成正比。 如果如果把完全實(shí)例擴(kuò)充為句
51、型間的轉(zhuǎn)換翻譯,將提高把完全實(shí)例擴(kuò)充為句型間的轉(zhuǎn)換翻譯,將提高翻譯的成功率。翻譯的成功率。 句型轉(zhuǎn)換的翻譯是把源語句的句型轉(zhuǎn)換的翻譯是把源語句的單詞和句型結(jié)構(gòu)映射到譯文相對應(yīng)的單詞和句單詞和句型結(jié)構(gòu)映射到譯文相對應(yīng)的單詞和句型結(jié)構(gòu)。型結(jié)構(gòu)。 雙語對譯的核心是句型結(jié)構(gòu)的表達(dá)式雙語對譯的核心是句型結(jié)構(gòu)的表達(dá)式相同,所以我們建立了雙語句型結(jié)構(gòu)表達(dá)式集相同,所以我們建立了雙語句型結(jié)構(gòu)表達(dá)式集合模塊。合模塊。 實(shí)例句型轉(zhuǎn)換的翻譯主要有兩種:實(shí)例句型轉(zhuǎn)換的翻譯主要有兩種:4.2.2 4.2.2 實(shí)例句型轉(zhuǎn)換的翻譯實(shí)例句型轉(zhuǎn)換的翻譯第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 第一種第一種 句型轉(zhuǎn)換順序相同
52、的翻譯句型轉(zhuǎn)換順序相同的翻譯 例例 如漢譯英中,如漢譯英中, (1)“他們學(xué)習(xí)英語他們學(xué)習(xí)英語”和和“我們研究漢語我們研究漢語”句型完全相同,句句型完全相同,句型表達(dá)式只需建立一個:型表達(dá)式只需建立一個:rvn;對應(yīng)英文的語序也完全系相同:;對應(yīng)英文的語序也完全系相同:rvn;譯文是:;譯文是:They study English. We research Chinese. (2)“他是一個學(xué)生他是一個學(xué)生”和和“我是一個教師我是一個教師”句型完全相同,句句型完全相同,句型表達(dá)式只需建立一個:型表達(dá)式只需建立一個:rvmqn;對應(yīng)英文的語序也完全系相同:;對應(yīng)英文的語序也完全系相同:rvmqn
53、;譯文是:;譯文是:He is a student. I am a teacher. (3)“他有許多英語書他有許多英語書”和和“我有許多科技書我有許多科技書”句型完全相同,句型完全相同,句型表達(dá)式只需建立一個:句型表達(dá)式只需建立一個:rvdn(1)n(2);對應(yīng)英文的語序也完全;對應(yīng)英文的語序也完全系相同:系相同:rvdn(1)n(2);譯文是:;譯文是:He had many English books. I had many science books. 這樣的句型翻譯,只要自動分詞正確,無語義問題,譯文的質(zhì)這樣的句型翻譯,只要自動分詞正確,無語義問題,譯文的質(zhì)量就可以保證量就可以保證.
54、 并且,再多的相同句型也只需一個句型表達(dá)式,并且,再多的相同句型也只需一個句型表達(dá)式,這無疑在完全實(shí)例的翻譯的基礎(chǔ)上大大進(jìn)了一步這無疑在完全實(shí)例的翻譯的基礎(chǔ)上大大進(jìn)了一步.第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法第二種第二種 句型轉(zhuǎn)換順序不相同的翻譯句型轉(zhuǎn)換順序不相同的翻譯 例如漢譯英中,例如漢譯英中, (1)“我們是新中國的學(xué)生我們是新中國的學(xué)生”,句型表達(dá)式為:,句型表達(dá)式為:rvan(1)pn(2);其譯文是;其譯文是“We are studends of New China”,調(diào)序生成譯文表達(dá)式是:,調(diào)序生成譯文表達(dá)式是:rvn(2)pan(1). (2)“我們在大學(xué)學(xué)過英語我們在
55、大學(xué)學(xué)過英語”,句型表達(dá)式為:,句型表達(dá)式為:rpn(1)vn(2);其譯文是;其譯文是“We studied English in university”,調(diào)序生成譯文表達(dá)式是:,調(diào)序生成譯文表達(dá)式是:rvn(2)pn(1). (3)“去年他們設(shè)計過一臺新機(jī)器去年他們設(shè)計過一臺新機(jī)器”,句型表達(dá)式,句型表達(dá)式為:為:a(1)n(1)rvmqa(2)n(2);其譯文是;其譯文是“They designed a new machine last year”,調(diào)序生成譯文表達(dá)式是:,調(diào)序生成譯文表達(dá)式是:rvmqa(2)n(2)a(1)n(1).第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 實(shí)例句
56、型轉(zhuǎn)換的翻譯雖然在完全實(shí)例實(shí)例句型轉(zhuǎn)換的翻譯雖然在完全實(shí)例的翻譯的基礎(chǔ)上大大進(jìn)了一步,但是自動的翻譯的基礎(chǔ)上大大進(jìn)了一步,但是自動分詞、詞義消歧、語義分析、譯文轉(zhuǎn)換等分詞、詞義消歧、語義分析、譯文轉(zhuǎn)換等步驟不能省略。步驟不能省略。 例如,例如,“The fish was bought by the cook”和和“The fish was bought by the river”這兩句的譯文是這兩句的譯文是“魚是廚師買的魚是廚師買的”和和“魚是從河邊買的魚是從河邊買的”,這種語義的不同只可能靠語義分析予以解這種語義的不同只可能靠語義分析予以解決。決。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法
57、 在完全實(shí)例的翻譯模塊和實(shí)例句型轉(zhuǎn)換的翻譯模塊不能完在完全實(shí)例的翻譯模塊和實(shí)例句型轉(zhuǎn)換的翻譯模塊不能完成翻譯的情況下,系統(tǒng)將啟動近似翻譯模塊。成翻譯的情況下,系統(tǒng)將啟動近似翻譯模塊。 實(shí)例近似翻譯實(shí)例近似翻譯的實(shí)質(zhì)是句型表達(dá)式的近似檢索(匹配),即檢索與輸入句子的實(shí)質(zhì)是句型表達(dá)式的近似檢索(匹配),即檢索與輸入句子最相似的例句,定義樣本和新句間相似度;然后計算每個相似最相似的例句,定義樣本和新句間相似度;然后計算每個相似例句的相似度,再選最優(yōu)者。例句的相似度,再選最優(yōu)者。 相似度的計算有許多計算方法,基本上可分為相似程度計相似度的計算有許多計算方法,基本上可分為相似程度計算和距離程度計算兩類。
58、計算的依據(jù)則各不相同,可以按照單算和距離程度計算兩類。計算的依據(jù)則各不相同,可以按照單詞本身是否相同來計算,可以按照單詞所具有的詞類、語義類詞本身是否相同來計算,可以按照單詞所具有的詞類、語義類是否相同來計算,還可以按照形態(tài)變化、語義上下位關(guān)系等來是否相同來計算,還可以按照形態(tài)變化、語義上下位關(guān)系等來計算。計算。4.2.3 4.2.3 實(shí)例近似翻譯實(shí)例近似翻譯第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 (1)按照相似程度計算,則分值越大)按照相似程度計算,則分值越大越好(一般在越好(一般在01之間);之間); (2)按照距離程度計算,則分值越?。┌凑站嚯x程度計算,則分值越小越好,此時的分值是
59、罰分。越好,此時的分值是罰分。 相似度的計算按照距離程度計算,分值相似度的計算按照距離程度計算,分值越小越好,此時的分值是罰分。系統(tǒng)選擇越小越好,此時的分值是罰分。系統(tǒng)選擇分值最小的句型分值最小的句型表達(dá)式表達(dá)式做句型轉(zhuǎn)換的翻譯。做句型轉(zhuǎn)換的翻譯。第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法 在在3 . 2 . 1中已經(jīng)論述過,中已經(jīng)論述過, 完全實(shí)例完全實(shí)例的翻譯就是對待翻譯的源語句通過翻譯實(shí)的翻譯就是對待翻譯的源語句通過翻譯實(shí)例數(shù)據(jù)庫檢索出要翻譯的目標(biāo)語句,實(shí)踐例數(shù)據(jù)庫檢索出要翻譯的目標(biāo)語句,實(shí)踐的主要工作就是建立翻譯實(shí)例數(shù)據(jù)庫,另的主要工作就是建立翻譯實(shí)例數(shù)據(jù)庫,另一項工作就是翻譯的操作
60、檢索算法。一項工作就是翻譯的操作檢索算法。4.3 4.3 基于實(shí)例的機(jī)器翻譯方法實(shí)踐基于實(shí)例的機(jī)器翻譯方法實(shí)踐4.3.1 4.3.1 完全實(shí)例的機(jī)器翻譯實(shí)踐完全實(shí)例的機(jī)器翻譯實(shí)踐第第 4 4 章章 機(jī)器翻譯方法機(jī)器翻譯方法4. 3 . 2 實(shí)例句型轉(zhuǎn)換的翻譯實(shí)踐實(shí)例句型轉(zhuǎn)換的翻譯實(shí)踐 完全實(shí)例的翻譯譯文是高質(zhì)量的,但完全實(shí)例的翻譯譯文是高質(zhì)量的,但在浩瀚語海語句中,我們能收集在翻譯實(shí)在浩瀚語海語句中,我們能收集在翻譯實(shí)例數(shù)據(jù)庫的雙語實(shí)例句數(shù)量是有限的,甚例數(shù)據(jù)庫的雙語實(shí)例句數(shù)量是有限的,甚至可以說是非常少的。至可以說是非常少的。 如果把完全實(shí)例如果把完全實(shí)例擴(kuò)充為句型間的轉(zhuǎn)換翻譯,那么能翻譯的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三級人力資源管理師-三級人力資源管理師考試《理論知識》押題密卷1
- 物理選修3-5全套講義第三章原子核與放射性章末檢測3
- 2025年江蘇省蘇州市中考模擬英語試題(二)(原卷版+解析版)
- DB11T-蒸壓加氣混凝土墻板系統(tǒng)應(yīng)用技術(shù)規(guī)程編制說明
- 專業(yè)裝修工程合同范例
- 修理制式合同范例
- 個人吊車轉(zhuǎn)賣合同范例
- 低壓借款合同范例
- 企業(yè)贊助活動合同范例
- 加工承攬貨架合同范例
- 2025山西國際能源集團(tuán)社會招聘258人筆試參考題庫附帶答案詳解
- 普華永道中天會計師事務(wù)所-人工智能機(jī)遇在汽車領(lǐng)域
- 湖北省武漢市2024-2025學(xué)年高三2月調(diào)研考試英語試題含答案
- 2025年皖西衛(wèi)生職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫新版
- 2025年湖南高速鐵路職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性測試題庫附答案
- 腰椎穿刺的護(hù)理
- 2025屆高考英語二輪復(fù)習(xí)備考策略課件
- Unit 5 Dinners ready Part B Let's learn Let's do(教學(xué)設(shè)計)-2024-2025學(xué)年人教PEP版英語四年級上冊
- 《工程勘察設(shè)計收費(fèi)標(biāo)準(zhǔn)》(2002年修訂本)
- 活在課堂里 課件
- 潔凈室空調(diào)凈化系統(tǒng)驗(yàn)證方案(通過BSI和華光審核)
評論
0/150
提交評論