機器翻譯II-張宇_第1頁
機器翻譯II-張宇_第2頁
機器翻譯II-張宇_第3頁
機器翻譯II-張宇_第4頁
機器翻譯II-張宇_第5頁
已閱讀5頁,還剩54頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

機器翻譯IIMachine

Translation

II張宇哈爾濱工業(yè)大學計算機科學與技術學院

zhangyu@*1語言信息處理--機器翻譯II翻譯記憶方法110/23/20203語言信息處理--機器翻譯II翻譯記憶方法(Translation

Memory)是基于實例方法的特例;也可以把基于實例的方法理解為廣義的翻譯記憶方法;翻譯記憶的基本思想:把已經(jīng)翻譯過的句子保存起來翻譯新句子時,直接到語料庫中去查找如果發(fā)現(xiàn)相同的句子,直接輸出譯文否則交給人去翻譯,但可以提供相似的句子的參考譯文翻譯記憶方法2翻譯記憶方法主要被應用于計算機輔助翻譯(CAT)軟件中翻譯記憶方法的優(yōu)缺點翻譯質量有保證隨著使用時間匹配成功率逐步提高特別適用于重復率高的文本翻譯,例如公司的產(chǎn)品說明書的新版本翻譯與語言無關,適用于各種語言對缺點是匹配成功率不高,特別是剛開始使用時10/23/20204語言信息處理--機器翻譯II翻譯記憶方法310/23/20205語言信息處理--機器翻譯II計算機輔助翻譯(CAT)軟件已經(jīng)形成了比較成熟的產(chǎn)業(yè)TRADOS號稱占有國際CAT市場的70%Microsoft、Siemens、SAP等國際大公司和一些著名的國際組織都是其用戶雅信CAT適合中國人的習慣產(chǎn)品已比較成熟國際組織:LISA(Localisation

Industry

Standards

Association)面向用戶:專業(yè)翻譯人員數(shù)據(jù)交換:LISA制定了TMX(Translation

MemoryeXchange)標準。翻譯記憶方法4完整的計算機輔助翻譯軟件除了包括翻譯記憶功能以外,還應該包括以下功能多種文件格式的分解與合成術語庫管理功能語料庫的句子對齊(歷史資料的重復利用)項目管理:翻譯任務的分解與合并翻譯工作量的估計數(shù)據(jù)共享和數(shù)據(jù)交換10/23/20206語言信息處理--機器翻譯II翻譯記憶方法510/23/20207語言信息處理--機器翻譯II基于模板(模式)的機器翻譯方法110/23/20208語言信息處理--機器翻譯II基于模板(Template)或者模式(Pattern)的機器翻譯方法通常也被看做基于實例的機器翻譯方法的一種延伸

所謂“翻譯模板”或者“翻譯模式”可以認為是一種顆粒度介于“翻譯規(guī)則”和“翻譯實例”之間的翻譯知識表示形式翻譯規(guī)則:顆粒度大,匹配可能性大,但過于抽象,容易出錯翻譯實例:顆粒度小,不易出錯,但過于具體,匹配可能性小

翻譯模板(模式):介于二者之間,是一種比較合適的知識表示形式一般而言,單語模板(或模式)是一個常量和變量組成的字符串,翻譯模板(或模式)是兩個對應的單語模板(或模式),兩個模板之間的變量存在意義對應關系基于模板(模式)的機器翻譯方法2模板舉例:這個X比Y更Z。The

X

is

more

Z

than

Y.模板方法的主要問題對模板中變量的約束模板抽取模板的沖突消解10/23/20209語言信息處理--機器翻譯IIPattern-Based

CFG

for

MT

1Koichi

Takeda,

Pattern-Based

Context-Free

Grammars

for

Machine

Translation,Proc.

of

34th

ACL,

pp.

144--

151,

June1996給出了翻譯模式的一種形式化定義,并給出了相應的翻譯算法以及算法復雜性的理論證明10/23/202010語言信息處理--機器翻譯IIPattern-Based

CFG

for

MT

210/23/202011語言信息處理--機器翻譯II每個翻譯模板由一個源語言上下文無關規(guī)則和一個目標語言上下文無關規(guī)則(這兩個規(guī)則稱為翻譯模板的骨架),以及對這兩個規(guī)則的中心詞約束和鏈接約束構成;中心詞約束:對于上下文無關語法規(guī)則中右部(子結點)的每個非終結符,可以指定其中心詞;對于規(guī)則左部(父結點)的非終結符,可以直接指定其中心詞,也可以通過使用相同的序號規(guī)定其中心詞等于其右部的某個非終結符的中心詞;鏈接約束:源語言骨架和目標語言骨架的非終結符子結點通過使用相同的序號建立對應關系,具有對應關系的非終結符互為翻譯。Pattern-Based

CFG

for

MT

310/23/202012語言信息處理--機器翻譯IIPattern-Based

CFG

for

MT

310/23/202013語言信息處理--機器翻譯II翻譯的過程分為三步:使用源語言CFG骨架分析輸入句子s

應用源語言到目標語言的CFG骨架的鏈接約束,生成一個譯文CFG推導序列根據(jù)譯文CFG推導序列產(chǎn)生譯文模板排序的啟發(fā)式原則:

對于源文CFG骨架相同的模板,有中心詞約束的模板優(yōu)先于沒有中心詞約束的模板;

對于同一跨度上的兩個結點,比較其對應的模板的源文CFG骨架,非終結符少的模板優(yōu)先于非終結符多的模板;中心詞約束被滿足的結點優(yōu)先于中心詞約束不被滿足的結點;對于一個輸入串而言,分析步驟越短(推導序列越短)越優(yōu)先。Pattern-Based

CFG

for

MT

410/23/202014語言信息處理--機器翻譯II模板庫的獲?。杭僭OT是一組翻譯模板,B是雙語語料庫,<s,t>是一對互為翻譯的句子如果T能夠翻譯句子s為t,那么do

nothing;如果T將s譯為t"(不等于t),那么:如果T中存在<s,t>的推導Q,但這個推導不是最優(yōu)解,那么給Q中的模板進行實例化;如果不存在這種推導,那么加入適當?shù)哪0澹沟猛茖С闪ⅲ蝗绻緹o法翻譯s(分析失?。敲磳?lt;s,t>直接加入到模板庫中。通過泛化實例得到翻譯模板10/23/202016語言信息處理--機器翻譯II已有實例:Karl

Marx

was

born

in

Trier,

Germany

in

May

5,

1818.卡爾·馬克思于1818年5月5日出生在德國特里爾城。泛化:<Person>

was

born

in

<City>

in

<Date><Person>于<Date>出生在<City>對齊<Person>

?

<Person><City>

?

<City><Date>

?

<City>通過比較實例得到翻譯模板已有兩對翻譯實例:我給瑪麗一支筆?I

gave

Mary

a

pen.我給湯姆一本書?I

gave

Tom

a

book.雙側單語句子分別比較,得到:我給#X一#Y

#Z

?I

give

#W

a

#U.查找變量的對應關系:#X

?

#W#Y

?

φ#Z

?

#U10/23/202017語言信息處理--機器翻譯II實例庫的匹配110/23/202018語言信息處理--機器翻譯II實例匹配的目的是將輸入句子分解成語料庫中實例片斷的組合,這是基于實例的機器翻譯的關鍵問題之一,實例匹配的各種方法有很大的差異,還沒有那種做法顯示出明顯的優(yōu)勢;實例庫匹配的效率問題:由于實例庫規(guī)模較大,通常需要建立倒排索引;實例庫匹配的其他問題:實例片斷的分解:實例片斷的組合:實例庫的匹配2實例片斷的分解實例庫中的句子往往太長,直接匹配成功率太低,為了提高實例的重用性,需要將實例庫中的句子分解為片斷幾種通常的做法:按標點符號分解任意分解通過組塊分析進行分解10/23/202019語言信息處理--機器翻譯II實例庫的匹配3實例片斷的組合一個被翻譯的句子,往往可以通過各種不同的實例片斷進行組合,如何選擇一個最好的組合?簡單的做法:最大匹配最大概率法:選擇概率乘積最大的片斷組合有點像漢語詞語切分問題10/23/202020語言信息處理--機器翻譯II片斷譯文的選擇由于語料庫中一個片斷可能有多種翻譯方法,因此存在片斷譯文的選擇問題;常用的方法:根據(jù)片斷上下文進行排歧;根據(jù)譯文的語言模型選擇概率最大的譯文片斷組合10/23/202021語言信息處理--機器翻譯II實例庫的對齊10/23/202022語言信息處理--機器翻譯II實例庫又稱雙語語料庫(Bilingual

Corpus)或平行語料庫(Parallel

Corpus)雙語語料庫對齊的級別篇章對齊段落對齊句子對齊詞語對齊短語塊對齊句法結構對齊基于實例的機器翻譯中實例庫必須至少做到句子級別的對齊不同對齊級別的差異段落對齊和句子對齊要求保持順序(允許局部順序的調整)只有一個層次詞語對齊和短語塊對齊不要求保持順序只有一個層次句法結構對齊不要求保持順序多層次對齊10/23/202023語言信息處理--機器翻譯II句子對齊110/23/202024語言信息處理--機器翻譯II漢語英語模式1995年初我來成都的那天,沒想到會是在一個冬季的漆黑的日子。I

little

thought

when

I

arrived

inChengdu

in

the

dark,

dark

days

ofwinter,

early

in

1995,

that

I

would

still

behere

more

than

five

years

later.1:1那時我也根本沒有想到會I

little

knew

that

I

would

meet

one

of2:1在這兒呆上五年,也不知Chengdu"s

daughters,

and

later

marry道我會遇到一位成都的女her,

thus

acquiring

a

whole

new兒,并且后來還娶她為妻。family

who

embraced

me

as

one

of一個完全陌生的家庭接納them,

and

thus

I

became

part

of

this了我,我也因此成為成都place.的一部分。句子對齊210/23/202025語言信息處理--機器翻譯II基于長度的句子對齊1基本思想:源語言和目標語言的句子長度存在一定的比例關系用兩個因素來估計一個句珠的概率源語言和目標語言中句子的長度源語言和目標語言中的句子數(shù)(對齊模式)10/23/202026語言信息處理--機器翻譯II基于長度的句子對齊2根據(jù)統(tǒng)計,隨機變量X=lTi/lSi服從正態(tài)分布10/23/202027語言信息處理--機器翻譯II基于長度的句子對齊3設通過語料庫統(tǒng)計得到X的期望為c,方差為v2,那么隨機變量δ將服從[0,1]正態(tài)分布:根據(jù)正態(tài)分布公式可以計算出(直接查表):10/23/202028語言信息處理--機器翻譯II基于長度的句子對齊4對齊模式的概率P(mS,mT)可以通過對語料庫的統(tǒng)計得到。下面是Gale

&

Church根據(jù)UBS語料庫的統(tǒng)計結果:10/23/202029語言信息處理--機器翻譯II基于長度的句子對齊5最優(yōu)路徑的搜索:采用動態(tài)規(guī)劃算法定義P(i,j)=P(s1…si,t1…tj)最優(yōu)對齊為P(m,n)所對應的路徑10/23/202030語言信息處理--機器翻譯II基于長度的句子對齊610/23/202031語言信息處理--機器翻譯II優(yōu)點不依賴于具體的語言;速度快;效果好缺點由于沒有考慮詞語信息,有時會產(chǎn)生一些明顯的錯誤討論長度計算可以采用詞數(shù)或者字節(jié)數(shù),沒有明顯的優(yōu)劣之分基于詞的句子對齊1基本思想:互為翻譯的句子對中,含有互為翻譯的詞語對的概率,大大高于隨機的句子對用兩個因素來估計一個句珠的概率源語言和目標語言中互譯詞語的個數(shù)源語言和目標語言中的句子數(shù)(對齊模式)10/23/202032語言信息處理--機器翻譯II基于詞的句子對齊2優(yōu)點可以充分利用詞語互譯信息,提高正確率缺點單獨使用時,正確率有時低于基于長度的方法(取決于詞典的規(guī)模質量等)時空開銷大討論對于同源的語言(英語和法語,漢語和日語)可以利用詞語同源信息而不使用詞典10/23/202033語言信息處理--機器翻譯II句子對齊小結句子對齊的語料庫是基于語料庫的機器翻譯的基礎;綜合采用基于長度的方法和基于詞匯的方法可以取得較好的效果;句子對齊可以取得很高的正確率,已經(jīng)達到實用水平。10/23/202034語言信息處理--機器翻譯II詞語對齊1特點:保序性不再滿足對齊模式復雜:一對多、多對一、多對多都非常普遍10/23/202035語言信息處理--機器翻譯II詞語對齊2困難:翻譯歧義:一個詞出現(xiàn)兩個以上的譯詞雙語詞典覆蓋率有限:非常普遍的現(xiàn)象位置歧義:出現(xiàn)兩個以上相同的詞漢語詞語切分問題虛詞問題:虛詞的翻譯非常靈活,或沒有對譯詞意譯問題:根本找不到對譯的詞10/23/202036語言信息處理--機器翻譯II詞語對齊3一般而言,一個單詞對齊的模型可以表述為兩個模型的乘積:詞語相似度模型(word

similarity

model)位置扭曲模型(word

distortion

model)用公式表示如下:10/23/202037語言信息處理--機器翻譯II詞語相似度模型1翻譯概率:IBM

Model

1T-Score:Nc:語料庫中單詞c出現(xiàn)的詞數(shù)Ne:語料庫中單詞e出現(xiàn)的詞數(shù)Nec:語料庫中單詞e和單詞c互譯的詞數(shù)10/23/202038語言信息處理--機器翻譯II詞語相似度模型2戴斯系數(shù)(dice

coefficient)設S1和S2分別是兩個集合,則這兩個集合的戴斯系數(shù)可以通過如下公式計算把漢語詞理解為漢字的集合,戴斯系數(shù)就是兩個詞中相同的漢字占兩個詞漢字總數(shù)的比例??紤]到漢字表意性,這種方法在計算漢語詞相似度時有較好的效果計算漢語詞c和英語詞e的相似度:先用英語詞e查英漢詞典,得到所有的漢語對譯詞;計算所有對譯詞和c的戴斯系數(shù),取其中的最大值。10/23/202039語言信息處理--機器翻譯II詞語相似度模型3互信息(mutual

information)通過兩個事件X和Y各自出現(xiàn)的概率為p(X)和p(Y),他們聯(lián)合出現(xiàn)的概率為p(X,Y),這兩個事件之間共同的互信息量定義為:當兩個事件相互獨立時,互信息量為0;當兩個事件傾向于同時出現(xiàn)時,互信息量為正;當兩個事件傾向于互相排斥時,互信息量為負;利用互信息作詞語相似度計算效果較差。10/23/202040語言信息處理--機器翻譯II詞語相似度模型4φ2方法:利用聯(lián)立表(contingency

table)φ2方法的效果比較好Wt+Wt-Ws+31,950(a)12,004(b)Ws-4,793(c)848,330(d)10/23/202041語言信息處理--機器翻譯II詞語相似度模型5對數(shù)似然比(

Log

Likelihood

Ratio,LLR

)對數(shù)似然比在使用中比較有效,在訓練語料庫規(guī)模較小時尤為明顯10/23/202042語言信息處理--機器翻譯II詞語相似度模型6概念相似度利用某種形式的義類詞典(Thesaurus),計算兩個詞語對應的概念之間的相似度其中d是概念p1、p2之間的距離,一般用概念層次體系中兩個結點之間的距離來計算α是一個可條件的參數(shù)10/23/202043語言信息處理--機器翻譯II詞語相似度模型7《同義詞詞林》的概念層次體系虛線用于標識某上層結點到下層結點的路徑10/23/202044語言信息處理--機器翻譯II位置扭曲模型2相對偏移模型10/23/202046語言信息處理--機器翻譯II位置扭曲模型3基于HMM的扭曲模型–將每個對齊看作狀態(tài),對齊位置之間的轉移是狀態(tài)的轉移,該對齊處的單詞對作為輸出。這樣就可以將對齊問題映射到HMM上10/23/202047語言信息處理--機器翻譯II詞語對齊小結詞語對齊比句子對齊困難得多;詞語對齊主要使用一個詞語相似度模型和一個位置扭曲模型;詞語對齊的副產(chǎn)品:雙語詞典抽取貪心算法:每次抽取可能性最高的詞對;詞語抽取和詞語對齊反復迭代可以抽取多詞單元(n元組)10/23/202048語言信息處理--機器翻譯II機器翻譯評價1最早的機器翻譯評價:ALPAC報告機器翻譯評價的常用指標忠實度(Adequacy):譯文在多大程度上傳遞了源文的內容;流利度(Fluency):譯文是否符合目標語言的語法和表達習慣;信息度(Informative):用戶可以從譯文中獲得信息的程度(通過選擇題評分)絕對評價和相對評價10/23/202049語言信息處理--機器翻譯II機器翻譯評價2人工評價準確成本極高不能反復使用自動評價準確率低成本低可以反復使用10/23/202050語言信息處理--機器翻譯II機器翻譯評價3機器翻譯的評價一直是機器翻譯研究領域中一個備受關注的問題;機器翻譯的自動評價越來越引起重視“評測驅動”成為自然語言處理研究的一個主要動力大規(guī)模語料庫的出現(xiàn)、各種機器翻譯算法的提出,使得開發(fā)過程中頻繁的評測成為必需開發(fā)過程中頻繁的評測只能通過采用自動評測方法10/23/202051語言信息處理--機器翻譯II機器翻譯的自動評測完全匹配方法與參考譯文完全相同的譯文才被認為是正確的顯然該標準過于嚴格,不適用編輯距離方法基于測試點的方法基于N元語法的方法10/23/202052語言信息處理--機器翻譯II基于編輯距離的機器翻譯評測110/23/202053語言信息處理--機器翻譯II編輯距離定義:從候選譯文到參考譯文,所需要進行的插入、刪除、替換操作的次數(shù)舉例說明:源文:She

is

a

star

with

the

theatre

company.機器譯文:她是與劇院公司的一顆星。參考譯文:她是劇團的明星。編輯距離:6插入:與 公司 一顆替換:劇團→劇院 明星→星基于編輯距離的機器翻譯評測210/23/202054語言信息處理--機器翻譯II單詞錯誤率:編輯距離除以參考譯文中單詞數(shù)這個指標是從語音識別中借鑒過來的。由于語音識別的結果語序是不可變的,而機器翻譯的結果語序是可變的,顯然這個指標存在一定的缺陷。與位置無關的單詞錯誤率:計算編輯距離時,不考慮插入、刪除、替換操作的順序也就是說,候選譯文與參考譯文相比,多出或不夠的詞進行刪除或插入操作,其余不同的詞進行替換操作。這個指標與單詞錯誤率相比,允許語序的變化,不過又過于靈活。基于測試點的機器翻譯評測1俞士汶等,機器翻譯譯文質量自動評估系統(tǒng),中國中文信息學會1991年論文集,pp.314~319基本思想對于每一個句子,孤立測試點,簡化測試目標(模擬人類標準化考試的辦法)對于每一個句子,采用一種TDL語言描述的

BNF去與譯文匹配,匹配成功則正確,否則錯誤大批量出題,全面評價機器翻譯譯文質量10/23/202055語言信息處理--機器翻譯II基于測試點的機器翻譯評測2測試點分組:單詞、詞組、詞法、語法(初、中、高級)測試點示例:源文:I

am

a

student.測試:譯文中出現(xiàn)“學生/大學生”為正確源文:I

bought

a

table

with

three

dollars.測試:“買”出現(xiàn)在“美元”之后為正確源文:I

bought

a

table

with

three

legs.測試:“買”出現(xiàn)在“腿”之前為正確10/23/202056語言信息處理--機器翻譯II基于測試點的機器翻譯評測3優(yōu)點:全自動實驗證明,評價結果是可信的可以按照人類專家的要求進行單項評測缺點題庫的構造需要具有專門知識的專家,并且成本較高10/23/202057語言信息處理--機器翻譯II基于N元語法的機器翻譯評測1Kishore

Papineni,

Salim

Roukos,

ToddWard,

Wei-Jing

Zhu,

Bleu:

a

Method

forAutomatic

Evaluation

of

MachineTranslation,

IBM

Research,

RC22176(W0109-022)

September

17,

2001基本思想用譯文中出現(xiàn)的N元組和參考譯文中出現(xiàn)的N元組相比,計算匹配的N元組個數(shù)與候選譯文的N元組總個數(shù)的比例允許一個源文有多個參考譯文,綜合評分10/23/202058語言信息處理--機器翻譯II基于N元語法的機器翻譯評測210/23/2020

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論