語言信息處理--機器翻譯II.ppt_第1頁
語言信息處理--機器翻譯II.ppt_第2頁
語言信息處理--機器翻譯II.ppt_第3頁
語言信息處理--機器翻譯II.ppt_第4頁
語言信息處理--機器翻譯II.ppt_第5頁
已閱讀5頁,還剩59頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、機器翻譯IIMachine Translation II,張宇 哈爾濱工業(yè)大學計算機科學與技術學院 ,2020年9月27日10時35分,語言信息處理-機器翻譯II,2,大綱,基于翻譯記憶的機器翻譯方法 基于模板(模式)的機器翻譯方法 雙語語料庫對齊技術 句子對齊 詞語對齊 機器翻譯的評價,2020年9月27日10時35分,語言信息處理-機器翻譯II,3,翻譯記憶方法1,翻譯記憶方法(Translation Memory)是基于實例方法的特例; 也可以把基于實例的方法理解為廣義的翻譯記憶方法; 翻譯記憶的基本思想: 把已經翻譯過的句子保存起來 翻譯新句子時,直接到語料庫中去查找 如果發(fā)現(xiàn)相同的句

2、子,直接輸出譯文 否則交給人去翻譯,但可以提供相似的句子的參考譯文,2020年9月27日10時35分,語言信息處理-機器翻譯II,4,翻譯記憶方法2,翻譯記憶方法主要被應用于計算機輔助翻譯(CAT)軟件中 翻譯記憶方法的優(yōu)缺點 翻譯質量有保證 隨著使用時間匹配成功率逐步提高 特別適用于重復率高的文本翻譯,例如公司的產品說明書的新版本翻譯 與語言無關,適用于各種語言對 缺點是匹配成功率不高,特別是剛開始使用時,2020年9月27日10時35分,語言信息處理-機器翻譯II,5,翻譯記憶方法3,計算機輔助翻譯(CAT)軟件已經形成了比較成熟的產業(yè) TRADOS 號稱占有國際CAT市場的70% Mic

3、rosoft、Siemens、SAP等國際大公司和一些著名的國際組織都是其用戶 雅信CAT 適合中國人的習慣 產品已比較成熟 國際組織: LISA(Localisation Industry Standards Association) 面向用戶:專業(yè)翻譯人員 數據交換:LISA制定了TMX(Translation Memory eXchange)標準。,2020年9月27日10時35分,語言信息處理-機器翻譯II,6,翻譯記憶方法4,完整的計算機輔助翻譯軟件除了包括翻譯記憶功能以外,還應該包括以下功能 多種文件格式的分解與合成 術語庫管理功能 語料庫的句子對齊(歷史資料的重復利用) 項目管理

4、: 翻譯任務的分解與合并 翻譯工作量的估計 數據共享和數據交換,2020年9月27日10時35分,語言信息處理-機器翻譯II,7,翻譯記憶方法5,2020年9月27日10時35分,語言信息處理-機器翻譯II,8,基于模板(模式)的機器翻譯方法1,基于模板(Template)或者模式(Pattern)的機器翻譯方法通常也被看做基于實例的機器翻譯方法的一種延伸 所謂“翻譯模板”或者“翻譯模式”可以認為是一種顆粒度介于“翻譯規(guī)則”和“翻譯實例”之間的翻譯知識表示形式 翻譯規(guī)則:顆粒度大,匹配可能性大,但過于抽象,容易出錯 翻譯實例:顆粒度小,不易出錯,但過于具體,匹配可能性小 翻譯模板(模式):介于

5、二者之間,是一種比較合適的知識表示形式 一般而言,單語模板(或模式)是一個常量和變量組成的字符串,翻譯模板(或模式)是兩個對應的單語模板(或模式),兩個模板之間的變量存在意義對應關系,2020年9月27日10時35分,語言信息處理-機器翻譯II,9,基于模板(模式)的機器翻譯方法2,模板舉例: 這個X 比Y 更Z。 The X is more Z than Y. 模板方法的主要問題 對模板中變量的約束 模板抽取 模板的沖突消解,2020年9月27日10時35分,語言信息處理-機器翻譯II,10,Pattern-Based CFG for MT 1,Koichi Takeda, Pattern-

6、Based Context-Free Grammars for Machine Translation, Proc. of 34th ACL, pp. 144- 151, June 1996 給出了翻譯模式的一種形式化定義,并給出了相應的翻譯算法以及算法復雜性的理論證明,2020年9月27日10時35分,語言信息處理-機器翻譯II,11,Pattern-Based CFG for MT 2,每個翻譯模板由一個源語言上下文無關規(guī)則和一個目標語言上下文無關規(guī)則(這兩個規(guī)則稱為翻譯模板的骨架),以及對這兩個規(guī)則的中心詞約束和鏈接約束構成; 中心詞約束:對于上下文無關語法規(guī)則中右部(子結點)的每個非終

7、結符,可以指定其中心詞;對于規(guī)則左部(父結點)的非終結符,可以直接指定其中心詞,也可以通過使用相同的序號規(guī)定其中心詞等于其右部的某個非終結符的中心詞; 鏈接約束:源語言骨架和目標語言骨架的非終結符子結點通過使用相同的序號建立對應關系,具有對應關系的非終結符互為翻譯。,2020年9月27日10時35分,語言信息處理-機器翻譯II,12,Pattern-Based CFG for MT 3,2020年9月27日10時35分,語言信息處理-機器翻譯II,13,Pattern-Based CFG for MT 3,翻譯的過程分為三步: 使用源語言CFG骨架分析輸入句子s 應用源語言到目標語言的CFG骨

8、架的鏈接約束,生成一個譯文CFG推導序列 根據譯文CFG推導序列產生譯文 模板排序的啟發(fā)式原則: 對于源文CFG骨架相同的模板,有中心詞約束的模板優(yōu)先于沒有中心詞約束的模板; 對于同一跨度上的兩個結點,比較其對應的模板的源文CFG骨架,非終結符少的模板優(yōu)先于非終結符多的模板; 中心詞約束被滿足的結點優(yōu)先于中心詞約束不被滿足的結點; 對于一個輸入串而言,分析步驟越短(推導序列越短)越優(yōu)先。,2020年9月27日10時35分,語言信息處理-機器翻譯II,14,Pattern-Based CFG for MT 4,模板庫的獲取:假設T是一組翻譯模板,B是雙語語料庫,是一對互為翻譯的句子 如果T能夠翻

9、譯句子s為t,那么do nothing; 如果T將s譯為t(不等于t),那么: 如果T中存在的推導Q,但這個推導不是最優(yōu)解,那么給Q中的模板進行實例化; 如果不存在這種推導,那么加入適當的模板,使得推導成立; 如果根本無法翻譯s(分析失?。?,那么將直接加入到模板庫中。,2020年9月27日10時35分,語言信息處理-機器翻譯II,15,模板的自動提取,利用一對實例進行泛化 Jaime G. Carbonell, Ralf D. Brown, Generalized Example-Based Machine Translation /Resear

10、ch/GEBMT/ 利用兩對實例進行比較 H. Altay Guvenir, Ilyas Cicekli, Learning Translation Templates from Examples Information Systems, 1998 張健,基于實例的機器翻譯的泛化方法研究,中科院計算所碩士論文,2001,2020年9月27日10時35分,語言信息處理-機器翻譯II,16,通過泛化實例得到翻譯模板,已有實例: Karl Marx was born in Trier, Germany in May 5, 1818. 卡爾馬克思于1818年5月5日出生在德國特里爾城。 泛化: was

11、 born in in 于出生在 對齊 ,2020年9月27日10時35分,語言信息處理-機器翻譯II,17,通過比較實例得到翻譯模板,已有兩對翻譯實例: 我給瑪麗一支筆 I gave Mary a pen. 我給湯姆一本書 I gave Tom a book. 雙側單語句子分別比較,得到: 我給#X 一#Y #Z I give #W a #U. 查找變量的對應關系: #X #W #Y #Z #U,2020年9月27日10時35分,語言信息處理-機器翻譯II,18,實例庫的匹配1,實例匹配的目的是將輸入句子分解成語料庫中實例片斷的組合,這是基于實例的機器翻譯的關鍵問題之一,實例匹配的各種方法有

12、很大的差異,還沒有那種做法顯示出明顯的優(yōu)勢; 實例庫匹配的效率問題:由于實例庫規(guī)模較大,通常需要建立倒排索引; 實例庫匹配的其他問題: 實例片斷的分解: 實例片斷的組合:,2020年9月27日10時35分,語言信息處理-機器翻譯II,19,實例庫的匹配2,實例片斷的分解 實例庫中的句子往往太長,直接匹配成功率太低,為了提高實例的重用性,需要將實例庫中的句子分解為片斷 幾種通常的做法: 按標點符號分解 任意分解 通過組塊分析進行分解,2020年9月27日10時35分,語言信息處理-機器翻譯II,20,實例庫的匹配3,實例片斷的組合 一個被翻譯的句子,往往可以通過各種不同的實例片斷進行組合,如何選

13、擇一個最好的組合? 簡單的做法: 最大匹配 最大概率法:選擇概率乘積最大的片斷組合 有點像漢語詞語切分問題,2020年9月27日10時35分,語言信息處理-機器翻譯II,21,片斷譯文的選擇,由于語料庫中一個片斷可能有多種翻譯方法,因此存在片斷譯文的選擇問題; 常用的方法: 根據片斷上下文進行排歧; 根據譯文的語言模型選擇概率最大的譯文片斷組合,2020年9月27日10時35分,語言信息處理-機器翻譯II,22,實例庫的對齊,實例庫又稱雙語語料庫(Bilingual Corpus)或平行語料庫(Parallel Corpus) 雙語語料庫對齊的級別 篇章對齊 段落對齊 句子對齊 詞語對齊 短語

14、塊對齊 句法結構對齊 基于實例的機器翻譯中實例庫必須至少做到句子級別的對齊,2020年9月27日10時35分,語言信息處理-機器翻譯II,23,不同對齊級別的差異,段落對齊和句子對齊 要求保持順序(允許局部順序的調整) 只有一個層次 詞語對齊和短語塊對齊 不要求保持順序 只有一個層次 句法結構對齊 不要求保持順序 多層次對齊,2020年9月27日10時35分,語言信息處理-機器翻譯II,24,句子對齊1,2020年9月27日10時35分,語言信息處理-機器翻譯II,25,句子對齊2,2020年9月27日10時35分,語言信息處理-機器翻譯II,26,基于長度的句子對齊1,基本思想:源語言和目標

15、語言的句子長度存在一定的比例關系 用兩個因素來估計一個句珠的概率 源語言和目標語言中句子的長度 源語言和目標語言中的句子數(對齊模式),2020年9月27日10時35分,語言信息處理-機器翻譯II,27,基于長度的句子對齊2,根據統(tǒng)計,隨機變量X=lTi/lSi服從正態(tài)分布,2020年9月27日10時35分,語言信息處理-機器翻譯II,28,基于長度的句子對齊3,設通過語料庫統(tǒng)計得到X的期望為c,方差為v2,那么隨機變量將服從0,1正態(tài)分布: 根據正態(tài)分布公式可以計算出(直接查表):,2020年9月27日10時35分,語言信息處理-機器翻譯II,29,基于長度的句子對齊4,對齊模式的概率P(m

16、S,mT)可以通過對語料庫的統(tǒng)計得到。 下面是Gale & Church根據UBS語料庫的統(tǒng)計結果:,2020年9月27日10時35分,語言信息處理-機器翻譯II,30,基于長度的句子對齊5,最優(yōu)路徑的搜索:采用動態(tài)規(guī)劃算法 定義P(i,j)=P(s1si,t1tj) 最優(yōu)對齊為P(m,n)所對應的路徑,2020年9月27日10時35分,語言信息處理-機器翻譯II,31,基于長度的句子對齊6,優(yōu)點 不依賴于具體的語言; 速度快; 效果好 缺點 由于沒有考慮詞語信息,有時會產生一些明顯的錯誤 討論 長度計算可以采用詞數或者字節(jié)數,沒有明顯的優(yōu)劣之分,2020年9月27日10時35分,語言信息處理

17、-機器翻譯II,32,基于詞的句子對齊1,基本思想:互為翻譯的句子對中,含有互為翻譯的詞語對的概率,大大高于隨機的句子對 用兩個因素來估計一個句珠的概率 源語言和目標語言中互譯詞語的個數 源語言和目標語言中的句子數(對齊模式),2020年9月27日10時35分,語言信息處理-機器翻譯II,33,基于詞的句子對齊2,優(yōu)點 可以充分利用詞語互譯信息,提高正確率 缺點 單獨使用時,正確率有時低于基于長度的方法(取決于詞典的規(guī)模質量等) 時空開銷大 討論 對于同源的語言(英語和法語,漢語和日語)可以利用詞語同源信息而不使用詞典,2020年9月27日10時35分,語言信息處理-機器翻譯II,34,句子對

18、齊小結,句子對齊的語料庫是基于語料庫的機器翻譯的基礎; 綜合采用基于長度的方法和基于詞匯的方法可以取得較好的效果; 句子對齊可以取得很高的正確率,已經達到實用水平。,2020年9月27日10時35分,語言信息處理-機器翻譯II,35,詞語對齊1,特點: 保序性不再滿足 對齊模式復雜:一對多、多對一、多對多都非常普遍,2020年9月27日10時35分,語言信息處理-機器翻譯II,36,詞語對齊2,困難: 翻譯歧義:一個詞出現(xiàn)兩個以上的譯詞 雙語詞典覆蓋率有限:非常普遍的現(xiàn)象 位置歧義:出現(xiàn)兩個以上相同的詞 漢語詞語切分問題 虛詞問題:虛詞的翻譯非常靈活,或沒有對譯詞 意譯問題:根本找不到對譯的詞

19、,2020年9月27日10時35分,語言信息處理-機器翻譯II,37,詞語對齊3,一般而言,一個單詞對齊的模型可以表述為兩個模型的乘積: 詞語相似度模型(word similarity model) 位置扭曲模型(word distortion model) 用公式表示如下:,2020年9月27日10時35分,語言信息處理-機器翻譯II,38,詞語相似度模型1,翻譯概率:IBM Model 1 T-Score: Nc:語料庫中單詞c出現(xiàn)的詞數 Ne:語料庫中單詞e出現(xiàn)的詞數 Nec:語料庫中單詞e和單詞c互譯的詞數,2020年9月27日10時35分,語言信息處理-機器翻譯II,39,詞語相似度

20、模型2,戴斯系數(dice coefficient) 設S1和S2分別是兩個集合,則這兩個集合的戴斯系數可以通過如下公式計算 把漢語詞理解為漢字的集合,戴斯系數就是兩個詞中相同的漢字占兩個詞漢字總數的比例??紤]到漢字表意性,這種方法在計算漢語詞相似度時有較好的效果 計算漢語詞c和英語詞e的相似度: 先用英語詞e查英漢詞典,得到所有的漢語對譯詞; 計算所有對譯詞和c的戴斯系數,取其中的最大值。,2020年9月27日10時35分,語言信息處理-機器翻譯II,40,詞語相似度模型3,互信息(mutual information) 通過兩個事件X和Y各自出現(xiàn)的概率為p(X)和p(Y),他們聯(lián)合出現(xiàn)的概

21、率為p(X,Y),這兩個事件之間共同的互信息量定義為: 當兩個事件相互獨立時,互信息量為0; 當兩個事件傾向于同時出現(xiàn)時,互信息量為正; 當兩個事件傾向于互相排斥時,互信息量為負; 利用互信息作詞語相似度計算效果較差。,2020年9月27日10時35分,語言信息處理-機器翻譯II,41,詞語相似度模型4,2方法:利用聯(lián)立表(contingency table) 2方法的效果比較好,2020年9月27日10時35分,語言信息處理-機器翻譯II,42,詞語相似度模型5,對數似然比( Log Likelihood Ratio,LLR ) 對數似然比在使用中比較有效,在訓練語料庫規(guī)模較小時尤為明顯,2

22、020年9月27日10時35分,語言信息處理-機器翻譯II,43,詞語相似度模型6,概念相似度 利用某種形式的義類詞典(Thesaurus),計算兩個詞語對應的概念之間的相似度 其中d是概念p1、p2之間的距離,一般用概念層次體系中兩個結點之間的距離來計算是一個可條件的參數,2020年9月27日10時35分,語言信息處理-機器翻譯II,44,詞語相似度模型7,同義詞詞林的概念層次體系 虛線用于標識某上層結點到下層結點的路徑,2020年9月27日10時35分,語言信息處理-機器翻譯II,45,位置扭曲模型1,絕對扭曲模型:IBM Model 2 l:源語言句子長度 m:目標語言句子長度 i:源語

23、言詞語位置 j:目標語言詞語位置,2020年9月27日10時35分,語言信息處理-機器翻譯II,46,位置扭曲模型2,相對偏移模型,2020年9月27日10時35分,語言信息處理-機器翻譯II,47,位置扭曲模型3,基于HMM的扭曲模型 將每個對齊看作狀態(tài),對齊位置之間的轉移是狀態(tài)的轉移,該對齊處的單詞對作為輸出。這樣就可以將對齊問題映射到HMM上,2020年9月27日10時35分,語言信息處理-機器翻譯II,48,詞語對齊小結,詞語對齊比句子對齊困難得多; 詞語對齊主要使用一個詞語相似度模型和一個位置扭曲模型; 詞語對齊的副產品:雙語詞典抽取 貪心算法:每次抽取可能性最高的詞對; 詞語抽取和

24、詞語對齊反復迭代 可以抽取多詞單元(n元組),2020年9月27日10時35分,語言信息處理-機器翻譯II,49,機器翻譯評價1,最早的機器翻譯評價:ALPAC報告 機器翻譯評價的常用指標 忠實度(Adequacy):譯文在多大程度上傳遞了源文的內容; 流利度(Fluency):譯文是否符合目標語言的語法和表達習慣; 信息度(Informative):用戶可以從譯文中獲得信息的程度(通過選擇題評分) 絕對評價和相對評價,2020年9月27日10時35分,語言信息處理-機器翻譯II,50,機器翻譯評價2,人工評價 準確 成本極高 不能反復使用 自動評價 準確率低 成本低 可以反復使用,2020年

25、9月27日10時35分,語言信息處理-機器翻譯II,51,機器翻譯評價3,機器翻譯的評價一直是機器翻譯研究領域中一個備受關注的問題; 機器翻譯的自動評價越來越引起重視 “評測驅動”成為自然語言處理研究的一個主要動力 大規(guī)模語料庫的出現(xiàn)、各種機器翻譯算法的提出,使得開發(fā)過程中頻繁的評測成為必需 開發(fā)過程中頻繁的評測只能通過采用自動評測方法,2020年9月27日10時35分,語言信息處理-機器翻譯II,52,機器翻譯的自動評測,完全匹配方法 與參考譯文完全相同的譯文才被認為是正確的 顯然該標準過于嚴格,不適用 編輯距離方法 基于測試點的方法 基于N元語法的方法,2020年9月27日10時35分,語

26、言信息處理-機器翻譯II,53,基于編輯距離的機器翻譯評測1,編輯距離定義: 從候選譯文到參考譯文,所需要進行的插入、刪除、替換操作的次數 舉例說明: 源文:She is a star with the theatre company. 機器譯文:她是與劇院公司的一顆星。 參考譯文:她是劇團的明星。 編輯距離:6 插入:與 公司 一顆 替換:劇團劇院 明星星,2020年9月27日10時35分,語言信息處理-機器翻譯II,54,基于編輯距離的機器翻譯評測2,單詞錯誤率:編輯距離除以參考譯文中單詞數 這個指標是從語音識別中借鑒過來的。 由于語音識別的結果語序是不可變的,而機器翻譯的結果語序是可變的

27、,顯然這個指標存在一定的缺陷。 與位置無關的單詞錯誤率:計算編輯距離時,不考慮插入、刪除、替換操作的順序 也就是說,候選譯文與參考譯文相比,多出或不夠的詞進行刪除或插入操作,其余不同的詞進行替換操作。 這個指標與單詞錯誤率相比,允許語序的變化,不過又過于靈活。,2020年9月27日10時35分,語言信息處理-機器翻譯II,55,基于測試點的機器翻譯評測1,俞士汶等,機器翻譯譯文質量自動評估系統(tǒng),中國中文信息學會1991年論文集,pp. 314319 基本思想 對于每一個句子,孤立測試點,簡化測試目標(模擬人類標準化考試的辦法) 對于每一個句子,采用一種TDL語言描述的BNF去與譯文匹配,匹配成

28、功則正確,否則錯誤 大批量出題,全面評價機器翻譯譯文質量,2020年9月27日10時35分,語言信息處理-機器翻譯II,56,基于測試點的機器翻譯評測2,測試點分組: 單詞、詞組、詞法、語法(初、中、高級) 測試點示例: 源文:I am a student. 測試:譯文中出現(xiàn)“學生/大學生”為正確 源文:I bought a table with three dollars. 測試:“買”出現(xiàn)在“美元”之后為正確 源文:I bought a table with three legs. 測試:“買”出現(xiàn)在“腿”之前為正確,2020年9月27日10時35分,語言信息處理-機器翻譯II,57,基于

29、測試點的機器翻譯評測3,優(yōu)點: 全自動 實驗證明,評價結果是可信的 可以按照人類專家的要求進行單項評測 缺點 題庫的構造需要具有專門知識的專家,并且成本較高,2020年9月27日10時35分,語言信息處理-機器翻譯II,58,基于N元語法的機器翻譯評測1,Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation, IBM Research, RC22176 (W0109-022) September 17, 200

30、1 基本思想 用譯文中出現(xiàn)的N元組和參考譯文中出現(xiàn)的N元組相比,計算匹配的N元組個數與候選譯文的N元組總個數的比例 允許一個源文有多個參考譯文,綜合評分,2020年9月27日10時35分,語言信息處理-機器翻譯II,59,基于N元語法的機器翻譯評測2,源文:黨指揮槍是我黨的行動指南。 候選譯文: It is a guide to action which ensures that the military always obeys the command of the party It is to insure the troops forever hearing the activity guidebook that party direct 參考譯文: It is a guid

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論