語言信息處理--機器翻譯II.ppt

上傳人：a*** IP屬地：河南上傳時間：2020-09-27 格式：PPT 頁數(shù)：64 大?。?73.50KB 積分：24 舉報 版權(quán)申訴

已閱讀5頁，還剩59頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、機器翻譯IIMachine Translation II,張宇哈爾濱工業(yè)大學計算機科學與技術(shù)學院 ,2020年9月27日10時35分,語言信息處理-機器翻譯II,2,大綱,基于翻譯記憶的機器翻譯方法基于模板（模式）的機器翻譯方法雙語語料庫對齊技術(shù) 句子對齊詞語對齊機器翻譯的評價,2020年9月27日10時35分,語言信息處理-機器翻譯II,3,翻譯記憶方法1,翻譯記憶方法（Translation Memory）是基于實例方法的特例；也可以把基于實例的方法理解為廣義的翻譯記憶方法；翻譯記憶的基本思想：把已經(jīng)翻譯過的句子保存起來翻譯新句子時，直接到語料庫中去查找如果發(fā)現(xiàn)相同的句

2、子，直接輸出譯文否則交給人去翻譯，但可以提供相似的句子的參考譯文,2020年9月27日10時35分,語言信息處理-機器翻譯II,4,翻譯記憶方法2,翻譯記憶方法主要被應(yīng)用于計算機輔助翻譯（CAT）軟件中翻譯記憶方法的優(yōu)缺點翻譯質(zhì)量有保證隨著使用時間匹配成功率逐步提高特別適用于重復率高的文本翻譯，例如公司的產(chǎn)品說明書的新版本翻譯與語言無關(guān)，適用于各種語言對缺點是匹配成功率不高，特別是剛開始使用時,2020年9月27日10時35分,語言信息處理-機器翻譯II,5,翻譯記憶方法3,計算機輔助翻譯（CAT）軟件已經(jīng)形成了比較成熟的產(chǎn)業(yè) TRADOS 號稱占有國際CAT市場的70% Mic

3、rosoft、Siemens、SAP等國際大公司和一些著名的國際組織都是其用戶雅信CAT 適合中國人的習慣產(chǎn)品已比較成熟國際組織： LISA（Localisation Industry Standards Association）面向用戶：專業(yè)翻譯人員數(shù)據(jù)交換：LISA制定了TMX（Translation Memory eXchange）標準。,2020年9月27日10時35分,語言信息處理-機器翻譯II,6,翻譯記憶方法4,完整的計算機輔助翻譯軟件除了包括翻譯記憶功能以外，還應(yīng)該包括以下功能多種文件格式的分解與合成術(shù)語庫管理功能語料庫的句子對齊（歷史資料的重復利用）項目管理

4、：翻譯任務(wù)的分解與合并翻譯工作量的估計數(shù)據(jù)共享和數(shù)據(jù)交換,2020年9月27日10時35分,語言信息處理-機器翻譯II,7,翻譯記憶方法5,2020年9月27日10時35分,語言信息處理-機器翻譯II,8,基于模板(模式)的機器翻譯方法1,基于模板（Template）或者模式（Pattern）的機器翻譯方法通常也被看做基于實例的機器翻譯方法的一種延伸所謂“翻譯模板”或者“翻譯模式”可以認為是一種顆粒度介于“翻譯規(guī)則”和“翻譯實例”之間的翻譯知識表示形式翻譯規(guī)則：顆粒度大，匹配可能性大，但過于抽象，容易出錯翻譯實例：顆粒度小，不易出錯，但過于具體，匹配可能性小翻譯模板（模式）：介于

5、二者之間，是一種比較合適的知識表示形式一般而言，單語模板（或模式）是一個常量和變量組成的字符串，翻譯模板（或模式）是兩個對應(yīng)的單語模板（或模式），兩個模板之間的變量存在意義對應(yīng)關(guān)系,2020年9月27日10時35分,語言信息處理-機器翻譯II,9,基于模板(模式)的機器翻譯方法2,模板舉例：這個X 比Y 更Z。 The X is more Z than Y. 模板方法的主要問題對模板中變量的約束模板抽取模板的沖突消解,2020年9月27日10時35分,語言信息處理-機器翻譯II,10,Pattern-Based CFG for MT 1,Koichi Takeda, Pattern-

6、Based Context-Free Grammars for Machine Translation, Proc. of 34th ACL, pp. 144- 151, June 1996 給出了翻譯模式的一種形式化定義，并給出了相應(yīng)的翻譯算法以及算法復雜性的理論證明,2020年9月27日10時35分,語言信息處理-機器翻譯II,11,Pattern-Based CFG for MT 2,每個翻譯模板由一個源語言上下文無關(guān)規(guī)則和一個目標語言上下文無關(guān)規(guī)則（這兩個規(guī)則稱為翻譯模板的骨架），以及對這兩個規(guī)則的中心詞約束和鏈接約束構(gòu)成；中心詞約束：對于上下文無關(guān)語法規(guī)則中右部（子結(jié)點）的每個非終

7、結(jié)符，可以指定其中心詞；對于規(guī)則左部（父結(jié)點）的非終結(jié)符，可以直接指定其中心詞，也可以通過使用相同的序號規(guī)定其中心詞等于其右部的某個非終結(jié)符的中心詞；鏈接約束：源語言骨架和目標語言骨架的非終結(jié)符子結(jié)點通過使用相同的序號建立對應(yīng)關(guān)系，具有對應(yīng)關(guān)系的非終結(jié)符互為翻譯。,2020年9月27日10時35分,語言信息處理-機器翻譯II,12,Pattern-Based CFG for MT 3,2020年9月27日10時35分,語言信息處理-機器翻譯II,13,Pattern-Based CFG for MT 3,翻譯的過程分為三步：使用源語言CFG骨架分析輸入句子s 應(yīng)用源語言到目標語言的CFG骨

8、架的鏈接約束，生成一個譯文CFG推導序列根據(jù)譯文CFG推導序列產(chǎn)生譯文模板排序的啟發(fā)式原則：對于源文CFG骨架相同的模板，有中心詞約束的模板優(yōu)先于沒有中心詞約束的模板；對于同一跨度上的兩個結(jié)點，比較其對應(yīng)的模板的源文CFG骨架，非終結(jié)符少的模板優(yōu)先于非終結(jié)符多的模板；中心詞約束被滿足的結(jié)點優(yōu)先于中心詞約束不被滿足的結(jié)點；對于一個輸入串而言，分析步驟越短（推導序列越短）越優(yōu)先。,2020年9月27日10時35分,語言信息處理-機器翻譯II,14,Pattern-Based CFG for MT 4,模板庫的獲?。杭僭O(shè)T是一組翻譯模板，B是雙語語料庫，是一對互為翻譯的句子如果T能夠翻

9、譯句子s為t，那么do nothing；如果T將s譯為t（不等于t），那么：如果T中存在的推導Q，但這個推導不是最優(yōu)解，那么給Q中的模板進行實例化；如果不存在這種推導，那么加入適當?shù)哪０?，使得推導成立?如果根本無法翻譯s（分析失?。敲磳⒅苯蛹尤氲侥０鍘熘?。,2020年9月27日10時35分,語言信息處理-機器翻譯II,15,模板的自動提取,利用一對實例進行泛化 Jaime G. Carbonell, Ralf D. Brown, Generalized Example-Based Machine Translation /Resear

10、ch/GEBMT/ 利用兩對實例進行比較 H. Altay Guvenir, Ilyas Cicekli, Learning Translation Templates from Examples Information Systems, 1998 張健，基于實例的機器翻譯的泛化方法研究，中科院計算所碩士論文，2001,2020年9月27日10時35分,語言信息處理-機器翻譯II,16,通過泛化實例得到翻譯模板,已有實例： Karl Marx was born in Trier, Germany in May 5, 1818. 卡爾馬克思于1818年5月5日出生在德國特里爾城。泛化： was

11、 born in in 于出生在對齊 ,2020年9月27日10時35分,語言信息處理-機器翻譯II,17,通過比較實例得到翻譯模板,已有兩對翻譯實例：我給瑪麗一支筆 I gave Mary a pen. 我給湯姆一本書 I gave Tom a book. 雙側(cè)單語句子分別比較，得到：我給#X 一#Y #Z I give #W a #U. 查找變量的對應(yīng)關(guān)系： #X #W #Y #Z #U,2020年9月27日10時35分,語言信息處理-機器翻譯II,18,實例庫的匹配1,實例匹配的目的是將輸入句子分解成語料庫中實例片斷的組合，這是基于實例的機器翻譯的關(guān)鍵問題之一，實例匹配的各種方法有

12、很大的差異，還沒有那種做法顯示出明顯的優(yōu)勢；實例庫匹配的效率問題：由于實例庫規(guī)模較大，通常需要建立倒排索引；實例庫匹配的其他問題：實例片斷的分解：實例片斷的組合：,2020年9月27日10時35分,語言信息處理-機器翻譯II,19,實例庫的匹配2,實例片斷的分解實例庫中的句子往往太長，直接匹配成功率太低，為了提高實例的重用性，需要將實例庫中的句子分解為片斷幾種通常的做法：按標點符號分解任意分解通過組塊分析進行分解,2020年9月27日10時35分,語言信息處理-機器翻譯II,20,實例庫的匹配3,實例片斷的組合一個被翻譯的句子，往往可以通過各種不同的實例片斷進行組合，如何選

13、擇一個最好的組合？簡單的做法：最大匹配最大概率法：選擇概率乘積最大的片斷組合有點像漢語詞語切分問題,2020年9月27日10時35分,語言信息處理-機器翻譯II,21,片斷譯文的選擇,由于語料庫中一個片斷可能有多種翻譯方法，因此存在片斷譯文的選擇問題；常用的方法：根據(jù)片斷上下文進行排歧；根據(jù)譯文的語言模型選擇概率最大的譯文片斷組合,2020年9月27日10時35分,語言信息處理-機器翻譯II,22,實例庫的對齊,實例庫又稱雙語語料庫（Bilingual Corpus）或平行語料庫（Parallel Corpus）雙語語料庫對齊的級別篇章對齊段落對齊句子對齊詞語對齊短語

14、塊對齊句法結(jié)構(gòu)對齊基于實例的機器翻譯中實例庫必須至少做到句子級別的對齊,2020年9月27日10時35分,語言信息處理-機器翻譯II,23,不同對齊級別的差異,段落對齊和句子對齊要求保持順序（允許局部順序的調(diào)整）只有一個層次詞語對齊和短語塊對齊不要求保持順序只有一個層次句法結(jié)構(gòu)對齊不要求保持順序多層次對齊,2020年9月27日10時35分,語言信息處理-機器翻譯II,24,句子對齊1,2020年9月27日10時35分,語言信息處理-機器翻譯II,25,句子對齊2,2020年9月27日10時35分,語言信息處理-機器翻譯II,26,基于長度的句子對齊1,基本思想：源語言和目標

15、語言的句子長度存在一定的比例關(guān)系用兩個因素來估計一個句珠的概率源語言和目標語言中句子的長度源語言和目標語言中的句子數(shù)（對齊模式）,2020年9月27日10時35分,語言信息處理-機器翻譯II,27,基于長度的句子對齊2,根據(jù)統(tǒng)計，隨機變量X=lTi/lSi服從正態(tài)分布,2020年9月27日10時35分,語言信息處理-機器翻譯II,28,基于長度的句子對齊3,設(shè)通過語料庫統(tǒng)計得到X的期望為c，方差為v2，那么隨機變量將服從0,1正態(tài)分布：根據(jù)正態(tài)分布公式可以計算出(直接查表)：,2020年9月27日10時35分,語言信息處理-機器翻譯II,29,基于長度的句子對齊4,對齊模式的概率P(m

16、S,mT)可以通過對語料庫的統(tǒng)計得到。下面是Gale & Church根據(jù)UBS語料庫的統(tǒng)計結(jié)果：,2020年9月27日10時35分,語言信息處理-機器翻譯II,30,基于長度的句子對齊5,最優(yōu)路徑的搜索：采用動態(tài)規(guī)劃算法定義P(i,j)=P(s1si,t1tj) 最優(yōu)對齊為P(m,n)所對應(yīng)的路徑,2020年9月27日10時35分,語言信息處理-機器翻譯II,31,基于長度的句子對齊6,優(yōu)點不依賴于具體的語言；速度快；效果好缺點由于沒有考慮詞語信息，有時會產(chǎn)生一些明顯的錯誤討論長度計算可以采用詞數(shù)或者字節(jié)數(shù)，沒有明顯的優(yōu)劣之分,2020年9月27日10時35分,語言信息處理

17、-機器翻譯II,32,基于詞的句子對齊1,基本思想：互為翻譯的句子對中，含有互為翻譯的詞語對的概率，大大高于隨機的句子對用兩個因素來估計一個句珠的概率源語言和目標語言中互譯詞語的個數(shù) 源語言和目標語言中的句子數(shù)（對齊模式）,2020年9月27日10時35分,語言信息處理-機器翻譯II,33,基于詞的句子對齊2,優(yōu)點可以充分利用詞語互譯信息，提高正確率缺點單獨使用時，正確率有時低于基于長度的方法（取決于詞典的規(guī)模質(zhì)量等）時空開銷大討論對于同源的語言（英語和法語，漢語和日語）可以利用詞語同源信息而不使用詞典,2020年9月27日10時35分,語言信息處理-機器翻譯II,34,句子對

18、齊小結(jié),句子對齊的語料庫是基于語料庫的機器翻譯的基礎(chǔ)；綜合采用基于長度的方法和基于詞匯的方法可以取得較好的效果；句子對齊可以取得很高的正確率，已經(jīng)達到實用水平。,2020年9月27日10時35分,語言信息處理-機器翻譯II,35,詞語對齊1,特點：保序性不再滿足對齊模式復雜：一對多、多對一、多對多都非常普遍,2020年9月27日10時35分,語言信息處理-機器翻譯II,36,詞語對齊2,困難：翻譯歧義：一個詞出現(xiàn)兩個以上的譯詞雙語詞典覆蓋率有限：非常普遍的現(xiàn)象位置歧義：出現(xiàn)兩個以上相同的詞漢語詞語切分問題虛詞問題：虛詞的翻譯非常靈活，或沒有對譯詞意譯問題：根本找不到對譯的詞

19、,2020年9月27日10時35分,語言信息處理-機器翻譯II,37,詞語對齊3,一般而言，一個單詞對齊的模型可以表述為兩個模型的乘積：詞語相似度模型(word similarity model) 位置扭曲模型(word distortion model) 用公式表示如下：,2020年9月27日10時35分,語言信息處理-機器翻譯II,38,詞語相似度模型1,翻譯概率：IBM Model 1 T-Score： Nc：語料庫中單詞c出現(xiàn)的詞數(shù) Ne：語料庫中單詞e出現(xiàn)的詞數(shù) Nec：語料庫中單詞e和單詞c互譯的詞數(shù),2020年9月27日10時35分,語言信息處理-機器翻譯II,39,詞語相似度

20、模型2,戴斯系數(shù)（dice coefficient）設(shè)S1和S2分別是兩個集合，則這兩個集合的戴斯系數(shù)可以通過如下公式計算把漢語詞理解為漢字的集合，戴斯系數(shù)就是兩個詞中相同的漢字占兩個詞漢字總數(shù)的比例?？紤]到漢字表意性，這種方法在計算漢語詞相似度時有較好的效果計算漢語詞c和英語詞e的相似度：先用英語詞e查英漢詞典，得到所有的漢語對譯詞；計算所有對譯詞和c的戴斯系數(shù)，取其中的最大值。,2020年9月27日10時35分,語言信息處理-機器翻譯II,40,詞語相似度模型3,互信息（mutual information）通過兩個事件X和Y各自出現(xiàn)的概率為p(X)和p(Y)，他們聯(lián)合出現(xiàn)的概

21、率為p(X,Y），這兩個事件之間共同的互信息量定義為：當兩個事件相互獨立時，互信息量為0；當兩個事件傾向于同時出現(xiàn)時，互信息量為正；當兩個事件傾向于互相排斥時，互信息量為負；利用互信息作詞語相似度計算效果較差。,2020年9月27日10時35分,語言信息處理-機器翻譯II,41,詞語相似度模型4,2方法：利用聯(lián)立表（contingency table） 2方法的效果比較好,2020年9月27日10時35分,語言信息處理-機器翻譯II,42,詞語相似度模型5,對數(shù)似然比（ Log Likelihood Ratio,LLR ）對數(shù)似然比在使用中比較有效，在訓練語料庫規(guī)模較小時尤為明顯,2

22、020年9月27日10時35分,語言信息處理-機器翻譯II,43,詞語相似度模型6,概念相似度利用某種形式的義類詞典（Thesaurus），計算兩個詞語對應(yīng)的概念之間的相似度其中d是概念p1、p2之間的距離，一般用概念層次體系中兩個結(jié)點之間的距離來計算是一個可條件的參數(shù),2020年9月27日10時35分,語言信息處理-機器翻譯II,44,詞語相似度模型7,同義詞詞林的概念層次體系虛線用于標識某上層結(jié)點到下層結(jié)點的路徑,2020年9月27日10時35分,語言信息處理-機器翻譯II,45,位置扭曲模型1,絕對扭曲模型：IBM Model 2 l：源語言句子長度 m：目標語言句子長度 i：源語

23、言詞語位置 j：目標語言詞語位置,2020年9月27日10時35分,語言信息處理-機器翻譯II,46,位置扭曲模型2,相對偏移模型,2020年9月27日10時35分,語言信息處理-機器翻譯II,47,位置扭曲模型3,基于HMM的扭曲模型將每個對齊看作狀態(tài)，對齊位置之間的轉(zhuǎn)移是狀態(tài)的轉(zhuǎn)移，該對齊處的單詞對作為輸出。這樣就可以將對齊問題映射到HMM上,2020年9月27日10時35分,語言信息處理-機器翻譯II,48,詞語對齊小結(jié),詞語對齊比句子對齊困難得多；詞語對齊主要使用一個詞語相似度模型和一個位置扭曲模型；詞語對齊的副產(chǎn)品：雙語詞典抽取貪心算法：每次抽取可能性最高的詞對；詞語抽取和

24、詞語對齊反復迭代可以抽取多詞單元（n元組）,2020年9月27日10時35分,語言信息處理-機器翻譯II,49,機器翻譯評價1,最早的機器翻譯評價：ALPAC報告機器翻譯評價的常用指標忠實度（Adequacy）：譯文在多大程度上傳遞了源文的內(nèi)容；流利度（Fluency）：譯文是否符合目標語言的語法和表達習慣；信息度（Informative）：用戶可以從譯文中獲得信息的程度（通過選擇題評分）絕對評價和相對評價,2020年9月27日10時35分,語言信息處理-機器翻譯II,50,機器翻譯評價2,人工評價準確成本極高不能反復使用自動評價準確率低成本低可以反復使用,2020年

25、9月27日10時35分,語言信息處理-機器翻譯II,51,機器翻譯評價3,機器翻譯的評價一直是機器翻譯研究領(lǐng)域中一個備受關(guān)注的問題；機器翻譯的自動評價越來越引起重視 “評測驅(qū)動”成為自然語言處理研究的一個主要動力大規(guī)模語料庫的出現(xiàn)、各種機器翻譯算法的提出，使得開發(fā)過程中頻繁的評測成為必需開發(fā)過程中頻繁的評測只能通過采用自動評測方法,2020年9月27日10時35分,語言信息處理-機器翻譯II,52,機器翻譯的自動評測,完全匹配方法與參考譯文完全相同的譯文才被認為是正確的顯然該標準過于嚴格，不適用編輯距離方法基于測試點的方法基于N元語法的方法,2020年9月27日10時35分,語

26、言信息處理-機器翻譯II,53,基于編輯距離的機器翻譯評測1,編輯距離定義：從候選譯文到參考譯文，所需要進行的插入、刪除、替換操作的次數(shù) 舉例說明：源文：She is a star with the theatre company. 機器譯文：她是與劇院公司的一顆星。參考譯文：她是劇團的明星。編輯距離：6 插入：與公司一顆替換：劇團劇院明星星,2020年9月27日10時35分,語言信息處理-機器翻譯II,54,基于編輯距離的機器翻譯評測2,單詞錯誤率：編輯距離除以參考譯文中單詞數(shù) 這個指標是從語音識別中借鑒過來的。由于語音識別的結(jié)果語序是不可變的，而機器翻譯的結(jié)果語序是可變的

27、，顯然這個指標存在一定的缺陷。與位置無關(guān)的單詞錯誤率：計算編輯距離時，不考慮插入、刪除、替換操作的順序也就是說，候選譯文與參考譯文相比，多出或不夠的詞進行刪除或插入操作，其余不同的詞進行替換操作。這個指標與單詞錯誤率相比，允許語序的變化，不過又過于靈活。,2020年9月27日10時35分,語言信息處理-機器翻譯II,55,基于測試點的機器翻譯評測1,俞士汶等，機器翻譯譯文質(zhì)量自動評估系統(tǒng)，中國中文信息學會1991年論文集，pp. 314319 基本思想對于每一個句子，孤立測試點，簡化測試目標（模擬人類標準化考試的辦法）對于每一個句子，采用一種TDL語言描述的BNF去與譯文匹配，匹配成

28、功則正確，否則錯誤大批量出題，全面評價機器翻譯譯文質(zhì)量,2020年9月27日10時35分,語言信息處理-機器翻譯II,56,基于測試點的機器翻譯評測2,測試點分組：單詞、詞組、詞法、語法（初、中、高級）測試點示例：源文：I am a student. 測試：譯文中出現(xiàn)“學生/大學生”為正確源文：I bought a table with three dollars. 測試：“買”出現(xiàn)在“美元”之后為正確源文：I bought a table with three legs. 測試：“買”出現(xiàn)在“腿”之前為正確,2020年9月27日10時35分,語言信息處理-機器翻譯II,57,基于

29、測試點的機器翻譯評測3,優(yōu)點：全自動實驗證明，評價結(jié)果是可信的可以按照人類專家的要求進行單項評測缺點題庫的構(gòu)造需要具有專門知識的專家，并且成本較高,2020年9月27日10時35分,語言信息處理-機器翻譯II,58,基于N元語法的機器翻譯評測1,Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation, IBM Research, RC22176 (W0109-022) September 17, 200

30、1 基本思想用譯文中出現(xiàn)的N元組和參考譯文中出現(xiàn)的N元組相比，計算匹配的N元組個數(shù)與候選譯文的N元組總個數(shù)的比例允許一個源文有多個參考譯文，綜合評分,2020年9月27日10時35分,語言信息處理-機器翻譯II,59,基于N元語法的機器翻譯評測2,源文：黨指揮槍是我黨的行動指南。候選譯文： It is a guide to action which ensures that the military always obeys the command of the party It is to insure the troops forever hearing the activity guidebook that party direct 參考譯文： It is a guid

人人文庫> 全部分類> 教育資料 > 外文翻譯

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語言信息處理--機器翻譯II.ppt

文檔簡介

溫馨提示

最新文檔

評論

語言信息處理--機器翻譯II.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔