機(jī)器翻譯原理_第1頁
機(jī)器翻譯原理_第2頁
機(jī)器翻譯原理_第3頁
機(jī)器翻譯原理_第4頁
機(jī)器翻譯原理_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、機(jī)器翻譯原理Part 雙語語料庫對(duì)齊及翻譯知識(shí)自動(dòng)獲取技術(shù)MTLAB of HIT1主要內(nèi)容 概述 為什么要自動(dòng)地獲取知識(shí)(Why ?)獲取什么知識(shí) (What ?)如何獲取知識(shí) (How ?) 雙語語料庫對(duì)齊加工句子對(duì)齊詞匯對(duì)齊結(jié)構(gòu)對(duì)齊 翻譯知識(shí)的獲取直接利用雙語語料庫獲取翻譯知識(shí)的研究間接利用雙語語料庫獲取翻譯知識(shí)的研究2為什么要自動(dòng)獲取知識(shí)(Why ?) 機(jī)器翻譯的發(fā)展現(xiàn)狀 Internet 的發(fā)展進(jìn)一步促進(jìn)了對(duì)機(jī)器翻譯技術(shù)的需求 現(xiàn)有的機(jī)器翻譯系統(tǒng)不能令人滿意 “滿篇英文難不住,滿篇中文看不懂” “ MT,不是machine translation,而是mad translation”

2、 存在的主要問題 傳統(tǒng)的機(jī)器翻譯:手工編寫規(guī)則 知識(shí)獲取瓶頸 解決的途徑 從語料庫中自動(dòng)獲取機(jī)器翻譯所需要的各種知識(shí) 3什么是知識(shí)? Bacon: “知識(shí)就是力量” Feigenbaum: “知識(shí)與信息不一樣. 知識(shí)是信息經(jīng)過加工整理、解釋、挑選和改造而形成的” 董振冬: 知識(shí)是一個(gè)系統(tǒng),是一個(gè)包含著各種概念與概念之間的關(guān)系,以及概念的屬性與屬性之間的關(guān)系的系統(tǒng)。4獲取什么知識(shí)(What ?) 單語 詞匯:分詞、詞性標(biāo)注 語法(結(jié)構(gòu)):詞性標(biāo)注、句法分析 語義:詞義排歧、聚類分析 雙語 翻譯知識(shí) 詞典知識(shí) 結(jié)構(gòu)轉(zhuǎn)換知識(shí) 譯文選擇知識(shí) 5如何獲取知識(shí)(How ?) 知識(shí)獲取的主要方法 手工獲取知

3、識(shí) 智能人機(jī)交互 統(tǒng)計(jì)方法(HMM, PCFG) 機(jī)器學(xué)習(xí)方法決策樹歸納學(xué)習(xí)基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)的學(xué)習(xí)方法(Eric Brill) 基于實(shí)例的方法 6翻譯知識(shí)獲取 知識(shí)獲取過程: 數(shù)據(jù)預(yù)處理 知識(shí)挖掘 知識(shí)評(píng)價(jià)雙語語料庫對(duì)齊加工 翻譯知識(shí)自動(dòng)獲取 7雙語語料庫及其對(duì)齊技術(shù)(1) 語料庫 語料庫(Corpora)是按照一定的原則組織在一起的真實(shí)的自 然語言數(shù)據(jù)(包括書面語和口語)的集合,主要用于研究自 然語言的規(guī)律,特別是統(tǒng)計(jì)語言學(xué)模型的訓(xùn)練以及相關(guān)系 統(tǒng)的評(píng)價(jià)和評(píng)測(cè) 語料庫語言學(xué) 語料庫語言學(xué)是以語料庫為基本知識(shí)源來研究自然語言規(guī) 律的學(xué)科,主要研究內(nèi)容包括語料庫加工的理論、方法和 工具以及基于

4、語料庫的知識(shí)獲取。 單語語料庫(Monolingual Corpus)和多語語 料庫(Multilingual Corpora) 8雙語語料庫及其對(duì)齊技術(shù)(2) 雙語語料庫的建設(shè) 雙語語料庫(Bilingual Corpora,Parallel Corpora) 國外: 加拿大的議會(huì)會(huì)議錄(Canadian Hansards),(英法) 英國Brighton大學(xué)語言中心雙語語料庫INTERSECT,(英法書面語) 英國Birmingham大學(xué)的LINGUA多語語料庫項(xiàng)目,英、法、希臘語 加拿大的BCD(Bilingual Canadian Dictionary)詞典編纂項(xiàng)目 瑞典Uppsala

5、大學(xué)語言學(xué)系建立的Scania多語語料庫 國內(nèi): 建立了一些單語語料,尚無大規(guī)模漢外雙語庫的報(bào)道 目前國內(nèi)基于漢外雙語語料庫的研究大都處于實(shí)驗(yàn)和摸索階段 香港科技大學(xué)的英漢雙語語料庫HKUST 哈工大-微軟聯(lián)合實(shí)驗(yàn)室:6萬句對(duì) 9雙語語料庫及其對(duì)齊技術(shù)(3) 雙語語料庫的對(duì)齊技術(shù)對(duì)齊:從互譯的不同語言文本中找出互譯片斷的過程語料庫的加工深度決定語料庫所能提供的知識(shí)的粒度雙語語料庫對(duì)齊可分為段落、句子、短語、單詞不同級(jí)別 句子對(duì)齊 詞對(duì)齊 短語(結(jié)構(gòu))對(duì)齊 10雙語語料庫對(duì)齊技術(shù):句子對(duì)齊(1)基于長度的句子對(duì)齊方法源語言文本的長度與譯文長度有很強(qiáng)的相關(guān)性基于詞數(shù)長度的對(duì)齊(Brown)基于字符

6、數(shù)的長度對(duì)齊方法(Gale Church)這些算法都把句子對(duì)齊看作是句子長的函數(shù);不需要額外的詞典信息;但是容易造成錯(cuò)誤的蔓延。基于詞匯的句子對(duì)齊方法Simard等人提出了在長度標(biāo)準(zhǔn)上加上同源概念(Cognate) 來提高算法的性能Kay和Roscheisen提出了另一種基于語匯的對(duì)齊算法,在該算法中選擇句子對(duì)齊的標(biāo)準(zhǔn)是其中詞匯對(duì)齊的數(shù)量。11雙語語料庫對(duì)齊技術(shù):句子對(duì)齊(2)Debili 和Sammouda實(shí)現(xiàn)了Simard的思想,并采用雙語典為指導(dǎo),以縮小搜索空間Church利用雙語文本中字母的對(duì)應(yīng)信息,在1993年設(shè)計(jì)了一種字符對(duì)齊算法長度方法與詞匯方法相結(jié)合(Wu、Utsuro)不少學(xué)

7、者認(rèn)為句子對(duì)齊已經(jīng)達(dá)到可以實(shí)用(98)12雙語語料庫對(duì)齊技術(shù):詞匯對(duì)齊(1)詞匯對(duì)齊是指在源文和對(duì)應(yīng)的譯文中找到詞匯級(jí)的對(duì)譯關(guān)系 大家 都 叫 他 毛 伯伯 。 Everybody calls him Uncle Mao . 由于詞匯對(duì)齊比句子對(duì)齊提供了更細(xì)粒度的對(duì)譯信息,因此可以為自然語言處理提供更大程度的支持13雙語語料庫對(duì)齊技術(shù):詞匯對(duì)齊(2)詞匯對(duì)齊的困難詞匯對(duì)齊不滿足次序性假設(shè)詞匯對(duì)齊的模式十分復(fù)雜(1:1,1:m,m:1,m:m) 她改變角度去寫他的報(bào)告以遷就她的聽眾. She angles her reports to suit the people she is speakin

8、g to.詞匯對(duì)齊匹配關(guān)系難以斷定(詞典,長度) 采用這種新裝置 The adoption of this new device.漢語的特點(diǎn)及英語和漢語間的固有差異漢語分詞問題; 慣用搭配、成語、諺語14雙語語料庫的對(duì)齊技術(shù):詞匯對(duì)齊(3)基于統(tǒng)計(jì)的詞匯對(duì)齊方法主要思想: 對(duì)大規(guī)模雙語語料庫進(jìn)行統(tǒng)計(jì),獲得對(duì)譯詞的翻譯概率 Brown(1,778,620),Gale(897,077),Dagan 基于統(tǒng)計(jì)機(jī)器翻譯模型的詞匯對(duì)齊(Brown) 其中的翻譯模型通過詞匯對(duì)齊模型來實(shí)現(xiàn); 通過EM算法迭代訓(xùn)練詞匯翻譯概率; 問題:參數(shù)空間巨大; 局部最優(yōu)基于同現(xiàn)的詞匯對(duì)應(yīng)抽取(Gale &Church)

9、 同現(xiàn)測(cè)度函數(shù):聯(lián)列表, 互信息,Dice系數(shù),對(duì)數(shù)似然比15雙語語料庫的對(duì)齊技術(shù):詞匯對(duì)齊(4)基于詞典的詞匯對(duì)齊方法詞典包含雙語的對(duì)譯信息,因此是進(jìn)行詞對(duì)齊的重要資源日本學(xué)者Takehito Utsuro 應(yīng)用基于雙語詞典的改進(jìn)算法對(duì)日英雙語文本(439句日語 423句英文)進(jìn)行了試驗(yàn):將詞典中已經(jīng)給出的詞對(duì)共現(xiàn)刪除,而后對(duì)剩下的詞計(jì)算共現(xiàn)信息。采用含有50,000個(gè)詞條的日英詞典,試驗(yàn)表明提高了日英術(shù)語詞典的抽取效果Ker, Wang等引入語義詞典提高了對(duì)齊的召回率其他基于語言學(xué)比較(Huang),利用Chunk分析(Sun)16英漢雙語語料庫詞對(duì)齊實(shí)驗(yàn) 現(xiàn)有方法存在的問題統(tǒng)計(jì)方法:語料

10、庫規(guī)模小,統(tǒng)計(jì)數(shù)據(jù)不足詞典方法:詞典譯文覆蓋率較低,對(duì)齊的召回率低改進(jìn)統(tǒng)計(jì)方法:在小規(guī)模語料庫提高統(tǒng)計(jì)學(xué)習(xí)質(zhì)量詞典方法:引入基于詞典的模糊匹配 使用語義詞典,引入基于語義類的對(duì)齊統(tǒng)計(jì)、詞典和語言學(xué)知識(shí)相結(jié)合 17基于詞典的詞對(duì)齊(1)完全基于詞典的詞對(duì)齊實(shí)驗(yàn)(DA) 正確率: 96.16% 召回率:55.37% 18基于詞典的詞對(duì)齊(2)詞典模糊匹配 He abandoned himself to grief. 他不勝悲傷。(悲痛,傷心事,憂傷) 漢語詞c1和c2的模糊匹配相似度: 英語詞e和漢語詞c的模糊匹配相似度: 基于模糊匹配的詞對(duì)齊(DSimA) h10.5 正確率: 94.47% 召

11、回率:68.49% h10.7 正確率: 96.13% 召回率:58.92% 19基于詞典的詞對(duì)齊(3)語義相似度(CSimA) 同義詞詞林 定義語義相似度: 基于語義相似度的詞對(duì)齊(CSimA): h 0.5 正確率: 61.25% 召回率:36.94% h 1 正確率: 83.55% 召回率:38.86% DA+DSimA+CSimA 正確率: 91.16% 召回率:72.92%20基于統(tǒng)計(jì)的翻譯詞表自動(dòng)獲?。?)生成N-gram候選翻譯單元多詞對(duì)應(yīng)問題:hard disk/硬盤; profile/配置 文件.漢語分詞問題:驅(qū)動(dòng)器: 驅(qū)動(dòng) - 器; 單擊:單-擊N-gram的抽取: 停用詞

12、將句子分段 The project manager may use the e-mail system to view and reply to message from workgroup member . 生成的N-gram候選:project project-manager use e-mail e-mail-system view reply message workgroup workgroup-member 21基于統(tǒng)計(jì)的翻譯詞表自動(dòng)獲?。?)翻譯概率的計(jì)算模型對(duì)于任意一對(duì)源語詞Ws和目標(biāo)語詞Wt ,設(shè): a = freq(Ws,Wt) b = freq(Ws) - freq(Ws

13、,Wt) c = freq(Wt) - freq(Ws,Wt) d= N a b - c 聯(lián)列表法: hg (Ws,Wt)= (ad-bc) 2 / (a+b)(a+c)(b+d)(b+c) Dice系數(shù)(Dice Coefficient): Dice(Ws,Wt)= 2 freq(Ws,Wt) / freq(Ws) + freq(Wt) 22基于統(tǒng)計(jì)的翻譯詞表自動(dòng)獲?。?)翻譯概率的計(jì)算模型 互信息方法(Mutual Information): MI(Ws,Wt)= log2(freq(Ws,Wt) / freq(Ws) freq(Wt) 對(duì)數(shù)似然比(Log Likelihood Ratio

14、,LLR) : LLR(Ws,Wt)=2logL(p1,a,a+b)+logL(p2,c,c+d) - logL(p,a,a+b) - logL(p,c,c+d) 其中,logL(p,k,n)=klog(p)+(n-k)log(1-p), p1=a/(a+b), p2=c/(c+d), p=(a+c)/(a+b+c+d) 詞典加權(quán)同現(xiàn)測(cè)度: Wscore (Ws,Wt)=log2(2+DSim(Ws,Wt)*Score (Ws,Wt)23基于統(tǒng)計(jì)的翻譯詞表自動(dòng)獲?。?)基于迭代的翻譯詞表自動(dòng)抽取算法 間接相關(guān)問題: 貪心假設(shè) 迭代的抽取算法24基于統(tǒng)計(jì)的翻譯詞表自動(dòng)獲取(5)實(shí)驗(yàn)及結(jié)論 N-g

15、ram模型有利于提取多詞單元對(duì)應(yīng),并且能夠有效地發(fā)現(xiàn)新詞、術(shù)語及翻譯; Click單擊; e-mail 電子郵件; network diagram 網(wǎng)絡(luò)圖; event viewer 事件查看器 迭代算法大大提高了統(tǒng)計(jì)的正確率; 詞典加權(quán)同現(xiàn)測(cè)度能夠提高統(tǒng)計(jì)質(zhì)量 在小規(guī)模訓(xùn)練語料條件下, Log Likelihood Ratio的統(tǒng)計(jì) 特性較好25基于混合策略的詞對(duì)齊(1)對(duì)齊評(píng)價(jià)函數(shù): EF(e, c)=T(e, c) * D(e, c) 其中:T(e,c)為翻譯概率, D(e,c)為位置形變概率,通過計(jì)算位置相對(duì)形變距 離得到。位置相對(duì)形變距離是指一個(gè)可能的對(duì)齊 相對(duì)于最近的確定對(duì)齊的距離

16、。用貪心算法實(shí)現(xiàn)對(duì)齊過程和對(duì)齊歧義消除過程26基于混合策略的詞對(duì)齊(2)利用語言學(xué)知識(shí)改善詞匯對(duì)齊結(jié)果利用詞性對(duì)譯關(guān)系實(shí)現(xiàn)詞匯對(duì)齊后處理短語擴(kuò)展利用詞形變化特點(diǎn),增加詞匯對(duì)齊匹配規(guī)則如:n/v+”者”/”家” translationof(n/v)+ “-er”/ “-or”/ “-ist”/ “-ian”; 可以得到諸如“賽跑+者runner”、“征服+者 conqueror”等多詞單元對(duì)應(yīng)。 數(shù)詞的對(duì)齊專有名詞的對(duì)齊27實(shí)驗(yàn)結(jié)果及分析(1)實(shí)驗(yàn)用語料庫:語料庫1:通用語料庫(60,000句對(duì))語料庫2:計(jì)算機(jī)語料庫(14,390句對(duì))28實(shí)驗(yàn)結(jié)果及分析(2)29實(shí)驗(yàn)結(jié)果及分析(3)錯(cuò)誤分析:

17、資源不足,短語匹配,語言表達(dá)差異30雙語語料庫對(duì)齊技術(shù):結(jié)構(gòu)對(duì)齊(1)結(jié)構(gòu)對(duì)齊:短語結(jié)構(gòu),依存結(jié)構(gòu),組塊結(jié)構(gòu)結(jié)構(gòu)對(duì)齊的主要方法 Parse-Parse-Match 方法單語分析+詞匯對(duì)齊+啟發(fā)式算法kaji,Ralph Grishman,Yuji,Adam Meyer、Hideo雙語同步分析Wu Dekai, Wang Wei結(jié)構(gòu)對(duì)齊的難點(diǎn)難以獲得合適的、可靠的單語分析結(jié)果:如漢語不同語言的語法分析結(jié)果可能不匹配 雙語的結(jié)構(gòu)匹配的狀態(tài)空間搜索問題31雙語語料庫對(duì)齊技術(shù):結(jié)構(gòu)對(duì)齊(2)雙語分析模型(Wu Dekai): 反向轉(zhuǎn)換文法( inversion transduction Grammar

18、s,ITG) 產(chǎn)生式有兩個(gè)方向 是一個(gè)雙語體系用詞翻譯概率連接雙語用概率選擇雙語分析結(jié)果),(21SRWWNITG=32雙語語料庫對(duì)齊技術(shù):結(jié)構(gòu)對(duì)齊(3)The gameBNP will start BVP on WednesdayPPVP S .S比賽 星期三 開始 。The/e game/比賽BNP VP S ./。SSBNPSVPPP./。The/egame/比賽will/estart/開始o(jì)n/eWednesday/星期三BVP33難以確定合適的雙語語法一個(gè)實(shí)用的雙語模型是反向劃界語法問題:雙語語料庫對(duì)齊技術(shù):結(jié)構(gòu)對(duì)齊(4)34引入英語的句法分析得到的雙語分析35單語句法分析指導(dǎo)的雙語

19、結(jié)構(gòu)對(duì)齊(1) “parsing-parsing-match”方法的缺點(diǎn) 難以獲得合適的、可靠的單語分析結(jié)果,如漢語 不同語言的語法分析結(jié)果可能不匹配改進(jìn)方法 只使用英語的分析結(jié)果 與雙語語言模型相結(jié)合36單語句法分析指導(dǎo)的雙語結(jié)構(gòu)對(duì)齊(2) 定義代價(jià)函數(shù)Fe(s, t)三種匹配情況She/1 is/2 a/3 lovely/4 girl/5./6 越界分析: (1,2), (1,3) ,(2,3), (2, 5) 定界分析: (1,6),(2,5),(3,5) 界內(nèi)分析: (3,4),(4,5) 修正后的局部最優(yōu)函數(shù)用動(dòng)態(tài)規(guī)劃算法(DP)求解最優(yōu)雙語分析樹37單語句法分析指導(dǎo)的雙語結(jié)構(gòu)對(duì)齊(

20、3) 實(shí)驗(yàn):1000句對(duì)評(píng)價(jià):語法準(zhǔn)則 The student will get a pen . 這學(xué)生將得到一支鋼筆。 合語法: “The student 這學(xué)生”, “will get將得到”, “a pen 一支鋼筆” 不合語法:“student will學(xué)生將”, “get a得到一支”共有3889個(gè)標(biāo)準(zhǔn)對(duì)齊Experiment no P EPEP+CBEP+CP 正確率(%) 68.82 85.50 90.56 88.87 38單語句法分析指導(dǎo)的雙語結(jié)構(gòu)對(duì)齊(4) 1. BNP is/是 the/e representative/代表BNP PP NP VP . /。S2. Spri

21、ng/春天 is/是the/e first/第一e/個(gè)season/季節(jié)BNP PP X VP . /。S3. The/e window/窗子BNP is/e ADJP VP . /。S4. NP thinks/認(rèn)為it/那was/是Tom/湯姆 s/的fault /錯(cuò)BNP VP S VP . /。S5. The/e Beijing/北京zoo/動(dòng)物園BNP is/是NP VP ./。 S39翻譯知識(shí)獲取 雙語語料庫及其對(duì)齊技術(shù) 直接利用雙語語料庫進(jìn)行機(jī)器翻譯的研究間接利用雙語語料庫獲取翻譯知識(shí)的研究 40直接利用雙語語料庫進(jìn)行機(jī)器翻譯的研究(1) 基于統(tǒng)計(jì)的機(jī)器翻譯(Statistics-

22、based MT,SBMT)e = argmax P(e|c)= argmax P(e)P(c|e)/P(c) = argmax P(e)P(c|e) P(e):語言模型 P(c|e): 翻譯模型IBM的Brown等人實(shí)現(xiàn)了完全基于統(tǒng)計(jì)方法的機(jī)器翻譯系統(tǒng) 以大規(guī)模雙語語料庫為基礎(chǔ)(3百萬句對(duì)) 建立統(tǒng)計(jì)的翻譯模型 概率統(tǒng)計(jì)是分析和生成過程中的唯一方法 沒有正確和不正確的翻譯這樣的概念,只有可能性大小的譯文 不涉及任何語言學(xué)內(nèi)容 48%的正確率 41直接利用雙語語料庫進(jìn)行機(jī)器翻譯的研究(2) 基于統(tǒng)計(jì)的機(jī)器翻譯:Brown的5各翻譯模型模型1:對(duì)齊概率僅依賴于其中每個(gè)雙語詞對(duì)的概率;模型2:對(duì)齊

23、概率不僅依賴于每個(gè)雙語詞對(duì)的概率,還依賴于每個(gè)詞對(duì)出現(xiàn)位置之間的概率;模型3:計(jì)算了和每個(gè)源語詞相關(guān)的單詞數(shù)量;模型4和模型5:同時(shí)計(jì)算了這些詞的數(shù)量和這些詞本身。這些模型在訓(xùn)練中都使用了統(tǒng)計(jì)逼近的方法。42直接利用雙語語料庫進(jìn)行機(jī)器翻譯的研究(3) 基于統(tǒng)計(jì)的機(jī)器翻譯:盡管IBM的工作是一種新的方法, 可是一些學(xué)者也對(duì)這種“純粹的”統(tǒng)計(jì)方法提出了異議。他們認(rèn)為必須引入高層語言模型;并且認(rèn)為這種方法不一定能很好地作用于另一對(duì)語言(IBM工作的對(duì)象是英語和法語),也不能產(chǎn)生高質(zhì)量的MT,除非所有基于知識(shí)的MT觀點(diǎn)全錯(cuò)。實(shí)際上IBM的研究者也承認(rèn)這種方法不能解決語言中的遠(yuǎn)程依賴問題CMU Wang

24、 Ye Yi 基于結(jié)構(gòu)對(duì)齊的統(tǒng)計(jì)機(jī)器翻譯增加語言知識(shí)的統(tǒng)計(jì)機(jī)器翻譯43直接利用雙語語料庫進(jìn)行機(jī)器翻譯的研究(4) 基于實(shí)例的機(jī)器翻譯(Example-based, EBMT)日本京都大學(xué)的長尾真(Nagao)教授在1984年提出 原理:將源語言使用類比的方法與翻譯實(shí)例相比較,而采取相近的實(shí)例片段,重新生成譯文。根本觀點(diǎn):認(rèn)為翻譯過程通常是查找和復(fù)現(xiàn)相似的例子,發(fā)現(xiàn)和記起特定的源語言表達(dá)或其相似的表達(dá)在以前是如何翻譯的。把翻譯實(shí)例作為它的主要翻譯知識(shí)源,而把句子片斷的適當(dāng)劃分和從詞匯到句子各級(jí)相似度的計(jì)算作為翻譯中的主要問題。Pangloss EBMT(CMU)44直接利用雙語語料庫進(jìn)行機(jī)器翻譯

25、的研究(5) 基于實(shí)例的機(jī)器翻譯(Example-based, EBMT)45直接利用雙語語料庫進(jìn)行機(jī)器翻譯的研究(6) 基于統(tǒng)計(jì)的機(jī)器翻譯解決了知識(shí)獲取的難題,但是由于完全排除了語言學(xué)知識(shí),翻譯結(jié)果并不理想。 基于實(shí)例的方法確實(shí)為機(jī)器翻譯研究提供了一個(gè)嶄新的思路。但是如果直接在大規(guī)模的實(shí)例庫中進(jìn)行各級(jí)的相似度計(jì)算和查找,處理的時(shí)間和空間復(fù)雜度都很高,并且可能會(huì)引起組合爆炸問題 間接的基于實(shí)例的方法 首先從雙語語料庫中獲得各級(jí)翻譯知識(shí) 然后再利用這些獲得的知識(shí)進(jìn)行翻譯 46雙語知識(shí)獲取 雙語語料庫及其對(duì)齊技術(shù) 直接利用雙語語料庫進(jìn)行機(jī)器翻譯的研究間接利用雙語語料庫獲取翻譯知識(shí)的研究 47間接利

26、用雙語語料庫獲取翻譯知識(shí)的研究(1) 雙語語料庫學(xué)習(xí)翻譯知識(shí)源語言目標(biāo)語言翻譯 間接基于實(shí)例的機(jī)器翻譯48間接利用雙語語料庫獲取翻譯知識(shí)的研究(2) 自動(dòng)獲取的翻譯知識(shí)可以分為兩個(gè)層次 詞串級(jí)翻譯:即獲得詞匯或短語的直接譯文 翻譯模板: 知識(shí)表達(dá)式中可以含有變量,一般為短語級(jí) 翻譯模板,也可以是句子級(jí)的翻譯模板, 利用雙語語料庫詞對(duì)齊或短語對(duì)齊的結(jié)果可以直接獲得詞串級(jí)的譯文(詞典編撰) 從雙語語料庫中自動(dòng)獲取翻譯模板 通過類比學(xué)習(xí)獲得翻譯模板 通過雙語結(jié)構(gòu)匹配獲得翻譯模板 49間接利用雙語語料庫獲取翻譯知識(shí)的研究(3) 通過類比學(xué)習(xí)獲得翻譯模板 思想:比較語料庫中兩個(gè)翻譯實(shí)例的相同和不同部分,

27、把其中的某部分加以概括,用變量置換即得到一個(gè)翻譯模板 I like to drink coffee 我喜歡喝咖啡 I like to drink milk 我喜歡喝牛奶 模板: I like to drink X1我喜歡喝X2 if X1 X2 coffee 咖啡 milk 牛奶 優(yōu)點(diǎn):不需要語法知識(shí),甚至可以不使用詞典,僅僅通過兩個(gè)翻譯句對(duì)的類比來獲得翻譯模板。 缺點(diǎn):模板的概括性和對(duì)結(jié)構(gòu)的把握程度很差,如果沒有非常大規(guī)模而且存在大量相似句子的雙語語料庫很難有一個(gè)理想的結(jié)果。 50間接利用雙語語料庫獲取翻譯知識(shí)的研究(4) 通過雙語結(jié)構(gòu)匹配獲得翻譯模板 優(yōu)點(diǎn):可以獲得各個(gè)層次的翻譯模板,即模

28、板中的變量可以是某種短語類型,獲得的模板具有較強(qiáng)的概括性和靈活性。 缺點(diǎn): 難以獲得合適的、可靠的單語分析結(jié)果:如漢語 不同語言的語法分析結(jié)果可能不匹配 雙語的結(jié)構(gòu)匹配本身也是一個(gè)復(fù)雜的問題。 其他方法 IBM東京研究實(shí)驗(yàn)室機(jī)器翻譯系統(tǒng)SimTran 通過翻譯中出現(xiàn)的錯(cuò)誤來改善已有的轉(zhuǎn)換規(guī)則 Tony Veale等使用了基于標(biāo)記的句子分割法把句子分割成片斷,然后再以片斷為單位進(jìn)行雙語匹配和翻譯模板的獲取51翻譯模板的獲取及翻譯實(shí)驗(yàn)(1) 工作總體流程 :52翻譯模板的獲取及翻譯實(shí)驗(yàn)(2) 獲取了兩種類型翻譯模板 結(jié)構(gòu)轉(zhuǎn)換模板:非葉結(jié)點(diǎn) 譯文選擇模板:葉子結(jié)點(diǎn)短語,名詞,動(dòng)詞,代詞,形容詞,副詞

29、作為變量 SHe/他/PRP VP./。 結(jié)構(gòu)轉(zhuǎn)換模板: #S : 1:C=PRP:+2:VP+3:W=.- T(1)+T(2)+。 #VP: 1:VP+2:PP-T(2)+T(1); #VP: 1:C=VBP+2:C=NN-T(1)+T(2); #PP : 1:W=in+2:BNP-在+T(2) #PP : 1:W=the+2:C=NN-T(2) 譯文選擇模板: #play: -1:C=PRP+0:C=VBP+1:W= accordion-拉53共獲得 2889 個(gè)模板,包括 1806個(gè)結(jié)構(gòu)轉(zhuǎn)換模板和 1083個(gè)譯文選擇模板翻譯過程是一個(gè)遞歸的模板匹配過程通過評(píng)價(jià)翻譯結(jié)果來評(píng)價(jià)獲得的模板兩種

30、評(píng)價(jià)方法 自動(dòng)評(píng)價(jià) 手工評(píng)價(jià) 翻譯模板的獲取及翻譯實(shí)驗(yàn)(3)54翻譯模板的獲取及翻譯實(shí)驗(yàn)(4)自動(dòng)評(píng)價(jià)Adam 98 : 翻譯結(jié)果與語料中的譯文相近程度 “A B C D E” 和源譯文 “A B C F E” 相比評(píng)價(jià)值為 2/10 得到評(píng)價(jià)值0.09. 好于Adam的結(jié)果 0.29 局限性: “他們居住在非洲。” 與“他們生活在非洲。”相比得分 0.25 , “空氣這里很好” 與 “這里空氣很好” 得分為0手工評(píng)價(jià)97年“863”機(jī)器翻譯評(píng)價(jià)標(biāo)準(zhǔn) 55翻譯實(shí)例及評(píng)價(jià)結(jié)果I will not be able to go to the movies tomorrow. 我明天不能去看電影。 A

31、 The singer was accompanied at the piano by her pupil. 演唱者由她的學(xué)生用鋼琴伴奏。 AHe is having his breakfast. 他正在吃他的早飯. BThe air here is very good 這里空氣是很好 BThey started at night . 在晚上他們開始.CThe student has a pen . 這學(xué)生長一支鋼筆。 DYou dont like him, and I dont either. 你做也喜歡他,我做不也不喜歡 E56翻譯模板的獲取及翻譯實(shí)驗(yàn)(5)與統(tǒng)計(jì)的機(jī)器翻譯方法相比,模板比

32、統(tǒng)計(jì)概率更易于理解與純基于實(shí)例的方法相比,模板比短語、句子實(shí)例具有更強(qiáng)的概括能力所有模板都是自動(dòng)提取的,大大節(jié)省了人力可移植性好獲得的模板可以集成到已有的規(guī)則系統(tǒng)的規(guī)則庫中57存在的問題和今后工作存在的問題 詞對(duì)齊和結(jié)構(gòu)對(duì)齊錯(cuò)誤累積,精度不高 模板的表示和組織 模板歧義消解 對(duì)獲取知識(shí)的評(píng)價(jià)今后工作擴(kuò)大訓(xùn)練語料的規(guī)模,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行進(jìn)一步分析和討論綜合運(yùn)用統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法,對(duì)翻譯模板獲取方法進(jìn)行改進(jìn)和完善;在模板中引入語義特征來提高模板的概括能力。通過語料庫的統(tǒng)計(jì)為獲得的模板添加自信概率,使用統(tǒng)計(jì)和語言學(xué)知識(shí)相結(jié)合的方法解決模板沖突問題 58利用雙語語料庫獲取翻譯知識(shí)的研究 利用雙語語料

33、庫獲取翻譯知識(shí)的研究得到普遍重視 美國,英國,加拿大,日本,韓國 現(xiàn)有的方法上存在許多不盡人意的地方 國內(nèi): 近年來開始重視雙語語料庫對(duì)機(jī)器翻譯的價(jià)值 在雙語對(duì)齊方面做了一些工作 清華大學(xué),中科院計(jì)算所、自動(dòng)化所,哈工大 在利用雙語語料庫獲取翻譯知識(shí)方面還缺乏系統(tǒng)的研究 任重道遠(yuǎn)59主要參考文獻(xiàn) (1)1 P. F. Brown, J. C. Lai. etc. “Aligning Sentences in Parallel Corpora.” ACL-1991:169-1762 P. F. Brown. ect. “The Mathematics of Statistical Machine

34、 Translation: Parameter Estimation” Computational Linguistics, Vol. 19, No.2 ,19933K. W. Church. “Char-align: a Program for Aligning Parallel Texts at the Character Level.” ACL-1993: 1-84 Sue J. Ker and Jason S. Chang. “A Class-based Approach to Word Alignment.” Computational Linguistics 23(2):313-3

35、43, 19975 Jin-Xia Huang, Key-Sun Choi “Chinese-Korean Word Alignment Based on Linguistic Comparison”. ACL-20006 Ralf D. Brown Automated Dictionary Extraction for Knowledge-Free Example-Based Translation. TMI-1997:111-1187 Hideo Watanabe, Sadao Kurohashi, and Eiji Aramaki. “Finding Structural Corresp

36、ondences from Bilingual Parsed Corpus for Corpus-based Translaton”. COLING-2000.8 Ilyas Cicekli and Halil Altay Guvenir. “Learning Translation Templates form Bilingual Translation Examples”. Applied Intelligence, Vol. 15, No. 1, 2001,P57-76.9 Hussein Almuallim, Yasuhito Akiba, Takefumi Yamazaki. “A

37、Tool for the Acquisition of Japanese-English Machine Translation Rules Using Inductive Learning Techniques.” Proc. of the Conference on Artificial Intelligence for Applications 1994.6010 Ralph Grishman, and John Sterling. “Generalizing Automatically Generated Selectional Patterns”. COLING-1994.11 Ha

38、lil Altay Guvenir and Ilyas Cilekli “Learning Translation Templates from Examples”. Information Systems Vol.23, No. 6, P353-363,1998.12 Hiroyuli Kaji, Yuuko Kida, and Yasutsugu Morimoto. “Learning Translation Templates from Bilingual Texts.” COLING-1992: 672-67813 K.Lari and S.J. Young. “The estimat

39、ion of stochastic context-free grammars using the Inside-Outside algorithm.” Computer Speech and Language, 4:35-56, 1990. 14 Christos Malavazos, Stelios Piperidis. “Application of analogical Modeling to Example Based Machine Translation”. COLING-2000:516-52215 Yuji Matsumoto and Mihoko Kitamura “A Machine Translation System Based on Translation Rules Acquired from Parallel Corpora”. Recent Advances in NLP. Bulgnira 1995.16 Adam Meyers, Roman Yangarber, Ralph Grishman etc. “Deriving Transfer Rules from Dominance-Prese

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論