已閱讀5頁,還剩48頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
機器翻譯概述 常寶寶 北京大學計算語言學研究所 chbb 什么是機器翻譯 研究目標 研制出能把一種自然語言 源語言 的文 本翻譯為另外一種自然語言 目標語言 的文本的計 算機軟件系統(tǒng) 制造一種機器 讓使用不同語言的人無障礙地自由交 流 一直是人類的一個夢想 隨著國際互聯(lián)網(wǎng)絡(luò)的日益普及 網(wǎng)上出現(xiàn)了以各種語 言為載體的大量信息 語言障礙問題在新的時代又一 次凸顯出來 人們比以往任何時候都更迫切需要語言 的自動翻譯系統(tǒng) 但機器翻譯是一個極為困難的研究課題 無論目前對 它的需求多么迫切 全自動高質(zhì)量的機器翻譯系統(tǒng) FAHQMT 仍將是人類一個遙遠的夢 機器翻譯的基本方法 機器翻譯的基本方法 基于規(guī)則的機器翻譯方法 直接翻譯法 轉(zhuǎn)換法 中間語言法 基于語料庫的機器翻譯方法 基于統(tǒng)計的方法 基于實例的方法 混合式機器翻譯方法 目前沒有任何 一種方法能實現(xiàn)機 器翻譯的完美理 想 但在方法論方 面的探索已經(jīng)使得 人們對機器翻譯問 題的認識更加深 刻 而且也確實帶 動了不少雖不完美 但尚可使用的產(chǎn)品 問世 機器翻譯的基本方法 20世紀90年代以前 機器翻譯方法的主流一直是基于 規(guī)則的方法 因此基于規(guī)則的方法也被稱為傳統(tǒng)的機 器翻譯方法 直接翻譯法 逐詞進行翻譯 又稱逐詞翻譯法 word for word translation 無需對源語言文本進行分析 對翻譯過程的認識過渡簡化 忽視了不同語言之間 在詞序 詞匯 結(jié)構(gòu)等方面的差異 翻譯效果差 屬于早期過時認識 現(xiàn)已無人采用 How are you 怎么 是 你 How old are you 怎么 老 是 你 機器翻譯的基本方法 中間語言法 interlingua approach 中間語言 interlingua 是一種中間表達 通常是一種句 法 語義表達 syntactic semantic expression 中間語言獨立 于任何具體的自然語言 源文本經(jīng)過深層分析得到其對應的中間語言表示 再由該中間表示生成目標語文本 翻譯過程為兩個階段 機器翻譯的基本方法 不同系統(tǒng)采用不同的中間語言 有的是一種邏輯形 式的語言 有的甚至采用類似自然語言的人工語 言 如 荷蘭政府支持的DLT計劃采用世界語 Esperanto做中間語言 中間語言法在理論上非常經(jīng)濟 可有效減少翻譯模 塊的數(shù)量 可把n n 1 個直接翻譯模塊減少為2n個 翻譯模塊 機器翻譯的基本方法 把任何一種自然語言翻譯成為一種獨立的中間語 言 需要深層次的語言分析和生成技術(shù) 目前沒有 特別成功的基于中間語言的機器翻譯系統(tǒng) 轉(zhuǎn)換法 transfer approach 分析源語言文本 得到源語言的內(nèi)部表達 將源語言內(nèi)部表達轉(zhuǎn)換成目標語內(nèi)部表達 根據(jù)目標語內(nèi)部表達生成目標語文本 翻譯過程分成三個階段 機器翻譯的基本方法 不同系統(tǒng)采用不同層次內(nèi)部表示 例如淺層句法表 示或深層句法語義表示 商業(yè)上最為成功的方法 目前絕大部分商品化機器 翻譯系統(tǒng)采用轉(zhuǎn)換式機器翻譯方法 基于知識的機器翻譯方法 knowledge based machine translation 20世紀70年代 受人工智能 知識工程發(fā)展的影 響 而提出 強調(diào)對源語言進行更為徹底的分析和理解 不僅進行深層語言學分析 還需要進行世界知識 world knowledge 的顯式處理 需要建立對語言理解有益的本體知識庫 ontology 機器翻譯的基本方法 研制代價昂貴 沒有特別成功的案例 基于規(guī)則的翻譯方法圖示 機器翻譯的基本方法 20世紀80年代中后期 基于語料庫的機器翻譯技術(shù)得 到越來越多的關(guān)注 試圖避開知識庫建設(shè)的困難 試圖回避對源語言進行深層語言分析 翻譯知識主要來自雙語平行語料庫 基于實例的翻譯通過模仿實例庫中已有的翻譯基于 類比的策略進行翻譯 基于統(tǒng)計的機翻譯通過建立統(tǒng)計翻譯模型 訓練統(tǒng) 計模型進而基于統(tǒng)計模型進行翻譯 考慮到這些方法背后的哲學背景 也常把基于規(guī)則的 方法稱為理性主義 rationalism 方法 而把基于語料庫的 方法稱為經(jīng)驗主義 empiricism 方法 機器翻譯的使用 總而言之 無論采用何種機器翻譯方法 目前的機器 翻的譯文質(zhì)量都還遠不能令人滿意 但并不能說明機 器翻譯一無是處 機器翻譯在許多應用場合已在發(fā)揮 作用 翻譯需求的種類 傳播型翻譯需求 information dissemination 希望將自己的信息傳播出去 跨國企業(yè)的產(chǎn)品說明 技術(shù)資料 吸收型翻譯需求 information assimilation 希望了解以自己所不通曉的語言為載體的信息 科學工作者之于科技文獻 機器翻譯的使用 對于信息傳播型用戶而言 譯文質(zhì)量十分關(guān)鍵 跨國公司的所有技術(shù)資料都應 準確翻譯 不存在妥協(xié)的可能 目前機器翻譯似乎難以發(fā)揮作用 但跨國公司產(chǎn)品數(shù)量有限 領(lǐng)域狹窄 可采用子語 言技術(shù)以及后編輯 post edit 技術(shù) 機器輔助翻譯技術(shù)和翻譯記憶 translation memory 技術(shù)廣 泛使用 機器翻譯也可較好保證術(shù)語翻譯的一致性 機器翻譯的使用 對于信息吸收型用戶而言 往往面臨太多的文獻需要瀏覽 但并非對所有文獻 都有興趣 機器可以提供一個初步的翻譯 雖不準確 但可傳 達文獻的總體思想 有利于用戶定位文獻 對于選出的文獻 可以聘請專人進行譯后編輯或聘 請專家進行翻譯 同聘請翻譯人員相比 機器翻譯具有廉價和高速的 優(yōu)勢 機器翻譯的使用 目前機器翻譯的價值不在于它可以取代翻譯專家 而在 于它可在一個完整翻譯過程的部分環(huán)節(jié)中有所貢獻 機器翻譯的價值也體現(xiàn)在它可以帶來翻譯生產(chǎn)率的提高 和翻譯成本的降低這兩個方面 互聯(lián)網(wǎng)時代對機器翻譯的新需求 1 網(wǎng)頁的翻譯 2 網(wǎng)絡(luò)聊天室 技術(shù)論壇中用戶交談的實時翻譯 3 跨語言信息檢索 Cross Language Information Retrieval 4 跨語言的信息提取 規(guī)則系統(tǒng)中的知識表示 開發(fā)基于規(guī)則的機器翻譯系統(tǒng) 首先要設(shè)計知識表示 系統(tǒng) 將翻譯過程中所需要的知識以計算機可以操作 的形式表述出來 一般而言 翻譯過程往往需要下述一些知識的支撐 一 源語言知識 系統(tǒng)利用源語言知識分析源語言 句子 得到源語言句子的結(jié)構(gòu)和意義 二 目標語言知識 系統(tǒng)利用目標語言知識 產(chǎn)生 可以接受的目標語言句子 三 源語言到目標語言的對譯知識 在基于轉(zhuǎn)換的 系統(tǒng)中 系統(tǒng)需要根據(jù)各種級別的對應關(guān)系來完成 源語言到目標語言的轉(zhuǎn)換 最基本的是詞之間的對 譯知識 規(guī)則系統(tǒng)中的知識表示 四 領(lǐng)域知識和世界知識 利用源語言知識 目標 語言知識 在領(lǐng)域知識和世界知識的協(xié)助下 可以 更好地完成對源語言的理解和目標語言的生成 五 有關(guān)社會 文化和習俗的知識 在人工翻譯 中 這些知識也起著重要作用 但鑒于目前的處理 水平 幾乎沒有機器翻譯系統(tǒng)把該類知識納入處理 范圍 人們目前還缺乏有效方法把這些知識以機器 可以操作的方式描述出來 規(guī)則系統(tǒng)中的知識表示 詞典詞典 機器翻譯系統(tǒng)中 有關(guān)詞的知識記錄在詞典中 源 語言的形態(tài)知識 句法知識和語義知識記錄在源語 言詞典 源語 言詞典中 目標語言的形態(tài)知識 句法知識等記錄 在目標語言詞典目標語言詞典中 詞語間的對譯關(guān)系則記錄在對 譯詞典 對 譯詞典中 規(guī)則 為了源語言句子分析和目標語言句子生成的需要 還需要有關(guān)句子結(jié)構(gòu)的知識 句子或短語的組成規(guī) 律用規(guī)則規(guī)則描述 源語言和目標語言結(jié)構(gòu)間的對應關(guān) 系一般用轉(zhuǎn)換規(guī)則轉(zhuǎn)換規(guī)則來表達 規(guī)則系統(tǒng)的基本流程 詞法分析 句法分析 語義分析 結(jié)構(gòu)轉(zhuǎn)換 句子生成 譯詞選擇 形態(tài)生成 源語言文本目標語言文本 詞法分析 語法分析 語義分析 子生成 譯詞選擇 形態(tài)生成 結(jié)構(gòu)轉(zhuǎn)換 詞典 規(guī)則庫 規(guī)則翻譯方法例示 輸入 她把一束花放在桌上 分和標注 她 r 把 p 一 m 束 q 花 n 放 v 在 p 桌 n 上 f w 法分析 規(guī)則翻譯方法例示 輸入 她把一束花放在桌上 結(jié)構(gòu)轉(zhuǎn)換 規(guī)則翻譯方法例示 輸入 她把一束花放在桌上 結(jié)構(gòu)調(diào)整 規(guī)則翻譯方法例示 輸入 她把一束花放在桌上 規(guī)則翻譯方法例示 輸入 她把一束花放在桌上 譯詞選擇 她 she放 place一 a束 bunch 花 flower上 on桌 table 輸出 She puts a bunch of flowers on table 基于實例的機器翻譯 Example Based Machine Translation EBMT 1984年由日本著名機器翻譯專家長尾真提出 背景 建立在轉(zhuǎn)換基礎(chǔ)上的機器翻譯系統(tǒng) 在差異較大語 言對間進行互譯時 效果不好 人在翻譯時不做深層次語言學分析 人在學外語的時候 首先要作大量的對照記憶 在 遇到新的句子時 會和記憶中的句子類比 建立基于類比思想的機器翻譯 基于實例的機器翻譯 基本思想 主要知識庫是雙語對 照的實例庫 當需要翻譯一個新句 子時 通過檢索的辦 法在實例庫中尋找和 該句類似的翻譯實 例 新句子的翻譯可通過 模擬最類似的實例的 譯文的方式獲得 基于實例的機器翻譯 EBMT的優(yōu)點 系統(tǒng)維護容易 系統(tǒng)中知識以翻譯實例和義類詞典等形式存在 可以很容 易的利用增加實例和詞匯的方式擴充系統(tǒng) 容易產(chǎn)生高質(zhì)量的譯文 尤其是利用了較大的翻譯實例或和實例精確匹配時更是如 此 可避免進行深層次的語言學分析 類義詞典的作用 The rabbit eats vegetables Sulfuric acid eats metal He eats apple 基于實例的機器翻譯 EBMT的關(guān)鍵問題 大規(guī)模的雙語語料庫 雙語對齊問題 語篇 句子 短語和詞匯等各種級別 建立合理的相似度準則 高效的實例檢索機制 譯文生成 翻譯記憶技術(shù)和基于模板的翻譯技術(shù) 基于統(tǒng)計的機器翻譯 Statistic Based Machine Translation SBMT 翻譯問題是解密問題 50年代初曾有提及 遭到以Chomsky為代表的 語言學家的反對 90年代初 統(tǒng)計翻譯技術(shù)復蘇 統(tǒng)計技術(shù)在語音識別領(lǐng)域獲得成功 目前計算機性能已能勝任密集型計算 目前也有大量聯(lián)機雙語電子文本 Pr argmax STT T Pr Pr Pr Pr S TST ST 基于統(tǒng)計的機器翻譯 翻譯問題可用噪聲信道來描述 T 噪音信道 S 基本模型 Pr Pr argmax TSTT T Pr S T 稱為語言S到T的翻譯模型 Pr T 稱為語言T的語言模型 基于統(tǒng)計的機器翻譯 基本問題 建立合理的可計算的語言模型并估計參數(shù) n元模型 n gram 建立合理的可計算的翻譯模型并估計參數(shù) 設(shè)計可靠有效的算法搜索最好的譯文 目前還沒有能搜索到最優(yōu)結(jié)果的算法 基于統(tǒng)計的機器翻譯 IBM翻譯模型 模型訓練 EM算法 詞對齊 n ilji fi j ijiiljitstfTS 1 1 Pr Pr Pr Pr Pr iitf單詞 ti翻譯成 fi個單詞的概率 Pr lji 在長度為 l 的源語言句子中 第 i 個位置的單詞 對應目標語言中第 j 個位置的概率 Pr ijts單詞 ti翻譯成單詞 sj的概率 基于統(tǒng)計的機器翻譯 英文 The proposal will not now be implemented 法文 Les 1 propositions 2 ne 4 seront 3 pas 4 mises 7 en 7 application 7 maintenant 5 解碼 Maria no daba una bofetada a la bruja verde Spanish 窮盡式搜索 exhaustive search 剪枝策略 pruning strategy 機器翻譯為什么困難 語言問題非常復雜 缺乏有效的形式化手段 語言中常有大量歧義現(xiàn)象 翻譯要面對兩種語 言間的歧義現(xiàn)象 翻譯涉及的常是海量知識 知識庫的建造維護 代價很高 機器翻譯過程涉及很多環(huán)節(jié) 每個環(huán)節(jié)都不能 做到100 準確 錯誤積累嚴重 機器翻譯研究中常用的對策 交互式機器翻譯 子語言 限定領(lǐng)域 受控語言 限定語言的復雜程度 混合式機器翻譯 混合式的機器翻譯 20世紀90年代 學界曾就機器翻譯方法問題有過爭論 堅持規(guī)則路線的學者認為 統(tǒng)計模型對結(jié)構(gòu)處理乏力且過于簡單 正在改變 遠距離制約問題 統(tǒng)計翻譯是 石頭湯 堅持統(tǒng)計方法的學者認為 傳統(tǒng)方法不能徹底解決機器翻譯問題 基于知識的方法曾被認為是解決機器翻譯問題的關(guān)鍵 方法 可是目前依然沒有開發(fā)出實用系統(tǒng) 留給大家 的是一些寫在紙上的例子 混合式的機器翻譯 規(guī)則方法與統(tǒng)計方法具有互補特點 機器翻譯的希望 也許在于二者的結(jié)合 多引擎的機器翻譯 雙語語料庫和機器翻譯 大規(guī)模雙語語料庫是機器翻譯研究的重要資源 基于雙語語料庫的翻譯知識獲取 RBMT 為基于實例的機器翻譯提供翻譯實例庫 統(tǒng)計機器翻譯需要用語料庫訓練語言模型和統(tǒng)計模 型 雙語句子級對齊 在雙語文本間建立句子一級的對齊關(guān)系 就是要確定 源語言文本中哪個 些 句子和目標語言文本中哪個 些 句子互為譯文 句子對齊的方法 句子對齊的基本方法 基于長度的對齊方法 Brown等人的工作 1991 Gale等人的工作 1993 基于單詞的對齊方法 Kay等人的工作 1993 兩種方法對齊準確率都較高 對一般文本 都在90 以上 基于長度的對齊方法效率優(yōu)于基于單詞的對齊方法 基于單詞的對齊方法 利用單詞的對應關(guān)系 來決定 句子的對齊關(guān)系 基本依據(jù) 依據(jù) 互為翻譯的兩個句子在長度上高度相關(guān) 翻譯時 句子順序不做劇烈改變 不考慮交叉 什么是詞語對齊 在互為譯文的兩個句子間尋找詞語對譯關(guān)系 形式定義 令 S s1s2 sJ代表原文句子 令 T t1t2 tI代表譯文句子 則 二者間詞匯級對齊A可定義為 或者 過于一般化 2121IJ tttsssA 2 1 2 1 IiJjijA 什么是詞語對齊 限制條件 不允許一對多的對應關(guān)系 原文中未譯的詞對應一個特殊的空詞t0 詞匯對齊A是從集合 1 2 J 到 0 1 2 I 的映射 令aj A j 則 A a1a2 aJ 詞語對齊舉例 詞語對齊 詞語對齊較句子對齊困難 翻譯時 詞序發(fā)生劇烈變化 對應情況復雜 對應關(guān)系難以確定 虛詞 詞語對齊的基本方法 統(tǒng)計模型法 建立統(tǒng)計對齊的數(shù)學模型 啟發(fā)式方法 不一定建立對齊模型 運用假設(shè) 檢驗等 技術(shù) 詞語對齊 從統(tǒng)計角度看 所有的對齊都是可能的 只不過概率 大小不同 原文句子 譯文句子長度分別是J I 共有多少可能 的對齊 求解韋特比對齊 可以通過下面的過程計算韋特比對齊 1 羅列出原文句子和譯文句子間所有可能的對齊 2 對每一種對齊 計算P S A T 3 尋找能使P S A T 取得最大值的A作為韋特比對齊 問題一 如何計算P S A T 問題二 羅列所有對齊效率如何 EM算法 GIZA 機器翻譯評價 科學客觀的評價往往是推動技術(shù)發(fā)展的重要因素 機器翻譯困難 機器翻譯評價也不容易 廣義的機器翻譯評價 1 翻譯系統(tǒng)的譯文質(zhì)量 譯文是否是可以理解的 或可以出版的 2 翻譯系統(tǒng)的效率 每分鐘系統(tǒng)可以完成多少字 的翻譯 3 翻譯系統(tǒng)的健壯性 系統(tǒng)是否可以健壯的處理 任何文本 是否經(jīng)常出現(xiàn)系統(tǒng)崩潰 4 系統(tǒng)界面的友好性 用戶是否可以很容易的使 用系統(tǒng) 機器翻譯評價 狹義而言 機器翻譯的評價一般僅指機器譯文質(zhì)量的 評價或譯文質(zhì)量的自動評價 評價標準 信 達 雅 不能作為標準 最常用的兩個標準源于ALPAC報告 譯文的可理解性 Intelligibility 譯文可在多大程度上為不懂原文的人所理解 譯文的忠實度 Fidelity 譯文和原文在內(nèi)容上有多大差異 可理解性 忠實度原則上相互獨立 但事實上經(jīng)常 相關(guān) 機器翻譯評價 日本的長尾真教授在評測日本科學技術(shù)廳機器翻譯項 目 Mu 的日英系統(tǒng)譯文質(zhì)量時 為可理解性和忠實度 進行了分級 可理解性 1 譯文意義明確 用詞 語法 文體都貼切 無需修改 2 譯文可以理解 用詞 語法 文體方面多少有些問題 不 過這些缺點很容易由人修正 3 譯文的意義大體上可以把握
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒教師的教學故事六篇
- 全國新型電力系統(tǒng)(配電自動化)職業(yè)技能競賽參考試題庫500題(含答案)
- 《預防未成年人犯罪法》知識考試題庫80題(含答案)
- 大學衛(wèi)生學課件
- 汽車租賃合同詳細條款正規(guī)范本
- 滄州房屋租賃合同
- 棉花運輸合同范本
- 標準的員工勞動合同
- 大數(shù)據(jù)分析平臺建設(shè)及運營合同
- 海外房產(chǎn)銷售代理合同范本
- 護理人文知識培訓課件
- 建筑工程施工安全管理課件
- 2025年春新人教版數(shù)學七年級下冊教學課件 7.2.3 平行線的性質(zhì)(第1課時)
- 安徽省合肥市2025年高三第一次教學質(zhì)量檢測地理試題(含答案)
- 2025年新合同管理工作計劃
- 統(tǒng)編版八年級下冊語文第三單元名著導讀《經(jīng)典常談》閱讀指導 學案(含練習題及答案)
- 風光儲儲能項目PCS艙、電池艙吊裝方案
- 全面解讀新能源法律風險與應對措施
- 民法學詳細教案
- 浙江省杭州市2023年中考一模語文試題及答案
- 上海市楊浦區(qū)2022屆初三中考二模英語試卷+答案
評論
0/150
提交評論