已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1,融入句型信息的漢英雙向調(diào)序模型,張家俊、宗成慶 中科院自動化所 2008.11.28,2,背景,自從IBM翻譯模型的提取,特別是基于短語的翻譯模型提出后,調(diào)序模型始終是統(tǒng)計機器翻譯的關鍵問題,是研究的熱點 從基于距離的扭曲模型、詞匯化的調(diào)序模型到層次化的短語翻譯模型、最大熵調(diào)序模型,都非常有效地提高了翻譯質(zhì)量,3,想法,這些模型沒有充分利用語言所固有的語法信息,在不需要調(diào)序的地方浪費了大量的計算時間 這些模型沒有充分利用句子的先驗知識,譬如句型,因為不同的句型具有不同的調(diào)序策略,4,句型在調(diào)序中的作用,幾個例子:,5,句型調(diào)序分析,特殊疑問句中至少有一固定的短語(我們稱為特殊疑問短語)在翻譯成英語時通常出現(xiàn)在句首; 一般疑問句在翻譯時有特定的例如can, do, is等引導詞; 在非疑問句中,有很大比例的句子中出現(xiàn)介詞短語、時間地點短語,這些短語在漢語中出現(xiàn)在動詞前,而在翻譯時一般出現(xiàn)在動詞的后面,6,口語語料分析,我們分析277k 中英對齊句對發(fā)現(xiàn),大約 17.2% 是特殊疑問句, 約 25.5% 為一般疑問句,其余為非疑問句。 可見在口語翻譯中,基于句型的調(diào)序是非常有意義且具有研究價值的,7,基于句型調(diào)序的翻譯框架(漢英),C1:特殊疑問句,C2:一般疑問句,C3:非疑問句,8,基于句型調(diào)序的翻譯框架(英漢),C1、C2和C3的意義同上圖,“逆”表示與上圖的算法相似但調(diào)序方向相反,9,模型與算法,句型的分類算法:SVM-based 前向調(diào)序模型、逆前向調(diào)序模型 后向調(diào)序算法、逆后向調(diào)序模型,10,句型分類算法,SVM的優(yōu)勢,分類準確,幾乎不受標點的影響 (我們知道標點是句型關鍵性的特征) 實驗: 語料:三類句型分別問1000句,80%作為訓練,20%作為測試 實驗結(jié)果:,11,前向調(diào)序模型,適用句型:特殊疑問句 調(diào)序?qū)ο螅禾厥庖蓡柖陶Z 調(diào)序的兩個關鍵問題: 特殊疑問短語的識別 正確的調(diào)序位置,12,調(diào)序的兩個關鍵問題,特殊疑問短語的識別 我們在語法上給特殊疑問短語一個定義:包含特殊疑問詞的完整的語法成分。 特殊疑問詞是利用互信息得到的一個閉集:什么、哪、多(多長、多久)、怎、誰、幾、為什么、何 在漢語中,從語法層面看來,特殊疑問短語可能會是任何一類語法成分,從語法層無法識別 我們采用chunking的淺層句法分析來識別特殊疑問短語,13,調(diào)序的兩個關鍵問題,正確的調(diào)序位置 分析翻譯實例我們發(fā)現(xiàn),調(diào)序的位置分為3類:句首、子句首、特定模板短語(從對齊語料習得)后 分別舉例: 這個 味道 怎么樣 ?=怎么樣 這個 味道 ? 請問 , 去 海灘 怎么 走 ? =請問 , 怎么 走 去 海灘 ? 你 認為 到 那 要 多長 時間 ?=你 認為 要 多 長 時間 到 那 ?,14,逆前向調(diào)序模型,適用句型和處理對象與前向模型一樣 面向英漢翻譯任務 對翻譯結(jié)果的修正 同樣面臨調(diào)序的兩個關鍵問題: 特殊疑問短語的識別 正確的調(diào)序位置,15,調(diào)序的兩個關鍵問題,特殊疑問短語的識別同前向模型 調(diào)序的目標位置: 特殊疑問句的結(jié)構 調(diào)序規(guī)則,16,調(diào)序的兩個關鍵問題,特殊疑問句的兩種結(jié)構 作為強調(diào)部分出現(xiàn)在句末 作為動詞短語的修飾成分出現(xiàn)在動詞短語的前面 調(diào)序規(guī)則 若SQP為動詞短語,則將其調(diào)至包含該SQP的子句末尾 若SQP不是動詞短語,而且中有動詞短語,則保持其位置不變;否則將其調(diào)至包含該SQP的子句末尾,17,后向調(diào)序模型,針對句型:所有句型 調(diào)序?qū)ο螅涸诜g中最有可能調(diào)序的短語=介詞短語、時間地點短語 調(diào)序的兩個關鍵問題 介詞短語、時間地點短語與動詞短語的識別 調(diào)序策略,18,調(diào)序的兩個關鍵問題,介詞短語、時間地點短語與動詞短語的識別 采用chunking淺層句法分析 虛擬動詞短語(VVP)的定義:由于識別錯誤等原因,有時在介詞短語、時間地點短語后沒有識別出動詞短語。為加強該模型的適應性,我們定義自此介詞或時間地點短語后到子句的結(jié)束為偽動詞短語,并賦予其動詞短語的功能。 例:請 在 這里 簽名 。“簽名”被識別為NP,在我們的模型中,它就是VVP,19,調(diào)序的兩個關鍵問題,調(diào)序策略:利用最大熵模型決定識別出的介詞或時間地點短語是否需調(diào)序到緊跟著它們的動詞短語后。 調(diào)序規(guī)則:,20,逆后向調(diào)序模型,面向英漢翻譯任務 介詞短語、時間地點短語等的識別方法同后向模型 調(diào)序方向相反,21,逆后向調(diào)序模型,調(diào)序規(guī)則,22,實驗設計與結(jié)果,baseline: 利用我們實驗室實現(xiàn)的基于短語的統(tǒng)計機器翻譯系統(tǒng) 利用單調(diào)的解碼策略,23,實驗設計與結(jié)果,語料說明: 表1:漢英翻譯相關語料 表2:英漢翻譯相關語
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 垂體危象與垂體卒中講課課件
- 21、《槐鄉(xiāng)五月》第二課時
- 初二年級期中考試家長會教學案例
- 二零二五年網(wǎng)絡零售商合作協(xié)議樣本2篇
- 新教材高考地理一輪復習課時作業(yè)二十四城鎮(zhèn)化課件新人教版
- 水利工程合同管理制度
- 黃金投資入門教學教案
- 九年級物理全冊192家庭電路中電流過大的原因課件新版新人教版
- 《科幻小說賞析與寫作》 課件 -第四章 “生命奇跡”的重述與復魅-《弗蘭肯斯坦》
- 二零二五年礦產(chǎn)品資源整合開發(fā)合作協(xié)議書3篇
- 2025年考研政治全套復習題庫及答案(全冊完整版)
- 新人教版小學英語五年級下冊單詞默寫版
- 先進集體發(fā)言稿
- 2025年融媒體行業(yè)分析報告
- 新建3000只肉羊養(yǎng)殖基地建設項目可行性研究報告
- 船舶自動化系統(tǒng)
- 政府審計課件教學課件
- 公路改建工程公路工程竣工資料編制辦法
- (高級)增材制造設備操作員技能鑒定理論考試題庫(濃縮500題)
- 華為經(jīng)營管理 -華為干部管理
- 空置房屋 物業(yè)費 合同
評論
0/150
提交評論