基于人機(jī)交互的統(tǒng)計(jì)翻譯方法_第1頁
基于人機(jī)交互的統(tǒng)計(jì)翻譯方法_第2頁
基于人機(jī)交互的統(tǒng)計(jì)翻譯方法_第3頁
基于人機(jī)交互的統(tǒng)計(jì)翻譯方法_第4頁
基于人機(jī)交互的統(tǒng)計(jì)翻譯方法_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1基于人機(jī)交互的統(tǒng)計(jì)翻譯方法http:/ 1.簡(jiǎn)介 2.基于人機(jī)交互的統(tǒng)計(jì)翻譯方法 3.實(shí)驗(yàn)結(jié)果及分析 4.結(jié)論3提綱 1.簡(jiǎn)介 2.基于人機(jī)交互的統(tǒng)計(jì)翻譯方法 3.實(shí)驗(yàn)結(jié)果及分析 4.結(jié)論4簡(jiǎn)介問題的提出phrase-based smt采用短語精確匹配的策略1. 數(shù)據(jù)稀疏問題嚴(yán)重,特別是長(zhǎng)短語2. 短語表中的大量短語無法得到充分利用n我們的目標(biāo)通過短語模糊匹配和人機(jī)交互,利用更多的短語,提高系統(tǒng)的翻譯質(zhì)量。5簡(jiǎn)介are you here meal-time or out ?do you eat here or to go ?(1)(2)6提綱 1.簡(jiǎn)介 2.基于人機(jī)交互的統(tǒng)計(jì)翻譯方法 3.實(shí)

2、驗(yàn)結(jié)果及分析 4.結(jié)論7短語模糊匹配 短語模糊匹配 dice系數(shù)系數(shù) 編輯距離編輯距離s源語言句子n擴(kuò)展句子生成1 21immss sfss ,1 21i ppmmss sgss 原始句子:擴(kuò)展句子:1if未登錄短語8擴(kuò)展句子生成兩個(gè)問題:a)找到的相似短語是否能夠提高句子的翻譯質(zhì)量?b) 生成的新句子是否與原句語義相同?人機(jī)交互組合分類器9組合分類器設(shè)計(jì)特征選擇(1)原則:a) 擴(kuò)展句子應(yīng)該與原始句子非常接近,保證擴(kuò)展句子的語義不會(huì)發(fā)生太大的變化。b) 擴(kuò)展句子的翻譯應(yīng)該與參考答案非常相似,與參考答案越接近,譯文的bleu得分就越高。 if未登錄短語pg相似短語s原始句子, i ps擴(kuò)展句子

3、t參考譯文, i pt擴(kuò)展句子譯文10組合分類器設(shè)計(jì)特征選擇(2)特征特征說明說明解碼器打分比值擴(kuò)展句子譯文與原始譯文之間的解碼器打分的比值未登錄短語與相似短語的相似度相似程度包括:1. dice系數(shù)2. 編輯距離3. overlap系數(shù)4. jaccard系數(shù)5. 長(zhǎng)度比值擴(kuò)展句子與原始句子的詞性序列相似度擴(kuò)展句子譯文與參考譯文的相似度11組合分類器設(shè)計(jì)分類器訓(xùn)練 svm工具:libsvm 核函數(shù):徑向基函數(shù)(radial basis function, rbf)n訓(xùn)練數(shù)據(jù)生成1. 在訓(xùn)練語料上生成擴(kuò)展句子2. bleu打分3. 提取特征12組合分類器設(shè)計(jì)融合 融合多個(gè)分類器結(jié)果的組合分類器

4、在很多方面要優(yōu)于參加組合的單個(gè)分類器 多個(gè)參考答案可以訓(xùn)練多個(gè)分類器 融合方法:投票規(guī)則(vote rule) 在測(cè)試語料上,將原始翻譯結(jié)果作為參考答案13人機(jī)交互方法 短語模糊匹配采用了基于字符串的相似度, 不能保證語義的一致性14人機(jī)交互方法 目的:選擇語義保持不變的句子 采用基于有限狀態(tài)自動(dòng)機(jī)的對(duì)話管理模型主要工作:設(shè)計(jì)系統(tǒng)的狀態(tài)及狀態(tài)轉(zhuǎn)移函數(shù)0, ,mqq f 系統(tǒng)輸入 q0qqffq狀態(tài)的有限集合 是初始狀態(tài) 終止?fàn)顟B(tài)的集合 狀態(tài)轉(zhuǎn)移函數(shù) 15基于fsa的對(duì)話管理模型 狀態(tài)集 s0: 初始狀態(tài) s1: 對(duì)用戶提問 s2: 跳轉(zhuǎn)到下一條短語 s3: 輸出對(duì)應(yīng)翻譯 sg: 終止?fàn)顟B(tài) 狀態(tài)

5、轉(zhuǎn)移函數(shù) s1s2 s1s3 s1sg s1s116基于fsa的對(duì)話管理模型基于有限狀態(tài)自動(dòng)機(jī)的人機(jī)交互模型 17人機(jī)交互流程圖18提綱 1.簡(jiǎn)介 2.基于人機(jī)交互的統(tǒng)計(jì)翻譯方法 3.實(shí)驗(yàn)結(jié)果及分析 4.結(jié)論19實(shí)驗(yàn)結(jié)果及分析(1)實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)任務(wù)任務(wù)訓(xùn)練集訓(xùn)練集開發(fā)集開發(fā)集測(cè)試集測(cè)試集短語長(zhǎng)度限制短語長(zhǎng)度限制短語表規(guī)模短語表規(guī)模smt07275,882句489句489句724.3m, 394,910條smt08321,770句764句507句10420m, 4,420,370條在iwslt2007 及 iwslt2008 btec中英文本翻譯任務(wù)上進(jìn)行了實(shí)驗(yàn)20實(shí)驗(yàn)結(jié)果及分析(2)實(shí)驗(yàn)結(jié)果bleu得分比較系統(tǒng)系統(tǒng)smt07smt08pbmt0.37500.3543imt0.38040.3624pbmt:我們實(shí)驗(yàn)室開發(fā)的基于短語的統(tǒng)計(jì)翻譯系統(tǒng)imt:基于人機(jī)交互的翻譯系統(tǒng)21實(shí)驗(yàn)結(jié)果及分析(3)人機(jī)交互數(shù)據(jù)統(tǒng)計(jì)任務(wù)任務(wù)smt07smt08句子總數(shù)489507交互句子數(shù)201191總交互次數(shù)315313平均交互次數(shù)1.571.64交互成功句子392422提綱 1.簡(jiǎn)介 2.基于人機(jī)交互的統(tǒng)計(jì)翻譯方法 3.實(shí)驗(yàn)結(jié)果及分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論