從Tanslation Memory談起 TM系統(tǒng)的目標(biāo)_第1頁
從Tanslation Memory談起 TM系統(tǒng)的目標(biāo)_第2頁
從Tanslation Memory談起 TM系統(tǒng)的目標(biāo)_第3頁
從Tanslation Memory談起 TM系統(tǒng)的目標(biāo)_第4頁
從Tanslation Memory談起 TM系統(tǒng)的目標(biāo)_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、雙語語料庫建設(shè)從Tanslation MemoryTM系統(tǒng)的目標(biāo)TM引擎的設(shè)計(jì)和實(shí)現(xiàn)雙語語料庫的其它應(yīng)用價(jià)值語料庫的編碼和整理雙語語料庫的對齊加工雙語語料庫的展示和應(yīng)用平臺1Tanslation Memory基于實(shí)例的機(jī)器翻譯TM技術(shù)幾個(gè)著名的TM系統(tǒng)TRADOS(ATRIL) Dj Vu(STAR) transitTM技術(shù)的局限性 2TM系統(tǒng)的目標(biāo)協(xié)助人工翻譯而非取代人工翻譯提高人工翻譯的生產(chǎn)率(productivity)提高人工譯文的一致性(consistency)提供一個(gè)翻譯集成環(huán)境面向整個(gè)翻譯過程、翻譯項(xiàng)目的定義和管理、翻譯進(jìn)度管理協(xié)助翻譯協(xié)作、拼寫和語法檢查文件格式支持、文本編輯、輔

2、助雙語索引、自學(xué)習(xí)機(jī)制(句子對齊和術(shù)語獲取)3TM引擎的實(shí)現(xiàn)1) 基于句子的精確匹配(Exact match)2) 基于句子的模糊匹配(Fuzzy match)基于詞替換的模糊匹配基于動(dòng)態(tài)規(guī)劃的模糊匹配4模糊匹配的基本思想基本思想:找出輸入句子和實(shí)例中共同的單詞,對不同的詞利用詞典進(jìn)行翻譯。提供quick and dirty translation例子:E: 美國 國務(wù)卿 奧爾布賴特 今天 起 訪問 韓國 。S: 美國 國務(wù)卿 鮑威爾 明 起 訪問 日本 。所有相同的詞必須順序一致“兔子 吃 白菜” 和 “白菜 吃 兔子” 翻譯不一樣。動(dòng)態(tài)規(guī)劃算法LCS5模糊匹配的基本思想計(jì)算實(shí)例和輸入的相似

3、度生成轉(zhuǎn)換表達(dá)式(如何把例子轉(zhuǎn)換成輸入)C(美國 國務(wù)卿) r(奧爾布賴特 今天,鮑威爾 明) c(起 訪問) r(韓國, 日本)在實(shí)例的漢語部分和英語部分之間進(jìn)行詞匯一級對齊(利用雙語詞典)對實(shí)例的英語部分進(jìn)行和漢語部分同樣的轉(zhuǎn)換,生成英語(利用雙語詞典)6試驗(yàn)(張牧)實(shí)例庫中有實(shí)例33367個(gè),另取162個(gè)測試句子相似度分布0-0.3 30.3-0.4150.4-0.5 500.5-0.6 470.6-0.7230.7-0.8180.8-0.930.9-127分析優(yōu)點(diǎn)簡單,僅需要一部雙語詞典,僅需要對漢語切詞,此外無需任何處理缺點(diǎn)高相似度命中率低如果例子多一點(diǎn),領(lǐng)域窄一點(diǎn),可能很有用8雙語

4、語料庫的其它應(yīng)用價(jià)值1) 基于規(guī)則的機(jī)器翻譯,翻譯知識獲取2) 基于統(tǒng)計(jì)的機(jī)器翻譯,訓(xùn)練翻譯模型3) 基于雙語語料庫的雙語詞典編纂4) 基于雙語語料庫的術(shù)語提取5) 雙語教學(xué)和語言學(xué)研究雙語語料庫建設(shè)為機(jī)器翻譯研究服務(wù),同時(shí)兼顧其它應(yīng)用類型9雙語語料庫建設(shè)的三個(gè)層次1) 語料庫收集、整理和編碼2) 語料庫對齊和加工3) 語料庫的呈現(xiàn)和應(yīng)用10語料庫整理語料的存放方式各異語料的文件格式不同語料中有不利于加工的噪音信息語料的文體、領(lǐng)域、語式、創(chuàng)作時(shí)期不同11整理目標(biāo)1) 格式統(tǒng)一;2) 篇章級對齊;3)消除噪音信息;12語料庫編碼CES和TEI(基于SGML),很復(fù)雜我們也曾經(jīng)提出一個(gè)基于XML的

5、編碼方案13基于XML的編碼方案(1)標(biāo)記文本結(jié)構(gòu)(2)標(biāo)記切詞、詞性等(3)各個(gè)層級的對齊關(guān)系4個(gè)DTD說明14簡化的編碼被標(biāo)記內(nèi)容標(biāo)記中文標(biāo)題英文標(biāo)題作者名譯者名創(chuàng)作時(shí)間子標(biāo)題圖表公式和程序源碼背景知識句子邊界段落邊界句子對齊單位15輔助的語料庫編碼工具16語料的屬性信息很簡單1) 源語言2) 文體3) 領(lǐng)域4) 語式6) 時(shí)代17對齊加工漢語篇章英語篇章段1 s1 s2 sk段2段1s1 s2s3 sj段2段n段m1)基于長度的段落對齊2)基于長度的句子對齊18語料樣例原文文件:DongYuanXinBingJi.zh動(dòng)員新兵及新兵政治工作 (一九三八年一月十二日)一 當(dāng)前的戰(zhàn)局,是處于

6、暫時(shí)的局部的失利的境況,決不是抗日自衛(wèi)戰(zhàn)爭的最后失敗。戰(zhàn)爭的最后勝敗,要在持久抗戰(zhàn)中去解決。今天的戰(zhàn)爭,要求我們充分運(yùn)用半年抗戰(zhàn)的寶貴經(jīng)驗(yàn)。不僅應(yīng)研究戰(zhàn)略戰(zhàn)術(shù),而且還應(yīng)以最大努力,利用一切可能,動(dòng)員廣大民眾加入軍隊(duì),補(bǔ)充現(xiàn)有兵團(tuán),組織新的部隊(duì),積蓄與擴(kuò)大國家的武裝力量,以支持長期艱苦的戰(zhàn)爭。19語料樣例譯文文件:DongYuanXinBingJi. en MOBILIZE NEW RECRUITS AND CONDUCT POLITICAL WORK AMONG THEM January 12, 1938ICurrently we are suffering a temporary and p

7、artial setback in our defensive war against Japan, but this is not final defeat.The final outcome of the war will be determined by a protracted war of resistance. In order to continue in the present war, we must take full advantage of the valuable experience we have gained from the past six months f

8、ighting.We should not only study strategy and tactics, but also do our utmost in every possible way to build up and expand the national armed forces by mobilizing the people to join the army, replenishing the existing corps and organizing new armed units in order to support an arduous, long-drawn-ou

9、t war. 20雙語相關(guān)集列可以集成到一個(gè)翻譯環(huán)境中也是雙語語料庫的展示平臺也能輔助語言教學(xué)研究最基本的雙語語料庫工具21最基本的功能語料選取、抽樣單語或雙語項(xiàng)表達(dá)式檢索相關(guān)集列顯示搭配分析雙語詞頻統(tǒng)計(jì)22相關(guān)集列顯示. 15 .Perpetuation of testimony ( O . 39 , r . . examined to perpetuate testimony unless an action . . to perpetuate any testimony which may be . . to perpetuate the testimony of witnesses s

10、hall . . with his present testimony , but , before such . . with his present testimony , does not distinctly . . consular officer in testimony of any such . . for perpetuating such testimony and for rendering . . person to give testimony ( either orally or . . 方 負(fù)責(zé) 的 任何 裁定 。 15 . 證 供 的 繼續(xù) 留存 ( 第 39

11、號 命令 第 15 條 ?. . ( 1 ) 除非 已 有 訴訟 開展 以 使 證 供 得以 繼續(xù) 留存 , 否則 不得 對 證人 進(jìn)?. 存 , 否則 不得 對 證人 進(jìn)行 訊問 以 使 證 供 得以 繼續(xù) 留存 。 ( 2 ) 任何 . 該 權(quán)利 或 申索 或 會(huì) 有 關(guān)鍵性 的 任何 證 供 得以 繼續(xù) 留存 。 ( 3 ) 不得 . . 。 ( 3 ) 不得 將 為 使 證人 證 供 得以 繼續(xù) 留存 的 訴訟 排 期 審訊 。 . 證人 在 其它 時(shí)間 曾 作出 與 他 當(dāng)前 的 證 供 不 相符 的 陳述 , 但 在 提供 該 后 述 . 程序 的 標(biāo)的 事項(xiàng) 有關(guān) 并 與 他 當(dāng)前 的 證 供 不 相符 的 陳述 被 盤問 時(shí) , 并 無 明?. 維護(hù) 真相 及 公正 , 宜 提供 方法 , 使 證 供 得以 繼續(xù) 留存 并 在 有 需要 時(shí) 可 供 ?. . ?宣誓 而 ( 以 口述 或 書面 方式 ) 作出 證 供 , 則 本 款 并不 阻止 該 命令 作出 。 .23搭配統(tǒng)計(jì)分析2-Left1-Left1-R

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論