專利文獻(xiàn)日-英機(jī)器翻譯的質(zhì)量改進(jìn)措施ppt課件_第1頁
專利文獻(xiàn)日-英機(jī)器翻譯的質(zhì)量改進(jìn)措施ppt課件_第2頁
專利文獻(xiàn)日-英機(jī)器翻譯的質(zhì)量改進(jìn)措施ppt課件_第3頁
專利文獻(xiàn)日-英機(jī)器翻譯的質(zhì)量改進(jìn)措施ppt課件_第4頁
專利文獻(xiàn)日-英機(jī)器翻譯的質(zhì)量改進(jìn)措施ppt課件_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、專利文獻(xiàn)日-英機(jī)器翻譯的質(zhì)量改良措施 Tsuyoshi Kakita日本特許情報(bào)機(jī)構(gòu)t_kakitajapio.or.jp.前言(Japan Patent Information Organization,日本特許情報(bào)機(jī)構(gòu)) 努力于各種專利文獻(xiàn)翻譯義務(wù) (日-英,英-日)。雖然翻譯仍需由人工完成,但機(jī)器翻譯的采用正成為提高翻譯效率不可或缺的手段。有效提高專利文獻(xiàn)機(jī)器翻譯質(zhì)量措施的研討.Japio 的質(zhì)量改良措施Japio 并不開發(fā)機(jī)器翻譯引擎。Japio 在不改動機(jī)器翻譯引擎的情況下采用下面兩種措施提高機(jī)器翻譯的質(zhì)量:1. 專利文獻(xiàn)翻譯的技術(shù)術(shù)語庫2. 專利源文檔的預(yù)編輯處置.專利技術(shù)術(shù)語庫為

2、了描畫新的發(fā)明,新的技術(shù)術(shù)語不斷被引入到專利文獻(xiàn)中。商業(yè)的機(jī)器翻譯詞典根本上是靜態(tài)的。Japio 基于真實(shí)的專利文獻(xiàn)創(chuàng)建并更新技術(shù)術(shù)語庫Japio 技術(shù)術(shù)語庫.技術(shù)術(shù)語庫的創(chuàng)建/更新日語英語句對齊的專利文獻(xiàn)平行語料庫技術(shù)術(shù)語 列表技術(shù)術(shù)語 抽取程序plasmid配列method of removing車輪組立體seed planter press抗體phage antibody積載裝置bale loader: _ 人工評價(jià)/修正Japio 技術(shù)術(shù)語庫800,000 條記錄,每年添加100,000條.源于技術(shù)術(shù)語庫的機(jī)器翻譯詞典Japio 技術(shù)術(shù)語庫Japio基于技術(shù)術(shù)語庫編輯機(jī)器翻譯詞典,效力

3、于專利文獻(xiàn)翻譯Japio 機(jī)器翻譯詞典商業(yè)機(jī)器翻譯引擎與詞典+在重疊詞條中選詞是技術(shù)術(shù)語詞典的關(guān)鍵要素.Japio 機(jī)器翻譯詞典: 選詞方法Japio 采取兩種對策處理選詞問題#1:收錄復(fù)合詞 - 優(yōu)點(diǎn): 翻譯變化較少(= 準(zhǔn)確度高) - 缺陷: 出現(xiàn)頻率較低 (= 性價(jià)比低)#2: 基于在真實(shí)專利中的出現(xiàn)頻率賦予優(yōu)先權(quán) - 優(yōu)點(diǎn): 簡單、自動 (= 性價(jià)比高) - 缺陷: 不夠準(zhǔn)確 (= 準(zhǔn)確度低.Japio 機(jī)器翻譯詞典的效能評價(jià)經(jīng)過將Japio機(jī)器翻譯詞典參與商業(yè)機(jī)器翻譯引擎改良100個專利文獻(xiàn)語句中的技術(shù)術(shù)語翻譯JapaneseEnglish感光體Photosensitivenessp

4、hotoreceptor予備収束reserve focus preliminary focus冗長行tedious line redundant line最外層external layer outmost layer:不多,但根本的術(shù)語得以改良 。.源文檔的預(yù)編輯處置專利文獻(xiàn)語句的特性與當(dāng)前的機(jī)器翻譯技術(shù)不相順應(yīng) - 非常長而且很復(fù)雜 - 特殊的行文方式 - 短少主語/賓語有效措施: 源文檔的預(yù)編輯處置建立技術(shù)日語- 技術(shù)文獻(xiàn)(包括專利)根本行文規(guī)那么 以更順應(yīng)于機(jī)器翻譯.技術(shù)日語根本規(guī)那么超越50%的根據(jù)技術(shù)日語原型改寫的語句顯示機(jī)器翻譯準(zhǔn)確性得到了提高。Example 1: 消除歧義図示例

5、、二単語show、枠示言語mise翻訳。In the example shown in Fig.2, what is shown with frame 36 among two source words “show” is translated into the target word “mise.”図示例、二単語show、枠示単語言語mise翻訳。In the example shown in Fig.2, the word shown with frame 36 among two source words “show” is translated into the target word

6、 “mise.”原句技術(shù)日語.技術(shù)日語根本規(guī)那么Example 2: 語句的縮短/拆分好、機(jī)械翻訳裝置、予準(zhǔn)備、第言語第言語対訳出現(xiàn)対、各対対訳中出現(xiàn)頻度検出、當(dāng)該対、當(dāng)該対頻度重対記憶手段記憶手段含。好、機(jī)械翻訳裝置、以下処理行手段備。 ()予準(zhǔn)備、第言語第言語対訳出現(xiàn) 対、各対対訳出現(xiàn)頻度検出 ()當(dāng)該対、當(dāng)該対頻度重対記憶手段記憶原句技術(shù)日語.技術(shù)日語根本規(guī)那么Example 2: 語句的縮短/拆分 A chunk pair which appears in a bilingual corpus of the 1st language and the 2nd language with

7、which a machine translation device was prepared beforehand preferably, Frequency of appearance in inside of a bilingual corpus of each chunk pair is detected, and a means for making a chunk versus a memory measure memorize the chunk pair concerned and dignity which consists of frequency of the chunk

8、 pair concerned is included further.Preferably, a machine translation device is further provided with a means to perform the following processings.(1) Detecting a chunk pair which appears in a bilingual corpus of the 1st language and the 2nd language which were prepared beforehand, and frequency of appearance in a bilingual corpus of each chunk pair.(2) Memorizing the chunk pair concerned and weight which consists of frequency of the chunk pair concerned by a chunk pair memory measure.原句的機(jī)器翻譯輸出技術(shù)日語的機(jī)器翻譯輸出.技術(shù)日語引入翻譯過程Japio 將在翻譯過程中引入源文檔的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論