




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、人工智能翻譯付文青14S101053 HIT目錄機(jī)器翻譯概述1機(jī)器翻譯的原理及方法2理解語言,機(jī)器翻譯的根本瓶頸3機(jī)器翻譯機(jī)器翻譯的定義機(jī)器翻譯(Machine Translation),是使用電子計(jì)算機(jī)把一種自然語言(源語言,Source Language)翻譯成另外一種自然語言(目標(biāo)語言,Target Language)的一種學(xué)科。這門新學(xué)科同時(shí)也是一門新技術(shù),它涉及到語言學(xué),計(jì)算機(jī)科學(xué),數(shù)學(xué)等許多部門,是非常典型的多邊緣交叉學(xué)科。 在語言學(xué)中,機(jī)器翻譯是計(jì)算語言學(xué)的研究領(lǐng)域 在計(jì)算機(jī)科學(xué)中,機(jī)器翻譯是人工智能的研究領(lǐng)域 在數(shù)學(xué)中,機(jī)器翻譯是數(shù)理邏輯和形式化方法的研究領(lǐng)域機(jī)器翻譯的方法按轉(zhuǎn)
2、換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法 中間語言方法按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 統(tǒng)計(jì)的方法基于句法的統(tǒng)計(jì)機(jī)器翻譯方法基于統(tǒng)計(jì)的翻譯方法是IBM的學(xué)者提出,可以歸納為三個(gè)重要部分,分別為語言模型的建模、翻譯模型的建模以及解碼三個(gè)子部分。語言模型的建模問題是統(tǒng)計(jì)估計(jì)中的一個(gè)經(jīng)典問題,即根據(jù)當(dāng)前詞預(yù)測下一個(gè)詞。它是語音識(shí)別或光學(xué)字符識(shí)別的基礎(chǔ),同時(shí)也被用來進(jìn)行拼寫糾錯(cuò)、手寫體識(shí)別以及統(tǒng)計(jì)機(jī)器翻譯。基于句法的統(tǒng)計(jì)機(jī)器翻譯方法基于短語的統(tǒng)計(jì)翻譯方法的問題泛化能力差 中國大使館、美國大使館 月球大使館?產(chǎn)生的句子不符合語法 短語的簡單組合,沒有句法結(jié)構(gòu)無法表示不連續(xù)的
3、短語搭配的翻譯 召開了一次關(guān)于的會(huì)議 hold a meeting on 無法進(jìn)行長距離的語序調(diào)整解決辦法:引入句法結(jié)構(gòu)!基于句法的統(tǒng)計(jì)機(jī)器翻譯方法形式上基于句法的模型 不使用任何語言學(xué)知識(shí) 所有句法結(jié)構(gòu)直接從未標(biāo)注的語料庫中自動(dòng)學(xué)習(xí)得到語言學(xué)上基于句法的模型 使用語言學(xué)知識(shí) 語言通常要從句法樹庫訓(xùn)練得到 樹到串模型:只在源語言端使用語言知識(shí) 串到樹模型:只在目標(biāo)語言端使用語言知識(shí) 樹到樹模型:在源語言端和目標(biāo)語言端都使用語言知識(shí)基于句法的統(tǒng)計(jì)機(jī)器翻譯方法基于樹到串對齊模板的翻譯模型 基于樹到串對齊模板(簡稱 TAT )的統(tǒng)計(jì)翻譯模型是一種在源語言進(jìn)行句法分析的基于語言學(xué)句法結(jié)構(gòu)的統(tǒng)計(jì)翻譯模型
4、 樹到串對齊模板既可以生成終結(jié)符也可以生成非終結(jié)符既可以執(zhí)行局部重排序也可以執(zhí)行全局重排序 從經(jīng)過詞語對齊和源語言句法分析的雙語語料庫上自底向上自動(dòng)抽取 TAT 基于句法的統(tǒng)計(jì)機(jī)器翻譯方法解碼解碼問題最重要的是如何設(shè)計(jì)合適的搜索策略來獲得最佳翻譯效果,以及如何解決空間爆炸問題,為盡可能在有限的時(shí)間內(nèi)找到最優(yōu)解,必須采用啟發(fā)式算法。最常用的有柱搜索算法、A*算法以及堆棧搜索算法?;诰浞ǖ慕y(tǒng)計(jì)機(jī)器翻譯方法解碼自底向上柱搜索( Beam Search )對于每一棵子樹,找到所有與其根節(jié)點(diǎn)匹配的 TAT ,計(jì)算其候選譯文( Candidate )候選譯文( Candidate )的數(shù)據(jù)結(jié)構(gòu): TAT
5、 序列 部分翻譯結(jié)果 累積的特征值 累積的概率值基于句法的統(tǒng)計(jì)機(jī)器翻譯方法柱搜索算法采用寬度優(yōu)先的方式構(gòu)建搜索樹,在搜索樹的每層采用啟發(fā)式函數(shù)對擴(kuò)展的狀態(tài)進(jìn)行評分,通過剪枝選取N個(gè)最優(yōu)的狀態(tài)進(jìn)行擴(kuò)展基于句法的統(tǒng)計(jì)機(jī)器翻譯方法剪枝策略*假設(shè)合并 漢語詞位置相同 最后兩個(gè)英語詞相同 上一次翻譯的漢語短語的最后一個(gè)詞的位置相同*柱狀圖剪枝 若假設(shè)棧中假設(shè)的數(shù)目超過設(shè)定的最大值,將假設(shè)棧中評分低的剪去*閾值剪枝 設(shè)置棧中假設(shè)的最低概率值,當(dāng)新假設(shè)小于閾值的時(shí)候進(jìn)行剪枝 基于句法的統(tǒng)計(jì)機(jī)器翻譯方法機(jī)器翻譯的瓶頸之前進(jìn)行的機(jī)器翻譯的有益的探索中,凡是取得了結(jié)果的研究,大都努力避開理解語言這一過程。因?yàn)檫@一
6、過程本身涉及到了AI的終極目標(biāo),機(jī)器的智能化。然而,這又是一個(gè)無法回避的問題,不能理解語言就不可能進(jìn)行真正意義上的翻譯。機(jī)器翻譯的瓶頸burningPassion is sweetLove makes weakYou said you cherished freedom soYou refuse to let it go原文譯文:強(qiáng)烈的感情是甜蜜的而愛使我們脆弱你說你珍惜你的自由所以你拒絕丟失它機(jī)器譯文:激情是甜的 愛使弱 你說你珍惜的自由,以便 你不讓它去機(jī)器翻譯的瓶頸上文已經(jīng)進(jìn)行過論述過,要實(shí)現(xiàn)真正的機(jī)器翻譯,必須依賴于機(jī)器智能的實(shí)現(xiàn),而這在短期內(nèi)是不可能實(shí)現(xiàn)的,那么如何能在可以預(yù)見的未來
7、實(shí)現(xiàn)初步的機(jī)器翻譯呢?機(jī)器翻譯分為四個(gè)層次:“詞匯,語法,語義,語用。”前三個(gè)階段現(xiàn)在都已經(jīng)各有發(fā)展,但是語用的機(jī)器實(shí)現(xiàn)卻一直停滯不前,因?yàn)檎Z用知識(shí)包羅萬象,在不同的語言,不同的背景中,不同的文章中語用知識(shí)千差萬別,在不同的對話中上下文背景可能截然不同,面對這樣的現(xiàn)狀,我們唯有面向翻譯對象本身,才可能獲得有效的信息,我認(rèn)為有一種可能的途徑解決語用問題:機(jī)器翻譯的瓶頸對語句結(jié)構(gòu)進(jìn)行明確的分類,形成一系列“句型公式”,直到每一類中都可以只通過變換相同類型的單詞就可以實(shí)現(xiàn)句意的轉(zhuǎn)化,通過分類,將每個(gè)句子的翻譯都遞歸變化到單詞的翻譯。 并同時(shí)對詞語進(jìn)行分類,先按照詞義進(jìn)行種類分類,得到每個(gè)詞語的具體分類庫,這個(gè)過程類似于自然界對生物的分類,界-門-綱-目-科-屬-種,再根據(jù)詞匯可充當(dāng)?shù)木渥映煞?,(依賴于句型公式的?/p>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 產(chǎn)科醫(yī)師面試題及答案
- 如何護(hù)理營養(yǎng)性缺鐵性貧血
- 勞動(dòng)仲裁內(nèi)部培訓(xùn)
- 影樓修片培訓(xùn)
- 地產(chǎn)基礎(chǔ)知識(shí)培訓(xùn)
- 消化內(nèi)科胃炎護(hù)理
- 小學(xué)素描繪畫課件
- 護(hù)理總結(jié)匯報(bào)
- 婦產(chǎn)科妊娠期婦女的護(hù)理
- 中專急救護(hù)理學(xué)
- 兒童七步洗手法
- 國家開放大學(xué)程序設(shè)計(jì)基礎(chǔ)形考任務(wù)4
- 勞務(wù)解除合同書模板
- 2024旅游景區(qū)安全評估細(xì)則
- 2024年云南省三校生高考計(jì)算機(jī)信息類考試復(fù)習(xí)題庫(必刷600題)
- 四川省成都市郫都區(qū)2024屆七年級(jí)數(shù)學(xué)第二學(xué)期期末綜合測試試題含解析
- 行政培訓(xùn)學(xué)習(xí)課件
- 《電子門禁設(shè)計(jì)》課件
- 一平臺(tái)機(jī)考《數(shù)據(jù)結(jié)構(gòu)》復(fù)習(xí)資料3
- AI驅(qū)動(dòng)測試優(yōu)化
- 2023年10月自考00401學(xué)前比較教育試題及答案含評分標(biāo)準(zhǔn)
評論
0/150
提交評論