版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、多語(yǔ)種的拼音到漢字的轉(zhuǎn)換和翻譯,趙 海 上海交通大學(xué) 2013.05.31 長(zhǎng)沙,目錄,問(wèn)題概述 拼音輸入法 機(jī)器翻譯:服務(wù)于漢字文化圈語(yǔ)言 結(jié)語(yǔ),漢字文化圈,漢字亦稱(chēng)中文字、中國(guó)字,是世界上仍被廣泛使用的高度發(fā)展的表意文字。仍在使用和曾經(jīng)使用漢字的國(guó)家和地區(qū)包括漢字的誕生地中國(guó)、周邊深受其影響的越南、朝鮮半島和日本,以及近代華人移民聚集的新加坡、馬來(lái)西亞等東南亞國(guó)家。接受漢字及中國(guó)文化影響的地理區(qū)域在某些文獻(xiàn)中被非正式地稱(chēng)為漢字文化圈,漢字文化圈的拼音化,漢字文化圈各語(yǔ)言均是世界意義上的大語(yǔ)種 漢語(yǔ)有超過(guò)13億人使用,是使用人口最多的語(yǔ)言 日語(yǔ)有1.3億的使用者 朝鮮語(yǔ)/韓語(yǔ)有超過(guò)7,000
2、萬(wàn)的使用人口 越南語(yǔ)則擁有世界范圍內(nèi)約8,000萬(wàn)的使用者,使用人數(shù),應(yīng)用驅(qū)動(dòng)的音字轉(zhuǎn)化任務(wù),中文的拼音輸入法 從漢語(yǔ)拼音到漢字句子 機(jī)器翻譯 從假名、諺文或者越南語(yǔ)國(guó)語(yǔ)字到漢字串 從語(yǔ)義等價(jià)的角度,觀察不同語(yǔ)言的讀音差異和演化軌跡,目錄,問(wèn)題概述 拼音輸入法 機(jī)器翻譯:服務(wù)于漢字文化圈語(yǔ)言 結(jié)語(yǔ),基于拼音的中文輸入法,主流的輸入法大部分是基于拼音的 不考慮聲調(diào),漢語(yǔ)拼音的音節(jié)數(shù)少于500個(gè) 漢字,則有3000-20000個(gè),根據(jù)應(yīng)用場(chǎng)合不同而不同 無(wú)論哪種情形,基于拼音輸入面臨的主要問(wèn)題是:針對(duì)輸入拼音音節(jié),快速選定漢字,通用策略,輸入一個(gè)拼音音節(jié),會(huì)有幾十個(gè)漢字對(duì)應(yīng) 輸入雙音節(jié)詞對(duì)應(yīng)的拼音
3、,則會(huì)快速降低到只有幾個(gè)合法的漢字詞對(duì)應(yīng) 所以 輸入盡可能長(zhǎng)的音節(jié)串,拼音輸入法作為漢字串解碼任務(wù),輸入:漢語(yǔ)拼音串 輸出:一一對(duì)應(yīng)的(合乎漢語(yǔ)語(yǔ)法語(yǔ)義的)漢字串 串標(biāo)注任務(wù) 最大熵模型解碼 統(tǒng)計(jì)機(jī)器翻譯解碼,作為機(jī)器翻譯的漢字串解碼PACLIC 2012,流程: 沒(méi)有對(duì)齊過(guò)程 僅適用標(biāo)準(zhǔn)的MERT調(diào)試以及MOSES解碼 有效集成語(yǔ)言模型等豐富特征 精度和整句正確率均優(yōu)于標(biāo)準(zhǔn)的最大熵模型,不僅僅是串解碼任務(wù),我們使用字的精度來(lái)評(píng)估漢字串解碼任務(wù) 對(duì)于串解碼任務(wù)這是標(biāo)準(zhǔn)度量,因而它不是問(wèn)題 但是,我們服務(wù)于中文輸入法,它的真正目標(biāo)是最少的擊鍵選擇來(lái)完成輸入,新型的漢字串解碼評(píng)估度量,基于擊鍵次數(shù)
4、 解碼不可能100%正確,如果1-best輸出不是完全正確的,我們依賴(lài)于輸入法給出的其他次優(yōu)的候選 這就是核心問(wèn)題! 假定所有的輸入都是基于數(shù)字鍵的選擇完成,我們得到一個(gè)擊鍵次數(shù)度量,簡(jiǎn)單的擊鍵行為模型,假定全部選擇都由數(shù)字選擇完成,不考慮光標(biāo)移動(dòng)、刪除等操作 輸入完整拼音需要n次擊鍵,需要m次數(shù)字選擇完成漢字輸入 目標(biāo)的擊鍵效率評(píng)估度量是 m/(n+m) 這個(gè)值越高,輸入法越友好 優(yōu)化候選長(zhǎng)度、排序等以降低以上的度量,觸摸屏上的中文輸入法更加復(fù)雜的擊鍵行為,目錄,問(wèn)題概述 拼音輸入法 機(jī)器翻譯:服務(wù)于漢字文化圈語(yǔ)言 結(jié)語(yǔ),漢字作用再審視,中國(guó) 1950s:漢語(yǔ)拼音曾經(jīng)計(jì)劃用來(lái)替換漢字作為正式
5、的文字 廢除漢字 1980s:漢字的計(jì)算機(jī)處理面臨挑戰(zhàn) 但是,現(xiàn)在。 你懂的,漢字作用再審視,日本 明治維新后,中國(guó)衰落,漢字的使用的合法性和合理性引起爭(zhēng)議 最終,漢字在日語(yǔ)中的使用得以保留,但是使用大幅度減少 存在2000個(gè)漢字的當(dāng)用漢字表,漢字作用再審視,朝鮮 1949年開(kāi)始徹底使用純諺文印刷主要出版物,標(biāo)志著國(guó)漢混用朝鮮語(yǔ)的時(shí)代在朝鮮正式結(jié)束 韓國(guó) 1948年,韓國(guó)制憲會(huì)議制定了韓字專(zhuān)用的法律。 1950年,韓國(guó)內(nèi)務(wù)部通令容許夾寫(xiě)漢字,但是五年以后該通令被取消。 1970年,樸正熙政府強(qiáng)化了韓字專(zhuān)用政策的推行,鼓勵(lì)出版界使用純韓字。 1974年,文教省又公布“教科書(shū)韓漢并書(shū)方針”,結(jié)束了
6、“禁用漢字”政策。 1999年,金大中總統(tǒng)發(fā)布總統(tǒng)令,要求在必要情況下并書(shū)漢字以確保公文內(nèi)容的準(zhǔn)確傳達(dá)。 2011年開(kāi)始,韓國(guó)把漢字重新列入中小學(xué)的課程。 2004年:賤出將軍事件,漢字作用再審視,字喃,不晚于13世紀(jì)創(chuàng)造出來(lái)用于記錄越南語(yǔ) 19世紀(jì)由法國(guó)殖民者主導(dǎo),開(kāi)始普及法國(guó)傳教士設(shè)計(jì)的越南語(yǔ)的羅馬字書(shū)寫(xiě)體系。 1919年的科舉廢除,漢字的使用也被廢除。 1945年越南民主共和國(guó)在越南北部成立后,北部的教育中的漢字教學(xué)已經(jīng)不存在; 南越在1975年前的中等教育中仍保留“漢文科”。 今天,漢字在越南的地位類(lèi)似于拉丁語(yǔ)在歐洲的情形。 沒(méi)有漢字,你不知道你在說(shuō)什么,基于漢字的密切的詞匯聯(lián)系,日語(yǔ)
7、 約有至少50%的日語(yǔ)詞匯來(lái)自漢語(yǔ)。在近代,則是大量反應(yīng)現(xiàn)代西方科技文化的術(shù)語(yǔ)首先通過(guò)日語(yǔ)中的漢字書(shū)寫(xiě),繼而重新傳播回漢語(yǔ) 韓語(yǔ)/朝鮮語(yǔ) 漢語(yǔ)借詞占韓文詞匯量的60% 越南語(yǔ) 漢語(yǔ)借詞可達(dá)60,越南語(yǔ)、朝鮮語(yǔ)/韓語(yǔ)使用純拼音文字,日語(yǔ)是拼音-漢字混合書(shū)寫(xiě)語(yǔ)言,因此中國(guó)人看到日文,多少能猜測(cè)出所表達(dá)的意思 但是越南語(yǔ)、朝鮮語(yǔ)/韓語(yǔ)。 統(tǒng)計(jì)機(jī)器翻譯:沒(méi)有對(duì)齊語(yǔ)料,韓文也可以這樣寫(xiě),韓漢書(shū)寫(xiě)的不同模式的例子 純韓文 . 韓漢并書(shū) (忠道) (執(zhí)持) . 韓漢夾寫(xiě)(韓主漢從) 忠道 執(zhí)持 . 韓漢夾寫(xiě)(漢主韓從) 只今 三年以後 忠道 執(zhí)持 過(guò)失 盟誓,韓國(guó)憲法(韓漢混合書(shū)寫(xiě),前文 悠久 史 傳統(tǒng) 大
8、韓國(guó)民 31運(yùn)動(dòng) 建立 大韓民國(guó)時(shí)政府 法統(tǒng) 義 抗拒 419民主念 , 祖國(guó) 民主改革 平和的 統(tǒng)一 使命 正義人道 同胞愛(ài) 民族 團(tuán)結(jié) , 社會(huì)的 弊習(xí) 義 , 自 調(diào)和 自由民主的 基本秩序 政治經(jīng)濟(jì)社會(huì)文化 域 各人 機(jī)會(huì) , 能力 最高度 , 自由 權(quán)利 責(zé)任 義務(wù) , 國(guó)民生活 世界平和 人類(lèi)共榮 子孫 安全 自由 幸福 1948年 7月 12日 制定 8次 改正 憲法 國(guó)會(huì) 議決 國(guó)民投票 改正. 第1章 總綱 第1條 大韓民國(guó) 民主共和國(guó). 大韓民國(guó) 主權(quán) 國(guó)民 , 權(quán)力 國(guó)民 . 第2條 大韓民國(guó) 國(guó)民 法律 . 國(guó)家 法律 在外國(guó)民 義務(wù) . 第3條 大韓民國(guó) 土 韓半島
9、附屬島嶼 . 第4條 大韓民國(guó) 統(tǒng)一 指向, 自由民主的 基本秩序 平和的 統(tǒng)一 政策 . 第5條 大韓民國(guó) 國(guó)際平和 侵略的 戰(zhàn)爭(zhēng) 否認(rèn). 國(guó)軍 國(guó)家 安全保障 國(guó)土防衛(wèi) 神聖 義務(wù) 使命 , 政治的 中立性 .,訓(xùn)讀漢字串,借鑒這些周邊語(yǔ)言和漢語(yǔ)的歷史性聯(lián)系,我們提出使用一種嚴(yán)格按照詞匯語(yǔ)義等價(jià)條件下的漢字轉(zhuǎn)寫(xiě)形式,分別用于相關(guān)語(yǔ)言到漢語(yǔ)的翻譯處理。 這個(gè)以源語(yǔ)言的語(yǔ)法和語(yǔ)序書(shū)寫(xiě)的漢字串,其中的各個(gè)詞匯在源語(yǔ)言和現(xiàn)代漢語(yǔ)之間語(yǔ)義等價(jià),借用日語(yǔ)的術(shù)語(yǔ),我們稱(chēng)之為“訓(xùn)讀漢字串,語(yǔ)義翻譯和語(yǔ)法翻譯,以訓(xùn)讀漢字串為中間語(yǔ)言,可以將機(jī)器翻譯任務(wù)分解為兩個(gè)階段 語(yǔ)義翻譯階段 完全類(lèi)似于漢語(yǔ)拼音輸入法中
10、漢語(yǔ)拼音串到漢字句子的逐一轉(zhuǎn)換過(guò)程,基于雙語(yǔ)詞典提供的候選,源語(yǔ)言音節(jié)到漢字的轉(zhuǎn)換是嚴(yán)格對(duì)應(yīng)的(在越南語(yǔ)的情形,國(guó)語(yǔ)字到漢字的轉(zhuǎn)換甚至是一個(gè)音節(jié)恰好可以嚴(yán)格映射到一個(gè)漢字),而無(wú)須考慮詞序的重排和詞匯的復(fù)雜改寫(xiě)。 語(yǔ)法翻譯階段 把遵照源語(yǔ)言語(yǔ)法的訓(xùn)讀漢字串重排詞序,必要時(shí)改寫(xiě)個(gè)別詞匯,轉(zhuǎn)為合乎漢語(yǔ)語(yǔ)法的句子。 注意這是一個(gè)單語(yǔ)言處理過(guò)程,語(yǔ)言差異:韓語(yǔ)-漢語(yǔ),語(yǔ)音: 和日語(yǔ)一樣,韓語(yǔ)沒(méi)有聲調(diào)。 存在元音和諧現(xiàn)象。 語(yǔ)法: 韓語(yǔ)的語(yǔ)法結(jié)構(gòu)是主賓謂(SOV)結(jié)構(gòu),不同于漢語(yǔ)的主謂賓(SVO)。 韓語(yǔ)是黏著語(yǔ),這種類(lèi)型的語(yǔ)言靠粘著在詞干后面的大量、豐富的詞尾的變化來(lái)表達(dá)語(yǔ)意。漢語(yǔ)是孤立語(yǔ),靠詞序來(lái)表
11、達(dá)語(yǔ)意。 五組九類(lèi)詞,助詞(關(guān)系語(yǔ))反映黏著語(yǔ)功能和特性??煞g的是體語(yǔ)(名詞、代詞等,語(yǔ)言差異:越南語(yǔ)-漢語(yǔ),語(yǔ)音 越漢都有聲調(diào),前者有6個(gè),后者有5個(gè)。 語(yǔ)法 越漢都是孤立語(yǔ),動(dòng)詞沒(méi)有型態(tài)變化,名詞既沒(méi)有性、數(shù)、格的形式和變化,形容詞無(wú)需和名詞保持性、數(shù)、格上的一致。通過(guò)詞序來(lái)表達(dá)語(yǔ)法作用。都是主謂賓結(jié)構(gòu)(SVO)。 跟多數(shù)東南亞語(yǔ)言(泰、高棉、馬來(lái)語(yǔ)等)一樣,越南語(yǔ)也是形容詞后 置的語(yǔ)言。 越南語(yǔ)就不是Vit(越)Nam(南)Ting(語(yǔ)),而是Ting Vit Nam;京族的正式語(yǔ)言就應(yīng)該寫(xiě)成 ngn ng(言語(yǔ))chnh thc(正式)ca屬于、的dn tc(民族)Kinh(京,最簡(jiǎn)
12、機(jī)器翻譯方案,語(yǔ)義翻譯 基于雙語(yǔ)詞典 語(yǔ)法翻譯 基于語(yǔ)言模型聯(lián)合得分最大化重排句子,為什么可以這么做,漢字的序順其實(shí)不響影的你閱讀和理解,是吧? 既然大部分漢語(yǔ)借詞本來(lái)就是用漢字書(shū)寫(xiě)的,那我們就恢復(fù)它的本來(lái)面目!這就是最精確的翻譯! 分離語(yǔ)義和語(yǔ)法翻譯,讓機(jī)器翻譯過(guò)程更為明確,更有針對(duì)性 把雙語(yǔ)的翻譯轉(zhuǎn)換為單語(yǔ)的重述任務(wù),存在的問(wèn)題1,語(yǔ)義翻譯:消歧 一個(gè)音對(duì)應(yīng)多個(gè)字 基于上下文特征處理 使用長(zhǎng)詞的雙語(yǔ)詞典進(jìn)行最大匹配處理(用于漢越語(yǔ)詞匯,存在的問(wèn)題2,語(yǔ)法翻譯 訓(xùn)讀漢字串是非法順序的中文 解決方案 基于重述的修正 簡(jiǎn)化方案:使用語(yǔ)言模型調(diào)序 相當(dāng)于哈密頓路問(wèn)題,這是NP完全問(wèn)題,不存在多項(xiàng)式
13、解法。優(yōu)化方法是,一邊搜索一邊保存已經(jīng)搜過(guò)的答案,不重復(fù)計(jì)算,存在的問(wèn)題2 :例子1,紅星是他的一個(gè)特殊的紙覆蓋著太陽(yáng)曬黑的葡萄, 他用一種特種紙包住葡萄,以防止果皮被曬焦。 Red Star is his grapes covered with a special paper to sun tanning,存在的問(wèn)題2 :例子2,據(jù)統(tǒng)計(jì),目前一群在寧順,約80,000已籌得超過(guò)150個(gè)農(nóng)場(chǎng)。 據(jù)統(tǒng)計(jì),目前在寧順羊群,有大約80,000名兒童在150戶(hù)以上。 According to statistics, the current flock in Ninh Thuan, about 80,0
14、00 had been raised for more than 150 farms,存在的問(wèn)題2 :例子2,據(jù)統(tǒng)計(jì),寧順現(xiàn)飼養(yǎng)有大約8萬(wàn)只綿羊,分散在150個(gè)莊園,存在的問(wèn)題2 :例子2,在寧順省的干旱經(jīng)常遭受饑餓。 the drought in Ninh Thuan province often suffer from hunger. 大旱之年往往缺糧,重述策略,把非人的話(huà)語(yǔ)轉(zhuǎn)化為人話(huà)。 機(jī)器翻譯的終極問(wèn)題 仔細(xì)觀察大量的高質(zhì)量的機(jī)器翻譯輸出文本,發(fā)現(xiàn):其文本其實(shí)是可以理解,或者是可以猜測(cè)的,但是,可惜的是,描述并不地道。 使用重述處理來(lái)增強(qiáng)翻譯質(zhì)量,越南語(yǔ)轉(zhuǎn)換實(shí)例,對(duì)照原文 Du khc
15、h Ty Ban Nha thng thc tr ti Trm Anh qun. 西班牙游客在簪纓館品茶。 逐詞的訓(xùn)讀漢字串轉(zhuǎn)化如下 進(jìn)一步通過(guò)基于語(yǔ)言模型的改寫(xiě)和語(yǔ)序重排后得到的最終結(jié)果是 西班牙游客賞識(shí)茶在簪纓店。 Google翻譯 西班牙游客享受茶在英國(guó)的前哨基地。 Spanish tourists enjoy tea at the British outpost. 考慮到谷歌翻譯對(duì)于British這個(gè)詞翻譯為越南語(yǔ)“ngi Anh”,恰和上文的Trm Anh這個(gè)詞共享主要音節(jié)Anh。我們有理由推測(cè),谷歌翻譯使用了英文作為中間語(yǔ)言來(lái)處理越漢翻譯,評(píng)估度量,BLEU等度量綜合考慮機(jī)器翻譯文本的質(zhì)量 但是我們這里涉及兩個(gè)階段的輸出文本 因此,我們額外引入一個(gè)理解率的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國(guó)程控電源行業(yè)運(yùn)作模式及發(fā)展策略研究報(bào)告(版)
- 2024-2030年中國(guó)移動(dòng)電商行業(yè)發(fā)展前景及投資運(yùn)作模式分析報(bào)告
- 2024-2030年中國(guó)科技檔案管理系統(tǒng)行業(yè)發(fā)展模式及投資戰(zhàn)略研究報(bào)告權(quán)威版
- 2024-2030年中國(guó)磷化工行業(yè)發(fā)展分析及前景趨勢(shì)研究報(bào)告
- 2024-2030年中國(guó)石英爐芯管行業(yè)應(yīng)用動(dòng)態(tài)與需求規(guī)模預(yù)測(cè)報(bào)告
- 供熱管道材料選用與施工方案
- 醫(yī)療行業(yè)設(shè)備耗材智能計(jì)量方案
- 2024年建筑設(shè)備租賃及施工合同
- 教育行業(yè)作業(yè)管理制度的創(chuàng)新
- 2024年度文化傳媒廣告發(fā)布與代理合同
- 2024版人教版英語(yǔ)初一上單詞默寫(xiě)單
- 化學(xué)實(shí)驗(yàn)室安全智慧樹(shù)知到期末考試答案2024年
- 經(jīng)典房地產(chǎn)營(yíng)銷(xiāo)策劃培訓(xùn)(全)
- 工人入場(chǎng)安全教育課件
- 【川教版】《生命 生態(tài) 安全》二年級(jí)上冊(cè)第12課 少點(diǎn)兒馬虎 多點(diǎn)兒收獲 課件
- 人教版數(shù)學(xué)四年級(jí)上冊(cè)第五單元 《平行四邊形和梯形》 大單元作業(yè)設(shè)計(jì)
- 靜配中心差錯(cuò)預(yù)防
- 送教上門(mén)體育、健康教案教學(xué)內(nèi)容
- 高夫品牌市場(chǎng)分析報(bào)告
- 職業(yè)規(guī)劃書(shū)-數(shù)字化設(shè)計(jì)與制造技術(shù)
- 國(guó)家臨床重點(diǎn)專(zhuān)科建設(shè)項(xiàng)目申報(bào)書(shū)
評(píng)論
0/150
提交評(píng)論