多語(yǔ)種的拼音到漢字的轉(zhuǎn)換和翻譯_第1頁(yè)
多語(yǔ)種的拼音到漢字的轉(zhuǎn)換和翻譯_第2頁(yè)
多語(yǔ)種的拼音到漢字的轉(zhuǎn)換和翻譯_第3頁(yè)
多語(yǔ)種的拼音到漢字的轉(zhuǎn)換和翻譯_第4頁(yè)
多語(yǔ)種的拼音到漢字的轉(zhuǎn)換和翻譯_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多語(yǔ)種的拼音到漢字的轉(zhuǎn)換和翻譯趙 海上海交通大學(xué)長(zhǎng)沙目錄問(wèn)題概述拼音輸入法機(jī)器翻譯:效勞于漢字文化圈語(yǔ)言結(jié)語(yǔ)漢字文化圈漢字亦稱中文字、中國(guó)字,是世界上仍被廣泛使用的高度開(kāi)展的表意文字。仍在使用和曾經(jīng)使用漢字的國(guó)家和地區(qū)包括漢字的誕生地中國(guó)、周邊深受其影響的越南、朝鮮半島和日本,以及近代華人移民聚集的新加坡、馬來(lái)西亞等東南亞國(guó)家。接受漢字及中國(guó)文化影響的地理區(qū)域在某些文獻(xiàn)中被非正式地稱為漢字文化圈漢字文化圈的拼音化中國(guó) 等日本朝鮮/韓國(guó)越南拼音文字(羅馬字)漢語(yǔ)拼音日文羅馬字方案韓文羅馬字方案越南語(yǔ)國(guó)語(yǔ)字拼音文字(民族文字)假名諺文漢字漢字日文漢字韓文漢字漢字和字喃漢字文化圈各語(yǔ)言均是世界意義上

2、的大語(yǔ)種漢語(yǔ)有超過(guò)13億人使用,是使用人口最多的語(yǔ)言日語(yǔ)有1.3億的使用者朝鮮語(yǔ)/韓語(yǔ)有超過(guò)7,000萬(wàn)的使用人口越南語(yǔ)那么擁有世界范圍內(nèi)約8,000萬(wàn)的使用者使用人數(shù)應(yīng)用驅(qū)動(dòng)的音字轉(zhuǎn)化任務(wù)中文的拼音輸入法從漢語(yǔ)拼音到漢字句子機(jī)器翻譯從假名、諺文或者越南語(yǔ)國(guó)語(yǔ)字到漢字串從語(yǔ)義等價(jià)的角度,觀察不同語(yǔ)言的讀音差異和演化軌跡目錄問(wèn)題概述拼音輸入法機(jī)器翻譯:效勞于漢字文化圈語(yǔ)言結(jié)語(yǔ)基于拼音的中文輸入法主流的輸入法大局部是基于拼音的不考慮聲調(diào),漢語(yǔ)拼音的音節(jié)數(shù)少于500個(gè)漢字,那么有3000-20000個(gè),根據(jù)應(yīng)用場(chǎng)合不同而不同無(wú)論哪種情形,基于拼音輸入面臨的主要問(wèn)題是:針對(duì)輸入拼音音節(jié),快速選定漢字。

3、通用策略輸入一個(gè)拼音音節(jié),會(huì)有幾十個(gè)漢字對(duì)應(yīng)輸入雙音節(jié)詞對(duì)應(yīng)的拼音,那么會(huì)快速降低到只有幾個(gè)合法的漢字詞對(duì)應(yīng)所以輸入盡可能長(zhǎng)的音節(jié)串!拼音輸入法作為漢字串解碼任務(wù)輸入:漢語(yǔ)拼音串輸出:一一對(duì)應(yīng)的符合漢語(yǔ)語(yǔ)法語(yǔ)義的漢字串串標(biāo)注任務(wù)最大熵模型解碼統(tǒng)計(jì)機(jī)器翻譯解碼ziranyuyanchuli字然與嚴(yán)出理子染語(yǔ)眼除離自燃于煙處力紫冉魚(yú)言初李資髯雨演觸利作為機(jī)器翻譯的漢字串解碼PACLIC 2021流程:沒(méi)有對(duì)齊過(guò)程僅適用標(biāo)準(zhǔn)的MERT調(diào)試以及MOSES解碼有效集成語(yǔ)言模型等豐富特征精度和整句正確率均優(yōu)于標(biāo)準(zhǔn)的最大熵模型10K100K1MME0.8290.8910.933SMT0.9470.9520.

4、95510K100K1MME0.0750.1690.302SMT0.4020.4290.454不僅僅是串解碼任務(wù)我們使用字的精度來(lái)評(píng)估漢字串解碼任務(wù)對(duì)于串解碼任務(wù)這是標(biāo)準(zhǔn)度量,因而它不是問(wèn)題但是,我們效勞于中文輸入法,它的真正目標(biāo)是最少的擊鍵選擇來(lái)完成輸入新型的漢字串解碼評(píng)估度量基于擊鍵次數(shù)解碼不可能100%正確,如果1-best輸出不是完全正確的,我們依賴于輸入法給出的其他次優(yōu)的候選這就是核心問(wèn)題!假定所有的輸入都是基于數(shù)字鍵的選擇完成,我們得到一個(gè)擊鍵次數(shù)度量 簡(jiǎn)單的擊鍵行為模型假定全部選擇都由數(shù)字選擇完成,不考慮光標(biāo)移動(dòng)、刪除等操作輸入完整拼音需要n次擊鍵,需要m次數(shù)字選擇完成漢字輸入目

5、標(biāo)的擊鍵效率評(píng)估度量是 m/(n+m)這個(gè)值越高,輸入法越友好優(yōu)化候選長(zhǎng)度、排序等以降低以上的度量觸摸屏上的中文輸入法更加復(fù)雜的擊鍵行為 目錄問(wèn)題概述拼音輸入法機(jī)器翻譯:效勞于漢字文化圈語(yǔ)言結(jié)語(yǔ)漢字作用再審視中國(guó)1950s:漢語(yǔ)拼音曾經(jīng)方案用來(lái)替換漢字作為正式的文字廢除漢字1980s:漢字的計(jì)算機(jī)處理面臨挑戰(zhàn)但是,現(xiàn)在。你懂的漢字作用再審視日本明治維新后,中國(guó)衰落,漢字的使用的合法性和合理性引起爭(zhēng)議最終,漢字在日語(yǔ)中的使用得以保存,但是使用大幅度減少存在2000個(gè)漢字的當(dāng)用漢字表漢字作用再審視朝鮮1949年開(kāi)始徹底使用純諺文印刷主要出版物,標(biāo)志著國(guó)漢混用朝鮮語(yǔ)的時(shí)代在朝鮮正式結(jié)束韓國(guó)1948年

6、,韓國(guó)制憲會(huì)議制定了韓字專用的法律。1950年,韓國(guó)內(nèi)務(wù)部通令容許夾寫(xiě)漢字,但是五年以后該通令被取消。1970年,樸正熙政府強(qiáng)化了韓字專用政策的推行,鼓勵(lì)出版界使用純韓字。1974年,文教省又公布“教科書(shū)韓漢并書(shū)方針,結(jié)束了“禁用漢字政策。1999年,金大中總統(tǒng)發(fā)布總統(tǒng)令,要求在必要情況下并書(shū)漢字以確保公文內(nèi)容的準(zhǔn)確傳達(dá)。2021年開(kāi)始,韓國(guó)把漢字重新列入中小學(xué)的課程。2004年:賤出將軍事件漢字作用再審視字喃,不晚于13世紀(jì)創(chuàng)造出來(lái)用于記錄越南語(yǔ)19世紀(jì)由法國(guó)殖民者主導(dǎo),開(kāi)始普及法國(guó)傳教士設(shè)計(jì)的越南語(yǔ)的羅馬字書(shū)寫(xiě)體系。1919年的科舉廢除,漢字的使用也被廢除。1945年越南民主共和國(guó)在越南北

7、部成立后,北部的教育中的漢字教學(xué)已經(jīng)不存在;南越在1975年前的中等教育中仍保存“漢文科。今天,漢字在越南的地位類似于拉丁語(yǔ)在歐洲的情形。沒(méi)有漢字,你不知道你在說(shuō)什么基于漢字的密切的詞匯聯(lián)系日語(yǔ)約有至少50%的日語(yǔ)詞匯來(lái)自漢語(yǔ)。在近代,那么是大量反響現(xiàn)代西方科技文化的術(shù)語(yǔ)首先通過(guò)日語(yǔ)中的漢字書(shū)寫(xiě),繼而重新傳播回漢語(yǔ)韓語(yǔ)/朝鮮語(yǔ)漢語(yǔ)借詞占韓文詞匯量的60%越南語(yǔ)漢語(yǔ)借詞可達(dá)60%漢語(yǔ)韓國(guó)漢字諺文和平平和光榮/光榮榮光/榮光命運(yùn)/命運(yùn)運(yùn)命/運(yùn)命越南語(yǔ)國(guó)字中文字符中文拼音漢語(yǔ)語(yǔ)義lich s歷史l sh歷史nh ngha定義dng y定義Phone phu豐富fng f豐富thi s時(shí)事sh sh時(shí)

8、事越南語(yǔ)、朝鮮語(yǔ)/韓語(yǔ)使用純拼音文字日語(yǔ)是拼音-漢字混合書(shū)寫(xiě)語(yǔ)言,因此中國(guó)人看到日文,多少能猜測(cè)出所表達(dá)的意思但是越南語(yǔ)、朝鮮語(yǔ)/韓語(yǔ)。統(tǒng)計(jì)機(jī)器翻譯:沒(méi)有對(duì)齊語(yǔ)料韓文也可以這樣寫(xiě)韓漢書(shū)寫(xiě)的不同模式的例子純韓文 .韓漢并書(shū) (忠道) (執(zhí)持) .韓漢夾寫(xiě)韓主漢從 忠道 執(zhí)持 .韓漢夾寫(xiě)漢主韓從 只今 三年以後 忠道 執(zhí)持 過(guò)失 盟誓.韓國(guó)憲法韓漢混合書(shū)寫(xiě)前文 悠久 史 傳統(tǒng) 大韓國(guó)民 31運(yùn)動(dòng) 建立 大韓民國(guó)時(shí)政府 法統(tǒng) 義 抗拒 419民主念 , 祖國(guó) 民主改革 平和的 統(tǒng)一 使命 正義人道 同胞愛(ài) 民族 團(tuán)結(jié) , 社會(huì)的 弊習(xí) 義 , 自 調(diào)和 自由民主的 根本秩序 政治經(jīng)濟(jì)社會(huì)文化 域 各

9、人 機(jī)會(huì) , 能力 最高度 , 自由 權(quán)利 責(zé)任 義務(wù) , 國(guó)民生活 世界平和 人類共榮 子孫 平安 自由 幸福 1948年 7月 12日 制定 8次 改正 憲法 國(guó)會(huì) 議決 國(guó)民投票 改正. 第1章 總綱 第1條 大韓民國(guó) 民主共和國(guó). 大韓民國(guó) 主權(quán) 國(guó)民 , 權(quán)力 國(guó)民 . 第2條 大韓民國(guó) 國(guó)民 法律 . 國(guó)家 法律 在外國(guó)民 義務(wù) . 第3條 大韓民國(guó) 土 韓半島 附屬島嶼 . 第4條 大韓民國(guó) 統(tǒng)一 指向, 自由民主的 根本秩序 平和的 統(tǒng)一 政策 . 第5條 大韓民國(guó) 國(guó)際平和 侵略的 戰(zhàn)爭(zhēng) 否認(rèn). 國(guó)軍 國(guó)家 平安保障 國(guó)土防衛(wèi) 神聖 義務(wù) 使命 , 政治的 中立性 . 訓(xùn)讀漢

10、字串借鑒這些周邊語(yǔ)言和漢語(yǔ)的歷史性聯(lián)系,我們提出使用一種嚴(yán)格按照詞匯語(yǔ)義等價(jià)條件下的漢字轉(zhuǎn)寫(xiě)形式,分別用于相關(guān)語(yǔ)言到漢語(yǔ)的翻譯處理。這個(gè)以源語(yǔ)言的語(yǔ)法和語(yǔ)序書(shū)寫(xiě)的漢字串,其中的各個(gè)詞匯在源語(yǔ)言和現(xiàn)代漢語(yǔ)之間語(yǔ)義等價(jià),借用日語(yǔ)的術(shù)語(yǔ),我們稱之為“訓(xùn)讀漢字串。語(yǔ)義翻譯和語(yǔ)法翻譯以訓(xùn)讀漢字串為中間語(yǔ)言,可以將機(jī)器翻譯任務(wù)分解為兩個(gè)階段語(yǔ)義翻譯階段完全類似于漢語(yǔ)拼音輸入法中漢語(yǔ)拼音串到漢字句子的逐一轉(zhuǎn)換過(guò)程,基于雙語(yǔ)詞典提供的候選,源語(yǔ)言音節(jié)到漢字的轉(zhuǎn)換是嚴(yán)格對(duì)應(yīng)的在越南語(yǔ)的情形,國(guó)語(yǔ)字到漢字的轉(zhuǎn)換甚至是一個(gè)音節(jié)恰好可以嚴(yán)格映射到一個(gè)漢字,而無(wú)須考慮詞序的重排和詞匯的復(fù)雜改寫(xiě)。語(yǔ)法翻譯階段把遵照源語(yǔ)言

11、語(yǔ)法的訓(xùn)讀漢字串重排詞序,必要時(shí)改寫(xiě)個(gè)別詞匯,轉(zhuǎn)為符合漢語(yǔ)語(yǔ)法的句子。注意這是一個(gè)單語(yǔ)言處理過(guò)程!語(yǔ)言差異:韓語(yǔ)-漢語(yǔ)語(yǔ)音:和日語(yǔ)一樣,韓語(yǔ)沒(méi)有聲調(diào)。存在元音和諧現(xiàn)象。語(yǔ)法:韓語(yǔ)的語(yǔ)法結(jié)構(gòu)是主賓謂SOV結(jié)構(gòu),不同于漢語(yǔ)的主謂賓SVO。韓語(yǔ)是黏著語(yǔ),這種類型的語(yǔ)言靠粘著在詞干后面的大量、豐富的詞尾的變化來(lái)表達(dá)語(yǔ)意。漢語(yǔ)是孤立語(yǔ),靠詞序來(lái)表達(dá)語(yǔ)意。五組九類詞,助詞關(guān)系語(yǔ)反映黏著語(yǔ)功能和特性??煞g的是體語(yǔ)名詞、代詞等。語(yǔ)言差異:越南語(yǔ)-漢語(yǔ)語(yǔ)音越漢都有聲調(diào),前者有6個(gè),后者有5個(gè)。語(yǔ)法越漢都是孤立語(yǔ),動(dòng)詞沒(méi)有型態(tài)變化,名詞既沒(méi)有性、數(shù)、格的形式和變化,形容詞無(wú)需和名詞保持性、數(shù)、格上的一致。通過(guò)詞

12、序來(lái)表達(dá)語(yǔ)法作用。都是主謂賓結(jié)構(gòu)(SVO)。跟多數(shù)東南亞語(yǔ)言泰、高棉、馬來(lái)語(yǔ)等一樣,越南語(yǔ)也是形容詞后 置的語(yǔ)言。越南語(yǔ)就不是Vit越Nam南Ting語(yǔ),而是Ting Vit Nam;京族的正式語(yǔ)言就應(yīng)該寫(xiě)成 ngn ng言語(yǔ)chnh thc正式ca屬于、的dn tc民族Kinh京。最簡(jiǎn)機(jī)器翻譯方案語(yǔ)義翻譯基于雙語(yǔ)詞典語(yǔ)法翻譯基于語(yǔ)言模型聯(lián)合得分最大化重排句子為什么可以這么做漢字的序順其實(shí)不響影的你閱讀和理解,是吧?既然大局部漢語(yǔ)借詞本來(lái)就是用漢字書(shū)寫(xiě)的,那我們就恢復(fù)它的本來(lái)面目!這就是最精確的翻譯!別離語(yǔ)義和語(yǔ)法翻譯,讓機(jī)器翻譯過(guò)程更為明確,更有針對(duì)性把雙語(yǔ)的翻譯轉(zhuǎn)換為單語(yǔ)的重述任務(wù)存在的問(wèn)

13、題1語(yǔ)義翻譯:消歧一個(gè)音對(duì)應(yīng)多個(gè)字基于上下文特征處理使用長(zhǎng)詞的雙語(yǔ)詞典進(jìn)行最大匹配處理用于漢越語(yǔ)詞匯存在的問(wèn)題2語(yǔ)法翻譯訓(xùn)讀漢字串是非法順序的中文解決方案基于重述的修正簡(jiǎn)化方案:使用語(yǔ)言模型調(diào)序相當(dāng)于哈密頓路問(wèn)題,這是NP完全問(wèn)題,不存在多項(xiàng)式解法。優(yōu)化方法是,一邊搜索一邊保存已經(jīng)搜過(guò)的答案,不重復(fù)計(jì)算。存在的問(wèn)題2 :例子1紅星是他的一個(gè)特殊的紙覆蓋著太陽(yáng)曬黑的葡萄,他用一種特種紙包住葡萄,以防止果皮被曬焦。Red Star is his grapes covered with a special paper to sun tanning,存在的問(wèn)題2 :例子2據(jù)統(tǒng)計(jì),目前一群在寧順,約80

14、,000已籌得超過(guò)150個(gè)農(nóng)場(chǎng)。據(jù)統(tǒng)計(jì),目前在寧順羊群,有大約80,000名兒童在150戶以上。According to statistics, the current flock in Ninh Thuan, about 80,000 had been raised for more than 150 farms.存在的問(wèn)題2 :例子2據(jù)統(tǒng)計(jì),寧順現(xiàn)飼養(yǎng)有大約8萬(wàn)只綿羊,分散在150個(gè)莊園。存在的問(wèn)題2 :例子2在寧順省的干旱經(jīng)常遭受饑餓。the drought in Ninh Thuan province often suffer from hunger.大旱之年往往缺糧。重述策略把非人的

15、話語(yǔ)轉(zhuǎn)化為人話。機(jī)器翻譯的終極問(wèn)題仔細(xì)觀察大量的高質(zhì)量的機(jī)器翻譯輸出文本,發(fā)現(xiàn):其文本其實(shí)是可以理解,或者是可以猜測(cè)的,但是,可惜的是,描述并不地道。使用重述處理來(lái)增強(qiáng)翻譯質(zhì)量越南語(yǔ)轉(zhuǎn)換實(shí)例Du khchTy Ban Nhathng thctrtiTrm Anhqun.游客西班牙賞識(shí)茶在簪纓店。對(duì)照原文Du khch Ty Ban Nha thng thc tr ti Trm Anh qun.西班牙游客在簪纓館品茶。逐詞的訓(xùn)讀漢字串轉(zhuǎn)化如下進(jìn)一步通過(guò)基于語(yǔ)言模型的改寫(xiě)和語(yǔ)序重排后得到的最終結(jié)果是西班牙游客賞識(shí)茶在簪纓店。Google翻譯西班牙游客享受茶在英國(guó)的前哨基地。Spanish tourists enjoy tea at the British outpost.考慮到谷歌翻譯對(duì)于British這個(gè)詞翻譯為越南語(yǔ)“ngi Anh,恰和上文的Trm Anh這個(gè)詞共享主要音節(jié)Anh。我們有理由推測(cè),谷歌翻譯使用了英文作為中間語(yǔ)言來(lái)處理越漢翻譯。評(píng)估度量BLEU等度量綜合考慮機(jī)器翻譯文本的質(zhì)量但是我們這里涉及兩個(gè)階段的輸出文本因此,我們額外引入一個(gè)理解率的度量,說(shuō)明多大程度上,機(jī)器輸出文本可以被正確的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論