人工智能課件_第1頁(yè)
人工智能課件_第2頁(yè)
人工智能課件_第3頁(yè)
人工智能課件_第4頁(yè)
人工智能課件_第5頁(yè)
已閱讀5頁(yè),還剩69頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能課件第一頁(yè),共七十四頁(yè),2022年,8月28日2.2機(jī)器翻譯常用的處理技術(shù)自然語(yǔ)言的機(jī)器翻譯目前一般以句子為翻譯單位。句子又分為句、短語(yǔ)、詞三個(gè)層次。分析階段一般分為詞法分析、句法分析、語(yǔ)義分析、語(yǔ)境分析、語(yǔ)用分析等,其中以詞法分析和句法分析為主。第二頁(yè),共七十四頁(yè),2022年,8月28日同樣是翻譯,卻有不同的水平。最基本的是把原文的單詞與句法結(jié)構(gòu)映射到譯文相對(duì)應(yīng)的單詞與句法結(jié)構(gòu)第三頁(yè),共七十四頁(yè),2022年,8月28日人做翻譯工作的必要條件是懂得兩種語(yǔ)言。一般情況下,有一種語(yǔ)言是其母語(yǔ),另一種是外語(yǔ).因而工作的難點(diǎn)在外語(yǔ)上,需要記外語(yǔ)單詞,學(xué)外語(yǔ)語(yǔ)法。第四頁(yè),共七十四頁(yè),2022年,8月28日人能記住的單詞與語(yǔ)法規(guī)則總是有限的,翻譯時(shí)免不了要查詞典或參考書。還應(yīng)當(dāng)注意到,人在翻譯時(shí)會(huì)自覺或不自覺地運(yùn)用自已頭腦中所有的關(guān)于客觀世界的各種各樣的知識(shí),而人的知識(shí)又是可以不斷積累與更新的.因此,高水平的翻譯人是可以達(dá)到的。第五頁(yè),共七十四頁(yè),2022年,8月28日當(dāng)然,不是人人都能達(dá)到最高境界,正確認(rèn)識(shí)人的知識(shí)在翻譯過(guò)程中的作用正是把握機(jī)器翻譯能做到什么程度以及做不到什么程度的關(guān)鍵。第六頁(yè),共七十四頁(yè),2022年,8月28日

顯然、計(jì)算機(jī)系統(tǒng)能夠翻譯的必要條件也是要能“懂得”兩種語(yǔ)言,而且,這兩種語(yǔ)言對(duì)于計(jì)算機(jī)系統(tǒng)來(lái)說(shuō)都是“外語(yǔ)”。不難想象,機(jī)器翻譯是很難、很難的研究課題,通觀當(dāng)今世界上現(xiàn)有的機(jī)器翻譯系統(tǒng),大多數(shù)是建立在句法學(xué)的基礎(chǔ)上的,當(dāng)然也注意吸收語(yǔ)義學(xué)的研究成果,因此—般以句子為單位進(jìn)行翻譯。第七頁(yè),共七十四頁(yè),2022年,8月28日機(jī)器翻譯不可能達(dá)到人工翻譯的水平,因此,它的用途主要有:(1)進(jìn)行粗譯,經(jīng)過(guò)人工修改達(dá)到目標(biāo);(2)有低水平的翻譯總比沒有翻譯好,可在譯文中發(fā)現(xiàn)所需要的東西。第八頁(yè),共七十四頁(yè),2022年,8月28日翻譯過(guò)程要盡可能多把源語(yǔ)言的意思、感覺和語(yǔ)言藝術(shù)傳遞給目標(biāo)語(yǔ)言,但是如果源語(yǔ)言中有的詞匯目標(biāo)語(yǔ)言中找不到,翻譯就只能近似的表達(dá)了。對(duì)于這種情況,機(jī)器翻譯不可能超過(guò)人第九頁(yè),共七十四頁(yè),2022年,8月28日若把自然語(yǔ)言文本分成四種情況:(1)詩(shī)歌與文學(xué)作(2)法律文件與合同(3)科技文獻(xiàn)(4)文章題目和一般句子機(jī)器翻譯合適的處理對(duì)象是第(3)、第(4)類語(yǔ)言材料。第十頁(yè),共七十四頁(yè),2022年,8月28日

機(jī)器翻譯的特點(diǎn):(1)多學(xué)科合作(2)可計(jì)算性即能用計(jì)算機(jī)程序?qū)崿F(xiàn)(3)難解性由于人類對(duì)語(yǔ)言的認(rèn)知過(guò)程還不清楚,所以計(jì)算機(jī)不可能達(dá)到人類對(duì)語(yǔ)言的熟知程度。因此機(jī)器翻譯被稱為要在21世紀(jì)解決的科技難題之一。主要困難是自然語(yǔ)言在各層次上的歧義性,也稱二義性或多義性。機(jī)器翻譯的根本任務(wù)就要在處理過(guò)程中逐步消除這些歧義。(4)實(shí)用性盡管機(jī)器翻譯的研究存在巨大的困難,但人們卻對(duì)它抱有高希望。第十一頁(yè),共七十四頁(yè),2022年,8月28日

機(jī)器翻譯有著重要的實(shí)踐意義和理論價(jià)值:(1)實(shí)踐方面的意義際間的合作與交流,語(yǔ)言的差異是一個(gè)非常嚴(yán)重的障礙。各行各業(yè)的人們面對(duì)大量他們不熟悉的語(yǔ)言的文擋資料,如果單純依靠人工翻譯,這些日益增加的待翻譯材料將是一種非常沉重的負(fù)擔(dān)。而機(jī)器翻譯可大幅度減輕這種負(fù)擔(dān)。(2)學(xué)術(shù)研究方面的意義機(jī)器翻譯對(duì)于了解人類語(yǔ)言和思維的基本機(jī)制,探討人工智能技術(shù)有著重要的意義。(3)商業(yè)方面的意義機(jī)器翻譯廣泛的應(yīng)用前景有可觀的經(jīng)濟(jì)效益和社會(huì)效益。第十二頁(yè),共七十四頁(yè),2022年,8月28日詞法分析有單詞切分(包括歧義切分)和單詞形態(tài)分析;還有專有名詞問(wèn)題,如政府機(jī)構(gòu)名稱、地理名稱、公司名稱、人名、日期、專業(yè)頭銜等,若不能正確識(shí)別,就不會(huì)有正確的翻譯第十三頁(yè),共七十四頁(yè),2022年,8月28日句法分析任務(wù)是確定句子中每個(gè)詞的詞性(或稱詞類),確定詞與詞之間的關(guān)系以便構(gòu)成短語(yǔ),確定短語(yǔ)之間的關(guān)系以便構(gòu)成更大的短語(yǔ)或者組成句子。第十四頁(yè),共七十四頁(yè),2022年,8月28日

多年句法分析認(rèn)識(shí)到:對(duì)于復(fù)雜真實(shí)句子來(lái)說(shuō),要一次性給出句子的完整分析是相當(dāng)困難的,而給出句子的某些基本分析或部分分析結(jié)果很恰當(dāng),這樣既可以提高整個(gè)句子分析的正確性,又對(duì)于某些應(yīng)用很有用處。所以當(dāng)前句法分析的一個(gè)熱點(diǎn)是注重真實(shí)句子的部分分析。其內(nèi)容包括名詞短語(yǔ)的確定、句子中部分或全部短語(yǔ)邊界的劃定等。第十五頁(yè),共七十四頁(yè),2022年,8月28日語(yǔ)義分析就是解決句子中意義的不同或可不可能搭配,如下兩句:(1)Thefishwasboughtbythecook;魚是廚師買的

(2)Thefishwasboughtbytheriver;魚是從河邊買的以上兩個(gè)句子結(jié)構(gòu)上完全相同,機(jī)器翻譯必須依靠語(yǔ)義分析來(lái)區(qū)分含義,“cook”是有生命的人,而“river”是無(wú)生命的地點(diǎn)。第十六頁(yè),共七十四頁(yè),2022年,8月28日語(yǔ)境分析研究句子與句子間的關(guān)系,也就是上下文關(guān)系。例如兩個(gè)句子中某個(gè)代詞指代那一個(gè)名詞。語(yǔ)用分析研究源語(yǔ)言與目標(biāo)語(yǔ)言不同的文化背景,有典故的詞、句(成語(yǔ))的翻譯,例如:(1)Howareyou?不能譯成“你怎么樣?”,只能譯成“你好!”

(2)“指鹿為馬”不能譯成“callastagahorse”

只能譯成“deliberatelymisrepresent”。第十七頁(yè),共七十四頁(yè),2022年,8月28日翻譯在源語(yǔ)言和目標(biāo)語(yǔ)言詞匯級(jí)之間對(duì)應(yīng)情況有:(1)一對(duì)一,直接根據(jù)詞典譯文替換;(2)一對(duì)多,需要根據(jù)上下文選擇詞典給出的譯文之一。第十八頁(yè),共七十四頁(yè),2022年,8月28日居于機(jī)器翻譯系統(tǒng)核心地位的語(yǔ)言處理程序,包括原文的分析程序與譯文的生成程序。實(shí)際翻譯過(guò)程是利用從原文分析出的信息生成與原文等價(jià)的譯文。第十九頁(yè),共七十四頁(yè),2022年,8月28日機(jī)器翻譯系統(tǒng)的基礎(chǔ)是詞典與語(yǔ)法。這里所說(shuō)的詞典同通常的書本形式的詞典不同,它是存放在計(jì)算機(jī)系統(tǒng)中的供語(yǔ)言處理程序使用的電子詞典,它記述了構(gòu)成句子的詞所具有的各種有關(guān)詞法、語(yǔ)法、語(yǔ)義的性質(zhì),其中當(dāng)然包括兩種語(yǔ)言的對(duì)譯關(guān)系。這里所說(shuō)的語(yǔ)法也不是通常的用于教學(xué)或研究的描述性的語(yǔ)法,而是存儲(chǔ)在計(jì)算機(jī)系統(tǒng)中的高度形式化的語(yǔ)法,它以規(guī)則形式描述了句子的結(jié)構(gòu),語(yǔ)言處理程序依靠這些規(guī)則分析原文并生成譯文。這種電子詞典與語(yǔ)法規(guī)則顯然是相當(dāng)龐大釣數(shù)據(jù)庫(kù),因而機(jī)器翻譯系統(tǒng)應(yīng)配備詞典與語(yǔ)法的管理系統(tǒng)。第二十頁(yè),共七十四頁(yè),2022年,8月28日為了實(shí)際運(yùn)行機(jī)器翻譯系統(tǒng),在使用者與系統(tǒng)之間必須有一種友好的人機(jī)界面,使得原文與譯文能夠方便地輸入與輸出第二十一頁(yè),共七十四頁(yè),2022年,8月28日總之,機(jī)器翻譯是一種高技術(shù),它綜合運(yùn)用了計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、認(rèn)知心理學(xué)等多學(xué)科的技術(shù)成就。機(jī)器翻譯的理論與技術(shù)還在不斷發(fā)展之中,機(jī)器翻譯系統(tǒng)在社會(huì)生活中的價(jià)值將會(huì)日益顯現(xiàn)出來(lái)。第二十二頁(yè),共七十四頁(yè),2022年,8月28日

2.3機(jī)器翻譯的過(guò)程

可以用下式高度抽象地描述機(jī)器翻譯原理,ΦL1———L2

這里L(fēng)1,L2分別代表原語(yǔ)言,目標(biāo)語(yǔ)言中的所有表達(dá)式的集合,Φ是一種算法;它能確定L1中任一個(gè)表達(dá)式與L2中的某個(gè)表達(dá)式之間的等價(jià)對(duì)應(yīng)關(guān)系。第二十三頁(yè),共七十四頁(yè),2022年,8月28日顯然,如果這祥的Φ存在并且能夠把它構(gòu)造出來(lái),機(jī)器翻譯的問(wèn)題也就迎刃而解了,可惜的是,無(wú)論在理論上還是在實(shí)踐上都還沒能找到這樣的Φ,實(shí)際上,由于Ll,L2都是無(wú)限集,在只有有限資源(計(jì)算速度、存儲(chǔ)容量等)的計(jì)算機(jī)系統(tǒng)中,這樣的Φ是不存在的。因此,從工程實(shí)現(xiàn)的角度,只能對(duì)Ll,L2加以限制,并給出Φ的近似描述。第二十四頁(yè),共七十四頁(yè),2022年,8月28日

Φ的最直觀的描述是枚舉。在計(jì)算機(jī)系統(tǒng)中建立一部詞典即數(shù)據(jù)庫(kù)文件,它的每個(gè)記錄只要包含英語(yǔ)與對(duì)應(yīng)的漢語(yǔ)這樣兩個(gè)字段就夠了.例如

beautiful------美麗

pretty------可愛的

flowe------花

very------很

garden------花園

Goodmorning------早晨好

girl------姑娘第二十五頁(yè),共七十四頁(yè),2022年,8月28日如果要翻譯的東西有限,機(jī)器的存儲(chǔ)又足夠,這種辦法是再恰當(dāng)不過(guò)的了,會(huì)翻譯得又準(zhǔn)確又迅速。不過(guò)這種辦法對(duì)于變化多端的語(yǔ)句的翻譯是沒有實(shí)用價(jià)值的。因?yàn)榧词褂邢薅鄦卧~也能組合出無(wú)窮多個(gè)不同的語(yǔ)句.

例如,由上述詞典中的7個(gè)單詞至少可以組合出24種不同的短語(yǔ),pettygirl;beautifulgirl,verybeautiful,veryprettyflower……

都是這樣的短語(yǔ)。第二十六頁(yè),共七十四頁(yè),2022年,8月28日將這么多短語(yǔ)全部存入機(jī)器顯然太笨拙了,實(shí)際上也是不必要的。詞典中只要存入基本的7個(gè)單詞就夠了,另外把英語(yǔ)與漢語(yǔ)中都有的“名詞可以受形容詞修飾”、“形容詞可以受副詞修飾”這樣的語(yǔ)法知識(shí)以下列規(guī)則的形式存入計(jì)算機(jī),計(jì)算機(jī)程序參照這些規(guī)則,通過(guò)查英漢詞典,得到相應(yīng)的漢語(yǔ)詞,就可以合成相應(yīng)的漢語(yǔ)短語(yǔ),即“可愛的姑娘”,“美麗的姑娘”,“美麗的”,“很可愛的花”

……。第二十七頁(yè),共七十四頁(yè),2022年,8月28日自然語(yǔ)言的句子是由單詞連接而成的,但是句子不僅僅是單詞的線性序列,句于是有著層次結(jié)構(gòu)的。例如,句子是由“名詞短語(yǔ)”后接“動(dòng)詞短語(yǔ)”組成的,而名詞短語(yǔ)又是由名詞或形容詞后接名詞組成的,動(dòng)詞短語(yǔ)是由不及物動(dòng)詞或及物動(dòng)詞后接名詞短語(yǔ)組成的。第二十八頁(yè),共七十四頁(yè),2022年,8月28日顯然,同一種語(yǔ)言內(nèi)部存在不同的句子結(jié)構(gòu)。不同的語(yǔ)言之間,表達(dá)等價(jià)意義的句子的結(jié)構(gòu)可能相同,也可能不同。在翻譯的時(shí)候,通常的做法就是按照句子結(jié)構(gòu)的本來(lái)面貌把原語(yǔ)言的一個(gè)句子分解成較小的構(gòu)成要素,如短語(yǔ)。再將較小的結(jié)構(gòu)進(jìn)一步分解成更小的構(gòu)成要素,直到基本的構(gòu)成要素。這樣便得到了關(guān)于原文句子的結(jié)構(gòu)。第二十九頁(yè),共七十四頁(yè),2022年,8月28日所謂基本的構(gòu)成要素就是那些登錄在詞典中的項(xiàng)目,單詞顯然屬于這樣的基本構(gòu)成要素。這時(shí)通過(guò)查詞典就可以得到在意義上等價(jià)的目標(biāo)語(yǔ)言基本構(gòu)成要素,于是參照原文的句子結(jié)構(gòu)以至語(yǔ)義就可以選定目標(biāo)語(yǔ)言的對(duì)應(yīng)的句子結(jié)構(gòu),用目標(biāo)語(yǔ)言的基本構(gòu)成要素逐步生成較大的結(jié)構(gòu)、更大的結(jié)構(gòu)直至完整的句子。第三十頁(yè),共七十四頁(yè),2022年,8月28日以上所述的要素合成原理是當(dāng)代機(jī)器翻譯的最基本的原理。雖然說(shuō)這個(gè)原理是不難理解的,但要將它付諸實(shí)施,就會(huì)碰到許多棘手的難題。首先碰到的一個(gè)問(wèn)題是如何選取基本的構(gòu)成要素,單詞是基本構(gòu)成要素,但僅僅將單詞作為基本構(gòu)成要素是不可能得到較好的譯文的。第三十一頁(yè),共七十四頁(yè),2022年,8月28日請(qǐng)看下例:

Goodmorning.Howdoyoudo?

Hereisacupofteaforyou.如果詞典僅登錄單詞,并假定系統(tǒng)中的語(yǔ)法規(guī)則是完備的,處理程序是正確的,以上各句也只會(huì)被分別譯成以下的漢語(yǔ)句子:

好的早晨。你怎樣做?這里有一杯為了你的茶。第三十二頁(yè),共七十四頁(yè),2022年,8月28日中國(guó)人看了會(huì)莫名其妙吧?因此,通常也要把一些固定詞組作為基本構(gòu)成要素。但是這個(gè)口子一開,猶如洪水決堤,即使當(dāng)代計(jì)算機(jī)的海存也難以包容。因此,對(duì)超越單詞的基本構(gòu)成要素必須加以限制,機(jī)器翻譯還是要回到要素合成原理上。第三十三頁(yè),共七十四頁(yè),2022年,8月28日

即使將“Goodmorning”這樣的固定詞組吸收到詞典中,也不能解決所有的翻譯問(wèn)題,因?yàn)榉g需要根據(jù)具體的語(yǔ)言環(huán)境選擇恰當(dāng)?shù)哪繕?biāo)語(yǔ)言的表達(dá)方式。例如,朋友之間問(wèn)好,將“Goodmorning”譯成“你早”是恰當(dāng)?shù)摹5绻峭磔厗?wèn)候長(zhǎng)輩或下級(jí)問(wèn)候上級(jí),最好譯成“您早”。一種取巧的辦法是不分“你”和“您”,而含混地譯式“早晨好”。但英美人在上午11點(diǎn)見面仍可以說(shuō)“Goodmorning”,如果在此場(chǎng)景中仍譯成“早晨好”,中國(guó)人又會(huì)覺得別扭了.第三十四頁(yè),共七十四頁(yè),2022年,8月28日由此可見,好的翻譯決不是僅靠要素合成原理就能實(shí)現(xiàn)的。不過(guò),這么多復(fù)雜而又微妙的問(wèn)題不是眼下立刻能夠解決的?,F(xiàn)在的機(jī)器翻譯系統(tǒng)主要用于翻譯科學(xué)論文等客觀記述事實(shí)的、不帶感情色彩的文章,因而可以認(rèn)為要素合成原理是適用的。第三十五頁(yè),共七十四頁(yè),2022年,8月28日2.4句子的剖析與翻譯句子是表達(dá)一個(gè)完整意思的語(yǔ)言單位?,F(xiàn)在的機(jī)器翻譯系統(tǒng)基本上是一句對(duì)一句地進(jìn)行翻譯的,由于機(jī)器翻譯依據(jù)的是要素合成原理,因此就有必要研究如何把原文的句子分解成基本構(gòu)成要素(簡(jiǎn)稱原文分析)以及如何根據(jù)基本構(gòu)成要素結(jié)合成譯文的句子(簡(jiǎn)稱譯文生成)。為了開發(fā)一個(gè)好的機(jī)器翻譯系統(tǒng),原文分析與譯文生成都有很多的問(wèn)題需要深人研究,不過(guò),分析似乎處于更重要的地位。第三十六頁(yè),共七十四頁(yè),2022年,8月28日分析與生成都要依據(jù)某種語(yǔ)言理論去進(jìn)行,計(jì)算語(yǔ)言學(xué)為適應(yīng)機(jī)器翻譯等自然語(yǔ)言處理技術(shù)的需要發(fā)展了一系列新的語(yǔ)言理論,如上下文無(wú)關(guān)短語(yǔ)結(jié)構(gòu)語(yǔ)法、擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)、格語(yǔ)法、廣義短語(yǔ)結(jié)構(gòu)語(yǔ)法、詞匯功能語(yǔ)法、功能合一語(yǔ)法等.

我們不打算系統(tǒng)介紹這些語(yǔ)法理論及其在分析生成中的應(yīng)用,而只選用這些語(yǔ)法以及傳統(tǒng)語(yǔ)法中的一些基本概念與規(guī)則,用以闡述原文分析的方法步驟。第三十七頁(yè),共七十四頁(yè),2022年,8月28日請(qǐng)考察下面的英語(yǔ)句子及一些語(yǔ)法公式:

Ilikearedapple(1)

句子→代詞十動(dòng)詞十名詞短語(yǔ)(2)

名詞短語(yǔ)→冠詞十名詞(3)

名詞短語(yǔ)→冠詞十形容詞十名詞(4)第三十八頁(yè),共七十四頁(yè),2022年,8月28日與(1)類似的句子的結(jié)構(gòu)都可以用規(guī)則(2)和(4)加以解釋。當(dāng)然為了覆蓋英語(yǔ)的各種各樣的句型,僅有規(guī)則(2)~(4)是遠(yuǎn)遠(yuǎn)不夠的,但是這樣的規(guī)則畢競(jìng)有限,數(shù)量可以控制。采用這種辦法實(shí)現(xiàn)了利用有限的規(guī)則組合無(wú)窮多的英語(yǔ)句子。機(jī)器翻譯系統(tǒng)不可能在任意的英語(yǔ)句子與漢語(yǔ)句子之間建立一一對(duì)應(yīng)的關(guān)系,但是可以在反映英語(yǔ)句子結(jié)構(gòu)的語(yǔ)法公式與反映漢語(yǔ)句子結(jié)構(gòu)的語(yǔ)法公式之間建立對(duì)應(yīng)關(guān)系,就(2),(4)而言則有第三十九頁(yè),共七十四頁(yè),2022年,8月28日(英)名詞十動(dòng)詞十名詞短語(yǔ)對(duì)應(yīng)(漢)名詞十動(dòng)詞十名詞短語(yǔ)(5)

(英)冠詞十形容詞十名詞對(duì)應(yīng)(漢)數(shù)量詞十形容詞十名詞(6)(5),(6)表示了英語(yǔ)與漢語(yǔ)某些句法結(jié)構(gòu)的對(duì)應(yīng)關(guān)系。除了英語(yǔ)的冠詞要替換為漢語(yǔ)的數(shù)量詞外,兩者之間幾乎沒有什么區(qū)別,因而兩種語(yǔ)言之間句法結(jié)構(gòu)轉(zhuǎn)換的必要性表現(xiàn)得不明顯。但這里只涉及到肯定陳述句及名詞短語(yǔ)的一部分結(jié)構(gòu)。如果考慮到疑問(wèn)句、否定句、被動(dòng)句等等,情況就不—樣了。第四十頁(yè),共七十四頁(yè),2022年,8月28日

依據(jù)英漢句法結(jié)構(gòu)對(duì)應(yīng)關(guān)系(5),(6)就可以將英語(yǔ)句子(1)翻譯成漢語(yǔ),得到的漢語(yǔ)句子是.

我喜歡一個(gè)紅蘋果。(7)如果考慮到漢語(yǔ)名詞前的數(shù)量詞“一個(gè)”在不強(qiáng)調(diào)數(shù)量的情況下是可以省略的,而在(7)中,“紅蘋果”只是“喜歡”的一般對(duì)象,“一個(gè)”應(yīng)該省去,于是有我喜歡紅蘋果第四十一頁(yè),共七十四頁(yè),2022年,8月28日從這個(gè)簡(jiǎn)單的例子可以看出剖析一個(gè)句子的結(jié)構(gòu)在翻譯中所起的關(guān)鍵作用,同時(shí)也可以看到,為了生成一個(gè)合格的譯文句子,還需要給計(jì)算機(jī)配備足夠多的語(yǔ)言知識(shí)與客觀世界知識(shí)。眾所周知,英語(yǔ)有以下5個(gè)基本句型:

S十VS+V+C

S十V十O

S十V十O十CS十V十O1十O2第四十二頁(yè),共七十四頁(yè),2022年,8月28日這里S,V,O,C分別代表主語(yǔ),謂語(yǔ)動(dòng)詞,賓語(yǔ),補(bǔ)語(yǔ),O1,O2則分別表示間接賓語(yǔ)與直接賓語(yǔ).只要對(duì)英語(yǔ)的這5個(gè)基本句型分別給出對(duì)應(yīng)的漢語(yǔ)句型,就成為英語(yǔ)基本句型到漢語(yǔ)的轉(zhuǎn)換規(guī)則。如果能夠識(shí)別一個(gè)英語(yǔ)句子屬于哪一個(gè)基本句型(顯然,計(jì)算機(jī)關(guān)于其操作對(duì)象即符號(hào)或數(shù)據(jù)的異同的邏輯判斷能力在這里大有用武之地,這也就是通常所說(shuō)的模式匹配),根據(jù)英語(yǔ)漢語(yǔ)之間句法結(jié)構(gòu)轉(zhuǎn)換規(guī)則,就能把給定的英語(yǔ)句子翻譯成漢語(yǔ)第四十三頁(yè),共七十四頁(yè),2022年,8月28日如可把下句:

Shetoldmeaveryinterestingstory

識(shí)別為S+V+O1+O2的句型(其中O1為me,O2為averyinterestingstory),則根據(jù)轉(zhuǎn)換規(guī)則,不難把它翻譯為她給我講了一個(gè)很有趣的故事。第四十四頁(yè),共七十四頁(yè),2022年,8月28日

當(dāng)然,實(shí)際的英語(yǔ)句子要復(fù)雜得多,并不都這么容易處理。識(shí)別一個(gè)英語(yǔ)句子的謂語(yǔ)動(dòng)詞是關(guān)鍵,圍繞謂語(yǔ)動(dòng)詞的是作為S,O,C的各個(gè)名詞短語(yǔ)。而英語(yǔ)的名詞短語(yǔ)又有復(fù)雜的結(jié)構(gòu):(英語(yǔ))名詞短語(yǔ)→名詞→人稱代詞→冠詞十名詞→冠詞十形容詞十名詞→副詞十形容詞十名詞→名詞十介詞十名詞→名詞十關(guān)系代詞十句子→……第四十五頁(yè),共七十四頁(yè),2022年,8月28日英語(yǔ)的句子中包含名詞短語(yǔ),而從上面的最后一個(gè)公式可以后出,名詞短語(yǔ)中又可以包含句子,因此剖析英語(yǔ)句法結(jié)構(gòu)的程序必須要有處理這種復(fù)雜的遞歸結(jié)構(gòu)的能力。通過(guò)以上介紹,可以歸納機(jī)器翻譯的通常方法要點(diǎn)如下:首先通過(guò)剖析確立原語(yǔ)言句子的語(yǔ)法(或語(yǔ)義)結(jié)構(gòu),將原語(yǔ)言的基本構(gòu)成要素譯成目標(biāo)語(yǔ)言的基本構(gòu)成要素,根據(jù)兩種語(yǔ)言間的句子結(jié)構(gòu)轉(zhuǎn)換規(guī)則,可以由原語(yǔ)言的句子結(jié)構(gòu)找到目標(biāo)語(yǔ)言的適當(dāng)?shù)木渥咏Y(jié)構(gòu),按照這個(gè)結(jié)構(gòu)就可以將目標(biāo)語(yǔ)言的基本構(gòu)成要素組合成句子。第四十六頁(yè),共七十四頁(yè),2022年,8月28日2.5機(jī)器翻譯的常規(guī)步驟下面給出包括輸入原文及輸出譯文在內(nèi)的常規(guī)機(jī)器翻譯的全過(guò)程。簡(jiǎn)要地解釋一下各個(gè)步驟。雖然某些步驟是純技術(shù)性的,但它們對(duì)—個(gè)實(shí)用的機(jī)器翻譯系統(tǒng)也是不可缺乏的。第四十七頁(yè),共七十四頁(yè),2022年,8月28日

[1]原文輸入輸入原文的方法多種多樣,最常規(guī)的是鍵盤輸人。不過(guò)大量輸入原文也并不是—件輕而易舉的事。由中國(guó)操作員錄人某些語(yǔ)種更會(huì)感到困難。因此,要考慮文字識(shí)別等先進(jìn)的輸入手段。機(jī)器翻譯系統(tǒng)與科技文獻(xiàn)檢索系統(tǒng)相結(jié)合,也可以收到很好的效益。第四十八頁(yè),共七十四頁(yè),2022年,8月28日

[2]譯前編輯為了加快處理速度,可將原文中一些無(wú)需翻譯的圖表、公式、符號(hào)標(biāo)記出來(lái)。為了降低翻譯的難度,可以在原文的句子中加進(jìn)一些符號(hào)以排除歧義或者補(bǔ)上一些省略了的成分,這項(xiàng)工作通常由只懂原文的人根據(jù)系統(tǒng)的要求去做。第四十九頁(yè),共七十四頁(yè),2022年,8月28日

[3]詞法分析英語(yǔ)有詞尾變化,而詞典中不可能收錄各個(gè)單詞的所有的形態(tài),因此系統(tǒng)中應(yīng)另存一套形態(tài)變化規(guī)則。根據(jù)這套規(guī)則,可將變化了的形態(tài)還原成基本形,再去查詞。如果原文是漢語(yǔ),還需要將構(gòu)成句子的字符序列切分成單詞。這也是一件頗困難的工作.第五十頁(yè),共七十四頁(yè),2022年,8月28日

[4]句法分析這一步已詳細(xì)介紹過(guò)了。但是句法剖析并不能解決機(jī)器翻譯中的所有問(wèn)題.特別當(dāng)碰到有歧義結(jié)構(gòu)的句子時(shí),僅僅靠句法分析便決定不了如何取舍。例如

Theboysawagirlwithatelescope.(8)第五十一頁(yè),共七十四頁(yè),2022年,8月28日在(8)中,介詞短語(yǔ)withatelescope既可以作為謂語(yǔ)動(dòng)詞saw的狀語(yǔ),也可以作為名詞girl的定語(yǔ)。當(dāng)解釋為狀語(yǔ)時(shí),會(huì)譯成男孩用望遠(yuǎn)鏡看見了一個(gè)女孩。第五十二頁(yè),共七十四頁(yè),2022年,8月28日當(dāng)解釋為定語(yǔ)時(shí),則譯為男孩看見了一個(gè)帶望遠(yuǎn)鏡的女孩。因此,僅有句法分析是解決不了兩種語(yǔ)言間的的轉(zhuǎn)換問(wèn)題,還需要作深入的語(yǔ)義分析和語(yǔ)境分析。第五十三頁(yè),共七十四頁(yè),2022年,8月28日

[5]語(yǔ)義分折雖然句法分析程序確定不了(8)中的介詞短語(yǔ)在句子結(jié)構(gòu)中的地位,但并不等于說(shuō)這類問(wèn)題都是不可解決的。請(qǐng)看下面兩個(gè)例子。

Iboughtatablewiththreedollars(9)

Iboughtatablewiththreelegs(10)第五十四頁(yè),共七十四頁(yè),2022年,8月28日這兩個(gè)句子的結(jié)構(gòu)與(8)完全一樣。但從語(yǔ)義的角度看,在(9)中,dollars是貨幣,可以作為bought的工具格,dollars與table并沒有直接關(guān)系,因此介詞短語(yǔ)withthreedollars只能是狀語(yǔ)。而在(10)中,legs是table的組成部分,不能用legs購(gòu)物,因此withthreeLegs只能是修飾table的。如果在英語(yǔ)詞典中,除了指明dollars,legs屬于名詞這個(gè)語(yǔ)法范疇外,還注記其語(yǔ)義信息,即dollars是“貨幣”,legs是“物體的組成部分”,分析程序就可以參照這些語(yǔ)義信息在兩種可能的句法結(jié)構(gòu)中選擇一個(gè)合理的保留下來(lái)。這項(xiàng)工作就叫做語(yǔ)義分析.第五十五頁(yè),共七十四頁(yè),2022年,8月28日當(dāng)代的機(jī)器翻譯系統(tǒng)或多或少都加進(jìn)了語(yǔ)義分析的功能。不過(guò),多數(shù)系統(tǒng)還只是把語(yǔ)義分析作為一種輔助的手段。即使增加了語(yǔ)義分析,通常分析的跨度基本上也還是局限在一個(gè)句子的范圍內(nèi)。因此,對(duì)于(8)那樣的句子還是無(wú)法排除其歧義的。也許詞典中指出了telescope是工具,可以作為saw這個(gè)動(dòng)詞的工具格,據(jù)此可將withatelescope確定為saw的狀語(yǔ)。但并不能保證這種判斷一定符合原文的意思。因此,還需要進(jìn)行語(yǔ)境分析。第五十六頁(yè),共七十四頁(yè),2022年,8月28日

[6]語(yǔ)境分析分析的范圍超出一個(gè)句子,在上下文的環(huán)境中確定句子的語(yǔ)義,這就是語(yǔ)境分析。語(yǔ)境分析除了可以解決(8)所表現(xiàn)的那一類歧義性外,還可以解決句子中的省略、指代等自然語(yǔ)言中習(xí)以為常而計(jì)算機(jī)處理起來(lái)卻十分困難的問(wèn)題。語(yǔ)境分析程序必須包含有力的推理功能。第五十七頁(yè),共七十四頁(yè),2022年,8月28日以上分別介紹了語(yǔ)言的詞法分析、句法結(jié)構(gòu)分析、語(yǔ)義分析及語(yǔ)境分折。實(shí)際的分析過(guò)程大致上也是這樣進(jìn)行的。但不等于說(shuō),每一個(gè)實(shí)用的系統(tǒng)都必須包含直到語(yǔ)境分析的每一個(gè)步驟,也不是說(shuō)這些步驟之間一定是分明的。實(shí)際的系統(tǒng)可能融合詞法分折、句法分折、語(yǔ)義分析于一體。第五十八頁(yè),共七十四頁(yè),2022年,8月28日設(shè)計(jì)機(jī)器翻譯系統(tǒng)時(shí),應(yīng)該牢記工作的目標(biāo)是要得到與原文等價(jià)的譯文。因此,分析到哪一步為宜要根據(jù)能否由此得到恰當(dāng)?shù)淖g文來(lái)決定,不要以為分折得越深就越好。第五十九頁(yè),共七十四頁(yè),2022年,8月28日

[7]內(nèi)部表示的轉(zhuǎn)換由句法結(jié)構(gòu)分析、語(yǔ)義分析及語(yǔ)境分析皆可得到原文的某種形式的內(nèi)部表示。上下文無(wú)關(guān)語(yǔ)法的分析樹是一種內(nèi)部表示,格語(yǔ)法的格框架也是一種內(nèi)部表示。機(jī)器翻譯的決定性步驟就是將這種相對(duì)獨(dú)立于原文表層表達(dá)方式的內(nèi)部結(jié)構(gòu)轉(zhuǎn)換為譯文的相對(duì)應(yīng)的內(nèi)部結(jié)構(gòu),這種轉(zhuǎn)換根據(jù)一定的規(guī)則和算法進(jìn)行。這一步完成了,剩下的工作就是根據(jù)轉(zhuǎn)換了的內(nèi)部結(jié)構(gòu)生成譯文的句子。第六十頁(yè),共七十四頁(yè),2022年,8月28日

[8]譯詞選擇原文總是要分解成基本構(gòu)成要素的,這些基本構(gòu)成要素的相對(duì)應(yīng)的譯詞可以在雙語(yǔ)詞典中找到。譯詞應(yīng)當(dāng)置于轉(zhuǎn)換后的結(jié)構(gòu)的某個(gè)位置上,如樹結(jié)構(gòu)的葉結(jié)點(diǎn)上或格框架的格槽中。由于一個(gè)英語(yǔ)詞可能對(duì)應(yīng)若干種風(fēng)馬牛不相及的漢語(yǔ)詞,例如table作為名詞就有“桌子”、“平板”、“表格”3種不同的意思,因此需要根據(jù)專業(yè)領(lǐng)域、句法結(jié)構(gòu)、語(yǔ)義以及譯文的前后搭配關(guān)系加以選擇。為了適應(yīng)這種需要,詞典很可能不僅僅是數(shù)據(jù)庫(kù),而且可能包括可執(zhí)行的過(guò)程.第六十一頁(yè),共七十四頁(yè),2022年,8月28日

[9]譯文句子的生成根據(jù)轉(zhuǎn)換后的內(nèi)部結(jié)構(gòu)及選譯的譯詞就可以按一定的算法將單詞排列成線性的序列,譯文的句子也就形成了。第六十二頁(yè),共七十四頁(yè),2022年,8月28日

[10]詞形變化如果是由英語(yǔ)譯成漢語(yǔ),由于漢語(yǔ)單詞的形態(tài)變化不豐富,這一步也許沒有什么事情可做,只要按通常的書寫印刷習(xí)慣將詞與詞之間的空格擠掉就行了。如果是由漢語(yǔ)譯成英語(yǔ),雖然無(wú)需擠掉單詞間的空洛,卻應(yīng)改變某些單詞的詞形,使主謂一致,使時(shí)態(tài)表示正確.例如,

Ibeastudent.在這一步就應(yīng)當(dāng)改為

Iamastudent第六十三頁(yè),共七十四頁(yè),2022年,8月28日

[11]譯后編輯可以在終端屏幕上將譯文顯示出來(lái)供人校對(duì).熟悉機(jī)器翻譯規(guī)律的校對(duì)者不看原文也可以作一些編輯修改工作。如有一句譯文為我看見了在橋上游泳的人。編輯者不難判斷,“在橋上”這個(gè)短語(yǔ)應(yīng)是修飾動(dòng)詞“看見”的。譯后編輯可在相當(dāng)程度上提高譯文的可讀性。為了提高譯后編輯的效率,機(jī)器翻譯系統(tǒng)通常會(huì)提供良好的界面,如實(shí)現(xiàn)兩種語(yǔ)言對(duì)照的多窗口,靈活的編輯功能等。第六十四頁(yè),共七十四頁(yè),2022年,8月28日

(12)譯文輸出譯文可用打印機(jī)輸出,也可同電子印刷系統(tǒng)聯(lián)結(jié)起來(lái),還可以通過(guò)網(wǎng)絡(luò)將譯文送給遠(yuǎn)程終端的用戶。

第六十五頁(yè),共七十四頁(yè),2022年,8月28日

2.6機(jī)器翻譯的分類前面介紹了機(jī)器翻譯的基本原理及典型過(guò)程,實(shí)際的機(jī)器翻譯系統(tǒng)卻呈現(xiàn)各種各樣形態(tài),現(xiàn)我們從不同角度對(duì)機(jī)器翻譯系統(tǒng)進(jìn)行分類,以期把握機(jī)器翻譯的概貌。

(1)從涉及語(yǔ)種的角度分類,計(jì)有

a.一對(duì)一的系統(tǒng),又可細(xì)分為單向的與雙向的。

b.多語(yǔ)種系統(tǒng)。雖然說(shuō)多對(duì)一與一對(duì)多的機(jī)器翻譯系統(tǒng)可劃為多語(yǔ)種系統(tǒng),但本質(zhì)不過(guò)是多個(gè)一對(duì)一系統(tǒng)的簡(jiǎn)單組合。第六十六頁(yè),共七十四頁(yè),2022年,8月28日(2)按自動(dòng)化的程度分類,計(jì)有

a.自動(dòng)翻譯的系統(tǒng)。這類系統(tǒng)通常采用批處理作業(yè)方式,在翻譯過(guò)程中不需要人的干預(yù)。但不同的自動(dòng)翻譯系統(tǒng)又可按有無(wú)譯前編輯或譯后編輯分成不同的小類。

b.翻譯支援系統(tǒng)。這類系統(tǒng)按人機(jī)互助方式完成翻譯作業(yè),通常采用會(huì)話方式工作.又可細(xì)分為人助機(jī)譯和機(jī)助人譯兩小類。如果構(gòu)思精巧,這類系統(tǒng)是很有價(jià)值的,可以充分發(fā)揮人與機(jī)器的各自優(yōu)勢(shì),從而獲得最大的效益。第六十七頁(yè),共七十四頁(yè),2022年,8月28日(3)按處理方式分類,可以分為

a.直接翻譯

b.間接翻譯直接翻譯指從原文句子的表層出發(fā),將單詞或者與單詞同樣看待的成分(固定的詞組、短語(yǔ)甚

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論