自然語(yǔ)言理解_第1頁(yè)
自然語(yǔ)言理解_第2頁(yè)
自然語(yǔ)言理解_第3頁(yè)
自然語(yǔ)言理解_第4頁(yè)
自然語(yǔ)言理解_第5頁(yè)
已閱讀5頁(yè),還剩87頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

自然語(yǔ)言理解第一頁(yè),共九十二頁(yè),2022年,8月28日第十章自然語(yǔ)言理解自然語(yǔ)言理解和處理是人工智能的早期的和活躍的研究領(lǐng)域之一。用自然語(yǔ)言進(jìn)行高級(jí)通信,是人類(lèi)固有的本領(lǐng)。現(xiàn)在還不知道動(dòng)物界是否也能用“口語(yǔ)”進(jìn)行通信,例如鳥(niǎo)類(lèi)之間是否有這種能力。至于書(shū)面語(yǔ)言,那肯定只有人類(lèi)才具有。本章將首先討論自然語(yǔ)言理解的概念、發(fā)展簡(jiǎn)史以及系統(tǒng)組成與模型等;然后,逐一研究語(yǔ)言的自動(dòng)分析、句子的自動(dòng)理解、語(yǔ)言的自動(dòng)生成和機(jī)器翻譯等重要問(wèn)題;最后舉例介紹自然語(yǔ)言理解系統(tǒng)。第二頁(yè),共九十二頁(yè),2022年,8月28日210.1語(yǔ)言及其理解的一般問(wèn)題什么是語(yǔ)言和語(yǔ)言理解?自然語(yǔ)言理解與人類(lèi)的哪些智能是否有關(guān)?自然語(yǔ)言理解研究是如何發(fā)展的?理解自然語(yǔ)言的計(jì)算機(jī)系統(tǒng)是如何組成的以及它們的模型為何?等等。這些是研究自然語(yǔ)言理解時(shí)感興趣的問(wèn)題。第三頁(yè),共九十二頁(yè),2022年,8月28日3語(yǔ)言與語(yǔ)言理解語(yǔ)言是人類(lèi)進(jìn)行通信的自然媒介,它包括口語(yǔ)、書(shū)面語(yǔ)以及動(dòng)作語(yǔ)(如啞語(yǔ)和旗語(yǔ))等。一種比較正規(guī)的提法是:語(yǔ)言是用于傳遞信息的表示方法、約定和規(guī)則的集合,它由語(yǔ)句組成,每個(gè)語(yǔ)句又由單詞組成;在組成語(yǔ)句和語(yǔ)言時(shí),應(yīng)遵循一定的語(yǔ)法與語(yǔ)義規(guī)則。如果沒(méi)有各種口語(yǔ)和書(shū)面語(yǔ),如英語(yǔ)、漢語(yǔ)、法語(yǔ)和德語(yǔ)等,人類(lèi)之間的充分而有效的交流就難以想象。語(yǔ)言是隨著人類(lèi)社會(huì)和人類(lèi)自身的發(fā)展而不斷進(jìn)化的?,F(xiàn)代語(yǔ)言允許任何一個(gè)具有正常語(yǔ)言能力的人與他人交流思想感情和技術(shù)等。要研究自然語(yǔ)言理解,首先必須對(duì)自然語(yǔ)言的構(gòu)成有一個(gè)基本認(rèn)識(shí)。第四頁(yè),共九十二頁(yè),2022年,8月28日4語(yǔ)言是音義結(jié)合的詞匯和語(yǔ)法體系,是實(shí)現(xiàn)思維活動(dòng)的物質(zhì)形式。語(yǔ)言是一個(gè)符號(hào)體系,但與其他符號(hào)體系又有所區(qū)別。語(yǔ)言是以詞為基本單位的,詞匯又受到語(yǔ)法的支配才可構(gòu)成有意義的、可理解的句子,句子按一定的形式再構(gòu)成篇章等。詞匯又可分為詞和熟語(yǔ)。熟語(yǔ)就是一些詞的固定組合,如漢語(yǔ)中的成語(yǔ)。詞又由詞素構(gòu)成,如“教師”是由“教”和“師”這兩個(gè)詞素構(gòu)成。同樣在英語(yǔ)中“teacher"也是由"teach"和"-er"這兩個(gè)詞素所構(gòu)成。詞素是構(gòu)成詞的最小的、有意義的單位?!敖獭边@個(gè)詞素本身有教育和指導(dǎo)的意義,而“師”則包含了“人”的意義。同樣,英語(yǔ)中的“-er”也是一個(gè)表示“人”的后綴。第五頁(yè),共九十二頁(yè),2022年,8月28日5語(yǔ)法是語(yǔ)言的組織規(guī)律。語(yǔ)法規(guī)則制約著如何把詞素構(gòu)成詞、詞構(gòu)成詞組和句子。語(yǔ)言正是在這種嚴(yán)密的制約關(guān)系中構(gòu)成的。用詞素構(gòu)成詞的規(guī)則叫做構(gòu)詞規(guī)則,如教+師→教師,teach+er→teacher。一個(gè)詞又有不同的詞形、單數(shù)、復(fù)數(shù)、陰性、陽(yáng)性和中性等。這種構(gòu)造詞形的規(guī)則稱(chēng)為構(gòu)形法,如教師+們→教師們,teacher+s→teachers。這里只是在原來(lái)的詞后面加上一個(gè)復(fù)數(shù)意義的詞素,所構(gòu)成的并不是一個(gè)新的詞,而是同一詞的復(fù)數(shù)形式。構(gòu)形法和構(gòu)詞法稱(chēng)為詞法。詞法中的另一部分就是句法。句法也可分成兩部分:詞組構(gòu)造法和造句法。詞組構(gòu)造法是詞搭配成詞組的規(guī)則,如紅+鉛筆→紅鉛筆,red+pencil→redpencil.這里“紅”是一個(gè)修飾鉛筆的形容詞,它與名詞“鉛筆”組合成了一個(gè)新的名詞。造句法則是用詞或詞組造句的規(guī)則,“我是計(jì)算機(jī)科學(xué)系的學(xué)生”,這是按照漢語(yǔ)造句法構(gòu)造的句子,“Iamastudentinthedepartmentofcomputerscience"是英語(yǔ)造句法產(chǎn)生的同等句子。雖然漢語(yǔ)和英語(yǔ)的造句法不同,但它們都是正確和有意義的句子。圖10.1就是上述構(gòu)造的一個(gè)完整的圖解。第六頁(yè),共九十二頁(yè),2022年,8月28日6圖10.1語(yǔ)言的構(gòu)成語(yǔ)言詞匯詞熟語(yǔ)詞素構(gòu)形法構(gòu)詞法語(yǔ)法詞法句法詞組構(gòu)造法造句法第七頁(yè),共九十二頁(yè),2022年,8月28日7另一方面,語(yǔ)言是音義結(jié)合的,每個(gè)詞匯有其語(yǔ)音形式。一個(gè)詞的發(fā)音由一個(gè)或多個(gè)音節(jié)組合而成,音節(jié)又由音素構(gòu)成,音素分為元音音素和輔音音素。自然語(yǔ)言中所涉及的音素并不多,一種語(yǔ)言一般只有幾十個(gè)音素。由一個(gè)發(fā)音動(dòng)作所構(gòu)成的最小的語(yǔ)音單位就是音素。迄今為止,對(duì)語(yǔ)言理解尚無(wú)統(tǒng)一和權(quán)威的定義。按照考慮問(wèn)題角度的不同而有不同的解釋。從微觀上講,語(yǔ)言理解是指從自然語(yǔ)言到機(jī)器(計(jì)算機(jī)系統(tǒng))內(nèi)部之間的一種映射。從宏觀上看·,語(yǔ)言理解是指機(jī)器能夠執(zhí)行人類(lèi)所期望的某些語(yǔ)言功能。這些功能包括:①回答有關(guān)提問(wèn);②提取材料摘要;③不同詞語(yǔ)敘述;④不同語(yǔ)言翻譯。第八頁(yè),共九十二頁(yè),2022年,8月28日8然而,對(duì)自然語(yǔ)言的理解卻是一個(gè)十分艱難的任務(wù)。即使建立一個(gè)只能理解片言斷語(yǔ)的計(jì)算機(jī)系統(tǒng),也是很不容易的。這中間存在著大量的極為復(fù)雜的編碼和解碼問(wèn)題。一個(gè)能夠理解自然語(yǔ)言的計(jì)算機(jī)系統(tǒng)就像一個(gè)人那樣需要上下文知識(shí)以及根據(jù)這些知識(shí)和信息進(jìn)行推理的過(guò)程。自然語(yǔ)言不僅存在著語(yǔ)義、語(yǔ)法和語(yǔ)音問(wèn)題,而且還存在模糊性等間題。具體地說(shuō),自然語(yǔ)言理解的困難是由下列三個(gè)因素引起的:①目標(biāo)表示的復(fù)雜性;②映射類(lèi)型的多樣性;③源表達(dá)中各元素間交互程度的差異性。第九頁(yè),共九十二頁(yè),2022年,8月28日9自然語(yǔ)言理解是語(yǔ)言學(xué)、邏輯學(xué)、生理學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)等相關(guān)學(xué)科發(fā)展和結(jié)合而形成的一門(mén)交叉學(xué)科:它能夠理解口頭語(yǔ)言或書(shū)面語(yǔ)言。語(yǔ)言交流是一種基于知識(shí)的通信。怎樣才算理解了語(yǔ)言呢?歸納起來(lái)主要包括下列幾個(gè)方面:(1)既能夠理解句子的正確詞序規(guī)則和概念,又能理解不含規(guī)則的句子。(2)知道詞的確切含義、形式、詞類(lèi)及構(gòu)詞法。(3)了解詞的語(yǔ)義分類(lèi)以及詞的多義性和歧義性。(4)指定和不定特性及所有(隸屬)特性。(5)問(wèn)題領(lǐng)域的結(jié)構(gòu)知識(shí)和時(shí)間概念。(6)語(yǔ)言的語(yǔ)氣信息和韻律表現(xiàn)。(7)有關(guān)語(yǔ)言表達(dá)形式的文學(xué)知識(shí)。(8)論域的背景知識(shí)。第十頁(yè),共九十二頁(yè),2022年,8月28日10自然語(yǔ)言理解研究的進(jìn)展隨著計(jì)算機(jī)技術(shù)和人工智能總體技術(shù)的發(fā)展,對(duì)自然語(yǔ)言的理解不斷取得進(jìn)展。由于電子計(jì)算機(jī)的出現(xiàn)才使得自然語(yǔ)言理解和處理成為可能。由于計(jì)算機(jī)能夠進(jìn)行符號(hào)處理,所以有可能應(yīng)用計(jì)算機(jī)來(lái)處理和理解語(yǔ)言。機(jī)器翻譯是自然語(yǔ)言理解最早的研究領(lǐng)域。20世紀(jì)40年代末期,人們期望能夠用計(jì)算機(jī)翻譯劇增的科技資料。美蘇兩國(guó)在1949年開(kāi)始俄-英和英-俄的機(jī)器翻譯研究。由于早期研究中理論和技術(shù)存在一定的局限性,所開(kāi)發(fā)的機(jī)譯系統(tǒng)的技術(shù)水平較低,不能滿足實(shí)際應(yīng)用的要求。1966年在美國(guó)科學(xué)院發(fā)表的一份報(bào)告中,認(rèn)為全自動(dòng)機(jī)譯在較長(zhǎng)時(shí)期內(nèi)不會(huì)取得成功。此后,機(jī)器翻譯研究工作進(jìn)入低潮。第十一頁(yè),共九十二頁(yè),2022年,8月28日11到了20世紀(jì)70年代初期,對(duì)語(yǔ)言理解對(duì)話系統(tǒng)的研究取得進(jìn)展。伍茲(Woods)的LUNAR系統(tǒng)、威諾甘德(Winogand)的SHRDLU系統(tǒng)和香克(Schank)的MARGIE系統(tǒng)等是語(yǔ)言理解對(duì)話系統(tǒng)的典型實(shí)例。其中,SHRDLU系統(tǒng)是一個(gè)限定性的人機(jī)對(duì)話系統(tǒng),它把句法、語(yǔ)義、推理、上下文和背景知識(shí)靈活地結(jié)合于一體,成功地實(shí)現(xiàn)了人機(jī)對(duì)話,并被用于指揮機(jī)器人的積木分類(lèi)和堆疊試驗(yàn)。機(jī)器人系統(tǒng)能夠接受人的自然語(yǔ)言指令,進(jìn)行積木的堆疊操作,并能回答或者提出比較簡(jiǎn)單的問(wèn)題。進(jìn)入20世紀(jì)80年代之后,自然語(yǔ)言理解的應(yīng)用研究廣泛開(kāi)展,機(jī)器學(xué)習(xí)研究又活躍起來(lái),并出現(xiàn)了許多具有較高水平的實(shí)用化系統(tǒng)。其中比較著名的有美國(guó)的METAL和LOGOS,日本的PIVOT和HICAT,法國(guó)的ARIANE以及德國(guó)的SUSY等,這些系統(tǒng)是自然語(yǔ)言理解研究的重要成果,表明自然語(yǔ)言理解在理論和應(yīng)用上取得了第十二頁(yè),共九十二頁(yè),2022年,8月28日12

突破性進(jìn)展。20世紀(jì)80年代以來(lái)提出和進(jìn)行的智能計(jì)算機(jī)研究,也對(duì)自然語(yǔ)言理解提出了新的要求。近年來(lái)又提出了對(duì)多媒體計(jì)算機(jī)的研究。新型的智能計(jì)算機(jī)和多媒體計(jì)算機(jī)均要求設(shè)計(jì)出更為友好的人機(jī)界面,使自然語(yǔ)言、文字、圖像和聲音等信號(hào)都能直接輸入計(jì)算機(jī)。要求計(jì)算機(jī)能以自然語(yǔ)言與人進(jìn)行對(duì)話交流,就需要計(jì)算機(jī)具有自然語(yǔ)言能力,尤其是口語(yǔ)理解和生成能力??谡Z(yǔ)理解研究促進(jìn)人機(jī)對(duì)話系統(tǒng)走向?qū)嵱没W匀徽Z(yǔ)言是表示知識(shí)最為直接的方法。因此,自然語(yǔ)言理解的研究也為專(zhuān)家系統(tǒng)的知識(shí)獲取提供了新的途徑。此外,自然語(yǔ)言理解的研究已促進(jìn)計(jì)算機(jī)輔助語(yǔ)言教學(xué)(CALI)和計(jì)算機(jī)語(yǔ)言設(shè)計(jì)(CLD)等的發(fā)展??梢灶A(yù)料,21世紀(jì)自然語(yǔ)言理解的研究有可能取得新的突破,并獲得廣泛應(yīng)用。第十三頁(yè),共九十二頁(yè),2022年,8月28日13自然語(yǔ)言理解過(guò)程的層次語(yǔ)言雖然表示成一連串的文字符號(hào)或者一串聲音流,但其內(nèi)部實(shí)際上是一個(gè)層次化的結(jié)構(gòu),從語(yǔ)言的構(gòu)成中就可以清楚地看到這種層次性。一個(gè)文字表達(dá)的句子是由詞素→詞或詞形→詞組或句子構(gòu)成,而用聲音表達(dá)的句子則是由音素→音節(jié)→音詞→音句構(gòu)成,其中每個(gè)層次都受到語(yǔ)法規(guī)則的制約。因此,語(yǔ)言的分析和理解過(guò)程也應(yīng)當(dāng)是一個(gè)層次化的過(guò)程。許多現(xiàn)代語(yǔ)言學(xué)家把這一過(guò)程分為三個(gè)層次:詞法分析、句法分析和語(yǔ)義分析。如果接收到的是語(yǔ)音流,那么在上述三個(gè)層次之前還應(yīng)當(dāng)加入一個(gè)語(yǔ)音分析層。雖然這種層次之間并非是完全隔離的,但是這種層次化的劃分的確有助于更好地體現(xiàn)語(yǔ)言本身的構(gòu)成。第十四頁(yè),共九十二頁(yè),2022年,8月28日141.語(yǔ)音分析在有聲語(yǔ)言中,最小的、可獨(dú)立的聲音單元是音素,音素是一個(gè)或一組音,它可與其他音素相區(qū)別。如pin和bin中分別有/p/和/b/這兩個(gè)不同的音素,但pin,spin和tip中的音素/p/是同一個(gè)音素,它對(duì)應(yīng)了一組略有差異的音。語(yǔ)音分析則是根據(jù)音位規(guī)則,從語(yǔ)音流中區(qū)分出一個(gè)個(gè)獨(dú)立的音素,再根據(jù)音位形態(tài)規(guī)則找出一個(gè)個(gè)音節(jié)及其對(duì)應(yīng)的詞素或詞。2.詞法分析詞法分析的主要目的是找出詞匯的各個(gè)詞素,從中獲得語(yǔ)言學(xué)信息,如unchangeable是由un-change-able構(gòu)成的。在英語(yǔ)等語(yǔ)言中,找出句子中的一個(gè)個(gè)詞匯是一件很容易的事情,因?yàn)樵~與詞之間是由空格來(lái)分隔的。但是要找出各個(gè)詞素就復(fù)雜得多,如importable,它可以是im-port-able或import-able。這是因?yàn)閕m,port和import都是詞素。而在漢語(yǔ)中要找出一個(gè)個(gè)詞素則是再容易不過(guò)的事情,因?yàn)闈h語(yǔ)中的每個(gè)字就是一個(gè)詞素。但是要切分出各個(gè)詞就遠(yuǎn)不是那么容易。如“我們研究所有東西”,可以是“我們—研究所—有—東西”也可以是“我們—研究—所有—東西”。第十五頁(yè),共九十二頁(yè),2022年,8月28日15通過(guò)詞法分析可以從詞素中獲得許多語(yǔ)言學(xué)信息。英語(yǔ)中詞尾中的詞素“s"通常表示名詞復(fù)數(shù),或動(dòng)詞第三人稱(chēng)單數(shù),“l(fā)y"是副詞的后綴,而“ed"通常是動(dòng)詞的過(guò)去式與過(guò)去分詞等,這些信息對(duì)于句法分析都是非常有用的。另一方面,一個(gè)詞可有許多的派生、變形,如work,可變化出works,worked,working,worker,workings,workable,workability等。這些詞若全部放入詞典將是非常龐大的,而它們的詞根只有一個(gè)。3.句法分析句法分析是對(duì)句子和短語(yǔ)的結(jié)構(gòu)進(jìn)行分析。在語(yǔ)言自動(dòng)處理的研究中,句法分析的研究是最為集中的,這與喬姆斯基(Chomsky)的貢獻(xiàn)是分不開(kāi)的。自動(dòng)句法分析的方法很多,有短語(yǔ)結(jié)構(gòu)語(yǔ)法、格語(yǔ)法、擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)、功能語(yǔ)法等。句法分析的最大單位就是一個(gè)句子。分析的目的就是找出詞、短語(yǔ)等的相互關(guān)系以及各自在句子中的作用等,并以一種層次結(jié)構(gòu)來(lái)加以表達(dá)。這種層次結(jié)構(gòu)可以是從屬關(guān)系、直接成分關(guān)系,也可以是語(yǔ)法功能關(guān)系。第十六頁(yè),共九十二頁(yè),2022年,8月28日164.語(yǔ)義分析對(duì)于語(yǔ)言中的實(shí)詞而言,每個(gè)詞都用來(lái)稱(chēng)呼事物,表達(dá)概念。句子是由詞組成的,句子的意義與詞義是直接相關(guān)的,但也不是詞義的簡(jiǎn)單相加?!拔掖蛩焙汀八蛭摇钡脑~是完全相同的,但表達(dá)的意義是完全相反的。因此,還應(yīng)當(dāng)考慮句子的結(jié)構(gòu)意義。英語(yǔ)中aredtable(一張紅色的桌子),它的結(jié)構(gòu)意義是形容詞在名詞之前修飾名詞,但在法語(yǔ)中卻不同,onetablerouge(一張桌子紅色的),形容詞在被修飾的名詞之后。語(yǔ)義分析就是通過(guò)分析找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定語(yǔ)言所表達(dá)的真正含義或概念。在語(yǔ)言自動(dòng)理解中,語(yǔ)義越來(lái)越成為一個(gè)重要的研究?jī)?nèi)容。第十七頁(yè),共九十二頁(yè),2022年,8月28日1710.2句法和語(yǔ)義的自動(dòng)分析句法模式匹配和轉(zhuǎn)移網(wǎng)絡(luò)句法分析最為簡(jiǎn)單、直觀的方法也許就是模式匹配。英語(yǔ)句子bearslovehoney可以用句法模式noun+verb+noun來(lái)匹配。但是自然語(yǔ)言是非常多樣化的:

bearslovehoneywoolybearslovehoneyfericiouswoolybearslovehoneyhungryfericiouswoolybearslovestickyhoney

這里,單是主語(yǔ)部分就有很多模式:noun,adj.+noun,adj.+adj.+noun,adj.+adj.+adj.+noun,…,對(duì)此可采用形式化的表達(dá)方式(adj.*noun),其中二表示可有可無(wú)且可重復(fù)出現(xiàn)。第十八頁(yè),共九十二頁(yè),2022年,8月28日18一個(gè)句子則可以表示成:

(pronounV(adj.*noun))verb(pronounV(adj.*noun))

也可以用狀態(tài)轉(zhuǎn)移圖來(lái)表示,稱(chēng)為轉(zhuǎn)移網(wǎng)絡(luò)(transitionnetwork,TN)。如圖10.2所示,圖中,q0,q1,…,qT是狀態(tài),q0是初態(tài),qT是終態(tài)。弧上給出了狀態(tài)轉(zhuǎn)移的條件以及轉(zhuǎn)移的方向。該網(wǎng)絡(luò)可用于分析句子,也可用于生成句子。用TN來(lái)識(shí)別句子"Thelittleorangeducksswallowflies"的過(guò)程見(jiàn)表10.1(這里忽略了詞法分析,網(wǎng)絡(luò)如圖10.3所示)。第十九頁(yè),共九十二頁(yè),2022年,8月28日19識(shí)別過(guò)程到達(dá)f狀態(tài)(終態(tài)),所以該句子被成功地識(shí)別了。分析結(jié)果如圖10.4所示。從上述過(guò)程中可以看出,這個(gè)句子還可以在網(wǎng)絡(luò)中走其他弧,如詞ducks也可以走弧c→d,但接下來(lái)的swallow就找不到合適的弧了。此時(shí)對(duì)應(yīng)于這個(gè)路徑,該句子就被拒識(shí)了。由此可以看出,網(wǎng)絡(luò)識(shí)別的過(guò)程中應(yīng)找出各種可能的路徑,因此算法要采用并行或回溯機(jī)制。表10.1句子識(shí)別過(guò)程詞當(dāng)前狀態(tài)弧新?tīng)顟B(tài)第二十頁(yè),共九十二頁(yè),2022年,8月28日20(1)并行算法。并行算法的關(guān)鍵是在任何一個(gè)狀態(tài)都要選擇所有可以到達(dá)下一個(gè)狀態(tài)的弧,同時(shí)進(jìn)行試驗(yàn)。(2)回溯算法?;厮菟惴▌t是在所有可以通過(guò)的弧中選出一條往下走,并保留其他可能性,以便必要時(shí)可以回過(guò)來(lái)選擇之。這種方式需要一個(gè)堆棧結(jié)構(gòu)。第二十一頁(yè),共九十二頁(yè),2022年,8月28日21擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)ATN是由伍茲(Woods)在1970年提出來(lái)的,1975年卡普蘭(Kaplan)對(duì)其作了一些改進(jìn)。ATN是由一組網(wǎng)絡(luò)所構(gòu)成的,每個(gè)網(wǎng)絡(luò)都有一個(gè)網(wǎng)絡(luò)名,每條弧上的條件擴(kuò)展為條件加上操作。這種條件和操作采用寄存器的方法來(lái)實(shí)現(xiàn),在分析樹(shù)的各個(gè)成分結(jié)構(gòu)上都放上寄存器,用來(lái)存放句法功能和句法特征,條件和操作將對(duì)它們不斷地進(jìn)行訪問(wèn)和設(shè)置。ATN弧上的標(biāo)記也可以是其他網(wǎng)絡(luò)的標(biāo)記名,因此ATN是一種遞歸網(wǎng)絡(luò)。在ATN中還有一種空弧jump,它不對(duì)應(yīng)任意句法成分也不對(duì)應(yīng)任意輸入詞匯。第二十二頁(yè),共九十二頁(yè),2022年,8月28日22

ATN的每個(gè)寄存器由兩部分構(gòu)成:句法特征寄存器和句法功能寄存器。在特征寄存器中,每一維特征都由一個(gè)特征名和一組特征值以及一個(gè)缺省值來(lái)表示。如“數(shù)”的特征維可有兩個(gè)特征值“單數(shù)”和“復(fù)數(shù)”,缺省值可以是空值。英語(yǔ)中動(dòng)詞的形式可以用一維特征來(lái)表示:

Form:present,past,present-participle,past-participle.Default:present.

功能寄存器則反映了句法成分之間的關(guān)系和功能。分析樹(shù)的每個(gè)節(jié)點(diǎn)都有一個(gè)寄存器,寄存器的上半部分是特征寄存器,下半部分是功能寄存器。第二十三頁(yè),共九十二頁(yè),2022年,8月28日23圖10.5所示是一個(gè)簡(jiǎn)單的名詞短語(yǔ)(NP)的擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò),網(wǎng)絡(luò)中弧上的條件和操作如下所示:第二十四頁(yè),共九十二頁(yè),2022年,8月28日24該網(wǎng)絡(luò)主要是用來(lái)檢查NP中的數(shù)的一致值問(wèn)題。其中用到的特征是Number(數(shù)),它有兩個(gè)值singular(單數(shù))和plural(復(fù)數(shù)),缺省值是(空)。C是弧上的條件,A是弧上的操作,*是當(dāng)前詞,proper是專(zhuān)用名詞,det是限定詞,PP是介詞短語(yǔ),*.Number是當(dāng)前詞的“數(shù)”。該擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)有一個(gè)網(wǎng)絡(luò)名NP。網(wǎng)絡(luò)NP可以是其他網(wǎng)絡(luò)的一個(gè)子網(wǎng)絡(luò),也可以包含其他網(wǎng)絡(luò),如其中的PP就是一個(gè)子網(wǎng)絡(luò),這就是網(wǎng)絡(luò)的遞歸性?;P-1將當(dāng)前詞的Number放入當(dāng)前NP的Number中,而弧NP-4則要求當(dāng)前noun的Number與NP的Number是相同時(shí),或者NP的Number為空時(shí),將noun作為NP的Number,這就要求det的數(shù)和noun的數(shù)是一致的。因此,thisbook,thebook,thebooks,thesebooks都可順利通過(guò)這一網(wǎng)絡(luò),但是thisbooks,或thesebook就無(wú)法通過(guò)。如果當(dāng)前NP是一個(gè)代詞(pron.)或者專(zhuān)用名詞(proper),那么網(wǎng)絡(luò)就從NP-5或NP-6通過(guò),這時(shí)NP的數(shù)就是代詞或?qū)S妹~的數(shù)。PP是一個(gè)修飾前面名詞的介詞短語(yǔ),一旦到達(dá)PP弧就馬上轉(zhuǎn)入子網(wǎng)絡(luò)PP.第二十五頁(yè),共九十二頁(yè),2022年,8月28日25圖10.6是一個(gè)句子的ATN,主要用來(lái)識(shí)別主、被動(dòng)態(tài)的句子,從中可以看到功能寄存器的應(yīng)用。S網(wǎng)絡(luò)中所涉及的功能名和特征維包括:功能名:Subject(主語(yǔ)),Direct-Obj(直接賓語(yǔ)),Main-Verb(謂語(yǔ)動(dòng)詞),Auxs.(助動(dòng)詞),Modifiers(修飾語(yǔ))。特征維:Voice(語(yǔ)態(tài)):Active(主動(dòng)態(tài)),Passive(被動(dòng)態(tài)),缺省值是Active。

Type(動(dòng)詞類(lèi)型):Be,Do,Have,Modal,Non-Aux,缺省值是Non-AuxaForm(動(dòng)詞式):Inf不定式),Present(現(xiàn)在式),Past(過(guò)去式),Pres-part(現(xiàn)在分詞),Past-part(過(guò)去分詞),缺省值是Present。第二十六頁(yè),共九十二頁(yè),2022年,8月28日26第二十七頁(yè),共九十二頁(yè),2022年,8月28日27其中S-8:d→NoConditions,actionsorinitializations.是賦值操作,Subject←*即把當(dāng)前成分放入名為Subject的功能寄存器(當(dāng)前成分作主語(yǔ))。是一種添加操作,Auxs.Main-Verb就是將當(dāng)前的謂語(yǔ)動(dòng)詞添加到Auxs功能寄存器中(原來(lái)Auxs中可能已有內(nèi)容)。在S網(wǎng)絡(luò)中,當(dāng)弧S-2遇到第一個(gè)動(dòng)詞時(shí),就把它置入Main-Verb,但是在接下來(lái)的弧S-3中發(fā)現(xiàn)Main-Verb中剛才被置入的是助動(dòng)詞,網(wǎng)絡(luò)操作就把Main-Verb中的內(nèi)容添加到Auxs寄存器的尾部。若Auxs為空,添加操作與賦值是相同的,但是當(dāng)Auxs非空時(shí)(有幾個(gè)助動(dòng)詞),這即是一個(gè)添加操作。另外,網(wǎng)絡(luò)中有一種dummy節(jié)點(diǎn),這是一種空節(jié)點(diǎn),用來(lái)表示一種形式上的或者預(yù)示的成分,如形式上的主語(yǔ)等?;-4和S-7就是對(duì)于被動(dòng)態(tài)句子的分析和處理?;-4主要是識(shí)別被動(dòng)態(tài)的謂語(yǔ)動(dòng)詞,一旦確認(rèn)是被動(dòng)態(tài),則將當(dāng)前的主語(yǔ)作為直接賓語(yǔ),弧S-7用來(lái)處理被動(dòng)態(tài)句子中by所引導(dǎo)的介詞短語(yǔ),該介詞的賓語(yǔ)就是實(shí)際上的主語(yǔ)。當(dāng)然,作為一個(gè)完整的ATN是相當(dāng)復(fù)雜的,在實(shí)現(xiàn)過(guò)程中還必須解決許多問(wèn)題,如非確定性分析、弧的順序、非直接支配關(guān)系的處理等。ATN方法在自然語(yǔ)言理解的研究中得到了廣泛應(yīng)用。第二十八頁(yè),共九十二頁(yè),2022年,8月28日28詞匯功能語(yǔ)法(LFG)詞匯功能語(yǔ)法是由卡普蘭和布魯斯南(Bresnan)在1982年提出來(lái)的,它是一種功能語(yǔ)法,但更強(qiáng)調(diào)詞匯的作用。LFG用一種結(jié)構(gòu)來(lái)表達(dá)特征、功能、詞匯和成分的順序。ATN語(yǔ)法和轉(zhuǎn)換語(yǔ)法都是有方向性的,ATN語(yǔ)法的條件和操作要求語(yǔ)法的使用是有方向的,因?yàn)榧拇嫫髦挥性诒辉O(shè)置過(guò)之后才可被訪問(wèn)。LFG的一個(gè)重要工作就是通過(guò)互不矛盾的多層描述來(lái)消除這種有序性限制。第二十九頁(yè),共九十二頁(yè),2022年,8月28日29

LFG對(duì)句子的描述分為兩部分:直接成分結(jié)構(gòu)(constituentstructure,C-Structure)和功能結(jié)構(gòu)(functionalstructure,F-structure),C-Structure是由上下文無(wú)關(guān)語(yǔ)法產(chǎn)生的表層分析結(jié)果。在此基礎(chǔ)上,經(jīng)一系列代數(shù)變換產(chǎn)生F-Structure。LFG采用兩種規(guī)則:加入下標(biāo)的上下文無(wú)關(guān)語(yǔ)法規(guī)則和詞匯規(guī)則。表10.2給出了一些詞匯功能語(yǔ)法的規(guī)則和詞條,其中↑表示當(dāng)前成分的上一層次的直接成分,如規(guī)則中NP的↑就是S,VP的↑也是S;↓則表示當(dāng)前成分。因此,(↑Subject)=↓就表示S的主語(yǔ)是當(dāng)前NP。“〈〉”中表達(dá)的是句法模式,Hand=〈(↑Subject),(↑Object),(↑Object-2)〉,表示謂語(yǔ)動(dòng)詞hand要有一個(gè)主語(yǔ)、一個(gè)直接賓語(yǔ)和一個(gè)間接賓語(yǔ)。用LFG語(yǔ)法對(duì)句子進(jìn)行分析的過(guò)程如下:(1)用上下文無(wú)關(guān)語(yǔ)法分析獲得C-Structure,不考慮語(yǔ)法中的下標(biāo);該C-Structure就是一棵直接成分樹(shù);(2)將各個(gè)非葉節(jié)點(diǎn)定義為變量,根據(jù)詞匯規(guī)則和語(yǔ)法規(guī)則中的下標(biāo),建立功能描述(一組方程式);(3)對(duì)方程式做代數(shù)變換,求出各個(gè)變量,獲得功能結(jié)構(gòu)F-Structure.第三十頁(yè),共九十二頁(yè),2022年,8月28日30上述過(guò)程如果能夠得到一組以上的解,則句子就是可識(shí)別的,并獲得一個(gè)以上的分析結(jié)果。分析獲得多個(gè)解則說(shuō)明原句子中存在著歧義現(xiàn)象,無(wú)解則說(shuō)明無(wú)法識(shí)別。圖10.7就是句子“Agirlhandedherbabythetoys”的分析過(guò)程。方程的建立只要將↑用父節(jié)點(diǎn)變量來(lái)替代,令↓當(dāng)前節(jié)點(diǎn)來(lái)代替即可。規(guī)定SNPVP的下標(biāo)有兩組:一是(↑Subject)=↓,替換得到(x1,Subject)=x2;另一個(gè)是↑=↓即x1=x3。方程式(x1Subject)=x2的意義就是“x1的主語(yǔ)是x2”,因此,上面兩個(gè)方程式直接可用方程變換得到x1=x3=[Subject=x2]。在詞匯規(guī)則中,詞a對(duì)應(yīng)了兩條規(guī)則(↑Definiteness)=Indefinite,(↑Number)=Singular,詞a的父節(jié)點(diǎn)就是NP,即x2,所以得到方程式(x2Definiteness)=Indefinite,(x2Number)=Singular.上述方程式通過(guò)解的合并和替代最終可以獲得如圖10.7所示的F-Structure。第三十一頁(yè),共九十二頁(yè),2022年,8月28日31表10.2LFG語(yǔ)法與詞典第三十二頁(yè),共九十二頁(yè),2022年,8月28日32

LFG同樣也可以用于句子的生成。分析和生成的區(qū)別僅在于第一步,分析是由句子到C-Structure,而生成則是由上下文無(wú)關(guān)語(yǔ)法直接產(chǎn)生C-Structure和句子。同樣,如果通過(guò)求解最終可有一個(gè)以上的解,則該句子就是正確的。第三十三頁(yè),共九十二頁(yè),2022年,8月28日33語(yǔ)義的解析建立句法結(jié)構(gòu)只是語(yǔ)言理解模型中的一個(gè)步驟,進(jìn)一步則要求獲得語(yǔ)言所表達(dá)的意義。第一步是要確定每個(gè)詞在句子中所表達(dá)的詞義,這涉及詞義和句法結(jié)構(gòu)上的歧義問(wèn)題,如英語(yǔ)詞go可有50種以上的意義。但即使一個(gè)詞的詞義很多,在一定的上下文條件下,在詞組中,其意義通常也是惟一的。這是由于受到了約束的原因。這種約束關(guān)系可以用一個(gè)邏輯形式來(lái)表示,通過(guò)這種邏輯形式來(lái)獲得詞義和句子的意義。第二步則更為復(fù)雜,即要根據(jù)已有的背景知識(shí)來(lái)確定語(yǔ)義,這就需要進(jìn)一步的推理以得出正確的結(jié)果。如已知“張經(jīng)理開(kāi)車(chē)去了商店”,要回答“張經(jīng)理是否坐進(jìn)汽車(chē)?”這樣的問(wèn)題,就首先要從“開(kāi)車(chē)”這個(gè)詞義中得出“開(kāi)車(chē)”與“坐進(jìn)汽車(chē)”這兩個(gè)概念之間的關(guān)系,只有這樣才能正確地回答這個(gè)問(wèn)題。第三十四頁(yè),共九十二頁(yè),2022年,8月28日34邏輯形式表達(dá)是一種框架式的結(jié)構(gòu),它表達(dá)一個(gè)特定形式的事例及其一系列附加的事實(shí),如“JackkissedJill"可以用如下邏輯形式來(lái)表達(dá):

(PASTS1KISS-ACTION[AGENT(NAMEj1PERSON“Jack”)][THEMENAME(NAMEj2PERSON“Jill”)])

它表達(dá)了一個(gè)過(guò)去的事例S1。PAST是一個(gè)操作符,表示結(jié)構(gòu)的類(lèi)型是過(guò)去的,S1是事例的名,KISS-ACTION是事例形式,AGENT和THEME是對(duì)象的描述,有施事和主位。邏輯形式表達(dá)對(duì)應(yīng)的句法結(jié)構(gòu)可以是不同的,但表達(dá)意義應(yīng)當(dāng)是不變的。thearrivalofGeorgeatthestation和Georgearrivedatthestation在句法上一個(gè)是名詞短語(yǔ),另一個(gè)是句子,但它們的邏輯形式是相同的。第三十五頁(yè),共九十二頁(yè),2022年,8月28日35

(DEF/SINGa1ARRIVE-EVENT(AGENTa1(NAMEg1PERSON“George”))(TO-LOCa1(DEFS4STATION)))(PASTa2ARRIVE-EVENT[AGENTa1(NAMEg1PERSON“George")]TO-LOCa1(NAMES4STATION)])

在句法結(jié)構(gòu)和邏輯形式定義的基礎(chǔ)上,就可以運(yùn)用語(yǔ)義解析規(guī)則,從而使最終的邏輯形式能夠有效地約束歧義。解析規(guī)則也是一種模式的映射變換。

(SSUBJ+animateMAIN-V+action-verb)

這一模式可以匹配任何有一個(gè)動(dòng)作和一個(gè)有生命的主語(yǔ)體的句子。映射規(guī)則的形式為:

(SSUBJ+animateMAIN-V+action-verb)(?*T(MAIN-V))[AGENTV(SUBJ)]第三十六頁(yè),共九十二頁(yè),2022年,8月28日36其中?表示尚無(wú)事件的時(shí)態(tài)信息,*代表一個(gè)新的事例。如果有下面這樣一個(gè)句法結(jié)構(gòu):

(SMAIN-VranSUBJ(NPTDEtheHEADman)TENSEpast)運(yùn)用上述映射(這里假設(shè)NP的映射是用其他規(guī)則)得到:

(?r1RUN1[AGENT(DEF/SINGm1MAN)])時(shí)態(tài)信息可采用另一個(gè)映射規(guī)則:

(STENSEpast)(PAST??)合并上述的映射就可最終獲得邏輯形式表示:

(PASTr1RUN1[AGENT(DEF/SINGm1MAN)])

這里只是一個(gè)簡(jiǎn)單的例子。在規(guī)則的應(yīng)用中,還需要有很多的解析策略。第三十七頁(yè),共九十二頁(yè),2022年,8月28日3710.3句子的自動(dòng)理解句子一般有簡(jiǎn)單句和復(fù)合句之分。簡(jiǎn)單句的理解比復(fù)合句要容易,也是理解復(fù)合句的基礎(chǔ)。因此,下面首先討論簡(jiǎn)單句的理解,然后討論復(fù)合句的理解。第三十八頁(yè),共九十二頁(yè),2022年,8月28日38簡(jiǎn)單句的理解方法由于簡(jiǎn)單句是可以獨(dú)立存在的,因而為了理解一個(gè)簡(jiǎn)單句,即建立起一個(gè)和該簡(jiǎn)單句相對(duì)應(yīng)的機(jī)內(nèi)表達(dá),需要做以下兩方面的工作:

(1)理解語(yǔ)句中的每一個(gè)詞。

(2)以這些詞為基礎(chǔ)組成一個(gè)可以表達(dá)整個(gè)語(yǔ)句意義的結(jié)構(gòu)。第三十九頁(yè),共九十二頁(yè),2022年,8月28日39第一項(xiàng)工作看起來(lái)很容易,似乎只是查一下字典就可以解決。而實(shí)際上,由于許多單詞有不只一種含義,因而只由單詞本身往往不能確定其在句中的確切含義,需要通過(guò)語(yǔ)法分析和上下文關(guān)系等才能最終確定。例如,單詞:“diamond"有“菱形”、“棒球場(chǎng)”和“鉆石”三種意思,在語(yǔ)句

"JohnsawSusan’sdiamondshimmeringfromacrosstheroom.”中,由于“shimmering"的出現(xiàn),顯然可以確定"diamond"是“鉆石”的含義,因?yàn)椤傲庑巍焙汀鞍羟驁?chǎng)”都不會(huì)閃光。再如在語(yǔ)句“I’llmeetyouatthediamond.”中,由于“at”后面需要一個(gè)時(shí)間或地點(diǎn)名詞作為它的賓語(yǔ),因而顯然這里的“diamond"是“棒球場(chǎng)”的含義,而不可能是其他含義。第四十頁(yè),共九十二頁(yè),2022年,8月28日40第二項(xiàng)也是一個(gè)比較困難的工作。因?yàn)橐?lián)合單詞來(lái)構(gòu)成表示一個(gè)句子意義的結(jié)構(gòu),需要依賴(lài)各種信息源,其中包括所用語(yǔ)言的知識(shí)、語(yǔ)句所涉及領(lǐng)域的知識(shí)以及有關(guān)該語(yǔ)言使用者應(yīng)共同遵守的習(xí)慣用法的知識(shí)。由于這個(gè)解釋過(guò)程涉及許多事情,因而常常將這項(xiàng)工作分成以下三個(gè)部分來(lái)進(jìn)行:(1)句法分析將單詞之間的線性次序變換成一個(gè)顯示單詞如何與其他單詞相關(guān)聯(lián)的結(jié)構(gòu)。(2)語(yǔ)義分析各種意義被賦予由句法分析程序所建立的結(jié)構(gòu),即在句法結(jié)構(gòu)和任務(wù)領(lǐng)域內(nèi)的對(duì)象之間進(jìn)行映射變換。(3)語(yǔ)用分析用于確定真正含義,對(duì)表達(dá)的結(jié)構(gòu)重新加以解釋。實(shí)際上,這三個(gè)階段之間是相互關(guān)聯(lián)的,總是以各種方法相互影響著。盡管在某種程度上把它們分開(kāi)是有效的,但絕對(duì)分開(kāi)是不可能的。第四十一頁(yè),共九十二頁(yè),2022年,8月28日411.關(guān)鍵字匹配法最簡(jiǎn)單的自然語(yǔ)言理解方法,也許要算是關(guān)鍵字匹配法了,它在一些特定場(chǎng)合下是有效的。其方法簡(jiǎn)單歸納起來(lái)是這樣的:在程序中規(guī)定匹配和動(dòng)作兩種類(lèi)型的樣本,然后建立一種由匹配樣本到動(dòng)作樣本的映射。當(dāng)輸入語(yǔ)句與匹配樣本相匹配時(shí),就去執(zhí)行相應(yīng)樣本所規(guī)定的動(dòng)作,這樣從外表看來(lái)似乎機(jī)器真正實(shí)現(xiàn)了能理解用戶問(wèn)話的目的。例如,在一個(gè)列車(chē)運(yùn)行數(shù)據(jù)庫(kù)系統(tǒng)中,規(guī)定了以下幾個(gè)匹配樣本:

(1)從<處所>到<處所>有<車(chē)種>嗎?

(2)從<處所>到<處所>有<?數(shù)量><車(chē)種>?

(3)從<處所>到<處所>有<?指數(shù)量><車(chē)種>?

(4)<車(chē)次>在<處所>停嗎?第四十二頁(yè),共九十二頁(yè),2022年,8月28日42

(5)<車(chē)次>經(jīng)過(guò)<處所>嗎?

(6)<車(chē)次>有<車(chē)組>嗎?

(7)到<處所>的<車(chē)種>都有<車(chē)組>嗎?

(8)<車(chē)次><?原因>沒(méi)有<車(chē)組>?

(9)<車(chē)次><?原因>有<車(chē)組>?

(10)<車(chē)次><?時(shí)刻>從<處所>開(kāi)出?

(11)<車(chē)次><?時(shí)刻>到達(dá)<處所>?

(12)從<處所>到<處所><?指數(shù)量><車(chē)次>最快?第四十三頁(yè),共九十二頁(yè),2022年,8月28日43其中,<…>可與任何具有規(guī)定特性的單詞匹配,如<處所>可以和“北京”、“上?!钡缺硎镜攸c(diǎn)的單詞匹配;<車(chē)種>可以和“特快”、“直快”等匹配;<?數(shù)量>可與“幾趟”等匹配;<?指數(shù)量>可與“哪幾趟”等匹配;<車(chē)組>可與“餐車(chē)”、“臥鋪”等匹配,<?原因>可與“為什么”、“怎么”等匹配;<?時(shí)刻>可與“什么時(shí)候”、“幾點(diǎn)”等匹配。如果你輸入:“從北京到上海有特快嗎?”該語(yǔ)句剛好與第一個(gè)匹配樣本相匹配,從而系統(tǒng)也就“理解”了你的問(wèn)話,并去檢索數(shù)據(jù)庫(kù),查看從北京到上海是否有特快,然后給出回答。這種關(guān)鍵字匹配的方法,在類(lèi)似的數(shù)據(jù)庫(kù)咨詢(xún)系統(tǒng)中作為自然語(yǔ)言接口,顯得特別有效,雖然它不具有任何意義下的理解。第四十四頁(yè),共九十二頁(yè),2022年,8月28日442.句法分析樹(shù)法關(guān)鍵字匹配法雖然簡(jiǎn)單,但卻忽略了語(yǔ)句中的大量信息。為確保語(yǔ)句含義的細(xì)節(jié)不被忽略,必須確定其語(yǔ)句結(jié)構(gòu)上的細(xì)節(jié),即要進(jìn)行文法分析。為此,必須首先給出說(shuō)明該特定語(yǔ)言中符號(hào)串結(jié)構(gòu)的文法,以便為每個(gè)符合文法規(guī)則的語(yǔ)句產(chǎn)生一個(gè)稱(chēng)為文法分析樹(shù)的結(jié)構(gòu)。關(guān)于文法的形式,在許多自然語(yǔ)言處理程序中提出過(guò)很多各不相同的定義,作為一個(gè)例子,下面給出一種文法的形式化定義。文法G在其形式上為如下的四元組:

G=(V,,P,S)

其中,V為有窮非空集,稱(chēng)為總詞匯表,為V的一個(gè)非空子集,稱(chēng)為終結(jié)字母表,而N=V-,稱(chēng)為非終結(jié)字母表;P為如下形式的有窮產(chǎn)生式集:

式中V*NV*,V*,*表示它前面的字符可以重復(fù)出現(xiàn)任意次;S為非終結(jié)字母表的一個(gè)元素,稱(chēng)為起始符。第四十五頁(yè),共九十二頁(yè),2022年,8月28日45下面給出的是一個(gè)英語(yǔ)子集的簡(jiǎn)單文法:

SNPVPNPtheNP1NPNP1ADJS

|ADJADJSVPVVPVNPNJoe|boy|ballADJlittle|digVhit|ran其中,大寫(xiě)的是非終結(jié)符,小寫(xiě)的是終結(jié)符,C-表示空字符串。圖10.8是使用該文法對(duì)語(yǔ)句“Joehittheball.”進(jìn)行句法分析而建立的文法分析樹(shù)。第四十六頁(yè),共九十二頁(yè),2022年,8月28日46使用給定文法,對(duì)輸入語(yǔ)句進(jìn)行分析找到一個(gè)文法分析樹(shù)的過(guò)程,可以看成是一個(gè)搜索過(guò)程。為實(shí)現(xiàn)該過(guò)程,可以使用自頂向下的處理方法,這和正向推理有些相像。它首先從起始符開(kāi)始,然后應(yīng)用P中的規(guī)則,一層一層地向下產(chǎn)生樹(shù)的各個(gè)分支,直到一個(gè)完整的句子結(jié)構(gòu)被生成出來(lái)為止。如果該結(jié)構(gòu)與輸入語(yǔ)句相匹配,則成功結(jié)束;否則,便從頂層重新開(kāi)始,生成其他句子結(jié)構(gòu),直到結(jié)束為止。也可以使用自底向上的處理方法,這和逆向推理有些相像。它以輸入語(yǔ)句的詞為基礎(chǔ),首先從P中查找規(guī)則,試圖把這些詞歸并成較大的結(jié)構(gòu)成分,如短語(yǔ)或子句等,然后再對(duì)這些成分進(jìn)行進(jìn)一步的組合,反向生成文法分析樹(shù),直到樹(shù)的根節(jié)點(diǎn)是起始符為止。無(wú)論使用哪種處理方法,都要遇到像詞性選擇這類(lèi)問(wèn)題。比如can這個(gè)詞,既可以是助動(dòng)詞,又可以是名詞,對(duì)于這樣從多重選擇中作出判斷的問(wèn)題,可以使用與搜索過(guò)程相似的控制策略。假如使用回溯策略,可首先假定can是一個(gè)助動(dòng)詞,當(dāng)在以后的分析出現(xiàn)矛盾時(shí),再進(jìn)行回溯,重新選擇can的詞性為名詞。第四十七頁(yè),共九十二頁(yè),2022年,8月28日473.語(yǔ)義分析只是根據(jù)詞性信息來(lái)分析一個(gè)語(yǔ)句文法結(jié)構(gòu),是不能保證其正確性的,這是因?yàn)橛行┚渥拥奈姆ńY(jié)構(gòu)需要借助于詞義信息來(lái)確定,也就是要進(jìn)行語(yǔ)義分析。進(jìn)行語(yǔ)義分析的一種簡(jiǎn)單方法是使用語(yǔ)義文法。所謂語(yǔ)義文法是在傳統(tǒng)的短語(yǔ)結(jié)構(gòu)文法的基礎(chǔ)上,將N(名詞),V(動(dòng)詞)等語(yǔ)法類(lèi)別的概念,用所討論領(lǐng)域的專(zhuān)門(mén)類(lèi)別來(lái)代替。下面給出的是為艦船管理數(shù)據(jù)庫(kù)系統(tǒng)提供自然語(yǔ)言接口的示例系統(tǒng)中的語(yǔ)義文法片斷:S→whatisSHIP-PROPERTYofSHIP?SHIP-PROPERTY→

theSHIP-PROP|SHIP-PROPSHIP-PROP→speed|length|draft|beam|typeSHIP→SHIP-NAME|thefastestSHIP2|thebiggestSHIP2|SHIP2SHIP-NAME→Huanghe|Changjiang|Jinshajiang|…第四十八頁(yè),共九十二頁(yè),2022年,8月28日48SHIP2→COUNTRYSSHIP3|SHIP3SHIP3→SHIPTYPELOC|SHIPTYPESHIPTYPE→carrier|submarine|rowboatCOUNTRYS→American|French|British|Russian…LOC→inthepacific|intheMediterranean|…從上例可以看出,該文法使用的語(yǔ)義類(lèi)別為SHIP和LOC,而不包括文法的非終結(jié)類(lèi)別,如NP和VP等。對(duì)于語(yǔ)義文法的分析方法,可以使用與分析純的文法結(jié)構(gòu)相類(lèi)似的方法。以上介紹的只是處理簡(jiǎn)單句理解問(wèn)題的一些較簡(jiǎn)單的方法,使用這些方法,能夠解決一些實(shí)際問(wèn)題,但也存在很多的不足,如關(guān)鍵字匹配法會(huì)遺失語(yǔ)句中的很多信息;語(yǔ)義文法由于要用語(yǔ)義類(lèi)別來(lái)代替文法類(lèi)別,從而失去了許多文法上的高度概括,使得規(guī)則數(shù)量龐大,導(dǎo)致文法分析過(guò)程變得“昂貴”起來(lái)。第四十九頁(yè),共九十二頁(yè),2022年,8月28日49復(fù)合句的理解方法如上所述,簡(jiǎn)單句的理解不涉及句與句之間的關(guān)系,它的理解過(guò)程首先是賦單詞以意義,然后再給整個(gè)語(yǔ)句賦以一種結(jié)構(gòu)。而一組語(yǔ)句的理解,無(wú)論它是一個(gè)文章選段還是一段對(duì)話節(jié)錄,均要求發(fā)現(xiàn)句子之間的相互關(guān)系。在特定的文章中,這些關(guān)系的發(fā)現(xiàn),對(duì)于理解起著十分重要的作用。這種關(guān)系包括以下幾種:(1)相同的事物,例如,“珊珊有只紅氣球。莎莎想要它?!眴卧~“它”和“紅氣球”指的是同一物體。第五十頁(yè),共九十二頁(yè),2022年,8月28日50(2)事物的一部分,例如,“小琴翻開(kāi)她剛買(mǎi)的書(shū)。扉頁(yè)已被撕壞了。”“扉頁(yè)”指的是“剛買(mǎi)的書(shū)”的一部分。(3)行動(dòng)的一部分,例如,“王剛出差去上海。他乘早班飛機(jī)動(dòng)身”。乘飛機(jī)應(yīng)看成是出差的一部分。(4)與行動(dòng)有關(guān)的事物,例如,“李明決定騎車(chē)去商店。他走到車(chē)棚,可是發(fā)現(xiàn)他的自行車(chē)沒(méi)氣了。”李明的自行車(chē)應(yīng)理解為是與他騎車(chē)去商店這一行動(dòng)有關(guān)的事物。(5)因果關(guān)系,例如,“昨天有一場(chǎng)暴風(fēng)雪。所以學(xué)校今天停課”。下雪應(yīng)理解為是停課的原因。第五十一頁(yè),共九十二頁(yè),2022年,8月28日51(6)計(jì)劃次序,例如,“小麗想買(mǎi)輛新車(chē)。她決定找一份工作干。”小麗突然對(duì)工作感興趣,應(yīng)理解為是由她想買(mǎi)一輛新車(chē),買(mǎi)新車(chē)需要錢(qián)而引起的。要能做到理解這些復(fù)雜的關(guān)系,必須具有相當(dāng)廣泛的領(lǐng)域知識(shí)才行,也就是要依賴(lài)于大型的知識(shí)庫(kù),而且知識(shí)庫(kù)的組織形式對(duì)能否正確理解這些關(guān)系,起著很重要的作用。如果知識(shí)庫(kù)的容量較大,則有一點(diǎn)比較重要,即如何將問(wèn)題的焦點(diǎn)集中于知識(shí)庫(kù)的相關(guān)部分。例如,我們來(lái)看如下的文章片段:“接著,把水泵固定到工作臺(tái)上。螺栓就放在小塑料袋中?!钡诙渲械穆菟?應(yīng)該理解為是用來(lái)固定水泵的螺栓。因此,如果在理解全句時(shí),把需用的螺栓置于“焦點(diǎn)”之中,則全句的理解就不成問(wèn)題了。為此,我們需要表示出和“固定”有關(guān)的知識(shí),以便當(dāng)見(jiàn)到“固定”時(shí),能方便地提取出來(lái)。第五十二頁(yè),共九十二頁(yè),2022年,8月28日52圖10.9給出的是一個(gè)與固定水泵有關(guān)的分區(qū)語(yǔ)義網(wǎng)絡(luò)。所謂分區(qū)語(yǔ)義網(wǎng)絡(luò),就是將語(yǔ)義網(wǎng)絡(luò)中的有關(guān)弧和節(jié)點(diǎn)集中起來(lái),組成一個(gè)分區(qū)。圖10.9所示的分區(qū)語(yǔ)義網(wǎng)絡(luò)具有4個(gè)分區(qū):S0分區(qū)含有一些一般的概念,如美元、兌換和螺栓等;S1分區(qū)含有與購(gòu)買(mǎi)螺栓有關(guān)的特殊實(shí)體;S2分區(qū)含有與把水泵固定在工作臺(tái)上這一操作有關(guān)的特殊實(shí)體;S3分區(qū)含有與同一固定操作有關(guān)的特殊實(shí)體等。運(yùn)用分區(qū)語(yǔ)義網(wǎng)絡(luò),利用其分區(qū)在某些層次上的關(guān)聯(lián),可以較好地處理集中焦點(diǎn)的問(wèn)題。當(dāng)某一分區(qū)為焦點(diǎn)時(shí),則某高層分區(qū)內(nèi)的元素即變?yōu)榭捎^察的了。對(duì)于上例,當(dāng)?shù)诙浔焕斫鈺r(shí),因其講的是“將水泵固定在工作臺(tái)上”這一事件,因而圖10.9中分區(qū)語(yǔ)義網(wǎng)絡(luò)示例焦點(diǎn)處于S2分區(qū)。由于S0分區(qū)的層次高于S2分區(qū),所以S0分區(qū)是可以觀察的。當(dāng)理解第二句時(shí),顯然“螺栓”不能與S2分區(qū)的任何元素匹配,因而焦點(diǎn)區(qū)由S2變成更低一級(jí)的S3分區(qū),并且使得“螺栓”與B1匹配,匹配的結(jié)果使得第二句中的“螺栓”必定是第一句中用來(lái)進(jìn)行固定的螺栓,從而使得前后兩個(gè)句子成為一個(gè)前后連貫的文章片斷。第五十三頁(yè),共九十二頁(yè),2022年,8月28日53第五十四頁(yè),共九十二頁(yè),2022年,8月28日54當(dāng)輸入的文章片斷描述的是有關(guān)人或物的行為等情節(jié)時(shí),可以使用目標(biāo)結(jié)構(gòu)的方法來(lái)幫助理解。例如,“王強(qiáng)很想喝汽水。他向行人打聽(tīng)最近的冷飲店在哪里。”對(duì)于這樣的情節(jié),弄清楚人物的目標(biāo)及其如何達(dá)到目標(biāo)是理解的重點(diǎn)。在上例中,目標(biāo)是要得到汽水喝,為此,王強(qiáng)必須去冷飲店,而要去冷飲店則必須知道冷飲店的位置,為了達(dá)到這一新的子目標(biāo),王強(qiáng)應(yīng)該去詢(xún)問(wèn)別人。從而得出達(dá)到目標(biāo)的行為規(guī)則:詢(xún)問(wèn)某人→得知冷飲店→去冷飲店→買(mǎi)汽水→喝汽水為了便于理解,對(duì)于這些常常出現(xiàn)的各種目標(biāo),可以編寫(xiě)好相應(yīng)的規(guī)劃,一旦需要時(shí)就去調(diào)用它們。這樣,當(dāng)情節(jié)中某些信息省略時(shí),也可以通過(guò)這些規(guī)劃推導(dǎo)出來(lái)。第五十五頁(yè),共九十二頁(yè),2022年,8月28日5510.4語(yǔ)言的自動(dòng)生成語(yǔ)言生成就是把在計(jì)算機(jī)內(nèi)部以某種形式存放的需要交流的信息,以自然語(yǔ)言的形式表達(dá)出來(lái),因而從某種意義上來(lái)說(shuō),語(yǔ)言生成是自然語(yǔ)言理解的一個(gè)逆過(guò)程。一般包括以下兩部分:(1)建立一種結(jié)構(gòu),以表達(dá)出需要交流的信息。也就是進(jìn)行“構(gòu)思”,確定要“說(shuō)”的內(nèi)容。(2)以適當(dāng)?shù)脑~匯和一定的句法規(guī)則,把需要交流的信息以句子形式表達(dá)出來(lái)。與自然語(yǔ)言理解一樣,語(yǔ)言生成的處理方法有很多種,這不僅由于它們所采用的內(nèi)部表達(dá)結(jié)構(gòu)不同(如采用語(yǔ)義網(wǎng)絡(luò)或者概念從屬等),而且由于語(yǔ)言生成的目的也有所不同(如有的是為了對(duì)輸入文章做摘要,有的是為了作為問(wèn)題回答系統(tǒng)的人機(jī)界面等)。第五十六頁(yè),共九十二頁(yè),2022年,8月28日56語(yǔ)言生成也有許多難點(diǎn),特別是第一部分,顯得更加困難一些。有時(shí),要交流的信息由問(wèn)題回答系統(tǒng)在回答問(wèn)題時(shí)加以估計(jì)。在這些系統(tǒng)中,信息的生成過(guò)程要受到回答問(wèn)題的約束。在語(yǔ)言生成系統(tǒng)中遇到的許多問(wèn)題與在自然語(yǔ)言理解系統(tǒng)中所遇到的問(wèn)題是一樣的。例如,在自然語(yǔ)言理解系統(tǒng)中必須消除頭語(yǔ)(字詞或短語(yǔ))的重復(fù)引用問(wèn)題,為生成好的文章,也必須解決好這個(gè)問(wèn)題。請(qǐng)看下面的短文:“李強(qiáng)看到商店櫥窗里的一輛自行車(chē)。李強(qiáng)想要那輛自行車(chē)?!边@篇短文顯得不太自然,其原因就是沒(méi)有使用代詞。若用代詞替代已出現(xiàn)過(guò)的事物,則生成的短文就自然一些:“李強(qiáng)看到商店櫥窗里的一輛自行車(chē),他想要它?!钡?也不是對(duì)任何句子都可以這樣簡(jiǎn)單地處理,其必要條件是所得到的句子不至于因代詞的出現(xiàn)而產(chǎn)生多義性。例如,假定原文為:第五十七頁(yè),共九十二頁(yè),2022年,8月28日57“王飛看到閃光的推車(chē)?yán)锏囊粋€(gè)藍(lán)氣球。王飛想要這個(gè)藍(lán)氣球?!比艉?jiǎn)單地使用代詞,則會(huì)產(chǎn)生:“王飛看到閃光的推車(chē)?yán)锏囊粋€(gè)藍(lán)氣球,他想要它?!边@里的“它”就有二義性,它有可能是指氣球,也可能是指小推車(chē)。為了使得短文不至于產(chǎn)生二義性,這里應(yīng)該生成以下這樣的短文:“王飛看到閃光的推車(chē)?yán)锏囊粋€(gè)藍(lán)氣球,他想要這個(gè)氣球?!边@樣得到的文章就顯得既自然,又沒(méi)有二義性了??傊?語(yǔ)言生成需要解決幾乎所有的在自然語(yǔ)言理解中遇到的問(wèn)題,其處理方法也可以使用在自然語(yǔ)言理解中所使用的各種方法。第五十八頁(yè),共九十二頁(yè),2022年,8月28日5810.5文本的自動(dòng)翻譯-機(jī)器翻譯電子計(jì)算機(jī)出現(xiàn)之后不久,人們就想使用它來(lái)進(jìn)行機(jī)器翻譯。只有在理解的基礎(chǔ)上才能進(jìn)行正確的翻譯,否則,將遇到一些難以解決的困難:(1)詞的多義性。源語(yǔ)言可能一詞多義,而目的語(yǔ)言要表達(dá)這些不同的含義需要使用不同的詞匯。為選擇正確的詞,必須了解所表達(dá)的含義是什么。(2)文法多義性。對(duì)源語(yǔ)言中合乎文法規(guī)則但具有多義的句子,其每一可能的意思均可在目的語(yǔ)言中使用不同的文法結(jié)構(gòu)來(lái)表達(dá)。(3)頭語(yǔ)重復(fù)使用。源語(yǔ)言中的一個(gè)代詞可以指多個(gè)事物,但在目的語(yǔ)言中要有不同的代詞,正確地選用代詞需要了解其確切的指代對(duì)象。(4)成語(yǔ)。必須識(shí)別源語(yǔ)言中的成語(yǔ),它們不能直接按字面意思翻譯成目的語(yǔ)言。第五十九頁(yè),共九十二頁(yè),2022年,8月28日59機(jī)器翻譯,就是讓機(jī)器模擬人的翻譯過(guò)程。人在進(jìn)行翻譯之前,必須掌握兩種語(yǔ)言的詞匯和語(yǔ)法。機(jī)器也是這樣,它在進(jìn)行翻譯之前,在它的存儲(chǔ)器中已經(jīng)存儲(chǔ)了語(yǔ)言學(xué)工作者編好并由數(shù)學(xué)工作者加工過(guò)的機(jī)器詞典和機(jī)器語(yǔ)法。人進(jìn)行翻譯時(shí)所經(jīng)歷的過(guò)程,機(jī)器也同樣遵照?qǐng)?zhí)行:先查詞典得到詞的意義和一些基本的語(yǔ)法特征(如詞類(lèi)等),如果查到的詞不止一個(gè)意義,那么就要根據(jù)上下文選取所需要的意義。在弄清詞匯意義和基本語(yǔ)法特征之后,就要進(jìn)一步明確各個(gè)詞之間的關(guān)系。此后,根據(jù)譯語(yǔ)的要求組成譯文(包括改變?cè)~序、翻譯原文詞的一些形態(tài)特征及修辭)。機(jī)器翻譯的過(guò)程一般包括4個(gè)階段:原文輸入、原文分析(查詞典和語(yǔ)法分析)、譯文綜合(調(diào)整詞序、修辭和從譯文詞典中取詞)和譯文輸出。下面以英漢機(jī)器翻譯為例,簡(jiǎn)要地說(shuō)明一下機(jī)器翻譯的整個(gè)過(guò)程。第六十頁(yè),共九十二頁(yè),2022年,8月28日601.原文輸入由于計(jì)算機(jī)只能接受二進(jìn)制數(shù)字,所以字母和符號(hào)必須按照一定的編碼法轉(zhuǎn)換成二進(jìn)制數(shù)字。例如Whatarecomputers這三個(gè)詞就要變?yōu)橄旅孢@樣三大串二進(jìn)制代碼:

What110110100111100000110011are100000110001110100computers1000101011101011001011111101001100111001001100011100102.原文分析原文分析包括兩個(gè)階段:查詞典和語(yǔ)法分析。(1)查詞典。通過(guò)查詞典,給出詞或詞組的譯文代碼和語(yǔ)法信息,為以后的語(yǔ)法分析及譯文的輸出提供條件。機(jī)器翻譯中的詞典按其任務(wù)不同分成以下幾種:

①綜合詞典:它是機(jī)器所能翻譯的文獻(xiàn)的詞匯大全,一般包括原文詞及其語(yǔ)法特征(如詞類(lèi))、語(yǔ)義特征和譯文代碼,以及對(duì)其中某些詞進(jìn)一步加工的指示信息(如同形詞特征、多義詞特征等)。

②成語(yǔ)詞典:為了提高翻譯速度和質(zhì)量,可以把成語(yǔ)詞典放到綜合詞典前面。例如,atthesametime,不必經(jīng)過(guò)綜合詞典得到每個(gè)詞的信息后再到成語(yǔ)詞典去找,可直接得到“副詞狀語(yǔ)”特征和“同時(shí)”的譯文。第六十一頁(yè),共九十二頁(yè),2022年,8月28日61

③同形詞典:專(zhuān)門(mén)用來(lái)區(qū)分英語(yǔ)中有語(yǔ)法同形現(xiàn)象的詞。例如close一詞,經(jīng)過(guò)綜合詞典加工未得到任何具體的詞類(lèi),而只得到該詞是形/動(dòng)同形詞的指示信息。該詞轉(zhuǎn)到這里后,按照同形詞典所提供的檢驗(yàn)方法,來(lái)確定它在句中到底是用作形容詞還是動(dòng)詞。同形詞典是根據(jù)語(yǔ)言中各類(lèi)詞的形態(tài)特征和分布規(guī)律構(gòu)成的。例如,動(dòng)詞、形容詞同形的圖示中,就有這樣的規(guī)則:close后有er,est為形容詞,處于“冠詞+close+名詞”和“形容詞+close+名詞”等環(huán)境時(shí)也為形容詞,……。

④(分離)結(jié)構(gòu)詞典:某些詞在語(yǔ)言中與其他詞可構(gòu)成一種可嵌套的固定格式,我們稱(chēng)這類(lèi)詞為分離結(jié)構(gòu)詞。根據(jù)這種固定搭配關(guān)系,可以簡(jiǎn)便而又切實(shí)地給出一些詞的詞義和語(yǔ)法特征(尤其是介詞),從而減輕了語(yǔ)法分析部分的負(fù)擔(dān)。例如:effectof...on.第六十二頁(yè),共九十二頁(yè),2022年,8月28日62

⑤多義詞典:語(yǔ)言中一詞多義現(xiàn)象很普遍,為了解決多義詞問(wèn)題,必須把源語(yǔ)的各個(gè)詞劃分為一定的類(lèi)屬組。例如,名詞就要細(xì)分為專(zhuān)有名詞、物體類(lèi)名詞、不可數(shù)物質(zhì)名詞、抽象名詞、方式方法類(lèi)名詞、時(shí)間類(lèi)名詞、地點(diǎn)類(lèi)名詞等。利用這樣的語(yǔ)義類(lèi)別來(lái)區(qū)分多義現(xiàn)象,是一種比較普遍的方法。例如effect一詞,當(dāng)它前面是專(zhuān)有名詞(例如人名)時(shí),要選擇“效應(yīng)”為其詞義,如Barreteffect"巴勒特效應(yīng)”;當(dāng)它處在表示“過(guò)程”意義的動(dòng)名詞之后時(shí)就要譯為“作用”,如Deoxidizingeffect“脫氧作用”。這種利用語(yǔ)義搭配的辦法并非萬(wàn)能,但能解決相當(dāng)一部分問(wèn)題。通過(guò)查詞典,原文句中的詞在語(yǔ)法類(lèi)別上即可成為單功能的詞,在詞義上成為單義詞(某些介詞和連詞除外)。這樣就給下一步語(yǔ)法分析創(chuàng)造了有利條件。第六十三頁(yè),共九十二頁(yè),2022年,8月28日63(2)語(yǔ)法分析。在詞典加工之后,輸入句就進(jìn)入語(yǔ)法分析階段。語(yǔ)法分析的任務(wù)是:進(jìn)一步明確某些詞的形態(tài)特征;切分句子;找出詞與詞之間句法上的聯(lián)系,同時(shí)得出英漢語(yǔ)的中介成分。一句話,為下一步譯文綜合做好充分準(zhǔn)備。根據(jù)英漢語(yǔ)對(duì)比研究發(fā)現(xiàn),翻譯英語(yǔ)句子除了翻譯各個(gè)詞的意義之外,主要是調(diào)整詞序和翻譯一些形態(tài)成分。為了調(diào)整詞序,首先必須弄清需要調(diào)整什么,即找出調(diào)整的對(duì)象。根據(jù)分析,英語(yǔ)句子一般可以分為這樣一些詞組:動(dòng)詞詞組,名詞詞組,介詞詞組,形容詞詞組,分詞詞組,不定式詞組,副詞詞組。正是這些詞組承擔(dān)著各種句法功能:謂語(yǔ),主語(yǔ),賓語(yǔ),定語(yǔ),狀語(yǔ),…,其中除謂語(yǔ)外,都可以作為調(diào)整的對(duì)象。第六十四頁(yè),共九十二頁(yè),2022年,8月28日64如何把這些詞組正確地分析出來(lái),是語(yǔ)法分析部分的一個(gè)主要任務(wù)。上述幾種詞組中需要專(zhuān)門(mén)處理的,實(shí)際上只是動(dòng)詞詞組和名詞詞組。不定式詞組和分詞詞組可以說(shuō)是動(dòng)詞詞組的一部分,可以與動(dòng)詞同時(shí)加工:動(dòng)詞前有to,且又不屬于動(dòng)詞詞組,一般為不定式詞組;-ed詞如不屬于動(dòng)詞詞組,又不是用作形容詞,便是分詞詞組;-ing詞比較復(fù)雜,如不屬于動(dòng)詞詞組,還可能是某種動(dòng)名詞,如既不屬于動(dòng)詞詞組,又不為動(dòng)名詞,則是分詞詞組。形容詞詞組確定起來(lái)很方便,因?yàn)榭梢詷?gòu)成形容詞詞組的形容詞在詞典中已得到“后置形容詞”特征。只要這類(lèi)形容詞出現(xiàn)在“名詞+后置形容詞+介詞+名詞”這樣的結(jié)構(gòu)中,形容詞詞組便可確定。介詞詞組更為簡(jiǎn)單,只要同其后的名詞詞組連結(jié)起來(lái)也就構(gòu)成了。比較麻煩的是名詞詞組的構(gòu)成,因?yàn)橐鉀Q由連詞and和逗號(hào)引起的一系列問(wèn)題。第六十五頁(yè),共九十二頁(yè),2022年,8月28日653.譯文綜合譯文綜合比較簡(jiǎn)單,事實(shí)上,它的一部分工作(如該調(diào)整哪些成分和調(diào)整到什么地方)在上一階段已經(jīng)完成。這一階段的任務(wù)主要是把應(yīng)該移位的成分調(diào)動(dòng)一下。如何調(diào)動(dòng),即采取什么樣的加工方法,是一個(gè)不平常的問(wèn)題。根據(jù)層次結(jié)構(gòu)原則,下述方法被認(rèn)為是一種合理的加工方法:首先加工間接成分,從后向前依次取詞加工,也就是從句子的最外層向內(nèi)層加工;其次是加工直接成分,依成分取詞加工;如果是復(fù)句,還要分別情況進(jìn)行加工:對(duì)一般復(fù)句,在調(diào)整各分句內(nèi)部各種成分之后,各分句都作為一個(gè)相對(duì)獨(dú)立的語(yǔ)段處理,采用從句末(即從句點(diǎn))向前依次選取語(yǔ)段的方法加工;對(duì)包孕式復(fù)句,采用先加工插入句,再加工主句的方法。因?yàn)槿舨惶崆凹庸げ迦刖?主句中跟它有聯(lián)系的那個(gè)成分一旦移位,它就失去了自己的聯(lián)系詞,整個(gè)關(guān)系就要混亂。第六十六頁(yè),共九十二頁(yè),2022年,8月28日66譯文綜合的第二個(gè)任務(wù)是修辭加工,即根據(jù)修辭的要求增補(bǔ)或刪掉一些詞,比如可以根據(jù)英語(yǔ)不定冠詞、數(shù)詞與某類(lèi)名詞搭配增補(bǔ)漢語(yǔ)量詞“個(gè)”、“種”、“本”、“條”、“根”等;再如若有even(甚至)這樣的詞出現(xiàn),謂語(yǔ)前可加上“也”字;又如若主語(yǔ)中有every(每個(gè))、each(每個(gè))、all(所有)、everybody(每個(gè)人)等詞,謂語(yǔ)前可加上“都”字,等等。譯文綜合的第三個(gè)任務(wù)是查漢文詞典,根據(jù)譯文代碼(實(shí)際是漢文詞典中漢文詞的順序號(hào))找出漢字的代碼。第六十七頁(yè),共九十二頁(yè),2022年,8月28日674.譯文輸出通過(guò)漢字輸出裝置將漢字代碼轉(zhuǎn)換成文字,打印出譯文來(lái)。目前世界上已有十多個(gè)面向應(yīng)用的機(jī)器翻譯規(guī)則系統(tǒng)。其中一些是機(jī)助翻譯系統(tǒng),有的甚至只是讓機(jī)器幫助查詞典,但是據(jù)說(shuō)也能把翻譯效率提高50%。這些系統(tǒng)都還存在一些問(wèn)題,有的系統(tǒng),人在其中參與太多,有所謂“譯前加工”、“譯后加工”、“譯間加工”,與真正的實(shí)際應(yīng)用還有一段距離。第六十八頁(yè),共九十二頁(yè),2022年,8月28日6810.6自然語(yǔ)言理解系統(tǒng)的主要模型語(yǔ)言交流是一種基于知識(shí)的通信處理過(guò)程,說(shuō)話者和聽(tīng)話者都是在做信息處理。確切地說(shuō),人類(lèi)尚未揭開(kāi)人腦處理和理解語(yǔ)言的奧秘,要想用計(jì)算機(jī)的符號(hào)處理和推理功能來(lái)實(shí)現(xiàn)語(yǔ)言理解,首先要具備一些基本的處理能力。下面討論語(yǔ)言理解的模型。1.基本模型說(shuō)話者都有一個(gè)明確的說(shuō)話目的,如表達(dá)一個(gè)觀點(diǎn),傳達(dá)某一信息,或指使對(duì)方去干某事,然后通過(guò)處理生成一串文字或聲音供接收者處理。其中說(shuō)話者要選擇用詞、句子結(jié)構(gòu)、重音、語(yǔ)調(diào)等,還必須融入以前或上一段談話時(shí)所積累的知識(shí)等。圖10.10表示自然語(yǔ)言理解的基本模型。第六十九頁(yè),共九十二頁(yè),2022年,8月28日69第七十頁(yè),共九十二頁(yè),2022年,8月28日702.單邊模型從語(yǔ)言產(chǎn)生或接收單邊來(lái)看,認(rèn)知處理過(guò)程如圖10.11所示。對(duì)于語(yǔ)言輸入來(lái)說(shuō),首先是聲音或文字識(shí)別,然后是語(yǔ)言的句法分析,建立句法結(jié)構(gòu),最后是語(yǔ)義概念的表達(dá)和推理。第七十一頁(yè),共九十二頁(yè),2022年,8月28日713.層次模型語(yǔ)言的構(gòu)成是層次化的,語(yǔ)言的處理也應(yīng)當(dāng)是一個(gè)層次化的過(guò)程。分層可以使一個(gè)非常復(fù)雜的過(guò)程分解為一個(gè)個(gè)模塊化的、模塊間相互獨(dú)立的、有步驟的過(guò)程,如圖10.12所示。從圖上方向下走是一個(gè)語(yǔ)言理解的過(guò)程,而自底向上是一個(gè)語(yǔ)言生成的過(guò)程。圖中左邊的知識(shí)是長(zhǎng)期存儲(chǔ)的,而右邊的數(shù)據(jù)則是短期存儲(chǔ)的。上述分層模型提供了一個(gè)順序逐層處理的過(guò)程,但是正如上面已經(jīng)提到的,事實(shí)上,人對(duì)語(yǔ)言的處理也并不是完全依此逐層進(jìn)行的。人們常常要從語(yǔ)義的角度來(lái)理解句法結(jié)構(gòu),從句法結(jié)構(gòu)的角度來(lái)分析詞類(lèi),不然則無(wú)法理解。在生活中經(jīng)常會(huì)碰到一些話,它們完全不合傳統(tǒng)的語(yǔ)法,但卻同樣可以被人聽(tīng)懂和理解就是這個(gè)道理。因此,如果系統(tǒng)嚴(yán)格地按照這種逐層方式來(lái)工作是很不可靠的,只要在低層次上稍有問(wèn)題,整個(gè)理解過(guò)程就會(huì)完全崩潰。比如在輸入時(shí),文字中只要有一個(gè)詞拼寫(xiě)錯(cuò)誤,整個(gè)句子就變成無(wú)法理解的了。而事實(shí)上,人在處理時(shí)完全具備了這種容錯(cuò)的能力。第七十二頁(yè),共九十二頁(yè),2022年,8月28日72第七十三頁(yè),共九十二頁(yè),2022年,8月28日73更為完善的模型可以通過(guò)保留上述分層模型,但打破層次界限來(lái)建立,典型地可采用“黑板”系統(tǒng)的方式進(jìn)行。在上述分層模型中,將所有的數(shù)據(jù)存取都放入“黑板”,各個(gè)處理層都可以訪問(wèn),而且處理結(jié)果再寫(xiě)入“黑板”。這樣,每個(gè)處理器不限于只能用上一級(jí)的結(jié)果,而可以使用所有層次的信息。第七十四頁(yè),共九十二頁(yè),2022年,8月28日7410.7自然語(yǔ)言理解系統(tǒng)應(yīng)用舉例自然語(yǔ)言理解研究雖然尚存在不少困難,但已有較大進(jìn)展,并已獲得越來(lái)越廣泛的應(yīng)用。下面介紹三個(gè)應(yīng)用實(shí)例,即自然語(yǔ)言自動(dòng)理解系統(tǒng)、機(jī)器翻譯系統(tǒng)和自然語(yǔ)言問(wèn)答系統(tǒng)。第七十五頁(yè),共九十二頁(yè),2022年,8月28日75自然語(yǔ)言自動(dòng)理解系統(tǒng)1.指揮機(jī)器人的自然語(yǔ)言理解系統(tǒng)SHRDLUSHRDLU系統(tǒng)是由MIT研制的,這個(gè)系統(tǒng)可用自然語(yǔ)言來(lái)指揮機(jī)械手在桌面上擺弄積木,按一定的要求重新安排積木塊的空間位置。SHRDLU可與用戶進(jìn)行人機(jī)對(duì)話,接收自然語(yǔ)言,把它變?yōu)橄鄳?yīng)的指令,并進(jìn)行邏輯推理,從而回答關(guān)于桌面上積木世界的各種問(wèn)題。系統(tǒng)在LISP語(yǔ)言的基礎(chǔ)上設(shè)計(jì)了一種MICRO-PLANNER程序語(yǔ)言,用它來(lái)表示各種指令、事實(shí)和推理過(guò)程。如“thepyramidisonthetable“(棱錐體在桌子上),MICRO-PLANNER可以把它變換成如下形式(ONPYRAMIDTABLE)。如果要把積木x放到另一塊積木y上,則可以進(jìn)行如下推理:

(THEGOAL(ON?x?y)第七十六頁(yè),共九十二頁(yè),2022年,8月28日76

(OR(ON-TOP?x?y)(AND(CLEAR-TOP?x)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論