




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
關(guān)于自然語(yǔ)言理解10.1自然語(yǔ)言理解概述
什么是語(yǔ)言和語(yǔ)言理解?自然語(yǔ)言理解與人類的哪些智能有關(guān)?自然語(yǔ)言理解的系統(tǒng)如何組成?等等。這些問(wèn)題是我們開(kāi)始研究自然語(yǔ)言理解時(shí)感興趣的。
10.1.1語(yǔ)言和語(yǔ)言理解
語(yǔ)言是用于傳遞信息的表示方法、約定和規(guī)則的集合,它由語(yǔ)句組成,每個(gè)語(yǔ)句又由單詞組成;組成語(yǔ)句和語(yǔ)言時(shí),應(yīng)遵循一定的語(yǔ)法與語(yǔ)義規(guī)則。如果沒(méi)有各種口語(yǔ)和書(shū)面語(yǔ),如英語(yǔ)、華語(yǔ)、法語(yǔ)和德語(yǔ)等,人類之間思想、感情和技術(shù)交流就難以想象。語(yǔ)言是隨著人類社會(huì)和人類自身的發(fā)展而不斷進(jìn)化的。研究自然語(yǔ)言理解,必須對(duì)自然語(yǔ)言構(gòu)成有基本認(rèn)識(shí)。第2頁(yè),共63頁(yè),2024年2月25日,星期天
語(yǔ)言是音義結(jié)合的詞匯和語(yǔ)法體系,是實(shí)現(xiàn)思維活動(dòng)的物質(zhì)形式。語(yǔ)言是一個(gè)符號(hào)體系,但與其他符號(hào)體系又有所區(qū)別。
語(yǔ)言是以詞為基本單位的,詞匯又受到語(yǔ)法的支配才可構(gòu)成有意義的句子,句子按一定的形式再構(gòu)成篇章等。詞匯又可分為詞和熟語(yǔ)。熟語(yǔ)就是一些詞的固定組合,如漢語(yǔ)中的成語(yǔ)。詞又由詞素構(gòu)成,“教師”是由“教”和“師”這兩個(gè)詞素所構(gòu)成的。詞素是構(gòu)成詞的最小的有意義的單位?!敖獭边@個(gè)詞素本身有教育和指導(dǎo)的意義,“師”則包含了“人”的意義。第3頁(yè),共63頁(yè),2024年2月25日,星期天
語(yǔ)法是語(yǔ)言的組織規(guī)律。語(yǔ)法規(guī)則制約著如何把詞素構(gòu)成詞,詞構(gòu)成詞組和句子。語(yǔ)言正是在這種嚴(yán)密的制約關(guān)系中構(gòu)成的。用詞素構(gòu)成詞的規(guī)則叫構(gòu)詞法,如教+師→教師。一個(gè)詞又有不同的詞形、單數(shù)、復(fù)數(shù)、陰性、陽(yáng)性等等。這種構(gòu)造詞形的規(guī)則稱為構(gòu)形法,如教師+們→教師們。這里只是在原來(lái)的詞后面加上一個(gè)復(fù)數(shù)意義的詞素,所構(gòu)成的并不是一個(gè)新的詞,而是同一詞的復(fù)數(shù)形式。構(gòu)形法和構(gòu)詞法稱為詞法。
第4頁(yè),共63頁(yè),2024年2月25日,星期天語(yǔ)法中的另一部分就是句法。句法也可分成兩部分:詞組構(gòu)造法和造句法。詞組構(gòu)造法是詞搭配成詞組的規(guī)則,如紅+鉛筆→紅鉛筆。這里“紅”是一個(gè)修飾鉛筆的形容詞,它與名詞“鉛筆”組合成了一個(gè)新的名詞。造句法則是用詞或詞組造句的規(guī)則,“我是計(jì)算機(jī)科學(xué)系的學(xué)生”,這是按照漢語(yǔ)造句法構(gòu)造的句子。下圖就是上述語(yǔ)法構(gòu)造的一個(gè)完整的圖解。另一方面,語(yǔ)言是音義結(jié)合的,每個(gè)詞匯有其語(yǔ)音形式。一個(gè)詞的發(fā)音由一個(gè)或多個(gè)音節(jié)組合而成,音節(jié)又由音素構(gòu)成,音素分為元音音素和輔音音素。音素是指一個(gè)發(fā)音動(dòng)作所構(gòu)成的最小的語(yǔ)音單位。第5頁(yè),共63頁(yè),2024年2月25日,星期天
語(yǔ)言
詞匯語(yǔ)法
詞熟語(yǔ)詞法句法詞素構(gòu)詞法詞組構(gòu)造法造句法構(gòu)形法語(yǔ)言的構(gòu)成圖第6頁(yè),共63頁(yè),2024年2月25日,星期天
從微觀上講,語(yǔ)言理解是指從自然語(yǔ)言到計(jì)算機(jī)系統(tǒng)內(nèi)部之間的一種映射。從宏觀上看,語(yǔ)言理解是指機(jī)器能夠執(zhí)行人類所期望的某些語(yǔ)言功能。這些功能包括:
(1)回答有關(guān)提問(wèn);
(2)提取材料摘要;
(3)文本釋義;
(4)不同語(yǔ)言翻譯。自然語(yǔ)言理解是語(yǔ)言學(xué)、邏輯學(xué)、生理學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)等相關(guān)學(xué)科發(fā)展和結(jié)合而形成的一門(mén)交叉學(xué)科;它能夠理解口頭語(yǔ)言或書(shū)面語(yǔ)言。語(yǔ)言交流實(shí)際上是一種基于知識(shí)的通信。
第7頁(yè),共63頁(yè),2024年2月25日,星期天
對(duì)自然語(yǔ)言的理解是一個(gè)十分艱難的任務(wù),即使建立一個(gè)只能理解片言斷語(yǔ)的計(jì)算機(jī)系統(tǒng),也是很不容易的。這中間有大量的極為復(fù)雜的編碼和解碼問(wèn)題。一個(gè)能夠理解自然語(yǔ)言的計(jì)算機(jī)系統(tǒng)就像一個(gè)人那樣需要上下文知識(shí)以及根據(jù)這些知識(shí)和信息進(jìn)行推理的過(guò)程。自然語(yǔ)言不僅有語(yǔ)義、語(yǔ)法和語(yǔ)音問(wèn)題,而且還存在模糊性等問(wèn)題。具體地說(shuō),自然語(yǔ)言理解的困難是由下列3個(gè)因素引起的:
(1)目標(biāo)表示的復(fù)雜性;
(2)映射類型的多樣性;
(3)源表達(dá)中各元素間交互程度的差異性。
第8頁(yè),共63頁(yè),2024年2月25日,星期天第9頁(yè),共63頁(yè),2024年2月25日,星期天第10頁(yè),共63頁(yè),2024年2月25日,星期天第11頁(yè),共63頁(yè),2024年2月25日,星期天第12頁(yè),共63頁(yè),2024年2月25日,星期天10.1.4自然語(yǔ)言理解研究的進(jìn)展
機(jī)器翻譯是自然語(yǔ)言理解最早的研究領(lǐng)域。
70年代初期,語(yǔ)言理解對(duì)話系統(tǒng)的研究取得進(jìn)展。伍茲的LUNAR系統(tǒng)、威諾甘德的SHRDLU系統(tǒng)和香農(nóng)的MARGIE系統(tǒng)等是語(yǔ)言理解對(duì)話系統(tǒng)的典型實(shí)例。新型的智能計(jì)算機(jī)要求設(shè)計(jì)出更為友好的人機(jī)界面,使自然語(yǔ)言、文字、圖象和聲音等信號(hào)能直接輸入計(jì)算機(jī)??谡Z(yǔ)理解研究促進(jìn)人機(jī)對(duì)話系統(tǒng)走向?qū)嵱没?。自然語(yǔ)言是表示知識(shí)最為直接的方法。因此,自然語(yǔ)言理解的研究也為專家系統(tǒng)的知識(shí)獲取提供了新的途徑。此外,自然語(yǔ)言理解的研究已促進(jìn)計(jì)算機(jī)輔助語(yǔ)言教學(xué)(CALI)和計(jì)算機(jī)語(yǔ)言設(shè)計(jì)(CLD)等的發(fā)展。第13頁(yè),共63頁(yè),2024年2月25日,星期天10.1.5自然語(yǔ)言理解過(guò)程的層次
語(yǔ)言雖然表示成一連串的文字符號(hào)或者一串聲音流,但其內(nèi)部事實(shí)上是一個(gè)層次化的結(jié)構(gòu),從語(yǔ)言的構(gòu)成中就可以清楚的看到這種層次性。一個(gè)文字表達(dá)的句子是由詞素→詞或詞形→詞組或句子,而用聲音表達(dá)的句子則是由音素→音節(jié)→音詞→音句,其中每個(gè)層次都是受到語(yǔ)法規(guī)則的制約。因此,語(yǔ)言的分析和理解過(guò)程也應(yīng)當(dāng)是一個(gè)層次化的過(guò)程。許多現(xiàn)代語(yǔ)言學(xué)家把這一過(guò)程分為5個(gè)層次:語(yǔ)音分析、詞法分析、句法分析和語(yǔ)義分析和語(yǔ)用分析。雖然這種層次之間并非是完全隔離的,但是這種層次化的劃分的確有助于更好地體現(xiàn)語(yǔ)言本身的構(gòu)成。第14頁(yè),共63頁(yè),2024年2月25日,星期天
1、語(yǔ)音分析在有聲語(yǔ)言中,最小可獨(dú)立的聲音單元是音素,音素是一個(gè)或一組音,它可與其他音素相區(qū)別。語(yǔ)音分析則是根據(jù)音位規(guī)則,從語(yǔ)音流中區(qū)分出一個(gè)個(gè)獨(dú)立的音素,再根據(jù)音位形態(tài)規(guī)則找出一個(gè)個(gè)音節(jié)及其對(duì)應(yīng)的詞素或詞。
2、詞法分析
其主要目的是找出詞匯的各個(gè)詞素。如unchangeable是由un-change-able構(gòu)成的。在英語(yǔ)語(yǔ)言中,找出句子中的詞匯是一件很容易的事,因?yàn)樵~與詞之間是由空格來(lái)分隔的。但要找出各個(gè)詞素就復(fù)雜得多,如importable,它可以是im-port-able或improt-able。而在漢語(yǔ)中要找出一個(gè)個(gè)詞素則是很容易的,每個(gè)字就是一個(gè)詞素。但要切分出各個(gè)詞就遠(yuǎn)不是那么容易。如“我們研究所有東西”,可以是“我們—研究所—有—東西”也可以是“我們—研究—所有—東西”。第15頁(yè),共63頁(yè),2024年2月25日,星期天
3、句法分析
是對(duì)句子和短語(yǔ)的結(jié)構(gòu)進(jìn)行分析。自動(dòng)句法分析的方法很多,有短語(yǔ)結(jié)構(gòu)語(yǔ)法、格語(yǔ)法、擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)、功能語(yǔ)法等等。句法分析的目的就是找出詞、短語(yǔ)等的相互關(guān)系以及各自在句子中的作用等,并以一種層次結(jié)構(gòu)來(lái)加以表達(dá)。這種層次結(jié)構(gòu)可為反映從屬關(guān)系,直接成分關(guān)系,也可是語(yǔ)法功能關(guān)系。
4、語(yǔ)義分析
通過(guò)分析找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定語(yǔ)言所表達(dá)的真正含義或概念。在語(yǔ)言自動(dòng)理解中,語(yǔ)義愈來(lái)愈成為一個(gè)重要的研究?jī)?nèi)容。
5、語(yǔ)用分析
研究所在外界環(huán)境對(duì)語(yǔ)言使用所產(chǎn)生的影響。描述了語(yǔ)言的環(huán)境知識(shí)、語(yǔ)言與語(yǔ)言使用者在某個(gè)給定語(yǔ)言環(huán)境中的關(guān)系。第16頁(yè),共63頁(yè),2024年2月25日,星期天
詞法分析的主要目的是從句子中切分出單詞,找出詞匯的各個(gè)詞素,從中獲得單詞的語(yǔ)言學(xué)信息并確定單詞的詞義。不同的語(yǔ)言對(duì)詞法分析有不同的要求,例如英語(yǔ)和漢語(yǔ)就有較大的差別。漢語(yǔ)中每個(gè)字就是一個(gè)詞素,找出各個(gè)詞素相當(dāng)容易,但要切分出各個(gè)詞就非常困難。在英語(yǔ)中單詞之間用空格自然分開(kāi),很容易找出句子的每個(gè)詞匯,但英語(yǔ)單詞有詞性、數(shù)、時(shí)態(tài)、派生、變形等,要找出各個(gè)詞素就復(fù)雜得多。例如program可變化出programming,programmable,programmed,programs和programmer等。如果把某些詞素的派生、變形、數(shù)、時(shí)態(tài)等變化都收入詞典將是非常龐大,但它們的詞根只有一個(gè)。支持詞素分析,可以極大地壓縮自然語(yǔ)言理解系統(tǒng)中電子詞典的規(guī)模。第17頁(yè),共63頁(yè),2024年2月25日,星期天第18頁(yè),共63頁(yè),2024年2月25日,星期天
10.3
句法分析
句法分析目的就是找出詞、短語(yǔ)等的相互關(guān)系以及各自在句子中的作用,并以一種層次結(jié)構(gòu)來(lái)加以表達(dá)。下面介紹基于規(guī)則的句法分析方法:
第19頁(yè),共63頁(yè),2024年2月25日,星期天
一部短語(yǔ)結(jié)構(gòu)語(yǔ)法定義的語(yǔ)言L(G)就是從起始符S推導(dǎo)出終結(jié)符號(hào)串W的集合,是由一系列產(chǎn)生式規(guī)則組成的。下面給出一個(gè)簡(jiǎn)單的短語(yǔ)結(jié)構(gòu)語(yǔ)法。
例10.1
G=(T,N,S,P)
T={the,man,killed,a,deer,likes}N={S,NP,VP,N,ART,V,Prep,PP}S=SP:(1)S→NP+VP(2)NP→N(3)NP→ART+N(4)VP→V(5)VP→V+NP(6)ART→the|a(7)N→man|deer(8)V→killed|likes第20頁(yè),共63頁(yè),2024年2月25日,星期天10.3.3句法模式匹配和轉(zhuǎn)移網(wǎng)絡(luò)
句法分析最為簡(jiǎn)單、直觀的方法也許就是模式匹配。句法模式匹配就是采用句法模式來(lái)對(duì)語(yǔ)言的句子進(jìn)行匹配從而進(jìn)行的句法分析。例如:bearslovehoney可用句法模式noun+verb+noun來(lái)匹配;句子的主語(yǔ)有許多模式noun,adj.+noun,adj.+adj.+noun,adj.+adj.+adj+noun,…,對(duì)此可采用形式化的表達(dá)方式(adj.*noun),其中*表示可有可無(wú)且可重復(fù)出現(xiàn)。一個(gè)句子可以表示成:(pronoun∨(adj.*noun))verb(pronoun∨(adj.*noun))第21頁(yè),共63頁(yè),2024年2月25日,星期天轉(zhuǎn)移網(wǎng)絡(luò)(TN)q0nounpron.q2q1adjq3qTverbverbpron.nounq4q5adj但是自然語(yǔ)言是非常多樣化的,因而需要有許多模式。這些模式可用狀態(tài)轉(zhuǎn)移圖來(lái)表示,這種用狀態(tài)轉(zhuǎn)移圖來(lái)表示的表達(dá)方式稱之為轉(zhuǎn)移網(wǎng)絡(luò)(TN,transitionnetwork)。如下圖所示,圖中,q0,q1,…,qT是狀態(tài),q0是初態(tài),qT是終態(tài)?;∩辖o出了狀態(tài)轉(zhuǎn)移的條件以及轉(zhuǎn)移的方向。該網(wǎng)絡(luò)可用于分析句子也可用于生成句子。第22頁(yè),共63頁(yè),2024年2月25日,星期天用TN來(lái)識(shí)別句子Thelittleorangeducksswallow
flies的過(guò)程如表10.1。(這里忽略了詞法分析,網(wǎng)絡(luò)如圖所示)表10.1句子識(shí)別過(guò)程
第23頁(yè),共63頁(yè),2024年2月25日,星期天識(shí)別過(guò)程到達(dá)f狀態(tài)(終態(tài)),所以該句子被成功地識(shí)別了。分析結(jié)果如下圖所示。從上述過(guò)程中可以看出,這個(gè)句子還可以在網(wǎng)絡(luò)中走其他弧,如詞ducks也可以走弧,但接下來(lái)的swallow就找不到合適的弧了。此時(shí)對(duì)應(yīng)于這個(gè)路徑,該句子就被拒識(shí)了。由此看出,網(wǎng)絡(luò)識(shí)別的過(guò)程中應(yīng)找出各種可能的路徑,因此算法要采用并行或回溯機(jī)制。
轉(zhuǎn)移網(wǎng)絡(luò)實(shí)例圖第24頁(yè),共63頁(yè),2024年2月25日,星期天
1.并行算法
并行算法的關(guān)鍵是在任何一個(gè)狀態(tài)都要選擇所有可以到達(dá)下一個(gè)狀態(tài)的弧,同時(shí)進(jìn)行試驗(yàn)。
2.回溯算法
回溯算法則是在所有可以通過(guò)的弧中選出一條往下走,并保留其他的可能性,以便必要時(shí)可回過(guò)來(lái)選擇之。這種方式需要一個(gè)堆棧結(jié)構(gòu)。轉(zhuǎn)移網(wǎng)絡(luò)實(shí)例圖第25頁(yè),共63頁(yè),2024年2月25日,星期天10.3.4擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)
擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)ATN是由伍茲(Woods)在1970年提出的,之后卡普蘭(Kaplan)等人對(duì)其作了一些改進(jìn)。ATN是由一組網(wǎng)絡(luò)所構(gòu)成的,每個(gè)網(wǎng)絡(luò)都有一個(gè)網(wǎng)絡(luò)名,每條弧上的條件擴(kuò)展為條件加上操作。這種條件和操作采用寄存器的方法來(lái)實(shí)現(xiàn),在分析樹(shù)的各個(gè)成分結(jié)構(gòu)上都放上寄存器,用來(lái)存放句法功能和句法特征,條件和操作將對(duì)它們不斷地進(jìn)行訪問(wèn)和設(shè)置。ATN弧上的標(biāo)記也可以是其他網(wǎng)絡(luò)的標(biāo)記名,因此ATN是一種遞歸網(wǎng)絡(luò)(任何一個(gè)網(wǎng)絡(luò)都可以調(diào)用包括它自己在內(nèi)的任何其他網(wǎng)絡(luò))。在ATN中還有一種空弧jump,它不對(duì)應(yīng)一個(gè)句法成分也不對(duì)應(yīng)一個(gè)輸入詞匯。第26頁(yè),共63頁(yè),2024年2月25日,星期天
ATN的每個(gè)寄存器由兩部分構(gòu)成:句法特征寄存器和句法功能寄存器。在特征寄存器中,每一維特征都有一個(gè)特征名和一組特征值,以及一個(gè)缺省值來(lái)表示。如“數(shù)”的特征維可有兩個(gè)特征值“單數(shù)”和“復(fù)數(shù)”,缺省值可以是空值。英語(yǔ)中動(dòng)詞的形式可以用一維特征來(lái)表示:Form:present,past,present-participle,past-participle.Default:present.功能寄存器則反映了句法成分之間的關(guān)系和功能。分析樹(shù)的每個(gè)節(jié)點(diǎn)都有一個(gè)寄存器,寄存器的上半部分是特征寄存器,下半部分是功能寄存器。圖10.5所示是一個(gè)簡(jiǎn)單的名詞短語(yǔ)(NP)的擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò),網(wǎng)絡(luò)中弧上的條件和操作如下:第27頁(yè),共63頁(yè),2024年2月25日,星期天NP-1:fg
A:Number*.NumberNP-4:ghC:Number=*.NumberorφA:Number*.NumberNP-5:fhA:Number*.NumberNP-6:fh
A:Number=*.Number
ghfNP7:pp8:send3:adj4:noun2:jump1:det5:pron.6:prop.名詞短語(yǔ)(NP)的擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)第28頁(yè),共63頁(yè),2024年2月25日,星期天
該網(wǎng)絡(luò)主要是用來(lái)檢查NP中的數(shù)的一致值問(wèn)題。其中用到的特征是Number(數(shù)),它有兩個(gè)值Singular(單數(shù))和plural(復(fù)數(shù)),缺省值是φ(空)。C是弧上的條件,A是弧上的操作,*是當(dāng)前詞,proper是專用名詞,Det是限定詞,PP是介詞短語(yǔ),*.Number當(dāng)前詞的“數(shù)”。該擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)有一個(gè)網(wǎng)絡(luò)名NP。弧NP-1將當(dāng)前詞的Number放入當(dāng)前NP的Number中,而弧NP-4則要求當(dāng)前noun的Number與NP的Number是相同時(shí),或者NP的Number為空時(shí),將noun作為NP的Number,這就要求det的數(shù)和noun的數(shù)是一致的。因此,thisbook,thebook,thebooks,thesebooks都可順利通過(guò)這一網(wǎng)絡(luò),但是thisbooks,或thesebook就無(wú)法通過(guò)。如果當(dāng)前NP是一個(gè)代詞(Pron.)或者專用名詞(Proper),則網(wǎng)絡(luò)就從NP-5或NP-6通過(guò),這時(shí)NP的數(shù)就是代詞或?qū)S妹~的數(shù)。PP是修飾前面名詞的介詞短語(yǔ),一旦到達(dá)PP弧就馬上轉(zhuǎn)入子網(wǎng)絡(luò)PP。第29頁(yè),共63頁(yè),2024年2月25日,星期天
S網(wǎng)絡(luò)中所涉及的功能名和特征維包括:
功能名:Subject(主語(yǔ)),DirectObj(直接賓語(yǔ)),Main-Verb(謂語(yǔ)動(dòng)詞),Auxs(助動(dòng)詞),Modifiers(修飾語(yǔ))。
Voice(語(yǔ)態(tài))特征維:Active(主動(dòng)態(tài)),Passive(被動(dòng)態(tài)),缺省值是Actire;
Type(動(dòng)詞類型):Be,Do,Have,Modal,Non-Aux,缺省值是Non-Aux;
Form(動(dòng)詞式):Inf(不定式),Present(現(xiàn)在式),Past(過(guò)去式),pres-part(現(xiàn)在分詞),Past-Part(過(guò)去分詞),缺省值是Present
下圖是一個(gè)句子的ATN,主要用來(lái)識(shí)別主、被動(dòng)態(tài)的句子,從中可以看到功能寄存器的應(yīng)用第30頁(yè),共63頁(yè),2024年2月25日,星期天網(wǎng)絡(luò)描述如下:S-1:ab
A:Subject*.S-2:bc
A:Main-Verb*.S-3:cc(判斷謂詞動(dòng)詞類型)
C:Main-Verb.Type=Be,Do,HaveorModal
A:Auxs<=Main-Verb,Main-Verb*.S-4:cd
C:*.Form=Past-partandMain-Verb.Type=Be
A:Voice←Passive,Auxs<=Main-Verb,
Main-Verb←*.,*.Direct-Obj←Subject,
Subject←dummy-NP(形式主語(yǔ),可能暫時(shí)為空節(jié)點(diǎn))第31頁(yè),共63頁(yè),2024年2月25日,星期天S-5:cd
A:Direct-Obj*.S-6:dd
A:Modifiers<=*.S-7:dd
C:Voice=PassiveandSubject=dummy-NPand*.Prep=“by”A:Subject*.Prep-ObjectS-8:dNoConditions,actionsorinitializations.
S-8是賦值操作
Subject*即把當(dāng)前成分放入名為Subject的功能寄存器。<=是一種添加操作,Auxs<=Main-Verb就是將當(dāng)前的謂語(yǔ)動(dòng)詞添加到Auxs功能寄存器中(原來(lái)Auxs可能已有內(nèi)容)。第32頁(yè),共63頁(yè),2024年2月25日,星期天
S網(wǎng)絡(luò)中,當(dāng)弧S-2遇到第一個(gè)動(dòng)詞時(shí),就把它置入Main-Verb,但是在接下來(lái)的弧S-3中發(fā)現(xiàn)Main-Verb中剛才被置入的是助動(dòng)詞,網(wǎng)絡(luò)操作就把Main-Verb中的內(nèi)容添加到Auxs寄存器的尾部。若Auxs是空時(shí),添加操作與賦值是相同的,但是當(dāng)Auxs非空時(shí)(有幾個(gè)助動(dòng)詞)這是一個(gè)添加操作。另外,網(wǎng)絡(luò)中有一種dummy節(jié)點(diǎn),這是一種空節(jié)點(diǎn),用來(lái)表示一種形式上的或者預(yù)示的成分,如形式上的主語(yǔ)等。弧S-4和S-7就是對(duì)于被動(dòng)態(tài)句子的分析和處理?;-4主要是識(shí)別被動(dòng)態(tài)的謂語(yǔ)動(dòng)詞,一旦確認(rèn)是被動(dòng)態(tài),則將當(dāng)前的主語(yǔ)作為直接賓語(yǔ),弧S-7是處理被動(dòng)態(tài)句子中by所引導(dǎo)的介詞短語(yǔ),該介詞的賓語(yǔ)就是實(shí)際上的主語(yǔ)。第33頁(yè),共63頁(yè),2024年2月25日,星期天
一完整的ATN是相當(dāng)復(fù)雜的,在實(shí)現(xiàn)過(guò)程中還必須解決許多問(wèn)題,如非確定性分析、弧的順序、等等。ATN方法在自然語(yǔ)言理解的研究中得到了廣泛的應(yīng)用。10.3.5詞匯功能語(yǔ)法(LFG)
詞匯功能語(yǔ)法是由卡普蘭和布魯斯南在1982年提出的,它是一種功能語(yǔ)法,但是更加強(qiáng)調(diào)詞匯的作用。LFG用一種結(jié)構(gòu)來(lái)表達(dá)特征、功能、詞匯和成分的順序。ATN語(yǔ)法和轉(zhuǎn)換語(yǔ)法都是有方向性的,ATN語(yǔ)法的條件和操作要求語(yǔ)法的使用是有方向的,因?yàn)榧拇嫫髦挥性诒辉O(shè)置過(guò)之后才可被訪問(wèn)。LFG的一個(gè)重要工作就是通過(guò)互不矛盾的多層描述來(lái)消除這種有序性限制。
第34頁(yè),共63頁(yè),2024年2月25日,星期天
LFG對(duì)句子的描述分為兩部分:直接成分結(jié)構(gòu)(Constituentstructure)和功能結(jié)構(gòu)(Functionalstructure)。C-structure是由上下文無(wú)關(guān)語(yǔ)法產(chǎn)生的表層分析結(jié)果,結(jié)點(diǎn)采用名詞短語(yǔ)標(biāo)記來(lái)標(biāo)注。通過(guò)附加到語(yǔ)法規(guī)則和詞條定義上的功能方程式經(jīng)過(guò)一系列代數(shù)變換產(chǎn)生F-structure。
LFG采用兩種規(guī)則:加入下標(biāo)的上下文無(wú)關(guān)的語(yǔ)法規(guī)則和詞條信息。下表給出了一些詞匯功能語(yǔ)法的規(guī)則和詞條信息。
其中↑表示規(guī)則左側(cè)的那個(gè)結(jié)點(diǎn),如規(guī)則中NP的↑就是S,VP的↑也是S;↓則表示當(dāng)前結(jié)點(diǎn)結(jié)點(diǎn)本身。因此,(↑Subject)=↓就表示S的主語(yǔ)是當(dāng)前NP。方程式↑=↓說(shuō)明VP的全部屬性都應(yīng)轉(zhuǎn)移給支配它的S結(jié)點(diǎn)。“<>”中表達(dá)的是句法模式,Hand=<(↑Subject),(↑Object),(↑Object-2)>,表示謂語(yǔ)動(dòng)詞hand要有一個(gè)主語(yǔ)、一個(gè)直接賓語(yǔ)和一個(gè)間接賓語(yǔ)。例如,對(duì)于句子:Agirlhandedthebabythetoys.
第35頁(yè),共63頁(yè),2024年2月25日,星期天LFG語(yǔ)法規(guī)則與詞條語(yǔ)法規(guī)則第36頁(yè),共63頁(yè),2024年2月25日,星期天首先利用句法規(guī)則可以推導(dǎo)出它的C-structure直接成分結(jié)構(gòu)如下圖所示:句法樹(shù)中帶標(biāo)號(hào)的非葉結(jié)點(diǎn),用具體的變量xi替代,并建立功能描述方程。方程的建立只要將語(yǔ)法規(guī)則和詞條規(guī)則中的↑用父節(jié)點(diǎn)變量來(lái)替代,↓用當(dāng)前節(jié)點(diǎn)變量來(lái)代替即可。第37頁(yè),共63頁(yè),2024年2月25日,星期天規(guī)則S→NPVP的下標(biāo)有兩組方程:一個(gè)是(↑Subject)=↓,替換得到(x1Subject)=x2;另一個(gè)是↑=↓,即x1=x3。在詞匯規(guī)則中,詞a對(duì)應(yīng)了兩條規(guī)則
(↑Definiteness)=Indefinite,(↑Number)=Singular,詞a的父節(jié)點(diǎn)是NP,即x2,所以得到方程式
(x2Definiteness)=Indefinite,(x2Number)=Singular其他功能描述方程如下表所示:第38頁(yè),共63頁(yè),2024年2月25日,星期天上述方程式通過(guò)合并和變量替代求得這個(gè)方程組的解,獲得的解即句子的功能結(jié)構(gòu)(F-structure),如下圖所示。第39頁(yè),共63頁(yè),2024年2月25日,星期天上述過(guò)程如果能夠得到一組以上解,則句子就是可識(shí)別的,并獲得一個(gè)以上分析結(jié)果。分析獲得多個(gè)解則說(shuō)明原句子中存在著歧義現(xiàn)象,無(wú)解則說(shuō)明無(wú)法識(shí)別。
LFG同樣也可以用于句子的生成。分析和生成的區(qū)別僅在于第一步,分析是由句子到C-structure,而生成則是由上下文無(wú)關(guān)語(yǔ)法直接產(chǎn)生C-structure和句子。同樣如果通過(guò)求解最終可有一個(gè)以上的解,則該句子就是正確的。第40頁(yè),共63頁(yè),2024年2月25日,星期天句子一般有簡(jiǎn)單句和復(fù)合句之分。簡(jiǎn)單句的理解比復(fù)合句要容易,又是理解復(fù)合句的基礎(chǔ)。因此,我們首先討論簡(jiǎn)單句的理解,然后討論復(fù)合句的理解。10.5.1
簡(jiǎn)單句的理解方法
由于簡(jiǎn)單句是可以獨(dú)立存在,因而為了理解一個(gè)簡(jiǎn)單句,即建立起一個(gè)和該簡(jiǎn)單句相對(duì)應(yīng)的機(jī)內(nèi)表達(dá),需要做以下兩方面的工作:
(1)理解語(yǔ)句中的每一個(gè)詞。
(2)用這些詞組成一個(gè)可表達(dá)整個(gè)語(yǔ)句意義的結(jié)構(gòu)。
第一項(xiàng)工作看起來(lái)很容易,似乎只是查一下字典就可以解決。而實(shí)際上由于許多單詞有不止一種含義,因而只由單詞本身往往不能確定其在句中的確切含義,需要通過(guò)語(yǔ)法分析和上下關(guān)系等才能最終確定。10.5
句子的自動(dòng)理解第41頁(yè),共63頁(yè),2024年2月25日,星期天例如,單詞diamond有“菱形”、“棒球場(chǎng)”和“鉆石”三種意思,在語(yǔ)句“JohnsawSusan′sdiamondshimmeringfromacrosstheroom.”中,由于“shimmering”的出現(xiàn),則顯然“diamond”是“鉆石”的含義,因?yàn)椤傲庑巍焙汀鞍羟驁?chǎng)”都不會(huì)閃光。再如在語(yǔ)句“I′llmeetyouatthediamond.”中,由于“at”后面需要一個(gè)時(shí)間或地點(diǎn)作為它的賓語(yǔ),因而顯然這里的“diamond”是“棒球場(chǎng)”的含義,而不能是其它含義。
第二項(xiàng)也是一個(gè)比較困維的工作。因?yàn)橐?lián)合單詞來(lái)構(gòu)成表示一個(gè)句子意義的結(jié)構(gòu),需要依賴各種信息源,其中包括所用語(yǔ)言的知識(shí)、語(yǔ)句所涉及領(lǐng)域的知識(shí)以及有關(guān)該語(yǔ)言使用者應(yīng)共同遵守的習(xí)慣用法的知識(shí)。第42頁(yè),共63頁(yè),2024年2月25日,星期天由于這個(gè)解釋過(guò)程涉及到許多事情,因而常常將這項(xiàng)工作分成以下3個(gè)部分來(lái)進(jìn)行:
句法分析
將單詞之間的線性次序變換成一個(gè)顯示單詞如何與其它單詞相關(guān)聯(lián)的結(jié)構(gòu)。
語(yǔ)義分析
各種意義被賦于由句法分析程序所建立的結(jié)構(gòu),即在句法結(jié)構(gòu)和任務(wù)領(lǐng)域內(nèi)對(duì)象之間進(jìn)行映射變換。
語(yǔ)用分析
為確定真正含義,研究語(yǔ)言所在的外界環(huán)境對(duì)語(yǔ)言使用所產(chǎn)生的影響。實(shí)際上這3個(gè)階段之間是相互關(guān)聯(lián)的,總是以各種方法相互影響著。盡管在某種程度上把它們分開(kāi)是有效的,但絕對(duì)分開(kāi)是不可能的。第43頁(yè),共63頁(yè),2024年2月25日,星期天
1.關(guān)鍵字匹配法最簡(jiǎn)單的自然語(yǔ)言理解方法,也許要算是關(guān)鍵字匹配法了,它在一些特定場(chǎng)合下是有效的。其方法簡(jiǎn)單歸納起來(lái)是這樣的:在程序中規(guī)定匹配和動(dòng)作兩種類型的樣本。然后建立一種由匹配樣本到動(dòng)作樣本的映射。當(dāng)輸入語(yǔ)句與匹配樣本相匹配時(shí),就去執(zhí)行相應(yīng)樣本所規(guī)定的動(dòng)作,這樣從外表看來(lái)似乎機(jī)器真正實(shí)現(xiàn)了能理解用戶問(wèn)話的目的。例如在一個(gè)列車(chē)運(yùn)行數(shù)據(jù)庫(kù)系統(tǒng)中,規(guī)定了以下幾個(gè)匹配樣本:第44頁(yè),共63頁(yè),2024年2月25日,星期天
(a)從<處所>到<處所>有<車(chē)種>嗎?
(b)從<處所>到<處所>有<?數(shù)量><車(chē)種>?
(c)從<處所>到<處所>有<?指數(shù)量><車(chē)種>?
(d)<車(chē)次>在<處所>停嗎?
(e)<車(chē)次>經(jīng)過(guò)<處所>嗎?
(f)<車(chē)次>有<車(chē)組>嗎?
(g)到<處所>的<車(chē)種>都有<車(chē)組>嗎?
(h)<車(chē)次><?原因>沒(méi)有<車(chē)組>?
(i)<車(chē)次><?原因>有<車(chē)組>?
(j)<車(chē)次><?時(shí)刻>從<處所>開(kāi)出?
(k)<車(chē)次><?時(shí)刻>到達(dá)<處所>?
(l)從<處所>到<處所><?指數(shù)量><車(chē)次>最快?第45頁(yè),共63頁(yè),2024年2月25日,星期天其中,<…>可與任何具有規(guī)定特性的單詞匹配,如<處所>可以和“北京”、“上?!钡缺硎镜攸c(diǎn)的單詞匹配;<車(chē)種>可以和“特快”、“直快”等匹配;<?數(shù)量>可與“幾趟”等匹配;<?指數(shù)量>可與“哪幾趟”等匹配;<車(chē)組>可與“餐車(chē)”、“臥鋪”等匹配,<?原因>可與“為什么”、“怎么”等匹配;<?時(shí)刻>可與“什么時(shí)候”、“幾點(diǎn)”等匹配。如果你輸入:“從北京到上海有特快嗎?”該語(yǔ)句剛好與第一個(gè)匹配樣本相匹配,從而系統(tǒng)也就“理解”了你的問(wèn)話,并去檢索數(shù)據(jù)庫(kù),查看從北京到上海是否有特快,然后給出回答。這種關(guān)鍵字匹配的方法,在類似的數(shù)據(jù)庫(kù)咨詢系統(tǒng)中作為自然語(yǔ)言接口,顯得特別有效。第46頁(yè),共63頁(yè),2024年2月25日,星期天
2.句法分析樹(shù)法關(guān)鍵字匹配法雖然簡(jiǎn)單,但卻忽略了語(yǔ)句中的大量信息,為確保語(yǔ)句含義的細(xì)節(jié)不被忽略,必須確定其語(yǔ)句結(jié)構(gòu)上的細(xì)節(jié),這就是要進(jìn)行文法分析。為此,必須首先給出說(shuō)明該特定語(yǔ)言中符號(hào)串結(jié)構(gòu)的文法,以便為每個(gè)符合文法規(guī)則的語(yǔ)句產(chǎn)生一個(gè)稱為文法分析樹(shù)的結(jié)構(gòu)。關(guān)于文法的形式,在許多自然語(yǔ)言處理程序中提出過(guò)很多各不相同的定義,下面我們給出一種文法的形式化定義。文法G在其形式上為如下的四元組:G=(V,T,P,S)其中,V為有窮非空集,稱作總詞匯表;T為V的一個(gè)非空子集,稱作終結(jié)字母表,而N=V-T稱作非終結(jié)字母表(不能出現(xiàn)在最終生成的句子中,是專門(mén)用于描述的語(yǔ)法);P為如下形式的有窮產(chǎn)生式規(guī)則集:α→β;S是起始符
第47頁(yè),共63頁(yè),2024年2月25日,星期天式中,α∈V*NV*,β∈V*,*表示它前面的字符可以重復(fù)出現(xiàn)任意次;S為非終結(jié)字母表的一個(gè)元素,稱為起始符。下面給出的是一個(gè)英語(yǔ)子集的簡(jiǎn)單文法:
S
NPVP(a)
NP
DetN(b)
VP
VNP(c)
VP
VPP(d)
PP
PrepNP(e)
Det
the|a(f)
N
Joe|girl|letter|pencil|boy|dog(g)
V
hit|write|kick(h)
Prep
with|at(i)
ADJS∈|ADJ|ADJS(j)
ADJ
little|big(k)
NP1
ADJSN(l)其中,大寫(xiě)為非終結(jié)符,而小寫(xiě)的是終結(jié)符,∈表示空字符串第48頁(yè),共63頁(yè),2024年2月25日,星期天下圖是對(duì)語(yǔ)句“Joehittheball.”進(jìn)行句法分析而建立的文法分析樹(shù)。第49頁(yè),共63頁(yè),2024年2月25日,星期天使用給定文法,對(duì)輸入語(yǔ)句進(jìn)行分析找到一個(gè)文法分析樹(shù)的過(guò)程,可以看成是一個(gè)搜索過(guò)程。為實(shí)現(xiàn)該過(guò)程,可以使用自頂向下的處理方法,這和正向推理有些相象:首先搜索對(duì)象從起始符S開(kāi)始,然后應(yīng)用P中的規(guī)則,用規(guī)則的右邊部分替換搜索對(duì)象,然后同被分析句子中的單詞進(jìn)行匹配比較,如果匹配,則從搜索對(duì)象和輸入句子的遺留部分繼續(xù)進(jìn)行搜索,一層一層地向下產(chǎn)生樹(shù)的各個(gè)分支,直到一個(gè)完整的句子結(jié)構(gòu)被生成出來(lái)為止。如果該結(jié)構(gòu)與輸入語(yǔ)句相匹配,則成功結(jié)束;否則,如果還沒(méi)有分析到句子末尾,而搜索對(duì)象已經(jīng)為空,這時(shí)就需要回溯,重新選擇適用規(guī)則,生成其它的句子結(jié)構(gòu),直到結(jié)束為止。
例:下面采用自頂向下回溯算法對(duì)句子“thegirlwritestheletterwithapencil”進(jìn)行分析。第50頁(yè),共63頁(yè),2024年2月25日,星期天搜索步驟搜索對(duì)象規(guī)則輸入句子中遺留部分(1)S
(a)
thegirlwritestheletterwithapencil(2)NPVP(b)thegirlwritestheletterwithapencil(3)DetNVP(f)thegirlwritestheletterwithapencil(4)theNVP刪除thegirlwritestheletterwithapencil(5)NVP(g)girlwritestheletterwithapencil(6)girlVP刪除girlwritestheletterwithapencil(7)VP(c)writestheletterwithapencil(8)VNP(h)writestheletterwithapencil(9)writesNP刪除writestheletterwithapencil(10)NP(b)theletterwithapencil(11)DetN(f)theletterwithapencil(12)theN刪除theletterwithapencil(13)N(g)letterwithapencil(14)letter刪除letterwithapencil(15)withapencil這時(shí),句子中還有遺留部分,但搜索對(duì)象中卻已變空,分析過(guò)程已無(wú)法繼續(xù),只得回溯?;厮莸降冢?)步,看看是否還能利用別的規(guī)則進(jìn)行分析。第51頁(yè),共63頁(yè),2024年2月25日,星期天(7’)VP(d)writestheletterwithapencil(16)VPP(c)writestheletterwithapencil(17)VNPPP
(h)writestheletterwithapencil(18)writesNPPP刪除writestheletterwithapencil(19)NPPP(b)theletterwithapencil(20)DetNPP(f)theletterwithapencil(21)theNPP刪除theletterwithapencil(22)NPP(g)letterwithapencil(23)letterPP刪除letterwithapencil(24)PP(e)withapencil(25)PrepNP(i)withapencil(26)withNP刪除withapencil(27)NP(b)apencil(28)DetN(f)apencil(29)aN刪除apencil(30)N(g)pencil(31)pencil刪除pencil(32)NILNIL第52頁(yè),共63頁(yè),2024年2月25日,星期天在應(yīng)用規(guī)則f、g、h、I、k對(duì)搜索對(duì)象進(jìn)行替換時(shí),由于規(guī)則的右邊有多個(gè)單詞可供選擇,這時(shí),可根據(jù)句子遺留部分的第一個(gè)單詞確定。也可以使用自底向上的處理方法,這和逆向推理有些相似:以輸入語(yǔ)句的句首詞為基礎(chǔ),首先從P中查找合適的規(guī)則逐級(jí)向上歸約(產(chǎn)生式倒過(guò)來(lái)用),試圖把這些詞歸并成較大的結(jié)構(gòu)成分,如短語(yǔ)或子句等,然后再對(duì)這些成分進(jìn)行進(jìn)一步的組合,反向生成文法分析樹(shù),直到樹(shù)的根節(jié)點(diǎn)是起始符S為止。本算法實(shí)際上分移進(jìn)、歸約兩個(gè)步驟。在移進(jìn)-歸約過(guò)程中信息以“棧”的形式存放,主要的操作有移進(jìn)、歸約、拒絕、接受。棧中存放著分析過(guò)程的有關(guān)“歷史”信息,分析時(shí)根據(jù)這些歷史信息和當(dāng)前正在處理的符號(hào)串來(lái)決定是移進(jìn)還是歸約。第53頁(yè),共63頁(yè),2024年2月25日,星期天
所謂移進(jìn),就是把一個(gè)尚未處理過(guò)的單詞符號(hào)移入棧頂,并等待更多的信息到來(lái)之后再做決定;所謂歸約,就是對(duì)棧頂?shù)哪切┡c某一語(yǔ)法規(guī)則右邊相匹配的符號(hào),用該語(yǔ)法規(guī)則左邊的符號(hào)來(lái)取代。用這兩種操作對(duì)棧中符號(hào)和輸入符號(hào)串進(jìn)行處理,直到輸入串處理完畢且棧中只剩初始符S時(shí),就認(rèn)為輸入符號(hào)串被接受。例:采用移進(jìn)-歸約算法對(duì)句子“theboykicksthedog”進(jìn)行自底向上的分析的過(guò)程如下:第54頁(yè),共63頁(yè),2024年2月25日,星期天
步驟棧操作輸入句子中遺留部分
(1)theboykicksthedog(2)the移進(jìn)boykicksthedog(3)Det用規(guī)則f歸約boykicksthedog(4)Detboy移進(jìn)kicksthedog(5)DetN用規(guī)則g歸約kicksthedog(6)NP用規(guī)則b歸約kicksthedog(7)NPkicks移進(jìn)thedog(8)NPV用規(guī)則h歸約thedog(9)NPVthe移進(jìn)dog(10)NPV
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 產(chǎn)后修復(fù)中心合同范本
- 勞務(wù)代管合同范本
- 加盟托管經(jīng)營(yíng)合同范本
- 出租吊車(chē)服務(wù)合同范本
- 單位代建房合同范例
- 2013版建設(shè)合同范本
- 單位監(jiān)控安裝合同范本
- 個(gè)人雇傭出海作業(yè)合同范本
- 加工貨款合同貨款合同范本
- 個(gè)人山林承包合同范本
- 2024版中山二手住宅交易合同指南2篇
- KULI軟件操作規(guī)范
- 五年級(jí)下冊(cè)數(shù)學(xué)課內(nèi)每日計(jì)算小紙條
- 《傳染病病人的護(hù)理》課件
- 2024年度中國(guó)寵物行業(yè)研究報(bào)告
- 工業(yè)自動(dòng)化控制系統(tǒng)升級(jí)與維護(hù)服務(wù)合同
- 定崗定編定員實(shí)施方案(5篇)
- 藥品經(jīng)營(yíng)質(zhì)量管理規(guī)范
- 爆破工程師培訓(xùn)
- 2024年云南省公務(wù)員考試《行測(cè)》真題及答案解析
- 教科版初中物理八年級(jí)下冊(cè)知識(shí)梳理
評(píng)論
0/150
提交評(píng)論