版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
3.1基本概念1第1頁,共152頁。信息的主要載體-語言語言的兩種形式-文字和聲音
文字和聲音作為語言的兩個(gè)不同形式的載體,所承載的信息占整個(gè)信息組成的90%以上。如何讓計(jì)算機(jī)實(shí)現(xiàn)人們希望實(shí)現(xiàn)的語言處理功能?
如何讓計(jì)算機(jī)真正實(shí)現(xiàn)海量的語言信息的自動(dòng)處理和有效利用?2第2頁,共152頁。自然語言處理(NaturalLanguageProcessing,簡稱NLP)是利用計(jì)算機(jī)為工具,對人類特有的書面形式和口頭形式的自然語言的信息進(jìn)行各種類型處理和加工的技術(shù)。
——馮志偉《自然語言的計(jì)算機(jī)處理》NLP是用計(jì)算機(jī)通過可計(jì)算的方法對自然語言的各級(jí)語言單位(字、詞、語句、篇章等)進(jìn)行轉(zhuǎn)換、傳輸、存儲(chǔ)、分析等加工處理的理論和方法。
3第3頁,共152頁。其它名稱
自然語言理解(NaturalLanguageUnderstanding)
計(jì)算語言學(xué)(ComputationalLinguistics)現(xiàn)代語言學(xué)的一大分支,它是用計(jì)算機(jī)理解、生成和處理自然語言,即它的研究范圍不僅涵蓋語言信息的處理,還包括語言的理解和生成。4第4頁,共152頁。研究語言的目的研究語言的目的為語言構(gòu)造出足夠精細(xì)的計(jì)算模型,以便能夠?qū)懗鲇捎?jì)算機(jī)程序來完成的涉及自然語言的各種任務(wù)。計(jì)算模型的用途作為科學(xué)研究的目的-可以探索語言交流的本質(zhì);作為實(shí)用的目的-能夠?qū)崿F(xiàn)有效的人機(jī)通信。終極目標(biāo)能夠給出一些模型,這些模型在完成閱讀、寫作、聽、說等任務(wù)時(shí)能夠接近人的行為。5第5頁,共152頁。
不關(guān)注與所使用的特定媒介相關(guān)的問題,例如手寫輸入、鍵盤輸入或語音輸入的問題。
關(guān)注在詞語識(shí)別完成后理解和使用語言的過程。
6第6頁,共152頁。NLP的20世紀(jì)50年代起步提出機(jī)器翻譯等重要問題50年代-60年代采用模式匹配法和文法分析方法對基于理解和基于統(tǒng)計(jì)方法的討論60年代后期衰落70-80年代采用了面向受限域的深入理解方法80年代后期至今統(tǒng)計(jì)方法占據(jù)主流大規(guī)模語料可用,計(jì)算機(jī)性能大幅提高互聯(lián)網(wǎng)的迅速發(fā)展為NLP提供了實(shí)驗(yàn)數(shù)據(jù)來源和新的應(yīng)用場景7第7頁,共152頁。3.2自然語言處理技術(shù)可以為我們做什么?1、信息檢索?微軟:106,000,000條(8年前2,060,000條)微軟,亞洲研究院:1,060,000條微軟,亞洲研究院,研究方向:116,000條微軟,亞洲研究院,自然語言處理:38,900條?08年7月一萬億個(gè)網(wǎng)頁,每天數(shù)十億增加?獲得的信息只有1%被有效利用8第8頁,共152頁?!翱颉庇?jì)算
“框計(jì)算”是年8月18日,百度董事長兼首席執(zhí)行官李彥宏在百度技術(shù)創(chuàng)新大會(huì)上所提出的全新技術(shù)概念。用戶只要在“百度框”中輸入服務(wù)需求,系統(tǒng)就能明確識(shí)別這種需求,并將該需求分配給最優(yōu)的內(nèi)容資源或應(yīng)用提供商處理,最終精準(zhǔn)高效地返回給用戶相匹配的結(jié)果。這種高度智能的互聯(lián)網(wǎng)需求交互模式,以及“最簡單可依賴”的信息交互實(shí)現(xiàn)機(jī)制與過程,稱之為“框計(jì)算”。9第9頁,共152頁。2、借助于語言信息處理的web智能10第10頁,共152頁。11第11頁,共152頁。微軟亞洲研究院——人立方12第12頁,共152頁。輸入“王菲”得到的人物關(guān)系圖第13頁,共152頁。Ex-1:Thespiritiswilling,butthefleshisweak.(心有余,而力不足。)譯:精神是愿意的,但骨肉是微弱的。(Systran,現(xiàn)在已經(jīng)能夠正確翻譯)Ex-2:3、機(jī)器翻譯14第14頁,共152頁。在網(wǎng)絡(luò)上輸入“問句”,自動(dòng)給出精確地答案。自動(dòng)問答系統(tǒng)的結(jié)構(gòu)三個(gè)模塊:提問處理模塊(Question-Processing);文獻(xiàn)處理模塊(Document-Processing);答案的提取和構(gòu)造模塊(AnswerExtractionandFormulation)。——馮志偉4、自動(dòng)問答系統(tǒng)15第15頁,共152頁。如“給我找出所有有關(guān)在1986年到1990年之間曾經(jīng)嘗試而最終失敗且金額超過1億美元的收買的文章。”處理方法:1、對數(shù)據(jù)庫的每篇文章建立一種表示形式2、這種表示形式能用于后續(xù)的推理5、復(fù)雜的檢索任務(wù)16第16頁,共152頁。輸入:美歐貿(mào)易摩擦升級(jí)識(shí)別結(jié)果:美歐貿(mào)易摩擦生機(jī)輸入:新技術(shù)的發(fā)展日新月異識(shí)別結(jié)果:新紀(jì)錄的發(fā)展日新月異6、語音識(shí)別17第17頁,共152頁。信息過濾,信息安全文摘生成問答系統(tǒng),人機(jī)交互語言教學(xué)文字輸入,文字編輯與排版語音翻譯網(wǎng)絡(luò)內(nèi)容管理與知識(shí)發(fā)現(xiàn)…
…
18第18頁,共152頁。1.3關(guān)于“理解”的理解
他說:“她這個(gè)人真有意思(funny)”。她說:“他這個(gè)人怪有意思的(funny)”。于是人們以為他們有了意思(wish),并讓他向她意思意思(express)。他火了:“我根本沒有那個(gè)意思(thought)”!她也生氣了:“你們這么說是什么意思(intention)”?事后有人說:“真有意思(funny)”。也有人說:“真沒意思(nonsense)”?!渡顖?bào)》1994.11.13.第六版19第19頁,共152頁。人腦對語言的理解是一個(gè)復(fù)雜的思維過程。自然語言理解技術(shù)同多個(gè)學(xué)科有著千絲萬縷的關(guān)系。語言學(xué):研究語言本身的結(jié)構(gòu)語言心理學(xué):研究人類生成和理解語言的過程邏輯學(xué):計(jì)算機(jī)科學(xué)人工智能數(shù)學(xué)與統(tǒng)計(jì)學(xué)…
…20第20頁,共152頁。一種測試機(jī)器是不是具備人類智能的方法。圖靈測試21第21頁,共152頁。1.4自然語言理解研究的基本問題研究的層次——語法學(xué):研究語句的組成結(jié)構(gòu),包括詞和短語
在語句中的作用等。為什么一句話可以這么說也可以那么說?22第22頁,共152頁。研究的層次——語義學(xué):研究如何從一個(gè)語句中推導(dǎo)詞的意義,以及這些詞在該語句中句法結(jié)構(gòu)中的作用來推導(dǎo)出該語句的意義。這句話說了什么?(1)今天中午我吃食堂。(2)這個(gè)人真牛。(3)這個(gè)人眼下沒些什么,那個(gè)人嘴不太好。23第23頁,共152頁。研究的層次——語用學(xué):研究在不同上下文中的語句的應(yīng)用,以及上下文對語句理解所產(chǎn)生的影響。為什么要說這句話?(1)火,火?。?)A:看看魚怎么樣了?
B:我剛才翻了一下。24第24頁,共152頁。自然語言理解的基本模型第25頁,共152頁。漢語的特點(diǎn):漢語是大字符集(GBK字符集)的意音文字(圖形符號(hào)既代表語素,又代表音節(jié)的文字系統(tǒng));漢語詞與詞之間沒有空格,沒有形態(tài)變化;漢語的同音詞較多;字形復(fù)雜;漢語的語法研究尚未規(guī)范化;漢語的語言學(xué)知識(shí)的量化與形式化工作滯后。1.5漢語的自然語言理解英語只有26個(gè)字母,中文卻有44908個(gè)漢字(《中華大辭典》)。英語有1500年《牛津英語辭典》收詞40多萬條。漢語長達(dá)六千多年《中華大辭典》收詞六十多萬條,比英語多50%。這一特性為漢字的輸入和計(jì)算機(jī)編碼造成了極大的困難。西方語言的形態(tài)對于計(jì)算機(jī)來說就是標(biāo)記;漢語以字為基本單位,詞之間沒有明顯的標(biāo)記,需要詞的切分,而分詞本身有一定的錯(cuò)誤率,降低了后續(xù)處理的實(shí)際效果。漢語詞本身沒有性、數(shù)、格、時(shí)態(tài)變化等形態(tài)標(biāo)志,給語義分析增加了困難。方塊漢字由象形文字演化而來,漢字字形的信息量較大,給計(jì)算機(jī)的內(nèi)部信息壓縮和文字顯示制造了困難。漢語句子中詞序雖同可能意義迥異;虛詞并非非用不可,特別是在口語里,虛詞更少,因此虛詞只能是解決詞與詞、句與句關(guān)系問題的輔助手段;“意合”包含著許多語言環(huán)境、語言背景和語言風(fēng)格知識(shí)以及缺省問題,如何全面把握有關(guān)意義的諸項(xiàng)要素,并把它形式化,是最大的難題。26第26頁,共152頁。1、交集型切分歧義問題乒乓球/拍賣/完/了乒乓球拍/賣/完/了/會(huì)通過對臺(tái)售武法案美/國會(huì)/通過對臺(tái)售武法案漢語自然語言理解的難點(diǎn)27第27頁,共152頁。2、未登錄詞(新詞)問題漢語詞典中未列入的詞包括:專有名詞:中文人名、地名、機(jī)構(gòu)名稱、外國譯名、時(shí)間詞重疊詞:高高興興派生詞:一次性用品專業(yè)術(shù)語:互聯(lián)網(wǎng)28第28頁,共152頁。3、詞性岐義問題多詞性和多詞義是語言的一種普遍現(xiàn)象,漢語這種現(xiàn)象比西方語言嚴(yán)重得多。和
根據(jù)《現(xiàn)代漢語詞典》,可以有五種讀音:he2;he4;hu2;huo2;huo4
六種詞性:名詞、形容詞、連詞、動(dòng)詞、介詞、量詞十六種不同的詞義29第29頁,共152頁。4、否定詞和語義上的混亂漢語上的否定詞“不”有時(shí)并不表示否定。相反,反而會(huì)更肯定。如:“可不是”比“可是”更可是。30第30頁,共152頁。5、漢語的岐義結(jié)構(gòu)(短語歧義)岐義結(jié)構(gòu)是句子自生固有的,必須在整個(gè)語境環(huán)境下才可能消歧,自動(dòng)消歧是很難的。彩色鉛筆盒子[彩色][鉛筆盒子][彩色鉛筆][盒子]他在看病
他在給別人看病
大夫給他看病31第31頁,共152頁。6、漢語的詞義岐義打乒乓球打打毛衣7、語用岐義你真討厭!第32頁,共152頁。1.6自然語言處理技術(shù)自然語言處理的過程33第33頁,共152頁。如何描述一種語言?窮舉:給出語言中所有的句子;只適合含有有限多個(gè)句子的語言。文法:給出可以生成語言中所有句子的方法;當(dāng)且僅當(dāng)能夠用該方法產(chǎn)生的句子屬于該語言。自動(dòng)機(jī):給出識(shí)別該語言中句子的機(jī)械方法;可以檢驗(yàn)輸入句子是否屬于該語言。第34頁,共152頁。按技術(shù)路線分為:基于語言學(xué)規(guī)則的語言處理技術(shù)基于統(tǒng)計(jì)的語言處理技術(shù)兩者結(jié)合
第35頁,共152頁。1、基于語言學(xué)規(guī)則的語言處理技術(shù)通過對語言學(xué)知識(shí)的形式化、形式化規(guī)則的算法化,以及算法實(shí)現(xiàn)等步驟將語言學(xué)知識(shí)轉(zhuǎn)化為計(jì)算機(jī)可以處理的形式。強(qiáng)調(diào)語言學(xué)家對語言現(xiàn)象的認(rèn)識(shí)。采用非歧義的規(guī)則形式描述或解釋歧義行為或歧義特性。理性主義方法36第36頁,共152頁。語言學(xué)家:撰寫“規(guī)則庫”(包括“詞典”)計(jì)算機(jī)學(xué)家:編寫算法程序,對“規(guī)則庫”進(jìn)行解釋和執(zhí)行。37第37頁,共152頁。2、基于統(tǒng)計(jì)的語言處理技術(shù)從大規(guī)模真實(shí)語料庫中獲得各級(jí)語言單位上的統(tǒng)計(jì)信息,并依據(jù)較低級(jí)語言單位上的統(tǒng)計(jì)信息,用相關(guān)的統(tǒng)計(jì)推理技術(shù)計(jì)算較高級(jí)語言單位上的統(tǒng)計(jì)信息。注重用數(shù)學(xué)方法—概率論與數(shù)理統(tǒng)計(jì)。能從代表自然語言規(guī)律的大規(guī)模真實(shí)文本中發(fā)現(xiàn)知識(shí),抽取語言現(xiàn)象或統(tǒng)計(jì)規(guī)律(從大量的語言數(shù)據(jù)中獲得語言的知識(shí)結(jié)構(gòu))。經(jīng)驗(yàn)主義方法38第38頁,共152頁。語言學(xué)家:建立“語料庫”——經(jīng)科學(xué)取樣和加工的大規(guī)模電子文本庫。存放的是在語言的實(shí)際使用中真實(shí)出現(xiàn)過的語言材料;
以電子計(jì)算機(jī)為載體承載語言知識(shí)的基礎(chǔ)資源;真實(shí)語料需要經(jīng)過加工(分析和處理),才能成為有用的資源。計(jì)算機(jī)學(xué)家:建立統(tǒng)計(jì)模型
利用語料庫訓(xùn)練模型參數(shù)編寫算法解決問題39第39頁,共152頁。二者區(qū)別——研究對象不同基于規(guī)則的方法主要研究人的語言知識(shí)結(jié)構(gòu),實(shí)際的語言數(shù)據(jù)只提供了這種內(nèi)在知識(shí)的間接證據(jù)?;诮y(tǒng)計(jì)的方法研究對象就是實(shí)際的語言數(shù)據(jù)。40第40頁,共152頁。二者區(qū)別——理論基礎(chǔ)不同基于規(guī)則的方法是基于喬姆斯基的語言理論的。通過語言所必須遵守的一系列原則來描述語言,以此判斷一個(gè)句子是正確的還是錯(cuò)誤的。基于統(tǒng)計(jì)的方法基于香農(nóng)的信息論。將語言事件賦予概率,作為其可信度,由此來判斷一個(gè)句子是常見的還是罕見的。41第41頁,共152頁。二者區(qū)別——范圍不同基于規(guī)則的方法通過對一些特定領(lǐng)域或范圍內(nèi)的語言現(xiàn)象的研究來得到對人的語言能力的認(rèn)識(shí),而這些語言現(xiàn)象在實(shí)際應(yīng)用中可能并不常見?;诮y(tǒng)計(jì)的方法偏重于對語料庫中人們實(shí)際使用的普通語言現(xiàn)象的統(tǒng)計(jì)表述。42第42頁,共152頁。二者區(qū)別——方法不同基于規(guī)則的方法:符號(hào)處理系統(tǒng)。基于統(tǒng)計(jì)的方法偏重于對語料庫中人們實(shí)際使用的普通語言現(xiàn)象的統(tǒng)計(jì)表述。43第43頁,共152頁。1.7基于語言學(xué)規(guī)則的語言處理技術(shù)規(guī)則舉例新詞抽取的常規(guī)規(guī)則:1、If(pos(A)=‘N’AND(pos(B)=‘V’ORpos(B)=‘A’orpos(B)=‘N’ORpos(B)=‘Q’))ThenABisnew
該規(guī)則表示:如果由兩個(gè)詞構(gòu)成的二元組中A為名詞,而B為動(dòng)詞或形容詞或名詞或量詞,則將該二元組做標(biāo)記,認(rèn)為是新詞。2、If(pos(A)=‘V’ANDpos(B)=‘A’)ThenABisnew
例如:減肥,模仿秀第44頁,共152頁。分詞結(jié)果中含詞數(shù)最少等價(jià)于在有向圖中搜索最短路徑方法:最小匹配算法分段;逐段統(tǒng)計(jì)最短路徑(dijkstra算法:用于計(jì)算一個(gè)節(jié)點(diǎn)到其他所有節(jié)點(diǎn)的最短路徑);得到若干分詞結(jié)果:發(fā)展/中/國家發(fā)展/中國/家;統(tǒng)計(jì)排歧。最少分詞問題45第45頁,共152頁。46第46頁,共152頁。按處理對象的不同,可分為:1、字處理技術(shù)2、詞處理技術(shù)詞是自然語言中最小的有意義的構(gòu)成單位,是最基本的研究對象。詞處理主要包括分詞、詞性標(biāo)注、詞義消歧。3、語句處理技術(shù)4、篇章處理技術(shù)47第47頁,共152頁?;谝?guī)則的句法分析理論和方法Chomsky的形式語言理論上下文無關(guān)文法轉(zhuǎn)移生成文法擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)48第48頁,共152頁。1、chomsky的形式語言理論第49頁,共152頁。第50頁,共152頁。第51頁,共152頁。第52頁,共152頁。用G表示形式語法,G定義為四元組:G=(Vn,Vt,S,P)(1)Vt:終結(jié)符集合。是一個(gè)形式語言的基本符號(hào)。它們能在一個(gè)形式語法的推導(dǎo)規(guī)則的輸入或輸出字符串存在,而且它們不能被分解成更小的單位。一個(gè)語法的規(guī)則不能改變終結(jié)符。下面的語法有兩個(gè)規(guī)則:x→xax→ax在這種語法之中,a是一個(gè)終結(jié)符,因?yàn)闆]有規(guī)則可以把a(bǔ)變成別的符號(hào)。不過,有兩個(gè)規(guī)則可以把x變成別的符號(hào),所以x是非終結(jié)符。一個(gè)形式語法所推導(dǎo)的形式語言必須完全由終結(jié)符構(gòu)成。短語結(jié)構(gòu)語法53第53頁,共152頁。(2)Vn:非終結(jié)符集合,是可以被取代的符號(hào),不能處于生成過程的終點(diǎn),即在實(shí)際句子中不出現(xiàn)。在上下文無關(guān)文法中,每個(gè)推導(dǎo)規(guī)則的左邊只能有一個(gè)非終結(jié)符而不能有兩個(gè)以上的非終結(jié)符或終結(jié)符。(3)S:起始符號(hào)。一個(gè)語法中必須有一個(gè)起始符號(hào),這個(gè)起始符號(hào)屬于非終結(jié)符的集合。(4)P:重寫規(guī)則,也叫做產(chǎn)生式規(guī)則集合(產(chǎn)生式的形式是P→a)。54第54頁,共152頁。采用短語結(jié)構(gòu)語法對英語子集語法的描述G=(Vn,Vt,S,P)Vn={S,NP,VP,PP,N,V,Prep,Det};Vt={the,girl,letter,pencil,write,witha};S=s;P:S→NPVP..........該規(guī)則表示“句子”由“名詞短語動(dòng)詞短語”組成NP→DetN...........該規(guī)則表示“名詞短語”由“冠詞名詞”組成VP→VPPP...........該規(guī)則表示“動(dòng)詞短語”由“動(dòng)詞短語介詞短語”組成55第55頁,共152頁。VP→VNP............該規(guī)則表示“動(dòng)詞短語”由“動(dòng)詞名詞短語”組成PP→PrepNP..........該規(guī)則表示“介詞短語”由“介詞名詞短語”組成Det→the|a...........該規(guī)則表示“冠詞”由the或a組成N→girl|letter|pencil............該規(guī)則表示“名詞”由girl或letter或pencil組成V→write............該規(guī)則表示“動(dòng)詞”由write組成Prep→with.........該規(guī)則表示“介詞”由with組成56第56頁,共152頁。在對一個(gè)句子分析過程中,如果把分析句子各成分間關(guān)系的推導(dǎo)過程用樹形圖表示出來的話,那么這種圖稱作句法分析樹。對句子“thegirlwritestheletterwithapencil”進(jìn)行分析的語法樹如下:句法分析樹語法樹中的葉子結(jié)點(diǎn)即為分析的句子。57第57頁,共152頁。例:已知漢語句子的分詞和詞性標(biāo)注結(jié)果如下:他/PRON教/V我/PRON學(xué)/V日語/N請畫出該句子的語法樹,并給出上下文無關(guān)規(guī)則。G=(Vt,Vn,S,P)Vn={S,PRON,V,OBJECT,N}Vt={他,教,我,學(xué),日語}S=SP:S→PRONVOBJECTOBJECT→N|SPRON→他|我V→教|學(xué)N→日語PRON—主語OBJECT—賓語58第58頁,共152頁。第59頁,共152頁。第60頁,共152頁。0型文法(type0grammar)第61頁,共152頁。上下文有關(guān)文法(CSG)如果所有產(chǎn)生式都有右邊部分長度大于等于左邊部分,那么G是上下文有關(guān)文法第62頁,共152頁。上下文無關(guān)文法(CFG)如果如果所有產(chǎn)生式的左邊部分都是單個(gè)非終極符號(hào),那么G是上下文無關(guān)文法第63頁,共152頁。正則文法(RG)第64頁,共152頁。如果所有產(chǎn)生式的右邊部分都是以終極符號(hào)開始、含有至多一個(gè)非終極符號(hào)、如果有非終極符號(hào)則出現(xiàn)在最右邊,那么G是正則文法。第65頁,共152頁。第66頁,共152頁。請判斷以下文法的類型G1: S→CD
Ab→bA
C→aCA Ba→aB
C→bCB
Bb→bB
AD→aD
C→a
BD→bD
D→b
Aa→bDG1是上下文有關(guān)文法第67頁,共152頁。請判斷以下文法的類型G2:S→aB, A→bAA
S→bA, B→b
A→a, B→bS
A→aS, B→aBBG2是上下文無關(guān)文法第68頁,共152頁。請判斷以下文法的類型G3:S→0A A→1B
S→1B B→1B
S→0B→1
A→0A B→0
A→0SG3是正則文法第69頁,共152頁。自動(dòng)機(jī)第70頁,共152頁。文法、語言和自動(dòng)機(jī)第71頁,共152頁。2、上下文無關(guān)文法第72頁,共152頁。第73頁,共152頁。第74頁,共152頁。第75頁,共152頁。第76頁,共152頁。第77頁,共152頁。第78頁,共152頁。第79頁,共152頁。第80頁,共152頁。第81頁,共152頁。第82頁,共152頁。第83頁,共152頁。第84頁,共152頁。第85頁,共152頁。第86頁,共152頁。3、轉(zhuǎn)換生成文法第87頁,共152頁。第88頁,共152頁。第89頁,共152頁。第90頁,共152頁。第91頁,共152頁。4、擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)第92頁,共152頁。(1)有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)以冠詞“The”開頭的一類名詞短語NP的轉(zhuǎn)移網(wǎng)絡(luò),它可以擁有零個(gè)或多個(gè)形容詞;最后以一個(gè)名詞結(jié)尾。組成:一組狀態(tài)(或稱結(jié)點(diǎn))和一組弧組成。例子:輸入“theprettypicture”。從起始狀態(tài)NP開始,只有一條標(biāo)注著“the”的外射弧。由于輸入串中的the能同它匹配,所以“the”從輸入串中刪除,過程進(jìn)入圖中的狀態(tài)NP1。此時(shí)輸入串是“prettypicture”,由于第一個(gè)“pretty”的詞類是ADJ,同標(biāo)注ADJ的弧匹配,于是“pretty”從輸入串中刪除,但沿著ADJ弧轉(zhuǎn)移的結(jié)果是再次回到這個(gè)NP1狀態(tài)。此時(shí)輸入串只剩下“picture”,由于它是一個(gè)名詞,因此發(fā)生了沿N弧前進(jìn)到結(jié)束狀態(tài)的轉(zhuǎn)移。輸入串成為空串,分析成功。第93頁,共152頁。第94頁,共152頁。這個(gè)句子的識(shí)別還可以在網(wǎng)絡(luò)中走其它弧,如由狀態(tài)c輸入“swallow”也可以走弧c→d,但接下來輸入“flies”時(shí)就被拒絕識(shí)別了。由此可看出網(wǎng)絡(luò)識(shí)別的過程應(yīng)找出各種可能的路徑,因此算法要采用并行算法或回溯算法。95第95頁,共152頁。(1)并行算法。并行算法的關(guān)鍵是在任何一個(gè)狀態(tài)都要選擇所有可以到達(dá)下一個(gè)狀態(tài)的弧,同時(shí)進(jìn)行試驗(yàn)。(2)回溯算法。回溯算法則是在所有可以通過的弧中選出一條往下走,并保留其他可能性,以便必要時(shí)可以回過來選擇之。這種方式需要一個(gè)堆棧結(jié)構(gòu)。第96頁,共152頁。第97頁,共152頁。(2)遞歸轉(zhuǎn)移網(wǎng)絡(luò)(RTN)是對有限轉(zhuǎn)移網(wǎng)絡(luò)的一種擴(kuò)展,在RTN中每條弧的標(biāo)注不僅可以是一個(gè)終結(jié)符(詞或詞類),而且可以是一個(gè)用來指明另一個(gè)網(wǎng)絡(luò)名字的非終結(jié)符。例如,下面是一部上下文無關(guān)語法:S→NPVNPPP*NP→TADJ*NPP*PP→PNPX*表示符號(hào)X可以出現(xiàn)零次或多次。第98頁,共152頁。第99頁,共152頁。(3)擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)(ATN)第100頁,共152頁。ATN語法屬于一種增強(qiáng)型的上下文無關(guān)語法,即用上下文無關(guān)文法描述句子文法結(jié)構(gòu),并同時(shí)提供有效的方式將各種理解語句所需要的知識(shí)加到分析系統(tǒng)中,以增強(qiáng)分析功能,從而使得應(yīng)用ATN的句法分析程序具有分析上下文有關(guān)語言的能力。ATN主要是對轉(zhuǎn)移網(wǎng)絡(luò)中的弧附加了過程而得到的。當(dāng)通過一個(gè)弧的時(shí)候,附加在該弧上的過程就會(huì)被執(zhí)行。這些過程的主要功能是(I)對文法特征進(jìn)行賦值;(II)檢查數(shù)(number)或人稱(第一、二或三人稱)條件是否滿足,并據(jù)此允許或不允許轉(zhuǎn)移。第101頁,共152頁。ATN在三方面對RTN作了擴(kuò)展和增強(qiáng):(1)添置了一組寄存器,用來存儲(chǔ)分析過程中得到的中間結(jié)果和有關(guān)信息。例如,“小王研究魯迅的文章”可能先被分析為NP+VP,但發(fā)現(xiàn)后面的詞是“發(fā)表”,則要回到前面的某個(gè)轉(zhuǎn)移點(diǎn)重新分析,選擇另一條路。第102頁,共152頁。(2)每條弧上除了用句法范疇來標(biāo)注以外,可以附加任意測試,只有當(dāng)弧上的這種測試成功之后才能用這條弧。第103頁,共152頁。(3)每條弧上還可以附加某些動(dòng)作,當(dāng)通過一條弧時(shí),相應(yīng)的動(dòng)作便被依次執(zhí)行,這些動(dòng)作主要用來設(shè)置或修改寄存器的內(nèi)容。第104頁,共152頁。
例:一個(gè)簡單的名詞短語(NP)的擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò),
網(wǎng)絡(luò)中弧上的條件和操作如下所示:第105頁,共152頁。該網(wǎng)絡(luò)主要是用來檢查NP中的數(shù)的一致值問題。特征是Number(數(shù)),有兩個(gè)值:singular(單數(shù))和plural(復(fù)數(shù)),缺省值是
(空)。C是弧上的條件,A是弧上的操作,*是當(dāng)前詞,proper是專用名詞,det是限定詞,PP是介詞短語,*.Number是當(dāng)前詞的“數(shù)”。該擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)有一個(gè)網(wǎng)絡(luò)名NP。網(wǎng)絡(luò)NP可以是其他網(wǎng)絡(luò)的一個(gè)子網(wǎng)絡(luò),也可以包含其他網(wǎng)絡(luò),如其中的PP就是一個(gè)子網(wǎng)絡(luò),這就是網(wǎng)絡(luò)的遞歸性。第106頁,共152頁。弧NP-1將當(dāng)前詞的Number放入當(dāng)前NP的Number中;而弧NP-4則要求當(dāng)前noun的Number與NP的Number是相同時(shí),或者NP的Number為空時(shí),將noun作為NP的Number,這就要求det的數(shù)和noun的數(shù)是一致的。因此thisbook,thebook,thebooks,thesebooks都可順利通過這一網(wǎng)絡(luò),但是thisbooks,或thesebook就無法通過。如果當(dāng)前NP是一個(gè)代詞(pron.)或者專用名詞(proper),那么網(wǎng)絡(luò)就從NP-5或NP-6通過,這時(shí)NP的數(shù)就是代詞或?qū)S妹~的數(shù)。PP是一個(gè)修飾前面名詞的介詞短語,一旦到達(dá)PP弧就馬上轉(zhuǎn)入子網(wǎng)絡(luò)PP.第107頁,共152頁。例:一個(gè)句子的ATN,主要用來識(shí)別主、被動(dòng)態(tài)的句子。S網(wǎng)絡(luò)中所涉及的功能名和特征維包括:功能名:Subject(主語),Direct-Obj(直接賓語),Main-Verb(謂語動(dòng)詞),Auxs.(助動(dòng)詞),Modifiers(修飾語)。特征維:Voice(語態(tài)):Active(主動(dòng)態(tài)),Passive(被動(dòng)態(tài)),缺省值是Active。Type(動(dòng)詞類型):Be,Do,Have,Modal,Non-Aux,缺省值是Non-AuxaForm(動(dòng)詞式):Inf不定式),Present(現(xiàn)在式),Past(過去式),Pres-part(現(xiàn)在分詞),Past-part(過去分詞),缺省值是Present。第108頁,共152頁。第109頁,共152頁。S→NPVNPPP*基于詞的N-gram模型對近鄰語言約束關(guān)系的描述能力最強(qiáng),應(yīng)用程度最為廣泛。第72頁,共152頁?;谡Z言學(xué)規(guī)則的語言處理技術(shù)六種詞性:名詞、形容詞、連詞、動(dòng)詞、介詞、量詞文字輸入,文字編輯與排版基于規(guī)則的句法分析理論和方法他說:“她這個(gè)人真有意思(funny)”。輸入:新技術(shù)的發(fā)展日新月異英語只有26個(gè)字母,中文卻有44908個(gè)漢字(《中華大辭典》)。第40頁,共152頁。第145頁,共152頁。第92頁,共152頁。第41頁,共152頁。第21頁,共152頁。第61頁,共152頁。Subject←*即把當(dāng)前成分放入名為Subject的功能寄存器(當(dāng)前成分作主語)。
是一種添加操作,Auxs.
Main-Verb就是將當(dāng)前的謂語動(dòng)詞添加到Auxs功能寄存器中(原來Auxs中可能已有內(nèi)容)。在S網(wǎng)絡(luò)中,當(dāng)弧S-2遇到第一個(gè)動(dòng)詞時(shí),就把它置入Main-Verb,但是在接下來的弧S-3中發(fā)現(xiàn)Main-Verb中剛才被置入的是助動(dòng)詞,網(wǎng)絡(luò)操作就把Main-Verb中的內(nèi)容添加到Auxs寄存器的尾部。若Auxs為空,添加操作與賦值是相同的,但是當(dāng)Auxs非空時(shí)(有幾個(gè)助動(dòng)詞),這即是一個(gè)添加操作。另外,網(wǎng)絡(luò)中有一種dummy節(jié)點(diǎn),這是一種空節(jié)點(diǎn),用來表示一種形式上的或者預(yù)示的成分,如形式上的主語等?;-4和S-7就是對于被動(dòng)態(tài)句子的分析和處理?;-4主要是識(shí)別被動(dòng)態(tài)的謂語動(dòng)詞,一旦確認(rèn)是被動(dòng)態(tài),則將當(dāng)前的主語作為直接賓語,弧S-7用來處理被動(dòng)態(tài)句子中by所引導(dǎo)的介詞短語,該介詞的賓語就是實(shí)際上的主語。第110頁,共152頁。第111頁,共152頁。1.8基于統(tǒng)計(jì)的語言處理技術(shù)統(tǒng)計(jì)語言模型:試圖捕獲自然語言的統(tǒng)計(jì)規(guī)律以改善各種自然語言應(yīng)用系統(tǒng)的性能。廣泛應(yīng)用于語音識(shí)別、手寫體文字識(shí)別、機(jī)器翻譯、鍵盤輸入、信息檢索領(lǐng)域。統(tǒng)計(jì)語言建模相當(dāng)于對各種語言單位如字、詞、句子或整篇文章進(jìn)行概率分布的估計(jì)。112第112頁,共152頁。概率第113頁,共152頁。最大似然估計(jì)第114頁,共152頁?,F(xiàn)代漢語字頻統(tǒng)計(jì)結(jié)果:
前20個(gè)最高頻漢字及其頻率第115頁,共152頁。條件概率第116頁,共152頁。例第117頁,共152頁。全概率公式第118頁,共152頁。貝葉斯定理第119頁,共152頁。先驗(yàn)概率、后驗(yàn)概率第120頁,共152頁。例第121頁,共152頁。解第122頁,共152頁。定義給定所有可能的句子s,統(tǒng)計(jì)語言模型是一個(gè)概率分布p(s)。假設(shè)一個(gè)句子S可以表示為一個(gè)序列S=w1w2…wn,語言模型就是要求句子S的概率P(S):Wi是句中的第i個(gè)詞,hi={w1,w2,…,wn-1}稱為。p(我是一個(gè)學(xué)生)=p(我,是,一,個(gè),學(xué)生)=p(我)?p(是|我)?p(一|我,是)?p(個(gè)|我,是,一)?p(學(xué)生|我,是,一,個(gè))第123頁,共152頁。上述概率的計(jì)算量太大,解決問題的方法是將所有w1w2…wi-1按照某個(gè)規(guī)則映射到等價(jià)類S(w1w2…wi-1),等價(jià)類的數(shù)目遠(yuǎn)遠(yuǎn)小于不同的數(shù)目,即假定:第124頁,共152頁。由于語言模型的訓(xùn)練文本T的規(guī)模及其分布存在著一定的局面性和片面性,許多合理的語言搭配現(xiàn)象沒有出現(xiàn)在T中。例如:一個(gè)詞串Wi-N+1…Wi
沒有出現(xiàn)在訓(xùn)練文本T中,該詞串對應(yīng)的上下文條件概率p(Wi|Wi-N+1…Wi)=0,從而導(dǎo)致該詞串所在的語句S的出現(xiàn)概率p(S)=0。第125頁,共152頁。126當(dāng)前主要語言模型N-gram模型決策樹模型指數(shù)模型(最大熵模型)整句模型文法模型概率上下文無關(guān)文法鏈文法概率依存文法自適應(yīng)模型第126頁,共152頁。N-gram模型實(shí)際應(yīng)用中,由于嚴(yán)重的數(shù)據(jù)稀疏和系統(tǒng)處理能力的限制,統(tǒng)計(jì)語言建模只能考慮有限長度的。數(shù)據(jù)稀疏問題可能會(huì)錯(cuò)誤地推導(dǎo)出小概率事件是不重要的。當(dāng)兩個(gè)的最近的N-1個(gè)詞(或字)相同時(shí),映射兩個(gè)到同一個(gè)等價(jià)類,在此情況下的模型稱之為N-Gram模型。N-Gram模型被稱為一階馬爾科夫鏈。N的值不能太大,否則計(jì)算仍然太大。根據(jù)最大似然估計(jì),語言模型的參數(shù):其中,C(w1w2…wi)表示w1w2…wi在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)。第127頁,共152頁。通過將語言模擬成N-1階馬爾科夫源,N-gram模型減少了參數(shù)估計(jì)的維數(shù):N的選擇要考慮參數(shù)估計(jì)的穩(wěn)定性和描述能力的折衷。二元語法(Bigram)和三元語法Trigram是通常的選擇。128第128頁,共152頁。BigramTrigram129第129頁,共152頁。N的選擇:可靠性vs.辨別力“我 正在 ________”
講課?圖書館?聽課?學(xué)習(xí)?借書?……“我 正在圖書館 ________”
學(xué)習(xí)?借書?……
第130頁,共152頁。可靠性vs.辨別力更大的n:對下一個(gè)詞出現(xiàn)的約束性信息更多,更大的辨別力;更小的n:在訓(xùn)練語料庫中出現(xiàn)的次數(shù)更多,更可靠的統(tǒng)計(jì)結(jié)果,更高的可靠性。
第131頁,共152頁。構(gòu)造方法采用語言學(xué)家構(gòu)造的詞的語法分類體系,按詞性進(jìn)行詞類劃分,借助于詞性標(biāo)注技術(shù),構(gòu)造基于詞性的N-POS模型。采用詞的自動(dòng)聚類技術(shù),自動(dòng)構(gòu)造基于詞的自動(dòng)聚類的類N-gram模型。132第132頁,共152頁?;谠~類的N-gram模型類模型提出的意義:降低模型參數(shù)的規(guī)模;數(shù)據(jù)稀疏問題的一種解決方式。133第133頁,共152頁。幾種模型比較基于詞的N-gram模型對近鄰語言約束關(guān)系的描述能力最強(qiáng),應(yīng)用程度最為廣泛。一般N小于等于3,難以描述長距離的語言約束關(guān)系。N-POS模型的參數(shù)空間最小,一般不存在數(shù)據(jù)稀疏問題,可以構(gòu)造高元模型,用于描述長距離的語言約束關(guān)系。但由于詞性數(shù)目過少,過于泛化,因此限制了語言模型的描述能力。自動(dòng)聚類生成的詞類數(shù)量介于詞和詞性的數(shù)量之間,由此建立的類N-gram模型,既不存在嚴(yán)重的數(shù)據(jù)稀疏問題,又不存在過于泛化的問題。134第134頁,共152頁。統(tǒng)計(jì)語言模型的參數(shù)基于統(tǒng)計(jì)的方法基本上使用了隱馬爾科夫模型,這樣的模型使用了許多參數(shù)來參與消除歧義的決策機(jī)制,這些參數(shù)必須經(jīng)過適當(dāng)?shù)恼Z
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年物業(yè)服務(wù)收費(fèi)合同3篇
- 2024年版股權(quán)代持及激勵(lì)協(xié)議
- 2025二手房買賣合同(范本)
- 2025年度環(huán)保企業(yè)勞動(dòng)合同范本及綠色生產(chǎn)條款3篇
- 2025年高鐵廣告合作協(xié)議書
- 2025年HCA衛(wèi)生紙起皺粘合劑項(xiàng)目發(fā)展計(jì)劃
- 2024年股權(quán)分享合作協(xié)議模板版
- 2024年量子計(jì)算技術(shù)合作研發(fā)協(xié)議
- 2024年綜合項(xiàng)目合作伙伴合同模板版B版
- 2024年車輛抵押借款協(xié)議規(guī)范文本
- 期末素養(yǎng)提升(試題)-2024-2025學(xué)年語文二年級(jí)上冊
- 北京市朝陽區(qū)2023-2024學(xué)年九年級(jí)上學(xué)期期末物理試卷
- 全國賽課一等獎(jiǎng)初中統(tǒng)編版七年級(jí)道德與法治上冊《正確對待順境和逆境》教學(xué)設(shè)計(jì)
- 2024-2025學(xué)年高一上學(xué)期期末數(shù)學(xué)試卷(基礎(chǔ)篇)(含答案)
- 2024年01月11073法律文書期末試題答案
- 預(yù)防性侵害安全教育
- 科大訊飛招聘在線測評(píng)題
- 《勞動(dòng)與社會(huì)保障法》機(jī)考資料
- 體系工程師年終總結(jié)
- 2023版設(shè)備管理體系標(biāo)準(zhǔn)
- 60種常見電氣隱患(詳解)
評(píng)論
0/150
提交評(píng)論