人工智能ArtificialIntelligence第八章.ppt

上傳人：j*** IP屬地：四川上傳時(shí)間：2019-07-16 格式：PPT 頁(yè)數(shù)：112 大?。?.71MB 積分：15 舉報(bào) 版權(quán)申訴

人工智能ArtificialIntelligence第八章.ppt_第2頁(yè)

人工智能ArtificialIntelligence第八章.ppt_第3頁(yè)

人工智能ArtificialIntelligence第八章.ppt_第4頁(yè)

人工智能ArtificialIntelligence第八章.ppt_第5頁(yè)

已閱讀5頁(yè)，還剩107頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能 Artificial Intelligence 第八章,史忠植中國(guó)科學(xué)院計(jì)算技術(shù)研究所 /,自然語(yǔ)言處理 Natural Language Processing,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,1,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,2,內(nèi)容提要,8.1 概述 8.2 詞法分析 8.3 句法分析 8.4 語(yǔ)義分析 8.5 語(yǔ)用分析 8.6 語(yǔ)料庫(kù) 8.7 信息檢索 8.8 機(jī)器翻譯 8.9 自動(dòng)問(wèn)答系統(tǒng) 8.10 小結(jié),概述,自然語(yǔ)言處理是用機(jī)器處理人類語(yǔ)言的理論和技術(shù)。作為語(yǔ)言信息處理技術(shù)的一個(gè)高層次的重要研究方向，一直是人工智能領(lǐng)域的核心課題。由于自然語(yǔ)言的多義性、上下文有關(guān)性、模糊性、非系統(tǒng)性和環(huán)境密切相關(guān)性、涉及的知識(shí)面廣等原因，自然語(yǔ)言處理是困難問(wèn)題之一。自然語(yǔ)言處理的研究希望機(jī)器能夠執(zhí)行人類所期望的某些語(yǔ)言功能，這些功能包括：（1）回答問(wèn)題：計(jì)算機(jī)能正確地回答用自然語(yǔ)言輸入的有關(guān)問(wèn)題；（2）文摘生成：機(jī)器能產(chǎn)生輸入文本的摘要；（3）釋義：機(jī)器能用不同的詞語(yǔ)和句型來(lái)復(fù)述輸入的自然語(yǔ)言信息；（4）翻譯：機(jī)器能把一種語(yǔ)言翻譯成另外一種語(yǔ)言。,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,3,概述,自然語(yǔ)言自然語(yǔ)言：人類交流的語(yǔ)言,口語(yǔ)、書(shū)面語(yǔ)、手語(yǔ)、旗語(yǔ)等人造語(yǔ)言：機(jī)器語(yǔ)言，包括C+, BASIC等世界語(yǔ) 到目前為止的人類知識(shí)有80%以上使用自然語(yǔ)言文字記載下來(lái)的。但將來(lái)，可能用計(jì)算機(jī)語(yǔ)言形式記載的知識(shí)將會(huì)越來(lái)越多。因此說(shuō)，語(yǔ)言信息處理技術(shù)和每年所處理的信息總量已成為衡量一個(gè)國(guó)家現(xiàn)代化水平的重要標(biāo)志之一。相比較人工智能其它領(lǐng)域，自然語(yǔ)言理解是難度大，進(jìn)展小的。至今為止未能達(dá)到很高的水平。,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,4,自然語(yǔ)言處理的發(fā)展,自然語(yǔ)言理解的研究大體上經(jīng)歷了三個(gè) 時(shí)期萌芽時(shí)期發(fā)展時(shí)期早期: 20世紀(jì)60年代以關(guān)鍵詞匹配為主流中期: 20世紀(jì)70年代以句法語(yǔ)義分析為主流近期: 20世紀(jì)80年代以來(lái)走向?qū)嵱没凸こ袒?大規(guī)模真實(shí)文本處理時(shí)期比較成功的系統(tǒng)處理都是受限的自然語(yǔ)言子集句法受限：句子結(jié)構(gòu)的復(fù)雜性方面受到限制語(yǔ)義受限/領(lǐng)域受限：所表達(dá)的事物的數(shù)量方面受到限制,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,5,20世紀(jì)60年代：以關(guān)鍵詞匹配為主流特點(diǎn)：沒(méi)有真正意義上的語(yǔ)法分析，主要依靠關(guān)鍵詞匹配技術(shù)來(lái)識(shí)別輸入句子的意義在系統(tǒng)中事先存放了大量包含某些關(guān)鍵詞的模式，每個(gè)模式與一個(gè)或多個(gè)解釋(響應(yīng)式)相對(duì)應(yīng)。每當(dāng)輸入一個(gè)句子，系統(tǒng)便查找與之匹配的模式，一旦匹配成功，系統(tǒng)就輸出相應(yīng)的解釋，不考慮其他成分對(duì)句子意義的影響是一種近似匹配技術(shù)，輸入句子可以不準(zhǔn)循語(yǔ)法，但是也容易導(dǎo)致錯(cuò)誤,自然語(yǔ)言處理的發(fā)展,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,6,20世紀(jì)70年代：句法語(yǔ)義分析為主流采用句法-語(yǔ)義分析技術(shù) 典型例子 LUNAR 允許用普通英語(yǔ)和數(shù)據(jù)庫(kù)對(duì)話的人機(jī)接口,句法分析,語(yǔ)義解釋,數(shù)據(jù)檢索,ATN語(yǔ)法,詞典,語(yǔ)義規(guī)則,數(shù)據(jù)庫(kù),自然語(yǔ)言處理的發(fā)展,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,7,20世紀(jì)80年代以來(lái)：實(shí)用化和工程化主要特點(diǎn)是開(kāi)始走向?qū)嵱没凸こ袒Ｆ渲匾獦?biāo)志之一是有一批商品化的自然語(yǔ)言人機(jī)接口系統(tǒng)和機(jī)器翻譯系統(tǒng)推向了市場(chǎng)。另一方面，人們已經(jīng)開(kāi)始對(duì)大規(guī)模真實(shí)文本進(jìn)行理解句法語(yǔ)義分析為主的思想來(lái)自于規(guī)則的方法，而規(guī)則不可能把所有的知識(shí)表示出來(lái) 自然語(yǔ)言在數(shù)量上浩瀚無(wú)際在性質(zhì)上具有不確定性和模糊性。,自然語(yǔ)言處理的發(fā)展,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,8,概述,自然語(yǔ)言的層次劃分及對(duì)應(yīng)技術(shù),2019/7/16,史忠植人工智能：自然語(yǔ)言處理,9,自然語(yǔ)言處理層次,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,10,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,11,內(nèi)容提要,8.1 概述 8.2 詞法分析 8.3 句法分析 8.4 語(yǔ)義分析 8.5 語(yǔ)用分析 8.6 語(yǔ)料庫(kù) 8.7 信息檢索 8.8 機(jī)器翻譯 8.9 自動(dòng)問(wèn)答系統(tǒng) 8.10 小結(jié),詞法分析,詞法分析是理解單詞的基礎(chǔ)，其主要目的是從句子中切分出單詞，找出詞匯的各個(gè)詞素，從中獲得單詞的語(yǔ)言學(xué)信息并確定單詞的詞義例如unchangeable是由un-change-able構(gòu)成的，其詞義由這三個(gè)部分構(gòu)成。,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,12,詞法分析,語(yǔ)言構(gòu)成,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,13,詞法分析,在英語(yǔ)等語(yǔ)言中，因?yàn)閱卧~之間是以空格自然分開(kāi)的，切分一個(gè)單詞很容易，所以找出句子的一個(gè)個(gè)詞匯就很方便。但是由于英語(yǔ)單詞有詞性、數(shù)、時(shí)態(tài)、派生、變形等變化，要找出各個(gè)詞素就復(fù)雜的多，需要對(duì)詞尾或詞頭進(jìn)行分析。如importable，它可以是im-port-able或import-able，這是因?yàn)閕m、port、able這三個(gè)都是詞素。漢語(yǔ)中的每個(gè)字就是一個(gè)詞素，所以要找出各個(gè)詞素是相當(dāng)容易的，但要切分出各個(gè)詞就非常困難，不僅需要構(gòu)詞的知識(shí)，還需要解決可能遇到的切分歧義。如“我們研究所有東西”?？梢允恰拔覀冄芯克袞|西”，也可以是“我們研究所有東西”。,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,14,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,15,內(nèi)容提要,8.1 概述 8.2 詞法分析 8.3 句法分析 8.4 語(yǔ)義分析 8.5 語(yǔ)用分析 8.6 語(yǔ)料庫(kù) 8.7 信息檢索 8.8 機(jī)器翻譯 8.9 問(wèn)答系統(tǒng) 8.10 小結(jié),句法分析,句法分析的主要任務(wù)：確定輸入句子的結(jié)構(gòu)：識(shí)別句子的各個(gè)成分及其之間的關(guān)系句子結(jié)構(gòu)的規(guī)范化：目的是簡(jiǎn)化后續(xù)處理分析自然語(yǔ)言的方法主要分為兩類：基于規(guī)則的方法：如短語(yǔ)結(jié)構(gòu)語(yǔ)法和Chomsky語(yǔ)法體系基于統(tǒng)計(jì)的方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,16,短語(yǔ)結(jié)構(gòu)語(yǔ)言,定義句子：一個(gè)符號(hào)串語(yǔ)言：句子的集合語(yǔ)法：對(duì)一個(gè)句集一種有限的形式化描述描述一般語(yǔ)言的方法：識(shí)別器：由程序判斷讀入的符號(hào)串是不是一個(gè)句子短語(yǔ)結(jié)構(gòu)語(yǔ)法：一種基于產(chǎn)生式的形式化工具，也稱為產(chǎn)生式語(yǔ)法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,17,短語(yǔ)結(jié)構(gòu)語(yǔ)言,定義：短語(yǔ)結(jié)構(gòu)語(yǔ)法定義為：G(T，N，S，P） T是終結(jié)符集合，即被定義的語(yǔ)言的所有詞匯（或符號(hào)） N是非終結(jié)符集合，這些符號(hào)用于描述語(yǔ)法成分，并不出現(xiàn)于句子中。則有：VTN，TN（空集），V是屬于該語(yǔ)法的全部符號(hào)。 S是起始符號(hào)，它是N中的一個(gè)成員。 P是一個(gè)產(chǎn)生式規(guī)則集。ab (ab,aV+,bV*),2019/7/16,史忠植人工智能：自然語(yǔ)言處理,18,短語(yǔ)結(jié)構(gòu)語(yǔ)言,在短語(yǔ)結(jié)構(gòu)語(yǔ)法中，基本運(yùn)算是把一個(gè)符號(hào)串重寫(xiě)為另一個(gè)符號(hào)串，每條語(yǔ)法規(guī)則也叫重寫(xiě)規(guī)則一個(gè)句子的產(chǎn)生就是從S符號(hào)到詞匯串的推導(dǎo)過(guò)程如果一個(gè)程序能夠根據(jù)一個(gè)短語(yǔ)結(jié)構(gòu)語(yǔ)法來(lái)確定一個(gè)句子的推導(dǎo)，則它可稱為一個(gè)句法分析器(parser)。語(yǔ)法G所定義的語(yǔ)言記為L(zhǎng)(G): L(G)=W | WT*, S*GW,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,19,短語(yǔ)結(jié)構(gòu)語(yǔ)言,刻畫(huà)語(yǔ)言的形式體系的強(qiáng)和弱遞歸可枚舉語(yǔ)言：如果有一個(gè)程序，它能以某種順序逐個(gè)地輸出（即枚舉）一種語(yǔ)言的句子，這種語(yǔ)言是遞歸可枚舉的遞歸語(yǔ)言：如果有一個(gè)程序，它在讀入一個(gè)符號(hào)串后能最終確定這個(gè)串是或不是某種語(yǔ)言的一個(gè)句子，這稱該語(yǔ)言是遞歸,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,20,短語(yǔ)結(jié)構(gòu)語(yǔ)言,正則語(yǔ)法：正則語(yǔ)法有兩種形式：左線性語(yǔ)法：如 A a | Ba 右線性語(yǔ)法：如 A a | aB 可以表示如下的句子： a*b* 語(yǔ)法例子： S a | S1 | a S S1 b | b S1 與有限狀態(tài)機(jī)等價(jià),2019/7/16,史忠植人工智能：自然語(yǔ)言處理,21,短語(yǔ)結(jié)構(gòu)語(yǔ)言,上下文無(wú)關(guān)語(yǔ)法：語(yǔ)法規(guī)則形式為： A x 即左邊為一非終結(jié)符，右邊沒(méi)有限制可以表示的句子如： anbn 語(yǔ)法例子： S a | S b S 該文法應(yīng)用于程序設(shè)計(jì)語(yǔ)言中,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,22,短語(yǔ)結(jié)構(gòu)語(yǔ)言,上下文有關(guān)語(yǔ)法：語(yǔ)法規(guī)則：規(guī)則右邊的符號(hào)數(shù)不能少于左邊符號(hào)數(shù) 右邊的符號(hào)可以是終止符也可以是非終止符上下文有關(guān)語(yǔ)言是遞歸的可以表示的語(yǔ)言： anbncn 語(yǔ)法例子： AB BA,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,23,短語(yǔ)結(jié)構(gòu)語(yǔ)言,無(wú)約束短語(yǔ)結(jié)構(gòu)語(yǔ)法：語(yǔ)法規(guī)則是沒(méi)有限制的：左邊可以是任意多個(gè)終止符或非終止符右邊可以是任意多個(gè)終止符或非終止符該語(yǔ)言是遞歸可枚舉的該語(yǔ)言與圖靈機(jī)等價(jià) 語(yǔ)法例子： A B C,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,24,Chomsky體系,無(wú)約束語(yǔ)法,上下文有關(guān)語(yǔ)法,上下文無(wú)關(guān)語(yǔ)法,正則語(yǔ)法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,25,CFG的分析算法,用一個(gè)短語(yǔ)結(jié)構(gòu)語(yǔ)法對(duì)一個(gè)句子進(jìn)行語(yǔ)法分析，意味著尋找一個(gè)從起始符到該句子的推導(dǎo)，這個(gè)推導(dǎo)一般可以表示為一棵句法樹(shù) 一般一棵句法樹(shù)對(duì)應(yīng)的推導(dǎo)不是唯一的，但是如果在推導(dǎo)過(guò)程中每次總是重寫(xiě)最左邊的非終止符，則稱該推導(dǎo)為最左推導(dǎo)。 Mary Mary Mary eats Mary eats cheese,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,26,CFG的分析算法, := :=John | Marry := :=eats | drinks :=wine | cheese,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,27,CFG的分析算法,句法分析器分為：從推導(dǎo)方向來(lái)分：自頂向下：從樹(shù)頂?shù)母Y(jié)點(diǎn)開(kāi)始推導(dǎo)建立句法樹(shù)，方向是從起始符S到句子自底向上：從樹(shù)底部的葉結(jié)點(diǎn)(詞或詞類)規(guī)約，建立句法樹(shù)，方向是從句子到S 從算法上分：回溯算法：每次只嘗試一種推導(dǎo)，當(dāng)這種推導(dǎo)失敗時(shí)便返回以嘗試另一種推導(dǎo) 并行算法：同時(shí)進(jìn)行所有的推導(dǎo),2019/7/16,史忠植人工智能：自然語(yǔ)言處理,28,CFG的分析算法,自頂向下的回溯算法該方法逐個(gè)地枚舉推導(dǎo)直到找到一個(gè)能生成句子的推導(dǎo) 一般，對(duì)具有左遞歸的語(yǔ)法，該方法需要增加某些測(cè)試以避免陷入死循環(huán) 對(duì)于”Mary eats cheese”的句法和推導(dǎo)為： SNP+VP (1) SNP+VP (1) NP N (2) N+VP (2) VP V (3) N+V+NP (4) VP V+NP (4) N+V+N (2),2019/7/16,史忠植人工智能：自然語(yǔ)言處理,29,轉(zhuǎn)移網(wǎng)絡(luò),轉(zhuǎn)移網(wǎng)絡(luò)在自動(dòng)機(jī)理論中用來(lái)表示語(yǔ)法。句法分析中的轉(zhuǎn)移網(wǎng)絡(luò)由結(jié)點(diǎn)和帶有標(biāo)記的弧組成，結(jié)點(diǎn)表示狀態(tài)，弧對(duì)應(yīng)于符號(hào)，基于該符號(hào)，可以實(shí)現(xiàn)從一個(gè)給定的狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)。,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,30,Dog bites,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,31,轉(zhuǎn)移網(wǎng)絡(luò),擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)ATN ATN是20世紀(jì)70年代由W. Woods提出來(lái)的 ATN語(yǔ)法屬于一種增強(qiáng)型的上下文無(wú)關(guān)語(yǔ)法，即用上下文無(wú)關(guān)文法描述句子文法結(jié)構(gòu)，并同時(shí)提供有效的方式將各種理解語(yǔ)句所需要的知識(shí)加到分析系統(tǒng)中，以增強(qiáng)分析功能，從而使得應(yīng)用ATN的句法分析程序具有分析上下文有關(guān)語(yǔ)言的能力。 ATN主要是對(duì)轉(zhuǎn)移網(wǎng)絡(luò)中的弧附加了過(guò)程而得到的。當(dāng)通過(guò)一個(gè)弧的時(shí)候，附加在該弧上的過(guò)程就會(huì)被執(zhí)行。這些過(guò)程的主要功能是（I）對(duì)文法特征進(jìn)行賦值；(II)檢查數(shù)（number）或人稱（第一、二或三人稱）條件是否滿足，并據(jù)此允許或不允許轉(zhuǎn)移。,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,32,轉(zhuǎn)移網(wǎng)絡(luò),表示句子的框架,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,33,轉(zhuǎn)移網(wǎng)絡(luò),表示句子的框架,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,34,轉(zhuǎn)移網(wǎng)絡(luò),表示句子的框架,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,35,非確定性算法與確定性算法,上面介紹的算法是非確定性的，分析過(guò)程中常常要進(jìn)行回溯。這就降低了算法的效率。實(shí)際上，在特定的上下文中，除了某些固有的歧義外，自然語(yǔ)言的句法分析絕大多數(shù)都是確定的。 1977年MIT的Marcus提出了句法分析的確定性算法。該算法的最大特點(diǎn)是確保在任何情況下，一旦一個(gè)輸入句子的部分結(jié)構(gòu)被分析出來(lái)，便不再更改，一直保持到最后成為句子最終分析的一部分。,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,36,非確定性算法與確定性算法,Marcus的確定性算法該句法分析系統(tǒng)具有如下三個(gè)特點(diǎn)： (1) 由數(shù)據(jù)驅(qū)動(dòng) (2) 已分析出來(lái)的部分結(jié)構(gòu)可以成為對(duì)后繼分析過(guò)程的預(yù)期 (3) 通過(guò)“向前看”(look-ahead)來(lái)代替回溯特點(diǎn)(1)和(2)反映了自底向上和自頂向下分析相結(jié)合的策略。特點(diǎn)(3)則是要通過(guò)引入句子中的上下文約束來(lái)決定分析規(guī)則，保證句法分析器“看準(zhǔn)了”以后再操作，從而避免了回溯,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,37,非確定性算法與確定性算法,漢語(yǔ)的特點(diǎn) 漢語(yǔ)的詞類缺乏形式標(biāo)注漢語(yǔ)詞類跟句法成分之間不存在簡(jiǎn)單的一一對(duì)應(yīng)關(guān)系. 漢語(yǔ)的句子的構(gòu)造原則跟短語(yǔ)的構(gòu)造原則基本一致漢語(yǔ)的這兩個(gè)特點(diǎn)的表現(xiàn)形式就是普遍存在的詞類兼類現(xiàn)象和句法結(jié)構(gòu)的遞歸嵌套性。這些必然要導(dǎo)致大量的回溯，增加計(jì)算的開(kāi)銷采用確定性分析策略則可以解決這種問(wèn)題。,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,38,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,39,內(nèi)容提要,8.1 概述 8.2 詞法分析 8.3 句法分析 8.4 語(yǔ)義分析 8.5 語(yǔ)用分析 8.6 語(yǔ)料庫(kù) 8.7 信息檢索 8.8 機(jī)器翻譯 8.9 問(wèn)答系統(tǒng) 8.10 小結(jié),語(yǔ)義分析,語(yǔ)義分析的任務(wù)：輸入句子的句法結(jié)構(gòu)和句子中每個(gè)實(shí)詞的詞義推導(dǎo)出能反映該句子意義的某種形式化表示對(duì)語(yǔ)義現(xiàn)象作形式化處理要比句法現(xiàn)象困難得多，主要原因有語(yǔ)義和句法系統(tǒng)的界限很難劃清楚語(yǔ)義及其他認(rèn)知系統(tǒng)的界限也難以劃清楚。用于計(jì)算機(jī)語(yǔ)義處理的計(jì)算語(yǔ)義學(xué)還遠(yuǎn)未成熟,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,40,格文法,格語(yǔ)法是Filmore于1968年提出來(lái)的，曾經(jīng)對(duì)自然語(yǔ)言理解技術(shù)的發(fā)展產(chǎn)生過(guò)較大的影響，直到現(xiàn)在不少研究仍在使用格語(yǔ)法。因?yàn)槿藗冋J(rèn)識(shí)到格關(guān)系確實(shí)是描述語(yǔ)言語(yǔ)義(包括和語(yǔ)法的關(guān)系)的一種很好的形式，當(dāng)然在實(shí)際應(yīng)用過(guò)程中不可避免地要有些修改。,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,41,格文法的特點(diǎn)是允許以動(dòng)詞為中心構(gòu)造分析結(jié)果，盡管文法規(guī)則只描述句法，但分析結(jié)果產(chǎn)生的結(jié)構(gòu)卻相應(yīng)于語(yǔ)義關(guān)系，而非嚴(yán)格的句法關(guān)系如句子：Mary hit Bill 的格文法分析結(jié)果可以表示為 ( hit ( Agent Mary ) ( Dative Bill ) 在格文法中，格表示的語(yǔ)義方面的關(guān)系，反映的是句子中包含的思想、觀念等，稱為深層格。和短語(yǔ)結(jié)構(gòu)語(yǔ)法相比，格文法對(duì)于句子的深層語(yǔ)義有著更好的描述。,格文法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,42,如果兩個(gè)句子的底層的語(yǔ)義關(guān)系一致，各名詞成分所代表的格關(guān)系不會(huì)發(fā)生相應(yīng)的變化。例如，被動(dòng)句“Bill was hit by Mary”與上述主動(dòng)句具有不同的句法分析樹(shù)，但格表示完全相同。,格文法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,43,格文法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,44,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,45,內(nèi)容提要,8.1 概述 8.2 詞法分析 8.3 句法分析 8.4 語(yǔ)義分析 8.5 語(yǔ)用分析 8.6 語(yǔ)料庫(kù) 8.7 信息檢索 8.8 機(jī)器翻譯 8.9 問(wèn)答系統(tǒng) 8.10 小結(jié),語(yǔ)用分析與知識(shí)、上下文和推理等因素有關(guān)。維諾格拉德（Winograd T）認(rèn)為語(yǔ)言是一個(gè)講話者和聽(tīng)者之間關(guān)于一個(gè)共同的世界的一種通信手段。語(yǔ)言是一種社會(huì)交際工具，研究語(yǔ)言必須研究其社會(huì)功能。維諾格拉德認(rèn)為語(yǔ)義理論必須在三個(gè)平面上描述關(guān)系， (1) 確定詞的意義 (2) 確定詞組在句法結(jié)構(gòu)中的意義 (3) 一個(gè)自然語(yǔ)言的句子決不應(yīng)被孤立地解釋。一種語(yǔ)義理論必須描述一個(gè)句子的意義如何依賴于它的上下文。,語(yǔ)用分析,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,46,語(yǔ)義理論必須涉及語(yǔ)言學(xué)背景 (說(shuō)話的上下文)和現(xiàn)實(shí)社會(huì)背景 (即同非語(yǔ)言學(xué)事實(shí)的知識(shí)的相互作用)，語(yǔ)義理論必須同句法和語(yǔ)言的邏輯方面(演繹推理)相聯(lián)系。正是基于這些觀點(diǎn)，即語(yǔ)法、語(yǔ)義和語(yǔ)用學(xué)相互作用的觀點(diǎn)，1970年維諾格拉德成功地研究了被人稱為“絕技”的自然語(yǔ)言對(duì)話系統(tǒng)SHRDLU，實(shí)現(xiàn)人與計(jì)算機(jī)之間的靈活對(duì)話。這項(xiàng)創(chuàng)舉震動(dòng)了當(dāng)時(shí)的人工智能界。,語(yǔ)用分析,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,47,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,48,內(nèi)容提要,8.1 概述 8.2 詞法分析 8.3 句法分析 8.4 語(yǔ)義分析 8.5 語(yǔ)用分析 8.6 語(yǔ)料庫(kù) 8.7 信息檢索 8.8 機(jī)器翻譯 8.9 問(wèn)答系統(tǒng) 8.10 小結(jié),語(yǔ)料庫(kù)語(yǔ)言學(xué),語(yǔ)料庫(kù)語(yǔ)言學(xué)(corpus linguistics) 語(yǔ)言學(xué)知識(shí)的源泉是大規(guī)?；钌恼Z(yǔ)料，要想讓計(jì)算機(jī)理解自然語(yǔ)言，首先要讓計(jì)算機(jī)能從庫(kù)存的大規(guī)模語(yǔ)料中自動(dòng)或半自動(dòng)地獲取語(yǔ)言理解所需的各種知識(shí)，對(duì)語(yǔ)言現(xiàn)象作出客觀的、細(xì)致的描述。目前采用的主要手段是建立各種統(tǒng)計(jì)模型，可用于詞類的自動(dòng)標(biāo)注，以及句法語(yǔ)義的更高層次的分析。該方法可以和規(guī)則方法相互補(bǔ)充。,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,49,在當(dāng)今計(jì)算技術(shù)條件下，要想把處理自然語(yǔ)言所需要的知識(shí)都用現(xiàn)有的知識(shí)表示技術(shù)明確表達(dá)出來(lái)，是不可能的。這既是由于這種知識(shí)的“數(shù)量”巨大，有時(shí)由于它們?cè)凇百|(zhì)”的方面高度的不確定性和模糊性。最近十幾年來(lái)新提出的語(yǔ)料庫(kù)語(yǔ)言學(xué)，它順應(yīng)了大規(guī)模真實(shí)文本處理的需要，提出了以計(jì)算機(jī)語(yǔ)料庫(kù)為基礎(chǔ)的語(yǔ)言學(xué)研究及自然語(yǔ)言處理的新思想。,語(yǔ)料庫(kù)語(yǔ)言學(xué),2019/7/16,史忠植人工智能：自然語(yǔ)言處理,50,基于語(yǔ)料庫(kù)的處理思想能夠在工程上、在寬廣的語(yǔ)言覆蓋面上解決大規(guī)模真實(shí)文本處理這一極其艱巨的課題，對(duì)傳統(tǒng)的處理方法的一個(gè)強(qiáng)有了的補(bǔ)充。新型的智能計(jì)算機(jī)和多媒體計(jì)算機(jī)均要求設(shè)計(jì)出更為友好的人機(jī)界面，使自然語(yǔ)言、文字、圖像和聲音等信號(hào)都能直接輸入計(jì)算機(jī)。要求計(jì)算機(jī)能以自然語(yǔ)言與人進(jìn)行對(duì)話交流，就需要計(jì)算機(jī)具有自然語(yǔ)言能力，尤其是口語(yǔ)理解和生成能力。,語(yǔ)料庫(kù)語(yǔ)言學(xué),2019/7/16,史忠植人工智能：自然語(yǔ)言處理,51,語(yǔ)料庫(kù)語(yǔ)言學(xué)及其特點(diǎn) 傳統(tǒng)的句法-語(yǔ)義分析技術(shù)，所采取的主要研究方法是基于規(guī)則的方法由于自然語(yǔ)言理解的復(fù)雜性，各種知識(shí)的“數(shù)量”浩瀚無(wú)際，而且具有高度的不確定性和模糊性，利用規(guī)則不可能完全準(zhǔn)確地表達(dá)理解自然語(yǔ)言所需的各種知識(shí)，而且，規(guī)則實(shí)際上面向語(yǔ)言的使用者人的，將它面向機(jī)器則分析結(jié)果始終不盡如人意。研究語(yǔ)言知識(shí)所用的真實(shí)文本稱為語(yǔ)料，大量的真實(shí)文本即構(gòu)成語(yǔ)料庫(kù),語(yǔ)料庫(kù)語(yǔ)言學(xué),2019/7/16,史忠植人工智能：自然語(yǔ)言處理,52,WordNet,WordNet是按一定結(jié)構(gòu)組織起來(lái)的義類詞典，主要特征表現(xiàn)在 1. 整個(gè)名詞組成一個(gè)繼承關(guān)系。 WordNet有著嚴(yán)格的層次關(guān)系，這樣一個(gè)單詞可以把它所有的前輩的一般性的上位詞的信息都繼承下來(lái)，可以提供全局性的語(yǔ)義關(guān)系，具有IS-A關(guān)系 2. 動(dòng)詞是一個(gè)語(yǔ)義網(wǎng) 動(dòng)詞大概是最難以研究的詞匯，在動(dòng)詞詞典中，很少有真正的同義動(dòng)詞。表達(dá)動(dòng)詞的意義對(duì)任何詞匯語(yǔ)言學(xué)來(lái)說(shuō)都是困難的。WordNet不做成分分析，而是進(jìn)行關(guān)系分析。這一點(diǎn)是計(jì)算語(yǔ)言學(xué)界所熱衷的課題，與以往的語(yǔ)義分析方法不同。這種關(guān)系討論的是動(dòng)詞間的縱向關(guān)系，即詞匯蘊(yùn)涵關(guān)系 WordNet基于名詞和動(dòng)詞以及其他詞性的關(guān)系進(jìn)行詞類間的縱向分析，在國(guó)際計(jì)算語(yǔ)言學(xué)界有很大的影響。但是，它也有不足之處，如對(duì)橫向關(guān)系還沒(méi)有考慮。,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,53,WordNet,WordNet是1990由Princeton大學(xué)的米勒（Miller G A）等人設(shè)計(jì)和構(gòu)造的。一部WordNet詞典將近95600個(gè)詞形（51500單詞和44100搭配詞）和70100個(gè)詞義，分為五類：名詞、動(dòng)詞、形容詞、副詞和虛詞，按語(yǔ)義而不是按詞性來(lái)組織詞匯信息。在WordNet詞典中，名詞有57000個(gè)，含有48800個(gè)同義詞集，分成25類文件，平均深度12層。最高層為根概念，不含有固有名詞。,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,54,知網(wǎng),知網(wǎng)（HowNet）是董振東研制的以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象，以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。公布的中文信息結(jié)構(gòu)庫(kù)包含：信息結(jié)構(gòu)模式：271個(gè) 句法分布式：49個(gè) 句法結(jié)構(gòu)式：58個(gè) 實(shí)例：11,000詞語(yǔ) 總字?jǐn)?shù)：中文60,000字,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,55,20世紀(jì)90年代，使用統(tǒng)計(jì)的方法，使機(jī)器翻譯的正確率達(dá)到60%，漢語(yǔ)切分的正確率達(dá)到70%，漢語(yǔ)語(yǔ)音輸入的正確率達(dá)到80%，這是對(duì)傳統(tǒng)語(yǔ)言學(xué)的嚴(yán)重挑戰(zhàn)。許多研究人員相信，基于語(yǔ)料庫(kù)的統(tǒng)計(jì)模型（如n-gram模型、Markov模型、向量空間模型）不僅能勝任詞類的自動(dòng)標(biāo)注任務(wù)，而且也能夠應(yīng)用到句法和語(yǔ)義等更高層次的分析上來(lái)。這種方法有希望在工程上、在寬廣的語(yǔ)言覆蓋面上解決大規(guī)模真實(shí)文本處理這一極其艱巨的課題，至少也能對(duì)基于規(guī)則的自然語(yǔ)言處理系統(tǒng)提供一種強(qiáng)有力的補(bǔ)充機(jī)制。,統(tǒng)計(jì)方法的應(yīng)用,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,56,統(tǒng)計(jì)方法的應(yīng)用,大規(guī)模真實(shí)文本處理的數(shù)學(xué)方法主要是統(tǒng)計(jì)方法。基于語(yǔ)料庫(kù)的統(tǒng)計(jì)模型（如Markov模型、向量空間模型）不僅能勝任詞類的自動(dòng)標(biāo)注任務(wù)，而且也能夠應(yīng)用到句法和語(yǔ)義等更高層次的分析上來(lái)。,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,57,由于漢語(yǔ)句子的最小構(gòu)成單位是字，有意義的最小單位卻是詞，而漢語(yǔ)詞與詞之間又沒(méi)有分割符號(hào)（英語(yǔ)詞和詞之間是空格）。因此，漢語(yǔ)理解首先要進(jìn)行漢語(yǔ)自動(dòng)分詞。可以概括為兩大類方法，無(wú)詞典分詞，它完全依靠整段文章中漢字之間的搭配的頻率算出成詞可能有詞典分詞，是一種更有普遍意義的分詞方法。有詞典分詞主要有最大匹配法，逆向最大匹配法，逐詞遍歷匹配法，設(shè)立切分標(biāo)志法，以及正向最佳匹配和逆向最佳匹配法，而這些方法的一個(gè)基本思想都是要依次分出待切分串的可能最長(zhǎng)成詞,漢語(yǔ)自動(dòng)分詞,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,58,首先，根據(jù)漢語(yǔ)詞典(有56800條詞匯)進(jìn) 行統(tǒng)計(jì)，發(fā)現(xiàn)：雖然詞典中的最長(zhǎng)詞可以達(dá)到為20多個(gè)字節(jié)（十幾個(gè)漢字），但是大多數(shù)漢語(yǔ)詞都可以由前兩字唯一確定，這樣的詞占絕大多數(shù)(如在上述詞典中占總詞匯量的85以上)。,基于統(tǒng)計(jì)結(jié)果的分詞,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,59,兩個(gè)首字相同的詞的個(gè)數(shù)的統(tǒng)計(jì) 根據(jù)前兩字可確定的詞個(gè)數(shù) 詞總數(shù) 所占百分比() 1 48431 85.22 2 28012 9.86 3 5143 2.71 4 1184 0.83 5 465 0.40 6 306 0.32 7 167 0.20 8 68 0.08 9 89 0.13 10 510 0.09 14 214 0.05 15 315 0.08 18 118 0.03,漢語(yǔ)自動(dòng)分詞,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,60,主要是在字典索引的支持下進(jìn)行的，索引結(jié)構(gòu)可以分為兩級(jí)。一級(jí)索引就用漢字內(nèi)碼，查找算法用散列方法。而二級(jí)索引采用整個(gè)詞長(zhǎng)。,漢語(yǔ)機(jī)械分詞,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,61,最大匹配法。最大匹配法簡(jiǎn)稱MM方法。其思想是：在計(jì)算機(jī)磁盤(pán)中存放一個(gè)分詞用詞典，從待切分的文本中按自左到右的順序截取一個(gè)定長(zhǎng)的漢字串，通常為為詞典中的最大詞長(zhǎng)，這個(gè)字符串的長(zhǎng)度稱作最大詞長(zhǎng)。將這個(gè)具有最大詞長(zhǎng)的字符串與詞典中的詞進(jìn)行匹配，若匹配成功，則可確定這個(gè)字符串為詞，計(jì)算機(jī)程序的指針向后移動(dòng)與給定最大詞長(zhǎng)相應(yīng)個(gè)數(shù)的漢字，繼續(xù)進(jìn)行匹配；否則，把該字符串從右邊逐次減去一個(gè)漢字，再與詞典中的詞進(jìn)行匹配，直到成功為止。逆向最大匹配法。逆向最大匹配法簡(jiǎn)稱RMM法。這種方法的基本原理與MM法相同，所不同的是分詞時(shí)對(duì)待切分文本的掃描方向。MM方法從待切分文本中截取字符串的方向是從左到右，而RMM方法則是從右向左。在與詞典匹配不成功時(shí)，將所截取的漢字串從左至右逐次減去一個(gè)漢字，再與詞典中的詞進(jìn)行匹配，直到匹配成功為上。實(shí)驗(yàn)表明，RMM法的切詞正確率要比MM法高,匹配法分詞,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,62,分詞過(guò)程中的歧義問(wèn)題。歧義字段在中文文本中是普遍存在的，歧義切分是自動(dòng)分詞中不可避免的現(xiàn)象，是自動(dòng)分詞中的一個(gè)比較棘手的問(wèn)題。對(duì)歧義字段的處理水平，直接影響著自動(dòng)分詞系統(tǒng)的分詞準(zhǔn)確率。未登錄詞的識(shí)別問(wèn)題。未登錄詞是指沒(méi)有在詞典中出現(xiàn)、在漢語(yǔ)文本中又應(yīng)該當(dāng)作一個(gè)詞將其分開(kāi)的那些字符串。包括中外人名、中外地名、機(jī)構(gòu)組織名、事件名、縮略語(yǔ)、派生詞、各種專業(yè)術(shù)語(yǔ)以及在不斷發(fā)展和約定俗成的一些新詞語(yǔ)。未登錄詞種類繁多、規(guī)模宏大，對(duì)它們識(shí)別正確與否直接影響著分詞系統(tǒng)的正確率。然而，目前對(duì)于這些詞語(yǔ)的自動(dòng)辨識(shí)盡管作了不少的研究，但要想達(dá)到實(shí)際應(yīng)用的要求，仍還有不少的困難。,漢語(yǔ)分詞的難點(diǎn),2019/7/16,史忠植人工智能：自然語(yǔ)言處理,63,除了由于未登錄詞而引起的歧義，切分歧義主要有三種類型：交集型歧義，即漢字串既可切成，又可切成。組合型歧義，即漢字串既可切分成，又可切分成。混合型歧義，是前兩種的自我嵌套或三者的交叉組合產(chǎn)生的。為了既能得到較高的準(zhǔn)確率，又有較小的開(kāi)銷，可以著重解決相對(duì)數(shù)量較大又較容易解決的交集型歧義。,漢語(yǔ)分詞的難點(diǎn),2019/7/16,史忠植人工智能：自然語(yǔ)言處理,64,詞類分析漢語(yǔ)的發(fā)展是先有字后有詞，所以關(guān)于詞的研究還存在一些問(wèn)題，比較突出的是漢語(yǔ)詞類的兼類問(wèn)題。例如，大量的雙字動(dòng)詞兼作名詞。要進(jìn)行漢語(yǔ)理解，如果不把詞類先確定下來(lái)的話，那么下一步的分析也難以進(jìn)行。漢語(yǔ)詞類的兼類處理方法兩種方法根據(jù)規(guī)則消除兼類，根據(jù)預(yù)料庫(kù)統(tǒng)計(jì)消除兼類,漢語(yǔ)分詞的難點(diǎn),2019/7/16,史忠植人工智能：自然語(yǔ)言處理,65,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,66,內(nèi)容提要,8.1 概述 8.2 詞法分析 8.3 句法分析 8.4 語(yǔ)義分析 8.5 語(yǔ)用分析 8.6 語(yǔ)料庫(kù) 8.7 信息檢索 8.8 機(jī)器翻譯 8.9 問(wèn)答系統(tǒng) 8.10 小結(jié),信息檢索 (information retrieval，IR)是指將信息按一定的方式組織和存儲(chǔ)起來(lái)，并根據(jù)用戶的需要找出有關(guān)信息的過(guò)程。1950年, 穆?tīng)?Moore C)根據(jù)圖書(shū)館的參考咨詢和文摘索引提出了信息檢索。信息檢索包括信息存儲(chǔ)和檢索。在檢索之前必須將信息收集起來(lái)，按科學(xué)方法進(jìn)行整理，并按一定準(zhǔn)則存儲(chǔ)起來(lái)，形成書(shū)本式檢索工具或者計(jì)算機(jī)可讀數(shù)據(jù)庫(kù)。在檢索時(shí)，用戶根據(jù)自身需求提交查詢給信息檢索系統(tǒng)，系統(tǒng)利用存儲(chǔ)信息所依據(jù)的準(zhǔn)則，在文檔集中找出與查詢條件相關(guān)的文檔子集，并按照它們與查詢條件的相關(guān)性進(jìn)行排序，最后為用戶返回一個(gè)有序的文檔子集。,信息檢索,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,67,從廣義上講，信息檢索包括兩個(gè)過(guò)程，一是信息存儲(chǔ)(information storage)，即信息的標(biāo)引、加工和存儲(chǔ)過(guò)程：二是信息檢索(information retrieval)，即信息用戶的查找過(guò)程。從狹義上講，信息檢索僅指后一部分。信息檢索的本質(zhì)是一個(gè)匹配的過(guò)程即用戶的信息需求和信息存儲(chǔ)的信息集合進(jìn)行比較和選擇的過(guò)程,信息檢索,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,68,信息檢索過(guò)程,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,69,信息檢索的類型,按信息檢索的內(nèi)容劃分文獻(xiàn)檢索數(shù)據(jù)檢索事實(shí)檢索概念檢索,按信息檢索的組織方式劃分,超文本檢索是對(duì)每個(gè)節(jié)點(diǎn)中儲(chǔ)存的信息以及信息鏈構(gòu)成的網(wǎng)絡(luò)信息進(jìn)行的檢索。與傳統(tǒng)文本的線性順序不同，超文本檢索強(qiáng)調(diào)中心節(jié)點(diǎn)之間的語(yǔ)義聯(lián)結(jié)結(jié)構(gòu)，靠系統(tǒng)提供的工具進(jìn)行圖示穿行和節(jié)點(diǎn)展示，提供瀏覽式查詢，可進(jìn)行跨庫(kù)檢索。,全文本檢索多媒體檢索超文本檢索,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,70,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,71,內(nèi)容提要,8.1 概述 8.2 詞法分析 8.3 句法分析 8.4 語(yǔ)義分析 8.5 語(yǔ)用分析 8.6 語(yǔ)料庫(kù) 8.7 信息檢索 8.8 機(jī)器翻譯 8.9 問(wèn)答系統(tǒng) 8.10 小結(jié),機(jī)器翻譯是利用計(jì)算機(jī)把一種自然語(yǔ)言轉(zhuǎn)變成另一種自然語(yǔ)言的過(guò)程。用以完成這一過(guò)程的軟件叫做機(jī)器翻譯系統(tǒng)。機(jī)器翻譯是語(yǔ)言學(xué)、人工智能、計(jì)算技術(shù)、認(rèn)知科學(xué)等學(xué)科相結(jié)合的產(chǎn)物。人作翻譯時(shí)，把一個(gè)源語(yǔ)言句子譯成目標(biāo)語(yǔ)言句子，涉及到四個(gè)基本操作：目標(biāo)語(yǔ)言單詞的檢索、調(diào)序、刪詞、增詞；機(jī)器翻譯系統(tǒng)的操作過(guò)程也不例外，有檢索、分析、轉(zhuǎn)換和生成的主要四個(gè)階段。這被稱為基于分析和轉(zhuǎn)換的機(jī)器翻譯系統(tǒng)。也被認(rèn)為是模擬人類翻譯活動(dòng)最恰當(dāng)?shù)臋C(jī)制。,機(jī)器翻譯,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,72,20世紀(jì)50年代初到60年代中為大發(fā)展時(shí)期。但是由于當(dāng)時(shí)對(duì)機(jī)器翻譯的復(fù)雜性認(rèn)識(shí)不足而產(chǎn)生了過(guò)分的樂(lè)觀情 20世紀(jì)60年代中到70年代初由于遇到了困難而處于低潮時(shí)期。 20世紀(jì)80年代機(jī)器翻譯開(kāi)始復(fù)興，注意力幾乎都集中在人助自動(dòng)翻譯上，人助工作包括譯前編輯（或受限語(yǔ)言），翻譯期間的交互式解決問(wèn)題，譯后編輯等。幾乎所有的研究活動(dòng)都致力于在傳統(tǒng)的基于規(guī)則和“中間語(yǔ)言”模式的基礎(chǔ)上進(jìn)行語(yǔ)言分析和生成方法的探索，這些方法都伴有人工智能類型的知識(shí)庫(kù)。在20世紀(jì)90年代早期，機(jī)器翻譯研究被新興的基于語(yǔ)料庫(kù)的方法向前推進(jìn)，出現(xiàn)新的統(tǒng)計(jì)方法的引入以及基于案例的機(jī)器翻譯等。,機(jī)器翻譯,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,73,機(jī)器翻譯的一般過(guò)程包括：源語(yǔ)文輸入、識(shí)別與分析、生成與綜合和目標(biāo)語(yǔ)言輸出。當(dāng)源語(yǔ)文通過(guò)鍵盤(pán)或掃描器或話筒輸入計(jì)算機(jī)后，計(jì)算機(jī)首先對(duì)一個(gè)單詞逐一識(shí)別，再按照標(biāo)點(diǎn)符號(hào)和一些特征詞(往往是虛詞)識(shí)別句法和語(yǔ)義。然后查找機(jī)器內(nèi)存儲(chǔ)的詞典和句法表、語(yǔ)義表，把這些加工后的語(yǔ)文信息傳輸?shù)揭?guī)則系統(tǒng)中去。從源語(yǔ)文輸入的字符系列的表層結(jié)構(gòu)分析到深層結(jié)構(gòu)，在機(jī)器內(nèi)部就得到一種類似喬姆斯基語(yǔ)法分析的“樹(shù)形圖”。,機(jī)器翻譯,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,74,基于規(guī)則的機(jī)器翻譯流程圖,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,75,1.基于分析和轉(zhuǎn)換的機(jī)器翻譯方法基于分析和轉(zhuǎn)換的機(jī)器翻譯方法就是自動(dòng)實(shí)現(xiàn)源語(yǔ)言到目標(biāo)語(yǔ)言的轉(zhuǎn)換，它采取了一系列的分析和轉(zhuǎn)換的生成層次，使一個(gè)源語(yǔ)言句子經(jīng)過(guò)不同的中間表達(dá)形式，最終達(dá)到目標(biāo)語(yǔ)言句子的表示。其目的是盡可能地加深對(duì)源語(yǔ)言的理解，生成盡可能恰當(dāng)?shù)哪繕?biāo)語(yǔ)言形式。這種方法比較全面地體現(xiàn)了語(yǔ)言學(xué)知識(shí)在機(jī)器翻譯中的應(yīng)用，是了解機(jī)器翻譯實(shí)現(xiàn)過(guò)程的非常合適的模式。,機(jī)器翻譯的實(shí)現(xiàn)方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,76,句子經(jīng)過(guò)分析階段之后，進(jìn)入轉(zhuǎn)換和生成階段。這兩者一般聯(lián)系得比較緊密，有時(shí)無(wú)法嚴(yán)格區(qū)分，因?yàn)檗D(zhuǎn)換到目標(biāo)語(yǔ)言也就是要生成目標(biāo)語(yǔ)言的詞匯、短語(yǔ)、句子?？梢园丫渥咏Y(jié)構(gòu)的轉(zhuǎn)換也就是源語(yǔ)言的句法樹(shù)轉(zhuǎn)換長(zhǎng)合適的目標(biāo)語(yǔ)言對(duì)應(yīng)形式當(dāng)作轉(zhuǎn)換，而后續(xù)的許多處理都當(dāng)作生成階段的處理步驟看待。,基于分析和轉(zhuǎn)換的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,77,實(shí)質(zhì)上，機(jī)器翻譯方法對(duì)語(yǔ)言的處理就是在兩種語(yǔ)言之間搭一座橋，實(shí)現(xiàn)一種語(yǔ)言到另一種語(yǔ)言意義等價(jià)的轉(zhuǎn)換。它并非象自然語(yǔ)言理解那樣只是對(duì)一種語(yǔ)言的操作，只需作針對(duì)一種語(yǔ)言的分析。作為一個(gè)機(jī)器翻譯系統(tǒng)，它既要考慮源語(yǔ)言的語(yǔ)法和語(yǔ)義規(guī)律，也要考慮目標(biāo)語(yǔ)言的這方面規(guī)律，忽略了任何一方都是不行的。也就是說(shuō)，對(duì)于雙語(yǔ)互譯規(guī)律的發(fā)現(xiàn)和應(yīng)用才是機(jī)器翻譯最本質(zhì)的特征。所以，在詞、短語(yǔ)和句子這三個(gè)層次上尋找源語(yǔ)言的目標(biāo)語(yǔ)言翻譯的等價(jià)物是機(jī)器翻譯中轉(zhuǎn)換與生成的任務(wù)。,基于分析和轉(zhuǎn)換的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,78,通常，機(jī)器翻譯的研究中將轉(zhuǎn)換看做整個(gè)翻譯過(guò)程中的一個(gè)階段。然而，在語(yǔ)義結(jié)構(gòu)上進(jìn)行轉(zhuǎn)換卻是一種好的方式。語(yǔ)義結(jié)構(gòu)可以是跨語(yǔ)言的，有能力同時(shí)應(yīng)用于分析和生成。另一方面，當(dāng)機(jī)器翻譯系統(tǒng)的翻譯語(yǔ)言對(duì)擴(kuò)展時(shí)，還可以應(yīng)用于多種不同的語(yǔ)言。但要注意，大規(guī)模的自然語(yǔ)言語(yǔ)義描述相當(dāng)復(fù)雜，因而在機(jī)器翻譯系統(tǒng)中的應(yīng)用往往會(huì)受到限制，難以采用這樣的語(yǔ)義表示作為轉(zhuǎn)換的基本結(jié)構(gòu)。,基于分析和轉(zhuǎn)換的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,79,一般情況下，分析以句法為主、語(yǔ)義為輔，正確的句法結(jié)構(gòu)轉(zhuǎn)換加正確的詞匯譯文可以從源語(yǔ)言向目標(biāo)語(yǔ)言傳遞完整的正確信息。因此，以句法結(jié)構(gòu)轉(zhuǎn)換附加上一定的語(yǔ)義信息，能夠構(gòu)成轉(zhuǎn)換的基本層次。不足之處是：因?yàn)榫浞ǚ治龅慕Y(jié)果是面向源語(yǔ)言的，而要生成合適的目標(biāo)語(yǔ)言譯文，轉(zhuǎn)換部分常常引入許多目標(biāo)語(yǔ)言方面的約束，使得轉(zhuǎn)換規(guī)則變得復(fù)雜了。,基于分析和轉(zhuǎn)換的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,80,就標(biāo)準(zhǔn)的機(jī)器翻譯系統(tǒng)來(lái)說(shuō)，句子和短語(yǔ)層次的結(jié)構(gòu)轉(zhuǎn)換是機(jī)器翻譯轉(zhuǎn)換部分的研究重點(diǎn)。通常使用轉(zhuǎn)換規(guī)則，就可以實(shí)現(xiàn)源語(yǔ)言句法結(jié)構(gòu)到目標(biāo)語(yǔ)言句法結(jié)構(gòu)的轉(zhuǎn)換。這方面一般采用產(chǎn)生式方式的轉(zhuǎn)換規(guī)則形式： S：S1+S2+SiT1+T2+Tj ：T 上式理解為：S是SL（源語(yǔ)言）的某個(gè)待翻譯單位（句子、短語(yǔ)等等），S1Si是S中的下一級(jí)組成單位；對(duì)于S，如果滿足條件，則TL（目標(biāo)語(yǔ)言）中有T1Tj譯文構(gòu)成了相應(yīng)的等價(jià)物T。,基于分析和轉(zhuǎn)換的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,81,這樣的方法有兩個(gè)特點(diǎn)：一是面向源語(yǔ)言分析，因?yàn)樵凑Z(yǔ)言中的一個(gè)句子已經(jīng)由句法、語(yǔ)義分析等階段分析完畢，生成了關(guān)于源語(yǔ)言句子的某種中間表示，轉(zhuǎn)換以這種源語(yǔ)言中間表示作為輸入；二是直接轉(zhuǎn)換，即對(duì)于S表示，直接給出譯文形式，一般不需要在目標(biāo)語(yǔ)言內(nèi)再作進(jìn)一步轉(zhuǎn)換，T1Tj可以直接包括目標(biāo)語(yǔ)言的詞匯，也可以是對(duì)應(yīng)于S1Si的譯文組塊。,基于分析和轉(zhuǎn)換的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,82,上述方法稱為基于句法的轉(zhuǎn)換方法，因?yàn)?S1+S2+Si一般來(lái)說(shuō)就是源語(yǔ)言的的句法結(jié)構(gòu)表示；也可以稱為直接轉(zhuǎn)換方法，因?yàn)閷?duì)于每個(gè)源語(yǔ)言的翻譯組塊，都馬上給出一個(gè)目標(biāo)語(yǔ)言組塊與之對(duì)應(yīng)。應(yīng)該說(shuō)，這種轉(zhuǎn)換方法符合人的直覺(jué)認(rèn)識(shí)，也能夠?qū)崿F(xiàn)。,基于分析和轉(zhuǎn)換的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,83,基于中間語(yǔ)言的翻譯方法是對(duì)源語(yǔ)言進(jìn)行分析以后產(chǎn)生一種稱為中間語(yǔ)言的表示形式，然后直接由這種中間語(yǔ)言的表示形式生成目標(biāo)語(yǔ)言。所謂中間語(yǔ)言就是自然語(yǔ)言的計(jì)算機(jī)表示形式的系統(tǒng)化，它試圖創(chuàng)造出一種獨(dú)立于各種自然語(yǔ)言，同時(shí)又能表示各種自然語(yǔ)言的人工語(yǔ)言。,2. 基于中間語(yǔ)言的翻譯方法,基于中間語(yǔ)言的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,84,基于中間語(yǔ)言的機(jī)器翻譯方法主要有兩個(gè)優(yōu)點(diǎn)。首先，獨(dú)立的中間表示形式為多語(yǔ)種之間的互譯的實(shí)現(xiàn)提供了一種經(jīng)濟(jì)有效的途徑。假設(shè)要對(duì)N種語(yǔ)言進(jìn)行互譯，則有N(N-1)個(gè)語(yǔ)言對(duì)。不同方向的翻譯是不同的語(yǔ)言對(duì)。此時(shí)如果采用基于轉(zhuǎn)換的方法，因?yàn)榘岩环N語(yǔ)言翻譯成另一種語(yǔ)言都需要一個(gè)不同的轉(zhuǎn)換機(jī)制（或模塊），所以N(N-1)個(gè)語(yǔ)言對(duì)共需要N(N-1)個(gè)獨(dú)立的轉(zhuǎn)換機(jī)制。而采用中間語(yǔ)言的方法，由于對(duì)每一種語(yǔ)言只需實(shí)現(xiàn)將該種語(yǔ)言翻譯成中間語(yǔ)言和把中間語(yǔ)言翻譯成該種語(yǔ)言的目標(biāo)語(yǔ)言這樣兩個(gè)模塊，所以總共只需要2N個(gè)模塊。其次，中間語(yǔ)言不僅是對(duì)基于中間語(yǔ)言的機(jī)器翻譯方法這一特定目的有意義，同時(shí)，作為一種通用的自然語(yǔ)言表示，也值得深入研究。,基于中間語(yǔ)言的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,85,基于中間語(yǔ)言的機(jī)器翻譯方法的優(yōu)勢(shì)是無(wú)需一種語(yǔ)言到另一種語(yǔ)言的一一轉(zhuǎn)換，對(duì)于多語(yǔ)種的翻譯系統(tǒng)可以節(jié)約大量的轉(zhuǎn)換知識(shí)的手工獲取工作量。假如有N種語(yǔ)對(duì)需要相互翻譯，只要有2N個(gè)分析和生成模塊就夠了。其中一半是源語(yǔ)言分析模塊，輸入為原文，輸出以IL表示；另一半是目標(biāo)語(yǔ)言生成模塊，輸入為IL表示，輸出為目標(biāo)語(yǔ)言譯文。,基于中間語(yǔ)言的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,86,中間語(yǔ)言通常用語(yǔ)義概念表示，這些概念符號(hào)采用英語(yǔ)單詞符號(hào)或其它自行定義的符號(hào)來(lái)表示。大規(guī)模的IL需要大量的概念表示，需要生成對(duì)應(yīng)的概念詞典。如果用語(yǔ)義概念來(lái)描寫(xiě)一個(gè)句子，則構(gòu)成復(fù)雜的語(yǔ)義網(wǎng)絡(luò)。對(duì)于多語(yǔ)種的機(jī)器翻譯來(lái)說(shuō)，使用中間語(yǔ)言作為相互翻譯的中介是可取的。在理想狀態(tài)下，中間語(yǔ)言應(yīng)該沒(méi)有或極少有歧義，結(jié)構(gòu)嚴(yán)謹(jǐn)，詞匯單義，便于計(jì)算機(jī)處理。有了中間語(yǔ)言，一切源語(yǔ)言分析的結(jié)果和目標(biāo)語(yǔ)言生成的開(kāi)端都由它來(lái)表示。,基于中間語(yǔ)言的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,87,然而，中間語(yǔ)言的機(jī)器翻譯方法也常遭到懷疑。因?yàn)槭欠衲軌驑?gòu)造出表示各種不同的自然語(yǔ)言語(yǔ)法、語(yǔ)義的中間語(yǔ)言至少目前還是未知數(shù)。此外，中間語(yǔ)言能不能把各種語(yǔ)言的所有特征保留下來(lái)，又能很好生成對(duì)應(yīng)的各種語(yǔ)言也是問(wèn)題。所以，構(gòu)造中間語(yǔ)言是一個(gè)巨大、復(fù)雜的工程，還包含許多理論研究，迄今為止的探索還沒(méi)有好的答案。,基于中間語(yǔ)言的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,88,3.基于統(tǒng)計(jì)的機(jī)器翻譯方法基于統(tǒng)計(jì)的機(jī)器翻譯方法，一般不要任何語(yǔ)言學(xué)知識(shí)，它的基本原理是實(shí)現(xiàn)源語(yǔ)言詞匯到目標(biāo)語(yǔ)言詞匯的映射。其思路受到語(yǔ)音識(shí)別研究的啟發(fā)，因而應(yīng)用了類似的方法來(lái)實(shí)現(xiàn)。研究者用大規(guī)模的雙語(yǔ)語(yǔ)料庫(kù)作為基礎(chǔ)，對(duì)源語(yǔ)言和目標(biāo)語(yǔ)言詞匯的對(duì)應(yīng)關(guān)系進(jìn)行統(tǒng)計(jì)，根據(jù)統(tǒng)計(jì)規(guī)律輸出譯文。這種方法沒(méi)有使用語(yǔ)言知識(shí)，主要特征是概率統(tǒng)計(jì)與隨機(jī)過(guò)程的方法成為了分析和生成過(guò)程的唯一方法。它的主要內(nèi)容是雙語(yǔ)句對(duì)的對(duì)齊，通過(guò)詞匯同現(xiàn)的可能性來(lái)計(jì)算一種語(yǔ)言的一個(gè)詞映射到另一種語(yǔ)言的一個(gè)詞（或兩個(gè)、零個(gè)詞）的概率。應(yīng)該說(shuō)，基于統(tǒng)計(jì)的機(jī)器翻譯方法的出現(xiàn)改變了機(jī)器翻譯研究的面貌，從而開(kāi)始了機(jī)器翻譯研究的新階段。不過(guò)，有些學(xué)者也對(duì)純統(tǒng)計(jì)方法提出了異議，認(rèn)為必須引入高層語(yǔ)法、語(yǔ)義模型，顯然這是正確的。否則，基于統(tǒng)計(jì)的機(jī)器翻譯方法不可能產(chǎn)生高質(zhì)量。,基于統(tǒng)計(jì)的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,89,由于當(dāng)前計(jì)算機(jī)在運(yùn)算速度和存儲(chǔ)容量方面都有巨大的提高，可以獲取大量的機(jī)讀語(yǔ)料庫(kù)，因此在機(jī)器翻譯中應(yīng)用統(tǒng)計(jì)方法的條件已經(jīng)成熟。機(jī)器翻譯的噪聲通道模型可以視作最早的機(jī)器翻譯思想的某中復(fù)活，其思路可以這樣理解：假設(shè)說(shuō)話者已經(jīng)用目標(biāo)語(yǔ)想好了一句話T，但是說(shuō)出的卻是源語(yǔ)言句子S。這樣一個(gè)過(guò)程可以看成為編碼過(guò)程。而統(tǒng)計(jì)的機(jī)器翻譯就是要從S回推T，可以看成解碼過(guò)程。這樣，統(tǒng)計(jì)的機(jī)器翻譯任務(wù)分為兩個(gè)部分：一是建模，即建立翻譯的計(jì)算方法以及從雙語(yǔ)語(yǔ)料庫(kù)中估計(jì)模型的參數(shù)；二是解碼，即尋求一種高效搜索算法取有關(guān)概率計(jì)算的最大值。,基于統(tǒng)計(jì)的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,90,在概率計(jì)算的前后，轉(zhuǎn)換是進(jìn)行有關(guān)預(yù)處理和后處理，例如句子當(dāng)中的日期、時(shí)間、數(shù)字、人名等應(yīng)該用適當(dāng)?shù)念悇e標(biāo)志加以替換，以便更好地進(jìn)行計(jì)算，計(jì)算后再換回來(lái)。因?yàn)檫@類詞不屬于一般的詞匯，單詞本身在語(yǔ)料庫(kù)中的出現(xiàn)缺乏代表性。建模就是設(shè)計(jì)各個(gè)模型的計(jì)算公式。因?yàn)橹苯佑?jì)算某個(gè)句子出現(xiàn)的概率是比較困難的，語(yǔ)料庫(kù)不可能足夠大到包含所有句子，必須進(jìn)行合理的、適當(dāng)?shù)暮?jiǎn)化。這是統(tǒng)計(jì)方法的特點(diǎn)，所得到的結(jié)果是近似值，但是因?yàn)楦怕时旧砭筒皇蔷_的，所以這些近似完全可以接受。,基于統(tǒng)計(jì)的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,91,總之，基于統(tǒng)計(jì)的機(jī)器翻譯方法可以簡(jiǎn)單的這樣看：將原始的某個(gè)句子按詞折開(kāi)，然后全部單詞存儲(chǔ)；翻譯則是取出，按概率統(tǒng)計(jì)的方法重組句子，這樣的句子就是統(tǒng)計(jì)方法的翻譯結(jié)果。當(dāng)然，我們還是認(rèn)為應(yīng)該加強(qiáng)統(tǒng)計(jì)方法與語(yǔ)法分析、語(yǔ)義分析相結(jié)合的研究。,基于統(tǒng)計(jì)的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,92,4.基于記憶的機(jī)器翻譯方法建立機(jī)器翻譯系統(tǒng)需要大量的知識(shí)。在基于轉(zhuǎn)換和基于中間語(yǔ)言的機(jī)器翻譯方法中，知識(shí)按一定規(guī)則譯成代碼，這既耗時(shí)花費(fèi)也大。此外，知識(shí)獲取瓶頸阻礙了機(jī)器翻譯的快速發(fā)展，這是早期機(jī)器翻譯面臨的重大難題。為克服這一困難，除了上節(jié)介紹的統(tǒng)計(jì)方法外，日本機(jī)器翻譯專家Nagao在80年代提出了一種新方法，用已經(jīng)存在的翻譯實(shí)例（雙語(yǔ)文本）作為知識(shí)源，這種方法稱為基于記憶的翻譯，后來(lái)普遍稱為基于實(shí)例的翻譯?；趯?shí)例的思想已被廣泛的采用，既用于機(jī)器翻譯的設(shè)計(jì)，也用于機(jī)器翻譯不同處理階段的實(shí)現(xiàn)中。用不斷積累的已經(jīng)譯好的文本作為機(jī)器翻譯的樣本的思想，也是具有吸引力的。,基于記憶的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,93,基于記憶的機(jī)器翻譯方法通過(guò)結(jié)構(gòu)化的翻譯例子直接把源語(yǔ)言的短語(yǔ)和句子與目標(biāo)語(yǔ)言的短語(yǔ)和句子對(duì)應(yīng)起來(lái)。方法的不同使得處理步驟或多或少，但都必須實(shí)現(xiàn)源語(yǔ)言到目標(biāo)語(yǔ)言的轉(zhuǎn)換，其映射關(guān)系或者是詞到詞，或者是短語(yǔ)或句子到與之相應(yīng)的等價(jià)物，或者是一棵句法樹(shù)到另一棵句法樹(shù)。基于記憶的機(jī)器翻譯（EBMT）的實(shí)現(xiàn)過(guò)程簡(jiǎn)單概述如下：給定源語(yǔ)言輸入句子S，在雙語(yǔ)語(yǔ)料庫(kù)C中匹配查找一個(gè)最相近的句子S, 則S的譯文T就被接受為S的譯文。,基于記憶的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理,94,翻譯的過(guò)程一般就是查找和復(fù)現(xiàn)相似的例子，發(fā)現(xiàn)和記起特定的源語(yǔ)言表達(dá)或相似的表達(dá)在以前是如何翻譯的，把以前的翻譯實(shí)例作為主要知識(shí)源。基于記憶的機(jī)器翻譯方法的基本思想：（1）把翻譯實(shí)例存入翻譯數(shù)據(jù)庫(kù)。例如，存入漢語(yǔ)和英語(yǔ)句子對(duì)；（2）對(duì)輸入的句子，在翻譯數(shù)據(jù)庫(kù)中檢索類似的翻譯例句；（3）調(diào)整實(shí)例后生成譯文。,基于記憶的機(jī)器翻譯方法,2019/7/16,史忠植人工智能：自然語(yǔ)言處理

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

人工智能ArtificialIntelligence第八章.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

人工智能ArtificialIntelligence第八章.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔