人工智能導(dǎo)論課件第11章第3節(jié)_第1頁
人工智能導(dǎo)論課件第11章第3節(jié)_第2頁
人工智能導(dǎo)論課件第11章第3節(jié)_第3頁
人工智能導(dǎo)論課件第11章第3節(jié)_第4頁
人工智能導(dǎo)論課件第11章第3節(jié)_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1基礎(chǔ)期2符號與隨機(jī)方法3四種范式4經(jīng)驗(yàn)主義和有限狀態(tài)模型第3節(jié)5大融合6機(jī)器學(xué)習(xí)的興起1基礎(chǔ)期2符號與隨機(jī)方法3四種范式4經(jīng)驗(yàn)主義和有限狀態(tài)模型第11.3 自然語言處理的歷史最早的自然語言理解方面的研究工作是機(jī)器翻譯。1949年,美國人威弗首先提出了機(jī)器翻譯設(shè)計(jì)方案,此后,自然語言處理歷史大致分為6個(gè)時(shí)期。表11-1 NLP的6個(gè)時(shí)期11.3 自然語言處理的歷史最早的自然語言理解方面的研究工11.3.1 基礎(chǔ)期(20世紀(jì)40年代和50年代)自然語言處理的歷史可追溯到以圖靈的計(jì)算算法模型為基礎(chǔ)的計(jì)算機(jī)科學(xué)發(fā)展之初。在奠定了初步基礎(chǔ)后,該領(lǐng)域出現(xiàn)了許多子領(lǐng)域,每個(gè)子領(lǐng)域都為計(jì)算機(jī)進(jìn)一步的研究提供

2、了沃土。圖靈的工作導(dǎo)致了其他計(jì)算模型的產(chǎn)生,如McCulloch-Pitts神經(jīng)元,它是對人類神經(jīng)元進(jìn)行建模,具有多個(gè)輸入,并且只有組合輸入超過閾值時(shí)才產(chǎn)生輸出。之后是史蒂芬科爾克萊尼在有限自動機(jī)和正則表達(dá)式方面的工作,它們在計(jì)算語言學(xué)和理論計(jì)算機(jī)科學(xué)中發(fā)揮了重要作用。11.3.1 基礎(chǔ)期(20世紀(jì)40年代和50年代)自然語言11.3.1 基礎(chǔ)期(20世紀(jì)40年代和50年代)香農(nóng)在有限自動機(jī)中引入了概率,使得這些模型在語言模糊表示方面變得更加強(qiáng)大。這些具有概率的有限自動機(jī)基于數(shù)學(xué)中的馬爾可夫模型,它們在自然語言處理的下一個(gè)重大發(fā)展中起著至關(guān)重要的作用。采納了Shannon的觀點(diǎn),諾姆喬姆斯基對

3、形式語法的工作產(chǎn)生主要影響,建立了計(jì)算語言學(xué)。Chomsky使用有限自動機(jī)描述形式語法,他按照生成語言的語法定義了語言?;谛问秸Z言理論,語言可以被視為一組字符串,并且每個(gè)字符串可以被視為由有限自動機(jī)產(chǎn)生的符號序列。11.3.1 基礎(chǔ)期(20世紀(jì)40年代和50年代)香農(nóng)在有11.3.1 基礎(chǔ)期(20世紀(jì)40年代和50年代)在構(gòu)建這個(gè)領(lǐng)域的過程中,Shannon與Chomsky對自然語言處理的早期工作產(chǎn)生了另一個(gè)重大的影響。特別是Shannon的噪聲通道模型,對語言處理中概率算法的發(fā)展至關(guān)重要。在噪聲通道模型中,假設(shè)輸入由于噪聲變得模糊不清,則必須從噪聲輸入中恢復(fù)原始詞。在概念上,Shannon

4、對待輸入就好像輸入已經(jīng)通過了一個(gè)嘈雜的通信通道?;谠撃P?,Shannon使用概率方法找出輸入和可能詞之間的最佳匹配。11.3.1 基礎(chǔ)期(20世紀(jì)40年代和50年代)在構(gòu)建這11.3.2 符號與隨機(jī)方法(19571970)從早期思想中,自然語言處理顯然可以從兩個(gè)不同的角度考慮,即符號和隨機(jī)。Chomsky的形式語言理論體現(xiàn)了符號的方法。基于這種觀點(diǎn),語言包含了一系列的符號,這些符號序列必須遵循其生成語法的句法規(guī)則。這種觀點(diǎn)將語言結(jié)構(gòu)簡化為一組明確規(guī)定的規(guī)則,允許將每個(gè)句子和單詞分解成結(jié)構(gòu)組分。人們發(fā)展了解析算法,將輸入分解成更小的意義單元和結(jié)構(gòu)單元,帶來了幾種不同的策略,如自上而下的解析和自

5、下而上的解析。澤里格哈里斯發(fā)展了轉(zhuǎn)換和話語分析項(xiàng)目,后來的解析算法工作使用動態(tài)規(guī)劃的概念,將中間結(jié)果存儲在表中,構(gòu)建最佳可能的解析。11.3.2 符號與隨機(jī)方法(19571970)從早期思11.3.2 符號與隨機(jī)方法(19571970)因此,符號方法強(qiáng)調(diào)了語言結(jié)構(gòu)以及對輸入的解析,使輸入的語句轉(zhuǎn)換成結(jié)構(gòu)單元。另一個(gè)主要方法是隨機(jī)方法,這種方法更關(guān)注使用概率來表示語言中的模糊性。來自數(shù)學(xué)領(lǐng)域的貝葉斯方法用于表示條件概率。這種方法的早期應(yīng)用包括光學(xué)字符識別以及布菜索和布朗尼建立的早期文本識別系統(tǒng)。給定一個(gè)字典,通過將字母序列中所包含的每個(gè)字母的似然值進(jìn)行相乘,我們可以計(jì)算得到字母序列的似然值。11

6、.3.2 符號與隨機(jī)方法(19571970)因此,符11.3.3 4種范式(19701983)這一時(shí)期由4種范式主導(dǎo):(1)隨機(jī)方法。在語音識別和解碼方面,隨機(jī)方法被應(yīng)用到了噪聲通道模型的早期工作,馬爾可夫模型被修改成為隱馬爾可夫模型(HMM),進(jìn)一步表示模糊性和不確定性。在語音識別的發(fā)展中,AT&T的貝爾實(shí)驗(yàn)室、IBM的托馬斯 J. 華盛頓研究中心和普林斯頓大學(xué)的國防分析研究所都發(fā)揮了關(guān)鍵作用。這一時(shí)期,隨機(jī)方法開始占據(jù)主導(dǎo)地位。11.3.3 4種范式(19701983)這一時(shí)期由4種11.3.3 4種范式(19701983)(2)符號方法做出了重要貢獻(xiàn),自然語言處理是繼經(jīng)典符號方法后的另一

7、個(gè)發(fā)展方向。這個(gè)研究領(lǐng)域可以追溯到甚至是1956年的“人工智能”達(dá)特茅斯大會。在所建立的系統(tǒng)中,AI研究人員開始強(qiáng)調(diào)所使用的基本推理和邏輯,例如紐厄爾和西蒙的邏輯理論家系統(tǒng)和一般求解器系統(tǒng)。為了使這些系統(tǒng)“合理化”它們的方式,給出解決方案,系統(tǒng)必須通過語言來“理解”問題。因此,在這些AI系統(tǒng)中,自然語言處理成為一個(gè)應(yīng)用,這樣就可以允許這些系統(tǒng)通過識別輸入問題中的文本模式回答問題。11.3.3 4種范式(19701983)(2)符號方法11.3.3 4種范式(19701983)(3)基于邏輯的系統(tǒng)。使用形式邏輯來表示語言處理中所涉及的計(jì)算。主要的貢獻(xiàn)包括Colmerauer及其同事在變形語法方面

8、的工作,佩雷拉和沃倫在確定子句語法方面的工作,凱(Kay)在功能語法方面的工作,以及布魯斯南和卡普蘭在詞匯功能語法方面的工作。11.3.3 4種范式(19701983)(3)基于邏輯11.3.3 4種范式(19701983)20世紀(jì)70年代,隨著威諾格拉德的SHRDLU系統(tǒng)的誕生,自然語言處理迎來了它最具有生產(chǎn)力的時(shí)期。SHRDLU系統(tǒng)是一個(gè)仿真系統(tǒng),在該系統(tǒng)中,機(jī)器人將積木塊移動到不同的位置。機(jī)器人響應(yīng)來自用戶的命令,將適合的積木塊移動到彼此的頂部。例如,如果用戶要求機(jī)器人將藍(lán)色塊移動到較大的紅色塊頂上,那么機(jī)器人將成功地理解并遵循該命令。這個(gè)系統(tǒng)將自然語言處理推至一個(gè)新的復(fù)雜程度,指向更高

9、級的解析使用方式。解析不是簡單地關(guān)注語法,而是在意義和話語的層面上使用,這樣才能允許系統(tǒng)更成功地解釋命令。11.3.3 4種范式(19701983)20世紀(jì)70年11.3.3 4種范式(19701983)同樣,耶魯大學(xué)的Roger Schank及其同事在系統(tǒng)中建立了更多有關(guān)意義的概念知識。Schank使用諸如腳本和框架這樣的模型來組織系統(tǒng)可用的信息。例如,如果系統(tǒng)應(yīng)該回答有關(guān)餐廳訂單的問題,那么應(yīng)該將與餐館相關(guān)聯(lián)的一般信息提供給系統(tǒng)。腳本可以捕獲與己知場景相關(guān)聯(lián)的典型細(xì)節(jié)信息,系統(tǒng)將使用這些關(guān)聯(lián)回答關(guān)于這些場景的問題。其他系統(tǒng),如LUNAR(用于回答關(guān)于月亮巖石的問題),將自然語言理解與基于邏

10、輯的方法相結(jié)合,使用謂詞邏輯作為語義表達(dá)式。因此,這些系統(tǒng)結(jié)合了更多的語義知識,擴(kuò)展了符號方法的能力,使其從語法規(guī)則擴(kuò)展到語義理解。11.3.3 4種范式(19701983)同樣,耶魯大學(xué)11.3.3 4種范式(19701983)(4)在格羅茲的工作中,最有特色的是話語建模范式,她和同事引入并集中研究話語和話語焦點(diǎn)的子結(jié)構(gòu)上,而西德納引入了首語重復(fù)法?;舨妓沟妊芯空咭苍谶@一領(lǐng)域做出了貢獻(xiàn)。11.3.3 4種范式(19701983)(4)在格羅茲11.3.4 經(jīng)驗(yàn)主義和有限狀態(tài)模型(19831993)20世紀(jì)80年代和90年代初,隨著早期想法的再次流行,有限狀態(tài)模型等符號方法得以繼續(xù)發(fā)展。Kap

11、lan和Kay在有限狀態(tài)語音學(xué)和詞法學(xué)方面的研究以及丘奇在有限狀態(tài)語法模型方面的研究,帶來了它們的復(fù)興。在這一時(shí)期,人們將第二個(gè)趨勢稱為“經(jīng)驗(yàn)主義的回歸”。這種方法受到IBM的Thomas J. Watson研究中心工作的高度影響,這個(gè)研究中心在語音和語言處理中采用概率模型。與數(shù)據(jù)驅(qū)動方法相結(jié)合的概率模型,將研究的重點(diǎn)轉(zhuǎn)移到了對詞性標(biāo)注、解析、附加模糊度和語義學(xué)的研究。經(jīng)驗(yàn)方法也帶來了模型評估的新焦點(diǎn),為評估開發(fā)了量化指標(biāo)。其重點(diǎn)是與先前所發(fā)表的研究進(jìn)行性能方面的比較。11.3.4 經(jīng)驗(yàn)主義和有限狀態(tài)模型(19831993)11.3.5 大融合(19941999)這一時(shí)期的變化表明,概率和數(shù)據(jù)

12、驅(qū)動的方法在語音研究的各個(gè)方面(包括解析、詞性標(biāo)注、參考解析和話語處理的算法)成了NLP研究的標(biāo)準(zhǔn)。它融合了概率,并采用從語音識別和信息檢索中借鑒來的評估方法。這一切都似乎與計(jì)算機(jī)速度和內(nèi)存的快速增長相契合,計(jì)算機(jī)速度和內(nèi)存的增長讓人們可以在商業(yè)中利用各種語音和語言處理子領(lǐng)域的發(fā)展,特別是包括帶有拼寫和語法校正的語音識別子區(qū)域。同樣重要的是,Web的興起強(qiáng)調(diào)了基于語言的檢索和基于語言的信息提取的可能性和需求。11.3.5 大融合(19941999)這一時(shí)期的變化表11.3.6 機(jī)器學(xué)習(xí)的興起(20002008)進(jìn)入20世紀(jì),標(biāo)志著一個(gè)重要的發(fā)展:語言數(shù)據(jù)聯(lián)盟(LDC)之類的組織提供了大量可用的

13、書面和口頭材料。如Penn Treebank這樣的集合注釋了具有句法和語義信息的書面材料。在開發(fā)新的語言處理系統(tǒng)時(shí),這種資源的價(jià)值立刻得以顯現(xiàn)。通過比較系統(tǒng)化的解析和注釋,新系統(tǒng)可以得到訓(xùn)練。監(jiān)督機(jī)器學(xué)習(xí)成為解決諸如解析和語義分析等傳統(tǒng)問題的主要部分。11.3.6 機(jī)器學(xué)習(xí)的興起(20002008)進(jìn)入2011.3.6 機(jī)器學(xué)習(xí)的興起(20002008)隨著計(jì)算機(jī)的速度和內(nèi)存的不斷增加,可用的高性能計(jì)算系統(tǒng)加速了這一發(fā)展。隨著大量用戶可用更多的計(jì)算能力,語音和語言處理技術(shù)可以應(yīng)用于商業(yè)領(lǐng)域。特別是在各種環(huán)境中,具有拼寫/語法校正工具的語音識別變得更加常用。由于信息檢索和信息提取成了Web應(yīng)用的關(guān)鍵部分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論