




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第2版人工智能通識教程第11章周蘇教授QQ:81505050自然語言處理導(dǎo)讀案例:機(jī)器翻譯:大數(shù)據(jù)簡單算法與小數(shù)據(jù)復(fù)雜算法2006年,谷歌公司開始涉足機(jī)器翻譯。這被當(dāng)作實(shí)現(xiàn)“收集全世界的數(shù)據(jù)資源,并讓人人都可享受這些資源”這個(gè)目標(biāo)的一個(gè)步驟。谷歌翻譯開始利用一個(gè)更大更繁雜的數(shù)據(jù)庫,也就是全球的互聯(lián)網(wǎng),而不再只利用兩種語言之間的文本翻譯。01語言的問題和可能性02什么是自然語言處理03語法類型與語義分析04處理數(shù)據(jù)與處理工具目錄/CONTENTS05語音處理自然語言處理(NaturalLanguageProcessing,NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實(shí)現(xiàn)自然語言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。第11章自然語言處理PART01語言的問題和可能性人類大約在10萬年前學(xué)會了如何說話,大約5千年前學(xué)會了如何寫字。人類語言的復(fù)雜性和多樣性使得智人區(qū)別于其他所有物種。當(dāng)然,人類還有一些其他的特有屬性:沒有任何其他物種像人類那樣穿衣服,進(jìn)行藝術(shù)創(chuàng)作,或者每天花兩小時(shí)在社交媒體上交流。但是,圖靈提出的智能測試是基于語言的,而非藝術(shù)或服飾,也許是因?yàn)檎Z言具有普適性,并且捕捉到了如此多的智能行為:一個(gè)演講者演講(或作家寫作)的目標(biāo)是交流知識,他組織語言來表示這些知識,然后采取行動以實(shí)現(xiàn)這一目標(biāo)。聽眾(或讀者)感知他們的語言并推斷其中的含義。11.1語言的問題和可能性這種通過語言的交流促進(jìn)了文明的發(fā)展,是我們傳播文化、法律、科學(xué)和技術(shù)知識的主要方式。語言是人類區(qū)別于其他動物的本質(zhì)特性。在所有生物中,只有人類才具有語言能力,人類的智能與語言密切相關(guān)。人類的邏輯思維以語言為形式,人類的絕大部分知識也是以語言文字的形式記載和流傳下來的。11.1語言的問題和可能性口語是人類之間最常見、最古老的語言交流形式,使我們能夠進(jìn)行同步對話——可以與一個(gè)或多個(gè)人進(jìn)行交互式交流,讓我們變得更具表現(xiàn)力,最重要的是,也可以讓我們彼此傾聽。雖然語言有其精確性,卻很少有人會非常精確地使用語言。兩方或多方說的不是同一種語言,對語言有不同的解釋,詞語沒有被正確理解,聲音可能聽不清或很含糊,又或者受到地方方言的影響,此時(shí),口語就會導(dǎo)致誤解。11.1語言的問題和可能性試思考下列一些通信方式,思考這些方式在正常使用的情況下怎么會導(dǎo)致溝通不暢:電話——聲音可能聽不清楚,一個(gè)人的話可能被誤解,雙方對語言理解構(gòu)成了其獨(dú)特的問題集,存在錯(cuò)誤解釋、錯(cuò)誤理解、錯(cuò)誤回顧等許多可能性。手寫信——可能難以辨認(rèn),容易發(fā)生各種書寫錯(cuò)誤;郵局可能會丟失信件:發(fā)信人和日期可以省略。11.1語言的問題和可能性打字信——速度不夠快,信件的來源及其背后的真實(shí)含義可能被誤解,可能不夠正式。電子郵件——需要上網(wǎng),容易造成上下文理解錯(cuò)誤和誤解其意圖。微信消息——精確、快速,可能同步但仍然不像說話那樣流暢。記錄可以得到保存。短信——需要手機(jī),長度有限,可能難以編寫(如鍵盤小,有時(shí)不能發(fā)短信等)。11.1語言的問題和可能性語言既是精確也是模糊的。在法律或科學(xué)事務(wù)中,語言需要得到精確使用;又或者它可以有意地以“藝術(shù)”的方式(例如詩歌或小說)使用。作為交流的一種形式,書面語或口語又可能是模糊的。11.1語言的問題和可能性示例11-1“音樂會結(jié)束后,我要在酒吧見到你?!北M管很多缺失的細(xì)節(jié)使得這個(gè)約會可能不會成功,但是這句話的意圖是明確的。如果音樂廳里有多個(gè)酒吧怎么辦?音樂會可能就在酒吧里,我們音樂會后相見嗎?相見的確切時(shí)間是什么?你愿意等待多久?語句“音樂會結(jié)束后”表明了意圖,但是不明確。經(jīng)過一段時(shí)間后,雙方將會做什么呢?他們遇到對方了嗎?11.1語言的問題和可能性示例11-2“在第三盞燈那里右轉(zhuǎn)?!边@句話的意圖是明確的,但是省略了很多細(xì)節(jié)。燈有多遠(yuǎn)?它們可能會相隔幾個(gè)街區(qū)或者相距幾公里。當(dāng)方向給出后,提供更精確的信息(如距離、地標(biāo)等)將有助于駕駛指導(dǎo)。11.1語言的問題和可能性可以看到,語言中有許多含糊之處,可以想象語言理解可能會給機(jī)器帶來的問題。對計(jì)算機(jī)而言,理解語音無比困難,但理解文本就簡單得多。文本語言可以提供記錄(無論是書、文檔、電子郵件還是其他形式),這是明顯的優(yōu)勢,但是文本語言缺乏口語所能提供的自發(fā)性、流動性和交互性。11.1語言的問題和可能性PART02什么是自然語言處理使用自然語言與計(jì)算機(jī)進(jìn)行通信,這是人們長期以來所追求的。因?yàn)樗扔忻黠@的實(shí)際意義,同時(shí)也有重要的理論意義:人們可以用自己最習(xí)慣的語言來使用計(jì)算機(jī),而無需再花大量的時(shí)間和精力去學(xué)習(xí)不很自然和不習(xí)慣的各種計(jì)算機(jī)語言;人們也可以通過它進(jìn)一步了解人類的語言能力和智能的機(jī)制。11.2什么是自然語言處理自然語言會話是人工智能發(fā)展史上從早期開始就被關(guān)注的主題之一。開發(fā)智能系統(tǒng)的任何嘗試,最終似乎都必須解決一個(gè)問題,即使用何種形式的標(biāo)準(zhǔn)進(jìn)行交流,比起使用圖形系統(tǒng)或基于數(shù)據(jù)系統(tǒng)的交流,語言交流通常是首選。11.2.1自然語言處理的原因計(jì)算機(jī)進(jìn)行自然語言處理有以下3個(gè)主要原因。(1)與人類交流。很多情況下,人類使用語音與計(jì)算機(jī)進(jìn)行交互很方便,而且在大多數(shù)情況下,使用自然語言要比使用形式語言更加方便。(2)學(xué)習(xí)。人類已經(jīng)用自然語言記錄了很多知識。例如某個(gè)百科網(wǎng)站就有3000萬頁事實(shí)知識,例如“嬰猴是一種夜間活動的小型靈長類動物”,然而幾乎沒有任何一個(gè)這樣的知識來源是用形式邏輯寫成的。如果我們想讓計(jì)算機(jī)系統(tǒng)知道很多知識,它最好能理解自然語言。(3)使用人工智能工具有助于結(jié)合語言學(xué)、認(rèn)知心理學(xué)和神經(jīng)科學(xué),促進(jìn)對語言和語言使用的科學(xué)理解。11.2.1自然語言處理的原因?qū)崿F(xiàn)人機(jī)間自然語言通信意味著要使計(jì)算機(jī)既能理解自然語言文本的意義,也能以自然語言文本來表達(dá)給定的意圖、思想等。前者稱為自然語言理解,后者稱為自然語言生成,因此,自然語言處理大體包括了這兩個(gè)部分。11.2.2自然語言處理的方法從現(xiàn)有的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的自然語言處理系統(tǒng)仍然是較長期的努力目標(biāo),但是針對一定應(yīng)用,具有相當(dāng)自然語言處理能力的實(shí)用系統(tǒng)已經(jīng)出現(xiàn),有些已商品化甚至產(chǎn)業(yè)化。典型的例子有:多語種數(shù)據(jù)庫和專家系統(tǒng)的自然語言接口、各種機(jī)器翻譯系統(tǒng)、全文信息檢索系統(tǒng)、自動文摘系統(tǒng)等。11.2.2自然語言處理的方法造成自然語言處理困難的根本原因是自然語言文本和對話的各個(gè)層次上廣泛存在的各種各樣的歧義性或多義性。一個(gè)中文文本從形式上看是由漢字(包括標(biāo)點(diǎn)符號等)組成的一個(gè)字符串。由字組成詞,由詞組成詞組,由詞組組成句子,進(jìn)而由一些句子組成段、節(jié)、章、篇。無論在字(符)、詞、詞組、句子、段各種層次,還是在下一層次向上一層次轉(zhuǎn)變中,都存在著歧義和多義現(xiàn)象,即形式上一樣的一段字符串,在不同的場景或不同的語境下,可以理解成不同的詞串、詞組串等,并有不同的意義。11.2.2自然語言處理的方法反過來,一個(gè)相同或相近的意義同樣也可以用多個(gè)文本或多個(gè)字串來表示。一般情況下,它們中的大多數(shù)都可以根據(jù)相應(yīng)的語境和場景的規(guī)定而得到解決的。也就是說,從總體上說,并不存在歧義。這也就是我們平時(shí)并不感到自然語言歧義,和能用自然語言進(jìn)行正確交流的原因。我們也看到,為了消解歧義,需要大量的知識和進(jìn)行推理。如何將這些知識較完整地加以收集和整理出來;又如何找到合適的形式,將它們存入計(jì)算機(jī)系統(tǒng)中去;以及如何有效地利用它們來消除歧義,都是工作量極大且十分困難的工作。11.2.2自然語言處理的方法自然語言的形式(字符串)與其意義之間是一種多對多的關(guān)系,其實(shí)這也正是自然語言的魅力所在。但從計(jì)算機(jī)處理的角度看,人們必須消除歧義,要把帶有潛在歧義的自然語言輸入轉(zhuǎn)換成某種無歧義的計(jì)算機(jī)內(nèi)部表示。11.2.2自然語言處理的方法以基于語言學(xué)的方法、基于知識的方法為主流的自然語言處理研究所存在的問題主要有兩個(gè)方面:一方面,迄今為止的語法都限于分析一個(gè)孤立的句子,上下文關(guān)系和談話環(huán)境對本句的約束和影響還缺乏系統(tǒng)的研究,因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規(guī)律可循,需要加強(qiáng)語用學(xué)的研究才能逐步解決。11.2.2自然語言處理的方法另一方面,人理解一個(gè)句子不是單憑語法,還運(yùn)用了大量的有關(guān)知識,包括生活知識和專門知識,這些知識無法全部貯存在計(jì)算機(jī)里。因此一個(gè)書面理解系統(tǒng)只能建立在有限的詞匯、句型和特定的主題范圍內(nèi);計(jì)算機(jī)的貯存量和運(yùn)轉(zhuǎn)速度大大提高之后,才有可能適當(dāng)擴(kuò)大范圍。11.2.2自然語言處理的方法自然語言處理是一個(gè)非常大的領(lǐng)域,它的一些主要任務(wù)包括如下。(1)語音識別。是將語音轉(zhuǎn)換為文本的任務(wù)。之后我們可以對生成的文本執(zhí)行進(jìn)一步的任務(wù)(如問答)。取決于測試集的具體情況,語音識別系統(tǒng)的單詞錯(cuò)誤率大約為3%~5%,與人工轉(zhuǎn)錄員的錯(cuò)誤率相近。語音識別系統(tǒng)面臨的挑戰(zhàn)是即使個(gè)別單詞有錯(cuò)誤,也要做出適當(dāng)?shù)捻憫?yīng)。11.2.3自然語言處理的任務(wù)頂級語音識別系統(tǒng)結(jié)合了循環(huán)神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型。2011年,語音領(lǐng)域引入深度神經(jīng)網(wǎng)絡(luò),錯(cuò)誤率立即顯著改進(jìn)了約30%——這一領(lǐng)域似乎已經(jīng)成熟,之前每年的改進(jìn)只有幾個(gè)百分點(diǎn)。語音識別問題具有自然的成分分解,所以非常適合使用深度神經(jīng)網(wǎng)絡(luò):從波形到音素再到單詞最后到句子。11.2.3自然語言處理的任務(wù)(2)文本-語音合成。是與語音識別相反的過程——將文本轉(zhuǎn)換為聲音。文本-語音合成面臨的挑戰(zhàn)是如何對每個(gè)單詞正確發(fā)音,同時(shí)通過適當(dāng)?shù)耐nD和強(qiáng)調(diào)讓每個(gè)句子聽起來自然流暢。另一個(gè)發(fā)展領(lǐng)域是合成不同的聲音——從普通男性或女性的聲音開始,接著可以合成地方方言,甚至模仿名人的聲音。與語音識別一樣,深層循環(huán)神經(jīng)網(wǎng)絡(luò)的引入為文本-語音合成帶來了巨大的進(jìn)步,大約2/3的聽者認(rèn)為,采用神經(jīng)網(wǎng)絡(luò)的語音處理系統(tǒng)比之前的非神經(jīng)網(wǎng)絡(luò)系統(tǒng)聽起來更自然。11.2.3自然語言處理的任務(wù)(3)機(jī)器翻譯。將文本從一種語言轉(zhuǎn)換到另一種語言,其發(fā)展態(tài)勢如圖11-5所示。系統(tǒng)通常使用雙語語料庫進(jìn)行訓(xùn)練。例如,一組成對的文檔,每對文檔的其中一個(gè)使用英語,而另一個(gè)使用中文。不需要以任何方式對文檔進(jìn)行標(biāo)記;機(jī)器翻譯系統(tǒng)學(xué)習(xí)如何對齊句子和短語,然后當(dāng)遇到其中一種語言的新語句時(shí),可以生成另一種語言的翻譯。
圖11-5機(jī)器翻譯發(fā)展歷程11.2.3自然語言處理的任務(wù)21世紀(jì)早期的機(jī)器翻譯系統(tǒng)使用n元模型,系統(tǒng)通常能夠理解文本的含義,但大多數(shù)句子都包含文法錯(cuò)誤。一個(gè)問題是n元的長度限制:即使將限制放大到7,信息也很難從句子的一端傳遞到另一端。另一個(gè)問題是,一個(gè)n元模型中的所有信息都位于單個(gè)單詞的層級。這樣的系統(tǒng)可以學(xué)習(xí)將“blackcat(英語:黑貓)”翻譯成“chatnoir(法語:黑貓)”,但是卻不能學(xué)到英語中形容詞通常在名詞之前而法語中形容詞通常在名詞之后這樣的規(guī)則。11.2.3自然語言處理的任務(wù)序列到序列循環(huán)神經(jīng)網(wǎng)絡(luò)模型解決了這一問題。它們可以更好地泛化,并且可以在整個(gè)深度網(wǎng)絡(luò)的不同層級上形成組合模型,從而有效地傳遞信息。之后的工作使用Transformer(“變壓器”)模型的注意力機(jī)制,提高了翻譯性能,對這兩種模型各方面進(jìn)行結(jié)合的混合模型則進(jìn)一步提升了效果,在某些語言對上達(dá)到了人類水平的表現(xiàn)。11.2.3自然語言處理的任務(wù)(4)信息提取。是通過瀏覽文本并查找文本中特定類別的對象及其關(guān)系來獲取知識的過程。典型的任務(wù)包括,從網(wǎng)頁中提取地址實(shí)例獲取街道名、城市名、地區(qū)名以及郵政編碼等數(shù)據(jù)庫字段;從天氣預(yù)報(bào)中提取暴風(fēng)雨信息,獲取溫度、風(fēng)速以及降水量等字段。如果源文本具有很好的結(jié)構(gòu)(如以表格的形式),那么像正則表達(dá)式之類的簡單技術(shù)就可以進(jìn)行信息提取。11.2.3自然語言處理的任務(wù)如果我們試圖提取所有事實(shí),而不僅是特定類型(如天氣預(yù)報(bào)),那么提取會變得更加困難;TextRunner(文本運(yùn)行程序)系統(tǒng)在一個(gè)開放的不斷擴(kuò)展的關(guān)系集上進(jìn)行信息提取。對于自由格式的文本,可以使用隱馬爾可夫模型和基于規(guī)則的學(xué)習(xí)系統(tǒng)。如今的系統(tǒng)使用循環(huán)神經(jīng)網(wǎng)絡(luò),以利用詞嵌入的靈活性。11.2.3自然語言處理的任務(wù)(5)信息檢索。其任務(wù)是查找與給定查詢相關(guān)且重要的文檔。百度和谷歌等互聯(lián)網(wǎng)搜索引擎每天都會執(zhí)行數(shù)十億次這樣的任務(wù)。(6)問答。與信息檢索不同,它的查詢其實(shí)是一個(gè)問題,如“誰創(chuàng)立了美國海岸警衛(wèi)隊(duì)”,查詢結(jié)果也不是一個(gè)排好序的文檔列表,而是一個(gè)實(shí)際答案:“AlexanderHamilton.(亞歷山大·漢密爾頓)”。自20世紀(jì)60年代以來,就已經(jīng)出現(xiàn)了依賴于句法分析的問答系統(tǒng),但是直到2001年,這類系統(tǒng)才開始使用網(wǎng)頁信息檢索,從根本上增加了系統(tǒng)的覆蓋范圍。11.2.3自然語言處理的任務(wù)在數(shù)學(xué)、邏輯和計(jì)算機(jī)科學(xué)中,所謂“形式語言”是用精確的數(shù)學(xué)或機(jī)器可處理的公式定義的語言。形式語言一般有兩個(gè)方面:語法和語義。專門研究語言語法的數(shù)學(xué)和計(jì)算機(jī)科學(xué)分支叫做形式語言理論,其中的形式語言就是一個(gè)字母表上的某些有限長字符串的集合。一個(gè)形式語言可以包含無限多個(gè)字符串,然而自然語言(如英語或漢語)就無法如此清晰地表示。11.2.4語言模型我們將語言模型定義為描述任意字符串可能性的概率分布。通過語言模型可以預(yù)測文本中接下來可能出現(xiàn)的單詞,從而為電子郵件或短信息提供補(bǔ)全建議??梢杂?jì)算出對文本進(jìn)行哪些更改會使其具有更高的概率,從而提供拼寫或文法更正建議。通過一對語言模型,可以計(jì)算出一個(gè)句子最可能的翻譯。用一些示例“問題-答案”對作為訓(xùn)練數(shù)據(jù),可以計(jì)算出針對某一問題的最可能的答案。因此,語言模型是各種自然語言任務(wù)的核心。語言建模任務(wù)本身也可以作為衡量語言理解進(jìn)度的通用基準(zhǔn)。11.2.4語言模型自然語言是復(fù)雜的,因此任何語言模型充其量只能是自然語言的一個(gè)近似。語言學(xué)家愛德華·薩丕爾曾說“沒有一種語言是絕對一成不變的,任何文法都會有所遺漏”。哲學(xué)家唐納德·戴維森曾經(jīng)表達(dá)過這樣的意思:沒有一種像Python3.8那樣的確定性的自然語言模型,人們有不同的模型,但人類仍然設(shè)法應(yīng)對過去了,并進(jìn)行交流。11.2.4語言模型傳統(tǒng)情況下,CNN(卷積神經(jīng)網(wǎng)絡(luò))和RNN(遞歸神經(jīng)網(wǎng)絡(luò))幾乎占據(jù)著深度學(xué)習(xí)的半壁江山。而如今,人們正越來越關(guān)注Transformer模型結(jié)構(gòu)(圖11-6)。Transformer一開始就是為語言任務(wù)而設(shè)計(jì)的,但它在模仿大腦方面也有著很大的潛力,它是一個(gè)利用注意力機(jī)制來提高模型訓(xùn)練速度的深度學(xué)習(xí)模型。它適用于并行計(jì)算,其本身模型的復(fù)雜程度使得它在精度和性能上都要高于傳統(tǒng)的CNN和RNN,它完全由Self-attention(自我關(guān)注)機(jī)制組成,它不僅賦予各種AI應(yīng)用模型寫文作詩的功能,而且在多模態(tài)方面也大放異彩。11.2.4語言模型圖11-6Transformer模型結(jié)構(gòu)11.2.4語言模型PART03語法類型與語義分析自然語言理解的研究工作最早的是機(jī)器翻譯。1949年,美國人威弗首先提出了機(jī)器翻譯設(shè)計(jì)方案,此后,自然語言處理歷史大致分為6個(gè)時(shí)期(表11-1)。11.3語法類型與語義分析表11-1NLP的6個(gè)時(shí)期11.3語法類型與語義分析自然語言處理的歷史可追溯到以圖靈的計(jì)算算法模型為基礎(chǔ)的計(jì)算機(jī)科學(xué)發(fā)展之初。在奠定了初步基礎(chǔ)后,該領(lǐng)域出現(xiàn)了許多子領(lǐng)域,每個(gè)子領(lǐng)域都為計(jì)算機(jī)進(jìn)一步的研究提供了沃土。隨著計(jì)算機(jī)的速度和內(nèi)存的不斷增加,可用的高性能計(jì)算系統(tǒng)加速了發(fā)展。隨著大量用戶可用更多的計(jì)算能力,語音和語言處理技術(shù)可以應(yīng)用于商業(yè)領(lǐng)域。特別是在各種環(huán)境中,具有拼寫/語法校正工具的語音識別變得更加常用。由于信息檢索和信息提取成了Web應(yīng)用的關(guān)鍵部分,因此Web是這些應(yīng)用的另一個(gè)主要推動力。11.3語法類型與語義分析近年來,無監(jiān)督的統(tǒng)計(jì)方法重新得到關(guān)注。這些方法有效地應(yīng)用到了對單獨(dú)、未加注釋的數(shù)據(jù)進(jìn)行機(jī)器翻譯方面??煽俊⒁炎⑨尩恼Z料庫的開發(fā)成本成了監(jiān)督學(xué)習(xí)方法使用的限制因素。11.3語法類型與語義分析在自然語言處理中,我們可以在一些不同結(jié)構(gòu)層次上對語言進(jìn)行分析,如句法、詞法和語義等,所涉及到的一些關(guān)鍵術(shù)語簡單介紹如下:詞法——對單詞的形式和結(jié)構(gòu)的研究,還研究詞與詞根以及詞的衍生形式之間的關(guān)系。句法——將單詞放在一起形成短語和句子的方式,通常關(guān)注句子結(jié)構(gòu)的形成。語義學(xué)——語言中對意義進(jìn)行研究的科學(xué)。11.3.1語法類型解析——將句子分解成語言組成部分,并對每個(gè)部分的形式、功能和語法關(guān)系進(jìn)行解釋。語法規(guī)則決定了解析方式。詞匯——與語言的詞匯、單詞或語素(原子)有關(guān)。詞匯源自詞典。語用學(xué)——在語境中運(yùn)用語言的研究。省略——省略了在句法上所需的句子部分,但是,從上下文而言,句子在語義上是清晰的。11.3.1語法類型學(xué)習(xí)語法是學(xué)習(xí)語言和教授計(jì)算機(jī)語言的一種好方法。費(fèi)根鮑姆等人將語言的語法定義為“指定在語言中所允許語句的格式,指出將單詞組合成形式完整的短語和子句的句法規(guī)則?!甭槭±砉W(xué)院的語言學(xué)家諾姆·喬姆斯基在對語言語法進(jìn)行數(shù)學(xué)式的系統(tǒng)研究中做出了開創(chuàng)性的工作,為計(jì)算語言學(xué)領(lǐng)域的誕生奠定了基礎(chǔ)。他將形式語言定義為一組由符號詞匯組成的字符串,這些字符串符合語法規(guī)則。字符串集對應(yīng)于所有可能句子的集合,其數(shù)量可能無限大。符號的詞匯表對應(yīng)于有限的字母或單詞詞典。11.3.1語法類型喬姆斯基非常了解形式語法的局限性,提出語言必須在兩個(gè)層面上進(jìn)行分析:表面結(jié)構(gòu),進(jìn)行語法上的分析和解析;基礎(chǔ)結(jié)構(gòu)(深層結(jié)構(gòu)),保留句子的語義信息。關(guān)于復(fù)雜的計(jì)算機(jī)系統(tǒng),通過與醫(yī)學(xué)示例的類比,道江教授總結(jié)了表面理解和深層理解之間的區(qū)別:“一位患者的臀部有一個(gè)膿腫,通過穿刺可以除去這個(gè)膿腫。但是,如果他患的是會迅速擴(kuò)散的癌癥(一個(gè)深層次的問題),那么任何次數(shù)的穿刺都不能解決這個(gè)問題?!?1.3.2語義分析研究人員解決這個(gè)問題的方法是增加更多的知識,如關(guān)于句子的更深層結(jié)構(gòu)的知識、關(guān)于句子目的的知識、關(guān)于詞語的知識,甚至詳盡地列舉句子或短語的所有可能含義的知識。在過去幾十年中,隨著計(jì)算機(jī)速度和內(nèi)存的成倍增長,這種完全枚舉的可能性變得更如現(xiàn)實(shí)。11.3.2語義分析在早些時(shí)候,機(jī)器翻譯主要是通過非統(tǒng)計(jì)學(xué)方法進(jìn)行的。翻譯的3種主要方法是:①直接翻譯,即對源文本的逐字翻譯。②使用結(jié)構(gòu)知識和句法解析的轉(zhuǎn)換法。③中間語言方法,即將源語句翻譯成一般的意義表示,然后將這種表示翻譯成目標(biāo)語言。這些方法都不是非常成功。圖11-7機(jī)器翻譯11.3.3IBM機(jī)器翻譯系統(tǒng)隨著IBMCandide系統(tǒng)的發(fā)展,20世紀(jì)90年代初,機(jī)器翻譯開始向統(tǒng)計(jì)方法過渡。這個(gè)項(xiàng)目對隨后的機(jī)器翻譯研究形成了巨大的影響,統(tǒng)計(jì)方法在接下來的幾年中開始占據(jù)主導(dǎo)地位。在語音識別的上下文中己經(jīng)開發(fā)了概率算法,IBM將此概率算法應(yīng)用于機(jī)器翻譯研究。概率統(tǒng)計(jì)方法是過去幾十年中自然語言處理的準(zhǔn)則,NLP研究以統(tǒng)計(jì)作為主要方法,解決在這個(gè)領(lǐng)域中長期存在的問題,被稱之為“統(tǒng)計(jì)革命”。11.3.3IBM機(jī)器翻譯系統(tǒng)PART04處理數(shù)據(jù)與處理工具現(xiàn)代NLP算法是基于機(jī)器學(xué)習(xí),特別是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的,它不同于早期的嘗試語言處理,通常涉及大量的規(guī)則編碼。11.4處理數(shù)據(jù)與處理工具統(tǒng)計(jì)方法需要大量數(shù)據(jù)才能訓(xùn)練概率模型。出于這個(gè)目的,在語言處理應(yīng)用中,使用了大量的文本和口語集。這些集由大量句子組成,人類注釋者對這些句子進(jìn)行了語法和語義信息的標(biāo)記。自然語言處理中的一些典型的自然語言處理數(shù)據(jù)集包括:tc-corpus-train(語料庫訓(xùn)練集)、面向文本分類研究的中英文新聞分類語料、以IG卡方等特征詞選擇方法生成的多維度ARFF格式中文VSM模型、萬篇隨機(jī)抽取論文中文DBLP資源、用于非監(jiān)督中文分詞算法的中文分詞詞庫、UCI評價(jià)排序數(shù)據(jù)、帶有初始化說明的情感分析數(shù)據(jù)集等。11.4.1統(tǒng)計(jì)自然語言處理數(shù)據(jù)集許多不同類型的機(jī)器學(xué)習(xí)算法已應(yīng)用于自然語言處理任務(wù),這些算法的輸入是一大組從輸入數(shù)據(jù)生成的“特征”。一些最早使用的算法,如決策樹,產(chǎn)生類似于手寫的if-then規(guī)則。隨著越來越多的研究集中于統(tǒng)計(jì)模型,人們愈加重視基于附加實(shí)數(shù)值的權(quán)重,每個(gè)輸入要素的可適應(yīng)性,概率的決策性等。此類模型能夠表達(dá)許多不同的可能答案,而不是只有一個(gè)相對的確定性,這種模型被包括作為較大系統(tǒng)的一個(gè)組成部分。11.4.2自然語言處理工具(1)OpenNLP:是一個(gè)基于Java機(jī)器學(xué)習(xí)工具包,用于處理自然語言文本。支持大多數(shù)常用的NLP任務(wù),例如:標(biāo)識化、句子切分、部分詞性標(biāo)注、名稱抽取、組塊、解析等。11.4.2自然語言處理工具(2)FudanNLP:主要是為中文自然語言處理而開發(fā)的工具包,也包含為實(shí)現(xiàn)這些任務(wù)的機(jī)器學(xué)習(xí)算法和數(shù)據(jù)集。本工具包及其包含數(shù)據(jù)集使用LGPL3.0許可證,其開發(fā)語言為Java,主要功能是:·文本分類:新聞聚類;·中文分詞:詞性標(biāo)注、實(shí)體名識別、關(guān)鍵詞抽取、依存句法分析、時(shí)間短語識別;·結(jié)構(gòu)化學(xué)習(xí):在線學(xué)習(xí)、層次分類、聚類、精確推理。11.4.2自然語言處理工具(3)語言技術(shù)平臺:是哈工大社會計(jì)算與信息檢索研究中心歷時(shí)十年開發(fā)的一整套中文語言處理系統(tǒng),系統(tǒng)制定了基于XML的語言處理結(jié)果表示,并在此基礎(chǔ)上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞法、句法、語義等6項(xiàng)中文處理核心技術(shù)),以及基于動態(tài)鏈接庫的應(yīng)用程序接口,可視化工具,并且能夠以網(wǎng)絡(luò)服務(wù)的形式進(jìn)行使用。11.4.2自然語言處理工具自然語言處理的技術(shù)難點(diǎn)一般有:(1)單詞的邊界界定。在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。(2)詞義的消歧。許多字詞不單只有一個(gè)意思,因而我們必須選出使句意最為通順的解釋。11.4.3自然語言處理技術(shù)難點(diǎn)(3)句法的模糊性。自然語言的文法通常是模棱兩可的,針對一個(gè)句子通??赡軙饰龀龆嗫闷饰鰳?,而我們必須要仰賴語意及前后文的信息才能在其中選擇一棵最為適合的剖析樹。(4)有瑕疵的或不規(guī)范的輸入。例如語音處理時(shí)遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學(xué)字符識別(OCR)的錯(cuò)誤。11.4.3自然語言處理技術(shù)難點(diǎn)(5)語言行為與計(jì)劃。句子常常并不只是字面上的意思;例如,“你能把鹽遞過來嗎”,一個(gè)好的回答應(yīng)當(dāng)是把鹽遞過去;在大多數(shù)上下文環(huán)境中,“能”將是糟糕的回答,雖說回答“不”或者“太遠(yuǎn)了我拿不到”也是可以接受的。再者,如果一門課程上一年沒開設(shè),對于提問“這門課程去年有多少學(xué)生沒通過?”回答“去年沒開這門課”要比回答“沒人沒通過”好。11.4.3自然語言處理技術(shù)難點(diǎn)PART05語音處理語音處理是研究語音發(fā)聲過程、語音信號的統(tǒng)計(jì)特性、語音的自動識別、機(jī)器合成以及語音感知等各種處理技術(shù)的總稱。由于現(xiàn)代的語音處理技術(shù)都以數(shù)字計(jì)算為基礎(chǔ),并借助微處理器、信號處理器或通用計(jì)算機(jī)加以實(shí)現(xiàn),因此也稱數(shù)字語音信號處理。語音信號處理是一門多學(xué)科的綜合技術(shù)。它以生理、心理、語言以及聲學(xué)等基本實(shí)驗(yàn)為基礎(chǔ),以信息論、控制論、系統(tǒng)論的理論作指導(dǎo),通過應(yīng)用信號處理、統(tǒng)計(jì)分析、模式識別等現(xiàn)代技術(shù)手段,發(fā)展成為新的學(xué)科。11.5語音處理語音信號處理的研究起源于對發(fā)音器官的模擬。1939年美國H.杜德萊展示了一個(gè)簡單的發(fā)音過程模擬系統(tǒng),以后發(fā)展為聲道的數(shù)字模型。利用該模型可以對語音信號進(jìn)行各種頻譜及參數(shù)的分析,進(jìn)行通信編碼或數(shù)據(jù)壓縮的研究,同時(shí)也可根據(jù)分析獲得的頻譜特征或參數(shù)變化規(guī)律,合成語音信號,實(shí)現(xiàn)機(jī)器的語音合成。利用語音分析技術(shù),還可以實(shí)現(xiàn)對語音的自動識別,發(fā)音人的自動辨識,如果與人工智能技術(shù)結(jié)合,還可以實(shí)現(xiàn)各種語句的自動識別以至語言的自動理解,從而實(shí)現(xiàn)人機(jī)語音交互應(yīng)答系統(tǒng),真正賦予計(jì)算機(jī)以聽覺的功能。11.5.1語音處理的發(fā)展語言信息主要包含在語音信號的參數(shù)之中,因此準(zhǔn)確而迅速地提取語言信號的參數(shù)是進(jìn)行語音信號處理的關(guān)鍵。常用的語音信號參數(shù)有:共振峰幅度、頻率與帶寬、音調(diào)和噪音、噪音的判別等。后來又提出了線性預(yù)測系數(shù)、聲道反射系數(shù)和倒譜參數(shù)等參數(shù)。這些參數(shù)僅僅反映了發(fā)音過程中的一些平均特性,而實(shí)際語言的發(fā)音變化相當(dāng)迅速,需要用非平穩(wěn)隨機(jī)過程來描述,因此,20世紀(jì)80年代之后,研究語音信號非平穩(wěn)參數(shù)分析方法迅速發(fā)展,人們提出了一整套快速的算法,還有利用優(yōu)化規(guī)律實(shí)現(xiàn)以合成信號統(tǒng)計(jì)分析參數(shù)的新算法,取得了很好的效果。11.5.1語音處理的發(fā)展當(dāng)語音處理向?qū)嵱没l(fā)展時(shí),人們發(fā)現(xiàn)許多算法的抗環(huán)境干擾能力較差。因此,在噪聲環(huán)境下保持語音信號處理能力成為了一個(gè)重要課題。這促進(jìn)了語音增強(qiáng)的研究。一些具有抗干擾性的算法相繼出現(xiàn)。當(dāng)前,語音信號處理日益同智能計(jì)算技術(shù)和智能機(jī)器人的研究緊密結(jié)合,成為智能信息技術(shù)中的一個(gè)重要分支。11.5.1語音處理的發(fā)展語音信號處理在通信、國防等部門中有著廣闊的應(yīng)用領(lǐng)域。為了改善通信中語言信號的質(zhì)量而研究的各種頻響修正和補(bǔ)償技術(shù),為了提髙效率而研究的數(shù)據(jù)編碼壓縮技術(shù),以及為了改善通信條件而研究的噪聲抵消及干擾抑制技術(shù),都與語音處理密切相關(guān)。在金融部門應(yīng)用語音處理,開始利用說話人識別和語音識別實(shí)現(xiàn)根據(jù)用戶語音自動存款、取款的業(yè)務(wù)。在儀器儀表和控制自動化生產(chǎn)中,利用語音合成讀出測量數(shù)據(jù)和故障警告。隨著語音處理技術(shù)的發(fā)展,可以預(yù)期它將在更多部門得到應(yīng)用。11.5.1語音處理的發(fā)展人們通常更方便說話而不是打字,因此語音識別軟件非常受歡迎??谑雒畋扔檬髽?biāo)或觸摸板點(diǎn)擊按鈕更快。要在Windows中打開如“記事本”這樣的程序,需要單擊開始、程序、附件,最后點(diǎn)擊記事本,最輕松也需要點(diǎn)擊四到五次。語音識別軟件允許用戶簡單地說“打開記事本”,就可以打開程序,節(jié)省了時(shí)間,有時(shí)也改善了心情。11.5.2語音理解語音理解是指利用知識表達(dá)和組織等人工智能技術(shù)進(jìn)行語句自動識別和語意理解。同語音識別的主要不同點(diǎn)是對語法和語義知識的充分利用程度。語音理解起源于1971年美國遠(yuǎn)景研究計(jì)劃局(ARPA)資助的一個(gè)龐大研究項(xiàng)目,該項(xiàng)目要達(dá)到的目標(biāo)叫做語音理解系統(tǒng)。由于人對語音有廣泛的知識,可以對要說的話有一定的預(yù)見性,所以人對語音具有感知和分析能力。依靠人對語言和談?wù)摰膬?nèi)容所具有的廣泛知識,利用知識提高計(jì)算機(jī)理解語言的能力,就是語音理解研究的核心。11.5.2語音理解利用理解能力,可以使系統(tǒng)提高性能:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國彈性水泥防水涂料行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報(bào)告
- 股權(quán)轉(zhuǎn)讓合同
- 中國硼酸三丙酯行業(yè)調(diào)查報(bào)告
- 中國給排水用薄壁不銹鋼焊接鋼管行業(yè)調(diào)查報(bào)告
- 2025年P(guān)CABS項(xiàng)目評估報(bào)告
- 中國煙草總公司安徽省公司考試題庫2024
- 2024年重慶市梁平區(qū)教育委員會遴選考試真題
- 2024年重慶開放大學(xué)重慶工商職業(yè)學(xué)院招聘筆試真題
- 2024年太行城鄉(xiāng)建設(shè)集團(tuán)有限公司招聘筆試真題
- 2024年東莞廣播電視臺招聘事業(yè)單位工作人員筆試真題
- 江蘇省宿遷市泗洪縣2023-2024學(xué)年六年級下學(xué)期期末綜合(道德與法治+科學(xué))試卷
- 食管早癌的內(nèi)鏡診斷
- 江西省南昌市南昌縣2022-2023學(xué)年八年級下學(xué)期期末英語試題
- 單機(jī)試車檢查、聯(lián)動試車確認(rèn)表
- 一例腎破裂伴胸腔積液患者疑難病例討論
- JB∕T 13883-2020 閥門電液執(zhí)行裝置
- 山東省東營市廣饒縣2023-2024學(xué)年八年級下學(xué)期期中考試語文試題
- JJG 621-2012 液壓千斤頂行業(yè)標(biāo)準(zhǔn)
- 地下工程暗挖隧道施工質(zhì)量控制培訓(xùn)課件
- 護(hù)理站站長述職報(bào)告
- 小學(xué)科學(xué)湘科版四年級下冊全冊同步練習(xí)含答案
評論
0/150
提交評論