《人工智能及其應(yīng)用》課件第12章 自然語言處理_第1頁
《人工智能及其應(yīng)用》課件第12章 自然語言處理_第2頁
《人工智能及其應(yīng)用》課件第12章 自然語言處理_第3頁
《人工智能及其應(yīng)用》課件第12章 自然語言處理_第4頁
《人工智能及其應(yīng)用》課件第12章 自然語言處理_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第12章自然語言處理

LISP語言是AI的數(shù)學(xué),不僅對(duì)AI的機(jī)器實(shí)現(xiàn)更有意義,而且是AI理論研究的重要工具?!獪厮诡D12.1語言模型

12.1語言模型

12.1語言模型

12.1.2模型評(píng)估

12.1.2模型評(píng)估

12.1.3n元單詞模型

從字符模型轉(zhuǎn)向元單詞模型。單詞模型和字符模型有著相同的機(jī)制,主要的區(qū)別在于詞匯,構(gòu)成語料和模型的符號(hào)集合,比字符模型更大。

大多數(shù)語言只有大約100個(gè)字符,有時(shí)我們還可以構(gòu)建更受限的模型,例如,把“A”和“a”視為同一符號(hào),也可以把所有的標(biāo)點(diǎn)視為同一符號(hào)。而對(duì)于單詞模型來說,至少有數(shù)以萬計(jì)的符號(hào),有時(shí)甚至上百萬。

符號(hào)之所以這樣多,是因?yàn)楹茈y說清楚單詞到底是由什么構(gòu)成的。在英語中,由前后空格分隔的字母序列構(gòu)成了單詞。12.1.3n元單詞模型n元單詞模型需要處理詞匯表以外的單詞。在字符模型中,我們不必?fù)?dān)心有人會(huì)發(fā)明字母表中的新字母。

單詞模型中,總是有可能出現(xiàn)訓(xùn)練語料中沒有的單詞,所以我們需要在語言模型中明確地對(duì)其建模。

通過向詞匯表中添加一個(gè)新的單詞<UNK>來解決,<UNK>表示未知的單詞。我們可以按照下面的方法對(duì)<UNK>進(jìn)行n元模型評(píng)估:遍歷訓(xùn)練語料,每個(gè)單詞的第一次出現(xiàn)都作為未知的單詞,就用<UNK>替換它。

這個(gè)單詞后來所有的出現(xiàn)仍保持不變。然后把<UNK>和其他單詞一樣對(duì)待,按原來的方法計(jì)算語料的n元數(shù)值。

當(dāng)一個(gè)未知的單詞在出現(xiàn)在測(cè)試集中時(shí),我們將其視為<UK>的來查找概率。有時(shí)我們會(huì)按照單詞的不同類別,分別使用多個(gè)不同的未知單詞符號(hào)。例如,所有數(shù)字串可以替換為<NUM>,所有電子郵件地址替換成<EMAIL>。12.2文本分類

12.2文本分類

另一種方法是機(jī)器學(xué)習(xí)方法,我們把郵件信息看成是一組特征/值對(duì),分類算法h根據(jù)特征向量X進(jìn)行判斷。我們可以將n元組作為特征,這樣語言模型和機(jī)器學(xué)習(xí)兩種方法就可以融合了。

這一思想用一元模型最容易理解。在詞匯表中的單詞就是特征:“a”、“aardvark”、…,特征的值就是每個(gè)單詞在郵件信息中出現(xiàn)的次數(shù)。12.2文本分類

一旦我們選定了特征集,我們便能運(yùn)用我們所知道的任何監(jiān)督學(xué)習(xí)技術(shù),比較流行的文本分類方法包括:k-最近鄰(k-nearest-neighbors.)、支持向量機(jī)(supportvectormachines)、決策樹(decisiontrees)、樸素貝葉斯(naiveBayes)以及邏輯回歸(logisticregression)。

所有這些方法都已被應(yīng)用到垃圾郵件檢測(cè)中,通常準(zhǔn)確率在98%~99%之間。如果精心設(shè)計(jì)特征集,準(zhǔn)確率可以超過99.9%。12.3信息檢索

信息檢索(Informationretrieval)的任務(wù)是尋找與用戶的信息需求相關(guān)的文檔。萬維網(wǎng)上的搜索引擎就是一個(gè)眾所周知的信息檢索系統(tǒng)的例子。

一個(gè)信息檢索(即IR)系統(tǒng)具有如下特征:1.文檔集合,每個(gè)系統(tǒng)都必須確定其需要處理的文檔,一個(gè)段落文本、一頁文本還是多頁文本。2.使用查詢語言描述的查詢,查詢描述了用戶想知道的內(nèi)容。

查詢語言可以是一個(gè)單詞列表,如[AIbook];可以是必須連續(xù)出現(xiàn)的單詞短語,如[“AIbook”];也可以包含布爾運(yùn)算符,如[AIandBook]。12.3信息檢索3.結(jié)果集合

該集合是文檔集合的子集,包含了IR系統(tǒng)判斷的與查詢相關(guān)的那部分文檔。所謂“相關(guān)”,是指對(duì)提出查詢的人有用,符合查詢中表達(dá)的特定信息需求。4.結(jié)果集合的展示

結(jié)果集合可以簡(jiǎn)單地用有序的文檔標(biāo)題列表來展示,也可以采取復(fù)雜的展示方法,如將結(jié)果集合的旋轉(zhuǎn)彩色圖像映射到一個(gè)三維空間中,以作為一種二維表示的補(bǔ)充。12.3.1IR評(píng)分函數(shù)

評(píng)分函數(shù)根據(jù)文檔和查詢計(jì)算并返回一個(gè)數(shù)值得分,最相關(guān)的文檔的得分最高。在BM25函數(shù)中,得分是由構(gòu)成查詢的每個(gè)單詞的得分進(jìn)行線性加權(quán)組合而成。有三個(gè)因素會(huì)影響查詢項(xiàng)的權(quán)重:

第一,查詢項(xiàng)在文檔中出現(xiàn)的頻率(也記為TF,表示詞項(xiàng)頻率(termfrequency))。對(duì)于查詢[farminginKansas],頻繁提到“farming”的文檔會(huì)得到較高分?jǐn)?shù)。

第二,詞項(xiàng)的文檔頻率的倒數(shù),也記為IDF。單詞“in”幾乎出現(xiàn)在每一個(gè)文檔中,所以它的文檔頻率較高,因而文檔領(lǐng)率的倒數(shù)較低,所以“in”沒有查詢中的“farming”和“Kansas”重要。

第三,文檔的長(zhǎng)度。包含上百萬單詞的文檔很可能提到所有查詢中的單詞,但實(shí)際上這類文檔不一定真正與詢問相關(guān),而提到所有查詢單詞的短文檔應(yīng)當(dāng)是更好的相關(guān)文檔候選。12.3.2IR系統(tǒng)評(píng)價(jià)

傳統(tǒng)上,在評(píng)分時(shí)有兩個(gè)度量指標(biāo),召回率(recall)和準(zhǔn)確率(precision)。

某個(gè)IR系統(tǒng)對(duì)某個(gè)查詢返回一個(gè)結(jié)果集合,語料庫由100篇文檔組成,對(duì)于該查詢,我們已經(jīng)知道語料庫中哪些文檔是相關(guān)的、哪些是不相關(guān)的。每個(gè)類別的文檔統(tǒng)計(jì)結(jié)果如下表所示。12.3.2IR系統(tǒng)評(píng)價(jià)

12.3.3PageRank算法

網(wǎng)頁排名旨在解決TF評(píng)分問題:如果查詢?yōu)閇IBM],我們?nèi)绾伪WCBM的主頁是第一條搜索結(jié)果,即使存在其他的網(wǎng)頁更頻繁地出現(xiàn)詞語“IBM”?

其思想是有很多導(dǎo)入鏈接(in-links,指向該頁面的鏈接),所以它的排名應(yīng)該更高,每一個(gè)導(dǎo)入鏈接都可以看成是為所鏈接到的頁面投了一票。

如果我們只計(jì)算導(dǎo)入鏈接,就可能會(huì)有垃圾網(wǎng)頁制造者創(chuàng)建一個(gè)頁面網(wǎng)絡(luò),并把所有網(wǎng)頁都鏈接到他想要的網(wǎng)頁上,從而提高該網(wǎng)頁的得分。12.4.1基于有限狀態(tài)自動(dòng)機(jī)的信息抽取

最簡(jiǎn)單的信息抽取系統(tǒng)被稱為基于屬性的抽取(attribute-basedextraction)系統(tǒng),因?yàn)樗僭O(shè)整個(gè)文本都是關(guān)于單一對(duì)象的,而系統(tǒng)的任務(wù)就是抽取該對(duì)象的屬性。

針對(duì)每個(gè)需要抽取的屬性定義一個(gè)模板。模板可以用有限狀態(tài)自動(dòng)機(jī)定義,最簡(jiǎn)單的例子就是正則表達(dá)式(regularexpression或regex)。12.4.1基于有限狀態(tài)自動(dòng)機(jī)的信息抽取

關(guān)系抽取系統(tǒng)可以由一組級(jí)聯(lián)有限狀態(tài)轉(zhuǎn)換器(cascadedfinite-statetransducers)構(gòu)成。

系統(tǒng)由一系列小而有效的有限狀態(tài)自動(dòng)機(jī)(FSAs)組成,其中每個(gè)自動(dòng)機(jī)接受文本作為輸入,將文本轉(zhuǎn)換成一種不同的格式,并傳送給下一個(gè)自動(dòng)機(jī)。FASTUS由以下5個(gè)階段組成:1.符號(hào)分析(Tokenization)2.復(fù)合詞處理3.基本詞組處理4.復(fù)合短語處理5.結(jié)構(gòu)合并12.4.2信息抽取的概率模型

12.4.2信息抽取的概率模型

在抽取中HMM相比FSA有兩大優(yōu)勢(shì)。

第一,HMM是概率模型,因而可以抗噪聲。在正則表達(dá)式中,哪怕一個(gè)預(yù)期的字符丟失,正則表達(dá)式的匹配也會(huì)失??;

使用HMM可以很好地對(duì)丟失的字符或單詞進(jìn)行退化處理(degradation),我們還可以用概率值表示匹配的程度,而不僅僅是用布爾值來表示匹配成功或失敗。

第二,HMM可以用數(shù)據(jù)訓(xùn)練得到,而無需構(gòu)造模板的繁重工程,因此,模型就能夠方便地適應(yīng)隨著時(shí)間不斷變化的文本。12.4.3基于條件隨機(jī)場(chǎng)的信息抽取

12.4.3基于條件隨機(jī)場(chǎng)的信息抽取

12.4.3基于條件隨機(jī)場(chǎng)的信息抽取

12.5短語結(jié)構(gòu)語法

12.5短語結(jié)構(gòu)語法

12.5短語結(jié)構(gòu)語法

12.5短語結(jié)構(gòu)語法

12.6機(jī)器翻譯

12.6機(jī)器翻譯

12.6機(jī)器翻譯

學(xué)習(xí)短語概率和扭曲度概率這兩個(gè)問題,過程如下:(1)找到平行文本

首先,搜集雙語平行語料庫。例如,Hansard記錄了議會(huì)的辯論。加拿大、香港以及其他國(guó)家和地區(qū)建立了雙語的Hansard,歐盟以11種語言發(fā)布其官方文件,而聯(lián)合國(guó)也發(fā)布多種語言版本的文件。

雙語語料也可從網(wǎng)上獲得,一些網(wǎng)站也通過平行的URL發(fā)布平行的內(nèi)容。(2)分割句子

翻譯的單位是句子,因此我們必須把語料分割為句子。句號(hào)是很強(qiáng)的句子結(jié)尾的標(biāo)志。

一種確定句號(hào)是否表示句子結(jié)束的方法,是根據(jù)句號(hào)附近單詞及其詞性特征訓(xùn)練一個(gè)模型,該方法的準(zhǔn)確率可達(dá)到98%。12.6機(jī)器翻譯

學(xué)習(xí)短語概率和扭曲度概率這兩個(gè)問題,過程如下:(3)句子對(duì)齊

對(duì)于英語語料中的每個(gè)句子,找出漢語料中與之對(duì)應(yīng)的句子。通常,英語句子和漢語句子是1:1對(duì)應(yīng)的,但在有些時(shí)候也有變化:某種語言的一個(gè)句子可以被分割,從而形成2:1對(duì)應(yīng),或者兩個(gè)句子的順序相互交換,從而導(dǎo)致2:2對(duì)應(yīng)。

當(dāng)僅考慮句子的長(zhǎng)度時(shí)(即短句應(yīng)該和短句對(duì)齊),對(duì)齊這些句子是可能的(1:1,1:2,2:2等),利一種維特比算法(Viterbialgorithm)的變種可以達(dá)到99%的準(zhǔn)確度。

如果使用兩種語言的公共標(biāo)志,比如數(shù)字、日期、專有名詞以及我們從雙語詞典中獲得的無歧義的單詞,可以實(shí)現(xiàn)更好的對(duì)齊效果。12.6機(jī)器翻譯

12.7小結(jié)

基于n元概率語言模型能夠獲得數(shù)量驚人的有關(guān)語言的信息。該模型在語言識(shí)別拼寫糾錯(cuò)、體裁分類和命名實(shí)體識(shí)別等很多任務(wù)中有良好的表現(xiàn)。這些語言模型擁有幾百萬種特征,所以特征的選擇和對(duì)數(shù)據(jù)進(jìn)行預(yù)處理減少噪音顯得尤為重要。

文本分類可采用樸素貝葉斯”元模型或者我們之前討論過的分類算法。分類也可以看成是數(shù)據(jù)壓縮問題。信息檢索系統(tǒng)使用一種簡(jiǎn)單的基于詞袋的語言模型,它在處理大規(guī)模文本語料時(shí),在召回率和準(zhǔn)確率上也有好的表現(xiàn)。在萬維網(wǎng)語料上,鏈接分析算法能夠提升性能。12.7小結(jié)

信息抽取系統(tǒng)使用更復(fù)雜的模型,模板中包含了有限的語法和語義信息。系統(tǒng)可以采取有限狀態(tài)自動(dòng)機(jī)、HMM或條件隨機(jī)領(lǐng)域進(jìn)行構(gòu)建,并且從示例中進(jìn)行學(xué)習(xí)。

構(gòu)建統(tǒng)計(jì)語言系統(tǒng)時(shí),最好是設(shè)計(jì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論