《人工智能及其應(yīng)用》課件第12章自然語言處理

上傳人：1*** IP屬地：廣東上傳時(shí)間：2024-07-02 格式：PPTX 頁數(shù)：35 大?。?.96MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩30頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第12章自然語言處理

LISP語言是AI的數(shù)學(xué)，不僅對(duì)AI的機(jī)器實(shí)現(xiàn)更有意義，而且是AI理論研究的重要工具?！獪厮诡D12.1語言模型

12.1語言模型

12.1.2模型評(píng)估

12.1.3n元單詞模型

從字符模型轉(zhuǎn)向元單詞模型。單詞模型和字符模型有著相同的機(jī)制，主要的區(qū)別在于詞匯，構(gòu)成語料和模型的符號(hào)集合，比字符模型更大。

大多數(shù)語言只有大約100個(gè)字符，有時(shí)我們還可以構(gòu)建更受限的模型，例如，把“A”和“a”視為同一符號(hào)，也可以把所有的標(biāo)點(diǎn)視為同一符號(hào)。而對(duì)于單詞模型來說，至少有數(shù)以萬計(jì)的符號(hào)，有時(shí)甚至上百萬。

符號(hào)之所以這樣多，是因?yàn)楹茈y說清楚單詞到底是由什么構(gòu)成的。在英語中，由前后空格分隔的字母序列構(gòu)成了單詞。12.1.3n元單詞模型n元單詞模型需要處理詞匯表以外的單詞。在字符模型中，我們不必?fù)?dān)心有人會(huì)發(fā)明字母表中的新字母。

單詞模型中，總是有可能出現(xiàn)訓(xùn)練語料中沒有的單詞，所以我們需要在語言模型中明確地對(duì)其建模。

通過向詞匯表中添加一個(gè)新的單詞<UNK>來解決，<UNK>表示未知的單詞。我們可以按照下面的方法對(duì)<UNK>進(jìn)行n元模型評(píng)估：遍歷訓(xùn)練語料，每個(gè)單詞的第一次出現(xiàn)都作為未知的單詞，就用<UNK>替換它。

這個(gè)單詞后來所有的出現(xiàn)仍保持不變。然后把<UNK>和其他單詞一樣對(duì)待，按原來的方法計(jì)算語料的n元數(shù)值。

當(dāng)一個(gè)未知的單詞在出現(xiàn)在測(cè)試集中時(shí)，我們將其視為<UK>的來查找概率。有時(shí)我們會(huì)按照單詞的不同類別，分別使用多個(gè)不同的未知單詞符號(hào)。例如，所有數(shù)字串可以替換為<NUM>，所有電子郵件地址替換成<EMAIL>。12.2文本分類

12.2文本分類

另一種方法是機(jī)器學(xué)習(xí)方法，我們把郵件信息看成是一組特征/值對(duì)，分類算法h根據(jù)特征向量X進(jìn)行判斷。我們可以將n元組作為特征，這樣語言模型和機(jī)器學(xué)習(xí)兩種方法就可以融合了。

這一思想用一元模型最容易理解。在詞匯表中的單詞就是特征：“a”、“aardvark”、…，特征的值就是每個(gè)單詞在郵件信息中出現(xiàn)的次數(shù)。12.2文本分類

一旦我們選定了特征集，我們便能運(yùn)用我們所知道的任何監(jiān)督學(xué)習(xí)技術(shù)，比較流行的文本分類方法包括：k-最近鄰(k-nearest-neighbors.)、支持向量機(jī)(supportvectormachines)、決策樹(decisiontrees)、樸素貝葉斯(naiveBayes)以及邏輯回歸(logisticregression)。

所有這些方法都已被應(yīng)用到垃圾郵件檢測(cè)中，通常準(zhǔn)確率在98%~99%之間。如果精心設(shè)計(jì)特征集，準(zhǔn)確率可以超過99.9%。12.3信息檢索

信息檢索(Informationretrieval)的任務(wù)是尋找與用戶的信息需求相關(guān)的文檔。萬維網(wǎng)上的搜索引擎就是一個(gè)眾所周知的信息檢索系統(tǒng)的例子。

一個(gè)信息檢索（即IR)系統(tǒng)具有如下特征：1.文檔集合，每個(gè)系統(tǒng)都必須確定其需要處理的文檔，一個(gè)段落文本、一頁文本還是多頁文本。2.使用查詢語言描述的查詢，查詢描述了用戶想知道的內(nèi)容。

查詢語言可以是一個(gè)單詞列表，如[AIbook]；可以是必須連續(xù)出現(xiàn)的單詞短語，如[“AIbook”]；也可以包含布爾運(yùn)算符，如[AIandBook]。12.3信息檢索3.結(jié)果集合

該集合是文檔集合的子集，包含了IR系統(tǒng)判斷的與查詢相關(guān)的那部分文檔。所謂“相關(guān)”，是指對(duì)提出查詢的人有用，符合查詢中表達(dá)的特定信息需求。4.結(jié)果集合的展示

結(jié)果集合可以簡(jiǎn)單地用有序的文檔標(biāo)題列表來展示，也可以采取復(fù)雜的展示方法，如將結(jié)果集合的旋轉(zhuǎn)彩色圖像映射到一個(gè)三維空間中，以作為一種二維表示的補(bǔ)充。12.3.1IR評(píng)分函數(shù)

評(píng)分函數(shù)根據(jù)文檔和查詢計(jì)算并返回一個(gè)數(shù)值得分，最相關(guān)的文檔的得分最高。在BM25函數(shù)中，得分是由構(gòu)成查詢的每個(gè)單詞的得分進(jìn)行線性加權(quán)組合而成。有三個(gè)因素會(huì)影響查詢項(xiàng)的權(quán)重：

第一，查詢項(xiàng)在文檔中出現(xiàn)的頻率（也記為TF，表示詞項(xiàng)頻率(termfrequency))。對(duì)于查詢[farminginKansas],頻繁提到“farming”的文檔會(huì)得到較高分?jǐn)?shù)。

第二，詞項(xiàng)的文檔頻率的倒數(shù)，也記為IDF。單詞“in”幾乎出現(xiàn)在每一個(gè)文檔中，所以它的文檔頻率較高，因而文檔領(lǐng)率的倒數(shù)較低，所以“in”沒有查詢中的“farming”和“Kansas”重要。

第三，文檔的長(zhǎng)度。包含上百萬單詞的文檔很可能提到所有查詢中的單詞，但實(shí)際上這類文檔不一定真正與詢問相關(guān)，而提到所有查詢單詞的短文檔應(yīng)當(dāng)是更好的相關(guān)文檔候選。12.3.2IR系統(tǒng)評(píng)價(jià)

傳統(tǒng)上，在評(píng)分時(shí)有兩個(gè)度量指標(biāo)，召回率(recall)和準(zhǔn)確率(precision)。

某個(gè)IR系統(tǒng)對(duì)某個(gè)查詢返回一個(gè)結(jié)果集合，語料庫由100篇文檔組成，對(duì)于該查詢，我們已經(jīng)知道語料庫中哪些文檔是相關(guān)的、哪些是不相關(guān)的。每個(gè)類別的文檔統(tǒng)計(jì)結(jié)果如下表所示。12.3.2IR系統(tǒng)評(píng)價(jià)

12.3.3PageRank算法

網(wǎng)頁排名旨在解決TF評(píng)分問題：如果查詢?yōu)閇IBM],我們?nèi)绾伪ＷCBM的主頁是第一條搜索結(jié)果，即使存在其他的網(wǎng)頁更頻繁地出現(xiàn)詞語“IBM”?

其思想是有很多導(dǎo)入鏈接(in-links，指向該頁面的鏈接)，所以它的排名應(yīng)該更高，每一個(gè)導(dǎo)入鏈接都可以看成是為所鏈接到的頁面投了一票。

如果我們只計(jì)算導(dǎo)入鏈接，就可能會(huì)有垃圾網(wǎng)頁制造者創(chuàng)建一個(gè)頁面網(wǎng)絡(luò)，并把所有網(wǎng)頁都鏈接到他想要的網(wǎng)頁上，從而提高該網(wǎng)頁的得分。12.4.1基于有限狀態(tài)自動(dòng)機(jī)的信息抽取

最簡(jiǎn)單的信息抽取系統(tǒng)被稱為基于屬性的抽取(attribute-basedextraction)系統(tǒng)，因?yàn)樗僭O(shè)整個(gè)文本都是關(guān)于單一對(duì)象的，而系統(tǒng)的任務(wù)就是抽取該對(duì)象的屬性。

針對(duì)每個(gè)需要抽取的屬性定義一個(gè)模板。模板可以用有限狀態(tài)自動(dòng)機(jī)定義，最簡(jiǎn)單的例子就是正則表達(dá)式(regularexpression或regex)。12.4.1基于有限狀態(tài)自動(dòng)機(jī)的信息抽取

關(guān)系抽取系統(tǒng)可以由一組級(jí)聯(lián)有限狀態(tài)轉(zhuǎn)換器(cascadedfinite-statetransducers)構(gòu)成。

系統(tǒng)由一系列小而有效的有限狀態(tài)自動(dòng)機(jī)(FSAs)組成，其中每個(gè)自動(dòng)機(jī)接受文本作為輸入，將文本轉(zhuǎn)換成一種不同的格式，并傳送給下一個(gè)自動(dòng)機(jī)。FASTUS由以下5個(gè)階段組成：1.符號(hào)分析(Tokenization)2.復(fù)合詞處理3.基本詞組處理4.復(fù)合短語處理5.結(jié)構(gòu)合并12.4.2信息抽取的概率模型

12.4.2信息抽取的概率模型

在抽取中HMM相比FSA有兩大優(yōu)勢(shì)。

第一，HMM是概率模型，因而可以抗噪聲。在正則表達(dá)式中，哪怕一個(gè)預(yù)期的字符丟失，正則表達(dá)式的匹配也會(huì)失??；

使用HMM可以很好地對(duì)丟失的字符或單詞進(jìn)行退化處理(degradation),我們還可以用概率值表示匹配的程度，而不僅僅是用布爾值來表示匹配成功或失敗。

第二，HMM可以用數(shù)據(jù)訓(xùn)練得到，而無需構(gòu)造模板的繁重工程，因此，模型就能夠方便地適應(yīng)隨著時(shí)間不斷變化的文本。12.4.3基于條件隨機(jī)場(chǎng)的信息抽取

12.4.3基于條件隨機(jī)場(chǎng)的信息抽取

12.5短語結(jié)構(gòu)語法

12.6機(jī)器翻譯

學(xué)習(xí)短語概率和扭曲度概率這兩個(gè)問題，過程如下：(1)找到平行文本

首先，搜集雙語平行語料庫。例如，Hansard記錄了議會(huì)的辯論。加拿大、香港以及其他國(guó)家和地區(qū)建立了雙語的Hansard，歐盟以11種語言發(fā)布其官方文件，而聯(lián)合國(guó)也發(fā)布多種語言版本的文件。

雙語語料也可從網(wǎng)上獲得，一些網(wǎng)站也通過平行的URL發(fā)布平行的內(nèi)容。(2)分割句子

翻譯的單位是句子，因此我們必須把語料分割為句子。句號(hào)是很強(qiáng)的句子結(jié)尾的標(biāo)志。

一種確定句號(hào)是否表示句子結(jié)束的方法，是根據(jù)句號(hào)附近單詞及其詞性特征訓(xùn)練一個(gè)模型，該方法的準(zhǔn)確率可達(dá)到98%。12.6機(jī)器翻譯

學(xué)習(xí)短語概率和扭曲度概率這兩個(gè)問題，過程如下：(3)句子對(duì)齊

對(duì)于英語語料中的每個(gè)句子，找出漢語料中與之對(duì)應(yīng)的句子。通常，英語句子和漢語句子是1：1對(duì)應(yīng)的，但在有些時(shí)候也有變化：某種語言的一個(gè)句子可以被分割，從而形成2：1對(duì)應(yīng)，或者兩個(gè)句子的順序相互交換，從而導(dǎo)致2：2對(duì)應(yīng)。

當(dāng)僅考慮句子的長(zhǎng)度時(shí)（即短句應(yīng)該和短句對(duì)齊），對(duì)齊這些句子是可能的(1：1，1：2，2：2等)，利一種維特比算法(Viterbialgorithm)的變種可以達(dá)到99%的準(zhǔn)確度。

如果使用兩種語言的公共標(biāo)志，比如數(shù)字、日期、專有名詞以及我們從雙語詞典中獲得的無歧義的單詞，可以實(shí)現(xiàn)更好的對(duì)齊效果。12.6機(jī)器翻譯

12.7小結(jié)

基于n元概率語言模型能夠獲得數(shù)量驚人的有關(guān)語言的信息。該模型在語言識(shí)別拼寫糾錯(cuò)、體裁分類和命名實(shí)體識(shí)別等很多任務(wù)中有良好的表現(xiàn)。這些語言模型擁有幾百萬種特征，所以特征的選擇和對(duì)數(shù)據(jù)進(jìn)行預(yù)處理減少噪音顯得尤為重要。

文本分類可采用樸素貝葉斯”元模型或者我們之前討論過的分類算法。分類也可以看成是數(shù)據(jù)壓縮問題。信息檢索系統(tǒng)使用一種簡(jiǎn)單的基于詞袋的語言模型，它在處理大規(guī)模文本語料時(shí)，在召回率和準(zhǔn)確率上也有好的表現(xiàn)。在萬維網(wǎng)語料上，鏈接分析算法能夠提升性能。12.7小結(jié)

信息抽取系統(tǒng)使用更復(fù)雜的模型，模板中包含了有限的語法和語義信息。系統(tǒng)可以采取有限狀態(tài)自動(dòng)機(jī)、HMM或條件隨機(jī)領(lǐng)域進(jìn)行構(gòu)建，并且從示例中進(jìn)行學(xué)習(xí)。

構(gòu)建統(tǒng)計(jì)語言系統(tǒng)時(shí)，最好是設(shè)計(jì)

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《人工智能及其應(yīng)用》課件第12章自然語言處理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《人工智能及其應(yīng)用》課件第12章 自然語言處理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

《人工智能及其應(yīng)用》課件第12章自然語言處理