




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第12章自然語言處理
LISP語言是AI的數(shù)學(xué),不僅對(duì)AI的機(jī)器實(shí)現(xiàn)更有意義,而且是AI理論研究的重要工具?!獪厮诡D12.1語言模型
12.1語言模型
12.1語言模型
12.1.2模型評(píng)估
12.1.2模型評(píng)估
12.1.3n元單詞模型
從字符模型轉(zhuǎn)向元單詞模型。單詞模型和字符模型有著相同的機(jī)制,主要的區(qū)別在于詞匯,構(gòu)成語料和模型的符號(hào)集合,比字符模型更大。
大多數(shù)語言只有大約100個(gè)字符,有時(shí)我們還可以構(gòu)建更受限的模型,例如,把“A”和“a”視為同一符號(hào),也可以把所有的標(biāo)點(diǎn)視為同一符號(hào)。而對(duì)于單詞模型來說,至少有數(shù)以萬計(jì)的符號(hào),有時(shí)甚至上百萬。
符號(hào)之所以這樣多,是因?yàn)楹茈y說清楚單詞到底是由什么構(gòu)成的。在英語中,由前后空格分隔的字母序列構(gòu)成了單詞。12.1.3n元單詞模型n元單詞模型需要處理詞匯表以外的單詞。在字符模型中,我們不必?fù)?dān)心有人會(huì)發(fā)明字母表中的新字母。
單詞模型中,總是有可能出現(xiàn)訓(xùn)練語料中沒有的單詞,所以我們需要在語言模型中明確地對(duì)其建模。
通過向詞匯表中添加一個(gè)新的單詞<UNK>來解決,<UNK>表示未知的單詞。我們可以按照下面的方法對(duì)<UNK>進(jìn)行n元模型評(píng)估:遍歷訓(xùn)練語料,每個(gè)單詞的第一次出現(xiàn)都作為未知的單詞,就用<UNK>替換它。
這個(gè)單詞后來所有的出現(xiàn)仍保持不變。然后把<UNK>和其他單詞一樣對(duì)待,按原來的方法計(jì)算語料的n元數(shù)值。
當(dāng)一個(gè)未知的單詞在出現(xiàn)在測(cè)試集中時(shí),我們將其視為<UK>的來查找概率。有時(shí)我們會(huì)按照單詞的不同類別,分別使用多個(gè)不同的未知單詞符號(hào)。例如,所有數(shù)字串可以替換為<NUM>,所有電子郵件地址替換成<EMAIL>。12.2文本分類
12.2文本分類
另一種方法是機(jī)器學(xué)習(xí)方法,我們把郵件信息看成是一組特征/值對(duì),分類算法h根據(jù)特征向量X進(jìn)行判斷。我們可以將n元組作為特征,這樣語言模型和機(jī)器學(xué)習(xí)兩種方法就可以融合了。
這一思想用一元模型最容易理解。在詞匯表中的單詞就是特征:“a”、“aardvark”、…,特征的值就是每個(gè)單詞在郵件信息中出現(xiàn)的次數(shù)。12.2文本分類
一旦我們選定了特征集,我們便能運(yùn)用我們所知道的任何監(jiān)督學(xué)習(xí)技術(shù),比較流行的文本分類方法包括:k-最近鄰(k-nearest-neighbors.)、支持向量機(jī)(supportvectormachines)、決策樹(decisiontrees)、樸素貝葉斯(naiveBayes)以及邏輯回歸(logisticregression)。
所有這些方法都已被應(yīng)用到垃圾郵件檢測(cè)中,通常準(zhǔn)確率在98%~99%之間。如果精心設(shè)計(jì)特征集,準(zhǔn)確率可以超過99.9%。12.3信息檢索
信息檢索(Informationretrieval)的任務(wù)是尋找與用戶的信息需求相關(guān)的文檔。萬維網(wǎng)上的搜索引擎就是一個(gè)眾所周知的信息檢索系統(tǒng)的例子。
一個(gè)信息檢索(即IR)系統(tǒng)具有如下特征:1.文檔集合,每個(gè)系統(tǒng)都必須確定其需要處理的文檔,一個(gè)段落文本、一頁文本還是多頁文本。2.使用查詢語言描述的查詢,查詢描述了用戶想知道的內(nèi)容。
查詢語言可以是一個(gè)單詞列表,如[AIbook];可以是必須連續(xù)出現(xiàn)的單詞短語,如[“AIbook”];也可以包含布爾運(yùn)算符,如[AIandBook]。12.3信息檢索3.結(jié)果集合
該集合是文檔集合的子集,包含了IR系統(tǒng)判斷的與查詢相關(guān)的那部分文檔。所謂“相關(guān)”,是指對(duì)提出查詢的人有用,符合查詢中表達(dá)的特定信息需求。4.結(jié)果集合的展示
結(jié)果集合可以簡(jiǎn)單地用有序的文檔標(biāo)題列表來展示,也可以采取復(fù)雜的展示方法,如將結(jié)果集合的旋轉(zhuǎn)彩色圖像映射到一個(gè)三維空間中,以作為一種二維表示的補(bǔ)充。12.3.1IR評(píng)分函數(shù)
評(píng)分函數(shù)根據(jù)文檔和查詢計(jì)算并返回一個(gè)數(shù)值得分,最相關(guān)的文檔的得分最高。在BM25函數(shù)中,得分是由構(gòu)成查詢的每個(gè)單詞的得分進(jìn)行線性加權(quán)組合而成。有三個(gè)因素會(huì)影響查詢項(xiàng)的權(quán)重:
第一,查詢項(xiàng)在文檔中出現(xiàn)的頻率(也記為TF,表示詞項(xiàng)頻率(termfrequency))。對(duì)于查詢[farminginKansas],頻繁提到“farming”的文檔會(huì)得到較高分?jǐn)?shù)。
第二,詞項(xiàng)的文檔頻率的倒數(shù),也記為IDF。單詞“in”幾乎出現(xiàn)在每一個(gè)文檔中,所以它的文檔頻率較高,因而文檔領(lǐng)率的倒數(shù)較低,所以“in”沒有查詢中的“farming”和“Kansas”重要。
第三,文檔的長(zhǎng)度。包含上百萬單詞的文檔很可能提到所有查詢中的單詞,但實(shí)際上這類文檔不一定真正與詢問相關(guān),而提到所有查詢單詞的短文檔應(yīng)當(dāng)是更好的相關(guān)文檔候選。12.3.2IR系統(tǒng)評(píng)價(jià)
傳統(tǒng)上,在評(píng)分時(shí)有兩個(gè)度量指標(biāo),召回率(recall)和準(zhǔn)確率(precision)。
某個(gè)IR系統(tǒng)對(duì)某個(gè)查詢返回一個(gè)結(jié)果集合,語料庫由100篇文檔組成,對(duì)于該查詢,我們已經(jīng)知道語料庫中哪些文檔是相關(guān)的、哪些是不相關(guān)的。每個(gè)類別的文檔統(tǒng)計(jì)結(jié)果如下表所示。12.3.2IR系統(tǒng)評(píng)價(jià)
12.3.3PageRank算法
網(wǎng)頁排名旨在解決TF評(píng)分問題:如果查詢?yōu)閇IBM],我們?nèi)绾伪WCBM的主頁是第一條搜索結(jié)果,即使存在其他的網(wǎng)頁更頻繁地出現(xiàn)詞語“IBM”?
其思想是有很多導(dǎo)入鏈接(in-links,指向該頁面的鏈接),所以它的排名應(yīng)該更高,每一個(gè)導(dǎo)入鏈接都可以看成是為所鏈接到的頁面投了一票。
如果我們只計(jì)算導(dǎo)入鏈接,就可能會(huì)有垃圾網(wǎng)頁制造者創(chuàng)建一個(gè)頁面網(wǎng)絡(luò),并把所有網(wǎng)頁都鏈接到他想要的網(wǎng)頁上,從而提高該網(wǎng)頁的得分。12.4.1基于有限狀態(tài)自動(dòng)機(jī)的信息抽取
最簡(jiǎn)單的信息抽取系統(tǒng)被稱為基于屬性的抽取(attribute-basedextraction)系統(tǒng),因?yàn)樗僭O(shè)整個(gè)文本都是關(guān)于單一對(duì)象的,而系統(tǒng)的任務(wù)就是抽取該對(duì)象的屬性。
針對(duì)每個(gè)需要抽取的屬性定義一個(gè)模板。模板可以用有限狀態(tài)自動(dòng)機(jī)定義,最簡(jiǎn)單的例子就是正則表達(dá)式(regularexpression或regex)。12.4.1基于有限狀態(tài)自動(dòng)機(jī)的信息抽取
關(guān)系抽取系統(tǒng)可以由一組級(jí)聯(lián)有限狀態(tài)轉(zhuǎn)換器(cascadedfinite-statetransducers)構(gòu)成。
系統(tǒng)由一系列小而有效的有限狀態(tài)自動(dòng)機(jī)(FSAs)組成,其中每個(gè)自動(dòng)機(jī)接受文本作為輸入,將文本轉(zhuǎn)換成一種不同的格式,并傳送給下一個(gè)自動(dòng)機(jī)。FASTUS由以下5個(gè)階段組成:1.符號(hào)分析(Tokenization)2.復(fù)合詞處理3.基本詞組處理4.復(fù)合短語處理5.結(jié)構(gòu)合并12.4.2信息抽取的概率模型
12.4.2信息抽取的概率模型
在抽取中HMM相比FSA有兩大優(yōu)勢(shì)。
第一,HMM是概率模型,因而可以抗噪聲。在正則表達(dá)式中,哪怕一個(gè)預(yù)期的字符丟失,正則表達(dá)式的匹配也會(huì)失??;
使用HMM可以很好地對(duì)丟失的字符或單詞進(jìn)行退化處理(degradation),我們還可以用概率值表示匹配的程度,而不僅僅是用布爾值來表示匹配成功或失敗。
第二,HMM可以用數(shù)據(jù)訓(xùn)練得到,而無需構(gòu)造模板的繁重工程,因此,模型就能夠方便地適應(yīng)隨著時(shí)間不斷變化的文本。12.4.3基于條件隨機(jī)場(chǎng)的信息抽取
12.4.3基于條件隨機(jī)場(chǎng)的信息抽取
12.4.3基于條件隨機(jī)場(chǎng)的信息抽取
12.5短語結(jié)構(gòu)語法
12.5短語結(jié)構(gòu)語法
12.5短語結(jié)構(gòu)語法
12.5短語結(jié)構(gòu)語法
12.6機(jī)器翻譯
12.6機(jī)器翻譯
12.6機(jī)器翻譯
學(xué)習(xí)短語概率和扭曲度概率這兩個(gè)問題,過程如下:(1)找到平行文本
首先,搜集雙語平行語料庫。例如,Hansard記錄了議會(huì)的辯論。加拿大、香港以及其他國(guó)家和地區(qū)建立了雙語的Hansard,歐盟以11種語言發(fā)布其官方文件,而聯(lián)合國(guó)也發(fā)布多種語言版本的文件。
雙語語料也可從網(wǎng)上獲得,一些網(wǎng)站也通過平行的URL發(fā)布平行的內(nèi)容。(2)分割句子
翻譯的單位是句子,因此我們必須把語料分割為句子。句號(hào)是很強(qiáng)的句子結(jié)尾的標(biāo)志。
一種確定句號(hào)是否表示句子結(jié)束的方法,是根據(jù)句號(hào)附近單詞及其詞性特征訓(xùn)練一個(gè)模型,該方法的準(zhǔn)確率可達(dá)到98%。12.6機(jī)器翻譯
學(xué)習(xí)短語概率和扭曲度概率這兩個(gè)問題,過程如下:(3)句子對(duì)齊
對(duì)于英語語料中的每個(gè)句子,找出漢語料中與之對(duì)應(yīng)的句子。通常,英語句子和漢語句子是1:1對(duì)應(yīng)的,但在有些時(shí)候也有變化:某種語言的一個(gè)句子可以被分割,從而形成2:1對(duì)應(yīng),或者兩個(gè)句子的順序相互交換,從而導(dǎo)致2:2對(duì)應(yīng)。
當(dāng)僅考慮句子的長(zhǎng)度時(shí)(即短句應(yīng)該和短句對(duì)齊),對(duì)齊這些句子是可能的(1:1,1:2,2:2等),利一種維特比算法(Viterbialgorithm)的變種可以達(dá)到99%的準(zhǔn)確度。
如果使用兩種語言的公共標(biāo)志,比如數(shù)字、日期、專有名詞以及我們從雙語詞典中獲得的無歧義的單詞,可以實(shí)現(xiàn)更好的對(duì)齊效果。12.6機(jī)器翻譯
12.7小結(jié)
基于n元概率語言模型能夠獲得數(shù)量驚人的有關(guān)語言的信息。該模型在語言識(shí)別拼寫糾錯(cuò)、體裁分類和命名實(shí)體識(shí)別等很多任務(wù)中有良好的表現(xiàn)。這些語言模型擁有幾百萬種特征,所以特征的選擇和對(duì)數(shù)據(jù)進(jìn)行預(yù)處理減少噪音顯得尤為重要。
文本分類可采用樸素貝葉斯”元模型或者我們之前討論過的分類算法。分類也可以看成是數(shù)據(jù)壓縮問題。信息檢索系統(tǒng)使用一種簡(jiǎn)單的基于詞袋的語言模型,它在處理大規(guī)模文本語料時(shí),在召回率和準(zhǔn)確率上也有好的表現(xiàn)。在萬維網(wǎng)語料上,鏈接分析算法能夠提升性能。12.7小結(jié)
信息抽取系統(tǒng)使用更復(fù)雜的模型,模板中包含了有限的語法和語義信息。系統(tǒng)可以采取有限狀態(tài)自動(dòng)機(jī)、HMM或條件隨機(jī)領(lǐng)域進(jìn)行構(gòu)建,并且從示例中進(jìn)行學(xué)習(xí)。
構(gòu)建統(tǒng)計(jì)語言系統(tǒng)時(shí),最好是設(shè)計(jì)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 土方工程入股協(xié)議書合同
- 洗鞋店加盟合同協(xié)議書
- 2025標(biāo)準(zhǔn)商業(yè)地產(chǎn)買賣合同模板
- 夫妻分居合同協(xié)議書模板
- 洗衣機(jī)賣方合同協(xié)議書
- 2025農(nóng)資化肥購(gòu)銷合同范本
- 合同后面附廉潔協(xié)議書
- 軟件測(cè)試版本管理試題及答案建議
- 軟件測(cè)試報(bào)告的關(guān)鍵要素及試題及答案
- 2025標(biāo)準(zhǔn)合同終止勞動(dòng)合同證明書范本
- 世界讀書日主題班會(huì)模板5
- 水庫建設(shè)投資估算與資金籌措
- 突破困境的智慧主題班會(huì)
- 金屬雕花板保溫施工方案
- 水電站2025年投資預(yù)算計(jì)劃
- 江蘇省常州市(2024年-2025年小學(xué)六年級(jí)語文)統(tǒng)編版期末考試((上下)學(xué)期)試卷及答案
- 環(huán)保行業(yè)大氣污染治理和廢棄物處理方案
- 產(chǎn)科護(hù)理風(fēng)險(xiǎn)管理與預(yù)防
- 2025年山東黃金集團(tuán)夏季校園招聘668人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 涉密計(jì)算機(jī)保密培訓(xùn)
- T-GXAS 767-2024 尿液中汞的測(cè)定 氫化物發(fā)生原子熒光法
評(píng)論
0/150
提交評(píng)論