




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、湖南文理學(xué)院課程設(shè)計報告課程名稱:計算機(jī)軟件技術(shù)基礎(chǔ)系部:電信系專業(yè)班級:通信工程T09103班學(xué)生姓名:劉程程指導(dǎo)教師:完成時間:2011.12.28報告成績:評閱意見:評閱教師日期目錄 TOC o 1-5 h z HYPERLINK l bookmark4 o Current Document 中文摘要 I HYPERLINK l bookmark6 o Current Document ABSTRACT II HYPERLINK l bookmark8 o Current Document 第一章引言 1 HYPERLINK l bookmark10 o Current Document
2、 背景和意義 1 HYPERLINK l bookmark12 o Current Document 詞性標(biāo)注定義及其困難 1 HYPERLINK l bookmark14 o Current Document 詞性的定義 2 HYPERLINK l bookmark16 o Current Document 詞性標(biāo)注的難點(diǎn) 2 HYPERLINK l bookmark18 o Current Document 第二章基礎(chǔ)理論介紹 3 HYPERLINK l bookmark20 o Current Document 2.1 隱馬爾科夫模型 (H1DDEN M ARKOV M ODEL, HM
3、) 3 HYPERLINK l bookmark42 o Current Document 2.2HMM 用于詞性標(biāo)注 4 HYPERLINK l bookmark50 o Current Document 第三章改進(jìn) HMM 標(biāo)注模型與參數(shù)估計 4 HYPERLINK l bookmark52 o Current Document 改進(jìn) HMM 模型詞性標(biāo)注 4 HYPERLINK l bookmark54 o Current Document 參數(shù)估計 5 HYPERLINK l bookmark56 o Current Document 訓(xùn)練語料庫 5 HYPERLINK l bookm
4、ark58 o Current Document 當(dāng)用數(shù)據(jù)庫 5 HYPERLINK l bookmark62 o Current Document 第四章改進(jìn) VITERBI 算法標(biāo)注 7 HYPERLINK l bookmark64 o Current Document 標(biāo)注過程 7 HYPERLINK l bookmark66 o Current Document 4. 2改進(jìn)后的 V ITERBI 算法的具體描述 7 HYPERLINK l bookmark78 o Current Document 第五章實(shí)驗(yàn)結(jié)果與分析 8 HYPERLINK l bookmark80 o Curre
5、nt Document 評價標(biāo)準(zhǔn) 8 HYPERLINK l bookmark84 o Current Document 實(shí)驗(yàn)結(jié)果 9 HYPERLINK l bookmark90 o Current Document 錯誤分析 10 HYPERLINK l bookmark92 o Current Document 參考文獻(xiàn) 11 II中文摘要漢語詞性標(biāo)注是中文信息處理技術(shù)中的一項(xiàng)基礎(chǔ)性課題。 一方面,它的研究 成果可以直接融入到信息抽取、信息檢索、機(jī)器翻譯等諸多實(shí)際應(yīng)用系統(tǒng)當(dāng)中 ; 另一方面, 漢語自動詞性標(biāo)注也是漢語語塊識別器、 漢語句法分析器、 漢語語義 分析器必不可少的前端處理工具。
6、 因此,研究和實(shí)現(xiàn)漢語詞性標(biāo)注器具有重要的 理論意義和實(shí)用價值。詞性標(biāo)注的方法主要有基于規(guī)則和基于統(tǒng)計的兩大類。由于基于統(tǒng)計的方 法具有不需要人工總結(jié)語言學(xué)規(guī)則、 正確識別率高等優(yōu)點(diǎn), 已逐漸成為研究的熱 點(diǎn)。在基于統(tǒng)計的方法中,隱馬爾科夫模型是最主要的算法模型之一。在本文中,我們以漢語的詞性自動標(biāo)注為研究對象,提出了一種基于改進(jìn) 的隱馬爾科夫模型漢語詞性標(biāo)注方法。該方法在原有隱馬爾科夫模型的基礎(chǔ)上, 加入了更多的上下文信息,用于漢語詞性的自動標(biāo)注問題,取得了較好的效果。 主要的研究內(nèi)容有以下幾方面 : 1.雖然隱馬爾科夫模型有很好的標(biāo)注效果,但是 它在對當(dāng)前詞詞語出現(xiàn)概率的估計只與其詞性有關(guān)
7、。 2.獲得上下文信息的多少和 數(shù)據(jù)平滑程度是評價統(tǒng)計詞性標(biāo)注模型性能的兩個重要參數(shù)。 本文詳細(xì)介紹了現(xiàn) 階段幾種平滑算法, 針對該模型數(shù)據(jù)稀疏現(xiàn)象, 采用性能穩(wěn)定指數(shù)線性插值方法 來平滑 HMM 的概率參數(shù)。 3.對 HMM 參數(shù)估計模型的修改,只是改進(jìn)模型的 第一步,為了更有效的使用訓(xùn)練所得到的參數(shù),需要對 Viterbi 算法進(jìn)行修改。 由于傳統(tǒng)的 Viterbi 算法不適合本模型,所以對 Viterbi 算法進(jìn)行了拓展。 4.對于 自然語言來講不存在完備的可計算的詞性信息, 如何確定未登錄詞的詞性是除兼 類問題之外詞性標(biāo)注所面臨的另一個關(guān)鍵問題。 本文對未登錄詞處理提出了具體 處理方法
8、。關(guān)鍵詞:中文信息處理 ;漢語詞性標(biāo)注 ;隱馬爾科夫模型 ;平滑算法 ;AbstractChinese Part-of-Speech Tagging is a fundamental problem to many Chinese Information Processing tasks. The task of Part-of-Speech Tagging is to design software that can identify Part-of-Speech in a sentence automatically.One side, the performance of many re
9、alistic applications such as information extraction, information retrieval, and machine translation would be improved if the right Part-of-Speech were available. And on the other hand, it is indispensable processing component in Chinese lexical analysis system, Chinese syntax analysis system, and et
10、c. Therefore, its research is of great of theoretical importance as well as practicability.The model of Part-of-Speech Tagging includes both rule and statistics technique. Because of the statistics technique requires no manual rules of natural language and has a high level accuracy, the statistical
11、language model has gradually become a hot research topic. For its better performance, Hidden Makov Model (HMM), one of the statistical models, has been the recent trend in Part-of-Speech Tagging.We propose a method of Chinese Part-of-Speech Tagging based on ameliorated Hidden Makov Model, taking mor
12、e information of context into the model to describe language phenomena. The result of ameliorated model is satisfying. The main works of this paper includes four parts:1 .Although HMM are high performance, the probability of the word depends on its own tag. 2. Two key factors can be used in evaluati
13、ng the performance of statistical model of Part-of-Speech Tagging. 3 .For the sake of making effective use of parameters trained from ameliorated Hidden Makov Model; we fit the Viterbi algorithm for the new parameter. 4 .For the imperfection of computable information on each word in How to solve new
14、 words is anther key problem in statistical language In this paper, we propose a concreted method in new words.Key words: Chinese Information Processing; Chinese Part-of-SpeechTagging; Hidden Makov Model; Smoothing Algorithm 第一章引言1.1 背景和意義隨著 Internet 上中文網(wǎng)頁的急劇膨脹和中文電子出版物、中文數(shù)字圖書館的迅速普及, 以非受限文本為主要對象的中文自然
15、語言處理研究的重要性日益顯著。 分析和處理語言的基 本方法,是將語言分為詞法、句法、語義等不同層次來加以認(rèn)識的,在自然語言處理領(lǐng)域, 相應(yīng)建立了詞法分析、 句法分析、 語義分析等課題。 當(dāng)前漢字編碼和輸入方法的研究已比較 成熟,中文自然語言處理的重點(diǎn)已從“字”層面轉(zhuǎn)移到“詞”層面。漢語的詞性標(biāo)注研究, 主要是從詞層面進(jìn)行的研究,這一問題在 70 年代末就受到了廣泛的關(guān)注,目前,許多標(biāo)注 方法方法已得到了實(shí)現(xiàn)。 在這一長期的研究和實(shí)踐過程中, 盡管有這些難題的長期困擾, 漢 語的詞性標(biāo)注仍得到很多現(xiàn)實(shí)應(yīng)用。因此具體如下:a)為更高層次的自然語言文本加工提供素材,例如:利用詞性標(biāo)注結(jié)果對部分句法進(jìn)
16、行對名次短語的識別。b)為語言學(xué)的研究提供翔實(shí)的資料,例如:利用詞性標(biāo)注實(shí)現(xiàn)信息理解,數(shù)據(jù)抽取或文本數(shù)據(jù)挖掘。c)從加工過的文本中獲取詞類及頻度的詞性標(biāo)注知識。例如 :文本分類等。一方面,它的研究成果可以直 接融入到機(jī)器翻譯z1、信息檢索、語音識別等諸多實(shí)際應(yīng)用系統(tǒng)當(dāng)中,另一方面,漢語自 動詞性標(biāo)注也是漢語語塊識別器、 漢語句法分析器、 漢語語義分析器必不可少的前端處理工 具。因此,研究和實(shí)現(xiàn)漢語詞性標(biāo)注器具有重要的理論意義和實(shí)用價值。1.2 詞性標(biāo)注定義及其困難詞性也叫詞類, 是根據(jù)一個詞的本意及在短語或句子中的作用劃分的。 從語言學(xué)的角度, 漢語詞匯可分為實(shí)詞和虛詞兩大類。 實(shí)詞是意義比較
17、具體的詞, 包括 :名詞 (含方位詞 )、動詞、 形容詞 (含顏色詞 )、數(shù)詞、量詞、代詞六大類。虛詞主要指沒有完整的詞匯意義,但有文法 意義或功能意義的詞,包括 :副詞、介詞、連詞、助詞、象聲詞六大類。需要注意的是,上 述的分類方法不是唯一的。 一種語言的詞匯應(yīng)該劃分為多少類以及每一類都應(yīng)該包含那些詞 匯都沒有一個統(tǒng)一的標(biāo)準(zhǔn)。 在語言學(xué)研究中, 這個問題通常是由人們的語一言感覺、 應(yīng)用需 求、工程可操作性三個因素共同決定。1.2.1 詞性的定義詞性也叫詞類, 是根據(jù)一個詞的本意及在短語或句子中的作用劃分的。 從語言學(xué)的角 度,漢語詞匯可分為實(shí)詞和虛詞兩大類。實(shí)詞是意義比較具體的詞,包括:名詞
18、 (含方位詞 )、動詞、形容詞 (含顏色詞 ) 、數(shù)詞、量詞、代詞六大類。虛詞主要指沒有完整的詞匯意義,但 有文法意義或功能意義的詞,包括:副詞、介詞、連詞、助詞、象聲詞六大類。需要注意的是,上述的分類方法不是唯一的。 一種語言的詞匯應(yīng)該劃分為多少類以及每一類都應(yīng)該包含 那些詞匯都沒有一個統(tǒng)一的標(biāo)準(zhǔn)。在語言學(xué)研究中,這個問題通常是由人們的語一言感覺、 應(yīng)用需求、工程可操作性三個因素共同決定。1.2.2 詞性標(biāo)注的難點(diǎn)所謂詞性標(biāo)注就是根據(jù)句子中的上下文信息給句中的每個詞確定一個最為合適的詞 性標(biāo)記。比如給定一個句子 :“我中了一張彩票。 ”對其的標(biāo)注結(jié)果可以是 :“我/代詞中 /動詞 了/助詞一
19、 /數(shù)詞張 /量詞彩票 /名詞。/標(biāo)點(diǎn),。詞性標(biāo)注的難點(diǎn)主要是由詞性兼類3 所引起的,詞性兼類是指自然語言中一個詞語的詞性多余一個的語言現(xiàn)象。 詞性兼類是自然語言中一個 非常普遍的現(xiàn)象,例如下面的句子 :S1二“他是山西大學(xué)的教授?!?S2= “他在山西大學(xué)教授 計算語言學(xué)。 ”句子 S1 中,“教授”是一個表示職稱的名詞,而句子 52 中“教授”是一個 動詞。 對人來說, 這樣的詞性歧義現(xiàn)象比較容易排除, 但是對于沒有先驗(yàn)知識的機(jī)器來說是 比較困難的。詞性兼類在漢語中很突出, 據(jù)不完全統(tǒng)計, 常見的詞性兼類現(xiàn)象有幾十種,這 些兼類現(xiàn)象具有以下分布特征 :1)在漢語詞匯中,兼類詞的數(shù)量不多,約
20、占總詞條的5 一 11%。 2)兼類詞的實(shí)際使用頻率很高,約占總詞次的 40一 45%。也就是說,也是常用的詞,其詞 性兼類現(xiàn)象越嚴(yán)重。 3)兼類詞現(xiàn)象分布不均 :在孫茂松等的統(tǒng)計中,僅動名兼類就占全部兼 類現(xiàn)象的 49.8%;在張民門的統(tǒng)計中, 動名兼類和形副兼類就占全部113種兼類現(xiàn)象的 62.5%。詞性兼類的消歧常采用概率的方法, 如隱馬爾科夫模型叫, 這些方法的有效性依賴于兼類詞 性的概率分布。 但是有些兼類的詞性的概率分布近似, 特別是高頻的詞性兼類現(xiàn)象, 如漢語 的動詞名詞兼類, 對于這些兼類現(xiàn)象, 傳統(tǒng)的概率方法很難奏效, 如何解決這個問題目前詞 性標(biāo)注面臨的主要困難之一。第二章
21、基礎(chǔ)理論介紹2.1 隱馬爾科夫模型(HlddenMarkovModel, HM)HMM 模型是一雙重隨機(jī)過程,其中模型的狀態(tài)轉(zhuǎn)移過程是不可觀察(隱蔽)的。而可觀察的事件的隨機(jī)過程是隱蔽的狀態(tài)轉(zhuǎn)換過程的隨機(jī)函數(shù)。也可以這樣理解:HMM是指內(nèi)部狀態(tài)外界不可見,外界只能看到各個時刻的輸出值。HMM是經(jīng)典的描述隨機(jī)過程的統(tǒng)計方法,在自然語言處理中得到了廣泛的應(yīng)用。HMM模型可以看作一種特定的 BayesNet,等價于概率正規(guī)語法或概率有限狀態(tài)自動機(jī),可以用一種特定的神經(jīng)網(wǎng)絡(luò)模型來模擬。HMM模型的優(yōu)點(diǎn)主要有:研究已經(jīng)非常透徹,算法成熟,效率高,效果好,易于訓(xùn)練。HMM的三大假i殳:對于個隨機(jī)礙件*右一
22、個觀察值序列,OOt.該事杵隱 含著一個狀態(tài)序列:XXt假設(shè)1:馬爾可夫假設(shè)(狀態(tài)構(gòu)成一階馬爾可夫鏈)p(Xi|Xi.r.Xi) = p(X. Xm)假設(shè)2;不動性假設(shè)(狀態(tài)與具體時何無關(guān))p(Xi|X“)= p(Xj|X円八 對任意ij成立假設(shè)3:輸出獨(dú)立性假設(shè)(輸出僅與當(dāng)謫狀態(tài)有關(guān))p(o。打如衛(wèi)二Hp(a|Xi)一個HMM可以形式化為一個五元組:恬虬加”,乩巧其中:1-狀念的有隕集合,伽屮奶 一般以小模型tEt時刻的轉(zhuǎn)態(tài);2.輸出符號集合1勿=m,也,問;狀態(tài)轉(zhuǎn)移矩陣A = ait,其屮:a.j = p(X/ + i = qi Xf = q;) t 1/ N t 的20 工創(chuàng)=1Ai觀察
23、符號的概率分布,伽表示在狀念/是輸出狀態(tài)為譏的概率,其中:Nba = p(Ot -vaXt =qt) t J 0 * 工由m = 1j-i5.狀態(tài)槪率分布,一般記做坯二帥,其中:Ki = pX- qt) t I j A 0, 加口 1HMM有三個墻本問魁第如何快速計篦觀察序列的槪率;第二如何dj觀察序列求出最優(yōu)的狀態(tài)序列 (例如,從詞串求出最合理的詞性標(biāo)一記串);第三,如何調(diào)整模型參數(shù),使得觀察序列的概率最大。2.2HMM用于詞性標(biāo)注于詞性標(biāo)注任務(wù)來說,屬于解決隱馬爾科夫模壁的第二個問題??擅枋鰹榻o定 詞序列昭一”=網(wǎng)審林,的條件下,搜尋詞性序列Cl,* =66厶使得/XCt, I FFtn)
24、最 大??勺?yōu)樵诮o定觀察序列條件下搜索最佳的HMMX態(tài)序列的問題。即:C(.*i =argmax P(Cin Wlr)irgmax = aimax尸(6*)尸| Ci. *)如果我們假設(shè)詞語之間是獨(dú)立的,詞語的岀現(xiàn)只依賴于它本身的標(biāo)注.則:P(Ci.| Ci, ) = f P(耐 |(?M)P(o |c. -i) = nP(wtH其中,p(eg)稱之為詞性伏態(tài)轉(zhuǎn)移概率,p(Mg)稱之為詞匯發(fā)射概率0由此我們可以建立 HMM模型,模型的狀態(tài)是詞性集合已,。,模型的輸出符號是砰I ,。,訓(xùn)練過程實(shí)際就是統(tǒng)計詞性轉(zhuǎn)移矩陣【伽和詞性到單詞的輸出矩陣,其中參數(shù)A,B和n可通過已標(biāo)注訓(xùn)練語料估計得到。而求
25、解的過程實(shí)際上就是一個用Viterbi算法求可能性最大的狀態(tài)序列。第三章改進(jìn)HMM標(biāo)注模型與參數(shù)估計3.1改進(jìn)HMM模型詞性標(biāo)注上一章提到HMM模型進(jìn)行詞性標(biāo)注時,P(wi|ci)描述了詞語 w,被標(biāo)注為詞性c,的概 率大小。而P(ci|ci 一 I)描述了詞語 wi 一 1被標(biāo)注為詞性 ci 一 I的條件下,wi被標(biāo)注為ci 的概率。即詞 w 的詞性標(biāo)注概率依賴于前詞w 一 1的詞性標(biāo)注(稱為向前依賴性)。但在上下文環(huán)境中詞 wi的詞性標(biāo)注也可能依賴于其后詞wi+1的詞性標(biāo)注(稱為向后依賴性)。改進(jìn)后模型的參數(shù) HMM雖然能很好地進(jìn)行詞性標(biāo)注,但是在參數(shù)獲取過程中,捕獲上 下文的信息有限。在
26、傳統(tǒng) HMM 基礎(chǔ)上給出了一種改進(jìn)的 HMM的漢語詞性標(biāo)注方法。I.N 為詞性標(biāo)注系統(tǒng)中所用到標(biāo)一記集詞性的個數(shù)。2.M為詞匯集 W中詞匯的個數(shù)。3”打二為詞na=ti)作為句首出現(xiàn)的槪率,是初始狀態(tài) 概塞分布,第一個詞(的)前面沒有詞,軻的各個詞性標(biāo)記也滿足一定的 探率分布,記做加。4.詞性概率矩陣A = aiAf其中aif P(c = t(c-1 = if) t 1 f M(工詞匯概舉矩陣B = fe其中帥=P(鵬=hi |飾心“二 1 /y V這里的詞匯概率與 HMM的不同之處在于:它引入了更多的上下文信息,表示在。Cm狀態(tài)ti,且cm+1的狀態(tài)tj條件下,輸出為 wk的概率。這樣就能更
27、進(jìn)步獲取詞匯的上下文信息。這 正是本文對 HMM的改進(jìn)之處。3.2參數(shù)估計3.2.1訓(xùn)練語料庫本文所采用的訓(xùn)練語料是可以公開得到的由北京大學(xué)和富士通公司合作開發(fā)的人民日報語料庫上進(jìn)行的,這是目前可以公開獲得的規(guī)模最大的分詞詞性標(biāo)注語料庫。該語料含七百余萬詞次,本文采用的為一級標(biāo)注集有 26個基本詞類標(biāo)一記,如名詞n、動詞v形容詞a等等。人民日報語料庫中的句子不但進(jìn)行了分詞和詞性標(biāo)注,而且還以括號的形式 標(biāo)記出了專有名詞短語,由于專有名詞短語的識別己經(jīng)超出了本章的研究范圍,因此在實(shí)驗(yàn)中我們把人民日報語料庫中的專有名詞短語標(biāo)記都全部去掉了。且本文采用的是一級標(biāo)注集進(jìn)行標(biāo)注,所以對 nr、ns都作了
28、相應(yīng)處理,只保留二級標(biāo)注中的第一個字母作為此詞 的詞性。例如:中央/n人民In電視臺/n、香港/n特別/a行政區(qū)/n。本文在訓(xùn)練過程中和模型的 測試過程中,都不再把專有名詞短語考慮在內(nèi)。3.2.2當(dāng)用數(shù)據(jù)庫詞表庫詞表庫用來存放讀入的訓(xùn)練語料中的每個詞語,以及這個詞語出現(xiàn)的詞頻。詞表庫得三個字段分別為:word(詞語),wfreq(出現(xiàn)次數(shù)),wid(詞語代號)。圖3 一 1是讀入總詞數(shù)為306930的訓(xùn)練語料后,詞表庫中部分詞語以及頻率狀況。詞語代號詞畜出現(xiàn)好+Ml ftR34+542具有115*蜩意義JM+.544 更+515 8S149*se路錢36+稿住2+548證明31+549只育31
29、*;5S0 才149*;551 ig495*S2 )+3;+ :S53鈕合+ .1K4 商55.+SSSQffT5+55&竝廠“十;36ffl3-l詞表庫例詞性表庫用來存放讀入的訓(xùn)練語料中的每個詞語的詞性以及他的后詞詞性,以及出現(xiàn)頻率。詞性表庫得五個字段分別為:wid(詞語代號),pos(當(dāng)前詞詞性),nextPos(后詞詞性),pfreq(出現(xiàn)次數(shù)),pid(詞性代號)。如圖示4 一 2。第四章改進(jìn) Viterbi算法標(biāo)注圖3-2詞性表庫示嵐圖第四章改進(jìn)Viterbi算法標(biāo)注4.1標(biāo)注過程我們的總體思想就是在訓(xùn)練過程中抽取參數(shù)。在標(biāo)注階段對所給定的進(jìn)行過正確切分的分詞語料,即待標(biāo)注語料,劃分
30、成一個個的SPan。然后利用改進(jìn)的 viterbi算法尋找能使產(chǎn)生每個詞的詞性標(biāo)記的概率最大的狀態(tài)序列,然后生成標(biāo)注后的文本。如果待標(biāo)注詞串中含有單標(biāo)一記詞(包括標(biāo)點(diǎn),因?yàn)槊總€標(biāo)點(diǎn)也是只有一個標(biāo)記),那么這個詞的標(biāo)一記的選擇不受前一個詞的影響;但它會影響下一個詞的標(biāo)記的選擇,可是這個影響是固定的,因?yàn)樗?有這個詞性標(biāo)記。根據(jù)這個原理我們可以把含有n個單標(biāo)記的詞串劃分為n+1個更小的、中間不含單標(biāo)記詞的、首尾相接的詞串來標(biāo)注,不會影響原來詞串標(biāo)注的正確性。我們把這種小詞串稱為作為基于本標(biāo)注模型的基本單位。用4-1改進(jìn)HMM標(biāo)注過用圖4. 2改進(jìn)后的Viterbi算法的具體描述利用前面得出改進(jìn)
31、HMM參數(shù),對給定詞性標(biāo)記對(觀察值序列),要尋找其概率最 大的邊界狀態(tài)序列。本文用Viterbi算法來解決這一問題,即解決了HMM的第二個問題:解碼問題。Viterbi算法是一種動態(tài)規(guī)劃方法 (dynamic programming ),用它來 確定最佳意義上的一個狀態(tài)序列,其基本思想是把求解整個問題的最佳解歸結(jié)為求 解其子問題的最佳解。詞性轉(zhuǎn)移概率和詞匯發(fā)射概率的修改只是改進(jìn)HMM模型的第一步,為了更有效的使用訓(xùn)練所得到的參數(shù),需要對改進(jìn)Viterbi算法。設(shè)給定的Span切分成詞串Span -g W) B其中嘰 伽為兼類詞串的邊界,均為詞性確定的詞從的詞性仙到的詞性賊的第i個詞件r.各種
32、可能 路徑(即各種可能的詞性標(biāo)記串)中、必有一條路經(jīng)使禺概率最大,可以用Viterbi 變量記述1樂(j) = maxHd=乩砒,用“*) 2nin i Nn. 71-1模型的狀態(tài)從怕轉(zhuǎn)移到助杠時,整個路徑的概率可以通過模型在前一狀態(tài)第M個 詞)時的竄大槪率來求得W Viterbi變量可以遢歸求值:J* *)(f)=*J當(dāng)打描過伽,狀態(tài)轉(zhuǎn)移到眥時需婆有一個變盲紀(jì)呆已經(jīng)走過的路徑中哪 條 杲最佳的。即記住曲的最佳詞件標(biāo)記這個變量記件:護(hù)=arg max & -心)禺第五章實(shí)驗(yàn)結(jié)果與分析詞性標(biāo)注方法的好壞最終還是要通過在大規(guī)模數(shù)據(jù)上的實(shí)驗(yàn)來進(jìn)行評價。根據(jù)上文方法我們構(gòu)建了一個漢語詞性自動標(biāo)注器。訓(xùn)
33、練語料訓(xùn)練和封閉開放測試均采用北京大學(xué)的人民日報1998年1月的語料,以下是實(shí)驗(yàn)的結(jié)果與分析。5.1評價標(biāo)準(zhǔn)本文的目的是為了說明采用改進(jìn)的隱馬爾科夫模型以及相應(yīng)平滑之后,對實(shí)驗(yàn)結(jié)果的影響以及提高程度。本文采用了三個評估函數(shù) :詞性標(biāo)注精確率,詞性標(biāo)注召回率,和 F值。 分別如式(5.1),式(52)和式(53)所述。為了方便,用 a表示正確標(biāo)注的詞的個數(shù), b表示所 識別的詞的總數(shù),。表示文本中詞的總數(shù)。詞性標(biāo)注精確率(p) =-x00%bC5.2)t(5.3).詞性標(biāo)注召冋率(門 xlOO%cF伸型00%P + F5.2實(shí)驗(yàn)結(jié)果其中表5 一 1和表5 一 2是隨著訓(xùn)練集從20萬詞次遞增到30
34、萬詞次的開放與封閉測試 結(jié)果。從表中可以看出無論是封閉測試還是開放測試,隨著訓(xùn)練集大小的增加,模型標(biāo)注效果會越來越好,正確率逐漸增大,但是增大的趨勢是減小的。 訓(xùn)練集的大小與標(biāo)注正確率的 提高是成非線性分布的,這與文獻(xiàn)結(jié)論相符。5-1不同人小訓(xùn)練渠下的封11 iW試結(jié)果訓(xùn)蘇集大小(萬詞)訶性標(biāo)注箱確率(%)詞性標(biāo)注召冋率()F/fi (%)2094.42%96.23%9532%2594.89%96.58%9573%305.20%96.73%95,52%蟲表5-!所示,在封閉測試中隨著語料庫的規(guī)模不斷增大.詞性標(biāo)注精確率分別 提0,47%.和031%,詞性標(biāo)注的召回率分別提高T 035%和QI5
35、%F-值分別 提髙了 041%和 0J9%.我5-2不同大小訓(xùn)練乗下的開放測試的結(jié)杲訓(xùn)練堤大小(萬詞)詞性標(biāo)注新確率詞性標(biāo)注召冋率(F值(%)2094,07%9535%94.69%2594.74%甌04%9538%3095.09%96.20%95.64%由表5 一 2所示,在開放測試中隨著語料庫規(guī)模的不斷增大,詞性標(biāo)注精確率分別提高了 0.67%和0.35%,詞性標(biāo)注的召回率分別提高了0.69%和 0.16%,F(xiàn) 一值分別提高了 0.69%和0.26%。表5 一 3和表5 一 4是在30萬詞的訓(xùn)練語料下傳統(tǒng)HMM模型和改進(jìn)后的 HMM模型在封閉與開放測試的結(jié)果比較。表5-3同樣訓(xùn)練宦卜傳統(tǒng)模型
36、與改進(jìn)模型自閉測試結(jié)果模8(30萬詞訓(xùn)練語詞性標(biāo)注精確率(%)詞性標(biāo)注召冋率)F-值(%)94.)0%95.56%94,82%95.20%96,72%*92%由表5-3所示在封閉測試中比傳統(tǒng)HMM槌里改逬后的模型訶性精確率探高了1*1% 詞性標(biāo)拄召回率).17%, F-值提高了* 54同樣訓(xùn)練集下傳統(tǒng)模刑與改講理甲開放泌試結(jié)果模5(30萬阿訓(xùn)練語料)詞性標(biāo)注精確率怏)詞性標(biāo)注召冋率()F-ffi (%)傳統(tǒng)模旳94.03%95.15%94.59%枚進(jìn)95.09%9620%95.64%由表5 一 4所示,在開放測試中,改進(jìn)模型較傳統(tǒng) HMM模型,詞性標(biāo)注的精確率提高 了 1.06%,詞性標(biāo)注的召回率提高了1.05%,F(xiàn) 一值提高了 1.05%。傳統(tǒng)HMM模型在參數(shù)評估時與改進(jìn)后的 HMM模型在參數(shù)評估方案的唯一不同處在于:前者在評估詞的出現(xiàn)概率時,只考慮了當(dāng)前詞的詞性 :而后者在評估詞的出現(xiàn)概率時,不僅僅考慮當(dāng)前詞的詞性,而 且考慮了后詞的詞性。這兩種評估方法評估出的參數(shù)的封閉測試和開放測試實(shí)驗(yàn)結(jié)果可由表 5一 3和表5 一 4得出。很明顯,后者在精確率,召回率和F值三方面均要高于前者。5.3錯誤分析HMM的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙江汽車職業(yè)技術(shù)學(xué)院《影視后期設(shè)計與制作》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣州科技職業(yè)技術(shù)大學(xué)《運(yùn)營管理模擬》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025屆江蘇省徐州市睢寧高中南校高三2月月考試卷物理試題含解析
- 陜西鐵路工程職業(yè)技術(shù)學(xué)院《醫(yī)學(xué)生物學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 古代教育理念對當(dāng)代的啟示
- 公建項(xiàng)目物業(yè)招標(biāo)流程及標(biāo)準(zhǔn)
- 澳門廢氣處理施工方案
- 2024年三季度報湖南地區(qū)A股應(yīng)收賬款周轉(zhuǎn)率排名前十大上市公司
- 遼寧省遼陽市2024-2025學(xué)年高三(上)期末生物試卷(含解析)
- 河北省保定市2024-2025學(xué)年高一上學(xué)期1月期末英語試題(B)【含答案】
- 2025年貴州貴安新區(qū)產(chǎn)業(yè)發(fā)展控股集團(tuán)有限公司招聘筆試參考題庫附帶答案詳解
- 鐵路工務(wù)安全規(guī)則+鐵路線路修理規(guī)則
- DBJ51-T 193-2022 四川省金屬與石材幕墻工程技術(shù)標(biāo)準(zhǔn)
- 叉車-復(fù)審證明
- 機(jī)關(guān)事業(yè)單位電話記錄本(來電)模板
- 工程概算表【模板】
- 鋼絞線力學(xué)性能試驗(yàn)檢測報告
- 導(dǎo)游英語課程教學(xué)大綱
- 第四章邊界層理論基礎(chǔ)合肥工業(yè)大學(xué)傳遞過程基礎(chǔ)
- E4A使用手冊(DOC)
- ISO9001_2016年[全套]質(zhì)量管理體系文件
評論
0/150
提交評論