基于條件隨機場方法的漢語專利文本介詞短語識別.doc

上傳人：亦*** IP屬地：四川上傳時間：2019-11-16 格式：DOC 頁數(shù)：11 大?。?11.26KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于條件隨機場方法的漢語專利文本介詞短語識別李洪政晉耀紅摘要：介詞短語作為一種重要的短語類型在漢語中分布廣泛，正確自動識別介詞短語在自然語言處理的應(yīng)用領(lǐng)域具有重要意義和積極影響。本文嘗試?yán)媚壳氨容^流行的條件隨機場模型，主要面向漢語專利文本，對其中的介詞短語進(jìn)行識別研究。首先在分詞和詞性標(biāo)注的基礎(chǔ)上對語料進(jìn)行序列特征標(biāo)注，然后利用條件隨機場工具包訓(xùn)練了識別介詞短語的模型，最后設(shè)計相關(guān)實驗來驗證方法的效果，實驗準(zhǔn)確率達(dá)到90%以上。關(guān)鍵詞：介詞短語條件隨機場識別一、引言專利文獻(xiàn)在國家經(jīng)濟發(fā)展和科技交流中發(fā)揮著十分重要的作用。近年來，中國專利的申請數(shù)量漲速飛快。面向?qū)＠I(lǐng)域的文本信息處理（如專利文本機器翻譯）逐漸成為自然語言處理的重要應(yīng)用領(lǐng)域之一，并引起了學(xué)術(shù)界和業(yè)界的廣泛關(guān)注。為了滿足專利文本特定的表述需要，介詞短語作為一種重要的短語類型，在漢語專利文本中分布廣泛。據(jù)統(tǒng)計，在隨機抽取的500句漢語專利語料中，包含介詞短語的句子有226句，占到了樣本總量的45.2%。1可見介詞短語的出現(xiàn)比例非常高。漢語介詞短語的自動識別具有較大的難度，主要表現(xiàn)在以下幾點： 1.介詞短語的內(nèi)部構(gòu)成相當(dāng)復(fù)雜。介詞短語可以由介詞與其他詞語和短語（動賓短語、名詞短語、方位短語、時間短語等）構(gòu)成，甚至可以由整個句子構(gòu)成。復(fù)雜的內(nèi)部結(jié)構(gòu)很容易形成遠(yuǎn)距離的搭配關(guān)系。 2.兼類介詞的存在。在一定的語境下，介詞還可以兼做名詞、量詞、形容詞、連詞和動詞等，必須結(jié)合上下文語境才能判斷具體詞性。 3.在同一個句子中經(jīng)常會出現(xiàn)多個并列的介詞短語，或者會出現(xiàn)復(fù)雜的嵌套介詞短語。下面是一個包含介詞短語的真實專利語句示例：（1）本發(fā)明【在條件允許的情況下】【通過為一個宏塊中的不同區(qū)域提供不同的預(yù)測信息】而提出了許多更加準(zhǔn)確的結(jié)果。從例句可以明顯地看出，專利文本中的介詞短語通常具有更多的字?jǐn)?shù)和更為復(fù)雜的結(jié)構(gòu)。例句中用括號標(biāo)示出了兩個并列的介詞短語結(jié)構(gòu)，其中一個的內(nèi)部還有另外一個介詞短語，屬于嵌套結(jié)構(gòu)的介詞短語。正確識別這些短語就比較困難了。在句子S=W1，W2，W3Wn中，假設(shè)字符串Wi，Wi+1Wj為待識別的介詞短語，介詞短語識別的主要任務(wù)就是分別將Wi和Wj識別為該介詞短語的左右邊界。由于左邊界就是介詞本身，因此關(guān)鍵問題在于確定右邊界位置。介詞Wi通常稱為前界，右邊界Wj稱為后界，緊鄰右邊界的詞語Wj+1一般稱為后詞。考慮到介詞短語分布的廣泛性和對專利文本處理的影響，本文嘗試?yán)脳l件隨機場模型（ConditionalRandomField，即CRF），主要對大規(guī)模專利語料中位于同一分句內(nèi)部的介詞短語進(jìn)行自動識別研究，希望能做出一些有益的探索。二、相關(guān)研究針對漢語介詞短語識別的難點，國內(nèi)外學(xué)者做了大量研究工作，提出了一些有效的方法，主要包括規(guī)則方法，統(tǒng)計方法和將二者相結(jié)合的混合方法。梁猛杰等（xx）通過考察介詞規(guī)則庫的處理特點，依據(jù)規(guī)則的覆蓋程度從低到高進(jìn)行分類，重新調(diào)整了規(guī)則的前后排序方案，同時對排序的規(guī)則進(jìn)行優(yōu)選，在保證時間復(fù)雜度較低的情況下提高了介詞用法自動識別的準(zhǔn)確率2（P152155）。朱筠（xx）、胡韌奮（xx）等在概念層次網(wǎng)絡(luò)理論（HierarchicalNetworkofConcepts，HNC）3的指導(dǎo)下，面向漢語專利領(lǐng)域的文本，專門構(gòu)建了較大規(guī)模的漢語專利語料知識庫，在利用規(guī)則方法開展?jié)h英專利機器翻譯研究的過程中探索了介詞短語的識別方法和思想45。于俊濤（xx）釆用基于最大熵模型的方法，通過獲取有效的特征集合完成了介詞短語識別的任務(wù)。奚建清（xx）引入機器學(xué)習(xí)方法，提出了基于隱馬爾可夫模型（HMM）的漢語介詞短語邊界確定方法。首先基于HMM自動識別介詞短語，然后利用依存語法錯誤校正方法對識別結(jié)果進(jìn)行修正，取得了不錯的識別準(zhǔn)確率7（P172182）。胡思磊（xx）、宋貴哲（xx）、張杰（xx）利用CRF模型對介詞短語進(jìn)行識別，取得了較好的效果。于俊偉（xx）采用了規(guī)則和統(tǒng)計相結(jié)合的介詞短語識別方法，提出了利用搭配模板獲取可信搭配關(guān)系以及基于詞性的三元統(tǒng)計模型和規(guī)則相結(jié)合的方法識別介詞短語11（P1723）。昝紅英等（xx）在已有工作的基礎(chǔ)上，提出了一種規(guī)則與CRF模型相結(jié)合的介詞用法自動識別算法。通過將人工書寫的規(guī)則與CRF在宏觀層面和微觀層面進(jìn)行有機的結(jié)合，根據(jù)介詞的具體特點，選擇合適的識別方法，使最終的識別準(zhǔn)確率達(dá)到了80%左右12（P21522157）。三、CRF模型介紹作為一種基于統(tǒng)計的判別式學(xué)習(xí)模型，CRF模型最早由Lafferty等人在xx年提出。該模型最大熵模型。CRF通過計算和統(tǒng)計已知元素推理計算元素的條件概率。與隱馬爾可夫模型不同，CRF可以利用上下文信息，而不需要嚴(yán)格的獨立性假設(shè)，因此在序列標(biāo)注問題中表現(xiàn)出很好的性能。此外，CRFs還解決了最大熵馬爾可夫模型（MEMM）中的標(biāo)注偏置問題。CRFs被廣泛應(yīng)用于自然語言處理領(lǐng)域的句法分析、命名實體識、詞性標(biāo)注等方面，并取得了很好的效果。CRFs是一種以給定的輸入序列X為條件來預(yù)測輸出序列Y概率的無向圖（undirectedgraphical）結(jié)構(gòu)模型。（X，Y）就是一個以觀察序列為條件的隨機域。概率計算可以通過如下公式得到：四、基于CRF的介詞短語識別國外學(xué)者已經(jīng)開發(fā)了完整的CRF模型工具包，利用工具包可以快速地訓(xùn)練模型并得到相應(yīng)的結(jié)果。在本文中，將使用CRF+0.53版本的工具包對中國專利信息中心提供的專利語料進(jìn)行訓(xùn)練。（一）序列標(biāo)注很多基于CRF模型的語塊識別任務(wù)通?？梢赞D(zhuǎn)化為序列標(biāo)注問題。在識別介詞短語的過程中，首先對包含介詞短語的句子進(jìn)行分詞處理，然后對每個詞語進(jìn)行標(biāo)注，確定介詞短語的邊界。我們采用B，I，E，O標(biāo)記集進(jìn)行標(biāo)記。其中B表示介詞短語的前界，I表示介詞短語的內(nèi)部成分，E表示介詞短語的后界，O表示不屬于介詞短語的部分。（2）本發(fā)明通過采用有效的方法提高汽車產(chǎn)量。對于這個例句，可以做出如下標(biāo)記：本發(fā)明O通過B采用I有效的I方法E提高O汽車O產(chǎn)量O。O 將其反映到序列標(biāo)注問題上，則可以認(rèn)為：輸入序列X=本發(fā)明通過采用有效的方法提高汽車產(chǎn)量。相應(yīng)地，輸出標(biāo)注序列Y=OBIIEOOOO （二）特征選擇特征是訓(xùn)練CRF模型必需的。在CRF中，特征選擇是一個非常重要的問題，選擇合適的特征對模型訓(xùn)練和測試都將十分有益。盡管可以不加限制地定義標(biāo)記序列的特征，但不代表特征越多就越好。通過考察大規(guī)模語料中介詞短語的特點，初步確定了以下五個特征及其屬性值： 1.詞特征。詞作為句子的基本構(gòu)成單元，是最基本的特征，模型可以通過詞之間的差異性來尋找詞本身的內(nèi)部特征。 2.詞性特征。通過分析發(fā)現(xiàn)，詞性特征對邊界的識別具有很大的提示作用。因此需要標(biāo)記序列中詞語的詞性。本文采用北京大學(xué)現(xiàn)代漢語語法信息詞典中的詞性標(biāo)記集進(jìn)行標(biāo)記。 3.候選前界特征。從當(dāng)前詞位置開始向前查找，查找位于同一分句中的介詞。如果該介詞存在，則該特征值為介詞本身；否則特征值為“N”。 4.候選后界特征。如果認(rèn)為當(dāng)前詞語可以作為介詞短語的后界，則特征值記為“Y”，否則記為“N”。 5.候選后詞特征。后詞對介詞短語的正確識別也起到了很大的提示作用，判斷當(dāng)前詞是否是候選后詞也能減小后界的選擇范圍。如果認(rèn)為當(dāng)前詞語可以作為介詞短語的后詞，則特征值記為“Y”，否則記為“N”。下表是例句2的標(biāo)注實例：將以上五個特征分為五列，對分詞處理后含有介詞短語的每一句語料進(jìn)行標(biāo)注，同時在最后一列加入B，I，E，O標(biāo)記集，以確定介詞短語的邊界，以此形成訓(xùn)練語料和測試語料。（三）特征模板對于CRFs模型而言，根據(jù)選擇的特征設(shè)計出不同的特征模板，根據(jù)特征模板系統(tǒng)生成不同的特征函數(shù)，會影響系統(tǒng)的性能。因此，特征模板選擇的好壞將直接影響CRFs模型的效果。所以，特征模板的選擇也是CRFs模型在介詞短語識別中的重要問題之一。 CRFs模型的特征模板一般包括原子特征模板和復(fù)合特征模板。單獨使用原子特征模板，只能表現(xiàn)出單個位置的特征信息，容易造成期望值和實際結(jié)果的偏差較大，導(dǎo)致參數(shù)的估計不準(zhǔn)確?？梢詫υ犹卣鬟M(jìn)行組合，構(gòu)成復(fù)合特征模板，通過定義各特征的窗口來描述標(biāo)注單元和上下文之間的關(guān)系。本文將窗口大小定義為2。即分別考慮當(dāng)前詞、當(dāng)前詞前面兩個詞及后面兩個詞的五項特征。當(dāng)完成了序列特征標(biāo)注任務(wù)，就可以利用CRF工具包對模型進(jìn)行訓(xùn)練并識別介詞短語了。五、實驗及分析（一）實驗結(jié)果在這一部分，設(shè)計實驗測試CRF模型識別介詞短語的效果。從中國專利信息中心提供的專利語料中隨機選擇了1000句含有介詞短語的句子作為測試集進(jìn)行序列標(biāo)注。實驗采用四倍交叉驗證方法，即將測試集按照數(shù)量均分為4等份，其中的3份語料作為訓(xùn)練語料，另一份作為測試語料，共進(jìn)行四次實驗，分別計算實驗的三個評價指標(biāo)：準(zhǔn)確率（P）、召回率（R）和F1值，并將實驗的平均值作為最終的參考結(jié)果。評價指標(biāo)計算公式如下：其中，“N”代表每次實驗的測試集（250句）中介詞短語的數(shù)量，“N1”代表模型識別介詞短語的數(shù)量，“N2”代表正確識別的數(shù)量。（二）實驗分析從上表可以看出，實驗的整體評價指標(biāo)都達(dá)到了90%以上，表明CRF模型對于識別介詞短語的有效性。通過分析識別錯誤的結(jié)果，初步認(rèn)為分析錯誤的原因可能有以下幾點： 1.有的介詞在訓(xùn)練集中出現(xiàn)次數(shù)很少或者幾乎沒有出現(xiàn)，因此CRF模型無法有效學(xué)習(xí)到這些介詞的特征，當(dāng)它們出現(xiàn)在測試集中，模型就難以正確識別。 2.有些介詞短語具有歧義，模型不容易判斷短語的右邊界位置。例如：通過墨水著色劑可以有效地使染布上色。這句話中，兩個名詞“墨水”和“著色劑”挨在一起，不確定二者是否可以組成復(fù)合名詞，不容易判斷到底哪個名詞才是介詞短語真正的右邊界。 3.CRF模型對于序列的標(biāo)注特征比較敏感。在人工標(biāo)注的過程中一些難以避免的標(biāo)注失誤或錯誤也會導(dǎo)致識別錯誤的現(xiàn)象。六、結(jié)語本文利用條件隨機場模型嘗試對漢語專利語料中的介詞短語進(jìn)行了識別研究。在分析大規(guī)模語料的基礎(chǔ)上，選擇了合適的特征，對語料進(jìn)行序列標(biāo)注，同時利用CRF工具包訓(xùn)練了識別短語的模型，最后設(shè)計了實驗檢驗識別效果。實驗整體的準(zhǔn)確率達(dá)到了90%以上，表明提出的方法對于識別介詞短語是有效的。未來將加強對歧義介詞短語的研究，考察更多語料，爭取發(fā)現(xiàn)更多有效的特征，同時擴大測試規(guī)模，希望進(jìn)一步提高識別的效果與性能。（本文得到了“國家高技術(shù)研究發(fā)展計劃”863課題，項目編號xxAA011104，中央高校基本科研業(yè)務(wù)專項資金以及中國博士后科學(xué)基金資助項目的資助，特此表示感謝！）注釋：：/crfpp.googlecode./ 參考文獻(xiàn)： 1LiHongzheng，ZhuYun，Yangyang，JinYaohong.Reordering AdverbialChunksinChinese-EnglishPatentMachineTranslationA.ProceedingsofCCISxx. 2梁猛杰，宋玉，韓英杰等.基于規(guī)則排序的介詞用法自動識別研究J.河南師范大學(xué)學(xué)報（自然科學(xué)版），xx，41（3）. 3黃曾陽.HNC（概念層次網(wǎng)絡(luò)）理論M.北京：清華大學(xué)出版社，1998. 4朱筠.基本句群處理及其在漢英專利機器翻譯中的應(yīng)用D.北京：北京師范大學(xué)漢語文化學(xué)院博士學(xué)位論文，xx. 5胡韌奮.面向漢英專利機器翻譯的介詞短語自動識別策略J. 語言文字應(yīng)用，xx，1. 6于浚濤.基于最大熵的漢語介詞短語自動識別D.大連：大連理工大學(xué)碩士學(xué)位論文，xx. 7奚建清，羅強.基于HMM的漢語介詞短語自動識別研究J.計算機工程，xx，33（2）. 8胡思磊.基于CRF模型的漢語介詞短語識別D.大連：大連理工大學(xué)碩士學(xué)位論文，xx. 9宋貴哲.漢語介詞短語識別研究D.大連：大連理工大學(xué)碩士學(xué) 位論文，xx. 10張杰.基于多層CRFs的漢語介詞短語識別研究D.大連：大連理工大學(xué)碩士學(xué)位論文，xx. 11干俊偉，黃德根.漢語介詞短語的自動識別J.中文信息學(xué) 報，xx，（4）. 12昝紅英，張騰飛，張坤麗.規(guī)則與統(tǒng)計相結(jié)合的介詞用法自動識別研究J.計算機工程與設(shè)計，xx，（6）. 13La

人人文庫> 全部分類> 畢業(yè)設(shè)計 > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于條件隨機場方法的漢語專利文本介詞短語識別.doc

文檔簡介

溫馨提示

最新文檔

評論

基于條件隨機場方法的漢語專利文本介詞短語識別.doc

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔