![(計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)專業(yè)論文)web中文信息抽取技術(shù)研究及其在招聘信息系統(tǒng)中的應(yīng)用.pdf_第1頁](http://file.renrendoc.com/FileRoot1/2019-12/14/3b690901-3b17-4c79-b924-58913d31e67f/3b690901-3b17-4c79-b924-58913d31e67f1.gif)
![(計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)專業(yè)論文)web中文信息抽取技術(shù)研究及其在招聘信息系統(tǒng)中的應(yīng)用.pdf_第2頁](http://file.renrendoc.com/FileRoot1/2019-12/14/3b690901-3b17-4c79-b924-58913d31e67f/3b690901-3b17-4c79-b924-58913d31e67f2.gif)
![(計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)專業(yè)論文)web中文信息抽取技術(shù)研究及其在招聘信息系統(tǒng)中的應(yīng)用.pdf_第3頁](http://file.renrendoc.com/FileRoot1/2019-12/14/3b690901-3b17-4c79-b924-58913d31e67f/3b690901-3b17-4c79-b924-58913d31e67f3.gif)
![(計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)專業(yè)論文)web中文信息抽取技術(shù)研究及其在招聘信息系統(tǒng)中的應(yīng)用.pdf_第4頁](http://file.renrendoc.com/FileRoot1/2019-12/14/3b690901-3b17-4c79-b924-58913d31e67f/3b690901-3b17-4c79-b924-58913d31e67f4.gif)
![(計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)專業(yè)論文)web中文信息抽取技術(shù)研究及其在招聘信息系統(tǒng)中的應(yīng)用.pdf_第5頁](http://file.renrendoc.com/FileRoot1/2019-12/14/3b690901-3b17-4c79-b924-58913d31e67f/3b690901-3b17-4c79-b924-58913d31e67f5.gif)
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
摘要 摘要 w w w 的飛速發(fā)展使其已成為全球信息傳播與共享的重要平臺,并成為人們 獲取信息的主要來源。但是隨著信息量的激增,要想從w w w 上獲取一條有用 信息的難度卻越來越大。人們期望著一種理想情況的出現(xiàn):像查詢數(shù)據(jù)庫一樣地 查詢w w w 上的信息。 w e b 信息抽取技術(shù)正是隨著這樣的需求而出現(xiàn)并不斷豐富的,而各種抽取技 術(shù)的側(cè)重點(diǎn)不同導(dǎo)致了抽取系統(tǒng)在精確度、可擴(kuò)展性、適應(yīng)性方面不能都令人滿 意。本課題較好地解決了基于自然語言理解的方式在處理半結(jié)構(gòu)化文本時的不 足,改進(jìn)了現(xiàn)有的語言模型,并在此基礎(chǔ)上實(shí)現(xiàn)了一個w e b 招聘信息抽取系統(tǒng) j o b h u n t e r 。 j o b h u n t e r 的實(shí)現(xiàn)如下:首先,構(gòu)建s p i d e r ,“爬行”w w w 上的若干招聘網(wǎng) 站并抓取網(wǎng)頁;然后,由基于自然語言理解的信息抽取模塊將s p i d e r 抓取的網(wǎng) 頁抽取成結(jié)構(gòu)化信息并存入數(shù)據(jù)庫;最后,將用戶所關(guān)注的招聘信息清楚地顯示 在界面上。 由于j o b h u n t e r 基于自然語言理解方式進(jìn)行信息抽取,可以從任何類型的網(wǎng) 站抽取招聘信息,所以有著良好的可擴(kuò)展性和適應(yīng)性。經(jīng)測試,本系統(tǒng)抽取準(zhǔn)確 率和召回率都達(dá)到7 0 以上。 關(guān)鍵詞:w e b 信息抽取,自然語言理解,s p i d e r ,命名實(shí)體識別 a b s 仃a c t a bs t r a c t w i t ht h eq u i c k l yd e v e l o p m e n to fw w w , i th a sb e c o m et h ei m p o r t a n tp l a t f o r mo f t r a n s m i t t i n ga n ds h a r i n gi n f o r m a t i o na l lo v e rt h ew o r l d i t so u to fq u e s t i o nt h a tt h e i n t e r n e th a sb e c o m et h ep r i m a r ys o u r c ef o rp e o p l et og e tt h ei n f o r m a t i o nt h e yn e e d e d b u tt h ef a c ti st h a tt h ed i f f i c u l t yo fg e t t i n gu s e f u li n f o r m a t i o ni sg r o w i n gr a p i d l yw h i l e t h ee x p l o s i o no ft h ed a t aa p p e a r so nt h e 緲妙彤i d e a l l y , p e o p l ec a nq u e r yt h e i n f o r m a t i o no nt h ew w w j u s tl i k ea d a t a b a s e f o rs a t i s f ys u c ht h en e e d s ,w e bi n f o r m a t i o ne x t r a c t i o na p p e a r e da n db e c o m e a b u n d a n t ,b u tt h e yc a n n tg e th i g hs c o r ea te a c ha s p e c ts u c ha sa c c u r a c y , e x t e n s i b i l i t y , a d a p t a b i l i t ya n ds oo n m yr e s e a r c hs u b je c ts l o v e st h ed r a w b a c k so np r o c e s s i n gt h e h a l f - s t r u c t u r et e x tb yn a t u r a ll a n g u a g eu n d e r s t a n d i n gm e t h o da n di m p r o v e st h e e x i s t i n gl a n g u a g em o d e l b a s e do nt h i s ,t h ea u t h o rd e s i g na n dd e v e l o p m e n taw e b r e c r u i t m e n ti n f o r m a t i o ne x t r a c t i o ns y s t e mc a l l e dj o b h u n t e r t h ee x t r a c t i o np r o c e s s e sa r ea sf o l l o w s f i r s t l y , c o n s t r u c tas p i d e rt os n a t c ht h e w e bp a g e sf r o ms o m ee m p l o ys i t e s a n dt h e ne x t r a c tt h ee m p l o y m e n ti n f o r m a t i o na n d s a v e dt ot h ed a t a b a s eb yi n f o r m a t i o ne x t r a c t i o nm o d e l l a s t l y , d i s p l a yt h ei n f o r m a t i o n e x t r a c t e dt ot h ej o bh u n t e r sa tt h ei n t e r f a c e t h es y s t e mh a sag o o de x t e n s i b i l i t ya n da d a p t a b i l i t yb e c a u s ei tb a s e do nt h e n a t u r a ll a n g u a g eu n d e r s t a n d i n gm e t h o d ,a n dp r e c i s i o na n dr e c a l lc a nr e a c ha b o v e 7 0 k e y w o r d s : w e bi n f o r m a t i o ne x t r a c t i o n ,n a t u r a ll a n g u a g eu n d e r s t a n d i n g ,s p i d e r , n a m ee n t i t yr e c o g n i t i o n i i 西北大學(xué)學(xué)位論文知識產(chǎn)權(quán)聲明書 本人完全了解學(xué)校有關(guān)保護(hù)知識產(chǎn)權(quán)的規(guī)定,即:研究生在校攻 讀學(xué)位期間論文工作的知識產(chǎn)權(quán)單位屬于兩北大學(xué)。學(xué)校有權(quán)保留并 向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版。本人允許瞼文被 查閱和借閱。學(xué)??梢詫⒈緦W(xué)俄論文的全部或部分內(nèi)容績?nèi)胗嘘P(guān)數(shù)據(jù) 庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué) 位論文。同時,本人保證,畢業(yè)后結(jié)合學(xué)位論文研究課題再撰寫的文 章一律注爨作者單位為囂j 匕大學(xué)。 保密論文待勰密后透用本聲明。 學(xué)位論文作者簽名:指導(dǎo)教師簽名:監(jiān) 。7 年竅1 8 b 西北大學(xué)學(xué)位論文獨(dú)創(chuàng)性聲明 本人聲明:所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研 究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和 致謝的地萬外,本論文個包含其他人已經(jīng)發(fā)表或撰寫過的研究成 果,也不包含為獲得西北大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使 用過的材料。與我一同工作的同志對本磷究所做的任何貢獻(xiàn)均已 在論文中作了明確的說明并表示謝意。 學(xué)位論文作者簽名:躉哆埒 d 7 年| f 5 詩f 畸 顰 字 盈 第一章引言 1 1 研究背景 第一章引言弟一早j ii 在日益信息化和網(wǎng)絡(luò)化的今天,如何找到所需要的信息并把有用的信息歸 類、過濾或提取出來,一直以來都是一個備受關(guān)注的實(shí)際問題。相應(yīng)地,各種幫 助人們查找、分類和存儲信息的理論、技術(shù)、應(yīng)用工具和系統(tǒng)始終在不斷地發(fā)展 和更新。近年來,一種叫做信息抽取( i n f o r m a t i o ne x t r a c t i o n , i e ) 的技術(shù)逐漸受到了 人們的關(guān)注,它的提出和興起有著特定的時代背景。2 0 世紀(jì)8 0 年代后期,美國政 府提出了一個專門的文本處理研究計(jì)劃i t i p s t e r 計(jì)劃,其內(nèi)容包括信息抽取、 文檔檢索和文獻(xiàn)摘要等,以期提高政府部門的信息處理速度和質(zhì)量。該計(jì)劃的一 個重要的目標(biāo)就是研究和實(shí)現(xiàn)文本信息的自動查找、收集匯總和存儲,以便將人 們從大量的、低效的文本閱讀勞動中解放出來。 信息抽取的任務(wù)是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成類似表格一樣 結(jié)構(gòu)化的組織形式。輸入信息抽取系統(tǒng)的是原始文本,輸出的則是固定格式的信 息點(diǎn)。 對于從大量文檔中抽取所需要的特定事實(shí)來說,信息抽取技術(shù)非常有用。在 w w w 上,同一主題的信息通常分散存放在不同網(wǎng)站上,表現(xiàn)的形式也各不相同。 若能將這些信息收集在一起,用結(jié)構(gòu)化形式儲存,那將是有益的,所以w e b 信息 抽取技術(shù)就成為當(dāng)前的一個研究熱點(diǎn)【。 同時,w w w 所具有的海量、異構(gòu)、動態(tài)等特性也給w c b 信息抽取研究帶來 了挑戰(zhàn)。首先,w w w 是一個巨大的信息空間,w 曲頁面數(shù)以幾十億計(jì),而且仍 在以幾何級數(shù)增長【2 】,如何自動高效地處理海量的w e b 信息就成為一個難點(diǎn);其 次,w e b 頁面的異構(gòu)性( 即同一主題的信息分散在不同語種、組織形式各異的w 曲 頁面o f ) 使得如何在這些異構(gòu)的網(wǎng)頁里準(zhǔn)確識別所需要的信息變得更加困難;最 后,w w w 是一個動態(tài)的空間,網(wǎng)站的頁面格式和內(nèi)容瞬息萬變,如何保持w e b 信息抽取的動態(tài)適應(yīng)性也是一個有待解決的問題。 第一章引言 w c b 信息抽取系統(tǒng)可以看作是把w e b 信息從不同文檔中轉(zhuǎn)換成數(shù)據(jù)庫記錄 的系統(tǒng)。因此,成功的w 曲信息抽取系統(tǒng)將把互聯(lián)網(wǎng)變成巨大的數(shù)據(jù)庫,它為海 量w e b 信息的再利用提供了可能,有著明顯的優(yōu)勢和廣闊的應(yīng)用前景,是當(dāng)今自 然語言處理領(lǐng)域的研究熱點(diǎn)。 1 2 研究現(xiàn)狀 目前,信息抽取的研究重點(diǎn)主要集中在英文領(lǐng)域,日文的研究也有一部分【3 l 。 英文信息抽取在命名實(shí)體f i e ) 和實(shí)體關(guān)系( t r ) 識別方面,已經(jīng)取得相當(dāng)大的進(jìn) 步,但是在真正的事件抽取( s t ) 方面,還有許多問題需要探索,而這些問題大多 涉及到了自然語言處理中的核心難題。比如,在m u c 7 上,s r a 公司的3 項(xiàng)指 標(biāo)均取得了較高的成績。 中文信息抽取的研究工作開展的較晚,僅有國立臺灣大學(xué)和新加坡肯特崗數(shù) 字實(shí)驗(yàn)室參加了m u c 7 關(guān)于命名實(shí)體識別的評測。i n t e l 中國研究中心開發(fā)了一個 抽取命名實(shí)體和它們之間關(guān)系的信息抽取系統(tǒng),該系統(tǒng)利用記憶獲取規(guī)則抽取相 關(guān)內(nèi)容。北京大學(xué)孫斌采用有限狀態(tài)自動機(jī)進(jìn)行事件抽取,開發(fā)了i n f o x 信息抽 取系統(tǒng),對人民日報(bào)語料庫中任職、離職、調(diào)職三個事件進(jìn)行了抽取州。總體而 言,中文信息抽取的研究主要集中在命名實(shí)體識別方面,設(shè)計(jì)并實(shí)現(xiàn)完整的中文 信息抽取系統(tǒng)還處于起步探索階段。 1 3 本文的研究內(nèi)容 w e b 信息抽取的一個直接應(yīng)用就是幫助人們在w w w 中快速準(zhǔn)確地查找所 需信息,加快人們獲取信息的速度,從而提高工作效率。本著這樣一個思想,本 選題著眼于當(dāng)前社會的“找工作”問題,將分散在不同w e b 頁面的動態(tài)變化的 招聘信息抽取出來,以簡單明晰的結(jié)構(gòu)顯示給找工作者,幫助他們盡快找到稱心 滿意的工作。 本課題采用基于自然語言理解的方式來進(jìn)行w e b 信息抽?。菏紫龋瑯?gòu)建網(wǎng) 絡(luò)蜘蛛( s p i d e r ) ,“爬行”w w w 上的若干招聘網(wǎng)站并抓取相關(guān)網(wǎng)頁:然后,由基 于自然語言理解的信息抽取模塊將s p i d e r 抓取的網(wǎng)頁抽取成結(jié)構(gòu)化信息并存入 2 第一章引言 數(shù)據(jù)庫;最后,將用戶所關(guān)注的招聘信息清楚地顯示在界面上。 本文的特色主要如下: 1 ) 解決了基于自然語言理解方式進(jìn)行w e b 信息抽取時對處理半結(jié)構(gòu)化文本 的不足; 改進(jìn)了現(xiàn)有的語言模型并應(yīng)用于命名實(shí)體識別,取得了較好的識別效果。 1 4 本文的結(jié)構(gòu)安排 全文共分五章,各章的內(nèi)容概括如下: 第一章,研究背景與現(xiàn)狀,指出本文的研究內(nèi)容。 第二章,信息抽取技術(shù)。本章從w 曲信息抽取開始論述,然后針對中文信息 抽取中的關(guān)鍵步驟中文命名實(shí)體的識別進(jìn)行了分析,最后給出信息抽取過程 中用到的語言模型。 第三章,w c b 招聘信息抽取系統(tǒng)設(shè)計(jì)。本章在對傳統(tǒng)的基于自然語言理解的 抽取方法以及語言模型改進(jìn)的基礎(chǔ)上進(jìn)行系統(tǒng)的分析與設(shè)計(jì) 第四章,系統(tǒng)實(shí)現(xiàn)與評測。本章實(shí)現(xiàn)w e b 信息抽取系統(tǒng)j o b h u n t e r ,并進(jìn)行分 塊和整體測試。 第五章,總結(jié)與展望。對全文的工作進(jìn)行總結(jié),并指出進(jìn)一步的研究方向。 第二章信息抽取技術(shù) 第二章信息抽取技術(shù) 2 1w e b 信息抽取 2 1 1w e b 信息抽取背景及其分類 從自然語言文本中獲取結(jié)構(gòu)化信息的研究最早開始于2 0 世紀(jì)6 0 年代中期,它 以兩個長期的研究性的自然語言處理項(xiàng)目為代表【2 l 噗國紐約大學(xué)開展的 l i n g u i s t i c s t r i n g 項(xiàng)目和耶魯大學(xué)的f r u m p 項(xiàng)目。 2 0 世紀(jì)8 0 年代末,消息理解系列會議( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e , m u c ) 的召開使得信息抽取的研究蓬勃開展起來。信息抽取技術(shù)發(fā)展成為自然語 言處理領(lǐng)域一個重要分支,并一直推動這一領(lǐng)域的研究向前發(fā)展。 從1 9 8 7 年到1 9 9 8 年,m u c 會議共舉行了七屆,它由美國國防高級研究計(jì)劃 委員會( t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y , d a r p a ) 資助嘲。m u c 的 顯著特點(diǎn)并不是會議本身,而在于對信息抽取系統(tǒng)的評澳9 。各屆m u c 都吸引了 許多來自不同學(xué)術(shù)機(jī)構(gòu)和業(yè)界實(shí)驗(yàn)室的研究者參加信息抽取系統(tǒng)競賽。每個參加 單位根據(jù)預(yù)定的知識領(lǐng)域,開發(fā)一個信息抽取系統(tǒng),然后用該系統(tǒng)處理相同的文 檔庫,最后用一個官方的評分系統(tǒng)對結(jié)果進(jìn)行打分。 目前,除了強(qiáng)烈的應(yīng)用需求外,推動信息抽取研究進(jìn)一步發(fā)展的動力主要來 自美國國家標(biāo)準(zhǔn)技術(shù)研究所( n i s t ) 組織的自動內(nèi)容抽取( a u t o m a t i cc o n t e n t e x t r a c t i o n 。a c d 評測會議【6 】。這項(xiàng)評測旨在開發(fā)自動內(nèi)容抽取技術(shù),以支持對三 種不同來源( 普通文本、由自動語音識別a s r 得到的文本、由光學(xué)字符識別o c r 得到的文本) 的語言文本的自動處理;研究的主要內(nèi)容是自動抽取新聞?wù)Z料中出 現(xiàn)的實(shí)體與關(guān)系等內(nèi)容,即對新聞?wù)Z料中實(shí)體與關(guān)系的識別和描述。 隨著w w w 的日益繁榮,信息抽取的研究重點(diǎn)已經(jīng)逐漸轉(zhuǎn)移到w e b 信息抽取 上來,并涌現(xiàn)出許多算法和系統(tǒng)【刀。其中最知名的研究項(xiàng)目是卡耐基梅隆大學(xué) 自動學(xué)習(xí)和發(fā)現(xiàn)中一已, ( c e n t e rf o ra u t o m a t e dl e a r n i n ga n dd i s c o v e r y ) 的“w e b 挖掘 ( m h a n g t h e w o r l d w i d e w e b ) ”項(xiàng)目。該項(xiàng)目的目標(biāo)是通過從w e b 中自動提取事 實(shí),來創(chuàng)建大型的、結(jié)構(gòu)化的和有用事實(shí)的數(shù)據(jù)庫。它們的技術(shù)途徑是研究機(jī)器 學(xué)習(xí)算法,通過訓(xùn)練自動提取信息。 4 第二章信息抽取技術(shù) w e b 信息抽取技術(shù)有多種分類方式8 1 【1 2 】【塒,根據(jù)各種工具所采用的原理不 同,可分為4 類:基于自然語言理解的方式、基于包裝器歸納的方式、基于o n t o l o g y 的方式和基于h t m l 結(jié)構(gòu)的方式。 基于自然語言理解方式的信息抽取 自然語言理解技術(shù)通常用于自由文本的信息抽取,需要經(jīng)過的處理步驟包 括:句法分析、語義標(biāo)注、專有對象的識別( 如人物、公司) 和抽取規(guī)則f 1 冊。具體 地說就是把文本分割成多個句子,對一個句子的句子成分進(jìn)行標(biāo)記,然后將分析 好的句子語法結(jié)構(gòu)和事先定制的語言模式( 規(guī)則) 匹配,獲得句子的內(nèi)容。也就是 利用子句結(jié)構(gòu)、短語和子句間的關(guān)系建立基于語法和語義的抽取規(guī)則實(shí)現(xiàn)信息抽 取。規(guī)則可以由人工編制,也可從人工標(biāo)注的語料庫中自動學(xué)習(xí)獲得。這類信息 抽取主要適用于源文檔中含有大量文本的情況,特別針對于合乎語法的文本。 基于自然語言理解的信息抽取技術(shù)是將w e b 文檔視為文本進(jìn)行處理的,其缺 點(diǎn)是【i j : 1 ) 沒有利用w e b 文檔獨(dú)特于普通文本的層次特性,抽取規(guī)則表達(dá)能力有限, 缺乏健壯性,獲得有效的抽取規(guī)則需要大量的樣本學(xué)習(xí),達(dá)到全自動的程序較難, 而且速度較慢,對于操作網(wǎng)上海量數(shù)據(jù)來說這是一個大問題。 2 1 只支持記錄型的語義模式結(jié)構(gòu),而不支持復(fù)雜對象的抽取。 3 ) 由于w e b 頁面中的文本通常不是結(jié)構(gòu)完整的句子,所以適用范圍較窄。 基于包裝器歸納方式( w r a p p e ri n d u c t i o n ) 的信息抽取 包裝器由一系列的抽取規(guī)則以及應(yīng)用這些規(guī)則的程序代碼組成。通常,一個 包裝器只能處理一種特定的信息源。從幾個不同信息源中抽取信息,需要一系列 的包裝器程序庫。形式化地,每一類w e b 頁面對應(yīng)一個包裝器【l 】 包裝器歸納法可以自動分析出待抽取信息在網(wǎng)面中的結(jié)構(gòu)特征并實(shí)現(xiàn)抽取, 其主要思想是用歸納式學(xué)習(xí)方法生成抽取規(guī)則,該方法由n i c h o l a sk u s h m e r i c k 于 1 9 9 6 年提出i l ”。 與自然語言處理方式比較,包裝器較少依賴于全面的句子語法分析和分詞等 復(fù)雜的自然語言處理技術(shù),更注重于文本結(jié)構(gòu)和表格格式的分析。使用包裝器的 5 第二章信息抽取技術(shù) 困難在于: 1 ) 包裝器的針對性強(qiáng),可擴(kuò)展性( s c a l a b i l i t y ) 較差。由于一個包裝器只能 處理一種特定的信息源,所以若從幾個不同的信息源中抽取信息,就需要一系列 的包裝器集,這樣使得信息抽取的工作量巨大。 2 ) 可重用性( r e u s a b i l i t y ) 差。包裝器對頁面結(jié)構(gòu)的依賴性強(qiáng),當(dāng)出現(xiàn)一類新 的w 曲頁面或舊的頁面結(jié)構(gòu)發(fā)生了變化后,原來的包裝器就會失效,無法從數(shù)據(jù) 源中獲得數(shù)據(jù)或得到錯誤的數(shù)據(jù)。這使得一個新的問題出現(xiàn),即包裝器的維護(hù)問 題。 ( 3 ) 缺乏對頁面的主動理解。目前的包裝器主要依賴于原網(wǎng)頁或其后臺數(shù)據(jù) 庫的模式,基本上是一種數(shù)據(jù)模式的還原,缺乏對數(shù)據(jù)語義的主動理解。 基于o n t o l o g y 方式的信息抽取 按照s t a n f o r da i 專家t o mg r u b e r 的定義,o n t o l o g y 是為了幫助程序和人共享 知識的概念化規(guī)范,在知識表達(dá)和共享領(lǐng)域,o n t o l o g y 描述了在代理之間的概念 和關(guān)系( c o n c e p t sa n dr e l a t i o n s ) 。 基于o n t o l o g y 的信息抽取主要利用了對數(shù)據(jù)本身的描述信息實(shí)現(xiàn)抽取,對網(wǎng) 頁結(jié)構(gòu)的依賴較少。f l j b r i g h a my o n gu n i v e r s i t y 開發(fā)的信息抽取工具就采用了這 種方法。采用該方法,事先要由領(lǐng)域知識專家采用人工的方式書寫某一應(yīng)用領(lǐng)域 的o n t o l o g y ( 包括對象的模式信息、常值、關(guān)鍵字的描述信息,其中常值和關(guān)鍵 字提供了語義項(xiàng)的描述信息1 。根據(jù)o n t o l o g y q a 常值和關(guān)鍵字的描述信息產(chǎn)生抽 取規(guī)則,對每個無結(jié)構(gòu)的文本塊進(jìn)行抽取獲得各語義項(xiàng)的值。另外系統(tǒng)根據(jù)邊界 分隔符和啟發(fā)信息將源文檔分割為多個描述某一事物不同實(shí)例的無結(jié)構(gòu)的文本 塊,還將抽取出的結(jié)果放入根據(jù)o n t o l o g y 的描述信息生成的數(shù)據(jù)庫中。 基于o n t o l o g y 方式的最大的優(yōu)點(diǎn)是對網(wǎng)頁結(jié)構(gòu)的依賴較少,只要事先創(chuàng)建的 應(yīng)用領(lǐng)域的o n t o l o g y 足夠強(qiáng)大,系統(tǒng)可以對某一應(yīng)用領(lǐng)域中各種網(wǎng)頁實(shí)現(xiàn)信息抽 取。主要缺點(diǎn)是: 。 1 ) 需要由領(lǐng)域?qū)<覄?chuàng)建某一應(yīng)用領(lǐng)域的詳細(xì)清晰的o n t o l o g y ,工作量大。 2 ) 由于是根據(jù)數(shù)據(jù)本身實(shí)現(xiàn)信息抽取,因此在減少了對網(wǎng)頁結(jié)構(gòu)依賴的同 時,增加了對網(wǎng)頁中所含的數(shù)據(jù)結(jié)構(gòu)的要求,如要求內(nèi)容中包含時間、日期、電 6 第二章信息抽取技術(shù) 話號碼等有一定格式的內(nèi)容。 ( 3 ) 從大量異構(gòu)的文檔中提取公共模式工作量繁重,并且不支持對超鏈接的 處理。 基于h t m l 結(jié)構(gòu)的信息抽取 該類信息抽取技術(shù)的特點(diǎn)是根據(jù)w e b 頁面的結(jié)構(gòu)定位信息。在信息抽取之前 通過解析器將w e b 文檔解析成語法樹,通過自動或半自動的方式產(chǎn)生抽取規(guī)則, 將信息抽取轉(zhuǎn)化為對語法樹的操作實(shí)現(xiàn)信息抽剮1 0 i f l l 】。 2 1 2w e b 信息抽取的任務(wù) 為了填充復(fù)雜的模板,研究人員發(fā)現(xiàn)系統(tǒng)必須能執(zhí)行多種簡單任務(wù),這些任 務(wù)包括實(shí)體抽取、屬性抽取和關(guān)系抽取等1 6 1 切。 實(shí)體抽取( e n t i t ye x t r a c t i o n ) 命名實(shí)體是文本中基本的信息元素,是正確理解文本的基礎(chǔ)。常用的實(shí)體類 型有: 1 ) 命名實(shí)體( n a m e di n d i v i d u a l s ) :如組織,人、地點(diǎn)、書、電影、賓館等。 2 ) 命名類型( n a m e dk i n d s ) :如蛋白質(zhì)、化合物、藥物、疾病、飛行器等。 3 ) 時間( t i m e s ) :時間表達(dá)式,日期、時刻等。 4 ) 量度( m e a s u r e s ) :金錢表達(dá)式、距離、大小、重量等。 對于每個參考文本必須識別它的范圍和類型,比如“堡叢和m i c r o s o f t 今天宣 布”,其中下劃線被識別為組織或者公司名。但“戴爾”是公司名還是人名則需 要根據(jù)具體情況來判斷。 在信息抽取研究中,命名實(shí)體識別是目前最有實(shí)用價值的一項(xiàng)技術(shù)。根據(jù) m u c 評測結(jié)果 6 1 ,英文命名實(shí)體識別任務(wù)的f - 指數(shù)( 召回率與準(zhǔn)確率的加權(quán)幾何 平均值,權(quán)重取1 1 能達(dá)到9 0 以上。 命名實(shí)體識別的難點(diǎn)在于:在不同領(lǐng)域、場景下,命名實(shí)體的外延有差異; 數(shù)量巨大,不能枚舉,難以全部收錄在詞典中;某些類型的實(shí)體名稱變化頻繁, 并且沒有嚴(yán)格的規(guī)律可以遵循;表達(dá)形式多樣;首次出現(xiàn)后往往采用縮寫形式”1 。 7 第二章信息抽取技術(shù) 命名實(shí)體識別的方法主要分為:基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。一般來 說,基于規(guī)則的方法性能要優(yōu)于基于統(tǒng)計(jì)的方法。但是這些規(guī)則往往依賴于具體 語言、領(lǐng)域、文本格式,編制過程耗時且容易產(chǎn)生錯誤,并且需要富有經(jīng)驗(yàn)的語 言學(xué)家才能完成。相比而言,基于統(tǒng)計(jì)的方法利用人工標(biāo)注的語料進(jìn)行訓(xùn)練,標(biāo) 注語料時不需要廣博的計(jì)算語言學(xué)知識,并且可以在較短時間內(nèi)完成。因此,這 類系統(tǒng)在移植到新的領(lǐng)域時可以不做或少做改動,只要利用新語料訓(xùn)練一遍即 可。此外,基于統(tǒng)計(jì)的系統(tǒng)要移植到其他自然語言文本也相對容易一些。 屬性抽取( a t t r i b u t ee x t r a c t i o n ) 實(shí)體常常是由感興趣的屬性聯(lián)系起來的,如: 西北大學(xué)肇始于1 9 0 2 年的陜西大學(xué)堂1 9 1 2 年始稱西j 匕大學(xué)1 9 2 3 名8 月改 稱國立西j 匕大學(xué),1 9 3 7 年抗戰(zhàn)爆發(fā)后國立托- , t z 丈$ e 、國立北平稱范大學(xué)、國立 北洋i 學(xué)院等內(nèi)遷來陜組成國立西安臨時大學(xué)1 9 3 8 年更名為國立西北聯(lián)合大 學(xué)1 9 3 9 車- - 8 瑪復(fù)稱國立西北大學(xué)。建國初期西j e 大學(xué)為中央教蠢部直屬的1 4 瞬綜合大學(xué)之一1 9 5 8 年歸弱陜西省主管,1 9 7 8 年被確定為全國重點(diǎn)大學(xué)?,F(xiàn)為 國家 2 1 1i 程1 重點(diǎn)建設(shè)院校和西部大開發(fā)重點(diǎn)支持建設(shè)院校, 對于上面這段文字,西北大學(xué)的屬性信息可以用如下所示: 西北大學(xué) 1 9 0 2 焦 陜西省 學(xué)校 屬性值的發(fā)現(xiàn)常依賴于共指分析,即知道哪些屬性是屬于同一個實(shí)體。 關(guān)系抽取( r e l a t i o ne x t r a c t i o n ) 在抽取實(shí)體和它們的屬性之后,下一步就是抽取除實(shí)體之間的各種關(guān)系。如 e m p l o y e e _ o f 是p 鋤o n 和o l 謝z a t i 伽【之間的關(guān)系;p r o d u c to 堤a r t i f a e t 和 0 r g a n i z a t i o n 之間的關(guān)系等。再比如e m p l o y e e , - o f ( 張三,m m ) 表示:張三是i b m 第二章信息抽取技術(shù) 的e m p l o y e e ( 員t ) :p r o d u c to f ( p c ,i b m ) 表示:p c 是m m 的p f o d 州產(chǎn)品) a 2 2 中文命名實(shí)體識別 命名實(shí)體識別是分詞和標(biāo)注過程中的一個重要環(huán)節(jié),并在信息檢索、信息抽 取以及自動問答系統(tǒng)等領(lǐng)域中有直接的應(yīng)用。 2 2 1 命名實(shí)體識別的任務(wù) 命名實(shí)體識別是一類特殊的模式識別問題,近年來有關(guān)這一問題的研究非常 活躍,許多組織、學(xué)術(shù)機(jī)構(gòu)每年都舉辦有關(guān)命名實(shí)體識別的研討和評測。m u c 中提到的命名實(shí)體包括人名( p e r s o n ) 、地名( l o c a t i o n ) 、機(jī)構(gòu)名( o r g a n i z a t i o n ) 、日 期( d a t a ) 、時間( 劬e ) 、百分?jǐn)?shù)e 砌m t a g c ) 和貨幣( m c t a r yv a l u e ) 七類命名實(shí)體1 1 5 】, 如圖2 1 所示。 昨日下午 , 世界銀行貿(mào)易局 北京 指出,全球化會促進(jìn)未來2 5 年平均收入加快增長,但并非人人都 能分享全球化的收益,隨之而來的收入不平等在國與國間和國家內(nèi)部都會加劇。 紐法默 在o r o 蚓b 京大學(xué) 用簡明的幻燈片演示,整體而言,發(fā)展中國家 占全球產(chǎn)出份額從約為全球經(jīng)濟(jì)的 五分之- - 增加到近 分之一 世行 的計(jì)量 標(biāo)準(zhǔn), 中國 將在 2 0 2 0 年 就進(jìn)入富裕國家隊(duì)列。 圖2 - 1 中文命名實(shí)體的例子 “世界銀行貿(mào)易局”和“北京大學(xué)”都是機(jī)構(gòu)名,而“北京”和“中國” 都是地名。命名實(shí)體識別的關(guān)鍵有兩個:一個是確定命名實(shí)體的左右邊界,第二 個就是識別改命名實(shí)體對應(yīng)的類別。 命名實(shí)體識別中人名、地名、機(jī)構(gòu)名是最難識別的三類,下文將有針對性地 1 討論機(jī)構(gòu)名和地名的識別。 2 2 2 中文命名實(shí)體識別的困難 相對于英文來說,中文命名實(shí)體識別的困難在于以下方面8 】【9 】【h 】: 1 ) 中文命名實(shí)體識別和中文分詞是互相纏繞在一起的; 9 第二章信息抽取技術(shù) 2 ) 在中文中,詞的定義不清晰; 3 ) 中文不像英文那樣在命名實(shí)體中有大小寫的形態(tài)變化。 在方法上,目前識別命名實(shí)體所采用的方法往往把分詞和命名實(shí)體識別分割 為兩個獨(dú)立的步驟。如國立臺灣大學(xué)的n t u 系統(tǒng)先利用規(guī)貝s j ( 3 條規(guī)則和1 8 條構(gòu)詞 律) 對文本進(jìn)行分詞,得到確定的分詞結(jié)果后再識別人名、地名、機(jī)構(gòu)名。在識 別人名、地名以前進(jìn)行最大匹配切分。文獻(xiàn)【1 3 】是在分詞以前作姓名識別的。無 論是先確定性切分還是先確定性命名實(shí)體識別都會存在一些問題:確定性切分的 錯誤很可能會導(dǎo)致命名實(shí)體識別的錯誤,先確定性命名實(shí)體識別更多的是利用姓 名構(gòu)成的內(nèi)部信息,沒有充分考慮語境因素的影響。 先確定性切分可能導(dǎo)致的命名實(shí)體錯誤: 王輝;f p e r 國家里有點(diǎn)急事。 先姓名識別可能導(dǎo)致的分詞錯誤: 請問政府有( p e r 飼安j f p e r 全措施 另外,目前常用的命名實(shí)體識別策略往往是計(jì)算一個候選字符串作為人名或 者地名或者機(jī)構(gòu)名的概率大小,如果此概率大于某個特定的閾值,就認(rèn)為是相應(yīng) 的命名實(shí)體。其實(shí),這種方法更多的是利用某個字符串的內(nèi)部構(gòu)成規(guī)律,而沒有 充分利用語境信息。當(dāng)然,在計(jì)算概率時可能會利用一些周圍的語境信息對此概 率大小進(jìn)行一定的獎懲處理。但是,這樣利用語境信息的方法實(shí)際上還是把其放 在一個次要的位置上,只是作為一個補(bǔ)充手段而已??傊@些方法存在的問題 是沒有把內(nèi)部信息和語境信息有機(jī)的結(jié)合為一個整體,沒有系統(tǒng)科學(xué)的方法能夠 準(zhǔn)確的確定每一種情況的閾值大小。 在命名實(shí)體識別過程中,有些系統(tǒng)利用人名詞典、地名詞典、機(jī)構(gòu)名詞典來 進(jìn)行直接匹配。如果匹配成功,就作為一個命名實(shí)體。這種看似很有效的方法其 實(shí)存在一些明顯的問題,例如在人名詞典中收集有“成方圓”、地名詞典中收集 有“山東”,如果采用直接匹配的方法,很容易導(dǎo)致下面的錯誤: 沒有規(guī)矩4 著( p e r 成方凰伊e r 我家在泰l o c 山秀三也o c 邊 人名、機(jī)構(gòu)名一般來說具有任意性并且是開放的集合,所以無論詞典如何龐 大,都不可能用窮舉的方法將它們囊括進(jìn)去。地名是一個相對封閉的集合,但是 l o 第二章信息抽取技術(shù) 在真實(shí)文本中,地名的變化形式很多,同一地名也有很多表達(dá)方式,實(shí)際上幾乎 也是不可能窮舉的。從另一個方面來講,詞典中收集了這么多的名字,會對分詞 的精度有較大影響,大大增加了分詞的交集歧義。所以,僅僅利用專有名詞詞典 直接匹配的方法是不能從根本上解決問題的。 另外,除了以上所說的各類中文命名實(shí)體識別的共同困難,各類命名實(shí)體還 有由其自身特點(diǎn)所決定的特殊困難。 地名識別的困難 地名是一個相對封閉的集合,但是在真實(shí)文本中,地名的變化形式很多,同 一地名也有很多表達(dá)方式,實(shí)際上幾乎也是不可能窮舉的,僅僅利用專有名詞詞 典直接匹配的方法是不能從根本上解決問題的;此外,地名經(jīng)常和其它詞組合成 機(jī)構(gòu)名,地名和機(jī)構(gòu)名的邊界確定使得地名識別注定不可能簡單地采用詞典收集 的辦法解決地名識別問題。最后,音譯名的歸類也成為地名識別的另一個難題。 機(jī)構(gòu)名識別的困難 對于機(jī)構(gòu)名識別來說,主要的瓶頸在于存在大量的未登錄機(jī)構(gòu)名。未登錄詞 在人名、地名和機(jī)構(gòu)名中都占有很大一部分的比例,未登錄機(jī)構(gòu)名的識別比未登 錄人名和地名的識別要難得多,這主要是由機(jī)構(gòu)名的自身特點(diǎn)所造成的: 第一,中文機(jī)構(gòu)名組成方式非常復(fù)雜。機(jī)構(gòu)名識別中的機(jī)構(gòu)種類繁多,各類 機(jī)構(gòu)都有其自己獨(dú)特的命名方式。例如,公私企業(yè)命名大多以地名作為開頭,中 間加以企業(yè)字號,如“金山”、“億陽”等等,結(jié)尾一般都是“公司”、“集團(tuán)” 類的普通名詞。而機(jī)關(guān)團(tuán)體類的機(jī)構(gòu)名則相對比較正規(guī),一般以上級部門開頭, 結(jié)尾為“所”、“部”、“院”、“委”等單字。序數(shù)詞在一般的機(jī)構(gòu)名中很少 出現(xiàn),但是在軍隊(duì)、醫(yī)院類的機(jī)構(gòu)名中,序數(shù)詞卻占有相當(dāng)大的比例。而且機(jī)構(gòu) 名中還嵌套的情況,機(jī)構(gòu)名中包含有另一個機(jī)構(gòu)名,如“北京電影學(xué)院青年電影 制片廠”。 第二,機(jī)構(gòu)名中含有大量的其它命名實(shí)體。在這些命名實(shí)體中,地名所占的 比例最大,其中未登錄地名又占了相當(dāng)一部分的比例。其它命名實(shí)體的識別大大 制約了機(jī)構(gòu)名的識別。 第三,中文機(jī)構(gòu)名用詞非常廣泛。通過對1 9 9 8 年1 月人民日報(bào)語料中的1 0 8 1 7 個機(jī)構(gòu)名所含的1 9 9 8 6 個詞進(jìn)行統(tǒng)計(jì),共計(jì)2 7 種詞,其中名詞最多( 9 9 4 1 個) ,地 第二章信息抽取技術(shù) 名其次( 5 0 2 3 個) 。所用詞如此之廣泛,是命名實(shí)體中絕無僅有的。最為嚴(yán)重的是, 在這些詞中有很大一部分詞是未登錄詞,例如大部分的企業(yè)字號。 第四,機(jī)構(gòu)名的長度極其不固定。不像中國人名,一般為兩到三個字,最多 不超過四個字,地名最多也只是由三到四個詞組成。機(jī)構(gòu)名的長度少到兩個字 ( “北大”、“首鋼”) ,多到幾十個字( “中國人民政治協(xié)商會議第八屆全國委員 會常務(wù)委員會”) ,在人民日報(bào)的真實(shí)文本中,由十個以上的詞構(gòu)成的復(fù)合機(jī)構(gòu) 名占了相當(dāng)一部分的比例。機(jī)構(gòu)名稱長度的不確定性,導(dǎo)致機(jī)構(gòu)名稱的邊界很難 確定,加大了機(jī)構(gòu)名識別的難度。 第五,大多數(shù)機(jī)構(gòu)名都有其簡稱。簡稱一般都是取其全稱中的幾個關(guān)鍵字或 關(guān)鍵詞,例如“聯(lián)想”、“人大”。大量的機(jī)構(gòu)名簡稱的出現(xiàn),使得本來已經(jīng)十 分困難的問題變得更加困難。 2 2 3 前人的相關(guān)工作 命名實(shí)體識別按照方法的不同,大體可以分為三類:基于規(guī)則的方法;基于 統(tǒng)計(jì)的方法:統(tǒng)計(jì)與規(guī)則相結(jié)合的方法。后兩種方法目前占主導(dǎo)地位。 2 2 3 1 基于規(guī)則的方法 規(guī)則方法主要是利用兩種信息:命名實(shí)體用字分類和限制性成分。即:分析 命名實(shí)體用字,驅(qū)動對命名實(shí)體的識別過程,并采集命名實(shí)體前后相關(guān)的成分, 對命名實(shí)體的前后位置進(jìn)行限制。小規(guī)模測試的結(jié)果表明,其準(zhǔn)確率可達(dá)9 7 。 如前面所提到的n t u 系統(tǒng),在地名和機(jī)構(gòu)名識別上就采用了規(guī)則匹配的方 法,其中地名規(guī)則的例子如下: l o c a t i o n n a m e - - ) p e r s o n n a m el o c a t i o n n a m e k e y w o r d l o c a t i o n n a m e 專l o c a t i o n n a m el o c a t i o n n a m e k e y w o r d 機(jī)構(gòu)名規(guī)則的例子如下: o r g a n i z a t i o n n a m e 專o r g a n i z a t i o n n a m eo r g a n i z a t i o n n a m e k e y w o r d o r g a n i z a t i o n n a m e 專c o u n t r y n a m e ( d i d d ) o r g a n i z a t i o n n a m e k e y w o r d 其中d 表示一個內(nèi)容詞。 不過,我們可以發(fā)現(xiàn),對于這類采用人工組織規(guī)則的系統(tǒng),主要存在以下缺 1 2 第二章信息抽取技術(shù) 點(diǎn): 1 ) 人工組織規(guī)則的代價非常昂貴,并且主要依賴于有經(jīng)驗(yàn)的計(jì)算語言學(xué)家: 2 ) 當(dāng)把此系統(tǒng)移植到不同領(lǐng)域時,需要大量的人工修改工作; 3 ) 當(dāng)把此系統(tǒng)移植到新的語種時,這些規(guī)則需要重新書寫和組織: 4 ) 語言學(xué)家書寫規(guī)則的經(jīng)驗(yàn)和所花費(fèi)的人力勞動的大小對性能的影響很 大。 例如,文獻(xiàn)【1 6 1 就是從1 0 萬條人名庫、2 億字的真實(shí)語料庫中將姓名用字分為 9 類,并總結(jié)了2 l 條識別規(guī)則。無論是收集如此巨大的人名庫、真實(shí)語料庫,還 是提煉規(guī)則,都是一個浩大的工程。這無疑是非常費(fèi)時、費(fèi)力的。一旦增加新特 征的人名,就必須增加新的規(guī)則,并對以前的規(guī)則重新修訂,因此規(guī)則方法很難 擴(kuò)展。規(guī)則可以保證很高的準(zhǔn)確率,但是任何規(guī)則體系的覆蓋面都是有限的,對 于規(guī)則覆蓋集合之外的人名就完全無能為力 文獻(xiàn)【”1 雖然在封閉測試中能達(dá)到百分之九十多的準(zhǔn)確率和召回率,但是在 開放測試中僅能達(dá)到百分之六十多一點(diǎn),遠(yuǎn)遠(yuǎn)不能滿足人們的實(shí)際需求。在特定 領(lǐng)域內(nèi)尚且如此,如果把基于規(guī)則的方法推廣到全領(lǐng)域內(nèi),其效果是可以想象的。 但是,在缺乏特大規(guī)模熟語料庫的時候,規(guī)則方法是唯一可行的方法。 2 2 3 2 基于統(tǒng)計(jì)的方法 統(tǒng)計(jì)方法主要是針對命名實(shí)體語料庫來訓(xùn)練某個字作為命名實(shí)體組成部分 的概率值,并用它們來計(jì)算某個候選字段作為命名實(shí)體的概率,其中概率值大于 一定閾值的字段為識別出的命名實(shí)體。 基于統(tǒng)計(jì)的命名實(shí)體識別主要包括以下方法:基于決策樹模型( d e c i s i o n t r e e ) 、基于隱馬爾科夫模型( h m m ) 、基于最大熵模型( m a x i m u me n t r o p y ) 等 實(shí)際上,現(xiàn)在實(shí)用的系統(tǒng)使用純統(tǒng)計(jì)方法的很少,或多或少都應(yīng)用了一些規(guī) 則。 2 2 3 3 統(tǒng)計(jì)與規(guī)則相結(jié)合的方法 規(guī)則與統(tǒng)計(jì)相結(jié)合的辦法,可以通過概率計(jì)算減少規(guī)則方法的復(fù)雜性與盲目 性,而且可以降低統(tǒng)計(jì)方法對語料庫規(guī)模的要求。目前的研究基本上都是采取規(guī) 第二章信息抽取技術(shù) 則與統(tǒng)計(jì)相結(jié)合的方法,不同之處僅僅在于規(guī)則與統(tǒng)計(jì)的側(cè)重不同而己。 在m u c 7 評測中,愛丁堡大學(xué)的a m i k h e e v 等在命名實(shí)體識別過程中采用了 規(guī)則和最大嫡模型相結(jié)合的方法。其明顯的特點(diǎn)是把識別過程分五個步驟完成, 每一步完成特定的任務(wù)。這五個步驟分別是:確定性觸發(fā)規(guī)則、局部匹配l 、約 束較弱的規(guī)則、局部匹配2 、標(biāo)題的特殊處理。在識別過程中,采取的是多遍掃 描的方法,每一遍掃描實(shí)施的操作不同。第一步實(shí)施的是確定性的觸發(fā)規(guī)則。圖 2 - 2 所示是確定性的觸發(fā)規(guī)則的例子。 圖2 - 2 確定性觸發(fā)規(guī)則 利用這些人工編寫的正則表達(dá)式規(guī)則進(jìn)行命名實(shí)體識別,能夠獲得很高的準(zhǔn) 確率,但是召回率較低。在局部匹配l 階段,首先收集該文本中己經(jīng)識別出來的 命名實(shí)體,對這些命名實(shí)體的各種局部( 當(dāng)然順序保持不變。例如:已經(jīng)識別出 a b c 作為機(jī)構(gòu)名,那么a b ,b c 作為候選的機(jī)構(gòu)名) 都作為候選的對應(yīng)類別的命名 實(shí)體。第三步采用約束較弱的規(guī)則,這些規(guī)則具有較弱的語境約束,并且能夠充 分利用己經(jīng)存在的信息和詞典。在局部匹配2 的處理中,系統(tǒng)充分利用已經(jīng)識別 出來的人名、地名、機(jī)構(gòu)名進(jìn)行局部匹配,然后經(jīng)過最大熵模型進(jìn)行進(jìn)一步的確 認(rèn)和過濾。最后對文本標(biāo)題中的候選命名實(shí)體通過另一最大熵模型( 此最大熵模 型是基于文本標(biāo)題訓(xùn)練得到) 進(jìn)行確認(rèn)。 2 3 語言模型 描述物理世界和自然語言的模型可以分為確定性模型和統(tǒng)計(jì)模型。確定性模 型運(yùn)用明確的規(guī)則來表述物理世晃或自然語言的已知的特定屬性,典型的例子是 牛頓力學(xué)。然而并不是所有的物理世界和自然語言的現(xiàn)象都可以由確定的規(guī)則來 刻畫。在這種情況下,統(tǒng)計(jì)模型被用以描述物理世界和自然語言的統(tǒng)計(jì)屬性。其 1 4 第二章信息抽取技術(shù) 基本假設(shè)是,物理世界和自然語言可以用隨機(jī)過程來刻畫,而隨機(jī)過程中的參數(shù) 可以精確地估計(jì)。物理世界中統(tǒng)計(jì)模型的例子有統(tǒng)計(jì)力學(xué),在自然語言中有概率 語法。本節(jié)的主要內(nèi)容就是介紹幾種概率語法,如n 元模型、隱馬爾可夫模型等。 2 3 1 n 元模型 統(tǒng)計(jì)語言模型的實(shí)質(zhì)就是刻畫所有序列w - - w l w n 的概率分布p ( w ) ,此概率 分布反映了字符序列w 作為句子的概率大小。我們首先介紹被廣泛運(yùn)用于不同應(yīng) 用領(lǐng)域中的n 元模型。 在n 元模型中,p ( w ) 可以分解如下: 以礦) = 尸( m 也) = p ( m ) p ( w 2l ) p ( w 3im w 2 ) 以嵋1w i m 0 ,)公式( 2 - 1 ) = 兀p ( lm ,w 2 雌。) 其中,p ( 心l m ,w 2 雌) 表示在給定序列w i ,w 2 “的條件下,后面緊跟m 的 概率。如果詞典規(guī)模y g l v l ,有i v | i - 1 個不同
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度小微企業(yè)貸款展期協(xié)議范本
- 2024-2025學(xué)年甘肅省隴南市武都實(shí)驗(yàn)中學(xué)高三上學(xué)期11月月考?xì)v史試卷
- 2025年度合作策劃發(fā)展協(xié)議書模板
- 2025年個人經(jīng)營抵押貸款合同協(xié)議
- 2025年度衛(wèi)生所液壓升降臺租賃協(xié)議
- 2025年股東聯(lián)合健身房合作發(fā)展協(xié)議
- 2025年辦公室裝潢設(shè)計(jì)合同范本
- 2025年紅外線汽車尾氣分析儀項(xiàng)目提案報(bào)告模板
- 2025年企業(yè)股權(quán)交易合同批準(zhǔn)標(biāo)準(zhǔn)
- 2025年農(nóng)作物機(jī)械化種植產(chǎn)業(yè)鏈優(yōu)化合作協(xié)議
- 中醫(yī)主任述職報(bào)告
- 報(bào)價單(報(bào)價單模板)
- 刑事案件模擬法庭劇本完整版五篇
- 2014教師事業(yè)單位工作人員年度考核登記表1
- 烏海周邊焦化企業(yè)概況
- Flash動畫設(shè)計(jì)與制作(FlashCS6中文版)中職PPT完整全套教學(xué)課件
- Hadoop大數(shù)據(jù)開發(fā)實(shí)例教程高職PPT完整全套教學(xué)課件
- 新人教版小學(xué)數(shù)學(xué)五年級下冊教材分析課件
- 企業(yè)中層管理人員測評問題
- 人教版高中地理必修一全冊測試題(16份含答案)
- 水泥攪拌樁水灰比及漿液用量計(jì)算表(自動計(jì)算)
評論
0/150
提交評論