072529-李榮國-信息抽取技術(shù)及前景淺析報告_第1頁
072529-李榮國-信息抽取技術(shù)及前景淺析報告_第2頁
072529-李榮國-信息抽取技術(shù)及前景淺析報告_第3頁
072529-李榮國-信息抽取技術(shù)及前景淺析報告_第4頁
072529-李榮國-信息抽取技術(shù)及前景淺析報告_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、信息抽取技技術(shù)及前景景淺析李榮國 0722529關(guān)鍵詞:信信息抽取 信息處處理技術(shù) 分詞 句法及及語義分析析摘要: 面向?qū)嶋H際應(yīng)用和潛潛在需求,建建立自適應(yīng)應(yīng)的、可移移植的系統(tǒng)統(tǒng)是未來信信息抽取的的發(fā)展方向向,立足于于目前已有有的研究成成果,建立立受測試集集驅(qū)動、通通過機器學(xué)學(xué)習(xí)構(gòu)建有有監(jiān)督機制制的規(guī)則庫庫并在此基基礎(chǔ)上實現(xiàn)現(xiàn)知識獲取取將成為一一條發(fā)展的的思路。一、信息抽抽取概述隨著計算機機在各個領(lǐng)領(lǐng)域的廣泛泛普及和IInterrnet的的迅猛發(fā)展展,社會的的信息總量量呈爆炸式式的指數(shù)增長。信息總量量的量級,從從20世紀(jì)紀(jì)90年代代初的MBB(1066)過渡到到GB(1109)再到現(xiàn)現(xiàn)在的TB

2、B(10112)。進進入21世世紀(jì)后,全全世界信息息總量更是是以每三年年增加一倍倍的速度遞遞增。據(jù)統(tǒng)統(tǒng)計,在這這些海量信信息中,有有6070是是以電子文文檔的形式式存在。為為了應(yīng)對信信息爆炸帶帶來的挑戰(zhàn)戰(zhàn),迫切需要要一些自動動化的技術(shù)術(shù)幫助人們們在海量信信息中迅速速找到自己己真正需要要的信息。信息抽取?。↖nfformaationn Exttracttion,IE)正正是解決這這個問題的的一種方法法。信息抽取技技術(shù)是指從從一段自然然語言文本本中抽取指指定的事件件、事實信信息,并以以結(jié)構(gòu)化形式式描述信息息,供信息查詢、文本本深層挖掘掘、自動回回答問題等等應(yīng)用,為為人們提供供有力的信信息獲取工工具

3、。也就是從從文本中抽抽取用戶感感興趣的事事件、實體體和關(guān)系,被被抽取出來來的信息以以結(jié)構(gòu)化的的形式描述述,然后存存儲在數(shù)據(jù)據(jù)庫中,為為情報分析析和檢測、比價購物物、自動文文摘、文本本分類等各各種應(yīng)用提提供服務(wù)。廣義上信信息抽取技技術(shù)的抽取取對象并不不局限于文文本,其他他形式存在在的信息也也可以作為為信息抽取取的對象,而而抽取的結(jié)結(jié)果則變?yōu)闉橄鄳?yīng)的結(jié)結(jié)構(gòu)化數(shù)據(jù)據(jù)。后文如如無說明只只涉及中文文文本信息息抽取。信息抽取技技術(shù)的最終終目的就是是開發(fā)實用用的信息抽抽取系統(tǒng),從從自由文本本中抽取、分析信息息,從而得得到有用的的、用戶感感興趣的信信息。信息息抽取技術(shù)術(shù)在軍事、經(jīng)濟、醫(yī)醫(yī)學(xué)、科學(xué)學(xué)研究等領(lǐng)領(lǐng)域

4、有著極極大的應(yīng)用用空間。與信息息抽取密切切相關(guān)的一一項研究是是信息檢索索(Infformaationn Rettrievval,IIR)技術(shù)術(shù)。信息抽取取并不同與與信息檢索索,兩種的的功能、處處理技術(shù)、適用領(lǐng)域域均不相同同,但它們們倆是可以互互補的。為為了處理海海量文本,信信息抽取系系統(tǒng)通常以以信息檢索索系統(tǒng)(如如文本過濾濾)的輸出出作為輸入入;而信息息抽取技術(shù)術(shù)又可以用用來提高信信息檢索系系統(tǒng)的性能能。二者的的結(jié)合能夠夠更好地服服務(wù)與用戶戶的信息處處理需求。另外,和和信息抽取取相關(guān)的技技術(shù)還有自自動文摘、文本理解解、自然語語言生成、機器翻譯譯和數(shù)據(jù)挖挖掘等。二、信息抽抽取系統(tǒng)的的構(gòu)建在信息抽

5、取取技術(shù)中,對對自由文本本進行信息息抽取需要要運用許多多自然語言言處理(NNLP)知知識,所以以自由文本本信息抽取取系統(tǒng)的構(gòu)構(gòu)建是比較較復(fù)雜和困困難的。在在信息抽取取系統(tǒng)的構(gòu)構(gòu)建過程中中,最重要要的是如何何獲得抽取取模式(EExtraactioon Paatterrn)。根根據(jù)抽取模模式獲得的的方式的不不同,信息息抽取系統(tǒng)統(tǒng)的構(gòu)建主主要有兩種種方法,即即知識工程程方法(KKnowlledgee Enggineeeringg Appproacch)和機機器學(xué)習(xí)方方法(Maachinne Leearniing AApprooach,也叫自動動訓(xùn)練方法法autoomatiicallly trrain

6、aable systtem)。 知識工程(KKE)方法法依靠人工工編寫抽取取模式,使使系統(tǒng)能處處理特定知知識領(lǐng)域的的信息抽取取問題。這這種方法要要求編寫抽抽取模式的的知識工程程師對特定定知識領(lǐng)域域有深入的的了解,具具有性能好好和易開發(fā)發(fā)等優(yōu)點。這種方法法一般用于于構(gòu)建具有有以下特點點的系統(tǒng):已有相應(yīng)的的資源,如如詞典、表表等;已經(jīng)有了可可用的規(guī)則則;數(shù)據(jù)訓(xùn)練代代價大或者者不容易實實現(xiàn);抽取的規(guī)格格變化頻繁繁;性能要求高高。機器學(xué)習(xí)(MML)方法法是利用機機器學(xué)習(xí)技技術(shù)讓信息息抽取系統(tǒng)統(tǒng)通過訓(xùn)練練文本來獲獲得抽取模模式,實現(xiàn)現(xiàn)特定領(lǐng)域域的信息抽抽取功能。任何對特特定知識領(lǐng)領(lǐng)域比較熟熟悉的人都都可

7、以根據(jù)據(jù)事先約定定的規(guī)則來來標(biāo)記訓(xùn)練練文本。利利用這些訓(xùn)訓(xùn)練文本訓(xùn)訓(xùn)練后,系系統(tǒng)能夠處處理沒有標(biāo)標(biāo)記的新的的文本。這這種方法構(gòu)構(gòu)建的系統(tǒng)統(tǒng)具有的特特點剛好與與用KE方方法的系統(tǒng)統(tǒng)特點相反反。知識工程方方法的設(shè)計計初始階段段較容易,但但是要實現(xiàn)現(xiàn)較完善的的規(guī)則庫的的過程往往往比較耗時時耗力。自自動學(xué)習(xí)方方法抽取規(guī)規(guī)則的獲取取是通過學(xué)學(xué)習(xí)自動獲獲得的,但但是該方法法需要足夠夠數(shù)量的訓(xùn)訓(xùn)練數(shù)據(jù),才才能保證系系統(tǒng)的抽取取質(zhì)量。下面介紹以以下兩種信信息抽取結(jié)結(jié)構(gòu):通用用信息抽取取結(jié)構(gòu)和BBare Bonees結(jié)構(gòu)。通用信息抽抽取結(jié)構(gòu):Hobbbs提出的的,也叫HHobbss結(jié)構(gòu)。將信息抽取取系統(tǒng)抽象象為

8、“級聯(lián)的轉(zhuǎn)轉(zhuǎn)換器或模模塊集合,利利用手工編編制或自動動獲得的規(guī)規(guī)則在每一一步過濾掉掉不相關(guān)的的信息,增增加新的結(jié)結(jié)構(gòu)信息”。其組成成如圖1所所示。圖1 信信息抽取過過程 文本分分塊:將輸輸入文本分分割為不同同的部分塊。 預(yù)處理理:將得到到的文本塊塊轉(zhuǎn)換為句句子序列,每每個句子由由詞匯項(llexiccal iitemss,詞或特特點類型短短語)及相相關(guān)的屬性性(如詞類類)組成。 過濾:過濾掉不不相關(guān)的句句子。 預(yù)分析析:在詞匯匯項序列中中識別確定定的小型結(jié)結(jié)構(gòu),如名名詞短語、并列結(jié)構(gòu)構(gòu)等。 片段組組合:如果果上一步?jīng)]沒有得到完完整的分析析樹,則需需要將分析析樹片段集集合或邏輯輯形式片段段組合成

9、整整句的一顆顆分析樹或或其他邏輯輯表示形式式。 語義解解釋:從分分析樹或者者分析樹片片段集合生生成語義結(jié)結(jié)構(gòu)、意義表示示或其他邏邏輯形式。 詞匯消消歧:消解解上一模塊塊中存在的的歧義得到到唯一的語語義結(jié)構(gòu)表表示。 共指消消解:也稱稱篇章處理理,通過確確定同一實實體在文本本不同部分分中的不同同描述將當(dāng)當(dāng)前句的語語義結(jié)構(gòu)表表示合并到到先前的處處理結(jié)果中中。 模板生生成:由文文本的語義義結(jié)構(gòu)表示示生成最終終的模板。當(dāng)然,不是是所有的信信息抽取系系統(tǒng)都包含含所有的模模塊,并且且也未必完完全遵循以以上的處理理順序。但但一個信息息抽取系統(tǒng)統(tǒng)應(yīng)該包含含以上模塊塊中描述的的功能。一一個典型的的信息抽取取系統(tǒng)的

10、工工作過程主主要包括:用一組信息息模式(iinfo pattternss)描述感感興趣的信信息。信息息模式一般般可表示為為一個簡單單的句子,如如“推出”。系統(tǒng)統(tǒng)針對某一一領(lǐng)域的信信息特征預(yù)預(yù)定義一系系列信息模模式存于模模式庫中。對文本進行行“適度的”詞法、句法及句句子分析,并并作各種文文本標(biāo)引。這個過程程通常包含含識別特定定的名詞短短語(人名名、機構(gòu)名等等)和動詞詞短語(事事件描述、事件陳述述)。這需需要使用合合適的詞典典、構(gòu)詞規(guī)則則庫和分詞詞算法等等等支持。使用模式匹匹配方法識識別指定的的信息(找找出信息模模式的各個個部分)。使用上下文文關(guān)聯(lián)、指代、引用等分分析和推理理,確定信信息的最終終模

11、式。輸出結(jié)構(gòu)(例例如生成一一個關(guān)系數(shù)數(shù)據(jù)庫或給給出自然語語言陳述等等)。典型的信息息抽取系統(tǒng)統(tǒng)還包括一一個預(yù)處理理過程,目目的在于過過濾掉與抽抽取目標(biāo)不不相干掉文文本;然后后通過詞法法分析和標(biāo)標(biāo)引,識別別所有相關(guān)關(guān)的詞匯(“關(guān)鍵詞”識別與標(biāo)引);句法和語義分析只應(yīng)用于所有包含了關(guān)鍵詞典句子的集合,對每個句子的分析結(jié)果近似于該句子的語義框架表示;最后對這些框架進行合并和綜合,便可得到所需的信息的各種數(shù)據(jù)項(關(guān)系數(shù)據(jù)模式的各個字段)。Bare Bonees結(jié)構(gòu):如圖2的結(jié)結(jié)構(gòu)是空骨骨架(Baare BBoness)結(jié)構(gòu),是是Hobbbs結(jié)構(gòu)的的一個簡化化。 圖2 Baree Bonnes結(jié)構(gòu)構(gòu)圖其

12、實一個信信息抽取系系統(tǒng)只有圖圖上4個部部分是不夠夠的,所以以以上結(jié)構(gòu)構(gòu)稱為“空骨架”。如圖33所示,是是一個添加加了詞分割割、部分語音音標(biāo)記、詞組理解解等內(nèi)容的的完整的、有“血肉”的信息抽取取系統(tǒng)。 圖3 一一個有“血肉”的信息抽抽取系統(tǒng)結(jié)結(jié)構(gòu)其中,符號號化的工作作主要是進進行詞的分分割,類似似與Hobbbs結(jié)構(gòu)構(gòu)的文本分分塊。詞匯匯和詞法處處理則是根根據(jù)詞典和和各種標(biāo)記記來理解詞詞匯的意義義,從而進進行實體的的識別。句句法分析得得到文檔的的某種結(jié)構(gòu)構(gòu)表示,如如完整的分分析樹或分分析樹片段段集合。領(lǐng)領(lǐng)域分析可可以分為共共指分析和和片段結(jié)果果(模版)的的合并兩部部分。三、中文信信息處理技技術(shù)在信

13、息息抽取中的的應(yīng)用信息抽取主主要的技術(shù)術(shù)有:a.命名實實體識別;b.句法分分析;c.篇章分分析與推理理;d知識獲獲取。根據(jù)中文的的特點,中中文信息抽抽取具有一一定的特殊殊性,需要要以下幾種種中文信息息處理技術(shù)術(shù)的支撐:詞典、詞語語切分和詞詞性標(biāo)注;句法及語義義分析;句群分析與與篇章表示示。信息抽取技技術(shù)是針對對結(jié)構(gòu)文檔檔、板結(jié)構(gòu)文文檔、純文檔進進行的知識識抽取,去去除文檔中中不需要的的冗余信息息,抽取出出對我們有有用的知識識,并存入入結(jié)構(gòu)數(shù)據(jù)據(jù)庫中。因因此,信息息抽取技術(shù)術(shù)的核心是是從文本中中提取信息息,如果對對于文本中中的關(guān)鍵句句(中心句句)能夠使使機器理解解,則對于于提高抽取取的精度有有很

14、大的幫幫助。因此此,將自然然語言(中中文)信息息處理技術(shù)術(shù)應(yīng)用與信信息抽取技技術(shù),將使使信息抽取取技術(shù)更加加完善。一一般有三種種信息抽取取方法:基基于隱馬爾爾科夫模型型的信息抽抽?。ㄖ饕肂aaum-WWelchh算法計算算模型初始始狀態(tài)概率率、狀態(tài)轉(zhuǎn)移移概率和釋釋放概率,解解碼問題采采用Vitterbii算法,學(xué)學(xué)習(xí)問題可可以采用MML算法和和Baumm-Wellch算法法),基于于自然語言言處理的信信息抽取方方法和基于于規(guī)則的信信息抽取。下面詳細細介紹基于于規(guī)則的信信息抽取方方法及其可可以用到的的中文信息息處理技術(shù)術(shù)?;谝?guī)則的的信息抽取取需要詞典典和規(guī)則庫庫的支撐,這這些規(guī)則一一般不

15、是通通用的,而是針對對某個特定定領(lǐng)域的。下面對其其抽取流程程和用到的的中文信息息處理的關(guān)關(guān)鍵技術(shù)做做以下分析析。一、信息抽抽取系統(tǒng)模模型基于規(guī)則的的信息抽模模型可設(shè)計計如圖4所所示。這是是根據(jù)Hoobbs的的通用結(jié)構(gòu)構(gòu)設(shè)計的。 圖圖4 基基于規(guī)則的的信息抽取取系統(tǒng)結(jié)構(gòu)構(gòu)二、詞法分分析進行分詞(包包括詞、詞組和短短語的切分分)。詞切切分正確與與否是信息息抽取的關(guān)關(guān)鍵所在。中文分詞技技術(shù)屬于自自然語言處處理技術(shù)范范疇,對于于一句話,人人可以通過過自己的知知識來明白白哪些是詞詞,哪些不不是詞,但但如何讓計計算機也能能理解?其其處理過程程就是分詞詞算法?,F(xiàn)有的分詞詞算法可分分為三大類類:基于字字符串匹

16、配配的分詞方方法、基于于理解的分分詞方法和和基于統(tǒng)計計的分詞方方法。1、基于字字符串匹配配的分詞方方法即機械分詞詞方法。它是按照照一定的策策略將待分分析的漢字字串與一個個“充分大的的”機器詞典典中的詞條條進行配,若若在詞典中中找到某個個字符串,則則匹配成功功(識別出出一個詞)。按照掃描描方向的不不同,串匹匹配分詞方方法可以分分為正向匹匹配和逆向向匹配;按按照不同長長度優(yōu)先匹匹配的情況況,可以分分為最大(最最長)匹配配和最?。ㄗ钭疃蹋┢ヅ渑洌话凑帐鞘欠衽c詞性性標(biāo)注過程程相結(jié)合,又又可以分為為單純分詞詞方法和分分詞與標(biāo)注注相結(jié)合的的一體化方方法。常用用的幾種機機械分詞方方法如下:正向最大匹匹配法,

17、正正向最小匹匹配法;(由由左到右的的方向)對于待切分分的一段字字符串,首首先以該字字符串的首首字為起點點進行搜索索,直到找找到以該字字為首字的的起點,在在字符串中中出現(xiàn)的最最長(最短短,但不為為單個字)的詞,并以此為標(biāo)記切出第一個詞,并將剩下的字符串作為新的待切分字符串進行相同的處理。逆向最大匹匹配法,逆逆向最小匹匹配法。(由由右到左的的方向);思想同正向向最大匹配配法相同。鄰近匹配算算法(neeighbborhoood mmatchh)。 采用用首字索引引的詞表,利利用在同一一首字下的的詞條按升升序排列這這一條件,在在找到某個個字符串后后,在其后后面加上一一個子得一一新字串,如如果新子串串在

18、詞典中中出現(xiàn),那那么新詞一一定在原字字串的后面面,且相隔隔不會太原原。這一匹匹配算法就就叫鄰近匹匹配算法。最短路徑匹匹配算法。首先根據(jù)詞詞典,找出出字符串中中所有可能能的詞(也也稱全切詞詞),然后后構(gòu)造詞語語切分的有有向無環(huán)圖圖。最少切分(使使每一句中中切出的詞詞數(shù)最?。鹊鹊?。還可以將上上述各種方方法相互組組合,例如如,可以將將正向最大大匹配方法法和逆向最最大匹配方方法結(jié)合起起來構(gòu)成雙雙向匹配法法。由于漢漢語單字成成詞的特點點,正向最最小匹配和和逆向最小小匹配一般般很少使用用。一般說說來,逆向向匹配的切切分精度略略高于正向向匹配,遇遇到的歧義義現(xiàn)象也較較少。統(tǒng)計計結(jié)果表明明,單純使使用正向

19、最最大匹配的的錯誤率為為1/1669,單純純使用逆向向最大匹配配的錯誤率率為1/2245。但但這種精度度還遠遠不不能滿足實實際的需要要。實際使使用的分詞詞系統(tǒng),都都是把機械械分詞作為為一種初分分手段,還還需通過利利用各種其其它的語言言信息來進進一步提高高切分的準(zhǔn)準(zhǔn)確率。一種方法是是改進掃描描方式,稱稱為特征掃掃描或標(biāo)志志切分,優(yōu)優(yōu)先在待切切分字符串串中識別和和切分出一一些帶有明明顯特征的的詞,以這這些詞作為為斷點,可可將原字符符串分為較較小的串,然然后再進行機械分分詞,從而而減少匹配配的錯誤率率。另一種種方法是將將分詞和詞詞類標(biāo)注結(jié)結(jié)合起來,利利用豐富的的詞類信息息對分詞決決策提供幫幫助,并且

20、且在標(biāo)注過過程中又反反過來對分分詞結(jié)果進進行檢驗、調(diào)整,從從而極大地地提高切分分的準(zhǔn)確率率。2、基于理理解的分詞詞方法這種分詞方方法是通過過讓計算機機模擬人對對句子的理理解,達到到識別詞的的效果。其其基本思想想就是在分分詞的同時時進行句法法、語義分分析,利用用句法信息息和語義信信息來處理理歧義現(xiàn)象象。它通常常包括三個個部分:分分詞子系統(tǒng)統(tǒng)、句法語語義子系統(tǒng)統(tǒng)、總控部部分。在總總控部分的的協(xié)調(diào)下,分分詞子系統(tǒng)統(tǒng)可以獲得得有關(guān)詞、句子等的的句法和語語義信息來來對分詞歧歧義進行判判斷,即它它模擬了人人對句子的的理解過程程。這種分分詞方法需需要使用大大量的語言言知識和信信息。由于于漢語語言言知識的籠籠

21、統(tǒng)、復(fù)雜雜性,難以以將各種語語言信息組組織成機器器可直接讀讀取的形式式,因此目目前基于理理解的分詞詞系統(tǒng)還處處在試驗階階段。3、基于統(tǒng)統(tǒng)計的分詞詞方法從形式上看看,詞是穩(wěn)穩(wěn)定的字的的組合,比比如在上下下文中,相相鄰的字同同時出現(xiàn)的的次數(shù)越多多,就越有有可能構(gòu)成成一個詞。因此字與與字相鄰共共現(xiàn)的頻率率或概率能能夠較好的的反映成詞詞的可信度度??梢詫φZ料中相相鄰共現(xiàn)的的各個字的的組合的頻頻度進行統(tǒng)統(tǒng)計,計算算它們的各各種統(tǒng)計信信息,從而而進行分詞詞。比如基于統(tǒng)統(tǒng)計的最短短路徑分詞詞方法等。這種方法法只需對語語料中的字字組頻度進進行統(tǒng)計,不不需要切分分詞典,因因而又叫做做無詞典分分詞法或統(tǒng)統(tǒng)計取詞

22、方方法。但這這種方法也也有一定的的局限性,會會經(jīng)常抽出出一些共現(xiàn)現(xiàn)頻度高、但并不是是詞的常用用字組,例例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且且對常用詞詞的識別精精度差,時時空開銷大大。實際應(yīng)應(yīng)用的統(tǒng)計計分詞系統(tǒng)統(tǒng)都要使用用一部基本本的分詞詞詞典(常用用詞詞典)進進行串匹配配分詞,同同時使用統(tǒng)統(tǒng)計方法識識別一些新新的詞,即即將串頻統(tǒng)統(tǒng)計和串匹匹配結(jié)合起起來,既發(fā)發(fā)揮匹配分分詞切分速速度快、效效率高的特特點,又利利用了無詞詞典分詞結(jié)結(jié)合上下文文識別生詞詞、自動消消除歧義的的優(yōu)點。到底哪種分分詞算法的的準(zhǔn)確度更更高,目前前并無定論論。對于任任何一個成成熟的分詞詞系統(tǒng)來說說,不

23、可能能單獨依靠靠某一種算算法來實現(xiàn)現(xiàn),都需要要綜合不同同的算法。海量科技技的分詞算算法就采用用“復(fù)方分詞詞法”,所謂復(fù)復(fù)方,相當(dāng)當(dāng)于用中藥藥中的復(fù)方方概念,即即用不同的的藥才綜合合起來去醫(yī)醫(yī)治疾病,同同樣,對于于中文詞的的識別,需需要多種算算法來處理理不同的問問題。有了成熟的的分詞算法法,是否就就能容易的的解決中文文分詞的問問題呢?事事實遠非如如此。中文文是一種十十分復(fù)雜的的語言,讓讓計算機理理解中文語語言更是困困難。在中中文分詞過過程中,有有兩大難題題一直沒有有完全突破破。1、歧義識識別歧義是指同同樣的一句句話,可能能有兩種或或者更多的的切分方法法。在句子子的各個層層次(字、詞、詞組、句、段

24、、篇、章等)間間轉(zhuǎn)換過程程中都有可可能產(chǎn)生歧歧義或多義義的現(xiàn)象,包包括切詞中中的歧義、詞的歧義義、結(jié)構(gòu)歧義義、指代和省省略中、的歧義以以及各種更更復(fù)雜的歧歧義現(xiàn)象。例如:表表面的,因因為“表面”和“面的”都是詞,那那么這個短短語就可以以分成“表面 的的”和“表 面的的”。這種稱稱為交叉歧歧義(還有有組合歧義義)。由于沒沒有人的知知識去理解解,計算機機很難知道道到底哪個個方案正確確。此外還還有真歧義義。真歧義義意思是給給出一句話話,由人去去判斷也不不知道哪個個應(yīng)該是詞詞,哪個應(yīng)應(yīng)該不是詞詞。例如:“乒乓球拍拍賣完了”,可以切切分成“乒乓 球球拍 賣 完 了”、也可切切分成“乒乓球 拍賣 完完 了

25、”,如果沒沒有上下文文其他的句句子,恐怕怕誰也不知知道“拍賣”在這里算算不算一個個詞。歧義字段的的發(fā)現(xiàn)有兩兩種方法:窮舉法和和雙向掃描描法。窮舉舉法是不現(xiàn)現(xiàn)實的,可可采用雙向向掃描法,例例如采用正正向最小匹匹配和逆向向最大匹配配同時掃描描句子以發(fā)發(fā)現(xiàn)歧義字字段。分詞消歧的的方法主要要有以下兩兩種:基于規(guī)則的的分詞消歧歧預(yù)先構(gòu)建分分詞預(yù)處理理中的規(guī)則則與分詞規(guī)規(guī)則,其中中分詞規(guī)則則又可分為為構(gòu)詞規(guī)則則和排歧規(guī)規(guī)則??梢砸栽诜衷~前前增加一次次獨立的掃掃描過程來來識別特定定的一些短短語,這要要用到分詞詞預(yù)處理中中的規(guī)則(這這樣做的主主要依據(jù)是是部分只能能作首字或或尾字的漢漢字完全可可以作為切切分標(biāo)記

26、)。分詞時按按照分詞規(guī)規(guī)則先確定定大概分詞詞,在發(fā)生生歧義的情情況下,將將根據(jù)排歧歧規(guī)則選擇擇一種切分分方式?;诮y(tǒng)計的的分詞消歧歧這其中又有有基于詞頻頻的分詞消消歧方法,以以及基于互互信息和tt-測試差差的歧義切切分方法等等。2、新詞識識別即未登登陸詞識別別新詞,專業(yè)業(yè)術(shù)語稱為為未登錄詞詞。也就是是那些在字字典中都沒沒有收錄過過,但又確確實能稱為為詞的那些些詞。最典典型的是人人名?,F(xiàn)今未登錄錄詞的獲取取主要是基基于統(tǒng)計的的獲取方法法,有:基于頻率的的方法;基于均值和和方差的方方法;基于假設(shè)檢檢驗的方法法;基于互信息息的方法,等等。機構(gòu)名、地地名、產(chǎn)品品名、商標(biāo)標(biāo)名、簡稱稱、省略語語等都是很很

27、難處理的的問題,而而且這些又又正好是人人們經(jīng)常使使用的詞,因因此對于信信息抽取系系統(tǒng)來說,分分詞系統(tǒng)中中的新詞識識別十分重重要。目前前新詞識別別準(zhǔn)確率已已經(jīng)成為評評價一個分分詞系統(tǒng)好好壞的重要要標(biāo)志之一一。三、命名實實體識別主要通過已已經(jīng)手工構(gòu)構(gòu)建的規(guī)則則庫來識別別。其實者者也可以通通過以上分分詞算法中中的未登錄錄詞的獲取取算法來識識別。比如如說人名和和機構(gòu)名的的識別可以以通過特定定的中文姓姓名和機構(gòu)構(gòu)名的自動動識別算法法和系統(tǒng)來來識別。四、部分句句法分析這部分可采采用中文文文本信息處處理中的詞詞性自動標(biāo)標(biāo)注來實現(xiàn)現(xiàn)詞性的標(biāo)標(biāo)注。主要要可建立馬馬爾科夫模模型和隱馬馬爾科夫模模型,構(gòu)建建馬爾科夫

28、夫模型標(biāo)注注器或隱馬馬爾科夫模模型標(biāo)注器器。這其中中涉及以下下幾種算法法:Viterrbi算法法;Volsuunga算算法;Clawss算法,等等。當(dāng)然,在信信息抽取系系統(tǒng)中,不不要求識別別整個句子子的結(jié)構(gòu)。為此,可可構(gòu)建句子子片段的句句法結(jié)構(gòu)規(guī)規(guī)則,為抽抽取做準(zhǔn)備。一般情況下下,需要構(gòu)構(gòu)建名詞和和動詞規(guī)則則庫,其中中名詞規(guī)則則包括名詞詞和它前面面的修飾成成分,而動動詞規(guī)則包包括動詞和和它的輔助助部分。這這兩種規(guī)則則庫由很多多從現(xiàn)實預(yù)預(yù)言中提煉煉的實例規(guī)規(guī)則組成,一一般都比較較龐大。之后需要用用關(guān)聯(lián)模版版來分析各各個實體之之間的關(guān)系系,關(guān)系模模版一般包包括兩個名名詞(有時時可能有介介詞),表表

29、示兩個名名詞之間的的關(guān)系。如如下面模版版: 公公司描述:公司名 職職位:公司司名 五、場景模模版匹配以上所以工工作都是為為場景模版版匹配做準(zhǔn)準(zhǔn)備。場景景模版用于于從句子中中抽取事件件。如句子“李李靜從著名名的電器制制造公司長長虹電子集集團有限公公司董事長長的位置上上退休了,趙趙剛將接替替他”的場景模模版可表示示為: 人人 從 位置 退休 人人 接替替 人六、共指分分析解決如代詞詞和名詞表表示同一內(nèi)內(nèi)容等的問問題。七、推理和和事件整合合在很多情況況下,一個個事件的部部分信息可可以進行擴擴展,所以以在模版生生成前需要要把這些信信息進行合合并。也就就是把隱含含在事件中中的信息通通過推理過過程進行明明

30、確。四、信息抽抽取面臨的的問題雖然有中文文信息處理理技術(shù)的強強力支撐,中中文信息抽抽取還是不不少問題需需要面對。1.語料庫庫的建立有有待完善目前自然語語言處理領(lǐng)領(lǐng)域主要流流行的是基基于規(guī)則和和基于統(tǒng)計計兩種處理理思路?;谝?guī)則的的方法在機機器學(xué)習(xí)自自動構(gòu)建規(guī)規(guī)則庫等方方面有一定定難度,現(xiàn)現(xiàn)有系統(tǒng)主主要以基于于規(guī)則的淺淺層分析方方法為主。而基于統(tǒng)統(tǒng)計的方法法,由于缺缺乏較大的的成熟語料料庫和標(biāo)注注語料,目目前較難開開展,尚不不占主導(dǎo)地地位。另外外一個突出出表現(xiàn)就是是,在自動動內(nèi)容抽取?。ˋCEE)測評055年的測評評中,由于于阿拉伯語語缺乏標(biāo)注注語料,盡盡管有系統(tǒng)統(tǒng)參與測試試,卻沒有有相匹配的

31、的參照庫,因因此無法進進行打分。由此可見見,豐富和和充實語料料種類及數(shù)數(shù)量是一個個亟待解決決的問題。2.跨文檔檔處理和數(shù)數(shù)據(jù)庫處理理系統(tǒng)的性性能有待提提高縱觀ACEE 20077屆測評會會議,其測測評的水平平還都局限限在對獨立立文本的處處理上,并并未實現(xiàn)其其預(yù)定目標(biāo)標(biāo)中的跨文文檔處理和和數(shù)據(jù)庫處處理。從近近兩屆ACCE測試反反饋的結(jié)果果來看,作作為其核心心抽取任務(wù)務(wù)的實體識識別任務(wù)盡盡管已經(jīng)實實現(xiàn)了較高高的效率,但但是僅僅限限于單語種種、單文檔檔內(nèi)的識別別,跨文檔檔的識別任任務(wù)尚未能能展開,而而其他的測測評項目如如關(guān)系識別別、時間識識別、事件件識別、價價值識別等等的效率更更需要進一一步提高。3

32、.中文信信息抽取還是比較落后從ACE評評測的系統(tǒng)統(tǒng)表現(xiàn)可以以看出,盡盡管目前參參與中文信信息抽取任任務(wù)的隊伍伍在不斷增增加,可是是成績普遍遍偏低。國國外有不少少機構(gòu)已經(jīng)經(jīng)開發(fā)出針針對中文實實現(xiàn)的測試試型的信息息抽取系統(tǒng)統(tǒng),在國內(nèi)內(nèi)也已經(jīng)有有較多的單單位或機構(gòu)構(gòu)投入了相相當(dāng)大的精精力。在AACE 22005年年測評中,哈哈爾濱工業(yè)業(yè)大學(xué)、香香港科技大大學(xué)、北京京大學(xué)和廈廈門大學(xué)參參加了測評評,在ACCE 20007年測測評中,中中國科學(xué)院院自動化所所、中國科科學(xué)院軟件件所、復(fù)旦旦大學(xué)、東東北大學(xué)也也紛紛加入入,這表明明中文信息息抽取的研研究在國內(nèi)內(nèi)得到了較較高的重視視和發(fā)展,雖雖然有些隊隊伍的最

33、終終測評沒有有完全完成成,但已經(jīng)經(jīng)有比較好好的表現(xiàn)。從它們的的選擇任務(wù)務(wù)上看,主主要還是集集中于中英英文實體,關(guān)關(guān)系識別僅僅有哈爾濱濱工業(yè)大學(xué)學(xué)、中國科科學(xué)院軟件件所參與,北北京大學(xué)則則側(cè)重于時時間和價值值識別。但但是主要問問題仍然集集中于中文文實體識別別方面,完完整的中文文信息抽取取系統(tǒng)的實實現(xiàn)還處于于探索階段段。五、信息抽抽取的發(fā)展展趨勢1.基礎(chǔ)理理論與應(yīng)用用研究的雙雙向發(fā)展信息抽取技技術(shù)的發(fā)展展現(xiàn)狀對其其未來的發(fā)發(fā)展提出了了需求,可可以看到信信息技術(shù)未未來的發(fā)展展趨勢主要要集中在兩兩個相反發(fā)發(fā)展方向上上:一方面面,使現(xiàn)有有的信息技技術(shù)嵌入在在現(xiàn)有的應(yīng)應(yīng)用領(lǐng)域中中,包括文文本檢索、基于任務(wù)

34、務(wù)的自動摘摘要、基于于任務(wù)的機機器翻譯、跨文檔和和多媒體的的融合、趨趨勢分析等等。現(xiàn)有的的技術(shù)能夠夠很好地支支持類似領(lǐng)領(lǐng)域的研究究,關(guān)鍵問問題是現(xiàn)有有系統(tǒng)是否否具備充分分的抽取精精度水平。另一方面面,要使信信息抽取技技術(shù)實現(xiàn)革革命性的技技術(shù)進步,仍仍需要對基基礎(chǔ)研究加加以關(guān)注?;A(chǔ)研究究即包括更更多更新更更豐富的技技術(shù),也包包括與之相相適應(yīng)的測測評機制的的研究。2.信息抽抽取的數(shù)據(jù)據(jù)來源將會會更為廣泛泛從近兩屆AACE的測測試數(shù)據(jù)來來看,數(shù)據(jù)據(jù)來源已經(jīng)經(jīng)不再僅僅僅是專線新新聞、ASSR(自動動語音識別別)、OCR(光光學(xué)字符識識別)文集集,還包括括了Webb信息,這這也是目前前信息抽取取技術(shù)發(fā)

35、展展的一大趨趨勢。Weeb頁面中中存在著大大量的HTTML格式式的無結(jié)構(gòu)構(gòu)數(shù)據(jù)和少少量XMLL格式的的半結(jié)構(gòu)數(shù)數(shù)據(jù),而隱隱蔽網(wǎng)(HHide Web)也也包含了網(wǎng)網(wǎng)上數(shù)據(jù)庫庫系統(tǒng)生成成的大容量量倉儲數(shù)據(jù)據(jù),這些信信息是十分分重要的資資源,相應(yīng)應(yīng)的信息抽抽取研究也也已基于此此開展。此此外,對于于多媒體內(nèi)內(nèi)容的信息息抽取雖然然存在難度度,但一些些專家已經(jīng)經(jīng)通過引入入貝葉斯網(wǎng)網(wǎng)絡(luò)、增量量抽取等算算法優(yōu)化系系統(tǒng),取得得了較好的的效果,并并且已提出出了跨媒體體抽取的相相關(guān)模型??梢姡瑢τ诙喾N信信息內(nèi)容的的抽取和整整合,無疑疑將為信息息抽取下一一步的重要要目標(biāo)和挑挑戰(zhàn)。3.開放域域的信息抽抽取將廣泛泛受到重視視在MUUC(信息理解解研討會)階段,信信息抽取測測評嚴(yán)格

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論