信息提取概述_第1頁
信息提取概述_第2頁
信息提取概述_第3頁
信息提取概述_第4頁
信息提取概述_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

信息提取概述第一頁,共十九頁,編輯于2023年,星期六研究背景與進展IE:多種自然語言處理技術(shù)的綜合應用研究概況Tipster計劃(由DARPA組織)三大評測會議:MUC、MET和TREC中文IE:北京大學NLP(孫斌)、臺灣大學第二頁,共十九頁,編輯于2023年,星期六IE的內(nèi)涵信息提取(InformationExtraction)

: 從一段文本中抽取指定的一類信息并將其形成結(jié)構(gòu)化的數(shù)據(jù)填入一個數(shù)據(jù)庫中供用戶查詢使用的過程。MUC定義的文本提?。?/p>

從純文本字符串形式的文本中提取信息并進行處理,將其放入標記著可填入信息類型的槽中。 如:<NAMEX>GeorgeBush</NAMEX> <WEAPON>Cannon</WEAPON>第三頁,共十九頁,編輯于2023年,星期六Tipster文本計劃三項基礎(chǔ)技術(shù)

文檔檢測、信息提取、摘要發(fā)展階段第一階段(1991-1994)

文檔檢測和信息提取算法、MUC、TREC

第二階段(1994.4-1996.9) 共享軟件、MET(中文、日文)第三階段(1996.10-) 摘要

第四頁,共十九頁,編輯于2023年,星期六MUC評測任務NameOrgLocationDate實體及其屬性實體間的關(guān)系事件及各角色實體TETRST……第五頁,共十九頁,編輯于2023年,星期六MUC評測任務命名實體任務[NE]:將一個SGML標志插入到文本中以標識每個代表人名、機構(gòu)名、地名、日期、時間或百分數(shù)的字符串。多語言實體任務[MET]:中文和日文的NE任務。模板元素任務[TE]:從文中任何位置尋找證據(jù),提取關(guān)于機構(gòu)、人和人工物品的基本信息。第六頁,共十九頁,編輯于2023年,星期六MUC評測任務模板關(guān)系任務[TR]:提取關(guān)于employee_of、manufacture_of、location_of等關(guān)系的信息。腳本模板任務[ST]:提取預定義的事件信息,把此信息和參與該事件的組織、人和人工物品關(guān)聯(lián)起來。互指任務[CO]:捕捉關(guān)于互指表達的信息:包括那些已在NE、TE任務中做了標記的對于某個命名實體的所有表述。第七頁,共十九頁,編輯于2023年,星期六MUC3-7評測任務的演化Evaluation/

TasksNamedEntityCoreferenceTemplateElementTemplateRelationScenarioTemplateMultilingualMUC-3

YES

MUC-4

YES

MUC-5

YESYESMUC-6YESYESYES

YES

MUC-7YESYESYESYESYES

MET-1YES

YESMET-2YES

YES第八頁,共十九頁,編輯于2023年,星期六MUC3-7最優(yōu)評測結(jié)果比較Evaluation/

TasksNamedEntityCoreferenceTemplateElementTemplateRelationScenarioTemplateMultilingualMUC-3

R<50%

P<70%

MUC-4

F<56%

MUC-5

EJVF<53%

EMEF<50%JJVF<64%

JMEF<57%MUC-6F<97%R<63%

P<72%F<80%

F<57%

MUC-7F<94%F<62%F<87%F<76%F<51%

Multilingual

MET-1CF<85%

JF<93%

SF<94%

MET-2CF<91%

JF<87%

第九頁,共十九頁,編輯于2023年,星期六MUC-7訓練與數(shù)據(jù)集語料庫 紐約時報新聞服務社(由LinguisticDataConsortium提供) 評測資料時間:1996.1.1-1996.9.11,約158,000篇文章對ManagingGigabytes文本檢索系統(tǒng)使用領(lǐng)域相關(guān)詞匯,對語料庫進行檢索得到訓練與測試集兩組100篇文章用于初步訓練,包括試運行(飛機事故領(lǐng)域)考慮相關(guān)性、類型和來源的均衡選出的兩組100篇文章用于正式測試(發(fā)射時間領(lǐng)域)第十頁,共十九頁,編輯于2023年,星期六測試文本樣例<DOC><DOCID>nyt960214.0704</DOCID><STORYIDcat=fpri=u>A4479</STORYID><SLUGfv=taf-z>BC-MURDOCH-SATELLITE-NYT</SLUG><DATE>02-14</DATE><NWORDS>0608</NWORDS><PREAMBLE>BC-MURDOCH-SATELLITE-NYTMURDOCHSATELLITEFORLATINPROGRAMMINGEXPLODESONTAKEOFF(kd)ByMARKLANDLERc.1996N.Y.TimesNewsService</PREAMBLE>第十一頁,共十九頁,編輯于2023年,星期六測試文本樣例<TEXT><p>ChineserocketcarryingatelevisionsatelliteexplodedsecondsafterlaunchWednesday,dealingapotentialblowtoRupertMurdoch'sambitionstooffersatelliteprogramminginLatinAmerica.</p><<p>Murdoch'sNewsCorp.isoneoffourmediacompaniesinapartnershipthathadleasedspaceontheIntelsatsatellitetooffertheLatinAmericanservice.TheotherpartnersareTele-CommunicationsInc.,thenation'slargestcableoperator;GrupoTelevisaSA,theMexicanbroadcasterandpublisher,andthegiantBrazilianmediaconglomerateGlobo.</p></TEXT><TRAILER>NYT-02-14-962029EST</TRAILER></DOC>第十二頁,共十九頁,編輯于2023年,星期六NE任務說明命名實體(ENAMEX標記元素)Organization:namedcorporate,governmentalPerson:namedperson,familyLocation:city,province,country,mountain時間表述(TIMEX標記元素)DateTime數(shù)字表述(NUMEX標記元素)Money:monetaryPercent:percentage第十三頁,共十九頁,編輯于2023年,星期六TE、TR和ST任務的說明TE任務: 兩種模板元素對象:Entity、LocationTR任務:

LOCATION_OF,EMPLOYEE_OF,PRODUCT_OFST任務

scenarioFillRules,BNF第十四頁,共十九頁,編輯于2023年,星期六IE工作流程用一組信息模式(InfoPatterns)描述感興趣的信息對文本進行“適度的”(淺層、非完整的)詞法、句法及語義分析,并作各種文本標引使用模式匹配方法識別指定的信息進行上下文關(guān)聯(lián)、指代、引用等分析和推理,確定信息的最終形式輸出結(jié)果第十五頁,共十九頁,編輯于2023年,星期六泛型信息提取系統(tǒng)要描述一個信息提取系統(tǒng)就需要回答:轉(zhuǎn)換程序或模塊是什么?

它們的輸入輸出各是什么?

要添加哪些結(jié)構(gòu)?

損失了哪些信息?

規(guī)則的形式是什么?

如何使用規(guī)則?

如何獲取規(guī)則?

第十六頁,共十九頁,編輯于2023年,星期六泛型信息提取系統(tǒng)文本提純程序預處理程序過濾程序預分析程序

分析程序片斷組合程序語義解釋程序詞語消歧指代消解模板生成程序第十七頁,共十九頁,編輯于2023年,星期六對MUC-7評測標準的幾點看法TE擴展duration(時段)、frequency(頻率)、age(年齡)、number(數(shù)值)、fraction(分數(shù))、decimal(小數(shù))、ordinal(序數(shù))、mathequation(數(shù)學等式)類型層次擴展:增加子類型,如Worker、Student、Faculty,…∈Pers

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論