開放域抽取設(shè)計與實現(xiàn)_第1頁
開放域抽取設(shè)計與實現(xiàn)_第2頁
開放域抽取設(shè)計與實現(xiàn)_第3頁
開放域抽取設(shè)計與實現(xiàn)_第4頁
開放域抽取設(shè)計與實現(xiàn)_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

答辯委員會主任(簽字職稱 答辯委員會副主任(簽字答辯委員會委員(簽字): 年月日答辯委員會主任(簽字職稱 答辯委員會副主任(簽字答辯委員會委員(簽字): 年月日 名:韓 院(系:計算機科學與技 名:韓 院(系:計算機科學與技 業(yè):計算機科學與技 號任務(wù)起至日期 3月15日 Java語言來實現(xiàn),前臺數(shù)據(jù)展示用flex。于CRF模型的有指導(dǎo)方法。166520630指導(dǎo)教師簽 教研室主任簽 關(guān)鍵詞:Eventextractionistopresentaneventthroughstructuralformfromthearticledescribedbythenaturallanguage,suchaswhatpeoplewhereandwhattimetodoawhat,etc.Itisanimportantresearchpointfromtheareaofinformationextraction.Itcanbeappliedwithautomaticsummarization,quizzes,andinformationretrievalandotherfields.ThetraditionalEventextractionistopresentaneventthroughstructuralformfromthearticledescribedbythenaturallanguage,suchaswhatpeoplewhereandwhattimetodoawhat,etc.Itisanimportantresearchpointfromtheareaofinformationextraction.Itcanbeappliedwithautomaticsummarization,quizzes,andinformationretrievalandotherfields.Thetraditionaleventextractionisgenerallyperformedonaspecifictypeofextractionareas,suchasmusic,finance,etc.Thisarticleattemptstoextracteventsintheopendomain.Thispapermakesastudyofthetwostepsoftheeventextraction:eventtriggerextractionandeventargumentextraction,andcombinesthetwostepsandthendevelopsaneventextractionsystem.Fortheeventtriggerextractiontask,thispaperproposestwomethods,theyaretheunsupervised,dictionary-basedtriggerextractionmethodandasupervised,basedonthemodelofCRFtriggerextractionmethod.Thedictionary-basedtriggerextractionmethodutilizesthePekingUniversityModernChineseDictionary.Alltheverbsinthedictionarywasmarked,asareferencetoguidetheeventextraction.Therecognitionprocessisasfollows:usesyntaxruletothecandidatetriggers,andthenusethedictionarytofilterthecandidatetriggersandfinallygeneratethetriggers,theF-scoreachieves63%.TheCRFmodelbasedmethod,usestheCRF++tool,selectthelexical,semantic,syntacticfeatures,andthewindowsizetotrainthemodel,theF-scoreachieves67%.TheCRFmodelbasedmethodisbetterthanthedictionary-basedmethod.Fortheeventargumentextractiontask,thispaperusesasupervisedmethodbasedonMaximumEntropy.Comparedwiththepreviouseventextractionwork,thispapertreatthephraseasthebasicunitoftheeventargument.TheMaximumEntropymodelbasedeventargumentextractionmethodtreatsthetaskasabinaryclassificationtask,foreachofthewordinthesentence,extractthefeaturebythetemplate,andthendeterminewhetheritiseventargument.Thefeaturesincludethelexical,syntactic,phrasesandotherfeatures.TheF-scoreachievesKeywords:opendomain;eventextraction;triggerrecognition;event摘 摘 第1章緒 課題背景和意 國內(nèi)外研究現(xiàn) 本文的主要研究內(nèi) 第2章事件抽取的觸發(fā)詞識 語料資源與標 無指導(dǎo)的觸發(fā)詞識 有指導(dǎo)的觸發(fā)詞識 本章小 第3章事件抽取的元素識 基于最大熵模型的事件元素抽 實驗結(jié)果與分 本章小 第4章事件抽取的系統(tǒng)構(gòu) 系統(tǒng)的整體設(shè) 系統(tǒng)實 系統(tǒng)的運行效 本章小 結(jié) 參考文 哈爾濱工業(yè)大學原創(chuàng)性聲 致 論11.1論11.1息抽?。↖nformationExtraction)的意義便在于此。注文本信息。信息抽取大致有三個研究點,命名實體(NamedEntity)抽取、實體面積、經(jīng)濟損失等;從NBA新聞報道中抽取出比賽雙方的球隊、比賽時間、評測會議,MUC(MessageUnderstandingConference)ACE(AutomaticExtraction舞臺,由ACE替代。1-1效率。沃森、Siri的出現(xiàn),是結(jié)構(gòu)化的數(shù)據(jù)為問答系統(tǒng)提供支持的強力證據(jù)。WWW的建立,數(shù)據(jù)共享,人們可以訪問到很多知識1.2 基于模式匹配的 基于模式匹配的1-2識。采用模式匹配方法的事件抽取系統(tǒng)的執(zhí)行過程如圖1-3所示。但根據(jù)已經(jīng)1-3 基1-3 基于機器學習的f(x,yTateisi,YusukeMiyao,Jun-ichiTsujii2001年用全面的分析器成功在醫(yī)藥領(lǐng)域設(shè)計了事件抽取系統(tǒng)[1]。此后,HaiLeongChieuHweeTouNgME模型成功的引入到了事件抽取任務(wù)。Chieu使用了9種特征來訓練最大熵模型,MUCACE所代替。ACE是一個全面的信息抽取評測會議,涉及bigrams、NE等。1.2.3中文事件抽取研CRF模OntonotesOntonotes語料介Ontonotes938篇文2-12-1事件的在原文中的句子。如“阿布拉莫夫遭遇了車禍”事件的觸發(fā)詞,如“遭遇”事件的發(fā)生時間,事件的發(fā)送時間信息,也是事件元素。如“91日”2-22.1.22-22.1.2互聯(lián)網(wǎng)新除了利用Ontonotes語料用來訓練模型,本文章還利用了新浪的新聞?wù)Z料用取的隊列中,直到滿足停止條件。通常的爬蟲框架如圖2-3所示:互聯(lián)下載網(wǎng)抽取已爬取URL隊待爬取URL隊種子2-3XML2-4互聯(lián)下載網(wǎng)抽取已爬取URL隊待爬取URL隊種子2-3XML2-42-5所示:讀取2-42-52-42-5XML2-6濾2-6觸發(fā)詞詞典構(gòu)2-6濾2-6觸發(fā)詞詞典構(gòu)NLP領(lǐng)域來說,是一個以詞為粒度的數(shù)據(jù)庫。北大“現(xiàn)代漢詞典的分類情況如表2-1所示,其中加黑的動詞即要處理的,共20794個動候選觸詞典預(yù)處理:分詞、規(guī)則2-72-92-1名2-72-92-1名代動副數(shù) 總2-82-92.2.2實驗結(jié)果2-82-92.2.2實驗結(jié)果938600句測試句子上進行測試。(P=(R=(F=(R=(F=2-22-3(1)詞。舉一個規(guī)則錯誤的例子,“前艙飛行員馮思廣跳傘時因低于彈射安全包線高度壯烈犧PRF2-10可以看出“濟空”(2)2-10可以看出“濟空”(2)觸發(fā)詞。例如,美國“航天”網(wǎng)站2日報道稱,“龍”攜帶了“包括”隨機向量場(CRF)機器學習模型,下面就先介紹一下CRF,再介紹試驗情2.3.1模型介條件隨機場(ConditionalRandomField)是給定一組輸入隨機變量條件下變量間的依賴關(guān)系,在CRF中,隨機變量Y的分布為條件概率分布。原則條件隨機場和隱式馬可夫模型(HiddenMarkovModel,HMM)常被一起2-11所示。結(jié)合了最大熵模型(MaximumEntropy,ME)HMM條件隨機場和隱式馬可夫模型(HiddenMarkovModel,HMM)常被一起2-11所示。結(jié)合了最大熵模型(MaximumEntropy,ME)HMM烈的假設(shè)。CRF常用于一些標注問題,如分詞、詞性標注等等。HMM也常用于序列標注,相對于HMM,CRF不需要那么強的條件,如各輸出之間相互獨2-11若xx1x2xnyy1y2yn表示狀態(tài)序列,在,x,i)(2-Z( t(,y,x,i) s(p(y|x)k liiZ(x)expktk(yi1,yi,x,i)lsl(yi,x,i)(2- tk和slk和l是對應(yīng)的權(quán)值。Zx是規(guī)范化因子,求2.3.2特征選(1)((2)2-7中,詞語“愛(3)2-12(4)1-31-31-32.3.3實驗結(jié)果CRF模型用了工2.3.3實驗結(jié)果CRF模型用了工具CRF++,這是一個開源CRF工具。它的使用方法命令:crf_learntemplate_filetrain_filemodel_file。三個文件從左至右依次經(jīng)過開發(fā)集的測試,得到最優(yōu)參數(shù),-aL1–c1–f1。命令:crf_test–mmodel_filetest_filesresult_file。三個文件從左至右依為訓練集,后標注的600句作為測試集。2-41PRF口為2、詞語窗口為1。2-52本特征和句法特征的組合,說明當窗口為2時或多或少引入了一些噪聲。擴充,詞語本身沒有。結(jié)果如表2-6所示:2-62(4)口為2、詞語窗口為1。2-52本特征和句法特征的組合,說明當窗口為2時或多或少引入了一些噪聲。擴充,詞語本身沒有。結(jié)果如表2-6所示:2-62(4)2-73PRFPRFPRF2-13所示的F值。圖中水平節(jié)點為特征組合,其中因為圖表篇幅限制,用英文縮寫代替。FB是基本詞語特征,SE是詞義特征,SY是句法特征,ALL442-13論是單獨組合SE詞義特征還是組合SY句法特征,都能夠取得明顯的效果提升,提升空間從1%-15%,說明詞義特征以及句法特征都對識別有一定的作1%左右,而且有些窗口下甚至造成結(jié)果下降1%2-8CRFPRF 30 2-13所示的F值。圖中水平節(jié)點為特征組合,其中因為圖表篇幅限制,用英文縮寫代替。FB是基本詞語特征,SE是詞義特征,SY是句法特征,ALL442-13論是單獨組合SE詞義特征還是組合SY句法特征,都能夠取得明顯的效果提升,提升空間從1%-15%,說明詞義特征以及句法特征都對識別有一定的作1%左右,而且有些窗口下甚至造成結(jié)果下降1%2-8CRFPRF 30 2.4本章首先總體介紹了實驗的語料構(gòu)建,即利用Ontonotes語料。OntonotesF63%CRFCRF++工具,選取特征,1時,F(xiàn)67%。3ACE對于事件元素抽取,是指從事件句中抽取實體、時間、數(shù)值等這三類3ACE對于事件元素抽取,是指從事件句中抽取實體、時間、數(shù)值等這三類3.1.1模型介f(x)1x與ymaxH(P)P(x)P(y|x)logP(y|x,s.t.EP(fi)EP(fi),i1,2,...,P(y|x)(3-yPX的期望值。經(jīng)過求解得1nexpwifi(x,y)Pw(y|x)1nexpwifi(x,y)Pw(y|x)(3-w其中Zw(nZw(x)expwifi(x,y)(3- 理論表明[6],對偶函數(shù)的極大化等價于最大熵模型的極大似然估計。3-13.1.2特征選(1)(2)Stanford詞性標注工具,輸入為一個分完詞的句子,輸出為每個詞對應(yīng)的3-2(3)NP短語標記3-2(3)NP短語標記{B、I、的武裝人員向以色列南部地區(qū)發(fā)射了一枚炮彈?!崩渲?,加粗部句子生成一棵句法樹,里面包含短語特征正好能吻合該問題,如圖3-3所示,可以看出,例子中標注出的事件元素均為圖中的NP,及短語。得到了該句法表示一個短語時采用了{B、I、O}標注體系[7-14],B表示短語的開頭,I表示短語的中間及結(jié)尾,O表示不是短語。短語特征能夠衡量一個事件元素的范圍。(4)P個詞P2。一個詞語是不是事件元素,是由其上下文所在的語義所決3-3(5)3-3(5)3-4圖所示的依存句法分析,雖然“加沙的武裝3-4(6)3-5,2元組形式,便可提取出各個詞語示,對于句子“理”到觸發(fā)詞“代替”的依存路徑為:ATT-SBV一職”,“3-53-6Path(7)B、I、O(8)F,B當前詞語與觸發(fā)詞的相對位置,在觸發(fā)詞前面還是后面,前面標記為后面標記為“B”3.2(8)F,B當前詞語與觸發(fā)詞的相對位置,在觸發(fā)詞前面還是后面,前面標記為后面標記為“B”3.2(P=(R=(F=經(jīng)過錯誤分析,如示例“參加11”無法抽出“新歌”,而把“新歌”O(jiān)什么位置都可以。最后一個模型的F值最高,經(jīng)過多重修改,最好的模型F0.7459。3-1最后一個模型的F值最高,經(jīng)過多重修改,最好的模型F0.7459。3-13.3各模型F 0 PRF去掉詞形+修正父節(jié)點+BIO44.14-1所示,可以大致分為三個模塊,預(yù)處理模塊、觸44.14-1所示,可以大致分為三個模塊,預(yù)處理模塊、觸接運行的可執(zhí)行程序進行訓練和測試,而整個系統(tǒng)是基于Java的,不利于集4-14.2Flex。FlexAdobe4.2Flex。FlexAdobe公司開發(fā)。隨著網(wǎng)頁發(fā)展,富互聯(lián)網(wǎng)應(yīng)用程序的需求越來越打,F(xiàn)lex正是在這種背景下產(chǎn)生,來滿足企業(yè)級程序員的需求。FlexMXMLActionScript組成。MXML類似如JavaScript,一個是靜態(tài)頁面,一個是前臺的邏輯處理。此外,F(xiàn)lex提4-5View視圖,Controller控制)模式。模型層負責封裝應(yīng)用狀態(tài)、響應(yīng)狀態(tài)查JavaFlexBlazeDS軟件,它4.3系統(tǒng)的運行件抽取的界面,展示抽取結(jié)果。如輸入例句“20051114.3系統(tǒng)的運行件抽取的界面,展示抽取結(jié)果。如輸入例句“20051114-6綜合前面的基于CRF的觸發(fā)詞識別和基于最大熵的事件元素抽取,總的性能效4-1所示,其中完全匹配是整個嚴格的匹配,50%匹配指對于一個事件元4-1PRF4.4本章4.4本章Flex成功搭建了一個演示系統(tǒng)。本章結(jié)論結(jié)論CRF模型的觸發(fā)詞抽取方法?;鵉63%CRF模型的方法,利用1時,F(xiàn)67%CRF模型的觸發(fā)詞抽取方法效果優(yōu)于基于詞55%,這說明詞典的準確性還不事件元素抽取中,從例子“2005111日,周杰倫發(fā)行了他的第六張國語專參考AkaneYakushiji,YukaTateisi,YusukeMiyao,Jun-ichi參考AkaneYakushiji,YukaTateisi,YusukeMiyao,Jun-ichiTsujii.Eventextractionfrombiomedicalpapersusingafullparser[J].PacificSymposiumonBiocomputing2001(6):408-419.ChinatsuAone,MilaRamos-Santacruz.Alarge-scalerelationandeventextractionsystem[C].ANLC'00ProceedingsofthesixthconferenceonAppliednaturallanguageprocessing,2000:76-83.Jin-DongKim,TomokoOhta,SampoPyysalo,YoshinobuKano,Jun'ichiTsujii.OverviewofBioNLP'09sharedtaskoneventextraction[C].BioNLP'09ProceedingsoftheWorkshoponCurrentTrendsinBiomedicalNaturalLanguageProcessing:SharedTask,2009:1-9.infectiousdiseaseoutbreaks[C].HLT'02ProceedingsofthesecondinternationalconferenceonHumanLanguageTechnologyResearch,2002:366-369.MakotoMiw

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論