孫斌北京大學計算機系計算語言所iclpkueducn 文檔資料_第1頁
孫斌北京大學計算機系計算語言所iclpkueducn 文檔資料_第2頁
孫斌北京大學計算機系計算語言所iclpkueducn 文檔資料_第3頁
孫斌北京大學計算機系計算語言所iclpkueducn 文檔資料_第4頁
孫斌北京大學計算機系計算語言所iclpkueducn 文檔資料_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、孫,斌,北京大學計算機系計算語言所,(),文本信息提取技術(shù),(,概述,),內(nèi)容,(,1,)信息提取的含義、目標,(,2,)信息提取技術(shù)中若干相關(guān)基礎(chǔ)問題,(,3,),(,中文,),信息提取系統(tǒng)的流程與設(shè)計,(,4,),Web,信息提取,1,、“信息提取”的含義,舉例說明:什么是信息提取,?,設(shè)想有一個用戶,他關(guān)心人民日報,中出現(xiàn)的一類特定的信息,即會議信息。,屬于“單純信息”:無相互關(guān)聯(lián)、時序條件、因果等。,?,通常他是一篇一篇地看報,把其中報道,會議的所有段落標記出來,然后對每一,個會議信息填寫如下一個表格(或者稱,其為“會議信息模板”):,會議信息,(,填寫預(yù)定義語義的表格,),會議時間,

2、Time,會議地點,Spot,召,集,人,Convener,姓,名,/,團,體,名,稱,Name,機,構(gòu),、,職,位,Org/Post,會,議,名,/,標,題,Conf-Title,會議,信息,一例,會議報道(例,1,),:人民日報,2019-03-09,新華社北京月日電(記者李術(shù)峰),:,中國農(nóng)工,民主黨第十二屆中央常務(wù)委員會第一次會議今天在北京,召開。,會議研究通過了貫徹落實“兩會”精神的有關(guān)決定,,審議通過了中國農(nóng)工民主黨中央年工作要點,(草案),并任命了中央副秘書長。,農(nóng)工民主黨中央主席蔣正華主持了會議,他說,農(nóng),工民主黨有多名黨員作為代表和委員參加了今年,的“兩會”,各位黨員要認真履

3、行代表和委員的職責,,開好會,在年的工作中認真貫徹“兩會”精神,,加強農(nóng)工民主黨的自身建設(shè),推動事業(yè)進一步發(fā)展,為,建設(shè)有中國特色社會主義事業(yè)作出新的貢獻。,會前,農(nóng)工民主黨中央邀請參加“兩會”的來自全,國各省、自治區(qū)、直轄市的農(nóng)工民主黨黨員進行了聯(lián)誼,活動。,會,議,時,間,Time,年,3,月,9,日,會,議,地,點,Spot,北京,會議召集者,/,主,持,人,Convener,個人姓名,/,團體,名稱,Name,蔣正華,機,構(gòu),、,職,位,Org/Post,主席,農(nóng)工民主黨中央,會,議,名,/,標,題,Conf-Title,a,href=“”,中國農(nóng)工民主黨第十二屆中央,常務(wù)委員會第一次

4、會議,ICL.CS.PKU,系統(tǒng)輸出結(jié)果:,會議報道(例,1,),事件模板實例,今天,(20190309),北京,蔣正華,中國農(nóng)工民主黨第十二屆中央常委,員會第一次會議,會議報道(例,2,),:人民日報,2019-01-07,?,20190107-06-016-001,意大利總理普羅,迪日說,歐洲國家將采取行動,共同,對付庫爾德難民涌入問題。普羅迪日,晚召開了由意外長、內(nèi)政和國防部長參,加的緊急會議,商討應(yīng)付庫爾德難民問,題的對策。會前,普羅迪說,“在經(jīng)過,最初的混亂后,歐洲國家的行動已經(jīng)大,大加強”,今后幾天內(nèi)將在此問題上進,行系統(tǒng)合作。,會議報道(例,2,),:漢語分詞、標注、短語分析,?

5、,20190107-06-016-001/m,意大利,/ns,總理,/n,普羅迪,/nr,日,/t,說,/v,,,/w,歐洲,/ns,國家,/n,將,/d,采取,/v,行動,/vn,,,/w,共同,/d,對付,/v,庫爾德,/nr,難民,/n,涌入,/v,問題,/n,。,/nx MP0,0 PersonNP1,3,TimeNP4,4 VP5,5 XP6,6 LocationNP7,7 NP8,8 XP9,9,VP10,10 NP11,11 XP12,12 XP13,13 VP14,14 VP17,17,NP18,18 XP19,19,?,普羅迪,/nr,日,/t,晚,/Tg,召開,/v,了,/

6、u,由,/p,意,/j,外長,/n,、,/w,內(nèi)政,/n,和,/c,國防部長,/n,參加,/v,的,/u,緊急,/a,會議,/n,,,/w,商討,/v,應(yīng)付,/v,庫,爾德,/nr,難民,/n,問題,/n,的,/u,對策,/n,。,/nx PersonNP0,0,TimeNP1,2 VP3,3 XP4,4 PP5,5 NP6,6 PostNP7,7 XP8,8,NP9,9 XP10,10 PostNP11,11 VP12,12 XP13,13 AP14,14,NP15,15 XP16,16 VP17,17 VP18,18 XP22,22 NP23,23,XP24,24,?,會前,/t,,,/w

7、,普羅迪,/nr,說,/v,,“,/w,在,/p,經(jīng)過,/p,最初,/b,的,/u,混亂,/an,后,/f,,,/w,歐洲,/ns,國家,/n,的,/u,行動,/vn,已經(jīng),/d,大大,/d,加強,/v ”,,,/w,今后,/t,幾,/m,天,/q,內(nèi),/f,將,/d,在,/p,此,/r,問題,/n,上,/f,進行,/v,系統(tǒng),/n,合作,/v,。,/nx TimeNP0,0 XP1,1 PersonNP2,2 VP3,3 XP4,4,PP5,5 PP6,6 AP7,7 XP8,8 NP9,9 XP10,10 XP11,11,LocationNP12,12 NP13,13 XP14,14 NP

8、15,15 XP16,16,XP17,17 VP18,18 XP19,19 TimeNP20,20 MP21,22 XP23,23,XP24,24 PP25,25 RP26,26 NP27,27 XP28,28 VP29,29,NP30,30 VP31,31 XP32,32,會議報道(例,2,),:命名實體與關(guān)系,庫爾德,(occurrence: 1/1/15; 1/2/19;),普羅迪,(occurrence: 1/1/3; 1/2/0; 1/3/2;),post_of(,意大利總理,普羅迪,),會議報道(例,2,),事件模板實例,日晚,(,2019-01,),意大利,普羅迪,由意外長、內(nèi)政

9、和國防部長參,加的緊急會議,例,2,會議信息結(jié)果,會議時間,Time,日晚,(,2019-01,),會議地點,Spot,意大利,召,集,人,Convener,姓,名,/,團,體,名,稱,Name,普羅迪,機,構(gòu),、,職,位,Org/Post,意大利總理,會,議,名,/,標,題,Conf-Title,由意外長、內(nèi)政和國防部長參加的緊急會議,會議信息自動提取,?,?,任務(wù),:,收集歷年人民日報中所有的相關(guān),信息以便于自己或他人的某些重要應(yīng)用,?,需求定義:,自然地,有了使用一種能夠自動完成,這種工作的工具的需求希望將歷年,人民日報的光盤數(shù)據(jù)交給這個,(,計算,機軟件,),工具處理,然后得到一個包括

10、了,大量會議信息記錄的數(shù)據(jù)庫文件,以非常,方便地使用標準的數(shù)據(jù)庫系統(tǒng)來瀏覽和查,詢這些信息(必要時再調(diào)出原文作更細致,的考察)。,“XXX,系統(tǒng)”,?,這個軟件工具就是一個典型的信息提取系統(tǒng),,或者更準確地說,,“人民日報會議信息自動,提取系統(tǒng)”。,?,更多的信息提取任務(wù):,訪問信息,外交事件,恐怖活動,自然災(zāi)害,一種報刊信息加工“高級應(yīng)用”,系統(tǒng)結(jié)構(gòu),香港日報,:,2019,2019,2000,湖南日報,:,2019,2019,2000,人民日報,:,2019,2019,2000,語料庫,信,息,提,取,會議信息,訪問信息,外交事件,恐怖活動,自然災(zāi)害,內(nèi)容索引庫,用戶界面,DB Inter

11、face,錯誤匹配,20190410-06-006-004,目前智利全國,各地正開展形式多樣的宣傳活動,迎接,第二屆美洲首腦會議月日在智利,召開。圖為首都圣地亞哥市中心商業(yè)區(qū),過街通道旁豎起展覽櫥窗,向市民介紹,參加首腦會議的美洲國家的歷史文化。,(新華社記者韓曉華攝),錯誤匹配, UNKNOWN ,智利, UNKNOWN ,目前智利全國各地正開展形式多樣,的宣傳活動,迎接第二屆美洲首腦會議,!-,多少還是有一些用吧!,-,(,文本,),信息提取的定義,?,按比較正式的說法,信息提取,(Information,Extraction),是指從一段文本中抽取指定的,一類信息(例如事件、事實)、并將

12、其,(形成結(jié)構(gòu)化的數(shù)據(jù))填入一個數(shù)據(jù)庫中,供用戶查詢使用的過程。,?,例如上面提到的會議信息;,或者從一篇關(guān)于自然災(zāi)害的新聞報道中摘錄出災(zāi)害的,類型、時間、地點、人員傷亡、經(jīng)濟損失、救援情況等;,或從產(chǎn)品發(fā)布的新聞?wù)Z料中提取某產(chǎn)品的各種感興趣,的指標,例如計算機網(wǎng)絡(luò)交換器的協(xié)議類型、交換速率、,端口數(shù)、軟件管理方式等。,信息提取涉及到兩個方面的因素,(1),用戶指定感興趣的信息特性,以及待,分析的文本集(數(shù)據(jù)源);,(2),系統(tǒng)過濾文本集并以一定的格式輸出,匹配的信息,(,關(guān)系記錄,),。,與相關(guān)信息處理技術(shù)存在實質(zhì)差異:,?,信息檢索,(Information Retrieval),:,只是

13、找出滿足一定檢索條件,(query),的整,篇文檔或段落,而人們?nèi)匀槐仨氶喿x所找到,的每一個文檔或段落才能獲得所需要的信息。,?,自動文摘、文本理解,:,自動文摘和文本理解則沒有預(yù)先規(guī)定目標,的特性,需要對多種多樣的內(nèi)容進行分析和,處理。,MUC (Message,Understanding Conferences),?,美國政府支持的一個專門致力于真實新聞文本理解的,例會,至今已舉行,7,屆。,?,除像一般的學術(shù)會議一樣交流論文外,它還負責組織,對來自世界各地不同單位的消息理解系統(tǒng)進行系列化,的評測活動。,?,其主要的評測項目是從新聞報道中提取特定的信息,,填入某種數(shù)據(jù)庫中。評測語料大都出自

14、各大通訊社發(fā),布的新聞。對每一條消息,由專業(yè)人員人工給出標準,答案,然后將參測系統(tǒng)的輸出結(jié)果與標準答案比較,,按一定的評價指標給出所有系統(tǒng)的評測結(jié)果,其中最,主要的指標是準確率、查全率等。,?,當前,由,MUC,定義的概念、模型和技術(shù)規(guī)范在國際,上對整個信息提取領(lǐng)域起著主導的作用。,MUC,的,IE,任務(wù)定義,?,5,個典型的提取階段:,(MUC-7 IE Task,Definition Version 5.1),- NE (Named Entities),- ER (Entity Relations),- Template Scenario (Event Structures),- Core

15、ference (Identity descriptions),- Template Merger,?,具體提取哪些,NE, ER, Events,以及做,哪些,Coref, Merger,是任務(wù)相關(guān)的,(,每次,MUC,獨立定義,),。,各個階段的,IE,任務(wù),?,5,個典型的提取階段:,- NE (Named Entities):,提取文本中相關(guān)的命名實,體,包括,人名、機構(gòu),/,公司名稱的識別,國家財政部,/Org,部長,項懷誠,/Person,- ER (Entity Relations):,提取命名實體之間的各種,關(guān)系(事實),Post_of,(,部長,項懷誠,),employee_

16、of,(,國家財政部,項懷誠,),- Template Scenario (Event Structures),:事件,召開會議,(Time, Spot, Convener, Topic),- Coreference (Identity descriptions) :,代詞、名詞共指,- Template Merger :,相同事件的合并,實體,(Entities),識別:,90%,屬性,(Attributes),識別:,80% (TE,任務(wù),),事實,(Facts),識別:,70% (TR,任務(wù),),事件,(Events),識別:,60% (ST,任務(wù),),SRA,公司的,系統(tǒng),(MUC-7

17、),Recall,Precision,F-Score,TE,86%,87%,86.76,TR,67%,86%,75.63,ST,42%,65%,50.79,2,、理解,IE,:,目標、問題和對策,如何界定一門新的技術(shù):,它想做什么能做什么、它不做什么,(e.g., OOP hype in the earlier 90s = limited to structured types;,GP is much better, but limited to source code reuse; ),范式轉(zhuǎn)移,(paradigm shift),?,大背景,(,二十世紀,80,年代后期,),:,從以,Cho

18、msky,等為代表的“純理性,范式”轉(zhuǎn)變?yōu)槿找鎻娬{(diào)以對真實文本數(shù),據(jù)的統(tǒng)計分析和經(jīng)驗知識歸納為主要方,法的范式。這種趨勢還同計算機處理能,力不斷提高和文本數(shù)據(jù)積累不斷增大密,切相關(guān)。,尊重真實文本語言事實已成為當前各,種自然語言信息處理技術(shù)(包括信息提,?。┑囊粋€基本立場和出發(fā)點。,IE,的背景與動機,?,作為一門應(yīng)用性的語言處理技術(shù),信息提取,近年來正受到越來越多的重視。,?,“提取指定的信息”,:,提取,而不是,查找!,?,良好的動機:在所欲與所能之間找平衡,突破信息檢索的局限性,(,由人來閱讀、理解、提取,),?,自動查找、理解和提取“有限技術(shù)的無窮運用”,Typical Process

19、,Specified,Information,Understanding,Document Base,Filled,Templates,Info:,event_frame,.,.,.,(As a DBMS Interface),A Conceived Process,Specified,Information,Understanding,Document Base,Filled,Templates,Info:,event_frame,.,.,.,(As a DBMS Interface),“,有了數(shù)據(jù)庫之后,,就什么都好辦了。”,并非那么簡單的問題,/,答案,?,什么是“信息”?,尤其是“可提

20、取的文本信息”?,?,到底有多少類別,/,不同層次的信息?,?,如何定義,/,形式化表示你想要的“信息”?,?,機器需要預(yù)備什么“信息”才能自動進行“提,取”,?,什么是信息,(,最小數(shù)據(jù)量,),?,Information Theory: “,信息是對未知的度量”,.,無知者的話:“我愚昧,故我,(need),信息”,.,?,設(shè)概率空間,(,?,?,P,),,則事件,A,?,?,的信息,(,數(shù),據(jù),bit),量為,?,(,條件,),后驗事件,A,|,B,與,A,的信息量之差稱為事,件,A,B,的“互信息”:,.,),(,1,log,),(,A,P,A,I,?,(,自信息,),),(,1,log

21、,),|,(,1,log,),|,(,A,P,B,A,P,B,A,I,?,?,.,),(,),(,),(,log,B,A,P,B,P,A,P,?,?,信息的至少三個層次,?,“,語法信息”,(,符號信息,/,形式信息,/,),概率空間,(,?,?,P,),只涉及到形式符號本身,(e.g.,CFGs,詞頻、共現(xiàn),);,?,“,語義信息”,概率空間,(,?,?,P,),涉及到符號的含義,(e.g.,Attrib-Gs ,屬性的頻率,);,?,“,語用信息”,概率空間,(,?,?,P,),涉及到符號的用法,/,使用環(huán)境,因素,;,我們要提取什么信息?,?,“,語用信息”,:太復雜;,?,“符號信息”

22、:,(too trivial);,?,自然地,,IE,是基于“語義信息”:,通過“語義關(guān)系”組裝命名實體,信息提取的“,8,字方針”,?,識別,(,命名,),實體,確定,(,語義,),關(guān)系,?,把文本看作是,(2/3/,元,),實體關(guān)系,的集合,(,IR:,把文本看作是詞,/,符號串的集合,/,概率空間),?,Well-defined IE demands a well-defined,(,computable/decidable/recognizable,) info-,representation.,物質(zhì)結(jié)構(gòu)規(guī)律,小常識,原子,分子,物質(zhì),物質(zhì)結(jié)構(gòu)規(guī)律,小常識,原子,分子,物質(zhì),Nucle

23、i(p,n) + Electrons,物質(zhì)結(jié)構(gòu)規(guī)律,小常識,原子,分子,物質(zhì),Nuclei(p,n) + Electrons,Quarks,物質(zhì)結(jié)構(gòu)規(guī)律,小常識,原子,分子,物質(zhì),Nuclei(p,n) + Electrons,Quarks,Superstrings,信息組成方式,命,名,實,體,NE,(Named Entities),實,體,關(guān),系,ER,(Entity Relations),消,息,模,板,實,例,(Template Instances),信息組成方式,命名實體,NE,(Named Entities),實體關(guān)系,ER,(Entity Relations),消息模板實例,(T

24、emplate Instances),漢,字,命名實體,NE,(Named Entities),實體關(guān)系,ER,(Entity Relations),消息模板實例,(Template Instances),漢,字,IE,是“化學變化”:,原子一級的重新組合。,“,原子構(gòu)成分子”的簡單例子,?,Named Entities:,國家財政部,: Org,項懷誠,: Person,?,Relations:,國家財政部,/nt,部長,/n,項懷誠,/nr,Post_of,Employee_of,信息提取由簡到繁,?,提取單個實體,(the NE Task),把所有的電話號碼、電子郵件,/,網(wǎng)址、時間,(

25、,表,示,),、價格、,都提出來,(,列出來即可,),;,把所有的人名、地名都提出來;,把所有的機構(gòu),/,團體名都提出來;,把所有的產(chǎn)品,/,商標名都提出來;,信息提取由簡到繁,?,提取實體,(,二元,),關(guān)系,把,XXX (,人、公司、院校、,),的電話號碼、,電子郵件,/,網(wǎng)址、,都提出來,(,不要弄錯關(guān)系,),;,把所有位于,ZZZ,地區(qū)的公司名都提出來;,把,YYY,公司發(fā)布,/,推銷,/,的產(chǎn)品都提出來;,信息提取由簡到繁,?,提取事件模板,(,多元語義關(guān)系,/“,結(jié)構(gòu)”,),把所有開會、出訪、產(chǎn)品發(fā)布、公司合并、,股價變動、職務(wù)變化、,的事件都提出來,(,把我給你的表格填上,),;

26、,把所有報道恐怖活動的報道都找出來,(IR),,并,按照事件的地點,/,時間,/,參與者,/,分類、排序;,找出,/,推斷兩個事件的時間、因果、人員、,等關(guān)聯(lián),(e.g., “911,事件”與美國經(jīng)濟停滯,),;,找出“紅樓夢”中,JBY,參與的“不正?;顒印??,需要建立一個“,IE,元素周期,表”,?,一套語義分類體系,(Ontology),-,實體分類,/,屬性描述表:最基本的,Ontology;,Person, Org, Post, Time, Location, ,-,二元關(guān)系分類:,Is_a(), Has_a()/Part_of(), Employee_of(),Product_o

27、f(), ,-,事件分類:,?,實體名詞的語義分類是一個關(guān)鍵,二元關(guān),系在此分類集合上構(gòu)造;精神活動類名詞基,本與,IE,無關(guān)。,信息提取作為信道模型,In,p,u,t,O,u,tp,u,t,(X,?, P,),(Y,?, P,),N,E,1,2,l,E,R,1,2,m,E,T,1,2,n,N,E,1,2,l,E,R,1,2,m,E,T,1,2,n,信息提取作為信道模型,In,p,u,t,O,u,tp,u,t,(X,?, P,),(Y,?, P,),N,E,1,2,l,E,R,1,2,m,E,T,1,2,n,N,E,1,2,l,E,R,1,2,m,E,T,1,2,n,.,),(,log,),(

28、,log,),(,?,?,?,?,?,?,X,i,i,X,i,p,p,dP,P,S,?,?,?,1,1,.,),(,),(,),(,log,),(,),;,(,y,p,x,p,xy,p,xy,p,Y,X,I,Y,y,X,x,?,?,?,?,).,;,(,max,),(,Y,X,I,C,x,p,?,信息提取作為信道模型,In,p,u,t,O,u,tp,u,t,(X,?, P,),(Y,?, P,),N,E,1,2,l,E,R,1,2,m,E,T,1,2,n,N,E,1,2,l,E,R,1,2,m,E,T,1,2,n,這個信道模型可以看作是,一個對觀察(輸出)序列,進行標注,(Tagging),的

29、過程:,標注集是信息提取任務(wù)規(guī),定的各個實體、關(guān)系和事,件模板槽(加上一個,無關(guān),標記,屎?,),而被標注的,輸出串,則是適當界定好的,短語串(例如通過淺層句,法分析后得到的結(jié)果)。,3,、中文信息提取系統(tǒng)設(shè)計,基本目標,?,嘗試中文,IE,所需的各項基本,/,關(guān)鍵技術(shù)的實現(xiàn),把,MUC,定義的技術(shù)都在中文上面試制一遍;,?,盡量發(fā)揮出我們自己的特色,考慮通用的,/,可移植的,IE,系統(tǒng)該怎么去做;結(jié)合漢語,的特殊性,利用一些基礎(chǔ)的漢語研究成果;,?,以實際應(yīng)用,(,潛在,),需求為導向,還是希望能夠?qū)е掠杏玫南到y(tǒng),并不純是為了學術(shù),W,o,r,d,B,u,f,f,e,r,(,S,e,l,e,

30、c,t,e,d,p,a,t,h,o,n,w,o,r,d,l,a,t,t,i,c,e,),U,n,i,t,s,o,f,T,e,x,t,S,t,r,e,a,m,(,D,i,s,c,o,u,r,s,e,s,s,e,p,a,r,.,b,y,e,m,p,t,y,l,i,n,e,s,),W,o,r,d,L,a,t,t,i,c,e,(,S,e,g,-,c,h,a,r,t,s,o,f,e,a,c,h,s,e,n,t,e,n,c,e,),P,h,r,a,s,e,B,u,f,f,e,r,(,S,e,l,e,c,t,e,d,p,h,r,a,s,e,s,w,i,t,h,h,e,a,d,w,o,r,d,s,),I,n,

31、s,t,a,n,c,e,B,u,f,f,e,r,(,M,a,t,c,h,e,d,e,v,e,n,t,p,a,t,t,e,r,n,s,),I,n,p,u,t,D,o,c,u,m,e,n,t,s,T,o,k,e,n,B,u,f,f,e,r,(,S,i,n,g,l,e,C,-,c,h,a,r,n,u,m,b,e,r,d,a,t,e,A,S,C,I,I,),T,e,x,t,E,x,t,r,a,c,t,i,o,n,T,o,k,e,n,i,z,a,t,i,o,n,H,a,s,h,S,e,a,r,c,h,A,n,y,m,a,t,c,h,?,D,B,R,e,c,o,r,d,s,詞,典,T,a,g,g,i,n,

32、g,R,u,l,e,s,P,a,t,t,e,r,n,s,I,n,s,t,.,M,e,r,g,e,r,它們做同樣的事,,GP,做得更好:,Applicable to build-,in types; No artificial base classes Runtime,Efficiency is the major gain; But mainly for source-code reuse;,?,核心思想:,根據(jù)系統(tǒng)中各個基本處理過程對數(shù)據(jù)結(jié)構(gòu)和類型,的一組類型需求,(a set of types satisfying a group of,requirements),,抽象出相應(yīng)的一個基本概

33、念,(concept),作為抽象,/,隔離界面;根據(jù)概念的數(shù)據(jù)要求設(shè)計通用、,高效、類型安全的算法。,以類型需求條件(概念)作為“抽象隔離層”,,將運算與其數(shù)據(jù)隔離開,從而實現(xiàn),通用的,算法,和,數(shù)據(jù),結(jié)構(gòu),兩個集合之間可以任意組合,(if it makes,Generic Programming,“,泛型程序設(shè)計”,?,實例:,C+ STL,A,o,r,i,t,h,m,s,I,t,e,r,a,t,o,r,s,C,o,n,t,a,i,n,e,r,s,F,u,n,c,t,o,r,s,(,a,s,a,r,g,s,),A,l,l,o,c,a,t,o,r,s,A,d,a,p,t,o,r,s,U,s,e

34、,-,a,N,e,w,a,l,g,o,s,N,e,w,C,o,n,t,n,s,F,u,c,t,o,r,s,A,d,a,p,t,o,r,s,A,l,l,o,c,s,Layered Container/Iterator Model,(分,層的,Container/Iterator,模型),?,設(shè)計思想,采用,Generic Programming (GP),的設(shè)計思想,以概念,(concept),作為抽象,/,隔離界面;根據(jù)概念的數(shù)據(jù)要求設(shè)計通用、高效、類型安,全的算法。,每一個語法,/,語義分析層次都有相應(yīng)的結(jié)點容器;,用,iterators,抽象各個容器的操作界面,實現(xiàn)算法與容器的互操作;,?

35、,要求:,各個容器都至少是,sequence containers (,Reversible, BackInsertible,);,各個遍歷器都至少是,bidirectional_iterator;,各級算法都是,Mutating algorithms (transform),?,class ie_unit idx = paragraph idx =,sentence idx = phrase/word(idx=) token,漢語命名實體的識別,(,1,)人名(包括中國人名和外國人譯名),(,2,)地名(包括中國地名和外國地名),(,3,)組織機構(gòu)名(包括政府機構(gòu)、社會團體、企業(yè),等名稱),

36、(,4,)數(shù)字表達式和時間表達式(包括數(shù)值、數(shù)碼、,時點和時段),漢語命名實體的識別,分兩步走:,第一步是詞語一級的,與分詞同步進行;,第二部是短語一級的,可作為句子,(,淺層,),分析,的一部分。,-,詞語級命名實體的主要任務(wù)是:,(,1,)中國人名識別;,(,2,)外國譯名識別;,(,3,)中國地名識別;,可將此過程融入到基于詞,/,詞類共現(xiàn)的概率語言模型中,(HMM,seg,分級,/,Cascaded,模式匹配,?,應(yīng)對方法:模式分級,LR,分析,?,模式分級,(1),淺層短語與二元關(guān)系分析,(e_relation.y),Regular expressions,都是,LR,文法,可以使,用,LR Parsing,來做!即“,Shallow Phrases”;,(2),事件模式識別,(pattern_x.y),在,Shallow Phrase-Sequence,上再做一次,LR Parsing .,?,可以使用“優(yōu)先的,LALR(1)”,分析器,(e.g.,YACC/Bison parsers),模式分級的優(yōu)點,?,本方法取得的幾個顯著結(jié)果:,-,無論多少模式,都是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論