版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于動(dòng)詞的關(guān)系模式抽取方法摘要:本文提出了一種基于動(dòng)詞的關(guān)系模式抽取方法,旨在從中文網(wǎng)頁(yè)語(yǔ)料中抽取高準(zhǔn)確率的實(shí)體關(guān)系。使用ICTCLAS和實(shí)體表進(jìn)行人名和島嶼島礁實(shí)體識(shí)別,生成準(zhǔn)確的句子實(shí)例,在此基礎(chǔ)上構(gòu)建基于動(dòng)詞的關(guān)系模式。實(shí)驗(yàn)結(jié)果表明該方法獲得了良好的抽取性能。關(guān)鍵詞:關(guān)系抽??;關(guān)系模式;實(shí)體識(shí)別一 引言信息抽取研究技術(shù)是人們獲取信息的有力工具,是應(yīng)對(duì)信息爆炸帶來(lái)的嚴(yán)重挑戰(zhàn)的重要手段。信息抽取的目標(biāo)是從無(wú)結(jié)構(gòu)自然語(yǔ)言文本中提取計(jì)算機(jī)可以理解的結(jié)構(gòu)化信息,其中一種主要的結(jié)構(gòu)化信息是實(shí)體關(guān)系。關(guān)系抽取是信息抽取的子任務(wù),主要目的是提取句子中的實(shí)體關(guān)系1。Web已經(jīng)成為包含人類社會(huì)各種知識(shí)的信息
2、庫(kù),其規(guī)模正在以指數(shù)級(jí)速度膨脹,容納的信息中有各種實(shí)體關(guān)系信息,如人物社會(huì)關(guān)系、國(guó)家與島嶼之間的擁有主權(quán)關(guān)系等等。然而,現(xiàn)有的搜索引擎僅能返回與用戶關(guān)心的相關(guān)信息網(wǎng)頁(yè),不能得到各種關(guān)系信息。本文以從中文網(wǎng)頁(yè)語(yǔ)料中自動(dòng)抽取實(shí)體之間關(guān)系為目標(biāo),提出一種基于動(dòng)詞的關(guān)系模式抽取方法。二 關(guān)系抽取語(yǔ)料中的實(shí)體包括八類:人名、地名、城市、島嶼島礁、海域河域、組織機(jī)構(gòu)、政府部門(mén)、軍事機(jī)構(gòu),如圖1所示。人名人名地名地名城市城市島嶼島礁島嶼島礁海域河域海域河域組織機(jī)構(gòu)組織機(jī)構(gòu)政府部門(mén)政府部門(mén)軍事機(jī)構(gòu)軍事機(jī)構(gòu)圖1 實(shí)體關(guān)系表如何抽取這八類實(shí)體之間的關(guān)系、以構(gòu)建關(guān)系模式是我們要研究的內(nèi)容,本文以抽取人名和島嶼島礁之
3、間的關(guān)系為例開(kāi)展研究。我們提出的關(guān)系抽取策略包括句子實(shí)例獲取、關(guān)系模式的構(gòu)建。實(shí)體關(guān)系抽取原理如圖2所示。中文網(wǎng)頁(yè)語(yǔ)料(文本)預(yù)處理關(guān)系模式構(gòu)建確定動(dòng)詞概念確定名詞概念生成規(guī)則訓(xùn)練部分測(cè)試部分生成關(guān)系模式新實(shí)例抽取圖2 實(shí)體關(guān)系抽取原理圖(一) 句子實(shí)例獲取將中文網(wǎng)頁(yè)正文部分進(jìn)行預(yù)處理,獲取含有實(shí)體的句子作為關(guān)系抽取的句子實(shí)例。預(yù)處理包括分段分句、詞性標(biāo)注、命名實(shí)體識(shí)別等2。本文主要處理人物與島嶼島礁之間的關(guān)系抽取任務(wù),所以在分好的句子中使用ICTCLAS3識(shí)別出這兩種實(shí)體類型,在句子中出現(xiàn)的人物以“1-人名XX”標(biāo)注,島嶼以“23-島嶼名XX”標(biāo)注。(二) 關(guān)系模式的構(gòu)建傳統(tǒng)的啟發(fā)式方法對(duì)句
4、子實(shí)例進(jìn)行詞性標(biāo)注,并用通配符替換實(shí)體對(duì)出現(xiàn)的位置來(lái)構(gòu)建模式4,但通用性和準(zhǔn)確性不足,例如“北京是中國(guó)的首都”的模式構(gòu)建結(jié)果為“object是/v target的/u首都/n”,而從“北京是中國(guó)政治文化的中心”中得到的模式并未表示北京和中國(guó)之間的capital-of關(guān)系。 本文使用的關(guān)系模式抽取方法是從種子句中出現(xiàn)在實(shí)體前后的上下文來(lái)學(xué)習(xí)關(guān)系模式,在從種子句中學(xué)習(xí)抽取模式時(shí),并不是機(jī)械地把出現(xiàn)在種子句中實(shí)體前、實(shí)體中、實(shí)體后的所有詞語(yǔ)均作為所學(xué)模式的特征詞5。因?yàn)橥ㄟ^(guò)對(duì)句子的觀察,發(fā)現(xiàn)句子中兩個(gè)實(shí)體的上下文中常會(huì)出現(xiàn)大量的修飾性詞語(yǔ),如形容詞、副詞、語(yǔ)氣詞等,如果把所有出現(xiàn)的詞語(yǔ)都作為抽取模式
5、的特征詞,一方面極大地增加了模式的長(zhǎng)度,會(huì)在以后的模式匹配工作中占據(jù)較多的機(jī)器時(shí)間,另一方面長(zhǎng)模式的匹配準(zhǔn)確率也會(huì)有相應(yīng)的下降。所以本文提出了基于動(dòng)詞的關(guān)系抽取方法,以“動(dòng)詞”為核心,將相同動(dòng)詞的句子放在一起抽取關(guān)系模式。以下是一個(gè)句子標(biāo)注例子:動(dòng)詞:到達(dá)從譚門(mén)鎮(zhèn)出發(fā),將航向調(diào)到東南110度,3天3夜后“瓊瓊海08068”號(hào)漁船船長(zhǎng)1-許衛(wèi)可到達(dá)23-黃巖島。不用翻譯我們抽取的是實(shí)體(概念)之間的關(guān)系,這種關(guān)系在文本體現(xiàn)方式上為上下文環(huán)境約束。即提煉各種上下文環(huán)境約束規(guī)則,將其實(shí)現(xiàn)到語(yǔ)言中,計(jì)劃實(shí)現(xiàn)的上下文環(huán)境計(jì)算符包括:SENT,表示在同一句話中;ORD,表示滿足先后順序;DIST_n,表示
6、兩兩距離不能超過(guò)n等等。關(guān)系模式的一個(gè)示例:CONCEPT: ACTION_ARRIVE: 到達(dá)CONCEPT: NAME: 許衛(wèi)CONCEPT: NAME_ISLAND: 黃巖島MCONCEPT_RULE:ARRIVE(person.island):(SENT,ORD( “_personNAME”, ”ACTION_ARRIVE”, ”_islandNAME_ISLAND ”)不用翻譯關(guān)系模式包含兩部分的內(nèi)容,一部分是概念,一部分是規(guī)則?!癈ONCEPT”表示概念,包括動(dòng)詞概念和名詞概念,動(dòng)詞概念以“ACTION_”為開(kāi)頭,名詞概念指的是實(shí)體,如人物、地名(國(guó)家、島嶼、海域、城市)、組織機(jī)構(gòu)
7、等等,“CONCEPT: NAME: 許衛(wèi)”表示人名“許衛(wèi)”,“CONCEPT: NAME_ISLAND: 黃巖島”表示島嶼名“黃巖島”;抽取的目標(biāo)是概念的關(guān)系,我們用“MCONCEPT_RULE”定義抽取的規(guī)則,規(guī)則名“ARRIVE”用動(dòng)詞來(lái)表示,規(guī)則由兩個(gè)參數(shù)person和island組成,分別對(duì)應(yīng)名詞概念NAME和NAME_ISLAND。三 實(shí)驗(yàn)結(jié)果及分析(一)實(shí)驗(yàn)語(yǔ)料 實(shí)驗(yàn)中選擇了人名與島嶼島礁名的關(guān)系作為抽取對(duì)象,使用了21,467篇中文網(wǎng)頁(yè),對(duì)其進(jìn)行分段分句,共分出435,210個(gè)相異句子,在分好的句子中使用ICTCLAS進(jìn)行實(shí)體識(shí)別后再進(jìn)行實(shí)體表比對(duì),最終收集了含有人名和島嶼名的
8、共7959個(gè)句子組成了實(shí)驗(yàn)集合。在對(duì)所有的句子按照“動(dòng)詞”進(jìn)行劃分,對(duì)句子中出現(xiàn)命名實(shí)體(人名、島嶼島礁名)進(jìn)行標(biāo)注后,選取其中有代表性的100個(gè)句子作為關(guān)系模式的種子集,余下句子作為測(cè)試集。(二)實(shí)驗(yàn)結(jié)果構(gòu)建關(guān)系模式過(guò)程由關(guān)系抽取系統(tǒng)實(shí)現(xiàn),如圖3所示。輸入動(dòng)詞“暗示”查找到相關(guān)句子,根據(jù)動(dòng)詞定義規(guī)則名“IMPLY”稱并生成動(dòng)詞概念“ACTION_IMPLY”,從句子中抽取名詞并生成名詞概念,以此構(gòu)建概念之間的關(guān)系最終生成關(guān)系模式(即規(guī)則)。圖3 關(guān)系抽取系統(tǒng)圖片不用管將構(gòu)建的關(guān)系模式寫(xiě)入txt文件,如圖4所示。圖4 構(gòu)建的關(guān)系模式在實(shí)驗(yàn)中由于是對(duì)某一具體關(guān)系類別的分析,我們引入了準(zhǔn)確率和召回
9、率這兩個(gè)判斷標(biāo)準(zhǔn)6,公式如下:準(zhǔn)確率P=(正確抽取的某一實(shí)體關(guān)系數(shù)目)/(測(cè)試集中抽取的某一實(shí)體關(guān)系數(shù)目)召回率R=(正確抽取的某一實(shí)體關(guān)系數(shù)目)/(測(cè)試集中應(yīng)有某一實(shí)體關(guān)系數(shù)目)實(shí)驗(yàn)結(jié)果如表1所示。表1 關(guān)系模式抽取實(shí)驗(yàn)結(jié)果DIST值抽取person-island關(guān)系數(shù)正確關(guān)系數(shù)應(yīng)有person-island關(guān)系對(duì)準(zhǔn)確率召回率DIST_213210516979.5%62.1%DIST_4987511476.5%65.8%不2%70.6%從表1中可以看出基于動(dòng)詞的關(guān)系模式抽取方法的召回率和抽取的person-island關(guān)系的準(zhǔn)確率與DIST值有很大關(guān)系,DIST_2
10、表示兩兩距離不超過(guò)2,即當(dāng)person和動(dòng)詞之間的距離不超過(guò)2時(shí),抽取關(guān)系的準(zhǔn)確率為79.5%,相對(duì)較高,而召回率較低;當(dāng)DIST取值為DIST_4時(shí),抽取關(guān)系的準(zhǔn)確率為76.4%,較DIST_2時(shí)要低些,而召回率較DIST_2時(shí)要高些;當(dāng)DIST取值不限時(shí),即person與動(dòng)詞之間無(wú)距離限制時(shí),抽取關(guān)系的準(zhǔn)確率更低些,而召回率較前兩者高些。四 結(jié)論 普通模式匹配方法抽取實(shí)體關(guān)系是用模式與句子及其詞語(yǔ)進(jìn)行格式或形式上的匹配,這種方法一般要求句子的行文、結(jié)構(gòu)比較規(guī)范。然而對(duì)于包含各種關(guān)系的中文網(wǎng)頁(yè)語(yǔ)料,由于其結(jié)構(gòu)比較靈活,普通的模式匹配方法效率并不高,為此,本文提出了基于動(dòng)詞的模式匹配方法來(lái)抽取
11、句子中實(shí)體的關(guān)系,完成了對(duì)人名和島嶼島礁之間的關(guān)系抽取任務(wù)。下一步的工作中,我們將對(duì)關(guān)系實(shí)例進(jìn)行進(jìn)一步挖掘,以提升抽取準(zhǔn)確率并獲得更多語(yǔ)義信息,另外,我們還將嘗試抽取其他類別的關(guān)系實(shí)例。參考文獻(xiàn)1 吳楠,王慶林,劉禹. 基于百科詞條的領(lǐng)域本體關(guān)系抽取方法J中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,(44):347-350.2 張葦如,孫樂(lè). 基于維基百科和模式聚類的實(shí)體關(guān)系抽取方法J中文信息學(xué)報(bào),2012,(2):75-78.3 中科院計(jì)算所.ICTCLAS漢語(yǔ)分詞系統(tǒng)EB/OL ,2011/.Chinese Academy of Institute of Com
12、puting Technology. ICTCLAS Chinese Analysis System4 O.Medelyan, D.Milne,C.legg. Mining Meaning from WikipediaJ. International Journal of Human-Computer Studies, 2009, 67 (9): 716-754.5E.Agichten and L.Gravano. Snowball. Extracting relations from large plain-text collectionsJ. Proceedings of the fifth ACM conference on Digital libraries,New York,ACM Press,2000,85-946zelenko D,Aone C,Rechardella A. Kernel Methods for Relation ExtractionJ. Jo
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐飲冷鏈解決方案
- 建設(shè)工程管理總結(jié)
- 高三化學(xué)二輪復(fù)習(xí) -《探究性實(shí)驗(yàn)微專題》說(shuō)播課課件
- 防溺水防雷擊安全教育
- 開(kāi)花樹(shù)課件教學(xué)課件
- 3.3.2氮氧化物及含氮廢水的處理 課件高一上學(xué)期化學(xué)魯科版(2019)必修第一冊(cè)
- 藥物濫用危害健康
- 邁柯維呼吸機(jī)培訓(xùn)
- 急性創(chuàng)傷相關(guān)知識(shí)及護(hù)理常規(guī)
- 酒店如何做好食品安全
- 脛骨平臺(tái)骨折手術(shù)治療及術(shù)后PPT課件
- 心理應(yīng)激與心身疾病-PPT課件
- 《中國(guó)古代文學(xué)史——第四編:隋唐五代文學(xué)》PPT課件(完整版)
- 第5章金融資產(chǎn)ppt課件
- 硬筆書(shū)法興趣小組(社團(tuán))活動(dòng)計(jì)劃+教案
- (高清正版)JJF(浙)1149-2018生物實(shí)驗(yàn)用干式恒溫器校準(zhǔn)規(guī)范
- 廉潔校園你我共塑PPT課件(帶內(nèi)容)
- 建設(shè)銀行股份關(guān)聯(lián)交易申報(bào)及信息披露系統(tǒng)操作手冊(cè)新一代
- 水文信息采集與處理習(xí)題
- 星級(jí)酒店服務(wù)技能大賽活動(dòng)方案
- 義務(wù)教育《道德與法治》課程標(biāo)準(zhǔn)(2022年版)
評(píng)論
0/150
提交評(píng)論