基于樹核函數(shù)的人物關(guān)系抽取研究.ppt_第1頁
基于樹核函數(shù)的人物關(guān)系抽取研究.ppt_第2頁
基于樹核函數(shù)的人物關(guān)系抽取研究.ppt_第3頁
基于樹核函數(shù)的人物關(guān)系抽取研究.ppt_第4頁
基于樹核函數(shù)的人物關(guān)系抽取研究.ppt_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于樹核函數(shù)的人物關(guān)系抽取研究,彭成 錢龍華 周國棟 報告人:彭成 蘇州大學自然語言處理實驗室 /,提綱,引言 相關(guān)工作 研究動機 我們的方法 實驗結(jié)果與分析 下一步工作,引言,人物關(guān)系抽取 人物關(guān)系抽取是實體關(guān)系抽取的一個重要分支,旨在抽取人名實體之間的各種社會關(guān)系。 例如,關(guān)系實例“朱镕基會見克雷蒂安”中,存在著社會交互關(guān)系(CONTACT)。 研究意義 WEB給我們提供了一個巨大的信息庫,其中隱藏著大量用戶感興趣的實體及其相互關(guān)系。 人物關(guān)系抽取技術(shù)對社會網(wǎng)絡(luò)的構(gòu)建、問答系統(tǒng)等均具有重要意義。,相關(guān)工作,基于共現(xiàn)的方法: Kautz等(1997): Referral Web. Mika(2005): Flink. 基于機器學習方法: Matsuo等(2006):基于決策樹的C4.5分類器。 姚從磊等(2007):基于模擬退火算法。 Jing等(2007):基于命名實體識別、關(guān)系檢測、事件檢測。 Elson 等 (2010):基于角色名稱識別和對話檢測。 Agarwal等(2011):基于社會交互事件檢測。,研究動機,存在的問題:目前針對人物關(guān)系抽取的研究一般只涉及特定的領(lǐng)域或是依賴于大規(guī)模網(wǎng)頁共現(xiàn)關(guān)系。通常情況下,人物關(guān)系類型比較單一。 現(xiàn)有條件:隨著基于核函數(shù)的廣泛采用,實體關(guān)系抽取技術(shù)得到迅速發(fā)展并日臻成熟。 能否利用樹核函數(shù)從新聞領(lǐng)域文本中抽取豐富的人物關(guān)系?如何提高其抽取性能?,人物關(guān)系抽取方法,人物關(guān)系定義 靜態(tài)人物關(guān)系:ACE語料原有定義的PER-SOC關(guān)系(Business, Family, Lasting-Personal)。 動態(tài)人物關(guān)系:重新定義ACE的CONTACT事件(Meet, Phone-Write)為交互關(guān)系。 基于樹核函數(shù)的人物關(guān)系抽取方法 結(jié)構(gòu)化信息的構(gòu)造 同義詞詞林語義信息的融合 重采樣技術(shù)的應用,結(jié)構(gòu)化信息的構(gòu)造,刪除實體并列結(jié)構(gòu)(RMV_ENTITY_CC) 當連接兩個實體節(jié)點的路徑中出現(xiàn)并列結(jié)構(gòu)時,可以刪除其中的一個并列部分。 刪除NP并列結(jié)構(gòu)(RMV_NP_CC_NP) 當連接兩個NP節(jié)點的路徑中出現(xiàn)并列結(jié)構(gòu)時,保留最短路徑所通過的那個并列部分。 恢復右側(cè)動詞(EXT_RIGHT_VERB) 擴展第二個實體到最低公共節(jié)點之間出現(xiàn)的動詞短語結(jié)構(gòu)。,結(jié)構(gòu)化信息的構(gòu)造(續(xù)),語義信息融合,語義信息對實體間語義關(guān)系的抽取具有重要的指導作用,我們在句法樹中加入了兩個實體詞匯在同義詞詞林的語義編碼信息。,重采樣技術(shù)的應用,實驗,實驗設(shè)置 人物關(guān)系語料庫包括關(guān)系正例880個,關(guān)系負例18599個。人物關(guān)系類型主要為PER-SOC類和CONTACT類。 本文實驗采用五倍交叉驗證策略。 選擇SVM作為分類器,采用的開源工具為支持卷積樹核函數(shù)的SVMLight TK工具包。 評估標準采用常用的準確率(P),召回率(R)和F1指標(F1)。 本文采用近似隨機技術(shù)進行顯著性測試,并分別使用雙下劃線、單下劃線和無下劃線表示 p0.01、0.01p0.05和p0.05,即差異非常顯著、顯著和不顯著。,實驗結(jié)果裁剪特征的影響,結(jié)論: 1.三種裁剪策略對總體性能提升顯著。 2. Contact類型的F1值明顯低于PER-SOC類型,同時,其性能提升幅度大于PER-SOC類型。,實驗結(jié)果語義信息的影響,結(jié)論: 1.隨著語義信息顆粒度的逐步提高,F(xiàn)1總體性能不斷增加。 2. F1值的提高均來源于召回率的大幅提高。,實驗結(jié)果重采樣技術(shù)的影響,欠采樣對人物關(guān)系抽取的影響,實驗結(jié)果重采樣技術(shù)的影響,過采樣對人物關(guān)系抽取的影響,結(jié)論: 1.欠采樣和過采樣的性能基本上都高于完全樣本訓練時的F1值。 2.過采樣的性能普遍高于欠采樣,且在一定比例范圍內(nèi)維持基本不變。 3.無論對于欠采樣還是過采樣,Contact類的性能提升明顯高于PER-SOC類。,下一步工作,本文提出了一種基于樹核的人物關(guān)系抽取方法。 該方法同時使用了結(jié)構(gòu)化信息裁剪、詞林語義信息、重采樣技術(shù)等策略。 今后的工作:利用搜索引

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論