技術(shù)報告基于句法結(jié)構(gòu)分析的目標詞識別2_第1頁
技術(shù)報告基于句法結(jié)構(gòu)分析的目標詞識別2_第2頁
技術(shù)報告基于句法結(jié)構(gòu)分析的目標詞識別2_第3頁
技術(shù)報告基于句法結(jié)構(gòu)分析的目標詞識別2_第4頁
技術(shù)報告基于句法結(jié)構(gòu)分析的目標詞識別2_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、計劃類別 項目編號 項目技術(shù)報告課題名稱 項目主持人 承擔(dān)單位 題目:基于句法結(jié)構(gòu)分析的目標詞識別研究對于一條給定的句子,目標詞識別就是識別出句子中能夠激起語義場景的目標詞。針對目標詞識別中的特征選擇問題,本文把目標詞識別任務(wù)看作是一個分類問題,在傳統(tǒng)的詞法特征和上下文特征基礎(chǔ)上,加入了句法結(jié)構(gòu)特征設(shè)計特征模板,識別句子中的目標詞。在漢語框架網(wǎng)的標注語料集上進行測試,實驗結(jié)果表明,相比于傳統(tǒng)的詞特征,基于句法結(jié)構(gòu)分析的目標詞識別率有顯著地提升。關(guān)鍵詞:框架語義分析;目標詞識別;句法結(jié)構(gòu)分析;漢語框架網(wǎng)1 引言(Introduction)框架語義分析的任務(wù)是從語義角度,在給定的文本中自動地識別目

2、標詞,為目標詞分配框架,如果分配時有歧義,進行框架排歧,最終識別出框架中的論元,為論元標注語義角色。在整個任務(wù)中,首要解決的就是目標詞的識別任務(wù)。例如,文本“根據(jù)周恩來的指示,賀龍等繞道香港去上海尋找黨中央。”的框架語義分析結(jié)果如圖1所示。要得到這個分析結(jié)果,首先要識別出文本的目標詞“去”和“尋找”。近年來,越來越多的學(xué)者關(guān)注框架語義分析在某些特定領(lǐng)域的應(yīng)用1-3。目前,與目標詞識別任務(wù)相關(guān)的研究,主要有目標詞擴展和目標詞識別兩方面的工作。針對目標詞擴展,Jahansson4與Das等5認為待識別的目標詞包含在例句和訓(xùn)練集詞表中,利用規(guī)則篩選目標詞。文獻分別利用WordNet和SIM6詞典,識

3、別和收集語義近似的目標詞,實現(xiàn)目標詞的擴展。針對目標詞識別,文獻7使用基于規(guī)則的目標詞過濾方法進行判定,若判定為非目標詞,利用基于監(jiān)督學(xué)習(xí)的方法予以修正。文獻8利用分類模型,在特征模板中加入同義詞詞林編碼信息來識別句子中的核心目標詞,但同義詞詞林信息的加入會導(dǎo)致識別性能下降。在上述文獻中,大多數(shù)是把句子中與目標詞相近的詞都作為特征來進行分類,而沒有考慮到句子結(jié)構(gòu)特征對目標詞識別的影響。事實上,句子中的很多詞對目標詞識別并沒有幫助,反而會給目標詞識別帶來噪音,如何合適地選擇句子中的某些詞作為分類特征是目標詞識別的一個研究重點。本文利用句法結(jié)構(gòu)來抽取目標詞識別的特征,結(jié)合分類模型,提出了如何選擇句

4、子中合適的詞語作為特征的方法。這種方法利用句法依存分析的結(jié)果,分析句子中各個詞之間的依存關(guān)系和關(guān)系類型,去掉那些對目標詞識別沒有作用的詞語,選擇句子中關(guān)鍵的詞作為特征來進行識別目標詞。2 目標詞識別模型(Target word identification model)2.1 目標詞識別任務(wù)形式化描述對于一個待識別的文本,其中,表示文本中詞的個數(shù)。目標詞識別,首先要識別出句子中的詞元,表示中的詞元個數(shù)。然后,在詞元中識別出目標詞,表示中的目標詞個數(shù)。則目標詞識別任務(wù),可形式化地描述為2.2 基本概念框架8:框架是指與一些激活性語境相一致的結(jié)構(gòu)化范疇系統(tǒng),它是儲存在人類認知經(jīng)驗中的圖式化情境,是

5、理解詞語的背景和動因。詞元:在框架語義學(xué)中,詞通常被稱作為詞元。目標詞8:當詞元在句子中能夠激起語義場景時,被稱為目標詞。在一條包含多個目標詞的句子中,如果某個目標詞激起的框架及其在句中所支配的框架元素依存項相比其他框架更能完整表達該句的核心語義,該目標詞即為核心目標詞。2.3 特征抽取本文將目標詞識別任務(wù)看作是一個分類問題。解決分類問題最重要的兩部分內(nèi)容是特征選擇和模型的選擇,本節(jié)重點介紹目標詞識別任務(wù)中特征的選擇。本文利用句法結(jié)構(gòu)來提取目標詞識別任務(wù)中的分類特征,以依存句法分析的結(jié)果為基礎(chǔ),分析句子中與目標詞存在依存關(guān)系的詞,去掉句子中有噪音影響的詞,從而提高識別的性能。句子特征提取方法分

6、為三步:第一步,查找句子中的目標詞。這一步主要是在詞元庫中抽取所有的詞元構(gòu)成候選詞元列表。針對一條輸入的句子中,句子經(jīng)分詞后,句子中的詞逐個在候選詞元列表中進行匹配,若匹配成功,則標記為目標詞。第二步,對句子進行句法分析,得到依存弧和關(guān)系類型。本文對句子句法分析利用依存句法分析工具,句子經(jīng)依存句法分析后,可得到句子中各個詞之間的依存關(guān)系和依存弧。第三步,提取句子主干作為分類特征。以目標詞為核心,在句子中抽取與目標詞相關(guān)的句子主干特征,主要抽取的是句子中的主語、謂語和賓語成分。針對目標詞識別任務(wù),本文抽取句子的詞法特征、上下文特征和句法特征。(1)詞法特征。詞法特征主要抽取的是當前詞的詞性、詞。

7、(2)上下文特征。主要考慮的是詞語搭配對目標詞識別的影響,一般考查的是在位置上與目標詞相近的詞。(3)句法特征。句法特征抽取的是句子主干及其附屬成分。句子主干抽取的是句子的主謂賓。主語成分抽取的是句子中依存關(guān)系標記為SBV的詞,謂語成分抽取的是句子中依存關(guān)系為VOB的詞。例如,句子“這里四周有冰山阻隔,海上白霧茫茫,絕不會被人發(fā)現(xiàn)?!笔褂镁浞ǚ治龊蟮囊来骊P(guān)系圖如圖2所示。目標詞識別就是識別出這個句子中的目標詞“阻隔”,具體的特征值如表1所示。3 實驗(Experiment)3.1 數(shù)據(jù)來源實驗語料來源于漢語框架網(wǎng)9中的例句庫。本文選取漢語框架網(wǎng)例句庫中30個常用框架的例句進行實驗,共包含254

8、2條句子和2813個目標詞。3.2 評價指標本文采用準確率P(Precision)和Avg_P平均準確率評價目標詞的識別性能。為了避免實驗過程中由語料規(guī)模小引起的過擬合問題,采用3折交叉驗證進行實驗。其中,在式(1)中A表示正確識別的核心目標詞個數(shù),B表示識別到的所有核心目標詞個數(shù),C表示實驗的句子總數(shù)。在式(2)中,Pi表示使用第i份語料得到的準確率。由于基于分類模型的核心目標詞識別實驗中,采用3折交叉驗證,因此n的取值為3。 3.3 實驗結(jié)果本文將目標詞識別看作是一個分類問題,采用最大熵模型進行實驗。本節(jié)實驗用張樂的最大熵工具包9和表2中的特征模板進行目標詞識別。特種模板中特征的抽取使用的

9、是哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心的語言處理集成平臺LTP10。為了驗證窗口大小和最大熵模型的迭代次數(shù)對核心目標詞識別性能的影響,使用表2中的T1模板,窗口大小分別設(shè)置為-1,1、-2,2和-3,3,迭代次數(shù)設(shè)置范圍為50,500,相鄰迭代次數(shù)相差50,并與工具包中的默認參數(shù)30做對比。具體的結(jié)果如圖3所示。從圖3中可以看出,窗口大小為-1,1的時候識別性能最好,且迭代次數(shù)為100的時候,實驗結(jié)果基本趨于穩(wěn)定。因此,在后續(xù)的實驗中,窗口大小設(shè)定為-1,1,最大熵模型的迭代次數(shù)設(shè)定為100。上述實驗證明,采用句法結(jié)構(gòu)分析的方法抽取句子特征,能夠達到較高的識別率。但由于采用的訓(xùn)練語料比較小

10、,限制了模型的性能。同時,從實驗結(jié)果可以看出,系統(tǒng)對于單一的主干成分,如句子的主語,識別的效果不是很好,主要原因是單一的句子主干成分不能完整地表示整個句子的語義。4 結(jié)論(Conclusion)利用句法結(jié)構(gòu)分析得到的特征識別句子中的目標詞,實驗證明是有效可行的。在訓(xùn)練語料較小的情況下,模型取得了比較高的識別準確率。由于單個主干成分在句子中起到的作用不大,因此識別性能不顯著。當主干成分與基本特征組合識別目標詞時,句子主干能較完整地表示整個句子的語義,因此識別效果較好。在以后的研究中,將不斷地擴充質(zhì)量較高的語料,改善數(shù)據(jù)稀疏,豐富例句庫。同時,將嘗試加入語義特征,提升目標詞識別的性能。參考文獻(R

11、eferences)1 Dipanjan Das,Desai Chen.Frame-Semantic ParsingJ.Computational Linguistics,2014,40(1):9-56.2 A Lakhfif,MT Laskri.A Frame-Based Approach for Capturing Semantics from Arabic Text for Text-to-Sign Language MTJ.International Journal of Speech Technology,2016,19(2):1-26.3 AO Bayer,G Riccadri.S

12、emantic Language Models with Deep Neural NetworksJ.Computer Speech & Language,2016,40:1-22.4 RICHARD Johansson,PIERRE Nugues.LTH:Semantic Structure Extraction Using Nonprojective Dependency TreesC.Proceedings of the 4th International Workshop on Semantic Evaluation.Stroudsburg:Association for Comput

13、ational Linguistics,2007:227-230.5 DIPANJAN Das,et al.Probabilistic Frame-Semantic ParsingC.Human Language Technologies:the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.Stroudsburg:Association for Computational Linguistics,2010:948-956.6 LIN Dekang.Automatic Retrieval and Clustering of Similar WordsC.Proceedings of the 17th International Conference on Computational Linguistics-Volume2.Stroudsburg:Association for Computational Linguistics,1998:768-774.7 陳亞東,等.面向框

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論