技術(shù)報(bào)告基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別2_第1頁(yè)
技術(shù)報(bào)告基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別2_第2頁(yè)
技術(shù)報(bào)告基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別2_第3頁(yè)
技術(shù)報(bào)告基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別2_第4頁(yè)
技術(shù)報(bào)告基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別2_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、計(jì)劃類別 項(xiàng)目編號(hào) 項(xiàng)目技術(shù)報(bào)告課題名稱 項(xiàng)目主持人 承擔(dān)單位 題目:基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別研究對(duì)于一條給定的句子,目標(biāo)詞識(shí)別就是識(shí)別出句子中能夠激起語(yǔ)義場(chǎng)景的目標(biāo)詞。針對(duì)目標(biāo)詞識(shí)別中的特征選擇問題,本文把目標(biāo)詞識(shí)別任務(wù)看作是一個(gè)分類問題,在傳統(tǒng)的詞法特征和上下文特征基礎(chǔ)上,加入了句法結(jié)構(gòu)特征設(shè)計(jì)特征模板,識(shí)別句子中的目標(biāo)詞。在漢語(yǔ)框架網(wǎng)的標(biāo)注語(yǔ)料集上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的詞特征,基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別率有顯著地提升。關(guān)鍵詞:框架語(yǔ)義分析;目標(biāo)詞識(shí)別;句法結(jié)構(gòu)分析;漢語(yǔ)框架網(wǎng)1 引言(Introduction)框架語(yǔ)義分析的任務(wù)是從語(yǔ)義角度,在給定的文本中自動(dòng)地識(shí)別目

2、標(biāo)詞,為目標(biāo)詞分配框架,如果分配時(shí)有歧義,進(jìn)行框架排歧,最終識(shí)別出框架中的論元,為論元標(biāo)注語(yǔ)義角色。在整個(gè)任務(wù)中,首要解決的就是目標(biāo)詞的識(shí)別任務(wù)。例如,文本“根據(jù)周恩來的指示,賀龍等繞道香港去上海尋找黨中央?!钡目蚣苷Z(yǔ)義分析結(jié)果如圖1所示。要得到這個(gè)分析結(jié)果,首先要識(shí)別出文本的目標(biāo)詞“去”和“尋找”。近年來,越來越多的學(xué)者關(guān)注框架語(yǔ)義分析在某些特定領(lǐng)域的應(yīng)用1-3。目前,與目標(biāo)詞識(shí)別任務(wù)相關(guān)的研究,主要有目標(biāo)詞擴(kuò)展和目標(biāo)詞識(shí)別兩方面的工作。針對(duì)目標(biāo)詞擴(kuò)展,Jahansson4與Das等5認(rèn)為待識(shí)別的目標(biāo)詞包含在例句和訓(xùn)練集詞表中,利用規(guī)則篩選目標(biāo)詞。文獻(xiàn)分別利用WordNet和SIM6詞典,識(shí)

3、別和收集語(yǔ)義近似的目標(biāo)詞,實(shí)現(xiàn)目標(biāo)詞的擴(kuò)展。針對(duì)目標(biāo)詞識(shí)別,文獻(xiàn)7使用基于規(guī)則的目標(biāo)詞過濾方法進(jìn)行判定,若判定為非目標(biāo)詞,利用基于監(jiān)督學(xué)習(xí)的方法予以修正。文獻(xiàn)8利用分類模型,在特征模板中加入同義詞詞林編碼信息來識(shí)別句子中的核心目標(biāo)詞,但同義詞詞林信息的加入會(huì)導(dǎo)致識(shí)別性能下降。在上述文獻(xiàn)中,大多數(shù)是把句子中與目標(biāo)詞相近的詞都作為特征來進(jìn)行分類,而沒有考慮到句子結(jié)構(gòu)特征對(duì)目標(biāo)詞識(shí)別的影響。事實(shí)上,句子中的很多詞對(duì)目標(biāo)詞識(shí)別并沒有幫助,反而會(huì)給目標(biāo)詞識(shí)別帶來噪音,如何合適地選擇句子中的某些詞作為分類特征是目標(biāo)詞識(shí)別的一個(gè)研究重點(diǎn)。本文利用句法結(jié)構(gòu)來抽取目標(biāo)詞識(shí)別的特征,結(jié)合分類模型,提出了如何選擇句

4、子中合適的詞語(yǔ)作為特征的方法。這種方法利用句法依存分析的結(jié)果,分析句子中各個(gè)詞之間的依存關(guān)系和關(guān)系類型,去掉那些對(duì)目標(biāo)詞識(shí)別沒有作用的詞語(yǔ),選擇句子中關(guān)鍵的詞作為特征來進(jìn)行識(shí)別目標(biāo)詞。2 目標(biāo)詞識(shí)別模型(Target word identification model)2.1 目標(biāo)詞識(shí)別任務(wù)形式化描述對(duì)于一個(gè)待識(shí)別的文本,其中,表示文本中詞的個(gè)數(shù)。目標(biāo)詞識(shí)別,首先要識(shí)別出句子中的詞元,表示中的詞元個(gè)數(shù)。然后,在詞元中識(shí)別出目標(biāo)詞,表示中的目標(biāo)詞個(gè)數(shù)。則目標(biāo)詞識(shí)別任務(wù),可形式化地描述為2.2 基本概念框架8:框架是指與一些激活性語(yǔ)境相一致的結(jié)構(gòu)化范疇系統(tǒng),它是儲(chǔ)存在人類認(rèn)知經(jīng)驗(yàn)中的圖式化情境,是

5、理解詞語(yǔ)的背景和動(dòng)因。詞元:在框架語(yǔ)義學(xué)中,詞通常被稱作為詞元。目標(biāo)詞8:當(dāng)詞元在句子中能夠激起語(yǔ)義場(chǎng)景時(shí),被稱為目標(biāo)詞。在一條包含多個(gè)目標(biāo)詞的句子中,如果某個(gè)目標(biāo)詞激起的框架及其在句中所支配的框架元素依存項(xiàng)相比其他框架更能完整表達(dá)該句的核心語(yǔ)義,該目標(biāo)詞即為核心目標(biāo)詞。2.3 特征抽取本文將目標(biāo)詞識(shí)別任務(wù)看作是一個(gè)分類問題。解決分類問題最重要的兩部分內(nèi)容是特征選擇和模型的選擇,本節(jié)重點(diǎn)介紹目標(biāo)詞識(shí)別任務(wù)中特征的選擇。本文利用句法結(jié)構(gòu)來提取目標(biāo)詞識(shí)別任務(wù)中的分類特征,以依存句法分析的結(jié)果為基礎(chǔ),分析句子中與目標(biāo)詞存在依存關(guān)系的詞,去掉句子中有噪音影響的詞,從而提高識(shí)別的性能。句子特征提取方法分

6、為三步:第一步,查找句子中的目標(biāo)詞。這一步主要是在詞元庫(kù)中抽取所有的詞元構(gòu)成候選詞元列表。針對(duì)一條輸入的句子中,句子經(jīng)分詞后,句子中的詞逐個(gè)在候選詞元列表中進(jìn)行匹配,若匹配成功,則標(biāo)記為目標(biāo)詞。第二步,對(duì)句子進(jìn)行句法分析,得到依存弧和關(guān)系類型。本文對(duì)句子句法分析利用依存句法分析工具,句子經(jīng)依存句法分析后,可得到句子中各個(gè)詞之間的依存關(guān)系和依存弧。第三步,提取句子主干作為分類特征。以目標(biāo)詞為核心,在句子中抽取與目標(biāo)詞相關(guān)的句子主干特征,主要抽取的是句子中的主語(yǔ)、謂語(yǔ)和賓語(yǔ)成分。針對(duì)目標(biāo)詞識(shí)別任務(wù),本文抽取句子的詞法特征、上下文特征和句法特征。(1)詞法特征。詞法特征主要抽取的是當(dāng)前詞的詞性、詞。

7、(2)上下文特征。主要考慮的是詞語(yǔ)搭配對(duì)目標(biāo)詞識(shí)別的影響,一般考查的是在位置上與目標(biāo)詞相近的詞。(3)句法特征。句法特征抽取的是句子主干及其附屬成分。句子主干抽取的是句子的主謂賓。主語(yǔ)成分抽取的是句子中依存關(guān)系標(biāo)記為SBV的詞,謂語(yǔ)成分抽取的是句子中依存關(guān)系為VOB的詞。例如,句子“這里四周有冰山阻隔,海上白霧茫茫,絕不會(huì)被人發(fā)現(xiàn)?!笔褂镁浞ǚ治龊蟮囊来骊P(guān)系圖如圖2所示。目標(biāo)詞識(shí)別就是識(shí)別出這個(gè)句子中的目標(biāo)詞“阻隔”,具體的特征值如表1所示。3 實(shí)驗(yàn)(Experiment)3.1 數(shù)據(jù)來源實(shí)驗(yàn)語(yǔ)料來源于漢語(yǔ)框架網(wǎng)9中的例句庫(kù)。本文選取漢語(yǔ)框架網(wǎng)例句庫(kù)中30個(gè)常用框架的例句進(jìn)行實(shí)驗(yàn),共包含254

8、2條句子和2813個(gè)目標(biāo)詞。3.2 評(píng)價(jià)指標(biāo)本文采用準(zhǔn)確率P(Precision)和Avg_P平均準(zhǔn)確率評(píng)價(jià)目標(biāo)詞的識(shí)別性能。為了避免實(shí)驗(yàn)過程中由語(yǔ)料規(guī)模小引起的過擬合問題,采用3折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn)。其中,在式(1)中A表示正確識(shí)別的核心目標(biāo)詞個(gè)數(shù),B表示識(shí)別到的所有核心目標(biāo)詞個(gè)數(shù),C表示實(shí)驗(yàn)的句子總數(shù)。在式(2)中,Pi表示使用第i份語(yǔ)料得到的準(zhǔn)確率。由于基于分類模型的核心目標(biāo)詞識(shí)別實(shí)驗(yàn)中,采用3折交叉驗(yàn)證,因此n的取值為3。 3.3 實(shí)驗(yàn)結(jié)果本文將目標(biāo)詞識(shí)別看作是一個(gè)分類問題,采用最大熵模型進(jìn)行實(shí)驗(yàn)。本節(jié)實(shí)驗(yàn)用張樂的最大熵工具包9和表2中的特征模板進(jìn)行目標(biāo)詞識(shí)別。特種模板中特征的抽取使用的

9、是哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心的語(yǔ)言處理集成平臺(tái)LTP10。為了驗(yàn)證窗口大小和最大熵模型的迭代次數(shù)對(duì)核心目標(biāo)詞識(shí)別性能的影響,使用表2中的T1模板,窗口大小分別設(shè)置為-1,1、-2,2和-3,3,迭代次數(shù)設(shè)置范圍為50,500,相鄰迭代次數(shù)相差50,并與工具包中的默認(rèn)參數(shù)30做對(duì)比。具體的結(jié)果如圖3所示。從圖3中可以看出,窗口大小為-1,1的時(shí)候識(shí)別性能最好,且迭代次數(shù)為100的時(shí)候,實(shí)驗(yàn)結(jié)果基本趨于穩(wěn)定。因此,在后續(xù)的實(shí)驗(yàn)中,窗口大小設(shè)定為-1,1,最大熵模型的迭代次數(shù)設(shè)定為100。上述實(shí)驗(yàn)證明,采用句法結(jié)構(gòu)分析的方法抽取句子特征,能夠達(dá)到較高的識(shí)別率。但由于采用的訓(xùn)練語(yǔ)料比較小

10、,限制了模型的性能。同時(shí),從實(shí)驗(yàn)結(jié)果可以看出,系統(tǒng)對(duì)于單一的主干成分,如句子的主語(yǔ),識(shí)別的效果不是很好,主要原因是單一的句子主干成分不能完整地表示整個(gè)句子的語(yǔ)義。4 結(jié)論(Conclusion)利用句法結(jié)構(gòu)分析得到的特征識(shí)別句子中的目標(biāo)詞,實(shí)驗(yàn)證明是有效可行的。在訓(xùn)練語(yǔ)料較小的情況下,模型取得了比較高的識(shí)別準(zhǔn)確率。由于單個(gè)主干成分在句子中起到的作用不大,因此識(shí)別性能不顯著。當(dāng)主干成分與基本特征組合識(shí)別目標(biāo)詞時(shí),句子主干能較完整地表示整個(gè)句子的語(yǔ)義,因此識(shí)別效果較好。在以后的研究中,將不斷地?cái)U(kuò)充質(zhì)量較高的語(yǔ)料,改善數(shù)據(jù)稀疏,豐富例句庫(kù)。同時(shí),將嘗試加入語(yǔ)義特征,提升目標(biāo)詞識(shí)別的性能。參考文獻(xiàn)(R

11、eferences)1 Dipanjan Das,Desai Chen.Frame-Semantic ParsingJ.Computational Linguistics,2014,40(1):9-56.2 A Lakhfif,MT Laskri.A Frame-Based Approach for Capturing Semantics from Arabic Text for Text-to-Sign Language MTJ.International Journal of Speech Technology,2016,19(2):1-26.3 AO Bayer,G Riccadri.S

12、emantic Language Models with Deep Neural NetworksJ.Computer Speech & Language,2016,40:1-22.4 RICHARD Johansson,PIERRE Nugues.LTH:Semantic Structure Extraction Using Nonprojective Dependency TreesC.Proceedings of the 4th International Workshop on Semantic Evaluation.Stroudsburg:Association for Comput

13、ational Linguistics,2007:227-230.5 DIPANJAN Das,et al.Probabilistic Frame-Semantic ParsingC.Human Language Technologies:the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.Stroudsburg:Association for Computational Linguistics,2010:948-956.6 LIN Dekang.Automatic Retrieval and Clustering of Similar WordsC.Proceedings of the 17th International Conference on Computational Linguistics-Volume2.Stroudsburg:Association for Computational Linguistics,1998:768-774.7 陳亞東,等.面向框

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論