技術(shù)報(bào)告基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別2

上傳人：風(fēng)*** IP屬地：重慶上傳時(shí)間：2022-08-27 格式：DOC 頁(yè)數(shù)：12 大?。?4KB 積分：2.4 舉報(bào) 版權(quán)申訴

技術(shù)報(bào)告基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別2_第2頁(yè)

技術(shù)報(bào)告基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別2_第3頁(yè)

技術(shù)報(bào)告基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別2_第4頁(yè)

技術(shù)報(bào)告基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別2_第5頁(yè)

已閱讀5頁(yè)，還剩7頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、計(jì)劃類別項(xiàng)目編號(hào) 項(xiàng)目技術(shù)報(bào)告課題名稱項(xiàng)目主持人承擔(dān)單位題目：基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別研究對(duì)于一條給定的句子，目標(biāo)詞識(shí)別就是識(shí)別出句子中能夠激起語(yǔ)義場(chǎng)景的目標(biāo)詞。針對(duì)目標(biāo)詞識(shí)別中的特征選擇問題，本文把目標(biāo)詞識(shí)別任務(wù)看作是一個(gè)分類問題，在傳統(tǒng)的詞法特征和上下文特征基礎(chǔ)上，加入了句法結(jié)構(gòu)特征設(shè)計(jì)特征模板，識(shí)別句子中的目標(biāo)詞。在漢語(yǔ)框架網(wǎng)的標(biāo)注語(yǔ)料集上進(jìn)行測(cè)試，實(shí)驗(yàn)結(jié)果表明，相比于傳統(tǒng)的詞特征，基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別率有顯著地提升。關(guān)鍵詞：框架語(yǔ)義分析；目標(biāo)詞識(shí)別；句法結(jié)構(gòu)分析；漢語(yǔ)框架網(wǎng)1 引言（Introduction）框架語(yǔ)義分析的任務(wù)是從語(yǔ)義角度，在給定的文本中自動(dòng)地識(shí)別目

2、標(biāo)詞，為目標(biāo)詞分配框架，如果分配時(shí)有歧義，進(jìn)行框架排歧，最終識(shí)別出框架中的論元，為論元標(biāo)注語(yǔ)義角色。在整個(gè)任務(wù)中，首要解決的就是目標(biāo)詞的識(shí)別任務(wù)。例如，文本“根據(jù)周恩來的指示，賀龍等繞道香港去上海尋找黨中央?！钡目蚣苷Z(yǔ)義分析結(jié)果如圖1所示。要得到這個(gè)分析結(jié)果，首先要識(shí)別出文本的目標(biāo)詞“去”和“尋找”。近年來，越來越多的學(xué)者關(guān)注框架語(yǔ)義分析在某些特定領(lǐng)域的應(yīng)用1-3。目前，與目標(biāo)詞識(shí)別任務(wù)相關(guān)的研究，主要有目標(biāo)詞擴(kuò)展和目標(biāo)詞識(shí)別兩方面的工作。針對(duì)目標(biāo)詞擴(kuò)展，Jahansson4與Das等5認(rèn)為待識(shí)別的目標(biāo)詞包含在例句和訓(xùn)練集詞表中，利用規(guī)則篩選目標(biāo)詞。文獻(xiàn)分別利用WordNet和SIM6詞典，識(shí)

3、別和收集語(yǔ)義近似的目標(biāo)詞，實(shí)現(xiàn)目標(biāo)詞的擴(kuò)展。針對(duì)目標(biāo)詞識(shí)別，文獻(xiàn)7使用基于規(guī)則的目標(biāo)詞過濾方法進(jìn)行判定，若判定為非目標(biāo)詞，利用基于監(jiān)督學(xué)習(xí)的方法予以修正。文獻(xiàn)8利用分類模型，在特征模板中加入同義詞詞林編碼信息來識(shí)別句子中的核心目標(biāo)詞，但同義詞詞林信息的加入會(huì)導(dǎo)致識(shí)別性能下降。在上述文獻(xiàn)中，大多數(shù)是把句子中與目標(biāo)詞相近的詞都作為特征來進(jìn)行分類，而沒有考慮到句子結(jié)構(gòu)特征對(duì)目標(biāo)詞識(shí)別的影響。事實(shí)上，句子中的很多詞對(duì)目標(biāo)詞識(shí)別并沒有幫助，反而會(huì)給目標(biāo)詞識(shí)別帶來噪音，如何合適地選擇句子中的某些詞作為分類特征是目標(biāo)詞識(shí)別的一個(gè)研究重點(diǎn)。本文利用句法結(jié)構(gòu)來抽取目標(biāo)詞識(shí)別的特征，結(jié)合分類模型，提出了如何選擇句

4、子中合適的詞語(yǔ)作為特征的方法。這種方法利用句法依存分析的結(jié)果，分析句子中各個(gè)詞之間的依存關(guān)系和關(guān)系類型，去掉那些對(duì)目標(biāo)詞識(shí)別沒有作用的詞語(yǔ)，選擇句子中關(guān)鍵的詞作為特征來進(jìn)行識(shí)別目標(biāo)詞。2 目標(biāo)詞識(shí)別模型（Target word identification model）2.1 目標(biāo)詞識(shí)別任務(wù)形式化描述對(duì)于一個(gè)待識(shí)別的文本，其中，表示文本中詞的個(gè)數(shù)。目標(biāo)詞識(shí)別，首先要識(shí)別出句子中的詞元，表示中的詞元個(gè)數(shù)。然后，在詞元中識(shí)別出目標(biāo)詞，表示中的目標(biāo)詞個(gè)數(shù)。則目標(biāo)詞識(shí)別任務(wù)，可形式化地描述為2.2 基本概念框架8：框架是指與一些激活性語(yǔ)境相一致的結(jié)構(gòu)化范疇系統(tǒng)，它是儲(chǔ)存在人類認(rèn)知經(jīng)驗(yàn)中的圖式化情境，是

5、理解詞語(yǔ)的背景和動(dòng)因。詞元：在框架語(yǔ)義學(xué)中，詞通常被稱作為詞元。目標(biāo)詞8：當(dāng)詞元在句子中能夠激起語(yǔ)義場(chǎng)景時(shí)，被稱為目標(biāo)詞。在一條包含多個(gè)目標(biāo)詞的句子中，如果某個(gè)目標(biāo)詞激起的框架及其在句中所支配的框架元素依存項(xiàng)相比其他框架更能完整表達(dá)該句的核心語(yǔ)義，該目標(biāo)詞即為核心目標(biāo)詞。2.3 特征抽取本文將目標(biāo)詞識(shí)別任務(wù)看作是一個(gè)分類問題。解決分類問題最重要的兩部分內(nèi)容是特征選擇和模型的選擇，本節(jié)重點(diǎn)介紹目標(biāo)詞識(shí)別任務(wù)中特征的選擇。本文利用句法結(jié)構(gòu)來提取目標(biāo)詞識(shí)別任務(wù)中的分類特征，以依存句法分析的結(jié)果為基礎(chǔ)，分析句子中與目標(biāo)詞存在依存關(guān)系的詞，去掉句子中有噪音影響的詞，從而提高識(shí)別的性能。句子特征提取方法分

6、為三步：第一步，查找句子中的目標(biāo)詞。這一步主要是在詞元庫(kù)中抽取所有的詞元構(gòu)成候選詞元列表。針對(duì)一條輸入的句子中，句子經(jīng)分詞后，句子中的詞逐個(gè)在候選詞元列表中進(jìn)行匹配，若匹配成功，則標(biāo)記為目標(biāo)詞。第二步，對(duì)句子進(jìn)行句法分析，得到依存弧和關(guān)系類型。本文對(duì)句子句法分析利用依存句法分析工具，句子經(jīng)依存句法分析后，可得到句子中各個(gè)詞之間的依存關(guān)系和依存弧。第三步，提取句子主干作為分類特征。以目標(biāo)詞為核心，在句子中抽取與目標(biāo)詞相關(guān)的句子主干特征，主要抽取的是句子中的主語(yǔ)、謂語(yǔ)和賓語(yǔ)成分。針對(duì)目標(biāo)詞識(shí)別任務(wù)，本文抽取句子的詞法特征、上下文特征和句法特征。（1）詞法特征。詞法特征主要抽取的是當(dāng)前詞的詞性、詞。

7、（2）上下文特征。主要考慮的是詞語(yǔ)搭配對(duì)目標(biāo)詞識(shí)別的影響，一般考查的是在位置上與目標(biāo)詞相近的詞。（3）句法特征。句法特征抽取的是句子主干及其附屬成分。句子主干抽取的是句子的主謂賓。主語(yǔ)成分抽取的是句子中依存關(guān)系標(biāo)記為SBV的詞，謂語(yǔ)成分抽取的是句子中依存關(guān)系為VOB的詞。例如，句子“這里四周有冰山阻隔，海上白霧茫茫，絕不會(huì)被人發(fā)現(xiàn)?！笔褂镁浞ǚ治龊蟮囊来骊P(guān)系圖如圖2所示。目標(biāo)詞識(shí)別就是識(shí)別出這個(gè)句子中的目標(biāo)詞“阻隔”，具體的特征值如表1所示。3 實(shí)驗(yàn)（Experiment）3.1 數(shù)據(jù)來源實(shí)驗(yàn)語(yǔ)料來源于漢語(yǔ)框架網(wǎng)9中的例句庫(kù)。本文選取漢語(yǔ)框架網(wǎng)例句庫(kù)中30個(gè)常用框架的例句進(jìn)行實(shí)驗(yàn)，共包含254

8、2條句子和2813個(gè)目標(biāo)詞。3.2 評(píng)價(jià)指標(biāo)本文采用準(zhǔn)確率P（Precision）和Avg_P平均準(zhǔn)確率評(píng)價(jià)目標(biāo)詞的識(shí)別性能。為了避免實(shí)驗(yàn)過程中由語(yǔ)料規(guī)模小引起的過擬合問題，采用3折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn)。其中，在式（1）中A表示正確識(shí)別的核心目標(biāo)詞個(gè)數(shù)，B表示識(shí)別到的所有核心目標(biāo)詞個(gè)數(shù)，C表示實(shí)驗(yàn)的句子總數(shù)。在式（2）中，Pi表示使用第i份語(yǔ)料得到的準(zhǔn)確率。由于基于分類模型的核心目標(biāo)詞識(shí)別實(shí)驗(yàn)中，采用3折交叉驗(yàn)證，因此n的取值為3。 3.3 實(shí)驗(yàn)結(jié)果本文將目標(biāo)詞識(shí)別看作是一個(gè)分類問題，采用最大熵模型進(jìn)行實(shí)驗(yàn)。本節(jié)實(shí)驗(yàn)用張樂的最大熵工具包9和表2中的特征模板進(jìn)行目標(biāo)詞識(shí)別。特種模板中特征的抽取使用的

9、是哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心的語(yǔ)言處理集成平臺(tái)LTP10。為了驗(yàn)證窗口大小和最大熵模型的迭代次數(shù)對(duì)核心目標(biāo)詞識(shí)別性能的影響，使用表2中的T1模板，窗口大小分別設(shè)置為-1，1、-2，2和-3，3，迭代次數(shù)設(shè)置范圍為50，500，相鄰迭代次數(shù)相差50，并與工具包中的默認(rèn)參數(shù)30做對(duì)比。具體的結(jié)果如圖3所示。從圖3中可以看出，窗口大小為-1，1的時(shí)候識(shí)別性能最好，且迭代次數(shù)為100的時(shí)候，實(shí)驗(yàn)結(jié)果基本趨于穩(wěn)定。因此，在后續(xù)的實(shí)驗(yàn)中，窗口大小設(shè)定為-1，1，最大熵模型的迭代次數(shù)設(shè)定為100。上述實(shí)驗(yàn)證明，采用句法結(jié)構(gòu)分析的方法抽取句子特征，能夠達(dá)到較高的識(shí)別率。但由于采用的訓(xùn)練語(yǔ)料比較小

10、，限制了模型的性能。同時(shí)，從實(shí)驗(yàn)結(jié)果可以看出，系統(tǒng)對(duì)于單一的主干成分，如句子的主語(yǔ)，識(shí)別的效果不是很好，主要原因是單一的句子主干成分不能完整地表示整個(gè)句子的語(yǔ)義。4 結(jié)論（Conclusion）利用句法結(jié)構(gòu)分析得到的特征識(shí)別句子中的目標(biāo)詞，實(shí)驗(yàn)證明是有效可行的。在訓(xùn)練語(yǔ)料較小的情況下，模型取得了比較高的識(shí)別準(zhǔn)確率。由于單個(gè)主干成分在句子中起到的作用不大，因此識(shí)別性能不顯著。當(dāng)主干成分與基本特征組合識(shí)別目標(biāo)詞時(shí)，句子主干能較完整地表示整個(gè)句子的語(yǔ)義，因此識(shí)別效果較好。在以后的研究中，將不斷地?cái)U(kuò)充質(zhì)量較高的語(yǔ)料，改善數(shù)據(jù)稀疏，豐富例句庫(kù)。同時(shí)，將嘗試加入語(yǔ)義特征，提升目標(biāo)詞識(shí)別的性能。參考文獻(xiàn)（R

11、eferences）1 Dipanjan Das，Desai Chen.Frame-Semantic ParsingJ.Computational Linguistics，2014，40（1）：9-56.2 A Lakhfif，MT Laskri.A Frame-Based Approach for Capturing Semantics from Arabic Text for Text-to-Sign Language MTJ.International Journal of Speech Technology，2016，19（2）：1-26.3 AO Bayer，G Riccadri.S

12、emantic Language Models with Deep Neural NetworksJ.Computer Speech & Language，2016，40：1-22.4 RICHARD Johansson，PIERRE Nugues.LTH：Semantic Structure Extraction Using Nonprojective Dependency TreesC.Proceedings of the 4th International Workshop on Semantic Evaluation.Stroudsburg：Association for Comput

13、ational Linguistics，2007：227-230.5 DIPANJAN Das，et al.Probabilistic Frame-Semantic ParsingC.Human Language Technologies：the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.Stroudsburg：Association for Computational Linguistics，2010：948-956.6 LIN Dekang.Automatic Retrieval and Clustering of Similar WordsC.Proceedings of the 17th International Conference on Computational Linguistics-Volume2.Stroudsburg：Association for Computational Linguistics，1998：768-774.7 陳亞東，等.面向框

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

技術(shù)報(bào)告基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別2

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

技術(shù)報(bào)告基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別2

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔