基于語(yǔ)料庫(kù)的漢語(yǔ)依存樹(shù)庫(kù)的句法分析精度研究_第1頁(yè)
基于語(yǔ)料庫(kù)的漢語(yǔ)依存樹(shù)庫(kù)的句法分析精度研究_第2頁(yè)
基于語(yǔ)料庫(kù)的漢語(yǔ)依存樹(shù)庫(kù)的句法分析精度研究_第3頁(yè)
基于語(yǔ)料庫(kù)的漢語(yǔ)依存樹(shù)庫(kù)的句法分析精度研究_第4頁(yè)
基于語(yǔ)料庫(kù)的漢語(yǔ)依存樹(shù)庫(kù)的句法分析精度研究_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于語(yǔ)料庫(kù)的漢語(yǔ)依存樹(shù)庫(kù)的句法分析精度研究

1依存句法分析基于語(yǔ)法中標(biāo)記語(yǔ)料庫(kù)和機(jī)器學(xué)習(xí)的自然環(huán)境處理方法是當(dāng)前自然資源處理領(lǐng)域的研究熱點(diǎn)。在句子分析領(lǐng)域,通常使用語(yǔ)料庫(kù)(也稱(chēng)為樹(shù)庫(kù))作為工具,獲取語(yǔ)法知識(shí),評(píng)估句子分析結(jié)果。一般來(lái)說(shuō),改變機(jī)器的學(xué)習(xí)策略和句法分析算法,提高句子法分析器的精度,不是語(yǔ)言學(xué)家,而是“基于語(yǔ)言特征的計(jì)算語(yǔ)言學(xué)學(xué)會(huì)可以做什么?”?!罢Z(yǔ)言特征的可視化設(shè)備可以提高這些語(yǔ)言特征的精度嗎?”。在這項(xiàng)工作中,我們?cè)噲D通過(guò)改變庫(kù)的標(biāo)記方法來(lái)探索這個(gè)問(wèn)題。本文所用的句法理論為依存語(yǔ)法.一般認(rèn)為,現(xiàn)代依存語(yǔ)法的創(chuàng)立者為法國(guó)語(yǔ)言學(xué)家Tesnière,有關(guān)依存語(yǔ)法以及該理論和計(jì)算語(yǔ)言學(xué)的關(guān)系,可參見(jiàn)文獻(xiàn).依存句法分析的目標(biāo)是構(gòu)建輸入句子的依存句法結(jié)構(gòu)樹(shù)(圖).圖1為句子“這是一個(gè)例子”的依存句法結(jié)構(gòu)圖.圖1顯示,構(gòu)成依存樹(shù)(圖)的基本單位是二元依存關(guān)系,這種關(guān)系可以在兩個(gè)詞之間形成,也可以將其抽象為一種兩個(gè)詞類(lèi)標(biāo)記(PartofSpeech,POS)之間的關(guān)系.依存關(guān)系是一種有向關(guān)系或非對(duì)稱(chēng)關(guān)系,即在兩個(gè)詞(類(lèi))中有一個(gè)為支配詞,圖1中弧上的箭頭表示了這種有向性.與短語(yǔ)結(jié)構(gòu)句法分析相比,依存句法分析由于能夠直接發(fā)現(xiàn)句中的詞間關(guān)系,加之這種關(guān)系對(duì)于信息提取和語(yǔ)義處理都極有用處,所以受到越來(lái)越多研究者的重視.句法分析的這種發(fā)展趨向也可從依存句法分析連續(xù)兩次被CoNLL會(huì)議(ConferenceonComputationalNaturalLanguageLearning)作為共享任務(wù)中看出.我們采用瑞典韋克舍(V?xj?)大學(xué)的J.Nivre提出的“歸納依存分析”(InductiveDependencyParsing)方法和在此基礎(chǔ)上實(shí)現(xiàn)的依存句法分析器MaltParser作為研究工具.MaltParser由以下三個(gè)部分組成:剖析器、指導(dǎo)器和學(xué)習(xí)器.各部分的任務(wù)是:構(gòu)建依存圖的確定性剖析算法,預(yù)測(cè)剖析器的下一個(gè)活動(dòng)的基于歷史的特征模型,將歷史映射為剖析器活動(dòng)的判別機(jī)器學(xué)習(xí)方法.MaltParser采用模塊化結(jié)構(gòu),使用者可根據(jù)自己的需要調(diào)整各種機(jī)器學(xué)習(xí)和句法分析參數(shù).2依存標(biāo)記標(biāo)記的方面實(shí)驗(yàn)所用樹(shù)庫(kù)為自建的“新聞聯(lián)播”樹(shù)庫(kù),標(biāo)注采用的“現(xiàn)代漢語(yǔ)依存關(guān)系句法”見(jiàn)文獻(xiàn).所用樹(shù)庫(kù)含句子711個(gè),詞20034個(gè),平均句長(zhǎng)28個(gè)詞.我們將711個(gè)句子中的前650個(gè)句子作為訓(xùn)練集,剩余的61個(gè)句子作為測(cè)試集.采用基于記憶的學(xué)習(xí)(Memory-BasedLearning,MBL)策略和M4特征模型(含5個(gè)詞類(lèi)標(biāo)記(POS)特征,4個(gè)依存類(lèi)型(DependencyType,DEP)特征和2個(gè)詞匯(Lexical,LEX)特征),得到以下句法分析結(jié)果:UAS0.704,LAS0.637,UnSent22,其中,UAS為無(wú)標(biāo)記依存關(guān)系,LAS為有標(biāo)記依存關(guān)系,UnSent為非聯(lián)通句子數(shù).有關(guān)特征參數(shù)和依存句法分析精度的關(guān)系可參見(jiàn)文獻(xiàn)、.這一結(jié)果遠(yuǎn)遠(yuǎn)低于使用MaltParser處理其它語(yǔ)言時(shí)得到的分值.造成這種局面的主要原因有:樹(shù)庫(kù)的規(guī)模太小,這毫無(wú)疑問(wèn)會(huì)帶來(lái)數(shù)據(jù)稀疏問(wèn)題;樹(shù)庫(kù)中還存在一些不一致的問(wèn)題;訓(xùn)練集和測(cè)試集的平均句子長(zhǎng)度較大,前者為28,后者為22;使用24個(gè)標(biāo)記的詞性標(biāo)記集,53個(gè)關(guān)系的依存關(guān)系集.依存關(guān)系數(shù)量明顯有些多.圖2反映的是詞類(lèi)尋找其支配詞的精度情況.后文中所涉及的詞類(lèi)、依存標(biāo)記等具體意義可參見(jiàn)文獻(xiàn).圖2所示為無(wú)標(biāo)記依存標(biāo)記的情況,雖然有標(biāo)記的情況更差,但變化趨勢(shì)不大.我們將分值分為3個(gè)區(qū)域,低于0.7的為嚴(yán)重區(qū),0.7~0.8為一般區(qū),0.8以上為可接受區(qū).在嚴(yán)重區(qū),重點(diǎn)要解決的是動(dòng)詞的問(wèn)題,雖然連詞的情況要更差,但它的數(shù)量少,對(duì)系統(tǒng)的影響要小于動(dòng)詞.這一區(qū)域還有介詞、量詞、的字結(jié)構(gòu)等.我們認(rèn)為這些處于嚴(yán)重區(qū)內(nèi)中的詞類(lèi),分值之所以這么低的原因,主要是它們可擔(dān)當(dāng)?shù)木浞üδ芴?用劉海濤、馮志偉所提出的概率配價(jià)模式來(lái)解釋,就是詞類(lèi)的離心力太大,或受別的詞支配的能力太強(qiáng).對(duì)它們進(jìn)行子類(lèi)劃分,消解這種過(guò)強(qiáng)的能力,可能是改善精度的一種途徑,但對(duì)于小樹(shù)庫(kù)來(lái)說(shuō),增加詞的子類(lèi)又會(huì)使數(shù)據(jù)稀疏問(wèn)題更加突出.處于一般區(qū)域的詞類(lèi),除形容詞外,幾乎都是名詞,這一方面說(shuō)明名詞可充當(dāng)?shù)木浞üδ茌^之嚴(yán)重區(qū)要單一一些外,可能也說(shuō)明對(duì)于名詞進(jìn)行細(xì)分的句法意義并不是很大.在可接受區(qū)中,除代詞的分值剛剛達(dá)到0.8外,其余詞類(lèi)的精確度均高于0.92,能達(dá)到如此高的分值的主要原因,是它們可擔(dān)當(dāng)?shù)木浞üδ芊浅我?其中出現(xiàn)次數(shù)較多的是副詞和數(shù)詞,滿(mǎn)分的“地”因?yàn)楝F(xiàn)次太少,不足為慮,助詞能達(dá)到滿(mǎn)分的原因是在測(cè)試集中出現(xiàn)的基本上都是時(shí)態(tài)助詞“了”,離支配詞近,加上功能單一,沒(méi)有不得高分的理由.圖3是按照依存關(guān)系得到的準(zhǔn)確率和召回率的統(tǒng)計(jì)數(shù)據(jù).分析帶依存關(guān)系標(biāo)記的支配詞依附的準(zhǔn)確率和召回率要更復(fù)雜一些:1)涉及的關(guān)系種類(lèi)多;2)不僅要考慮支配詞,也要考慮從屬詞和支配詞之間的依存關(guān)系.圖3顯示準(zhǔn)確率和召回率的分布不是完全一致的.準(zhǔn)確率和召回率都為零的依存關(guān)系有12種,它們是:cfc,cs,cadva,subobj,soc,cva,cpobj,coor,comp,ccr,cepa,cdec.除涉及兼語(yǔ)式的subobj、soc、并列關(guān)系coor以及補(bǔ)語(yǔ)comp外,其余的8種都是為了處理并列結(jié)構(gòu)而引入的帶有前綴c的并列關(guān)系,如csubj表示“并列主語(yǔ)”,cobj表示“并列賓語(yǔ)”等.這些關(guān)系得零分的主要原因可能是:訓(xùn)練集太小,以致系統(tǒng)無(wú)法識(shí)別這些關(guān)系;我們對(duì)于并列結(jié)構(gòu)的處理雖然可能較好地體現(xiàn)了其語(yǔ)言學(xué)意義,但卻不適于基于機(jī)器學(xué)習(xí)的數(shù)據(jù)句法分析策略.obja(能愿動(dòng)詞賓語(yǔ))得分低的原因在于:訓(xùn)練集中此類(lèi)關(guān)系較少,而且我們也取消了能愿動(dòng)詞這個(gè)小類(lèi),當(dāng)然也會(huì)影響原本只有它才能產(chǎn)生這個(gè)關(guān)系的精度.cr、sentobj、s、va等關(guān)系基本上都涉及到跨句關(guān)系和兩個(gè)動(dòng)詞之間的關(guān)系,所以其準(zhǔn)確性不高也是可以理解的.csubj、catr、cobj這三個(gè)涉及并列結(jié)構(gòu)關(guān)系的準(zhǔn)確率能達(dá)到0.5以上,說(shuō)明我們對(duì)于并列結(jié)構(gòu)的這種處理方式,如果有足夠的語(yǔ)料作支撐,也是可以接受的.csr作為一種比較單一的依存關(guān)系,只得到不足0.6的分值是難以接受的,原因可能在于我們沒(méi)有區(qū)分從屬連詞和并列連詞.因?yàn)槲覀儾捎脤?zhuān)門(mén)的pos標(biāo)記bjd,root的召回率達(dá)到滿(mǎn)分,但它的準(zhǔn)確率只有0.53,原因是我們還沒(méi)有辦法在數(shù)據(jù)驅(qū)動(dòng)的句法分析器中對(duì)此進(jìn)行唯一性約束.obj、auxr、subj、pobj、atr、adva、dec、ma等關(guān)系的準(zhǔn)確率分值介于0.585~0.714之間,這些關(guān)系在全部關(guān)系中占的比例很大,其準(zhǔn)確率能否提高對(duì)系統(tǒng)的整體性能有較大影響.因此分析這些關(guān)系的構(gòu)成,以及造成這些依存關(guān)系識(shí)別準(zhǔn)確率不高的原因是我們的主要任務(wù).qc、fc和epa的分值能達(dá)到0.9以上,主要在于形成這些關(guān)系的詞類(lèi)成分較穩(wěn)定,它們的高分值說(shuō)明用小訓(xùn)練集也可構(gòu)造性能不差的依存句法分析器,條件是組成依存關(guān)系的詞類(lèi)結(jié)構(gòu)應(yīng)該穩(wěn)定、單一的.滿(mǎn)分的baobj、dic和ta再次說(shuō)明在較穩(wěn)定的詞類(lèi)間形成的關(guān)系是容易識(shí)別的,而且支配詞和從屬詞還不能離的太遠(yuǎn),baobj的低召回率說(shuō)明依存距離大的依存關(guān)系更難獲得.文獻(xiàn)提出一種采用樹(shù)庫(kù)測(cè)量依存距離(即支配詞和從屬詞線(xiàn)性距離)的方法,結(jié)合本文和文獻(xiàn)中的結(jié)果,我們可得到圖4.為方便觀(guān)察,圖4中的依存距離值是縮小了10倍的.圖4表明除個(gè)別依存關(guān)系外,識(shí)別依存距離小的關(guān)系準(zhǔn)確率要高一些.準(zhǔn)確率、召回率曲線(xiàn)和依存距離曲線(xiàn)的非完美吻合也說(shuō)明,依存距離只是得到高準(zhǔn)確率的條件之一.baobj(把字句)的高精確率顯示了單一功能的詞類(lèi)即使依存距離較長(zhǎng),也可獲得好的識(shí)別準(zhǔn)確率.當(dāng)然,距離和精度的關(guān)系不是如此簡(jiǎn)單,值得深入研究.3u3000在堅(jiān)持目標(biāo)函數(shù)和分析器精度方面的測(cè)試與檢驗(yàn)根據(jù)以上分析,我們對(duì)訓(xùn)練依存句法分析器的樹(shù)庫(kù)作了以下修改.1)修改并列結(jié)構(gòu)的處理方式.取消cXXX的形式,引入co關(guān)系.這樣可減少原依存關(guān)系中為處理并列結(jié)構(gòu)而引入的20種cXXX類(lèi)關(guān)系.2)將標(biāo)點(diǎn)符號(hào)頓號(hào)“、”作為一種并列連詞來(lái)處理.3)區(qū)分從屬連詞(cs)和并列連詞(cc).4)由于動(dòng)詞的處理涉及的問(wèn)題較多,我們先只分出能愿動(dòng)詞(vu),其余小類(lèi)待處理.對(duì)樹(shù)庫(kù)做以上修改后,仍用MBL訓(xùn)練,采用M4策略.此時(shí)系統(tǒng)的無(wú)標(biāo)記依存關(guān)系(UAS)準(zhǔn)確率達(dá)到了0.72,增加了0.016.有標(biāo)記依存關(guān)系的分值(LAS)0.666,增加了0.029.增加幅度不大的原因是連詞(cc和cs)在測(cè)試集中的數(shù)量不多,在1348個(gè)詞的測(cè)試集中只有44個(gè),能愿動(dòng)詞只有5個(gè).但是,我們觀(guān)察的重點(diǎn)應(yīng)該是與修改相關(guān)的依存關(guān)系和支配詞精度的變化情況.表1為相關(guān)詞類(lèi)的新數(shù)值.與樹(shù)庫(kù)未修改前得到的數(shù)據(jù)相比,細(xì)分后的連詞尋找其支配成分的準(zhǔn)確率稍有改善,效果不明顯的原因是并列連詞可有支配者成分仍然復(fù)雜,所以準(zhǔn)確率難以大幅度提高.對(duì)于從屬連詞而言,雖然其支配者一般為動(dòng)詞,但由于漢語(yǔ)中一個(gè)句子中的動(dòng)詞數(shù)量要多于一個(gè),這使得準(zhǔn)確率也提高的不多.總的說(shuō)來(lái),經(jīng)過(guò)這樣不大的調(diào)整,連詞的準(zhǔn)確率提高了4%,效果還是有的.把能愿動(dòng)詞從v中分出來(lái),也使得v本身和vu的依附準(zhǔn)確率都有5%的提高.句內(nèi)標(biāo)點(diǎn)(bnd)的準(zhǔn)確率也提高4%,這主要是我們將頓號(hào)視為cc的原因.其余詞類(lèi)的依附精度基本沒(méi)有變化,這和我們沒(méi)有修改它們的事實(shí)相符.表2是有關(guān)依存關(guān)系的數(shù)據(jù).依存關(guān)系方面的改善更為明顯,原來(lái)的20種并列關(guān)系用一種關(guān)系co代替后,不但沒(méi)有再現(xiàn)準(zhǔn)確率和召回率為零的尷尬狀況,而且co的準(zhǔn)確率一躍達(dá)到0.836,召回率也接近0.8.csr的準(zhǔn)確率也差不多提高了10%.引入能愿動(dòng)詞vu后的obja更是在準(zhǔn)確率和召回率方面都取得滿(mǎn)分.這說(shuō)明第二部分的分析是正確的,解決問(wèn)題的思路也是有效的.通過(guò)在M4模型中增加兩個(gè)詞匯化(Lexical,LEX)特征,我們得到一個(gè)更好的結(jié)果:UAS0.735LAS0.684.這說(shuō)明,即使是用一個(gè)非常小的樹(shù)庫(kù)作為機(jī)器學(xué)習(xí)的樣本,詞匯化的特征也是有利于提高分析精度.為了探索進(jìn)一步提高精度的可能性,我們對(duì)樹(shù)庫(kù)中被標(biāo)注為動(dòng)詞的詞,根據(jù)其語(yǔ)法功能將它們的詞性歸為動(dòng)詞、名詞和形容詞.受細(xì)分vu的啟發(fā),我們又從動(dòng)詞中細(xì)分出三個(gè)小類(lèi):雙賓動(dòng)詞(vtd)、小句賓動(dòng)詞(vts)和兼語(yǔ)動(dòng)詞(vtc).此時(shí),用M4得到的結(jié)果是UAS0.759LAS0.712.為了進(jìn)一步探索語(yǔ)言學(xué)理論通過(guò)樹(shù)庫(kù)標(biāo)注改善句法分析的作用,我們對(duì)并列結(jié)構(gòu)的依存分析做了專(zhuān)門(mén)的研究.根據(jù)依存語(yǔ)法理論中處理并列結(jié)構(gòu)的常用方法,提出并列結(jié)構(gòu)的三種標(biāo)注方式,這三種標(biāo)注方式均包含第二層分析的思想,即類(lèi)似于cXXX的標(biāo)注.用這三種方式標(biāo)注從“人民日?qǐng)?bào)”語(yǔ)料庫(kù)中提取出的1000個(gè)含有并列結(jié)構(gòu)的句子,得到一個(gè)并列結(jié)構(gòu)依存樹(shù)庫(kù).該樹(shù)庫(kù)含33049個(gè)詞,平均句長(zhǎng)33,不含循環(huán)句、非投影句和非聯(lián)通句.采用1000句中的前900句作為訓(xùn)練集,剩余的100句作為測(cè)試集.用MaltParser,選擇MBL機(jī)器學(xué)習(xí)策略和M4模型,得到的結(jié)果如表3.表3說(shuō)明同種結(jié)構(gòu)采用不同分析方法和標(biāo)注方式會(huì)影響句法分析器的精度.在這種情況下,語(yǔ)言學(xué)家進(jìn)一步研究的目標(biāo)不應(yīng)僅滿(mǎn)足于如何提高分析器的精度和效率,而也應(yīng)該考慮句法標(biāo)注和其它層面語(yǔ)言分析的關(guān)系,以提高標(biāo)注方案的綜合性能.為了探討擴(kuò)大訓(xùn)練集規(guī)模對(duì)低精度詞依存關(guān)系的影響,我們也使用并列結(jié)構(gòu)依存樹(shù)庫(kù)此前所說(shuō)的61個(gè)句子作為測(cè)試集,進(jìn)行依存分析實(shí)驗(yàn).結(jié)果表明訓(xùn)練集的增加對(duì)并列結(jié)構(gòu)精度的提高起到明顯作用.其中,cpobj準(zhǔn)確率和召回率由零提高到0.2和0.5,csubj的準(zhǔn)確率提高0.25,召回率提高0.054.我們也按照前述修改樹(shù)庫(kù)標(biāo)注的方法,在并列結(jié)構(gòu)依存樹(shù)庫(kù)中用co來(lái)代替cXXX.做此修改后,co的準(zhǔn)確率為0.754,召回率為0.719,二者均高于平均分值.這再次說(shuō)明此種方法對(duì)彌補(bǔ)數(shù)據(jù)稀疏是有效的.但我們也注意到,將訓(xùn)練集從650個(gè)句子擴(kuò)大為900個(gè)句子后的co分值反而低于原來(lái)的分值(準(zhǔn)確率0.836,召回率0.797),這有可能是由于訓(xùn)練集所用語(yǔ)料不同而引起的,也有可能說(shuō)明采用細(xì)分小類(lèi)、建大樹(shù)庫(kù)的辦法并不能解決所有問(wèn)題.4句法分析的精度本文利用可調(diào)整參數(shù)的依存句法分析器MaltParser作為工具,用自建的一個(gè)小規(guī)模依存樹(shù)庫(kù)作為資源,進(jìn)行基于樹(shù)庫(kù)和機(jī)器學(xué)習(xí)的漢語(yǔ)依存句法分析實(shí)驗(yàn).實(shí)驗(yàn)所用的樹(shù)庫(kù)只有20000詞左右,700個(gè)句子,但通過(guò)調(diào)整樹(shù)庫(kù)中對(duì)某些語(yǔ)言現(xiàn)象的處理方式和標(biāo)注的精細(xì)度,使得句法分析器的UAS精度從0.704提高到0.759,LAS精度從0.637上升到0.712,分別提高5.5%和7.5%.本文的意義不在于所得到的句法分析器的精度有多高,而在于證實(shí)可從語(yǔ)言學(xué)的角度改善基于樹(shù)庫(kù)和機(jī)器學(xué)習(xí)的句法分析器的精度.也就是說(shuō),人們不但可以從機(jī)器學(xué)習(xí)、句法分析算法上入手研究基于樹(shù)庫(kù)和機(jī)器學(xué)習(xí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論