版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
連詞結構短語識別研究
1連詞結構部分連詞是一個虛擬的詞,具有連接功能,可以連接單詞、短語、句子、句子乃至句子。它可以顯示同時、選擇、中斷、漸進、目的、因果和其他關系。能夠連接詞語、短語的連詞,例如,“和、與、并、及、或、而、甚至、以、以至”等;連接小句、句子的連詞,例如,“不但、雖然、如果、與其、然而”等;連接句群的連詞,例如,“再次、總之、由此可見”等。連詞結構短語指的是連接詞語、短語的連詞所連接的包含連詞在內的短語,即含有連詞的有標記聯(lián)合短語。根據(jù)表示關系的不同可以細分成不同的連詞結構短語,例如,由“和、與、并、及”構成并列的連詞結構短語,由“或”構成選擇的連詞結構短語,由“而”構成轉折或補充的連詞結構短語等。本文用一對“<CP_xx>”和“</CP_xx>”來標記連詞結構短語,其中“xx”表示連詞結構的關系類別,如下面例句所示,其中“bl、xz、bc”分別是并列、選擇、補充等關系的漢語拼音縮寫。(1)<CP_bl>改革、發(fā)展和穩(wěn)定</CP_bl>的任務十分繁重。(2)消費者愿意為<CP_xz>新型產品或現(xiàn)有產品的改進型</CP_xz>支付更高的價錢。(3)大家的心情<CP_bc>激動而又新奇</CP_bc>。連詞結構短語的識別有助于提高機器翻譯的質量。如下面是美國斯坦福國際咨詢研究所(SRI)中提供的句子漢英翻譯結果。(4)當天,<CP_bl>長崎市民團體和原子彈爆炸受害者</CP_bl>等約70人在長崎和平公園靜坐。譯文:Onthesameday,victimsoftheatomicbombingsofnagasakicivicgroupsandabout70people,includingthepeaceparkinnagasakimeditation.(5)如果<CP_xz>狗換了主人或主人地址變更</CP_xz>,要及時更新登記信息。譯文:Ifadogintheaddressoftheownerormasterofchange,andtoupdateinformationinatimelymanner.如果能正確識別漢語句子中的連詞結構短語,那么在翻譯時首先可以確保這個短語不會翻譯錯,也不會把短語的成分和句子的其他成分混淆。因此,連詞結構短語的識別具有重要意義。2連詞結構部分的識別方法周強通過計算詞語的相似度來尋找聯(lián)合結構形成的最優(yōu)路徑,主要是利用從樹庫中得到的數(shù)據(jù),構造統(tǒng)計模型,進行短語自動界定處理,并根據(jù)錯誤事例和語言學知識形成調整規(guī)則來降低自動界定的錯誤率。孫宏林根據(jù)聯(lián)合成分之間的對稱性對連詞左右兩邊的詞串進行概率評分,選擇一個概率最大的組合從而進行識別。吳云芳從語言學角度研究并列結構的特點,根據(jù)中心語相似和結構平行識別有標記并列結構,通過辨別同類詞連用形成的歧義格式識別無標記并列結構。王東波等采用條件隨機場模型,并結合語言學特征識別有標記的聯(lián)合結構。本文在王東波的基礎上,結合虛詞用法知識庫中連詞的用法來識別連詞結構短語。首先根據(jù)連詞的用法對每個可以連接詞語、短語的連詞編寫若干條規(guī)則,實現(xiàn)基于規(guī)則的連詞結構短語識別。然后將連詞用法作為特征,采用條件隨機場模型實現(xiàn)基于統(tǒng)計的連詞結構短語識別,進而分析了不同長度的連詞結構短語識別情況,并與未加入連詞用法特征的方法進行了比較。3基于規(guī)則的連詞結構的句子識別3.1連詞結構有規(guī)范表達的連詞語法在連詞用法詞典和連詞用法規(guī)則的基礎上,對各個連詞的用法進行了考察,找到每個用法所對應的連詞結構短語的形式化表示或邊界,然后抽取其中具有可操作性的判斷條件特征,以有序的BNF范式描述連詞結構短語的識別規(guī)則。因為連詞結構短語涉及到左右兩個邊界,所以目前抽取的主要識別特征有:左搭配M、左緊鄰L、右緊鄰R、右搭配N。另外在規(guī)則庫中引入了其他一些符號,如A表示同詞性同詞,B表示同詞性不同詞。識別規(guī)則的一般描述形式為:<ID>→[M][L][R][N]M→<詞語1>|<詞語2>|…|n|v|a|…L→<詞語1>|<詞語2>|…|n|v|a|…R→<詞語1>|<詞語2>|…|n|v|a|…N→<詞語1>|<詞語2>|…|n|v|a|…其中,規(guī)則元語言中的符號“→”表示定義為,符號“|”表示多選一,規(guī)則右部順序出現(xiàn)的字符表示其所代表的特征屬性為有序合取關系。規(guī)則中的符號<ID>為連詞用法編碼,“<詞語>”表示該屬性位置上出現(xiàn)的詞語,“n、v、a”等表示該屬性位置上出現(xiàn)的詞性。連詞結構短語識別規(guī)則的描述形式類似于連詞用法規(guī)則的描述形式,不同的是連詞結構短語識別規(guī)則中沒有用到句首F和句末E這兩個特征,并且<ID>后的定義不是這個用法的定義,而是這個用法所對應的連詞結構短語的定義。連詞用法詞典和連詞用法規(guī)則的詳細說明可以參考文獻。下面是連詞“和”的結構短語識別規(guī)則:$和@<c_he2_1>→B~B^B→n|a|v@<c_he2_1a>→B、{B、}~B^B→a|v|n@<c_he2_1a>→MN^M→X、^N→</CP>(等|的)@<c_he2_1c>→B~B^B→a|v@<c_he2_1c>→MN^M→v^N→n@<c_he2_2>→MN^M→(無論|不論|不管)<CP>^N→</CP>(,|。)@<c_he2_1b>→MN^M→X(、|與|同|及|以及)^N→(、|與|同|及|以及)X用法“c_he2_1a”表示連接三項以上成分,它對應的連詞結構短語的左邊界是第一個成分,右邊界是最后一個成分,因此這個連詞結構短語就用“B、{B、}~B”表示。“c_he2_2”用法用于“無論、不論、不管”后,它對應的連詞結構短語的左邊界是“無論、不論、不管”后的第一個詞語,右邊界沒有明顯的特點,就規(guī)定到小句末尾。規(guī)則中的“<CP>”和“</CP>”是連詞結構短語的開始和結束標記。默認情況下,M、L對應左邊界,R、N對應右邊界,這時不用加標記。然而“c_he2_2”對應的短語左邊界在M所定義的那些詞之后,所以在“無論、不論、不管”后加上“<CP>”,表示左邊界在這些詞之后。同理,加上“</CP>”表示右邊界在對應這些詞語的前面。3.2實驗語料編碼編碼解釋基于規(guī)則的連詞結構短語識別程序是以行為單位進行文本處理的,處理一行文本的具體流程如下。(1)讀取一行文本,按逗號、分號、冒號、句號、問號、嘆號分割成小句。(2)判斷小句是否為空及是否含有連詞。若不為空且含有連詞,記錄連詞所在的位置pos及用法編碼ID;否則,將該小句寫入結果文件,處理下一個小句直到全部處理完。(3)根據(jù)ID從規(guī)則文件中解析規(guī)則,得到ID對應的連詞結構短語的規(guī)則表示,記為S。若找不到ID,將這個小句中的ID左邊的字符串(包括ID)寫入結果文件,ID右邊的字符串設為新的小句,轉至(2)。(4)從S中獲得連詞結構短語左右邊界的特征及定義,并根據(jù)是否含有“<CP>”和“</CP>”確定邊界的位置。(5)根據(jù)連詞結構短語左右邊界的特征在pos前后匹配。若匹配成功,根據(jù)連詞用法詞典,得到ID對應的關系標記xx,左邊界前插入“<CP_xx>”,右邊界后插入“</CP_xx>”,并將這個小句中的ID左邊的字符串(包括ID)寫入結果文件,右邊的字符串設為新的小句,轉至(2);否則,解析ID對應的下一個連詞結構短語的規(guī)則表示,轉至(3)。本文的實驗語料是“北京大學計算語言學研究所”提供的2000年1月《人民日報》分詞與詞性標注語料,并由“鄭州大學自然語言處理實驗室”預先完成其中連詞用法的標注,實驗的輸入和輸出語料如下所示。輸入:改革/vn、/w發(fā)展/vn和/c<c_he2_1a>穩(wěn)定/vn的/ud任務/n十分/d繁重/a。/wj輸出:<CP_bl>改革/vn、/w發(fā)展/vn和/c<c_he2_1a>穩(wěn)定/vn</CP_bl>的/ud任務/n十分/d繁重/a。/wj通過規(guī)則識別與多人交叉人工標注校對的連詞結構短語的正確答案進行比較,正確答案中所有連詞結構短語總共有14169個,準確率為48.67%,召回率為30.98%,F值為39.19%。規(guī)則識別結果比較低,主要原因是,規(guī)則是根據(jù)有限的語料人工總結的,具有局限性和片面性。如下面句子是“和”的部分規(guī)則識別結果。第一個句子(6)用法為“c_he2_1”,但它的結構并不是左右兩邊都是名詞、形容詞或動詞,這樣規(guī)則就無法表示。第二個例句(7)跟“c_he2_1a”的第二個規(guī)則很接近,右邊界標注正確,因左邊界未找到正確的位置“節(jié)水/vi”,仍然無法完全標注正確。第三個例句(8)是動詞短語的并列,符合“c_he2_1c”的第二個規(guī)則,在確定右邊界時采用最小匹配,找到第一個名詞就結束,導致標注錯誤。因此,本文下面嘗試基于統(tǒng)計的連詞結構短語識別。(6)20000101-01-001-002/m———/wp在/p首都/n各界/rz迎接/v新/a世紀/n和/c<c_he2_1>新/a千年/t慶祝/vn活動/vn上{shang5}/f的/ud講話/n(7)各地/rz開展/v的/ud節(jié)水/vi<CP_bl>灌溉/v、/wu打井/vi、/wu集/Vg雨/n節(jié)灌/vn和/c<c_he2_1a>灌區(qū)/n節(jié)水/vn</CP_bl>等/u工作/vn,/wd(8)<CP_bl>發(fā)展/v地方{di4fang1}/n經(jīng)濟/n和/c<c_he2_1c>保持/v社會/n</CP_bl>穩(wěn)定/vn,/wd兩者/rz是/vl相輔相成/iv的/ud。/wj4基于統(tǒng)計的連詞結構的句子識別4.1連詞結構有格理性編碼模型基于統(tǒng)計的經(jīng)驗主義方法是從訓練數(shù)據(jù)中自動地或半自動地獲取語言知識,建立有效的統(tǒng)計語言模型,并根據(jù)訓練數(shù)據(jù)的實際情況不斷地優(yōu)化,而基于規(guī)則的理性主義方法正如前面一部分所述,事先總結好的,很難根據(jù)實際的數(shù)據(jù)進行調整,因此規(guī)則方法在某些方面不如基于統(tǒng)計的經(jīng)驗主義方法好。本文采用條件隨機場(ConditionalRandomField,CRF)模型進行連詞結構短語識別。CRF模型是由Lafferty在2001年提出的一種典型的判別式模型,給定輸入節(jié)點值,通過訓練學習,計算給定輸出節(jié)點的條件概率,并使得條件概率獲得最大值。近年來,該模型在中文分詞、中文命名實體識別、歧義消解等漢語自然語言處理任務中有廣泛的應用。連詞結構短語識別可以看成是文本中詞語與詞性序列選擇標記、確定邊界的過程。因此本文選擇CRF模型來確定邊界,識別連詞結構短語。4.2連詞結構俄語的標記CRF模型是序列標注問題,能充分考慮上下文中的特征,綜合利用詞和詞性等特征。優(yōu)點是可以任意加入與處理對象有關的語言學特征,作為一個獨立的語言學結構。在連詞結構短語的識別中,很顯然,有連接功能的連詞以及頓號對短語的識別有一定的幫助作用。因此,本文選擇詞語、詞性以及連接功能標記作為特征。為了判別連詞用法對連詞結構短語的識別是否有影響,本文采用兩組特征集,這兩組特征集的區(qū)別在于連接功能標記。特征集Ⅰ中,連接功能標記為Y和N,即如果是連詞或頓號,標記為Y,其他情況標記為N。特征集Ⅱ中,如果是連詞,標記用連詞用法的ID表示;如果是頓號,標記為Y;其他的情況標記為N。連詞結構短語的識別標記參考王東波使用的方法,根據(jù)公式L=1N∑i=3KiNiL=1Ν∑i=3ΚiΝi得出語料中連詞結構短語的平均長度,從而確定使用7詞位標注集。其中,Ni表示長度為i的連詞結構短語的個數(shù),K表示連詞結構短語的最大長度,N表示連詞結構短語的總個數(shù)。連詞結構短語的長度指的是連詞結構短語中詞語的總個數(shù),并且包括連詞在內,所以長度的最小值為3。具體的標注集為T={B,S,T,F,M,E,O},其中B是連詞結構短語的開始詞,S是短語中第二個詞,T是短語中第三個詞,F是短語中第四個詞,M是短語中第五個以上(包括第五個)的詞,E是短語結尾的詞,O是連詞結構短語外部的詞。兩組特征集如表1所示,其中表1a是特征集Ⅰ,表1b是特征集Ⅱ。特征模板采用25個特征,其中詞語為7個窗口,范圍是{-3,-2,-1,0,1,2,3},詞性為5個窗口,范圍是{-2,-1,0,1,2},連接結構標記為5個窗口,范圍是{-2,-1,0,1,2}。其中0代表當前位置,-1代表左邊第一個位置,1代表右邊第一個位置。4.3連詞結構拾遺基于統(tǒng)計方法的實驗語料和規(guī)則的實驗語料一樣,采用10折交叉進行驗證實驗。具體流程如圖1所示。對語料中的所有連詞結構短語進行實驗,結果如表2所示。結果顯示,基于統(tǒng)計的方法比規(guī)則方法提高很多,并且使用連詞用詞特征的識別結果比沒有使用連詞用法特征的識別結果好,這初步說明了連詞的用法對連詞結構短語的識別有一定的幫助。因為從某些連詞的用法上能夠確定某些連詞結構短語的邊界,所以可以將連詞用法應用在連詞結構短語的識別中。連詞結構短語的長度不同,表現(xiàn)的特點也不一樣。這里,連詞結構短語的長度指的是連詞結構短語中詞語的總個數(shù)。為了訓練得到更好的模型,本文對不同長度的連詞結構短語分別進行訓練和測試,這里只考慮簡單結構(不含嵌套結構),結果如表3所示。明顯地,不同的長度識別結果不同,長度越短識別效果越好。另外,連詞用法特征對各種長度的識別效果不同。其中,長度為3、5、8、10及10以上時,準確率、召回率和F值都有所提高,最高提高了4.29%;長度為4、6、9時,準確率提高,而召回率和F值降低;只有長度為7時,準確率、召回率和F值都降低,下降0.5%左右。原因可能是,連詞用法詞典及規(guī)則還不完善,連詞用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024山場土地合同范本
- 2024超市股份合同范本
- 2024東莞市簡易廠房租賃合同范本
- 2024廣播系統(tǒng)維修合同
- 2024股東股權轉讓合同范本
- 《詳細逆變電路》課件
- 深圳大學《自然辯證法概論》2023-2024學年第一學期期末試卷
- 餐飲的勞務合同(2篇)
- 魚塘共同經(jīng)營管理協(xié)議書(2篇)
- 裝修合同范本(2篇)
- GB∕T 3190-2020 變形鋁及鋁合金化學成分
- 五年級上冊數(shù)學課件 - 平行四邊形的面積 人教版(共25張PPT)
- 網(wǎng)絡通信基站施工重點難點技術分析及解決方案
- 陜西房屋建筑和政基礎設施工程施工招標資格預審文件示范文本
- BD 420006-2015 全球衛(wèi)星導航系統(tǒng)(GNSS)定時單元性能要求及測試方法
- 康復科治療告知書
- 防呆法防錯法PokaYoke
- 理性的具象-對DanKiley的他者解讀
- 預防高空墜落安全培訓ppt課件(PPT 15頁)
- 屋頂分布式光伏電站設計及施工組織方案
- 機動車檢驗機構標準查新記錄(2022年6月)
評論
0/150
提交評論