雙語短語庫建設_第1頁
雙語短語庫建設_第2頁
雙語短語庫建設_第3頁
雙語短語庫建設_第4頁
雙語短語庫建設_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、雙語短語庫建設n為什么建設雙語短語庫n短語庫收錄原則n短語庫的工作基礎n短語庫的描述內(nèi)容n短語庫的一致性檢查n短語庫的樣例n短語庫的應用為什么建設雙語短語信息數(shù)據(jù)庫?n(1)短語分析失敗導致整個句子分析失敗,整個句子不能正確翻譯。n(2)很多短語作為一個整體進行翻譯,不能通過逐詞的方式翻譯。n(3)即使可以進行逐詞翻譯,義項選擇問題n(4)機器翻譯要覆蓋真實文本,資源積累很重要。收錄原則n出現(xiàn)頻率較高n新聞領域優(yōu)先n不能逐詞對譯的短語n短語組成成分歧義較多的短語n以收集np、vp為主,兼顧其它類型n有歧義的結構作多條處理n英文原則上不是釋義,而是翻譯等價物n兼顧成語、專有名稱工作基礎nICL原

2、短語庫( 44869 )n短語對齊語料庫中提取的雙語短語從雙語對齊語料庫中提取9447條,經(jīng)過篩選得到8365條n探索將來自動提取翻譯等價短語ICL短語庫情況n三個庫共103635個短語n其中44869條是雙語的,描述內(nèi)容:(1)切詞信息(2)詞性信息(3)拼音信息(4)英語翻譯n 信息有點少短語庫描述內(nèi)容(1)漢語短語的切詞信息;(2)漢語短語的組成單詞的詞性信息;(3)漢語短語的句法類;(4)漢語短語的中心詞信息;(5)漢語短語直接組成成分間的句法關系; (6)英語短語的切詞信息; (7)英語短語的組成單詞的詞性信息; (8)英語語短語的句法類; (9)英語短語的中心詞信息;(10)漢英短

3、語對的若干屬性信息。是否成語、習用語、人名、地名、商標字號等等 漢語詞類的設置n采用ICL/PKU標記集合n取消了非功能標記i、j 、l、g等n實際采用21個標記漢語句法類設置n使用了9個短語類(1)動詞短語:vp(2)名詞短語:np(3)小句: dj(4)形容詞短語:ap(5)數(shù)量短語:mp (6) 介詞短語:pp (7) 處所短語:sp (8) 時間短語:tp (9) 副詞性短語:dpn標記名稱和規(guī)則引擎一致漢語短語組成成分間內(nèi)部句法關系n只標記短語最高層直接組成成分之間的句法關系 n共設有9類關系(1)定中關系 DZ(2)述賓關系 SB(3)述補關系 SBU(4)并列關系 LH(5)主謂

4、關系 ZW(6)連謂關系 LW(7)狀中關系ZZ(8)的字結構DE(9)介賓結構 JB關于短語中心詞的規(guī)定n有些短語類的中心詞容易確定,大家認識一致,如名詞短語、動詞短語n有些短語類的中心詞確定沒有統(tǒng)一認識,采用規(guī)定的方式,如介詞短語、連謂結構、并列結構等等英語短語的詞類設置n37個標記n采用Upenn標記英語短語類設置n設置6類(1)名詞短語 NP(2)動詞短語 VP(3)形容詞短語 AdjP(4)副詞短語 AdvP(5)介詞短語 PP(6)小句 CS一致性檢查n并列結構是多中心的,可有多個中心詞;其余的結構有并且只能有有并且只能有一個中心詞。n不允許出現(xiàn) i,j,l,Ag等詞性標記 n詞類

5、、短語類和結構關系類是封閉的n短語類和結構關系之間的一致性n 檢查短語類和中心詞詞性的一致性樣例(目前)ZH_PHRASEZH_PHRASEZH_PHRASE_CZH_PHRASE_CATEGORYATEGORYZH_GRAM_RELATIOZH_GRAM_RELATION NEN_PHRASEEN_PHRASEN NR RN NS SN NT TN NM MN NZ ZI IJ JL L!謊報/v 年齡/n vpSBlie about ones age !虛報/v 年齡/n vpSBlie about ones age 征兵/v !年齡/nnpDZconscription age; age for enlistment 最低/a !年齡/n npDZminimum age 法定/b !年齡/n npDZlawful age; legal age !達到/v 法定/b 年齡/n vpSBcome of age 未/d !達到/v 規(guī)定/v 年齡/nvpZZunder

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論