大型詞典編纂的計算機(jī)輔助開發(fā)與管理系統(tǒng)_第1頁
大型詞典編纂的計算機(jī)輔助開發(fā)與管理系統(tǒng)_第2頁
大型詞典編纂的計算機(jī)輔助開發(fā)與管理系統(tǒng)_第3頁
大型詞典編纂的計算機(jī)輔助開發(fā)與管理系統(tǒng)_第4頁
大型詞典編纂的計算機(jī)輔助開發(fā)與管理系統(tǒng)_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

PAGE4《辭書研究》投稿03-92退修大型詞典編纂的計算機(jī)輔助開發(fā)與管理系統(tǒng)本研究得到國家863項目“語言資源建設(shè)及相關(guān)研究探索”(項目號:2002AA117010-08)與國家973重點基礎(chǔ)研究項目“面向新聞領(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”(項目號:G1998030507-4)的支持。王惠李康年摘要:詞典編纂是一項需要投入大量人力、物力、財力的大型語言工程。由于詞典包含的信息量巨大,開發(fā)周期長,編纂人員多,工程項目所要求的進(jìn)度與詞典的質(zhì)量保證都是非常關(guān)鍵的問題。為此,我們設(shè)計并實現(xiàn)了一個詞典編纂的計算機(jī)輔助開發(fā)與管理系統(tǒng)。該系統(tǒng)已經(jīng)在北京大學(xué)“現(xiàn)代漢語語義詞典”的開發(fā)過程中發(fā)揮了重要作用,它有效地提高了詞典編纂的效率和質(zhì)量;同時,該項研究也是對漢語計算詞典學(xué)理論的一種有益探索。關(guān)鍵詞:詞典編纂詞典管理知識挖掘自動翻譯計算詞典學(xué)1.前言隨著自然語言處理技術(shù)的迅速發(fā)展,詞義分析的重要性與迫切性也為越來越突出。為了給計算機(jī)自動分析提供更全面、深入的語義信息,北京大學(xué)計算語言學(xué)研究所與中科院計算所自1994年聯(lián)合開發(fā)“漢英機(jī)器翻譯模型系統(tǒng)”開始,就著手研制面向漢英機(jī)器翻譯的“現(xiàn)代漢語語義詞典”。1996年至1998年,受到國家863高科技項目“通用機(jī)器翻譯開發(fā)平臺和漢英機(jī)器翻譯系統(tǒng)”的支持,語義詞典進(jìn)入到大規(guī)模開發(fā)階段,并取得重要的階段性成果,完成了4.9萬漢語詞語的語義分類和搭配信息描述[1]。四年多來,北京大學(xué)計算語言學(xué)研究所在積極應(yīng)用、推廣該詞典的同時,仍不斷地投入力量進(jìn)行詞典本身的發(fā)展。從2001年11月開始,“現(xiàn)代漢語語義詞典”的二期開發(fā)工作受到了國家973重點基礎(chǔ)研究項目(G1998030507-4、G1998030507-1)的支持,由北大計算語言學(xué)研究所和中文系聯(lián)合承擔(dān),對詞典規(guī)模進(jìn)行較大幅度的擴(kuò)充,并對全部詞語的語義分類及屬性描述進(jìn)行全面修訂。在雙方的積極努力下,項目進(jìn)展得非常順利。目前,現(xiàn)代漢語語義詞典的規(guī)模與質(zhì)量都有了顯著的提高,共收錄詞條6.6萬,采用Access數(shù)據(jù)庫實現(xiàn)。其中包含全部詞語的總庫1個,每類詞語各建一庫,計11個。每個庫文件都詳細(xì)刻畫了詞語及其語義屬性的二維關(guān)系。比如,總庫中包括詞語、拼音、同形、義項、語義類、詞類、子類、兼類8個屬性字段。名詞庫設(shè)15個屬性字段,動詞庫設(shè)16個屬性字段。所有的庫都可以通過“詞語、詞類、同形、義項”這4個關(guān)鍵字段進(jìn)行鏈接[2]?,F(xiàn)在,它正在一個漢英機(jī)器翻譯系統(tǒng)中發(fā)揮著重要的作用。在語義詞典的編纂修訂過程中,為了保證詞典內(nèi)容準(zhǔn)確可靠,有效地管理編纂人員,同時兼顧工程進(jìn)度,我們開發(fā)了一個計算機(jī)輔助詞典開發(fā)和管理系統(tǒng),用于詞典編輯、校訂、檢索、排序、檢測、自動翻譯、版本比較、任務(wù)管理等。本系統(tǒng)在Windows2000的操作系統(tǒng)下使用VisualC++6.0編寫、運(yùn)行,采用Access2000數(shù)據(jù)庫存儲詞典數(shù)據(jù)庫。系統(tǒng)的構(gòu)成主要包括以下4個子系統(tǒng):詞典編輯、自動檢測、自動翻譯、項目管理。2.詞典編輯(Dict_Edit)本子系統(tǒng)的主要任務(wù)是對數(shù)據(jù)庫格式的詞典文件進(jìn)行編輯(圖1)。首先,選中“編輯”菜單中的“排序”,可采用多種方式對詞典進(jìn)行排序和瀏覽。圖1語義詞典的形容詞(3)生成出錯報表自動檢測完成后,計算機(jī)將會提供一份完整的錯誤記錄,詳細(xì)列出以下5項錯誤的出現(xiàn)次數(shù)與詞條,以提醒編纂人員及時改正。語義類未填寫或無效名稱配價數(shù)的取值超過允許范圍配價數(shù)和“主體”、“對象”等字段配合錯誤詞語釋義未填寫例證未填寫3.2參照其它詞典進(jìn)行橫向檢測詞語的語義分類信息是現(xiàn)代漢語語義詞典的重點。在開發(fā)過程中,把現(xiàn)有詞典的語義分類情況自動提取出來,既可免去填寫人員手工檢閱工具書之苦,提高工作效率;而且還可自動檢查語義信息的填寫質(zhì)量。在“編輯”菜單中選取“詞典檢測輔助工具”,即可利用“同義詞詞林”[4]、“知網(wǎng)(HowNet)”[5]等詞典對語義類進(jìn)行檢測。比如,“罷工、罷課、罷市”在“知網(wǎng)”中屬于同一個語義小類,但語義詞典中卻分別歸入了“自變”、“自為”等不同的大類。這說明其中某個詞條的語義類很可能填寫錯誤,計算機(jī)就會把這一組詞集中起來,提交給編寫人員重新審查。4.自動翻譯(Dict_Translate)由于語義詞典是面向漢英機(jī)器翻譯系統(tǒng)開發(fā)的,因此,它不僅詳細(xì)刻畫了各種漢語語義信息,而且專門設(shè)立兩個字段“WORD1(英語譯文)”和“ECAT1(英語詞類)”。該項工作以前主要是依靠人工查閱參考書填寫,費時費力,而且容易出現(xiàn)錄入錯誤?,F(xiàn)在,借助于自動翻譯系統(tǒng),計算機(jī)可以從《漢英詞典》、《英漢大詞典》、《計算機(jī)詞典》等多種機(jī)器可讀的雙語詞典中進(jìn)行知識挖掘,自動提取英語譯文,預(yù)填“英語譯文”字段。然后,利用一個詞法分析器,在“英語詞類”字段中自動標(biāo)注詞性(圖4)。專業(yè)人員只需對翻譯結(jié)果進(jìn)行人工校訂即可。這樣,詞典的填寫工作實際上已轉(zhuǎn)變成了校訂工作,無疑可以較大程度地提高效率。圖4自動翻譯與詞性標(biāo)注結(jié)果(其中,A表示形容詞,C表示連詞,!表示短語的中心詞)5.版本比較(Dict_Compare)在大型詞典的編纂中,版本管理也是比較關(guān)鍵的一個環(huán)節(jié)。在開發(fā)過程中,由于詞典的屬性信息一直要不斷地維護(hù)和更新。通過版本比較,可以列出所有更改過的詞條和字段。這樣,校訂人員就可以全面掌握以前的各種修訂情況,及時發(fā)現(xiàn)并糾正各種錯誤,防止漏校。這對詞典的質(zhì)量保證顯然是非常重要的。本系統(tǒng)的版本比較是在以下兩個層次上進(jìn)行的:記錄的比較:清楚地顯示出哪些記錄是新增加的,哪些是被刪掉的。屬性值的比較:這是比較的重點。使用該軟件時,在編輯對話框中,各個字段屬性值的前后版本對比情況一目了然。如圖7所示,編輯框分為兩部分,左邊為當(dāng)前操作數(shù)據(jù)庫中可以填寫或修改的字段,而右邊灰色編輯框給出的是原版本中相應(yīng)的字段值,可供參考、比較,但不能改動。圖5版本比較工具版本比較工作完成后,計算機(jī)將輸出一份明細(xì)報告,包括以下六項統(tǒng)計數(shù)字與詳細(xì)的修改記錄:新填屬性值(空->非空)刪除屬性值(非空->空)屬性值變化(x->y)屬性值增加(x->uyv)屬性值減少(uxv->y)新增或刪除詞條6.詞典管理(Dict_Manage)本系統(tǒng)的任務(wù)是對整個詞典項目進(jìn)行任務(wù)管理、進(jìn)度管理與質(zhì)量管理,并對出現(xiàn)的問題進(jìn)行隨時監(jiān)控。利用圖6所示的管理軟件,詞典管理者可以很方便地根據(jù)不同條件分割任務(wù),也可以隨時合并不同的數(shù)據(jù)庫文件。比如,若要抽取語義詞典形容詞庫中序號為350-650的部分,只需在下圖中填上相應(yīng)的條件即可。圖6數(shù)據(jù)庫自動分割工具當(dāng)然,也可以直接點擊“分割詞典”按鈕,把數(shù)據(jù)庫平均分為若干份。對于校訂人員,還可選中“條件抽取”,把滿足一定的條件(比如首字或尾字相同,或者語義類相同、配價數(shù)相同、“主體”屬性值相同等等)的詞條抽取出來,集中檢查,以更好地保證校訂質(zhì)量與效率。各個編輯人員完成自己的任務(wù)以后,將填寫或校訂結(jié)果分別交給詞典管理者。利用管理軟件,我們還可以隨時把零散的庫文件合并在一起。這樣,不僅便于詞典管理,而且可進(jìn)行整體的一致性檢查,及時發(fā)現(xiàn)問題,統(tǒng)一改正,使詞典編纂總體上一直保持著較高的水平。7.結(jié)語詞典編纂是一項耗費巨量人力、物力、時間的語言工程。利用計算機(jī)輔助編輯與管理,不僅可以把人從繁瑣的重復(fù)勞動中解放出來,大幅度地提高編纂效率,而且避免了人的主觀因素,從而有效地提高詞典質(zhì)量,降低錯誤率,保證詞典信息具有更高的可靠性和一致性。本系統(tǒng)在“現(xiàn)代漢語語義詞典”開發(fā)過程中的成功應(yīng)用,有力地說明了這一點。我們將根據(jù)實際使用情況的不斷反饋,進(jìn)一步提高詞典輔助編輯與管理系統(tǒng)的性能,使其更為實用、好用。下一步的工作計劃是盡可能地提高本系統(tǒng)的通用性,使其不僅可用于語義詞典的輔助開發(fā),而且可以很方便地用于其他不同類型的詞典編纂。同時,我們也將在詞典編纂現(xiàn)代化和計算詞典學(xué)領(lǐng)域做出更多的探索,加強(qiáng)同各種語言資源(比如:詞典、大規(guī)模語料庫等)的動態(tài)鏈接,充分利用已有的語言知識提高詞典的編纂質(zhì)量,并自動引入每個詞條在真實語料中出現(xiàn)的典型用例。參考文獻(xiàn)[1]王惠,詹衛(wèi)東,劉群.現(xiàn)代漢語語義詞典的設(shè)計與概要.見:黃昌寧主編.1998中文信息處理國際會議論文集.北京:清華大學(xué)出版社.1998.361-367.[2]王惠,詹衛(wèi)東,俞士汶.現(xiàn)代漢語語義詞典規(guī)范.漢語語言與計算學(xué)報(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論