大型詞典編纂的計(jì)算機(jī)輔助開(kāi)發(fā)與管理系統(tǒng)_第1頁(yè)
大型詞典編纂的計(jì)算機(jī)輔助開(kāi)發(fā)與管理系統(tǒng)_第2頁(yè)
大型詞典編纂的計(jì)算機(jī)輔助開(kāi)發(fā)與管理系統(tǒng)_第3頁(yè)
大型詞典編纂的計(jì)算機(jī)輔助開(kāi)發(fā)與管理系統(tǒng)_第4頁(yè)
大型詞典編纂的計(jì)算機(jī)輔助開(kāi)發(fā)與管理系統(tǒng)_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

PAGE4《辭書(shū)研究》投稿03-92退修大型詞典編纂的計(jì)算機(jī)輔助開(kāi)發(fā)與管理系統(tǒng)本研究得到國(guó)家863項(xiàng)目“語(yǔ)言資源建設(shè)及相關(guān)研究探索”(項(xiàng)目號(hào):2002AA117010-08)與國(guó)家973重點(diǎn)基礎(chǔ)研究項(xiàng)目“面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”(項(xiàng)目號(hào):G1998030507-4)的支持。王惠李康年摘要:詞典編纂是一項(xiàng)需要投入大量人力、物力、財(cái)力的大型語(yǔ)言工程。由于詞典包含的信息量巨大,開(kāi)發(fā)周期長(zhǎng),編纂人員多,工程項(xiàng)目所要求的進(jìn)度與詞典的質(zhì)量保證都是非常關(guān)鍵的問(wèn)題。為此,我們?cè)O(shè)計(jì)并實(shí)現(xiàn)了一個(gè)詞典編纂的計(jì)算機(jī)輔助開(kāi)發(fā)與管理系統(tǒng)。該系統(tǒng)已經(jīng)在北京大學(xué)“現(xiàn)代漢語(yǔ)語(yǔ)義詞典”的開(kāi)發(fā)過(guò)程中發(fā)揮了重要作用,它有效地提高了詞典編纂的效率和質(zhì)量;同時(shí),該項(xiàng)研究也是對(duì)漢語(yǔ)計(jì)算詞典學(xué)理論的一種有益探索。關(guān)鍵詞:詞典編纂詞典管理知識(shí)挖掘自動(dòng)翻譯計(jì)算詞典學(xué)1.前言隨著自然語(yǔ)言處理技術(shù)的迅速發(fā)展,詞義分析的重要性與迫切性也為越來(lái)越突出。為了給計(jì)算機(jī)自動(dòng)分析提供更全面、深入的語(yǔ)義信息,北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所與中科院計(jì)算所自1994年聯(lián)合開(kāi)發(fā)“漢英機(jī)器翻譯模型系統(tǒng)”開(kāi)始,就著手研制面向漢英機(jī)器翻譯的“現(xiàn)代漢語(yǔ)語(yǔ)義詞典”。1996年至1998年,受到國(guó)家863高科技項(xiàng)目“通用機(jī)器翻譯開(kāi)發(fā)平臺(tái)和漢英機(jī)器翻譯系統(tǒng)”的支持,語(yǔ)義詞典進(jìn)入到大規(guī)模開(kāi)發(fā)階段,并取得重要的階段性成果,完成了4.9萬(wàn)漢語(yǔ)詞語(yǔ)的語(yǔ)義分類(lèi)和搭配信息描述[1]。四年多來(lái),北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所在積極應(yīng)用、推廣該詞典的同時(shí),仍不斷地投入力量進(jìn)行詞典本身的發(fā)展。從2001年11月開(kāi)始,“現(xiàn)代漢語(yǔ)語(yǔ)義詞典”的二期開(kāi)發(fā)工作受到了國(guó)家973重點(diǎn)基礎(chǔ)研究項(xiàng)目(G1998030507-4、G1998030507-1)的支持,由北大計(jì)算語(yǔ)言學(xué)研究所和中文系聯(lián)合承擔(dān),對(duì)詞典規(guī)模進(jìn)行較大幅度的擴(kuò)充,并對(duì)全部詞語(yǔ)的語(yǔ)義分類(lèi)及屬性描述進(jìn)行全面修訂。在雙方的積極努力下,項(xiàng)目進(jìn)展得非常順利。目前,現(xiàn)代漢語(yǔ)語(yǔ)義詞典的規(guī)模與質(zhì)量都有了顯著的提高,共收錄詞條6.6萬(wàn),采用Access數(shù)據(jù)庫(kù)實(shí)現(xiàn)。其中包含全部詞語(yǔ)的總庫(kù)1個(gè),每類(lèi)詞語(yǔ)各建一庫(kù),計(jì)11個(gè)。每個(gè)庫(kù)文件都詳細(xì)刻畫(huà)了詞語(yǔ)及其語(yǔ)義屬性的二維關(guān)系。比如,總庫(kù)中包括詞語(yǔ)、拼音、同形、義項(xiàng)、語(yǔ)義類(lèi)、詞類(lèi)、子類(lèi)、兼類(lèi)8個(gè)屬性字段。名詞庫(kù)設(shè)15個(gè)屬性字段,動(dòng)詞庫(kù)設(shè)16個(gè)屬性字段。所有的庫(kù)都可以通過(guò)“詞語(yǔ)、詞類(lèi)、同形、義項(xiàng)”這4個(gè)關(guān)鍵字段進(jìn)行鏈接[2]?,F(xiàn)在,它正在一個(gè)漢英機(jī)器翻譯系統(tǒng)中發(fā)揮著重要的作用。在語(yǔ)義詞典的編纂修訂過(guò)程中,為了保證詞典內(nèi)容準(zhǔn)確可靠,有效地管理編纂人員,同時(shí)兼顧工程進(jìn)度,我們開(kāi)發(fā)了一個(gè)計(jì)算機(jī)輔助詞典開(kāi)發(fā)和管理系統(tǒng),用于詞典編輯、校訂、檢索、排序、檢測(cè)、自動(dòng)翻譯、版本比較、任務(wù)管理等。本系統(tǒng)在Windows2000的操作系統(tǒng)下使用VisualC++6.0編寫(xiě)、運(yùn)行,采用Access2000數(shù)據(jù)庫(kù)存儲(chǔ)詞典數(shù)據(jù)庫(kù)。系統(tǒng)的構(gòu)成主要包括以下4個(gè)子系統(tǒng):詞典編輯、自動(dòng)檢測(cè)、自動(dòng)翻譯、項(xiàng)目管理。2.詞典編輯(Dict_Edit)本子系統(tǒng)的主要任務(wù)是對(duì)數(shù)據(jù)庫(kù)格式的詞典文件進(jìn)行編輯(圖1)。首先,選中“編輯”菜單中的“排序”,可采用多種方式對(duì)詞典進(jìn)行排序和瀏覽。圖1語(yǔ)義詞典的形容詞(3)生成出錯(cuò)報(bào)表自動(dòng)檢測(cè)完成后,計(jì)算機(jī)將會(huì)提供一份完整的錯(cuò)誤記錄,詳細(xì)列出以下5項(xiàng)錯(cuò)誤的出現(xiàn)次數(shù)與詞條,以提醒編纂人員及時(shí)改正。語(yǔ)義類(lèi)未填寫(xiě)或無(wú)效名稱(chēng)配價(jià)數(shù)的取值超過(guò)允許范圍配價(jià)數(shù)和“主體”、“對(duì)象”等字段配合錯(cuò)誤詞語(yǔ)釋義未填寫(xiě)例證未填寫(xiě)3.2參照其它詞典進(jìn)行橫向檢測(cè)詞語(yǔ)的語(yǔ)義分類(lèi)信息是現(xiàn)代漢語(yǔ)語(yǔ)義詞典的重點(diǎn)。在開(kāi)發(fā)過(guò)程中,把現(xiàn)有詞典的語(yǔ)義分類(lèi)情況自動(dòng)提取出來(lái),既可免去填寫(xiě)人員手工檢閱工具書(shū)之苦,提高工作效率;而且還可自動(dòng)檢查語(yǔ)義信息的填寫(xiě)質(zhì)量。在“編輯”菜單中選取“詞典檢測(cè)輔助工具”,即可利用“同義詞詞林”[4]、“知網(wǎng)(HowNet)”[5]等詞典對(duì)語(yǔ)義類(lèi)進(jìn)行檢測(cè)。比如,“罷工、罷課、罷市”在“知網(wǎng)”中屬于同一個(gè)語(yǔ)義小類(lèi),但語(yǔ)義詞典中卻分別歸入了“自變”、“自為”等不同的大類(lèi)。這說(shuō)明其中某個(gè)詞條的語(yǔ)義類(lèi)很可能填寫(xiě)錯(cuò)誤,計(jì)算機(jī)就會(huì)把這一組詞集中起來(lái),提交給編寫(xiě)人員重新審查。4.自動(dòng)翻譯(Dict_Translate)由于語(yǔ)義詞典是面向漢英機(jī)器翻譯系統(tǒng)開(kāi)發(fā)的,因此,它不僅詳細(xì)刻畫(huà)了各種漢語(yǔ)語(yǔ)義信息,而且專(zhuān)門(mén)設(shè)立兩個(gè)字段“WORD1(英語(yǔ)譯文)”和“ECAT1(英語(yǔ)詞類(lèi))”。該項(xiàng)工作以前主要是依靠人工查閱參考書(shū)填寫(xiě),費(fèi)時(shí)費(fèi)力,而且容易出現(xiàn)錄入錯(cuò)誤?,F(xiàn)在,借助于自動(dòng)翻譯系統(tǒng),計(jì)算機(jī)可以從《漢英詞典》、《英漢大詞典》、《計(jì)算機(jī)詞典》等多種機(jī)器可讀的雙語(yǔ)詞典中進(jìn)行知識(shí)挖掘,自動(dòng)提取英語(yǔ)譯文,預(yù)填“英語(yǔ)譯文”字段。然后,利用一個(gè)詞法分析器,在“英語(yǔ)詞類(lèi)”字段中自動(dòng)標(biāo)注詞性(圖4)。專(zhuān)業(yè)人員只需對(duì)翻譯結(jié)果進(jìn)行人工校訂即可。這樣,詞典的填寫(xiě)工作實(shí)際上已轉(zhuǎn)變成了校訂工作,無(wú)疑可以較大程度地提高效率。圖4自動(dòng)翻譯與詞性標(biāo)注結(jié)果(其中,A表示形容詞,C表示連詞,!表示短語(yǔ)的中心詞)5.版本比較(Dict_Compare)在大型詞典的編纂中,版本管理也是比較關(guān)鍵的一個(gè)環(huán)節(jié)。在開(kāi)發(fā)過(guò)程中,由于詞典的屬性信息一直要不斷地維護(hù)和更新。通過(guò)版本比較,可以列出所有更改過(guò)的詞條和字段。這樣,校訂人員就可以全面掌握以前的各種修訂情況,及時(shí)發(fā)現(xiàn)并糾正各種錯(cuò)誤,防止漏校。這對(duì)詞典的質(zhì)量保證顯然是非常重要的。本系統(tǒng)的版本比較是在以下兩個(gè)層次上進(jìn)行的:記錄的比較:清楚地顯示出哪些記錄是新增加的,哪些是被刪掉的。屬性值的比較:這是比較的重點(diǎn)。使用該軟件時(shí),在編輯對(duì)話(huà)框中,各個(gè)字段屬性值的前后版本對(duì)比情況一目了然。如圖7所示,編輯框分為兩部分,左邊為當(dāng)前操作數(shù)據(jù)庫(kù)中可以填寫(xiě)或修改的字段,而右邊灰色編輯框給出的是原版本中相應(yīng)的字段值,可供參考、比較,但不能改動(dòng)。圖5版本比較工具版本比較工作完成后,計(jì)算機(jī)將輸出一份明細(xì)報(bào)告,包括以下六項(xiàng)統(tǒng)計(jì)數(shù)字與詳細(xì)的修改記錄:新填屬性值(空->非空)刪除屬性值(非空->空)屬性值變化(x->y)屬性值增加(x->uyv)屬性值減少(uxv->y)新增或刪除詞條6.詞典管理(Dict_Manage)本系統(tǒng)的任務(wù)是對(duì)整個(gè)詞典項(xiàng)目進(jìn)行任務(wù)管理、進(jìn)度管理與質(zhì)量管理,并對(duì)出現(xiàn)的問(wèn)題進(jìn)行隨時(shí)監(jiān)控。利用圖6所示的管理軟件,詞典管理者可以很方便地根據(jù)不同條件分割任務(wù),也可以隨時(shí)合并不同的數(shù)據(jù)庫(kù)文件。比如,若要抽取語(yǔ)義詞典形容詞庫(kù)中序號(hào)為350-650的部分,只需在下圖中填上相應(yīng)的條件即可。圖6數(shù)據(jù)庫(kù)自動(dòng)分割工具當(dāng)然,也可以直接點(diǎn)擊“分割詞典”按鈕,把數(shù)據(jù)庫(kù)平均分為若干份。對(duì)于校訂人員,還可選中“條件抽取”,把滿(mǎn)足一定的條件(比如首字或尾字相同,或者語(yǔ)義類(lèi)相同、配價(jià)數(shù)相同、“主體”屬性值相同等等)的詞條抽取出來(lái),集中檢查,以更好地保證校訂質(zhì)量與效率。各個(gè)編輯人員完成自己的任務(wù)以后,將填寫(xiě)或校訂結(jié)果分別交給詞典管理者。利用管理軟件,我們還可以隨時(shí)把零散的庫(kù)文件合并在一起。這樣,不僅便于詞典管理,而且可進(jìn)行整體的一致性檢查,及時(shí)發(fā)現(xiàn)問(wèn)題,統(tǒng)一改正,使詞典編纂總體上一直保持著較高的水平。7.結(jié)語(yǔ)詞典編纂是一項(xiàng)耗費(fèi)巨量人力、物力、時(shí)間的語(yǔ)言工程。利用計(jì)算機(jī)輔助編輯與管理,不僅可以把人從繁瑣的重復(fù)勞動(dòng)中解放出來(lái),大幅度地提高編纂效率,而且避免了人的主觀(guān)因素,從而有效地提高詞典質(zhì)量,降低錯(cuò)誤率,保證詞典信息具有更高的可靠性和一致性。本系統(tǒng)在“現(xiàn)代漢語(yǔ)語(yǔ)義詞典”開(kāi)發(fā)過(guò)程中的成功應(yīng)用,有力地說(shuō)明了這一點(diǎn)。我們將根據(jù)實(shí)際使用情況的不斷反饋,進(jìn)一步提高詞典輔助編輯與管理系統(tǒng)的性能,使其更為實(shí)用、好用。下一步的工作計(jì)劃是盡可能地提高本系統(tǒng)的通用性,使其不僅可用于語(yǔ)義詞典的輔助開(kāi)發(fā),而且可以很方便地用于其他不同類(lèi)型的詞典編纂。同時(shí),我們也將在詞典編纂現(xiàn)代化和計(jì)算詞典學(xué)領(lǐng)域做出更多的探索,加強(qiáng)同各種語(yǔ)言資源(比如:詞典、大規(guī)模語(yǔ)料庫(kù)等)的動(dòng)態(tài)鏈接,充分利用已有的語(yǔ)言知識(shí)提高詞典的編纂質(zhì)量,并自動(dòng)引入每個(gè)詞條在真實(shí)語(yǔ)料中出現(xiàn)的典型用例。參考文獻(xiàn)[1]王惠,詹衛(wèi)東,劉群.現(xiàn)代漢語(yǔ)語(yǔ)義詞典的設(shè)計(jì)與概要.見(jiàn):黃昌寧主編.1998中文信息處理國(guó)際會(huì)議論文集.北京:清華大學(xué)出版社.1998.361-367.[2]王惠,詹衛(wèi)東,俞士汶.現(xiàn)代漢語(yǔ)語(yǔ)義詞典規(guī)范.漢語(yǔ)語(yǔ)言與計(jì)算學(xué)報(bào)(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論