漢英機(jī)器翻譯擴(kuò)充詞典的建造_第1頁(yè)
漢英機(jī)器翻譯擴(kuò)充詞典的建造_第2頁(yè)
漢英機(jī)器翻譯擴(kuò)充詞典的建造_第3頁(yè)
漢英機(jī)器翻譯擴(kuò)充詞典的建造_第4頁(yè)
漢英機(jī)器翻譯擴(kuò)充詞典的建造_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、漢英機(jī)器翻譯擴(kuò)充詞典的建造摘要:本文首先介紹了我們?cè)凇懊嫦蛐侣勵(lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”中語(yǔ)言資源建設(shè)的總體框架,然后著重介紹了其中擴(kuò)充詞典的建設(shè)方法。擴(kuò)充詞典是相對(duì)于核心詞典而言的,特點(diǎn)是詞匯量大,每個(gè)詞的信息相對(duì)較少。擴(kuò)充詞典的建設(shè)包括以下幾個(gè)階段:收集;格式整理;詞條拆分;詞性標(biāo)記歸一化;詞性標(biāo)記補(bǔ)齊;詞條合并。實(shí)驗(yàn)結(jié)果表明,采用這種方法,利用較少的人工,就可以得到規(guī)模很大、并初步可用的雙語(yǔ)機(jī)器翻譯詞典,并且這部詞典可以大大減少翻譯中未定義詞的數(shù)量,提高翻譯的質(zhì)量。關(guān)鍵詞:機(jī)器翻譯,雙語(yǔ)詞典獲取引言現(xiàn)在的機(jī)器翻譯研究,從一種勞動(dòng)密集型的研究方式逐步過(guò)渡到了一種資源密集型的研究方式。這二者的

2、區(qū)別在于,在勞動(dòng)密集型的研究方式中,語(yǔ)言學(xué)家的工作是為某個(gè)具體的機(jī)器翻譯系統(tǒng)開(kāi)發(fā)詞典、規(guī)則庫(kù)等語(yǔ)言知識(shí)庫(kù),其工作依附于某個(gè)具體的機(jī)器翻譯系統(tǒng),不具有獨(dú)立性。而在資源密集型的研究方式中,語(yǔ)言學(xué)家和計(jì)算機(jī)工作者的分工更加明確。語(yǔ)言學(xué)家的研究成果以語(yǔ)言資源的形式呈現(xiàn)出來(lái),而不是僅僅為某一個(gè)機(jī)器翻譯系統(tǒng)服務(wù),其工作具有一定的獨(dú)立性。同時(shí),這種分工導(dǎo)致了語(yǔ)言資源的共享,也使得計(jì)算機(jī)工作者在算法的研究中對(duì)于語(yǔ)言資源的使用有了更廣泛的選擇余地。本文簡(jiǎn)要介紹了我們?cè)凇懊嫦蛐侣勵(lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”開(kāi)發(fā)過(guò)程中語(yǔ)言資源建設(shè)的總體規(guī)劃和實(shí)施情況,然后詳細(xì)介紹了其中一個(gè)子任務(wù)“擴(kuò)充詞典”建設(shè)的工作流程、算法設(shè)計(jì)、實(shí)

3、施過(guò)程和結(jié)果評(píng)價(jià)。1 語(yǔ)言資源建設(shè)的總體規(guī)劃我們?cè)凇懊嫦蛐侣勵(lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”的開(kāi)發(fā)過(guò)程中,非常重視語(yǔ)言資源的建設(shè)。我們建立了一套完整的,覆蓋語(yǔ)言知識(shí)各個(gè)層面的機(jī)器翻譯語(yǔ)言資源建設(shè)規(guī)范,并啟動(dòng)了一系列的語(yǔ)言資源建設(shè)子任務(wù)。這些子任務(wù)包括:1.1 漢語(yǔ)語(yǔ)義詞典子任務(wù):在原有語(yǔ)義詞典基礎(chǔ)上,完善規(guī)范、修改錯(cuò)誤、補(bǔ)充詞語(yǔ),構(gòu)造一部完整的機(jī)器翻譯用漢語(yǔ)語(yǔ)義詞典。目前此項(xiàng)工作正在進(jìn)行,目標(biāo)是將北京大學(xué)語(yǔ)法信息詞典中的七萬(wàn)多漢語(yǔ)詞語(yǔ)加入到語(yǔ)義詞典中;1.2 漢英擴(kuò)充詞典子任務(wù):在原有核心詞典的基礎(chǔ)上構(gòu)造一部機(jī)器翻譯用擴(kuò)充詞典,本文后面將詳細(xì)介紹;1.3 漢英短語(yǔ)庫(kù)子任務(wù):收集漢英對(duì)照的短語(yǔ),標(biāo)記出短

4、語(yǔ)結(jié)構(gòu)信息,此項(xiàng)工作已告一段落,目前收入短語(yǔ)5萬(wàn)余條;1.4 漢英雙語(yǔ)語(yǔ)料庫(kù)收集整理子任務(wù):收集、整理雙語(yǔ)語(yǔ)料庫(kù)、進(jìn)行格式整理、篇章標(biāo)注、篇章對(duì)齊,此項(xiàng)工作第一階段已經(jīng)完成,收錄大約100萬(wàn)漢字的漢英對(duì)照新聞?wù)Z料以及大量的其他類型語(yǔ)料,目前正在進(jìn)行第二階段工作;1.5 漢英雙語(yǔ)語(yǔ)料庫(kù)句子對(duì)齊子任務(wù):在篇章對(duì)齊語(yǔ)料庫(kù)基礎(chǔ)上,完成段落對(duì)齊和句子對(duì)齊,與上一個(gè)子任務(wù)一樣,第一階段已完成,完成了100萬(wàn)漢字的漢英對(duì)照新聞?wù)Z料的句子對(duì)齊(約4000句對(duì)),并整理其他類型句子對(duì)齊語(yǔ)料約18萬(wàn)句對(duì)。目前正在進(jìn)行第二階段工作;1.6 漢英雙語(yǔ)語(yǔ)料庫(kù)短語(yǔ)對(duì)齊子任務(wù):在句子對(duì)齊語(yǔ)料庫(kù)基礎(chǔ)上,完成子句、最長(zhǎng)名詞短語(yǔ)

5、、基本名詞短語(yǔ)以及其他一些特定類型短語(yǔ)的對(duì)齊,此項(xiàng)工作第一階段已經(jīng)完成,大約完成了3000漢英句對(duì)的短語(yǔ)對(duì)齊工作。第二階段還沒(méi)有開(kāi)始。$ 背*va v $=義項(xiàng):馱;負(fù)擔(dān),謂詞性主語(yǔ):no,系詞:no,助動(dòng)詞:no,趨向動(dòng)詞:no,補(bǔ)助動(dòng)詞:no,語(yǔ)義類:搬移,配價(jià)數(shù):2主體:語(yǔ)義類:人|動(dòng)物,客體:語(yǔ)義類:具體事物,處所:語(yǔ)義類:空間|集體= v $=vsubc:vo,vmorf:ireg,vd:bore,vn:borne,objtype:np*vb1 v $=義項(xiàng):向;避,謂詞性主語(yǔ):no,系詞:no,助動(dòng)詞:no,趨向動(dòng)詞:no,補(bǔ)助動(dòng)詞:no,語(yǔ)義類:自移|自為,配價(jià)數(shù):1主體:語(yǔ)義類

6、:人,客體:語(yǔ)義類:人類= d $=dvpre:no,dvend:yes,dadjv:no,dmorf:none= v( !v p n ) %v=vsubc:vi,vmorf:ireg,vd:did,vn:done*vb2 v $=義項(xiàng):誦,謂詞性主語(yǔ):no,系詞:no,助動(dòng)詞:no,趨向動(dòng)詞:no,補(bǔ)助動(dòng)詞:no,形式動(dòng)詞:no,語(yǔ)義類:對(duì)待,配價(jià)數(shù):2主體:語(yǔ)義類:人,客體:語(yǔ)義類:人為事物|抽象事物= v $=vsubc:vo,vmorf:regu,objtype:np|cs*n n $=名詞子類:na,前名:no,前動(dòng):no,后名:no,名狀語(yǔ):no,臨時(shí)量詞:no,語(yǔ)義類:構(gòu)件= n

7、 $=nsubc:ncont,gend:none圖1:核心詞典示例本文主要介紹其中的第二項(xiàng)子任務(wù):漢英擴(kuò)充詞典子任務(wù)。2 機(jī)器翻譯的詞典建設(shè)雙語(yǔ)詞典建設(shè)是機(jī)器翻譯系統(tǒng)開(kāi)發(fā)中的一個(gè)重要環(huán)節(jié)。常見(jiàn)的機(jī)器翻譯詞典開(kāi)發(fā)有以下幾種方法:1. 人工開(kāi)發(fā):組織人力物力,從頭開(kāi)始開(kāi)發(fā)。這種方法費(fèi)時(shí)費(fèi)力,但可以根據(jù)自己的需要任意裁減所需信息,易于和翻譯算法緊密結(jié)合;2. 利用已有的電子詞典資源:目前通過(guò)各種方式可以獲取的雙語(yǔ)電子詞典已有很多,通過(guò)對(duì)這些詞典進(jìn)行收集整理,可以得到機(jī)器翻譯用的雙語(yǔ)詞典。這種方法的優(yōu)點(diǎn)是可以充分利用已有資源,省時(shí)省力,缺點(diǎn)是各種不同來(lái)源的詞典格式、體例、屬性字段等都不一致,詞典質(zhì)量參

8、差不齊,整理加工比較麻煩;3. 從雙語(yǔ)語(yǔ)料庫(kù)中抽取詞典:在各種雙語(yǔ)對(duì)齊語(yǔ)料基礎(chǔ)上,利用統(tǒng)計(jì)方法,從中抽取雙語(yǔ)對(duì)照詞語(yǔ)。這種方法的優(yōu)點(diǎn)是直接從語(yǔ)料中抽取,可以學(xué)習(xí)到一些活的翻譯方法,而這些譯法很可能在詞典中是找不到的,特別適用于一些專業(yè)領(lǐng)域的詞典抽取,或新詞語(yǔ)的學(xué)習(xí)。不過(guò)這種方法依賴于學(xué)習(xí)算法的好壞,會(huì)產(chǎn)生很多垃圾信息,要得到高質(zhì)量的詞典也需要較多的人工校對(duì);學(xué)習(xí)到的詞典信息依賴于語(yǔ)料庫(kù),往往信息不夠全面,最好作為已有詞典的補(bǔ)充。在我們的漢英機(jī)器翻譯系統(tǒng)中,已經(jīng)有了一部核心機(jī)器翻譯詞典,這部詞典含漢語(yǔ)詞條(以詞形word type計(jì)算)約五萬(wàn),這部核心詞典含有豐富的詞法、句法、語(yǔ)義搭配信息如圖1

9、所示。這部詞典是采用上面所述的第一種方法,通過(guò)自己組織人力物力從頭開(kāi)發(fā)的。詞典采用文本形式存儲(chǔ),使用我們專門(mén)編寫(xiě)的詞典管理工具進(jìn)行管理。不過(guò),在面對(duì)真實(shí)的文本的時(shí)候,這個(gè)詞典的規(guī)模就顯得有點(diǎn)太小了,遠(yuǎn)遠(yuǎn)不能滿足實(shí)際翻譯的需要。在我們的新版本機(jī)器翻譯系統(tǒng)中使用了一個(gè)獨(dú)立的分詞程序,而這個(gè)分詞程序所用的分詞詞典就有詞語(yǔ)8萬(wàn)多條,這樣就導(dǎo)致很多分詞程序切分出的詞語(yǔ)無(wú)法翻譯。面對(duì)這種情況,我們決定采用上述的第二種方法,構(gòu)造一部擴(kuò)充的漢英機(jī)器翻譯詞典。3 擴(kuò)充詞典的收集與整理3.1 擴(kuò)充詞典的目標(biāo)擴(kuò)充詞典(下面我們又稱目標(biāo)詞典)應(yīng)該滿足以下三方面要求:1. 面向通用領(lǐng)域:擴(kuò)充詞典不是專業(yè)詞典,不應(yīng)該收入

10、專業(yè)性太強(qiáng)的詞語(yǔ);2. 詞匯量足夠大:擴(kuò)充詞典的詞匯量不應(yīng)太少,按照我們事先的估計(jì),至少應(yīng)達(dá)到2030萬(wàn)詞對(duì)的數(shù)量級(jí);3. 每個(gè)詞對(duì)的信息雖然不必像核心詞典那么豐富,至少應(yīng)該含有以下幾個(gè)字段: 漢語(yǔ)詞語(yǔ)、漢語(yǔ)詞性、英語(yǔ)詞語(yǔ)、英語(yǔ)詞性、置信度而且漢語(yǔ)詞性和英語(yǔ)詞性的標(biāo)記集應(yīng)該與核心詞典一致。我們稱之為一個(gè)五元組。4. 通過(guò)在多部詞典中出現(xiàn)的頻次的統(tǒng)計(jì),也可以得到雙語(yǔ)詞對(duì)的置信度信息。這種置信度信息雖然不是直接從雙語(yǔ)語(yǔ)料庫(kù)統(tǒng)計(jì)得到的,但也有一定的概率意義。詞典在收集過(guò)程中采用數(shù)據(jù)庫(kù)進(jìn)行管理,這樣便于利用成熟的數(shù)據(jù)庫(kù)管理工具進(jìn)行操作。最后得到的詞典再通過(guò)文本形式提交給翻譯程序,由翻譯程序建立索引、進(jìn)

11、行查詢。3.2 擴(kuò)充詞典的收集確定了目標(biāo)以后,我們開(kāi)始從各種途徑收集一些的英漢和漢英詞典,加上我們?cè)鹊囊恍┓e累,總共得到6部電子版的詞典,本文把這六部詞典稱為原始詞典。這些詞典的總體情況如下表所示:詞典方向規(guī)模類型a英漢12萬(wàn)詞對(duì)背單詞軟件(各類大中學(xué)學(xué)英語(yǔ)課本、英語(yǔ)學(xué)習(xí)類書(shū)籍共30余本)b漢英18萬(wàn)詞對(duì)書(shū)面詞典c漢英17萬(wàn)詞對(duì)書(shū)面詞典d漢英12萬(wàn)詞對(duì)網(wǎng)絡(luò)詞典e漢英8萬(wàn)詞對(duì)網(wǎng)絡(luò)詞典f漢英693詞對(duì)一些常用新詞語(yǔ)表1:擴(kuò)充詞典的來(lái)源3.3 擴(kuò)充詞典的整理利用原始詞典并不能通過(guò)簡(jiǎn)單合并得到所需的擴(kuò)充詞典。由于詞典來(lái)源不一,導(dǎo)致了很多問(wèn)題。其中的主要問(wèn)題包括:l 格式不一致:由于詞典來(lái)源不一,格式

12、、體例都不一致,有的格式比較規(guī)整,有的就比較混亂;l 錄入排版錯(cuò)誤和格式錯(cuò)誤:錄入、排版、格式方面的錯(cuò)誤很多,需要認(rèn)真清理;l 詞性標(biāo)記不一致:每部詞典的詞性標(biāo)記都不一致,而且都與核心詞典的詞性標(biāo)記不一致;l 詞性標(biāo)記不完整:很多詞典甚至沒(méi)有詞性標(biāo)記??梢钥吹皆荚~典面臨的問(wèn)題是非常雜亂的,由于數(shù)量巨大,如果都采用人工校對(duì)的方法,人力、物力的消耗都是難以承受的。為此我們主要采用了人機(jī)互助的辦法,以自動(dòng)處理為主,對(duì)于一些自動(dòng)處理無(wú)法解決的問(wèn)題,輔以人工校對(duì)。實(shí)踐證明,這種方法是成功的,我們只采用了較少的人工校對(duì),就得到了一部規(guī)模較大、初步可用的機(jī)器翻譯擴(kuò)充詞典。擴(kuò)充詞典的整理按照以下幾個(gè)步驟進(jìn)行

13、:1. 詞條拆分:由于我們的目標(biāo)詞典的每個(gè)詞條是一個(gè)五元組(漢語(yǔ)詞語(yǔ),漢語(yǔ)詞性,英語(yǔ)詞語(yǔ),英語(yǔ)詞性,置信度),而原始詞典中,往往是將一個(gè)源語(yǔ)言詞語(yǔ)解釋成詞性相同或不同的多個(gè)目標(biāo)語(yǔ)詞語(yǔ),因此需要將一個(gè)原始詞典的詞條拆分成一個(gè)或多個(gè)目標(biāo)詞典的詞條。通過(guò)詞條拆分,詞典就可以裝入數(shù)據(jù)庫(kù)中,后續(xù)的步驟都是在數(shù)據(jù)庫(kù)上面進(jìn)行操作。2. 格式整理:原始詞典中存在大量的格式錯(cuò)誤,需要校正,還有很多的附加信息(如領(lǐng)域信息、解釋性信息)需要濾掉。3. 詞性標(biāo)記歸一化:由于每部原始詞典的詞性標(biāo)記信息都不一致,而且與核心詞典的詞性標(biāo)記也不一致,因此要將原始詞典的詞性標(biāo)記映射到核心詞典的詞性標(biāo)記;4. 詞性標(biāo)記補(bǔ)齊:由于

14、原始詞典中很多詞沒(méi)有詞性標(biāo)記,而目標(biāo)詞典中所有詞條(五元組)都必須有完整的詞性標(biāo)記,因此對(duì)于原始詞典中缺少的詞性標(biāo)記要補(bǔ)上,并給出置信度信息;5. 詞條合并:將來(lái)自不同原始詞典的相同詞條合并為一個(gè)詞條,同時(shí)將置信度求和。在詞典整理過(guò)程中,必然設(shè)計(jì)一個(gè)人工校對(duì)的問(wèn)題,如何實(shí)現(xiàn)人機(jī)互助的校對(duì)?如何用最少的人力、快速有效并且高質(zhì)量的完成以上工作,是這項(xiàng)工作的一個(gè)關(guān)鍵。我們把握的原則是:能夠用機(jī)器做的事盡量不用人做;通過(guò)計(jì)算機(jī)程序,將無(wú)法由人工完成的復(fù)雜的校對(duì)工作分解成很多非常單一的校對(duì)任務(wù),以盡可能地提高校對(duì)的質(zhì)量和效率。在我們的實(shí)際工作中,由于時(shí)間的限制,我們只在上述的第一步和第二步(詞條拆分和格

15、式整理)完成了人工校對(duì),后面幾步都是全自動(dòng)進(jìn)行的。雖然這免不了有很多錯(cuò)誤,不過(guò)總體上詞典還是可用的,而且概率信息的引入,也使得這些錯(cuò)誤的影響降低到很低的程度。下面我們分別就以上五個(gè)步驟介紹我們的具體做法。3.3.1 詞條拆分原始詞典的詞條可能是以下形式:complex=a. 復(fù)雜的, n. 復(fù)合體;綜合建筑通過(guò)詞條拆分,要變成以下形式:漢語(yǔ)詞條漢語(yǔ)詞性英語(yǔ)詞條英語(yǔ)詞性復(fù)雜的plex復(fù)合體plex綜合建筑plex當(dāng)然,實(shí)際操作并不這么簡(jiǎn)單,會(huì)遇到很多復(fù)雜的格式問(wèn)題,有時(shí)還需要引入人工校對(duì)。通過(guò)這種方式,將原始詞典從文本形式轉(zhuǎn)換成了數(shù)據(jù)庫(kù)形式,便于后面的進(jìn)一步處理。3

16、.3.2 格式整理寫(xiě)入.ykh文件省略號(hào)自動(dòng)處理或嗎?寫(xiě)入.slh文件輸出結(jié)果人工校對(duì)人工校對(duì)人工校對(duì)寫(xiě)入.fkh文件寫(xiě)入.err文件圓括號(hào)自動(dòng)處理(或)嗎?人工校對(duì)其他錯(cuò)誤處理待整理詞典文件(.txt文件)方括號(hào)自動(dòng)處理圖2:詞典格式整理過(guò)程示例失敗失敗失敗失敗成功成功成功成功每一部原始詞典的格式都不相同,所以處理的方法也不盡相同。圖2是其中一部詞典的格式處理過(guò)程。這種做法的好處有兩點(diǎn):1.自動(dòng)處理階段處理了大部分的格式問(wèn)題。比如方括號(hào)的處理,很大一部分的方括號(hào)都是領(lǐng)域信息,而領(lǐng)域信息的種類是有限的,只要把表示領(lǐng)域信息的方括號(hào)處理好,剩下需要人工校對(duì)的工作量就很小了;2.通過(guò)這種逐級(jí)處理的方

17、式,每一次人工校對(duì)的工作都變得非常單一,這一方面減輕了校對(duì)者在工作中的大腦思維活動(dòng)的負(fù)擔(dān),使得校對(duì)國(guó)內(nèi)工作的速度和質(zhì)量都有所提高,同時(shí)也使得校對(duì)的工作量計(jì)算更為合理,有利于控制成本。3.3.3 詞性標(biāo)記歸一化要為每一步原始詞典的詞性標(biāo)記建立到核心詞典的詞性標(biāo)記之間的映射關(guān)系。這樣,絕大部分詞性標(biāo)記歸一化工作可以自動(dòng)完成。個(gè)別情況需要人工校對(duì)(暫時(shí)沒(méi)做)。3.3.4 詞性標(biāo)記補(bǔ)齊原始詞典中,很多詞語(yǔ)都沒(méi)有標(biāo)記詞性。英漢詞典中,漢語(yǔ)詞語(yǔ)沒(méi)有標(biāo)注詞性。漢英詞典中,幾乎都沒(méi)有任何詞性信息。所以,詞性標(biāo)記補(bǔ)齊是一件非常重要的工作。詞性補(bǔ)齊需要用到兩部(源語(yǔ)言和目標(biāo)語(yǔ)言)帶詞性標(biāo)注的單語(yǔ)詞典。這兩部單語(yǔ)詞

18、典的來(lái)源除了已經(jīng)整理的原始詞典以外,還利用了機(jī)器翻譯系統(tǒng)的核心詞典。另外,需要用到一個(gè)雙語(yǔ)詞性對(duì)照表,也就是說(shuō),對(duì)于源語(yǔ)或譯語(yǔ)的每一種詞性,要給出其最可能的對(duì)譯詞性。這個(gè)表根據(jù)語(yǔ)言知識(shí)很容易構(gòu)造。算法1:詞性補(bǔ)齊算法1 如果一種語(yǔ)言詞語(yǔ)a詞性已知,另一種語(yǔ)言詞語(yǔ)b詞性未知:a) 按照算法2或者算法3,判斷詞語(yǔ)b的詞性;b) 如果詞語(yǔ)b有多個(gè)詞性i. 如果詞語(yǔ)b的詞性中有與詞語(yǔ)a的詞性對(duì)應(yīng)的詞性,那么只保留這種詞性,刪除詞語(yǔ)b的其他詞性,生成一個(gè)五元組,置信度為1;ii. 否則保留詞語(yǔ)b的所有詞性,將該五元組拆分成多個(gè)五元組,這些五元組的置信度都是1/n,n為b的詞性個(gè)數(shù);c) 如果詞語(yǔ)b只有一

19、個(gè)詞性,那么生成一個(gè)五元組,置信度為1;d) 如果詞語(yǔ)b的詞性沒(méi)有判斷出來(lái),將詞語(yǔ)b的詞性設(shè)置成與詞語(yǔ)a的詞性相對(duì)應(yīng)的詞性,生成一個(gè)五元組,置信度為0.5;2 如果雙語(yǔ)詞性都未知:a) 首先分別使用算法2和算法3,判斷兩個(gè)詞的詞性;b) 如果兩個(gè)詞語(yǔ)的詞性都已判斷出來(lái)i. 如果兩個(gè)詞的詞性中有些詞性組合滿足對(duì)應(yīng)關(guān)系,那么只保留這些詞性組合,生成相應(yīng)的五元組,刪除其他詞性,生成的五元組置信度為1;ii. 如果兩個(gè)詞的詞性中沒(méi)有詞性組合滿足對(duì)應(yīng)關(guān)系,那么都保留,兩兩對(duì)應(yīng)生成五元組,這些五元組置信度為1/n,其中n為五元組的個(gè)數(shù);c) 如果只判斷出一個(gè)詞的詞性,那么將另一個(gè)詞的詞性設(shè)置為已知詞性的對(duì)

20、應(yīng)詞性,生成相應(yīng)的五元組,置信度均為0.5;d) 如果兩個(gè)詞語(yǔ)都無(wú)法判斷出詞性,一律標(biāo)為名詞,生成五元組置信度為0.1。在得到兩部單語(yǔ)詞典以后,對(duì)于每一個(gè)五元組,如果沒(méi)有詞性缺失,那么設(shè)置其置信度為1,如果有詞性缺失,那么利用以下算法進(jìn)行詞性補(bǔ)齊并計(jì)算置信度:1. 查單語(yǔ)詞典,如果查到則返回成功;2. 按照以下規(guī)則判斷漢語(yǔ)詞性:a) 尾字為“的”=形容詞b) 3. 如果判斷出漢語(yǔ)詞性,返回成功,否則返回失??;算法2:漢語(yǔ)詞性判斷算法1. 查單語(yǔ)詞典,如果查到則返回成功;2. 按照以下規(guī)則判斷英語(yǔ)詞性:a) 首字母大寫(xiě)=專有名詞b) 如果是單詞=根據(jù)詞綴判斷c) 如果是短語(yǔ)=根據(jù)首單詞判斷i.

21、首單詞是冠詞=名詞短語(yǔ)ii. 首單詞是不定式to=動(dòng)詞短語(yǔ)iii. 首單詞是動(dòng)詞=動(dòng)詞短語(yǔ)iv. 首單詞是介詞=介詞短語(yǔ)d) 3. 如果判斷出英語(yǔ)詞性,返回成功,否則返回失??;算法3:英語(yǔ)詞性判斷算法3.3.5 詞條合并最后一個(gè)步驟是詞條合并。詞條合并就是將漢語(yǔ)詞語(yǔ)、漢語(yǔ)詞性、英語(yǔ)詞語(yǔ)、英語(yǔ)詞性相同的五元組合并成一個(gè)五元組,其置信度是被合并的所有五元組的置信度之和。3.4 輸出結(jié)果詞條合并之前,共有681,676個(gè)詞條(五元組)。詞條合并之后,還有494,861個(gè)詞條。其中,不考慮詞性,漢英詞對(duì)大約有約41萬(wàn),單獨(dú)計(jì)算漢語(yǔ)詞形和英語(yǔ)詞性,分別有大約21萬(wàn)。最后得到的詞典,從直觀上看,質(zhì)量還是可以接受的,以下

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論