單詞與詞組分析_第1頁(yè)
單詞與詞組分析_第2頁(yè)
單詞與詞組分析_第3頁(yè)
單詞與詞組分析_第4頁(yè)
單詞與詞組分析_第5頁(yè)
已閱讀5頁(yè),還剩81頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能與機(jī)器翻譯

單詞與詞組分析

主講:楊憲澤

第5章單詞與詞組的處理與分析

第5章單詞與詞組的處理與分析

對(duì)于機(jī)器翻譯研究來(lái)說(shuō),本章的第一任務(wù)是要建立語(yǔ)言的

機(jī)器詞典,這一機(jī)器詞典是多語(yǔ)言的。例如各自的藏,英,漢語(yǔ)

機(jī)器詞庫(kù)。

單詞與詞組的處理與分析,對(duì)于漢語(yǔ)來(lái)說(shuō),首先必須要進(jìn)行

單詞的自動(dòng)切分。自動(dòng)切分歧義部分是解決的難點(diǎn),不但可能

用到規(guī)則推理,而且還可能用到語(yǔ)法分析,語(yǔ)義用分析,更詳細(xì)

的過(guò)程可以結(jié)合第六章等一起研究。

詞語(yǔ)分類(lèi)和兼類(lèi)的分析與處理是本章研究的又一重點(diǎn)。

本章的最后將研究詞處理的一些細(xì)節(jié)問(wèn)題。

-0^^第5章單詞與詞組的處理與分析

5.1機(jī)器詞典概述

人工翻譯離不開(kāi)詞典,當(dāng)然,機(jī)器翻譯也離

不開(kāi)機(jī)器詞典。機(jī)器詞典也被稱(chēng)為電子詞典,簡(jiǎn)

稱(chēng)詞典。機(jī)器詞典的作用在機(jī)器翻譯中是最重要

的,因?yàn)樽鋈魏螜C(jī)器翻譯工作都必須通過(guò)查機(jī)器

詞典來(lái)得到相關(guān)的翻譯元素---單詞和詞組。如何

有效的組織、建立機(jī)器詞典,如何更好地利用機(jī)

器詞典中包含的各種知識(shí),是一個(gè)值得深入研究

的課題。

第5章單詞與詞組的處理與分析

5.1.1基于分析和轉(zhuǎn)換的機(jī)器翻譯方法

機(jī)器詞典的作用:

(1)機(jī)器詞典的好壞是更好的實(shí)現(xiàn)實(shí)用化機(jī)器翻譯系統(tǒng)軟件的障礙之一?,F(xiàn)

有的一些機(jī)器翻譯系統(tǒng)在達(dá)到實(shí)用化階段時(shí)往往因?yàn)闄C(jī)器詞典規(guī)模的限制阻礙了

性能的進(jìn)一步提高。因?yàn)檎Z(yǔ)言詞匯是一個(gè)開(kāi)放的集合,無(wú)論建立多么龐大的詞

典,都不可能窮舉所有的詞。而且,隨著時(shí)間的推移,還會(huì)出現(xiàn)大量的新詞。因

比,只有盡可能的擴(kuò)充機(jī)器詞典的規(guī)模,才可能使機(jī)器翻譯系統(tǒng)更實(shí)用,更會(huì)被

更多的行業(yè)、更多的人所接受。

(2)機(jī)器詞典是機(jī)器翻譯的質(zhì)量的關(guān)鍵,要達(dá)到機(jī)器翻譯的全自動(dòng)、高質(zhì)量,

就必須有一部信息豐富、易于使用的機(jī)器詞典。一部好的機(jī)器詞典不僅要有龐大

為數(shù)量,而且要有盡可能高的質(zhì)量,只要這樣,才可能是機(jī)器翻譯的質(zhì)量更高。

(3)電子詞典(機(jī)器詞典)不僅可以用于機(jī)器翻譯,而且也可以用在自然語(yǔ)

言理解、自然語(yǔ)言處理諸多方面。因此,電子詞典(機(jī)器詞典)是大峽知識(shí)工

程的基礎(chǔ)工作,它可以為知識(shí)系統(tǒng)提供一個(gè)基本的知識(shí)超1

第5章單詞與詞組的處理與分析

對(duì)于機(jī)器翻譯系統(tǒng)來(lái)說(shuō),為了適應(yīng)不同專(zhuān)業(yè)領(lǐng)域的翻譯要求,需要配有大

量的專(zhuān)業(yè)詞匯。因此,機(jī)器翻譯系統(tǒng)的詞典又可以分為通用詞典和專(zhuān)業(yè)詞典兩部

分。如專(zhuān)門(mén)的縮略語(yǔ)詞典、特殊字詞典等等。還可以把通用詞典再細(xì)分為名詞詞

典、動(dòng)詞詞典、成語(yǔ)詞典等等。

機(jī)器詞典的組織機(jī)構(gòu)對(duì)于提高詞語(yǔ)的檢索速度是非常主要的。一定的組織結(jié)

構(gòu)形式和相應(yīng)的算法相配合,可以節(jié)約存儲(chǔ)空間,提高檢索速度,從而提高機(jī)器

翱譯系統(tǒng)的整體翻譯速度。

機(jī)器詞典從存儲(chǔ)形式來(lái)看,可以分為定長(zhǎng)字段型、變長(zhǎng)字段型和定變長(zhǎng)混

合型三種類(lèi)型;從索引格式看,可以分為一級(jí)索引和多級(jí)索引等等。

詞語(yǔ)的長(zhǎng)短是不同的,例如,某些常用詞的信息特別豐富,書(shū)本詞典可以占

滿(mǎn)幾頁(yè),而有一些詞語(yǔ)卻只要一行。這樣,如果所有詞語(yǔ)都使用定長(zhǎng)字段,則必

須依據(jù)最長(zhǎng)詞語(yǔ)確定字段長(zhǎng)度,而相當(dāng)多的短詞語(yǔ)將浪費(fèi)巨大的存儲(chǔ)空間。所以,

般情況下一條詞語(yǔ)的有關(guān)信息的存儲(chǔ)都采用變長(zhǎng)形式,這可以用鏈罌作實(shí)現(xiàn)。

第5章單詞與詞組的處理與分析

5.2自動(dòng)分詞

漢語(yǔ)自動(dòng)分詞是我國(guó)計(jì)算機(jī)科學(xué)研究的重要課題之一,它是自然語(yǔ)言理

解、自動(dòng)翻譯、電子詞典等信息處理的基礎(chǔ)性工件。所謂分詞,就是要把一

句話(huà),一篇文章甚至一部著作中的詞語(yǔ)逐個(gè)逐個(gè)的切分出來(lái)。漢語(yǔ)不象拼音

文字那樣有自然切分標(biāo)志,而且詞語(yǔ)長(zhǎng)短不一,詞語(yǔ)的定義也不統(tǒng)一,語(yǔ)言

學(xué)中對(duì)詞的定義多種多樣,造成切分的多樣性,這也自然給自動(dòng)分詞的同一性

帶來(lái)很大困難。漢語(yǔ)中詞語(yǔ)本身的詞素、詞、詞組無(wú)明顯的區(qū)分界限,沒(méi)有

一個(gè)統(tǒng)一的標(biāo)準(zhǔn),許多東西都是憑經(jīng)驗(yàn)和語(yǔ)感來(lái)劃分。.這項(xiàng)工作如果全部交

給計(jì)算機(jī)來(lái)作,就沒(méi)有那么簡(jiǎn)單了。

盡管計(jì)算機(jī)自動(dòng)分詞在諸多方面存在著許多困難,但是由于自動(dòng)分詞是

許多應(yīng)用工作的第一步(也是自動(dòng)翻譯的第一步),這就促進(jìn)了研究的持續(xù)不斷,

提出了不少方法,它們各有優(yōu)缺點(diǎn),也可能是基于特定環(huán)境的。

第5章單詞與詞組的處理與分析

5.2.1典型的自動(dòng)分詞方法

5.2.1.1正向最大匹配法和逆向最大匹配法

正向最大匹配法是最早提出的自動(dòng)分詞方法,它的基本思想是先取一句話(huà)

的前六個(gè)字查字庫(kù),若不是一個(gè)詞,則刪除六個(gè)字的最后一個(gè)字再查,這樣一直

查下去,至找到一個(gè)詞為止。句子剩余部分重復(fù)此工作,直到把所有的詞都分

出為止。逆向最大匹配法也一樣,每次匹配不成功時(shí)去掉漢字串中最前面的一

個(gè)字。

兩法思路清晰,易于計(jì)算機(jī)實(shí)現(xiàn),但由于試圖用相對(duì)穩(wěn)定的詞表來(lái)代替靈

活多變,充滿(mǎn)活力的詞匯,把詞庫(kù)搜索作為判詞的唯一標(biāo)準(zhǔn),因而具有很大的

主觀性和局限性。另外,這兩種方法實(shí)際上否認(rèn)了語(yǔ)言中的歧義現(xiàn)象。

在實(shí)際應(yīng)用中,方法有所變化。如下述算法我們初始不是取六個(gè)字而是取長(zhǎng)

度最短詞的個(gè)數(shù)。

第5章單詞與詞組的處理與分析

A1:一條漢語(yǔ)語(yǔ)句分劃成單一字符XI,X2,…,XM。

A2:決定語(yǔ)詞中可能出現(xiàn)的詞最大字符長(zhǎng)度Lmax,最小字符

長(zhǎng)度Lmino

A3:逆向匹配,取語(yǔ)句最后的Lmin個(gè)字查關(guān)鍵詞庫(kù),若查不到,

加入一個(gè)字重復(fù)此工作,直至字符數(shù)為L(zhǎng)max為止。

A4:若實(shí)施A3查不到詞,去掉語(yǔ)句中最后一個(gè)字,再實(shí)施A3,直

至整個(gè)語(yǔ)句只剩下Lmin為止。

第5章單詞與詞組的處理與分析

5.2.1.2高頻優(yōu)選法

這一方法基于詞頻的統(tǒng)計(jì)、字與字之間的構(gòu)成結(jié)合律和歧

義切分等現(xiàn)象的分析而提出來(lái)的。根據(jù)《現(xiàn)代漢語(yǔ)頻率詞典》,

對(duì)于報(bào)刊和政論性文章,不同音節(jié)詞的詞頻構(gòu)成為:雙音節(jié)詞大

約有74%;三音節(jié)詞大約有3.7%;單音節(jié)詞大約有17.2%;而

五以上字音節(jié)詞則大約只有0.4%左右。漢語(yǔ)是一字一音節(jié),因

而也可以說(shuō),兩字組詞的頻率比其它所有方式的概率加起來(lái)都還

要多。自動(dòng)分詞時(shí)首先考慮兩字詞,然后再考慮單字詞,如此頻

率低的詞語(yǔ)最后才考慮。這種方法提高了分詞效率,對(duì)歧義問(wèn)

題也無(wú)能為力,出錯(cuò)率并不低?!觯?—"

■第5章單詞與詞組的處理與分析

HJA--------------------------------------------------------------------------------

5.2.1.3其它方法

設(shè)立切分標(biāo)志

切分標(biāo)志有自然和非自然之分。自然切分標(biāo)志是指文章的非

文字符號(hào),例如標(biāo)點(diǎn)符號(hào)等等;非自然切分標(biāo)志是利用詞綴和不

構(gòu)成詞的詞(單字詞等等)。設(shè)立切分標(biāo)志方法的基本思想就是

通過(guò)建立非自然切分標(biāo)志的一張表存儲(chǔ)于計(jì)算機(jī)中用程序來(lái)識(shí)別

所有的非自然標(biāo)志。這樣一來(lái),一個(gè)句子鏈將被化為若干短鏈,

然后再用其它切分方法進(jìn)行各種細(xì)加工,這種多方法合作的綜合

應(yīng)用,途徑增多,可以大大提高效率。

藍(lán)缸第5章單詞與詞組的處理與分析______________

擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)分詞法

它是以有限狀態(tài)機(jī)概念為基礎(chǔ)的方法。有限狀態(tài)機(jī)只能識(shí)別正

則語(yǔ)言,對(duì)有限狀態(tài)機(jī)作的第一次擴(kuò)充可以使其具有遞歸能力,這

樣就形成遞歸轉(zhuǎn)移網(wǎng)絡(luò)(RTN)。在RTN中,弧線(xiàn)上的標(biāo)志不僅可

以是終極符(語(yǔ)言語(yǔ)句中的各種詞語(yǔ))或非終極符(還沒(méi)有推導(dǎo)完

的詞類(lèi)、符號(hào)等等,例如名詞N,動(dòng)詞V,形容詞A等等),還可以

調(diào)用另外的子網(wǎng)絡(luò)名字的非終極符(例如字或字串的成語(yǔ)條件)。

這樣,計(jì)算機(jī)在運(yùn)行某個(gè)子網(wǎng)絡(luò)時(shí),就可以調(diào)用另外的子網(wǎng)絡(luò),還

可以遞歸調(diào)用。目前大多數(shù)的自然語(yǔ)言理解系統(tǒng)都把詞典組織成一

個(gè)表,表是靜態(tài)的。使用擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)來(lái)組織詞典就可以構(gòu)成一個(gè)

動(dòng)態(tài)的詞典,詞法擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)的使用,它使分詞處理和自然語(yǔ)言

理解系統(tǒng)的句法處理階段交互成為可能,并且有效地解決了漢語(yǔ)分

詞的歧義。'%—e

會(huì)第5章單詞與詞組的處理與分析

--------------------------------------

全自動(dòng)詞典切詞

這種方法完全使用切詞規(guī)則切分詞語(yǔ),其規(guī)則中的參數(shù)由詞

典提供。該方法可以部分解決歧義問(wèn)題,但因是匹配切詞,效率

不高。

規(guī)則描述語(yǔ)言切詞法

規(guī)則描述語(yǔ)言是用以描述漢語(yǔ)分詞、分析和生成規(guī)則的一種

工具。其中,整個(gè)規(guī)則語(yǔ)言將由若干個(gè)不同性質(zhì)的規(guī)則塊構(gòu)成,

而每一個(gè)規(guī)則塊又包括多條規(guī)則,這些規(guī)則塊的結(jié)構(gòu)一般采用多

層次的樹(shù)型結(jié)構(gòu)(當(dāng)然,也可以采用其它結(jié)構(gòu),例如鏈?zhǔn)浇Y(jié)構(gòu))。

該方法對(duì)正確描述漢語(yǔ)是一種有意義的嘗試,值得深入研究

第5章單詞與詞組的處理與分析

多遍掃描聯(lián)想法

這種方法是使用切分標(biāo)志把文本切分成若干子串。它一般分成兩步進(jìn)行:第

一步,使用自然切分標(biāo)志對(duì)文本進(jìn)行預(yù)處理;第二步,利用非自然切分標(biāo)志結(jié)合

玦想庫(kù)對(duì)文本進(jìn)行有效的分割。這兩布完成以后,再利用實(shí)詞的詞庫(kù)和聯(lián)想庫(kù)將

所有詞群細(xì)分為詞。在這種方法的操作中,分詞時(shí)將要充分利用各種語(yǔ)法知識(shí)、

玦想和回溯機(jī)制同時(shí)作用分割和細(xì)分階段,其目的在于更有效的解決歧義組合結(jié)

構(gòu)的切分問(wèn)題,并且兼有自動(dòng)糾錯(cuò)和檢錯(cuò)這樣的特殊功能。這種方法屬于組合方

法,方法的基點(diǎn)立足于可靠性、實(shí)用性和通用性。

神經(jīng)網(wǎng)絡(luò)分詞法

這種方法是模擬人腦功能采用并行、分布處理和建立數(shù)值計(jì)算模型工作的

方法。它將分詞知識(shí)所分散隱蔽式的方法存入神經(jīng)網(wǎng)絡(luò)內(nèi)部,然后再通過(guò)各種自

學(xué)習(xí)和訓(xùn)練修改內(nèi)部的權(quán)值,以達(dá)到正確的分詞效果,最后給出神經(jīng)網(wǎng)絡(luò)自動(dòng)分

詞結(jié)果。由于神經(jīng)網(wǎng)絡(luò)這一學(xué)科的研究有許多問(wèn)題尚未解決,所以此方法還處于

探索之中。_____

第5章單詞與詞組的處理與分析

專(zhuān)家系統(tǒng)分詞法

這種方法從專(zhuān)家系統(tǒng)角度把分詞的知識(shí)(包括常識(shí)性分詞知識(shí)與消除歧義

切分的啟發(fā)性知識(shí),即歧義切分規(guī)則)從實(shí)現(xiàn)分詞過(guò)程的推理機(jī)中獨(dú)立出來(lái),從

而使知識(shí)庫(kù)的維護(hù)與推理機(jī)的實(shí)現(xiàn)互不干擾,以達(dá)到使知識(shí)庫(kù)易于維護(hù)和管理。

這種方法還具有發(fā)現(xiàn)交集歧義字段和多義組合歧義字段的能力和一定的自學(xué)習(xí)功

輪。雖然專(zhuān)家系統(tǒng)研究相對(duì)成熟,但真正要把這一方法作為完善的機(jī)器翻譯自動(dòng)

分詞方法,還有很長(zhǎng)的路要走。

綜上所述,由于漢語(yǔ)的復(fù)雜性。我們很難以某種方法正確地、徹底地自動(dòng)分

同。這些不同的方法,它們各有不同的優(yōu)點(diǎn)和缺點(diǎn),適合不同的環(huán)境。但是如何

比較正確的評(píng)價(jià)、度量一個(gè)方法,則顯得尤為重要,這一點(diǎn)將在后面迨述。

第5章單詞與詞組的處理與分析

5.2.3自動(dòng)分詞的歧義問(wèn)題

自動(dòng)分詞的難點(diǎn)是歧義切分,而歧義切分字段

從構(gòu)成形式上可分為兩類(lèi):一類(lèi)是交集型歧義切分字

段,一類(lèi)是多義組合型歧義切分字段。

后第5章單詞與詞組的處理與分析

-OSCKIO-------------------------------------------------------------------------------------------------

5.2.3.1交集型歧義切分字段與解決方法

一般情況下,在多義組合型歧義切分字段中,歧義字段就是

一個(gè)歧義詞,而非歧義詞被包含在歧義詞當(dāng)中。例如,歧義字段

“語(yǔ)言學(xué)”同時(shí)也就是一個(gè)歧義詞,而非歧義詞“語(yǔ)言”和“學(xué)”

包含在歧義詞“語(yǔ)言學(xué)”中。在這種情況下,機(jī)器很難根據(jù)多義組

上型歧義切分字段本身來(lái)獲得非歧義詞的特征信息,程序只有跳出

多義組合型歧義切分字段自身的框架,參考歧義字段與其前趨字串

或后繼字串之間的關(guān)系,才有可能發(fā)現(xiàn)正確的切分。這就說(shuō)明,為

了對(duì)多義組合型歧義切分字段本身作出唯一正確的切分,不能只考

察歧義字段內(nèi)部的情況,還必須考察歧義字段與其前后字串之間的

關(guān)系。而在交集型歧義切分字段中,歧義字段本身就可以給我們提

k共非歧義切分的特征信息,因此,多義組合型歧義切分字段的自動(dòng)

切分比交集型歧義切分字段的自動(dòng)切分要難得多。

藍(lán)虬第5章單詞與詞組的處理與分析______________

有些歧義切分字段具有二重性。例如,在例句“乒乓球拍賣(mài)完

了”中,由名詞“乒乓球”和動(dòng)詞“拍”串聯(lián)組合而產(chǎn)生出多義組

合型歧義切分字段“乒乓球拍”,而“乒乓球拍”又與動(dòng)詞“拍賣(mài)”

交叉組合而產(chǎn)生交集型歧義切分字段“乒乓球拍賣(mài)”,這樣一來(lái),

在“乒乓球拍賣(mài)”這個(gè)字段中,既有多義組合型歧義切分字段,又

有交集型歧義切分字段。對(duì)于這樣的具有二重性的歧義切分字段,

切分時(shí)也不能只考慮字段本身提供的信息,還應(yīng)該考慮該字段與其

前趨字串和后繼字串的關(guān)系。

為了正確地切分多義組合型歧義切分字段,可以利用前趨字串

和后繼字串的句法、語(yǔ)義、語(yǔ)用3個(gè)方面信息。

我們來(lái)討論如何利用句法信息:有些多義組合型歧義切分字段

與其前趨字串和后繼字串之間,存在著密切的搭配關(guān)系,這時(shí)就可以

利用有關(guān)的句法信息得到正確的切分。=rtt

第5章單詞與詞組的處理與分析

(1)名詞+名詞

例如,在句子“用樹(shù)形圖形式加以描述”中,歧義字段

“圖形式”是由名詞“圖”與名詞“形式”之間的交叉組合產(chǎn)

生的——“圖形”十“形式”。事實(shí)上,“圖形”是歧義詞,

它是歧義字段“圖形式”在給定句子中錯(cuò)誤地切分出來(lái)的片段,

“形式”是非歧義詞,它是歧義字段“圖形式”在給定句子中,

按正確的切分方式切分出來(lái)的片段。

(2)動(dòng)詞十名詞

例如,在句子“研究生命的本質(zhì)”中,歧義字段“研究生

命”是由動(dòng)詞“研究”與名詞“生命”之間的交叉組合產(chǎn)生的一

--“研究生”(歧義詞)十“生命”(非歧義到2Ok

第5章單詞與詞組的處理與分析

(3)形容詞十名詞

例如,在句子“白天鵝游過(guò)來(lái)了"中,歧義字段“白天鵝”

是由形容詞“白”與名詞“天鵝”之間的交叉組合產(chǎn)生的——

“白天”(歧義詞)十“天鵝”(非歧義詞)。

(4)介詞十名詞

例如,在句子“讓位移等于50厘米”中,歧義字段“讓位

移”是由介詞“讓”與名詞“位移”之間的交叉組合產(chǎn)生的——

,,讓位”(歧義詞)十“位移”(非歧義詞)。

(5)連詞十名詞

例如,在短語(yǔ)“獨(dú)立自主和平等互利的原則”中,歧義字

段“和平等”是由連詞“和”與名詞“平等”的交叉組合產(chǎn)生

的——“和平”(歧義詞)十“平等”(非歧義詞)。一

第5章單詞與詞組的處理與分析

(6)副詞十形容詞

例如,在句子“這本小說(shuō)的情節(jié)太平淡了"中,歧義字段

“太平淡”是由副詞“太”與形容詞“平淡”的交叉組合產(chǎn)生的一

一一“太平”(歧義詞)十“平談”(非歧義詞)。

(7)助詞十形容詞

例如,在短語(yǔ)“對(duì)這種現(xiàn)象的確切描述”中,歧義字段,

“的確切”是由助詞“的”與形容詞“確切”的交叉組合產(chǎn)生的一

——“的確”(歧義詞)+“確切”(非歧義同)。

(8)名詞十連詞

例如,在句子“社會(huì)需求和生產(chǎn)水平有矛盾”中,歧義字段

“需求和”是由名詞“需求”與連詞“和”的交叉組合產(chǎn)生的?一

L“需求”(非歧義詞)十“求和”(歧義詞)。

第5章單詞與詞組的處理與分析

(9)動(dòng)詞十介詞

例如,在句子“他們看中和日本人做生意的機(jī)會(huì)”中,歧

義字段“看中和”是由動(dòng)詞“看中”與介詞“和”的交叉組合產(chǎn)

生的------“看中”(非歧義詞)十“中和”(歧義詞)。

由以上例子可以看出,交集型歧義切分字段aL..ai.bl...bj,

cL?.ck的交段bL?.bj與其后繼字串cL?.ck所組成的非歧義詞的詞

類(lèi),可以從歧義切分字段本身提供出來(lái),例如,在歧義切分字段

“白天鵝”中,交段為“天”,它與后繼字串“鵝”組成的非歧

義詞“天鵝”,其詞類(lèi)為名詞。歧義切分字段本身為我們提供了

非歧義詞,天鵝”的詞類(lèi)信息。交集型歧義切分字段,

al...ai.bl...bj,cL??ck的交段bL??bj與其前趨字串a(chǎn)L??ai所組成

的非歧義詞的詞類(lèi),也可以從歧義切分字段本身提供出來(lái)。例如,

在歧義切分字段“需求和”中,交段為“求”,它與前趨字串

“需”組成非歧義詞“需求”,其詞類(lèi)為名詞,歧義切分字段本

身也為我們提供了非歧義詞“需求”的詞類(lèi)信息。

息第5章單詞與詞組的處理與分析

--------------------------------------------

交集型歧義切分字段可以為我們提供非歧義切分的特征信息,這是交集型歧義

切分字段非常寶貴而重要的特點(diǎn)。根據(jù)這個(gè)特點(diǎn),我們可以事先為漢語(yǔ)詞匯中

的每個(gè)詞建立詞法知識(shí)庫(kù),并在該知識(shí)庫(kù)中為可能產(chǎn)生歧義切分的詞條加上歧

義標(biāo)志和歧義類(lèi)型編號(hào),這樣,在實(shí)際切分歧義字段時(shí),只要利用該字段中的

交段bL.?bj與后繼字串cL..ck(或其前趨字串a(chǎn)L.?ai)所組成的非歧義詞的已

知詞類(lèi)信息,再通過(guò)適當(dāng)?shù)倪壿嬐评?,就可以?duì)這類(lèi)歧義切分字段作出唯一正

確的切分。

例如,在上述第(3)種類(lèi)型的歧義切分字段“白天鵝”中,因交叉組合產(chǎn)生

的歧義詞是“白天”,交段是“天”,該交段的后繼字串為“鵝”,二者組成

非歧義詞“天鵝”,并已知其詞類(lèi)信息為名詞。如果在詞法知識(shí)庫(kù)中,對(duì)歧義

詞“白天”加上歧義標(biāo)志和相應(yīng)的歧義類(lèi)型編號(hào),并建立如下的規(guī)則:如果交

段與其后繼字串組成名詞,則將該歧義詞的首字單切,否則,確認(rèn)該歧義詞為

詞。4一

第5章單詞與詞組的處理與分析

血助于是;根據(jù)歧義詞"白天”的歧義類(lèi)型編號(hào)調(diào)用上述規(guī)則,并利用詞法知

識(shí)庫(kù)中有關(guān)該歧義切分字段的交段“天”與其后繼子串“鵝”組成詞的知識(shí),檢

查這個(gè)詞是否為名詞,并進(jìn)行邏輯推理,就可以確定,在切分歧義字段“白天鵝”

時(shí),應(yīng)將歧義詞“白天”的首字“白”單切,“白天鵝”應(yīng)切分為“白/天鵝”。

這是對(duì)歧義切分字段“白天鵝”作出的唯一正確的切分。

又如,在上述第(8)種類(lèi)型的歧義切分字段“需求和”中,因交叉組合產(chǎn)生

的歧義詞是“求和”,交段是“求”,該文段的前趨字串為“需”,二者組成非

歧義詞“需求”,并已知其詞類(lèi)信息為名詞。如果在詞法知識(shí)庫(kù)中,對(duì)歧義詞

“求和”加上歧義標(biāo)志和相應(yīng)伯歧義類(lèi)型編號(hào),井建立如下的規(guī)則:如果交段與

其前趨字串組成名詞,則將該歧義詞的尾字單切,否則,確認(rèn)該歧義詞為詞。

于是,根據(jù)歧義詞“求和”的歧義類(lèi)型編號(hào),調(diào)用上述規(guī)則,在詞法知識(shí)庫(kù)

中查詢(xún),得知該歧義切分字段的交段“求”與其前趨字串“需”所組成的詞為名

同,進(jìn)行邏輯推理,就可以確定,在切分歧義字段“需求和”時(shí),應(yīng)將歧義詞

“求和”的尾字單切,“需求和”應(yīng)切分為“需求/和”。這是對(duì)歧字段

“需求和”作出的正確的切分。*一二一)

第5章單詞與詞組的處理與分析

對(duì)于其它類(lèi)型的交集型歧義切分字段,不難建立相應(yīng)的規(guī)

則,并為其中的歧義詞設(shè)置相應(yīng)的歧義類(lèi)型編號(hào),然后利用詞

法知識(shí)庫(kù)中有關(guān)詞類(lèi)信息的知識(shí),進(jìn)行類(lèi)似的邏輯推理,就可

以作出唯一正確的切分。

由于對(duì)交集型歧義切分字段的正確切分,僅只需要關(guān)于詞

類(lèi)的信息,所以,可以把這類(lèi)歧義切分字段。從性質(zhì)上劃為

“與詞類(lèi)有關(guān)的歧義切分字段”,簡(jiǎn)稱(chēng)為“詞法歧義字段”。

第5章單詞與詞組的處理與分析

5.23.2多義組合型歧義切分字段與解決方法

多義組合型歧義切分字段比較復(fù)雜,這種歧義切分字段是由詞與詞之間的

串聯(lián)組合產(chǎn)生的。在字段S=aL?.ai.bL..bj中,由于aL??i,bL?.bj和S三者都

能分別成詞,字串a(chǎn)L..ai與字串bL..bj形成了串聯(lián)組合,才產(chǎn)生歧義切分。從

產(chǎn)生的根源上看,有下列幾種不同的類(lèi)型:

(1)量詞十名詞

例如,在句子“一陣風(fēng)吹過(guò)來(lái)了”中,歧義切分字段“陣風(fēng)”是由量詞

“陣”和名詞“風(fēng)”的串聯(lián)組合產(chǎn)生的。(2)介詞十名詞

例如,在句子“請(qǐng)把手抬高一點(diǎn)兒”中,歧義切分字段“把手”是由介詞“把”

和名詞“手”的串聯(lián)組合產(chǎn)生的。

(3)動(dòng)詞十名詞

例如,在句子“他喜歡吃烤白薯,中,歧義切分字段“烤白薯,是由動(dòng)詞

“烤”和名詞“白薯”的串聯(lián)組合產(chǎn)生的。

第5章單詞與詞組的處理與分析

(4)名詞十方位詞

例如,在句子“他騎在馬上”中,歧義切分字段“馬上”是由名詞“馬”

和方位詞“上”的串聯(lián)組合產(chǎn)生的。

(5)名詞十動(dòng)詞

例1,在句子“語(yǔ)言學(xué)起來(lái)并不十分容易”中,歧義切分字段“語(yǔ)言學(xué)”

是由名詞“語(yǔ)言”和動(dòng)詞“學(xué)”的串聯(lián)組合產(chǎn)生的。

例2,在句子“學(xué)生會(huì)興奮得手舞足蹈”中,歧義切分字段“學(xué)生會(huì)”

是由名詞“學(xué)生”和動(dòng)詞“會(huì)”的串聯(lián)組合產(chǎn)生的。

例3,在句子“乒乓球拍賣(mài)完了”中,歧義切分字段“乒乓球拍”是由

名詞“乒乓球”和動(dòng)詞“拍”的串聯(lián)組合產(chǎn)生的。

例4,在句子“美國(guó)會(huì)采取措施提高工業(yè)競(jìng)爭(zhēng)力”中,歧義切分字段

“美國(guó)會(huì)”是由名詞“美國(guó)”和動(dòng)詞“會(huì)”的串聯(lián)組合產(chǎn)生的。

第5章單詞與詞組的處理與分析

(6)方位詞十動(dòng)詞

例如,在句子“他在莊稼地里間麥苗”中,歧義切分字段“里間”是由

方位詞“里”和動(dòng)詞“間”的串聯(lián)組合產(chǎn)生的。

(7)副詞十動(dòng)詞

例如,在句子“他將來(lái)北京探親”中,歧義切分字段“將來(lái)”是由副詞

“將”和動(dòng)詞“來(lái)”的串聯(lián)組合產(chǎn)生的。

(8)助詞十動(dòng)詞

例1,在句子“他學(xué)會(huì)了解數(shù)學(xué)難題”中,歧義切分字段“了解”是由助

詞“了”和動(dòng)詞“解”的串聯(lián)組合產(chǎn)生的。

例2,在句子“只要努力地學(xué)就可以學(xué)會(huì)”中,歧義切分字段“地學(xué)”是

由助詞“地”和動(dòng)詞“學(xué)”的串聯(lián)組合產(chǎn)生的。一

第5章單詞與詞組的處理與分析

(9)連詞十副詞

例如,在句子“日本保留和尚使用的古代廟宇已經(jīng)不多了”中,歧義

切分字段“和尚”是由連詞“和”與副詞“尚”的串聯(lián)組合因此,可以先

在詞法知識(shí)庫(kù)中對(duì)歧義詞“陣風(fēng)”加上歧義標(biāo)志與相應(yīng)的歧義類(lèi)型編號(hào),并

建立如下的規(guī)則:如果歧義字段的直接前趨字串是數(shù)詞,則歧義字段的首

段單切,否則,該歧義字段成詞。

然后根據(jù)“陣風(fēng)”的歧義類(lèi)型編號(hào)調(diào)用這條規(guī)則,并利用詞法知識(shí)庫(kù)

中的有關(guān)該字段前趨字串的信息,進(jìn)行邏輯推理,就可以作出唯一正確的切

分。

上面例中的歧義切分字段“把手”是由介詞“把”和名詞“手”的串

聯(lián)組合而產(chǎn)生的,按非歧義切分時(shí)的詞間搭配關(guān)系,該歧義字段的后繼字串

中必須有及物動(dòng)詞,根據(jù)這樣的句法知識(shí)建立相應(yīng)的規(guī)則,再使用^

似的推理方法,就可以作出唯一正確的切分。公

第5章單詞與詞組的處理與分析

上面例中的歧義切分字段“白薯”是由動(dòng)詞“烤”和名詞“白薯”的串聯(lián)

組合而產(chǎn)生的,按非歧義切分時(shí)的詞間搭配關(guān)系,該歧義字段的前趨字串中應(yīng)該

有動(dòng)詞,根據(jù)這樣的句法知識(shí)建立相應(yīng)規(guī)則,再使用與上述類(lèi)似的推理方法,就可

以得到唯一正確的切分。

上面例中的歧義切分字段“馬上”是由名詞“馬”和方位詞“上”串聯(lián)組

合而產(chǎn)生的,按非歧義切分時(shí)的詞間搭配關(guān)系,該歧義字段的前趨字串中應(yīng)該有介

詞,根據(jù)這樣的句法知識(shí)建立相應(yīng)的規(guī)則,再使用類(lèi)似的推理方法,就可以得到唯

一正確的切分。

類(lèi)似地,切分上面例中的歧義字段“語(yǔ)言學(xué)”時(shí),要使用“該字段的后繼字

串中應(yīng)有趨向動(dòng)詞或助詞”這樣的句法知識(shí);切分上面例中的歧義字段“里間”

時(shí),要使用“該字段的前趨字串中應(yīng)有介詞”這樣的句法知識(shí);切分生命例中的

歧義字段“將來(lái)”時(shí),要使用“該字段的前趨字串中應(yīng)有人名或人稱(chēng)代詞”這樣

的句法知識(shí);切分上面例中的歧義字段“地學(xué)”時(shí),要使用“該字段的直接前趨

字串應(yīng)該是形容詞或副詞”這樣的句法知識(shí)。根據(jù)句法知識(shí)建立相應(yīng)的切分規(guī)則

通過(guò)一定的邏輯推理,就可以實(shí)現(xiàn)對(duì)這些歧義字段的正確切分。

外第5章單詞與詞組的處理與分析

Oro------------------------------------------------------------------------------------

現(xiàn)在討論如何利用語(yǔ)義信息:例中歧義切分字段“學(xué)生會(huì)”是由名詞

“學(xué)生”與動(dòng)詞“會(huì)”串聯(lián)組會(huì)產(chǎn)生的,可以有兩種切分結(jié)果:

學(xué)生/會(huì)/興奮/得/手舞足蹈

學(xué)生會(huì)/興奮/得/手舞足蹈

這兩種切分結(jié)果在詞類(lèi)與句法結(jié)構(gòu)上都十分相似,因此,僅僅利用詞法

和句法的知識(shí),難以對(duì)這兩種切分結(jié)果作出正確的判別,也就難以作出正確

的切分。這時(shí),也就需要利用語(yǔ)義方面的知識(shí)了。從語(yǔ)義上來(lái)看,動(dòng)詞“興

奮”的義項(xiàng)中,要求動(dòng)作的發(fā)出者應(yīng)具有“人”這個(gè)義素,在名詞“學(xué)生會(huì)”

的義項(xiàng)中不具有這個(gè)義素,而在名詞“學(xué)生”的義項(xiàng)中則具有這個(gè)義素,利

用這樣的語(yǔ)義知識(shí),可建立如下的語(yǔ)義規(guī)則:如果歧義切分字段后繼動(dòng)詞的義

項(xiàng)中含有動(dòng)作發(fā)出者為“人”這個(gè)義素,則歧義字段的尾字單切,否則早該歧

義字段成詞。弋

-0^^第5章單詞與詞組的處理與分析

在自動(dòng)切分時(shí),根據(jù)歧義切分字段“學(xué)生會(huì)”的歧義類(lèi)型編號(hào),調(diào)用這條語(yǔ)

義規(guī)則,進(jìn)行邏輯推理,就可以得到如下正確的切分:

學(xué)生/會(huì)/興奮/得/手舞足蹈

例中歧義切分字段“了解”是由助詞“了”和動(dòng)詞“解”的串聯(lián)組合而產(chǎn)

生的,它們可以有兩種切分結(jié)果:

他/學(xué)會(huì)/了/解/數(shù)學(xué)/難題

他/學(xué)會(huì)/了解/數(shù)學(xué)/難題

這兩種切分結(jié)果的詞類(lèi)和句法結(jié)構(gòu)都是十分相似的,如果僅僅只根據(jù)詞法

和句法知識(shí),是難以得到正確的切分的,但是只要根據(jù)語(yǔ)義分析就可以知道,

在動(dòng)詞“解”的義項(xiàng)中,它要求賓語(yǔ)應(yīng)該具有“數(shù)學(xué)公式”或者“扣子”這樣

的義素,然而動(dòng)詞“了解”則對(duì)賓語(yǔ)則就沒(méi)有這樣的要求,由于作賓語(yǔ)的“數(shù)學(xué)

難題”符合動(dòng)詞“解”的義項(xiàng)這樣的要求,因此機(jī)器可以判定前二種藝分是正

確的,從而也就排除了第2種切分。f

第5章單詞與詞組的處理與分析

我們最后來(lái)討論任何使用語(yǔ)用信息:所謂語(yǔ)用信息,就是必須結(jié)合上下

文不同的情況的信息才能確定語(yǔ)句含義。歧義切分字段“乒乓球拍”僅只根

據(jù)詞法、句法和語(yǔ)義知識(shí),都不足以判斷賣(mài)完的東西究竟是“乒乓球”還是

“乒乓球拍”,這時(shí),就得根據(jù)語(yǔ)言交際的具體環(huán)境的語(yǔ)用方面的知識(shí),才能

決定究竟什么才是正確的切分。

例中的歧義切分字段“美國(guó)會(huì)”,僅只根據(jù)詞法、句法和語(yǔ)義知識(shí),也不

足以判斷采取措施提高工業(yè)競(jìng)爭(zhēng)力的是“美國(guó)”還是“美國(guó)會(huì)”,這時(shí),就得

根據(jù)語(yǔ)言交際的具體環(huán)境的語(yǔ)用方面的知識(shí),才能作出正確的切分。

在上面的例中的歧義切分字段“和尚”,如果僅只根據(jù)詞法、句法和語(yǔ)義

知識(shí),也不足以判斷古代廟宇是“和尚”使用還是“尚”使用的,這也只好根

據(jù)語(yǔ)言交際的具體環(huán)境的語(yǔ)用方面的知識(shí),才能作出正確的切分。

第5章單詞與詞組的處理與分析

根據(jù)上面所述的歧義切分字段的性質(zhì),可以把它們分為4種不同的類(lèi)型:

(1)利用詞法知識(shí)就能判斷的歧義切分字段,叫做"詞法歧義字段”。

(2)利用句法知識(shí)才能判斷的歧義切分字段,叫做”句法歧義字段”。

(3)利用語(yǔ)義知識(shí)才能判斷的歧義切分字段,叫做”語(yǔ)義歧義字段1

(4)利用語(yǔ)用知識(shí)才能判斷的歧義切分字段,叫做"語(yǔ)用歧義字段”。

在這其中,詞法歧義字段與交集型歧義切分字段完全對(duì)應(yīng),其余三類(lèi)

則與多義組合型歧義切分字段相對(duì)應(yīng)。

第5章單詞與詞組的處理與分析

5.3詞語(yǔ)的排序,檢索,詞庫(kù)

5.3.1詞語(yǔ)的排序,檢索簡(jiǎn)敘

漢語(yǔ)的詞語(yǔ)由漢字組成,詞語(yǔ)的數(shù)量大,僅常用詞條將達(dá)到4萬(wàn)左右。

要使自動(dòng)翻譯快速、有效,必須對(duì)大量的詞條使用好的排序和檢索算法

進(jìn)行處理.

按漢字筆畫(huà)權(quán)值對(duì)詞語(yǔ)進(jìn)行排序是根據(jù)vv辭?!饭P畫(huà)查字表中的漢

字排列來(lái)定義漢字的類(lèi),再給每一類(lèi)漢字賦一個(gè)數(shù)值,這個(gè)數(shù)值就稱(chēng)為

該漢字的筆畫(huà)權(quán)值。由于漢字筆畫(huà)權(quán)值不超過(guò)787個(gè),采用映射式排序算

法是好的方法。而檢索方法采用直接映射式字符檢索算法。

會(huì)第5章單詞與詞組的處理與分析

jA------------------------------

5.3.2詞庫(kù)設(shè)計(jì)原則

(1)略縮詞詞典

例如英語(yǔ)文句中經(jīng)常出現(xiàn)的a.m;當(dāng)自動(dòng)切分句子遇到帶“.”的詞時(shí),

通過(guò)查找略縮詞詞典時(shí),找出相對(duì)應(yīng)詞組。

(2)省略詞詞典

如英文的it,s;they1ve等。當(dāng)自動(dòng)切分句子遇到帶”…的詞時(shí),通過(guò)查

找省略詞詞典時(shí),找出相對(duì)應(yīng)詞組。

(3)特殊詞典

如英語(yǔ)的介詞,副詞,連詞等,用法非常靈活,在不同語(yǔ)言條件下,由

于其前后搭配成份不同,其中文譯文和中文生成的詞序都很不一樣,極易產(chǎn)

生歧義,而且這類(lèi)詞的頻率極高.對(duì)這些結(jié)構(gòu)詞進(jìn)行特殊處理,對(duì)提高譯文處

理質(zhì)量是十分重要的。

(4)專(zhuān)業(yè)詞典1WL

為使翻譯能根據(jù)不同專(zhuān)業(yè)有更準(zhǔn)確的譯文,應(yīng)建半專(zhuān)業(yè)詞典。

第5章單詞與詞組的處理與分析

5.4詞語(yǔ)的分類(lèi)與兼類(lèi)問(wèn)題

5.4.1詞語(yǔ)的分類(lèi)

在目前情況下,自然語(yǔ)言信息處理的技術(shù)水平要求對(duì)每個(gè)詞語(yǔ)給出它的

詞類(lèi)(范疇)乃至次范疇分類(lèi),語(yǔ)言學(xué)理論與信息處理技術(shù)之間有著明顯的差

距。為滿(mǎn)足機(jī)器翻譯的實(shí)用需求,也為了更深入研究,機(jī)器詞典將所收的詞

語(yǔ)及符號(hào)劃分為26類(lèi),它們名稱(chēng)及代碼如下:名詞n,時(shí)間詞t,處所詞s.方

位詞f,數(shù)詞m,量詞q,區(qū)別詞b,代詞r,動(dòng)詞v,形容詞a,狀態(tài)詞z,副詞d,

介詞p,連詞c,助詞u,語(yǔ)氣詞y,象聲詞o,嘆詞e,前綴h,后綴k,成語(yǔ)i,簡(jiǎn)稱(chēng)略

語(yǔ)j,習(xí)用語(yǔ)1,語(yǔ)素g,字x,標(biāo)點(diǎn)符號(hào)w。當(dāng)然,由于沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),可

能這一種劃分與其它文獻(xiàn)中的劃分可能有不同之處。這并不影響實(shí)際使用,

但是我們應(yīng)用時(shí)要注意這個(gè)問(wèn)題。

顯然,僅僅規(guī)定出這些詞類(lèi)還遠(yuǎn)遠(yuǎn)不夠,更重要的是要決定詞典手的每

-個(gè)具體的詞屬于哪-類(lèi)。這的確是-件頗費(fèi)斟酌特別是-

動(dòng)詞、形容詞、狀態(tài)詞、區(qū)別詞、副詞的辨別可以說(shuō)量相雪困難的。

第5章單詞與詞組的處理與分析

盡管詞典中的詞語(yǔ)數(shù)目是有限的,盡管有判別準(zhǔn)則,盡管

研究者親自確定詞語(yǔ)的歸類(lèi),但是仍有少數(shù)詞一時(shí)仍難以決定下

來(lái)。機(jī)器只有用語(yǔ)法方法對(duì)這些問(wèn)題作必要的處理。當(dāng)然,這

也為進(jìn)一步研究準(zhǔn)備了條件。

隨著人們多年研究的深入,還可以考慮對(duì)某些詞類(lèi)進(jìn)一步劃

分子類(lèi)。這個(gè)問(wèn)題看上去更困難,主要是我們不容易把握按哪

一種標(biāo)準(zhǔn)進(jìn)行子類(lèi)劃分更好、更為妥當(dāng)。其中人們提出的一種

方法是按照名詞與量詞的關(guān)系將名詞劃分為可數(shù)名詞,不可數(shù)名

詞、集合名詞、抽象名詞及專(zhuān)有名詞。這一種方法還比較科學(xué)。

沿著這個(gè)方向進(jìn)一步研究,發(fā)現(xiàn)這些子類(lèi)不在同一個(gè)層次上,且

有些名詞不能受數(shù)量詞修飾?,F(xiàn)在的劃分準(zhǔn)則如下

第5章單詞與詞組的處理與分析

凡是個(gè)體名詞都應(yīng)該有自己特有的個(gè)體量詞,而且該量詞前的數(shù)詞可

以是“一”,如“一本書(shū)”,“一頭?!?,“一位教授”;物質(zhì)名詞不可以用

個(gè)體量詞計(jì)數(shù),但是可以使用度量詞或容器量詞等來(lái)計(jì)量,如“兩碗水”,

“三公尺布”,“一身泥土”等等。集合量詞可以細(xì)劃分為兩個(gè)子類(lèi),一類(lèi)

是可以分的,即可以進(jìn)行個(gè)體化的,例如“四十位師生”,“三個(gè)兄弟”等

等,但是其個(gè)體量詞的數(shù)詞不能是“一”。而另一類(lèi)是不可分的,即在它

們前面只能使用非個(gè)體量詞之外的其它量詞,例如“兩車(chē)軍火”,“一隊(duì)車(chē)

輛”。抽象名詞前一般只可以使用“種類(lèi)量詞”與“不定量詞”,例如

,,一些勇氣,,,“一種精神,,,而且有一部分抽象名詞作動(dòng)詞“有”的賓語(yǔ)

構(gòu)成述賓詞組后還可以受“很”一類(lèi)副詞修飾,例如“很有勇氣”,“非常

有精神”。無(wú)量名詞不能接在任何數(shù)詞或數(shù)量詞組之后。專(zhuān)有名詞的特

點(diǎn)就是在于它的專(zhuān)有性,專(zhuān)有名詞在用漢語(yǔ)拼音字母表示時(shí)或這被譯成英

語(yǔ)時(shí),其中首字母必須大寫(xiě),我們認(rèn)為將專(zhuān)有名詞單分一個(gè)子巡牘意

義的。專(zhuān)有名詞一般不受數(shù)量詞修飾,但是在某些語(yǔ)境之中,它布麗以

接在數(shù)量詞之后。0

第5章單詞與詞組的處理與分析

綜上所述,名詞與量詞之間的搭配關(guān)系為劃分名詞子類(lèi)

提供了相當(dāng)明確的準(zhǔn)則。但是,有些語(yǔ)言現(xiàn)象人們處理起來(lái)仍

會(huì)感到棘手。首先我們來(lái)討論個(gè)體量詞,“個(gè)”這個(gè)量詞用得非

常廣泛,可以這樣說(shuō)“一個(gè)理論”,“兩個(gè)學(xué)說(shuō)”,非常顯然,

在這里的“個(gè)”與“一個(gè)蘋(píng)果”,“兩個(gè)梨”,“五個(gè)同學(xué)”中

的“個(gè)”很難區(qū)分。但是又不適宜據(jù)此我們就將“理論”,“學(xué)

說(shuō)”也劃分到個(gè)體名詞中去,還是劃分到抽象名這一類(lèi)詞較為合

適。又如不可分的集合名詞,“人口”,“大軍”,不能接在數(shù)

量詞之后,卻可以說(shuō)“十億人口”,“十萬(wàn)大軍”。

第5章單詞與詞組的處理與分析

5.4.2詞語(yǔ)的屬性描述

語(yǔ)法的屬性描述將反映名詞的特殊性質(zhì)。分類(lèi)法刻劃事物

雖然簡(jiǎn)潔、清晰、信息密度大,但是屬于同一類(lèi)的事物仍然可能

各自具有不同的特點(diǎn),例如,“魚(yú)”和“?!蓖瑢賯€(gè)體名詞,但

是“魚(yú)”卻具有專(zhuān)用個(gè)體量詞“尾”,而牛具有專(zhuān)用個(gè)體量詞

“頭"然而,心魚(yú)”通常還可以與度量詞“斤,克”搭配,“?!?/p>

就不行。因此,這就要依靠語(yǔ)法屬性描述來(lái)刻劃每一詞語(yǔ)的語(yǔ)

法信息。對(duì)于名詞,除了確定每個(gè)詞的子類(lèi)外,還應(yīng)該詳細(xì)描

述每個(gè)名詞可以搭配的各類(lèi)量詞。此外,我們注意和應(yīng)用某些

個(gè)體名詞的特殊性質(zhì)也是非常必要的。

就第5章單詞與詞組的處理與分析______________

屬性描述可以對(duì)每一類(lèi)詞的語(yǔ)法屬性進(jìn)行相當(dāng)充分的發(fā)掘。

例如,對(duì)于作為研究重點(diǎn)的動(dòng)詞人們共確定了近40項(xiàng)屬性。這

些屬性大致可歸納為7類(lèi):第一類(lèi)是關(guān)于動(dòng)詞本身特性的,例如

該動(dòng)詞是不是系動(dòng)詞、助動(dòng)詞,趨向動(dòng)詞。第二類(lèi)是關(guān)于動(dòng)詞

變化形態(tài)的。第三類(lèi)描述該動(dòng)詞有無(wú)名詞特性,例如能不能直

接修飾名詞,能不能直接受名詞修飾、能不能后接趨向動(dòng)詞,能

帶什么樣的賓語(yǔ)--謂詞,雙賓等等。第四類(lèi)反映該動(dòng)詞同一些

虛詞的關(guān)系,例如它前面能不能受“不,沒(méi),很”修飾,后面能

不能帶“著,了,過(guò)"。第五類(lèi)描述動(dòng)詞在句子中的各種功能,

即該動(dòng)詞在句子中能否具有單獨(dú)的屬性。第六類(lèi)刻劃動(dòng)詞與后

繼成分的關(guān)系,即該動(dòng)詞能否后接作動(dòng)詞“有”的賓語(yǔ)等等。

第七類(lèi)包含其它特性。當(dāng)然,這樣確定的蹴是不是看k完

整還值得研究。4?■

第5章單詞與詞組的處理與分析

下面列出詞典中量詞庫(kù)中的各個(gè)屬性字段及其簡(jiǎn)單的解釋。

個(gè)體量詞:個(gè)體量詞填“個(gè)“,如,個(gè),本。

集合量詞:集合量詞填”集”,如;套,系列。

度量詞:度量詞(單位量詞)填“度”如,尺,公斤,度,分,秒。

最近高位:如尺的最近高位是丈,填“丈”。

最近低位:如尺的最近低位是寸,填”寸

容器量詞:容器量詞填“容”如:瓶,杯。

種類(lèi)量詞:種類(lèi)量詞填“種”,如;種,類(lèi)。

成形量詞:成形量詞填“形”,如;攤,堆。

不定量詞:不定量詞填“不“,如,些,點(diǎn)兒。

任一:只能受數(shù)詞“一”修飾的,填“一”,如:系列。

后接名詞:擇要填寫(xiě)該量詞后可接的名詞.例如,對(duì)“艘“可填“輪船,軍艦”。

云第5章單詞與詞組的處理與分析

-----------------------------------------------

動(dòng)量詞:動(dòng)量詞填“動(dòng)",如;次,下。

時(shí)量詞:時(shí)量詞填”時(shí)”,如年,月,時(shí),分。

表示順序:該量詞前接數(shù)詞可表示順序的填“序”,如,月,年。

表示數(shù)量:該量詞前接數(shù)詞可表示數(shù)量的填“數(shù)”,如,斤,天,年。

5.4.3詞語(yǔ)的兼類(lèi)

兼類(lèi)系指同一個(gè)詞具有不同的詞類(lèi)語(yǔ)法功能,即這個(gè)詞兼屬不同的詞類(lèi).

⑴兼類(lèi)詞只占詞匯的很小一部分。

(2)常用詞兼類(lèi)現(xiàn)象嚴(yán)重。往往越是常用的詞,不同的用法就越多,兼類(lèi)現(xiàn)象也

就越多。所以,盡管兼類(lèi)現(xiàn)象只占了詞匯的很小一部分,但兼類(lèi)詞使用的頻繁程

度并不很低。

(3)兼類(lèi)現(xiàn)象紛繁,覆蓋面很廣,涉及了大部分詞類(lèi)。._—

(4)兼類(lèi)現(xiàn)象的分布很不一致。一??二一

第5章單詞與詞組的處理與分析

two-------------------------------------------------------------------------------

上面情況說(shuō)明,不同的詞類(lèi)在兼類(lèi)問(wèn)題中的地位不是等同

的。有些詞類(lèi),兼類(lèi)現(xiàn)象很?chē)?yán)重,解決其兼類(lèi)問(wèn)題比較困難,而

這些困難的兼類(lèi)問(wèn)題,恰恰是兼類(lèi)現(xiàn)象中最基本的問(wèn)題,可以把

這些詞類(lèi)叫做“基本兼類(lèi)詞類(lèi)”。它們是:名詞、方位詞、代詞、

動(dòng)詞、能愿動(dòng)詞、形容詞、副詞、介詞、連詞等9類(lèi)詞。另一些

詞類(lèi),或者其兼類(lèi)問(wèn)題的解決比較容易,或者其兼類(lèi)現(xiàn)象極少,

例如時(shí)間詞中,僅僅“過(guò)去”一詞兼屬“時(shí)間(詞)一趨向(動(dòng)詞)一

動(dòng)(詞)”3類(lèi),我們可以把這些詞類(lèi),叫做“非基本兼類(lèi)詞類(lèi)L它

們是:時(shí)間詞、數(shù)詞、量詞、區(qū)別詞、趨向動(dòng)詞、助詞等6類(lèi)詞。

顯然,對(duì)于兼類(lèi)問(wèn)題的研究也是很重要的,而且有較大的用途。

后第5章單詞與詞組的處理與分析

-oScHro-----------------------------------------------------------

兼類(lèi)詞所包含兼類(lèi)詞類(lèi)的個(gè)數(shù)各有不同,有的兼類(lèi)詞可能

只含兩個(gè)兼類(lèi)詞類(lèi),有的兼類(lèi)詞可能就含有三個(gè)兼類(lèi)詞類(lèi)。某一

類(lèi)兼類(lèi)現(xiàn)象所包含兼類(lèi)詞類(lèi)的個(gè)數(shù)叫做兼類(lèi)長(zhǎng)度。兼類(lèi)長(zhǎng)度等于

2,而且所含兼類(lèi)詞類(lèi)均屬基本兼類(lèi)詞類(lèi)的兼類(lèi)類(lèi)型,叫做“,兼

類(lèi)基本型”。如果我們解決了兼類(lèi)基本型的兼類(lèi)問(wèn)題,實(shí)際上就

等于解決了大部分的兼類(lèi)問(wèn)題。而且其它的兼類(lèi)問(wèn)題,也可以設(shè)

法將它們轉(zhuǎn)化為兼類(lèi)基本型,這樣,我們就可以抓住兼類(lèi)現(xiàn)象中的

核心問(wèn)題,通過(guò)少量的規(guī)則來(lái)處理盡可能多的兼類(lèi)現(xiàn)象。否則,

需要的規(guī)則就多得多。

第5章單詞與詞組的處理與分析

兼類(lèi)基本型有以下幾種:

(1)“動(dòng)一名”兼類(lèi)

這種兼類(lèi)基本型我們最為常見(jiàn)。兼類(lèi)詞多由動(dòng)詞轉(zhuǎn)化而來(lái)。例如“報(bào)告,編

用,裝備,愛(ài)好,刺激,工作,”等等。

(2)“動(dòng)一形”兼類(lèi)

這種兼類(lèi)基本型我們也是常見(jiàn)的。兼類(lèi)詞主要由形容詞轉(zhuǎn)化而來(lái),形容詞后若

帶賓語(yǔ),則認(rèn)為其兼有動(dòng)詞的類(lèi)。例如,”多,苦.嚴(yán)肅,繁榮,普及,鞏固”等。

(3)“名一形”兼類(lèi)

這種兼類(lèi)基本型我們還是比較常見(jiàn)的。兼類(lèi)詞多由形容詞轉(zhuǎn)化而來(lái),例如“秘

密,規(guī)矩,痛苦,困難,煩惱,科學(xué)”等。

下面幾種兼類(lèi)基本型也是比較常見(jiàn)的。

(4)“形一副”兼類(lèi).

有的形容詞在修飾謂詞性成分時(shí),意義有所改變,句法功能與副詞相同,形成”

形一副”兼類(lèi)。例如J直、怪、老、全、白、光、快、偏、死、真、干”等:

試比較:路很直(“直”為形容詞).

他直哭(“直”為副詞).F.二0

后第5章單詞與詞組的處理與分析

-tmcHro-------------------------------------------------------------------------------------

⑸“動(dòng)一介”兼類(lèi)

很多介詞是由動(dòng)詞發(fā)展而成的,因此,介詞常常與動(dòng)詞兼類(lèi)。例如”在、朝、向、

往、順、對(duì)、為、跟、隨著”等:

試比較;我在家「在”為動(dòng)詞).

我在辦公室開(kāi)會(huì)(“在”為介詞)

(6)“介一副”兼類(lèi)

這種兼類(lèi)基本型數(shù)目有限。例如J連、就、至、從”等。

試比較:他從日本來(lái)「從”為介詞).

他從不抽煙「從"為副詞).

(7)“名一副”兼類(lèi)

這種兼類(lèi)詞不多見(jiàn)。例如J極端”。

試比較:你不要走另一個(gè)極端(“極端”為名詞)

.他對(duì)顧客極端熱忱(“極端”為副詞)5a

第5章單詞與詞組的處理與分析

(8)“動(dòng)一副”兼類(lèi).

這種兼類(lèi)基本型數(shù)目有限。例如J斷、還、越、比較”等。

試比較;老人斷了氣(“斷”為動(dòng)詞);斷無(wú)此事(“斷"為副詞).

(9)“代一副”兼類(lèi)

在代詞中,有些我們常見(jiàn)的指別詞,亦可修飾謂詞性成分。例如“每、各、本、

另、另外”等等,屬于此類(lèi)。

試比較:本編輯部概不負(fù)責(zé)(“本”為代詞).

我本姓馮(“本”為副詞).

(10)”能愿(動(dòng)詞)一動(dòng)”兼類(lèi)

有的能愿動(dòng)詞可以帶體詞性賓語(yǔ)。例如”要、會(huì)、得、想、該、配”等,屬于此類(lèi)。

試比較他要去美國(guó)要”為能愿動(dòng)詞)

他要這本書(shū)(“要”為動(dòng)詞).

后第5章單詞與詞組的處理與分析

trnuJo--------------------------------------------------

(11)“介一連”兼類(lèi)

這一類(lèi)兼類(lèi)僅有“跟、和、同、與”幾個(gè)詞,它們使用頻率很高,區(qū)別起來(lái)相當(dāng)

困難。

試比較:我和小張都會(huì)德語(yǔ)(“和”為連詞).

我和小張說(shuō)了這件事和”為介詞).

(12)“副一連”兼類(lèi)

這一類(lèi)兼類(lèi)有''不過(guò)、或、或者、并、盡管、只是“等,區(qū)別起來(lái)比較困難。

試比較;這個(gè)建議對(duì)他們或有好處(“或“為副詞),

你或他都可以出國(guó)(“或"為連詞).

(13)”方位(詞)一動(dòng)”兼類(lèi)

這一類(lèi)兼類(lèi)只包含“上,下”兩句詞,但由于”在……上在?一類(lèi)

搭配很常見(jiàn),有時(shí)可能產(chǎn)生混亂,所以將其列為兼類(lèi)基本型。

第5章單詞與詞組的處理與分析

試比較:我上學(xué)(,,上”為動(dòng)詞).

我在昆明上學(xué)(“上”為動(dòng)詞).

我在床上(”上”為方位詞).

我在床上看書(shū)(”上”為方位詞).

非基本兼類(lèi)詞類(lèi)的兼類(lèi)問(wèn)題我們比較容易解決,因?yàn)樗鼈兊那耙粋€(gè)或者

后一個(gè)句法單元(通常是一個(gè)單詞)有十分強(qiáng)的黏附性,可以根據(jù)這些句法單

元來(lái)區(qū)別兼類(lèi)現(xiàn)象。例如,“本”兼屬代詞、副詞、量詞3類(lèi),我們只要看它

的直接前趨詞是否為數(shù)詞,就可以判斷它是否為量詞。又如,“微”兼屬區(qū)

別詞、副詞兩類(lèi),如果它的直接后繼詞為名詞,就馬上可以判斷它為區(qū)別詞。

因此,在處理兼類(lèi)問(wèn)題時(shí),我們可以根據(jù)先易后難的原則,它先解決這一部

分的問(wèn)題,就可以大大簡(jiǎn)化處理的過(guò)程。這種方法,我們把叫做”兼類(lèi)詞過(guò)濾

,,

一詞多類(lèi),形成了詞的兼類(lèi)現(xiàn)象,詞類(lèi)標(biāo)注,要解決詞的兼類(lèi)問(wèn)題。

一詞多義,形成了詞的多義現(xiàn)象,語(yǔ)義標(biāo)注,主要戛解決詞的多義問(wèn)題.

后第5章單詞與詞組的處理與分析

-oScHro-----------------------------------------------------------

5.5詞語(yǔ)處理的其它問(wèn)題

5.5.1生詞處理

在機(jī)器翻譯過(guò)程中,肯定免不了輸入的原文中有機(jī)器詞典不

存在的生詞,這就要求機(jī)器翻譯系統(tǒng)有較好的生詞處理功能,當(dāng)

然這必須有好的方法、好的程序能夠?qū)υ撛~進(jìn)行自動(dòng)處理,包括

生成句法分折需要的各種信息。

目前的系統(tǒng)對(duì)查找不到的詞都按照名詞處理,語(yǔ)法、語(yǔ)義信

息與普通的名詞同,中文譯文為英文原文。生詞處理進(jìn)一步完善

方法是,處理過(guò)程由構(gòu)詞分析,句法、語(yǔ)義信息假定,用,確肯定

定,詞典添加等幾個(gè)子過(guò)程構(gòu)成。---

第5章單詞與詞組的處理與分析

構(gòu)詞分析應(yīng)該按照構(gòu)詞法分析各種不同的構(gòu)詞形式,建立

基本的詞根、詞綴字典,歸納出適合于機(jī)器分析的基本構(gòu)詞規(guī)

則。由規(guī)則驅(qū)動(dòng)構(gòu)詞分析,經(jīng)過(guò)構(gòu)詞分析就可以推導(dǎo)出可能的

基本的語(yǔ)法語(yǔ)義信息和譯文譯義。詞處理模塊可以據(jù)此生成詞

表,用于句法分析,處理結(jié)束后,機(jī)器可以按照用戶(hù)的要求修

改、確認(rèn)系統(tǒng)對(duì)生詞的處理結(jié)果,并決定是否可以將該詞條增

加到主詞典中。另外,在生詞處理中,還應(yīng)該包括建立生詞詞

典,對(duì)主詞典中不存在的詞條進(jìn)行登記,然后成批增加到主詞

典中,以提高效率。當(dāng)然,為了盡可能減少機(jī)器翻譯中出現(xiàn)的生

詞,我們還應(yīng)該有一些特殊詞類(lèi)的處理方法,這是下二2所要

介紹的。_6°*^

第5章單詞與詞組的處理與分析

5.5.2中國(guó)人名的處理

實(shí)際上,漢語(yǔ)自動(dòng)分詞有兩個(gè)基本困難,一個(gè)是歧義切分問(wèn)題,

另一個(gè)就是生詞的處理問(wèn)題。漢語(yǔ)詞匯變化太多,無(wú)論建立多么龐

大的詞典,都不可能窮舉所有的詞語(yǔ)。而且,隨著時(shí)間的推移,還

會(huì)源源不斷地出現(xiàn)大量的新詞。對(duì)于應(yīng)該收入機(jī)器詞典而沒(méi)有被收

入進(jìn)去的詞,實(shí)際上這是指一些被遺漏的詞,或者是一些未被收入

的新詞等等,這基本上是不可避免的,應(yīng)納入生詞處理的范圍。這

里主要討論中國(guó)人名的處理。

給人初步的感覺(jué),中國(guó)人名太多太多,處理可能也非常難。的

確,中文的名字選取隨心所欲,沒(méi)有任何可以遵循的規(guī)則,完全根

據(jù)個(gè)人的喜好,可以使用任何漢字或者漢字串作為名字。由此可見(jiàn),

除了少數(shù)著名人物以外,要把所有的中文名字都收入某一詞典模塊

基本上是不可能的,這只能讓機(jī)器翻譯系統(tǒng)具有這方面處理也功能。

第5章單詞與詞組的處理與分析

中文姓名的處理的確是一個(gè)非常復(fù)雜的問(wèn)題,不僅僅數(shù)量

太多,而且隨時(shí)間的變化而不斷變化。中文姓名的結(jié)構(gòu)也復(fù)雜,

表現(xiàn)形式多樣,姓名用字不僅可以自身成詞,而且也可以與相鄰

的字構(gòu)成詞。例如“馬”,可以當(dāng)作名詞來(lái)指一種家畜,也可以

作姓。所有的這些問(wèn)題都增加了姓名的處理難度,也成為一個(gè)研

究難題。

目前大多數(shù)姓名處理的方法都是利用姓名的分布規(guī)則、姓

名的用字規(guī)律、姓氏用字、名字用字的出現(xiàn)頻率和概率估值,以

及姓名的前后約束用詞等等信息綜合進(jìn)行推斷,也提出了一種基

于變換的方法(還不十分成熟)。

?k第5章單詞與詞組的處理與分析______________

下面,我們介紹基于語(yǔ)料庫(kù)和規(guī)則庫(kù)的中文人名處理方法:

(1)建立中文人名語(yǔ)料庫(kù),對(duì)人名語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì),列出可以用作雙名

的字極其在雙名中的位置,列出單名用字;

(2)采用最大匹配法進(jìn)行自動(dòng)分詞;

(3)如果句子中出現(xiàn)在詞典中標(biāo)為姓氏的詞,則可以找出其待定的中文

人名,檢測(cè)條件為:姓氏字或詞(復(fù)姓)后跟一個(gè)可以用作雙名的詞,或者

后跟一個(gè)雙名首字,再跟一個(gè)雙名末字;或者后跟一個(gè)單名字;

(4)利用可以依的規(guī)則對(duì)待定的中文人名進(jìn)行調(diào)整,這里的規(guī)則其實(shí)就

是一些用于人名處理的啟發(fā)信息,包括:

稱(chēng)謂詞,如“女士、先生、老師”;

地名和單位,人名前用單位名稱(chēng)和地名表示所在地笠|

人名前加“的”的定語(yǔ),如“年過(guò)四十的李力"

第5章單詞與詞組的處理與分析

(5)分詞規(guī)范里對(duì)于“小李”、“老王”、“劉總”、“張

大爺”、“何大媽”、“鐘哥”、“林姐”等等簡(jiǎn)稱(chēng)和尊稱(chēng)都劃為

分詞單位,這些表示的人名分詞單位可以采用如下一些簡(jiǎn)單的規(guī)則

進(jìn)行處理和分析:

設(shè)X為當(dāng)前詞,F(xiàn)為當(dāng)前詞的前一個(gè)詞,B為當(dāng)前詞的后一個(gè)

詞,SN為姓氏集,則可以有這樣的處理規(guī)則:

設(shè)Kl={小、老、大},若X£SN,并且F£K1

則FX是姓名

設(shè)K2={總、工、頭、…},若X&SN,并且B£K2

貝ljXB是姓名。*

云第5章單詞與詞組的處理與分析

-----------------------------------------------

5.5.3中國(guó)地名的處理

機(jī)器翻譯中如果存在沒(méi)有被檢索到的中國(guó)地名,將會(huì)出現(xiàn)嚴(yán)重的分詞錯(cuò)誤。

例如以下句子:

這是篷萊縣小門(mén)家鄉(xiāng)政府所在地。

如果沒(méi)有地名專(zhuān)門(mén)處理,容易被切分成:

這/是/篷/萊/縣/小/門(mén)/家鄉(xiāng)/政府/所在地。

地名不像人名那樣又多又復(fù)雜,無(wú)法枚舉,目前有的機(jī)器翻譯系統(tǒng)的漢語(yǔ)

自動(dòng)分詞是通過(guò)機(jī)器詞典中窮舉地名來(lái)實(shí)現(xiàn)這一處理的。這對(duì)于面向真實(shí)文

本的自動(dòng)分詞是不可取的。因?yàn)榈孛?,或者都市洲府,或者市井鄉(xiāng)村,或者

名川大澤,或者窮鄉(xiāng)僻壤,理論上雖然可以窮舉,但是實(shí)際上是不可能窮舉

完全的。而且即使可以窮舉完全,地名的數(shù)量必然極其龐大,如果都收入分

詞自字典中,一方面它會(huì)使分詞詞典的規(guī)模急劇增加,增加系統(tǒng)的開(kāi)銷(xiāo),降

低了機(jī)器翻譯的效率;另一方面也會(huì)增加各種歧義現(xiàn)象出現(xiàn)的概率,;附切分

精度也有影響。-

第5章單詞與詞組的處理與分析

例如“于山”如果是一個(gè)地名,那么加入詞典中,貝U對(duì)“由于山區(qū)”

的切分變成鏈長(zhǎng)為2的交集歧義問(wèn)題。因此,有必要研究中國(guó)地名特點(diǎn)、

用字規(guī)律、用詞規(guī)律、構(gòu)詞規(guī)律和地名的上下文規(guī)律,實(shí)現(xiàn)真實(shí)文本中中

國(guó)地名的自動(dòng)處理。

中國(guó)地名的特點(diǎn),有一些對(duì)處理構(gòu)成一定的難度。例如,中國(guó)地名的長(zhǎng)

度沒(méi)有一定的限制,從一個(gè)到多個(gè)不等,像“京、津”這樣的簡(jiǎn)稱(chēng),長(zhǎng)度

為1;而“北京”長(zhǎng)度為2,“內(nèi)蒙古”長(zhǎng)度為3等等。另外,漢語(yǔ)的常用

字經(jīng)常出現(xiàn)在地名之中,例如“大直街”、“馬家溝”中的漢字都是常用

字。此外,地名中含有的多字詞也不利于地名的處理,例如“黃果樹(shù)瀑布”

中的“果樹(shù)”本身就是一個(gè)詞,這肯定增加了難度。

但是,中國(guó)地名的處理過(guò)程中也有可以利用的信息,例如一些后綴有利于

地名的處理,像“鄉(xiāng)、村、市、縣”等。一—一

第5章單詞與詞組的處理與分析

對(duì)于地名的處理,雖然已經(jīng)有不少的方法,但是一般可以采用統(tǒng)計(jì)

與規(guī)則相結(jié)合的方法,現(xiàn)在舉例說(shuō)明如下:

(1)先建立一個(gè)包括省、自治區(qū)、直轄市、市、縣、區(qū)、鎮(zhèn)、鄉(xiāng)、村,

以及山脈、河流、湖泊、峽谷、島嶼等等的中國(guó)地名庫(kù),收集盡可能多

的地名。越多、越詳細(xì)越好,這將為以后的高質(zhì)量機(jī)器翻譯打下好的基

礎(chǔ)。

(2)可以先統(tǒng)計(jì)出地名庫(kù)中地名用字以及地名的首、中、尾用字規(guī)律

及頻率,然后再建立地名用字庫(kù),最后統(tǒng)計(jì)出地名用字庫(kù)中各個(gè)字用做

地名的首字、地名的中間字、地名的尾字的概率。這里面主要采用統(tǒng)計(jì)

的方法。

(3)采用某一分詞方法進(jìn)行分詞。

(4)對(duì)于那些單字詞,如果它確實(shí)屬于地名用字庫(kù),則可以激活地名

處理過(guò)程。先去尋找占據(jù)中文地名首字的詞或者字,然后再尋找中間的

和末尾的字或者詞。利用字頻和中文地名用字的統(tǒng)計(jì)規(guī)律確定中文地

名的邊界。

后第5章單詞與詞組的處理與分析

(5)在地名初步處理結(jié)束以后,可以進(jìn)一步調(diào)整其正確率。比如對(duì)于

連續(xù)的地名“黑龍江省哈爾濱市”,應(yīng)該將它們分開(kāi)。對(duì)于連續(xù)地名的分開(kāi)可以

采用如下的兩種方法:

[1]我們可以使用規(guī)則進(jìn)行處理。中文名的末尾字“省、市、縣、鄉(xiāng)、村”等等

都有很強(qiáng)的顯性特征可以方便地用于地名的右邊界,所以我們可以以它們?yōu)殛P(guān)

鍵字,然后采用規(guī)則的方法加以處理。當(dāng)然,還有其他的規(guī)律可以采用規(guī)則表

示出來(lái),并且也可以用于地名處理的過(guò)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論