版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能與機(jī)器翻譯
單詞與詞組分析
主講:楊憲澤
第5章單詞與詞組的處理與分析
第5章單詞與詞組的處理與分析
對(duì)于機(jī)器翻譯研究來(lái)說(shuō),本章的第一任務(wù)是要建立語(yǔ)言的
機(jī)器詞典,這一機(jī)器詞典是多語(yǔ)言的。例如各自的藏,英,漢語(yǔ)
機(jī)器詞庫(kù)。
單詞與詞組的處理與分析,對(duì)于漢語(yǔ)來(lái)說(shuō),首先必須要進(jìn)行
單詞的自動(dòng)切分。自動(dòng)切分歧義部分是解決的難點(diǎn),不但可能
用到規(guī)則推理,而且還可能用到語(yǔ)法分析,語(yǔ)義用分析,更詳細(xì)
的過(guò)程可以結(jié)合第六章等一起研究。
詞語(yǔ)分類(lèi)和兼類(lèi)的分析與處理是本章研究的又一重點(diǎn)。
本章的最后將研究詞處理的一些細(xì)節(jié)問(wèn)題。
-0^^第5章單詞與詞組的處理與分析
5.1機(jī)器詞典概述
人工翻譯離不開(kāi)詞典,當(dāng)然,機(jī)器翻譯也離
不開(kāi)機(jī)器詞典。機(jī)器詞典也被稱(chēng)為電子詞典,簡(jiǎn)
稱(chēng)詞典。機(jī)器詞典的作用在機(jī)器翻譯中是最重要
的,因?yàn)樽鋈魏螜C(jī)器翻譯工作都必須通過(guò)查機(jī)器
詞典來(lái)得到相關(guān)的翻譯元素---單詞和詞組。如何
有效的組織、建立機(jī)器詞典,如何更好地利用機(jī)
器詞典中包含的各種知識(shí),是一個(gè)值得深入研究
的課題。
第5章單詞與詞組的處理與分析
5.1.1基于分析和轉(zhuǎn)換的機(jī)器翻譯方法
機(jī)器詞典的作用:
(1)機(jī)器詞典的好壞是更好的實(shí)現(xiàn)實(shí)用化機(jī)器翻譯系統(tǒng)軟件的障礙之一?,F(xiàn)
有的一些機(jī)器翻譯系統(tǒng)在達(dá)到實(shí)用化階段時(shí)往往因?yàn)闄C(jī)器詞典規(guī)模的限制阻礙了
性能的進(jìn)一步提高。因?yàn)檎Z(yǔ)言詞匯是一個(gè)開(kāi)放的集合,無(wú)論建立多么龐大的詞
典,都不可能窮舉所有的詞。而且,隨著時(shí)間的推移,還會(huì)出現(xiàn)大量的新詞。因
比,只有盡可能的擴(kuò)充機(jī)器詞典的規(guī)模,才可能使機(jī)器翻譯系統(tǒng)更實(shí)用,更會(huì)被
更多的行業(yè)、更多的人所接受。
(2)機(jī)器詞典是機(jī)器翻譯的質(zhì)量的關(guān)鍵,要達(dá)到機(jī)器翻譯的全自動(dòng)、高質(zhì)量,
就必須有一部信息豐富、易于使用的機(jī)器詞典。一部好的機(jī)器詞典不僅要有龐大
為數(shù)量,而且要有盡可能高的質(zhì)量,只要這樣,才可能是機(jī)器翻譯的質(zhì)量更高。
(3)電子詞典(機(jī)器詞典)不僅可以用于機(jī)器翻譯,而且也可以用在自然語(yǔ)
言理解、自然語(yǔ)言處理諸多方面。因此,電子詞典(機(jī)器詞典)是大峽知識(shí)工
程的基礎(chǔ)工作,它可以為知識(shí)系統(tǒng)提供一個(gè)基本的知識(shí)超1
第5章單詞與詞組的處理與分析
對(duì)于機(jī)器翻譯系統(tǒng)來(lái)說(shuō),為了適應(yīng)不同專(zhuān)業(yè)領(lǐng)域的翻譯要求,需要配有大
量的專(zhuān)業(yè)詞匯。因此,機(jī)器翻譯系統(tǒng)的詞典又可以分為通用詞典和專(zhuān)業(yè)詞典兩部
分。如專(zhuān)門(mén)的縮略語(yǔ)詞典、特殊字詞典等等。還可以把通用詞典再細(xì)分為名詞詞
典、動(dòng)詞詞典、成語(yǔ)詞典等等。
機(jī)器詞典的組織機(jī)構(gòu)對(duì)于提高詞語(yǔ)的檢索速度是非常主要的。一定的組織結(jié)
構(gòu)形式和相應(yīng)的算法相配合,可以節(jié)約存儲(chǔ)空間,提高檢索速度,從而提高機(jī)器
翱譯系統(tǒng)的整體翻譯速度。
機(jī)器詞典從存儲(chǔ)形式來(lái)看,可以分為定長(zhǎng)字段型、變長(zhǎng)字段型和定變長(zhǎng)混
合型三種類(lèi)型;從索引格式看,可以分為一級(jí)索引和多級(jí)索引等等。
詞語(yǔ)的長(zhǎng)短是不同的,例如,某些常用詞的信息特別豐富,書(shū)本詞典可以占
滿(mǎn)幾頁(yè),而有一些詞語(yǔ)卻只要一行。這樣,如果所有詞語(yǔ)都使用定長(zhǎng)字段,則必
須依據(jù)最長(zhǎng)詞語(yǔ)確定字段長(zhǎng)度,而相當(dāng)多的短詞語(yǔ)將浪費(fèi)巨大的存儲(chǔ)空間。所以,
般情況下一條詞語(yǔ)的有關(guān)信息的存儲(chǔ)都采用變長(zhǎng)形式,這可以用鏈罌作實(shí)現(xiàn)。
第5章單詞與詞組的處理與分析
5.2自動(dòng)分詞
漢語(yǔ)自動(dòng)分詞是我國(guó)計(jì)算機(jī)科學(xué)研究的重要課題之一,它是自然語(yǔ)言理
解、自動(dòng)翻譯、電子詞典等信息處理的基礎(chǔ)性工件。所謂分詞,就是要把一
句話(huà),一篇文章甚至一部著作中的詞語(yǔ)逐個(gè)逐個(gè)的切分出來(lái)。漢語(yǔ)不象拼音
文字那樣有自然切分標(biāo)志,而且詞語(yǔ)長(zhǎng)短不一,詞語(yǔ)的定義也不統(tǒng)一,語(yǔ)言
學(xué)中對(duì)詞的定義多種多樣,造成切分的多樣性,這也自然給自動(dòng)分詞的同一性
帶來(lái)很大困難。漢語(yǔ)中詞語(yǔ)本身的詞素、詞、詞組無(wú)明顯的區(qū)分界限,沒(méi)有
一個(gè)統(tǒng)一的標(biāo)準(zhǔn),許多東西都是憑經(jīng)驗(yàn)和語(yǔ)感來(lái)劃分。.這項(xiàng)工作如果全部交
給計(jì)算機(jī)來(lái)作,就沒(méi)有那么簡(jiǎn)單了。
盡管計(jì)算機(jī)自動(dòng)分詞在諸多方面存在著許多困難,但是由于自動(dòng)分詞是
許多應(yīng)用工作的第一步(也是自動(dòng)翻譯的第一步),這就促進(jìn)了研究的持續(xù)不斷,
提出了不少方法,它們各有優(yōu)缺點(diǎn),也可能是基于特定環(huán)境的。
第5章單詞與詞組的處理與分析
5.2.1典型的自動(dòng)分詞方法
5.2.1.1正向最大匹配法和逆向最大匹配法
正向最大匹配法是最早提出的自動(dòng)分詞方法,它的基本思想是先取一句話(huà)
的前六個(gè)字查字庫(kù),若不是一個(gè)詞,則刪除六個(gè)字的最后一個(gè)字再查,這樣一直
查下去,至找到一個(gè)詞為止。句子剩余部分重復(fù)此工作,直到把所有的詞都分
出為止。逆向最大匹配法也一樣,每次匹配不成功時(shí)去掉漢字串中最前面的一
個(gè)字。
兩法思路清晰,易于計(jì)算機(jī)實(shí)現(xiàn),但由于試圖用相對(duì)穩(wěn)定的詞表來(lái)代替靈
活多變,充滿(mǎn)活力的詞匯,把詞庫(kù)搜索作為判詞的唯一標(biāo)準(zhǔn),因而具有很大的
主觀性和局限性。另外,這兩種方法實(shí)際上否認(rèn)了語(yǔ)言中的歧義現(xiàn)象。
在實(shí)際應(yīng)用中,方法有所變化。如下述算法我們初始不是取六個(gè)字而是取長(zhǎng)
度最短詞的個(gè)數(shù)。
第5章單詞與詞組的處理與分析
A1:一條漢語(yǔ)語(yǔ)句分劃成單一字符XI,X2,…,XM。
A2:決定語(yǔ)詞中可能出現(xiàn)的詞最大字符長(zhǎng)度Lmax,最小字符
長(zhǎng)度Lmino
A3:逆向匹配,取語(yǔ)句最后的Lmin個(gè)字查關(guān)鍵詞庫(kù),若查不到,
加入一個(gè)字重復(fù)此工作,直至字符數(shù)為L(zhǎng)max為止。
A4:若實(shí)施A3查不到詞,去掉語(yǔ)句中最后一個(gè)字,再實(shí)施A3,直
至整個(gè)語(yǔ)句只剩下Lmin為止。
第5章單詞與詞組的處理與分析
5.2.1.2高頻優(yōu)選法
這一方法基于詞頻的統(tǒng)計(jì)、字與字之間的構(gòu)成結(jié)合律和歧
義切分等現(xiàn)象的分析而提出來(lái)的。根據(jù)《現(xiàn)代漢語(yǔ)頻率詞典》,
對(duì)于報(bào)刊和政論性文章,不同音節(jié)詞的詞頻構(gòu)成為:雙音節(jié)詞大
約有74%;三音節(jié)詞大約有3.7%;單音節(jié)詞大約有17.2%;而
五以上字音節(jié)詞則大約只有0.4%左右。漢語(yǔ)是一字一音節(jié),因
而也可以說(shuō),兩字組詞的頻率比其它所有方式的概率加起來(lái)都還
要多。自動(dòng)分詞時(shí)首先考慮兩字詞,然后再考慮單字詞,如此頻
率低的詞語(yǔ)最后才考慮。這種方法提高了分詞效率,對(duì)歧義問(wèn)
題也無(wú)能為力,出錯(cuò)率并不低?!觯?—"
■第5章單詞與詞組的處理與分析
HJA--------------------------------------------------------------------------------
5.2.1.3其它方法
設(shè)立切分標(biāo)志
切分標(biāo)志有自然和非自然之分。自然切分標(biāo)志是指文章的非
文字符號(hào),例如標(biāo)點(diǎn)符號(hào)等等;非自然切分標(biāo)志是利用詞綴和不
構(gòu)成詞的詞(單字詞等等)。設(shè)立切分標(biāo)志方法的基本思想就是
通過(guò)建立非自然切分標(biāo)志的一張表存儲(chǔ)于計(jì)算機(jī)中用程序來(lái)識(shí)別
所有的非自然標(biāo)志。這樣一來(lái),一個(gè)句子鏈將被化為若干短鏈,
然后再用其它切分方法進(jìn)行各種細(xì)加工,這種多方法合作的綜合
應(yīng)用,途徑增多,可以大大提高效率。
藍(lán)缸第5章單詞與詞組的處理與分析______________
擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)分詞法
它是以有限狀態(tài)機(jī)概念為基礎(chǔ)的方法。有限狀態(tài)機(jī)只能識(shí)別正
則語(yǔ)言,對(duì)有限狀態(tài)機(jī)作的第一次擴(kuò)充可以使其具有遞歸能力,這
樣就形成遞歸轉(zhuǎn)移網(wǎng)絡(luò)(RTN)。在RTN中,弧線(xiàn)上的標(biāo)志不僅可
以是終極符(語(yǔ)言語(yǔ)句中的各種詞語(yǔ))或非終極符(還沒(méi)有推導(dǎo)完
的詞類(lèi)、符號(hào)等等,例如名詞N,動(dòng)詞V,形容詞A等等),還可以
調(diào)用另外的子網(wǎng)絡(luò)名字的非終極符(例如字或字串的成語(yǔ)條件)。
這樣,計(jì)算機(jī)在運(yùn)行某個(gè)子網(wǎng)絡(luò)時(shí),就可以調(diào)用另外的子網(wǎng)絡(luò),還
可以遞歸調(diào)用。目前大多數(shù)的自然語(yǔ)言理解系統(tǒng)都把詞典組織成一
個(gè)表,表是靜態(tài)的。使用擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)來(lái)組織詞典就可以構(gòu)成一個(gè)
動(dòng)態(tài)的詞典,詞法擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)的使用,它使分詞處理和自然語(yǔ)言
理解系統(tǒng)的句法處理階段交互成為可能,并且有效地解決了漢語(yǔ)分
詞的歧義。'%—e
會(huì)第5章單詞與詞組的處理與分析
--------------------------------------
全自動(dòng)詞典切詞
這種方法完全使用切詞規(guī)則切分詞語(yǔ),其規(guī)則中的參數(shù)由詞
典提供。該方法可以部分解決歧義問(wèn)題,但因是匹配切詞,效率
不高。
規(guī)則描述語(yǔ)言切詞法
規(guī)則描述語(yǔ)言是用以描述漢語(yǔ)分詞、分析和生成規(guī)則的一種
工具。其中,整個(gè)規(guī)則語(yǔ)言將由若干個(gè)不同性質(zhì)的規(guī)則塊構(gòu)成,
而每一個(gè)規(guī)則塊又包括多條規(guī)則,這些規(guī)則塊的結(jié)構(gòu)一般采用多
層次的樹(shù)型結(jié)構(gòu)(當(dāng)然,也可以采用其它結(jié)構(gòu),例如鏈?zhǔn)浇Y(jié)構(gòu))。
該方法對(duì)正確描述漢語(yǔ)是一種有意義的嘗試,值得深入研究
第5章單詞與詞組的處理與分析
多遍掃描聯(lián)想法
這種方法是使用切分標(biāo)志把文本切分成若干子串。它一般分成兩步進(jìn)行:第
一步,使用自然切分標(biāo)志對(duì)文本進(jìn)行預(yù)處理;第二步,利用非自然切分標(biāo)志結(jié)合
玦想庫(kù)對(duì)文本進(jìn)行有效的分割。這兩布完成以后,再利用實(shí)詞的詞庫(kù)和聯(lián)想庫(kù)將
所有詞群細(xì)分為詞。在這種方法的操作中,分詞時(shí)將要充分利用各種語(yǔ)法知識(shí)、
玦想和回溯機(jī)制同時(shí)作用分割和細(xì)分階段,其目的在于更有效的解決歧義組合結(jié)
構(gòu)的切分問(wèn)題,并且兼有自動(dòng)糾錯(cuò)和檢錯(cuò)這樣的特殊功能。這種方法屬于組合方
法,方法的基點(diǎn)立足于可靠性、實(shí)用性和通用性。
神經(jīng)網(wǎng)絡(luò)分詞法
這種方法是模擬人腦功能采用并行、分布處理和建立數(shù)值計(jì)算模型工作的
方法。它將分詞知識(shí)所分散隱蔽式的方法存入神經(jīng)網(wǎng)絡(luò)內(nèi)部,然后再通過(guò)各種自
學(xué)習(xí)和訓(xùn)練修改內(nèi)部的權(quán)值,以達(dá)到正確的分詞效果,最后給出神經(jīng)網(wǎng)絡(luò)自動(dòng)分
詞結(jié)果。由于神經(jīng)網(wǎng)絡(luò)這一學(xué)科的研究有許多問(wèn)題尚未解決,所以此方法還處于
探索之中。_____
第5章單詞與詞組的處理與分析
專(zhuān)家系統(tǒng)分詞法
這種方法從專(zhuān)家系統(tǒng)角度把分詞的知識(shí)(包括常識(shí)性分詞知識(shí)與消除歧義
切分的啟發(fā)性知識(shí),即歧義切分規(guī)則)從實(shí)現(xiàn)分詞過(guò)程的推理機(jī)中獨(dú)立出來(lái),從
而使知識(shí)庫(kù)的維護(hù)與推理機(jī)的實(shí)現(xiàn)互不干擾,以達(dá)到使知識(shí)庫(kù)易于維護(hù)和管理。
這種方法還具有發(fā)現(xiàn)交集歧義字段和多義組合歧義字段的能力和一定的自學(xué)習(xí)功
輪。雖然專(zhuān)家系統(tǒng)研究相對(duì)成熟,但真正要把這一方法作為完善的機(jī)器翻譯自動(dòng)
分詞方法,還有很長(zhǎng)的路要走。
綜上所述,由于漢語(yǔ)的復(fù)雜性。我們很難以某種方法正確地、徹底地自動(dòng)分
同。這些不同的方法,它們各有不同的優(yōu)點(diǎn)和缺點(diǎn),適合不同的環(huán)境。但是如何
比較正確的評(píng)價(jià)、度量一個(gè)方法,則顯得尤為重要,這一點(diǎn)將在后面迨述。
第5章單詞與詞組的處理與分析
5.2.3自動(dòng)分詞的歧義問(wèn)題
自動(dòng)分詞的難點(diǎn)是歧義切分,而歧義切分字段
從構(gòu)成形式上可分為兩類(lèi):一類(lèi)是交集型歧義切分字
段,一類(lèi)是多義組合型歧義切分字段。
后第5章單詞與詞組的處理與分析
-OSCKIO-------------------------------------------------------------------------------------------------
5.2.3.1交集型歧義切分字段與解決方法
一般情況下,在多義組合型歧義切分字段中,歧義字段就是
一個(gè)歧義詞,而非歧義詞被包含在歧義詞當(dāng)中。例如,歧義字段
“語(yǔ)言學(xué)”同時(shí)也就是一個(gè)歧義詞,而非歧義詞“語(yǔ)言”和“學(xué)”
包含在歧義詞“語(yǔ)言學(xué)”中。在這種情況下,機(jī)器很難根據(jù)多義組
上型歧義切分字段本身來(lái)獲得非歧義詞的特征信息,程序只有跳出
多義組合型歧義切分字段自身的框架,參考歧義字段與其前趨字串
或后繼字串之間的關(guān)系,才有可能發(fā)現(xiàn)正確的切分。這就說(shuō)明,為
了對(duì)多義組合型歧義切分字段本身作出唯一正確的切分,不能只考
察歧義字段內(nèi)部的情況,還必須考察歧義字段與其前后字串之間的
關(guān)系。而在交集型歧義切分字段中,歧義字段本身就可以給我們提
k共非歧義切分的特征信息,因此,多義組合型歧義切分字段的自動(dòng)
切分比交集型歧義切分字段的自動(dòng)切分要難得多。
藍(lán)虬第5章單詞與詞組的處理與分析______________
有些歧義切分字段具有二重性。例如,在例句“乒乓球拍賣(mài)完
了”中,由名詞“乒乓球”和動(dòng)詞“拍”串聯(lián)組合而產(chǎn)生出多義組
合型歧義切分字段“乒乓球拍”,而“乒乓球拍”又與動(dòng)詞“拍賣(mài)”
交叉組合而產(chǎn)生交集型歧義切分字段“乒乓球拍賣(mài)”,這樣一來(lái),
在“乒乓球拍賣(mài)”這個(gè)字段中,既有多義組合型歧義切分字段,又
有交集型歧義切分字段。對(duì)于這樣的具有二重性的歧義切分字段,
切分時(shí)也不能只考慮字段本身提供的信息,還應(yīng)該考慮該字段與其
前趨字串和后繼字串的關(guān)系。
為了正確地切分多義組合型歧義切分字段,可以利用前趨字串
和后繼字串的句法、語(yǔ)義、語(yǔ)用3個(gè)方面信息。
我們來(lái)討論如何利用句法信息:有些多義組合型歧義切分字段
與其前趨字串和后繼字串之間,存在著密切的搭配關(guān)系,這時(shí)就可以
利用有關(guān)的句法信息得到正確的切分。=rtt
第5章單詞與詞組的處理與分析
(1)名詞+名詞
例如,在句子“用樹(shù)形圖形式加以描述”中,歧義字段
“圖形式”是由名詞“圖”與名詞“形式”之間的交叉組合產(chǎn)
生的——“圖形”十“形式”。事實(shí)上,“圖形”是歧義詞,
它是歧義字段“圖形式”在給定句子中錯(cuò)誤地切分出來(lái)的片段,
“形式”是非歧義詞,它是歧義字段“圖形式”在給定句子中,
按正確的切分方式切分出來(lái)的片段。
(2)動(dòng)詞十名詞
例如,在句子“研究生命的本質(zhì)”中,歧義字段“研究生
命”是由動(dòng)詞“研究”與名詞“生命”之間的交叉組合產(chǎn)生的一
--“研究生”(歧義詞)十“生命”(非歧義到2Ok
第5章單詞與詞組的處理與分析
(3)形容詞十名詞
例如,在句子“白天鵝游過(guò)來(lái)了"中,歧義字段“白天鵝”
是由形容詞“白”與名詞“天鵝”之間的交叉組合產(chǎn)生的——
“白天”(歧義詞)十“天鵝”(非歧義詞)。
(4)介詞十名詞
例如,在句子“讓位移等于50厘米”中,歧義字段“讓位
移”是由介詞“讓”與名詞“位移”之間的交叉組合產(chǎn)生的——
,,讓位”(歧義詞)十“位移”(非歧義詞)。
(5)連詞十名詞
例如,在短語(yǔ)“獨(dú)立自主和平等互利的原則”中,歧義字
段“和平等”是由連詞“和”與名詞“平等”的交叉組合產(chǎn)生
的——“和平”(歧義詞)十“平等”(非歧義詞)。一
第5章單詞與詞組的處理與分析
(6)副詞十形容詞
例如,在句子“這本小說(shuō)的情節(jié)太平淡了"中,歧義字段
“太平淡”是由副詞“太”與形容詞“平淡”的交叉組合產(chǎn)生的一
一一“太平”(歧義詞)十“平談”(非歧義詞)。
(7)助詞十形容詞
例如,在短語(yǔ)“對(duì)這種現(xiàn)象的確切描述”中,歧義字段,
“的確切”是由助詞“的”與形容詞“確切”的交叉組合產(chǎn)生的一
——“的確”(歧義詞)+“確切”(非歧義同)。
(8)名詞十連詞
例如,在句子“社會(huì)需求和生產(chǎn)水平有矛盾”中,歧義字段
“需求和”是由名詞“需求”與連詞“和”的交叉組合產(chǎn)生的?一
L“需求”(非歧義詞)十“求和”(歧義詞)。
第5章單詞與詞組的處理與分析
(9)動(dòng)詞十介詞
例如,在句子“他們看中和日本人做生意的機(jī)會(huì)”中,歧
義字段“看中和”是由動(dòng)詞“看中”與介詞“和”的交叉組合產(chǎn)
生的------“看中”(非歧義詞)十“中和”(歧義詞)。
由以上例子可以看出,交集型歧義切分字段aL..ai.bl...bj,
cL?.ck的交段bL?.bj與其后繼字串cL?.ck所組成的非歧義詞的詞
類(lèi),可以從歧義切分字段本身提供出來(lái),例如,在歧義切分字段
“白天鵝”中,交段為“天”,它與后繼字串“鵝”組成的非歧
義詞“天鵝”,其詞類(lèi)為名詞。歧義切分字段本身為我們提供了
非歧義詞,天鵝”的詞類(lèi)信息。交集型歧義切分字段,
al...ai.bl...bj,cL??ck的交段bL??bj與其前趨字串a(chǎn)L??ai所組成
的非歧義詞的詞類(lèi),也可以從歧義切分字段本身提供出來(lái)。例如,
在歧義切分字段“需求和”中,交段為“求”,它與前趨字串
“需”組成非歧義詞“需求”,其詞類(lèi)為名詞,歧義切分字段本
身也為我們提供了非歧義詞“需求”的詞類(lèi)信息。
息第5章單詞與詞組的處理與分析
--------------------------------------------
交集型歧義切分字段可以為我們提供非歧義切分的特征信息,這是交集型歧義
切分字段非常寶貴而重要的特點(diǎn)。根據(jù)這個(gè)特點(diǎn),我們可以事先為漢語(yǔ)詞匯中
的每個(gè)詞建立詞法知識(shí)庫(kù),并在該知識(shí)庫(kù)中為可能產(chǎn)生歧義切分的詞條加上歧
義標(biāo)志和歧義類(lèi)型編號(hào),這樣,在實(shí)際切分歧義字段時(shí),只要利用該字段中的
交段bL.?bj與后繼字串cL..ck(或其前趨字串a(chǎn)L.?ai)所組成的非歧義詞的已
知詞類(lèi)信息,再通過(guò)適當(dāng)?shù)倪壿嬐评?,就可以?duì)這類(lèi)歧義切分字段作出唯一正
確的切分。
例如,在上述第(3)種類(lèi)型的歧義切分字段“白天鵝”中,因交叉組合產(chǎn)生
的歧義詞是“白天”,交段是“天”,該交段的后繼字串為“鵝”,二者組成
非歧義詞“天鵝”,并已知其詞類(lèi)信息為名詞。如果在詞法知識(shí)庫(kù)中,對(duì)歧義
詞“白天”加上歧義標(biāo)志和相應(yīng)的歧義類(lèi)型編號(hào),并建立如下的規(guī)則:如果交
段與其后繼字串組成名詞,則將該歧義詞的首字單切,否則,確認(rèn)該歧義詞為
詞。4一
第5章單詞與詞組的處理與分析
血助于是;根據(jù)歧義詞"白天”的歧義類(lèi)型編號(hào)調(diào)用上述規(guī)則,并利用詞法知
識(shí)庫(kù)中有關(guān)該歧義切分字段的交段“天”與其后繼子串“鵝”組成詞的知識(shí),檢
查這個(gè)詞是否為名詞,并進(jìn)行邏輯推理,就可以確定,在切分歧義字段“白天鵝”
時(shí),應(yīng)將歧義詞“白天”的首字“白”單切,“白天鵝”應(yīng)切分為“白/天鵝”。
這是對(duì)歧義切分字段“白天鵝”作出的唯一正確的切分。
又如,在上述第(8)種類(lèi)型的歧義切分字段“需求和”中,因交叉組合產(chǎn)生
的歧義詞是“求和”,交段是“求”,該文段的前趨字串為“需”,二者組成非
歧義詞“需求”,并已知其詞類(lèi)信息為名詞。如果在詞法知識(shí)庫(kù)中,對(duì)歧義詞
“求和”加上歧義標(biāo)志和相應(yīng)伯歧義類(lèi)型編號(hào),井建立如下的規(guī)則:如果交段與
其前趨字串組成名詞,則將該歧義詞的尾字單切,否則,確認(rèn)該歧義詞為詞。
于是,根據(jù)歧義詞“求和”的歧義類(lèi)型編號(hào),調(diào)用上述規(guī)則,在詞法知識(shí)庫(kù)
中查詢(xún),得知該歧義切分字段的交段“求”與其前趨字串“需”所組成的詞為名
同,進(jìn)行邏輯推理,就可以確定,在切分歧義字段“需求和”時(shí),應(yīng)將歧義詞
“求和”的尾字單切,“需求和”應(yīng)切分為“需求/和”。這是對(duì)歧字段
“需求和”作出的正確的切分。*一二一)
第5章單詞與詞組的處理與分析
對(duì)于其它類(lèi)型的交集型歧義切分字段,不難建立相應(yīng)的規(guī)
則,并為其中的歧義詞設(shè)置相應(yīng)的歧義類(lèi)型編號(hào),然后利用詞
法知識(shí)庫(kù)中有關(guān)詞類(lèi)信息的知識(shí),進(jìn)行類(lèi)似的邏輯推理,就可
以作出唯一正確的切分。
由于對(duì)交集型歧義切分字段的正確切分,僅只需要關(guān)于詞
類(lèi)的信息,所以,可以把這類(lèi)歧義切分字段。從性質(zhì)上劃為
“與詞類(lèi)有關(guān)的歧義切分字段”,簡(jiǎn)稱(chēng)為“詞法歧義字段”。
第5章單詞與詞組的處理與分析
5.23.2多義組合型歧義切分字段與解決方法
多義組合型歧義切分字段比較復(fù)雜,這種歧義切分字段是由詞與詞之間的
串聯(lián)組合產(chǎn)生的。在字段S=aL?.ai.bL..bj中,由于aL??i,bL?.bj和S三者都
能分別成詞,字串a(chǎn)L..ai與字串bL..bj形成了串聯(lián)組合,才產(chǎn)生歧義切分。從
產(chǎn)生的根源上看,有下列幾種不同的類(lèi)型:
(1)量詞十名詞
例如,在句子“一陣風(fēng)吹過(guò)來(lái)了”中,歧義切分字段“陣風(fēng)”是由量詞
“陣”和名詞“風(fēng)”的串聯(lián)組合產(chǎn)生的。(2)介詞十名詞
例如,在句子“請(qǐng)把手抬高一點(diǎn)兒”中,歧義切分字段“把手”是由介詞“把”
和名詞“手”的串聯(lián)組合產(chǎn)生的。
(3)動(dòng)詞十名詞
例如,在句子“他喜歡吃烤白薯,中,歧義切分字段“烤白薯,是由動(dòng)詞
“烤”和名詞“白薯”的串聯(lián)組合產(chǎn)生的。
第5章單詞與詞組的處理與分析
(4)名詞十方位詞
例如,在句子“他騎在馬上”中,歧義切分字段“馬上”是由名詞“馬”
和方位詞“上”的串聯(lián)組合產(chǎn)生的。
(5)名詞十動(dòng)詞
例1,在句子“語(yǔ)言學(xué)起來(lái)并不十分容易”中,歧義切分字段“語(yǔ)言學(xué)”
是由名詞“語(yǔ)言”和動(dòng)詞“學(xué)”的串聯(lián)組合產(chǎn)生的。
例2,在句子“學(xué)生會(huì)興奮得手舞足蹈”中,歧義切分字段“學(xué)生會(huì)”
是由名詞“學(xué)生”和動(dòng)詞“會(huì)”的串聯(lián)組合產(chǎn)生的。
例3,在句子“乒乓球拍賣(mài)完了”中,歧義切分字段“乒乓球拍”是由
名詞“乒乓球”和動(dòng)詞“拍”的串聯(lián)組合產(chǎn)生的。
例4,在句子“美國(guó)會(huì)采取措施提高工業(yè)競(jìng)爭(zhēng)力”中,歧義切分字段
“美國(guó)會(huì)”是由名詞“美國(guó)”和動(dòng)詞“會(huì)”的串聯(lián)組合產(chǎn)生的。
第5章單詞與詞組的處理與分析
(6)方位詞十動(dòng)詞
例如,在句子“他在莊稼地里間麥苗”中,歧義切分字段“里間”是由
方位詞“里”和動(dòng)詞“間”的串聯(lián)組合產(chǎn)生的。
(7)副詞十動(dòng)詞
例如,在句子“他將來(lái)北京探親”中,歧義切分字段“將來(lái)”是由副詞
“將”和動(dòng)詞“來(lái)”的串聯(lián)組合產(chǎn)生的。
(8)助詞十動(dòng)詞
例1,在句子“他學(xué)會(huì)了解數(shù)學(xué)難題”中,歧義切分字段“了解”是由助
詞“了”和動(dòng)詞“解”的串聯(lián)組合產(chǎn)生的。
例2,在句子“只要努力地學(xué)就可以學(xué)會(huì)”中,歧義切分字段“地學(xué)”是
由助詞“地”和動(dòng)詞“學(xué)”的串聯(lián)組合產(chǎn)生的。一
第5章單詞與詞組的處理與分析
(9)連詞十副詞
例如,在句子“日本保留和尚使用的古代廟宇已經(jīng)不多了”中,歧義
切分字段“和尚”是由連詞“和”與副詞“尚”的串聯(lián)組合因此,可以先
在詞法知識(shí)庫(kù)中對(duì)歧義詞“陣風(fēng)”加上歧義標(biāo)志與相應(yīng)的歧義類(lèi)型編號(hào),并
建立如下的規(guī)則:如果歧義字段的直接前趨字串是數(shù)詞,則歧義字段的首
段單切,否則,該歧義字段成詞。
然后根據(jù)“陣風(fēng)”的歧義類(lèi)型編號(hào)調(diào)用這條規(guī)則,并利用詞法知識(shí)庫(kù)
中的有關(guān)該字段前趨字串的信息,進(jìn)行邏輯推理,就可以作出唯一正確的切
分。
上面例中的歧義切分字段“把手”是由介詞“把”和名詞“手”的串
聯(lián)組合而產(chǎn)生的,按非歧義切分時(shí)的詞間搭配關(guān)系,該歧義字段的后繼字串
中必須有及物動(dòng)詞,根據(jù)這樣的句法知識(shí)建立相應(yīng)的規(guī)則,再使用^
似的推理方法,就可以作出唯一正確的切分。公
第5章單詞與詞組的處理與分析
上面例中的歧義切分字段“白薯”是由動(dòng)詞“烤”和名詞“白薯”的串聯(lián)
組合而產(chǎn)生的,按非歧義切分時(shí)的詞間搭配關(guān)系,該歧義字段的前趨字串中應(yīng)該
有動(dòng)詞,根據(jù)這樣的句法知識(shí)建立相應(yīng)規(guī)則,再使用與上述類(lèi)似的推理方法,就可
以得到唯一正確的切分。
上面例中的歧義切分字段“馬上”是由名詞“馬”和方位詞“上”串聯(lián)組
合而產(chǎn)生的,按非歧義切分時(shí)的詞間搭配關(guān)系,該歧義字段的前趨字串中應(yīng)該有介
詞,根據(jù)這樣的句法知識(shí)建立相應(yīng)的規(guī)則,再使用類(lèi)似的推理方法,就可以得到唯
一正確的切分。
類(lèi)似地,切分上面例中的歧義字段“語(yǔ)言學(xué)”時(shí),要使用“該字段的后繼字
串中應(yīng)有趨向動(dòng)詞或助詞”這樣的句法知識(shí);切分上面例中的歧義字段“里間”
時(shí),要使用“該字段的前趨字串中應(yīng)有介詞”這樣的句法知識(shí);切分生命例中的
歧義字段“將來(lái)”時(shí),要使用“該字段的前趨字串中應(yīng)有人名或人稱(chēng)代詞”這樣
的句法知識(shí);切分上面例中的歧義字段“地學(xué)”時(shí),要使用“該字段的直接前趨
字串應(yīng)該是形容詞或副詞”這樣的句法知識(shí)。根據(jù)句法知識(shí)建立相應(yīng)的切分規(guī)則
通過(guò)一定的邏輯推理,就可以實(shí)現(xiàn)對(duì)這些歧義字段的正確切分。
外第5章單詞與詞組的處理與分析
Oro------------------------------------------------------------------------------------
現(xiàn)在討論如何利用語(yǔ)義信息:例中歧義切分字段“學(xué)生會(huì)”是由名詞
“學(xué)生”與動(dòng)詞“會(huì)”串聯(lián)組會(huì)產(chǎn)生的,可以有兩種切分結(jié)果:
學(xué)生/會(huì)/興奮/得/手舞足蹈
學(xué)生會(huì)/興奮/得/手舞足蹈
這兩種切分結(jié)果在詞類(lèi)與句法結(jié)構(gòu)上都十分相似,因此,僅僅利用詞法
和句法的知識(shí),難以對(duì)這兩種切分結(jié)果作出正確的判別,也就難以作出正確
的切分。這時(shí),也就需要利用語(yǔ)義方面的知識(shí)了。從語(yǔ)義上來(lái)看,動(dòng)詞“興
奮”的義項(xiàng)中,要求動(dòng)作的發(fā)出者應(yīng)具有“人”這個(gè)義素,在名詞“學(xué)生會(huì)”
的義項(xiàng)中不具有這個(gè)義素,而在名詞“學(xué)生”的義項(xiàng)中則具有這個(gè)義素,利
用這樣的語(yǔ)義知識(shí),可建立如下的語(yǔ)義規(guī)則:如果歧義切分字段后繼動(dòng)詞的義
項(xiàng)中含有動(dòng)作發(fā)出者為“人”這個(gè)義素,則歧義字段的尾字單切,否則早該歧
義字段成詞。弋
-0^^第5章單詞與詞組的處理與分析
在自動(dòng)切分時(shí),根據(jù)歧義切分字段“學(xué)生會(huì)”的歧義類(lèi)型編號(hào),調(diào)用這條語(yǔ)
義規(guī)則,進(jìn)行邏輯推理,就可以得到如下正確的切分:
學(xué)生/會(huì)/興奮/得/手舞足蹈
例中歧義切分字段“了解”是由助詞“了”和動(dòng)詞“解”的串聯(lián)組合而產(chǎn)
生的,它們可以有兩種切分結(jié)果:
他/學(xué)會(huì)/了/解/數(shù)學(xué)/難題
他/學(xué)會(huì)/了解/數(shù)學(xué)/難題
這兩種切分結(jié)果的詞類(lèi)和句法結(jié)構(gòu)都是十分相似的,如果僅僅只根據(jù)詞法
和句法知識(shí),是難以得到正確的切分的,但是只要根據(jù)語(yǔ)義分析就可以知道,
在動(dòng)詞“解”的義項(xiàng)中,它要求賓語(yǔ)應(yīng)該具有“數(shù)學(xué)公式”或者“扣子”這樣
的義素,然而動(dòng)詞“了解”則對(duì)賓語(yǔ)則就沒(méi)有這樣的要求,由于作賓語(yǔ)的“數(shù)學(xué)
難題”符合動(dòng)詞“解”的義項(xiàng)這樣的要求,因此機(jī)器可以判定前二種藝分是正
確的,從而也就排除了第2種切分。f
第5章單詞與詞組的處理與分析
我們最后來(lái)討論任何使用語(yǔ)用信息:所謂語(yǔ)用信息,就是必須結(jié)合上下
文不同的情況的信息才能確定語(yǔ)句含義。歧義切分字段“乒乓球拍”僅只根
據(jù)詞法、句法和語(yǔ)義知識(shí),都不足以判斷賣(mài)完的東西究竟是“乒乓球”還是
“乒乓球拍”,這時(shí),就得根據(jù)語(yǔ)言交際的具體環(huán)境的語(yǔ)用方面的知識(shí),才能
決定究竟什么才是正確的切分。
例中的歧義切分字段“美國(guó)會(huì)”,僅只根據(jù)詞法、句法和語(yǔ)義知識(shí),也不
足以判斷采取措施提高工業(yè)競(jìng)爭(zhēng)力的是“美國(guó)”還是“美國(guó)會(huì)”,這時(shí),就得
根據(jù)語(yǔ)言交際的具體環(huán)境的語(yǔ)用方面的知識(shí),才能作出正確的切分。
在上面的例中的歧義切分字段“和尚”,如果僅只根據(jù)詞法、句法和語(yǔ)義
知識(shí),也不足以判斷古代廟宇是“和尚”使用還是“尚”使用的,這也只好根
據(jù)語(yǔ)言交際的具體環(huán)境的語(yǔ)用方面的知識(shí),才能作出正確的切分。
第5章單詞與詞組的處理與分析
根據(jù)上面所述的歧義切分字段的性質(zhì),可以把它們分為4種不同的類(lèi)型:
(1)利用詞法知識(shí)就能判斷的歧義切分字段,叫做"詞法歧義字段”。
(2)利用句法知識(shí)才能判斷的歧義切分字段,叫做”句法歧義字段”。
(3)利用語(yǔ)義知識(shí)才能判斷的歧義切分字段,叫做”語(yǔ)義歧義字段1
(4)利用語(yǔ)用知識(shí)才能判斷的歧義切分字段,叫做"語(yǔ)用歧義字段”。
在這其中,詞法歧義字段與交集型歧義切分字段完全對(duì)應(yīng),其余三類(lèi)
則與多義組合型歧義切分字段相對(duì)應(yīng)。
第5章單詞與詞組的處理與分析
5.3詞語(yǔ)的排序,檢索,詞庫(kù)
5.3.1詞語(yǔ)的排序,檢索簡(jiǎn)敘
漢語(yǔ)的詞語(yǔ)由漢字組成,詞語(yǔ)的數(shù)量大,僅常用詞條將達(dá)到4萬(wàn)左右。
要使自動(dòng)翻譯快速、有效,必須對(duì)大量的詞條使用好的排序和檢索算法
進(jìn)行處理.
按漢字筆畫(huà)權(quán)值對(duì)詞語(yǔ)進(jìn)行排序是根據(jù)vv辭?!饭P畫(huà)查字表中的漢
字排列來(lái)定義漢字的類(lèi),再給每一類(lèi)漢字賦一個(gè)數(shù)值,這個(gè)數(shù)值就稱(chēng)為
該漢字的筆畫(huà)權(quán)值。由于漢字筆畫(huà)權(quán)值不超過(guò)787個(gè),采用映射式排序算
法是好的方法。而檢索方法采用直接映射式字符檢索算法。
會(huì)第5章單詞與詞組的處理與分析
jA------------------------------
5.3.2詞庫(kù)設(shè)計(jì)原則
(1)略縮詞詞典
例如英語(yǔ)文句中經(jīng)常出現(xiàn)的a.m;當(dāng)自動(dòng)切分句子遇到帶“.”的詞時(shí),
通過(guò)查找略縮詞詞典時(shí),找出相對(duì)應(yīng)詞組。
(2)省略詞詞典
如英文的it,s;they1ve等。當(dāng)自動(dòng)切分句子遇到帶”…的詞時(shí),通過(guò)查
找省略詞詞典時(shí),找出相對(duì)應(yīng)詞組。
(3)特殊詞典
如英語(yǔ)的介詞,副詞,連詞等,用法非常靈活,在不同語(yǔ)言條件下,由
于其前后搭配成份不同,其中文譯文和中文生成的詞序都很不一樣,極易產(chǎn)
生歧義,而且這類(lèi)詞的頻率極高.對(duì)這些結(jié)構(gòu)詞進(jìn)行特殊處理,對(duì)提高譯文處
理質(zhì)量是十分重要的。
(4)專(zhuān)業(yè)詞典1WL
為使翻譯能根據(jù)不同專(zhuān)業(yè)有更準(zhǔn)確的譯文,應(yīng)建半專(zhuān)業(yè)詞典。
第5章單詞與詞組的處理與分析
5.4詞語(yǔ)的分類(lèi)與兼類(lèi)問(wèn)題
5.4.1詞語(yǔ)的分類(lèi)
在目前情況下,自然語(yǔ)言信息處理的技術(shù)水平要求對(duì)每個(gè)詞語(yǔ)給出它的
詞類(lèi)(范疇)乃至次范疇分類(lèi),語(yǔ)言學(xué)理論與信息處理技術(shù)之間有著明顯的差
距。為滿(mǎn)足機(jī)器翻譯的實(shí)用需求,也為了更深入研究,機(jī)器詞典將所收的詞
語(yǔ)及符號(hào)劃分為26類(lèi),它們名稱(chēng)及代碼如下:名詞n,時(shí)間詞t,處所詞s.方
位詞f,數(shù)詞m,量詞q,區(qū)別詞b,代詞r,動(dòng)詞v,形容詞a,狀態(tài)詞z,副詞d,
介詞p,連詞c,助詞u,語(yǔ)氣詞y,象聲詞o,嘆詞e,前綴h,后綴k,成語(yǔ)i,簡(jiǎn)稱(chēng)略
語(yǔ)j,習(xí)用語(yǔ)1,語(yǔ)素g,字x,標(biāo)點(diǎn)符號(hào)w。當(dāng)然,由于沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),可
能這一種劃分與其它文獻(xiàn)中的劃分可能有不同之處。這并不影響實(shí)際使用,
但是我們應(yīng)用時(shí)要注意這個(gè)問(wèn)題。
顯然,僅僅規(guī)定出這些詞類(lèi)還遠(yuǎn)遠(yuǎn)不夠,更重要的是要決定詞典手的每
-個(gè)具體的詞屬于哪-類(lèi)。這的確是-件頗費(fèi)斟酌特別是-
動(dòng)詞、形容詞、狀態(tài)詞、區(qū)別詞、副詞的辨別可以說(shuō)量相雪困難的。
第5章單詞與詞組的處理與分析
盡管詞典中的詞語(yǔ)數(shù)目是有限的,盡管有判別準(zhǔn)則,盡管
研究者親自確定詞語(yǔ)的歸類(lèi),但是仍有少數(shù)詞一時(shí)仍難以決定下
來(lái)。機(jī)器只有用語(yǔ)法方法對(duì)這些問(wèn)題作必要的處理。當(dāng)然,這
也為進(jìn)一步研究準(zhǔn)備了條件。
隨著人們多年研究的深入,還可以考慮對(duì)某些詞類(lèi)進(jìn)一步劃
分子類(lèi)。這個(gè)問(wèn)題看上去更困難,主要是我們不容易把握按哪
一種標(biāo)準(zhǔn)進(jìn)行子類(lèi)劃分更好、更為妥當(dāng)。其中人們提出的一種
方法是按照名詞與量詞的關(guān)系將名詞劃分為可數(shù)名詞,不可數(shù)名
詞、集合名詞、抽象名詞及專(zhuān)有名詞。這一種方法還比較科學(xué)。
沿著這個(gè)方向進(jìn)一步研究,發(fā)現(xiàn)這些子類(lèi)不在同一個(gè)層次上,且
有些名詞不能受數(shù)量詞修飾?,F(xiàn)在的劃分準(zhǔn)則如下
第5章單詞與詞組的處理與分析
凡是個(gè)體名詞都應(yīng)該有自己特有的個(gè)體量詞,而且該量詞前的數(shù)詞可
以是“一”,如“一本書(shū)”,“一頭?!?,“一位教授”;物質(zhì)名詞不可以用
個(gè)體量詞計(jì)數(shù),但是可以使用度量詞或容器量詞等來(lái)計(jì)量,如“兩碗水”,
“三公尺布”,“一身泥土”等等。集合量詞可以細(xì)劃分為兩個(gè)子類(lèi),一類(lèi)
是可以分的,即可以進(jìn)行個(gè)體化的,例如“四十位師生”,“三個(gè)兄弟”等
等,但是其個(gè)體量詞的數(shù)詞不能是“一”。而另一類(lèi)是不可分的,即在它
們前面只能使用非個(gè)體量詞之外的其它量詞,例如“兩車(chē)軍火”,“一隊(duì)車(chē)
輛”。抽象名詞前一般只可以使用“種類(lèi)量詞”與“不定量詞”,例如
,,一些勇氣,,,“一種精神,,,而且有一部分抽象名詞作動(dòng)詞“有”的賓語(yǔ)
構(gòu)成述賓詞組后還可以受“很”一類(lèi)副詞修飾,例如“很有勇氣”,“非常
有精神”。無(wú)量名詞不能接在任何數(shù)詞或數(shù)量詞組之后。專(zhuān)有名詞的特
點(diǎn)就是在于它的專(zhuān)有性,專(zhuān)有名詞在用漢語(yǔ)拼音字母表示時(shí)或這被譯成英
語(yǔ)時(shí),其中首字母必須大寫(xiě),我們認(rèn)為將專(zhuān)有名詞單分一個(gè)子巡牘意
義的。專(zhuān)有名詞一般不受數(shù)量詞修飾,但是在某些語(yǔ)境之中,它布麗以
接在數(shù)量詞之后。0
第5章單詞與詞組的處理與分析
綜上所述,名詞與量詞之間的搭配關(guān)系為劃分名詞子類(lèi)
提供了相當(dāng)明確的準(zhǔn)則。但是,有些語(yǔ)言現(xiàn)象人們處理起來(lái)仍
會(huì)感到棘手。首先我們來(lái)討論個(gè)體量詞,“個(gè)”這個(gè)量詞用得非
常廣泛,可以這樣說(shuō)“一個(gè)理論”,“兩個(gè)學(xué)說(shuō)”,非常顯然,
在這里的“個(gè)”與“一個(gè)蘋(píng)果”,“兩個(gè)梨”,“五個(gè)同學(xué)”中
的“個(gè)”很難區(qū)分。但是又不適宜據(jù)此我們就將“理論”,“學(xué)
說(shuō)”也劃分到個(gè)體名詞中去,還是劃分到抽象名這一類(lèi)詞較為合
適。又如不可分的集合名詞,“人口”,“大軍”,不能接在數(shù)
量詞之后,卻可以說(shuō)“十億人口”,“十萬(wàn)大軍”。
第5章單詞與詞組的處理與分析
5.4.2詞語(yǔ)的屬性描述
語(yǔ)法的屬性描述將反映名詞的特殊性質(zhì)。分類(lèi)法刻劃事物
雖然簡(jiǎn)潔、清晰、信息密度大,但是屬于同一類(lèi)的事物仍然可能
各自具有不同的特點(diǎn),例如,“魚(yú)”和“?!蓖瑢賯€(gè)體名詞,但
是“魚(yú)”卻具有專(zhuān)用個(gè)體量詞“尾”,而牛具有專(zhuān)用個(gè)體量詞
“頭"然而,心魚(yú)”通常還可以與度量詞“斤,克”搭配,“?!?/p>
就不行。因此,這就要依靠語(yǔ)法屬性描述來(lái)刻劃每一詞語(yǔ)的語(yǔ)
法信息。對(duì)于名詞,除了確定每個(gè)詞的子類(lèi)外,還應(yīng)該詳細(xì)描
述每個(gè)名詞可以搭配的各類(lèi)量詞。此外,我們注意和應(yīng)用某些
個(gè)體名詞的特殊性質(zhì)也是非常必要的。
就第5章單詞與詞組的處理與分析______________
屬性描述可以對(duì)每一類(lèi)詞的語(yǔ)法屬性進(jìn)行相當(dāng)充分的發(fā)掘。
例如,對(duì)于作為研究重點(diǎn)的動(dòng)詞人們共確定了近40項(xiàng)屬性。這
些屬性大致可歸納為7類(lèi):第一類(lèi)是關(guān)于動(dòng)詞本身特性的,例如
該動(dòng)詞是不是系動(dòng)詞、助動(dòng)詞,趨向動(dòng)詞。第二類(lèi)是關(guān)于動(dòng)詞
變化形態(tài)的。第三類(lèi)描述該動(dòng)詞有無(wú)名詞特性,例如能不能直
接修飾名詞,能不能直接受名詞修飾、能不能后接趨向動(dòng)詞,能
帶什么樣的賓語(yǔ)--謂詞,雙賓等等。第四類(lèi)反映該動(dòng)詞同一些
虛詞的關(guān)系,例如它前面能不能受“不,沒(méi),很”修飾,后面能
不能帶“著,了,過(guò)"。第五類(lèi)描述動(dòng)詞在句子中的各種功能,
即該動(dòng)詞在句子中能否具有單獨(dú)的屬性。第六類(lèi)刻劃動(dòng)詞與后
繼成分的關(guān)系,即該動(dòng)詞能否后接作動(dòng)詞“有”的賓語(yǔ)等等。
第七類(lèi)包含其它特性。當(dāng)然,這樣確定的蹴是不是看k完
整還值得研究。4?■
第5章單詞與詞組的處理與分析
下面列出詞典中量詞庫(kù)中的各個(gè)屬性字段及其簡(jiǎn)單的解釋。
個(gè)體量詞:個(gè)體量詞填“個(gè)“,如,個(gè),本。
集合量詞:集合量詞填”集”,如;套,系列。
度量詞:度量詞(單位量詞)填“度”如,尺,公斤,度,分,秒。
最近高位:如尺的最近高位是丈,填“丈”。
最近低位:如尺的最近低位是寸,填”寸
容器量詞:容器量詞填“容”如:瓶,杯。
種類(lèi)量詞:種類(lèi)量詞填“種”,如;種,類(lèi)。
成形量詞:成形量詞填“形”,如;攤,堆。
不定量詞:不定量詞填“不“,如,些,點(diǎn)兒。
任一:只能受數(shù)詞“一”修飾的,填“一”,如:系列。
后接名詞:擇要填寫(xiě)該量詞后可接的名詞.例如,對(duì)“艘“可填“輪船,軍艦”。
云第5章單詞與詞組的處理與分析
-----------------------------------------------
動(dòng)量詞:動(dòng)量詞填“動(dòng)",如;次,下。
時(shí)量詞:時(shí)量詞填”時(shí)”,如年,月,時(shí),分。
表示順序:該量詞前接數(shù)詞可表示順序的填“序”,如,月,年。
表示數(shù)量:該量詞前接數(shù)詞可表示數(shù)量的填“數(shù)”,如,斤,天,年。
5.4.3詞語(yǔ)的兼類(lèi)
兼類(lèi)系指同一個(gè)詞具有不同的詞類(lèi)語(yǔ)法功能,即這個(gè)詞兼屬不同的詞類(lèi).
⑴兼類(lèi)詞只占詞匯的很小一部分。
(2)常用詞兼類(lèi)現(xiàn)象嚴(yán)重。往往越是常用的詞,不同的用法就越多,兼類(lèi)現(xiàn)象也
就越多。所以,盡管兼類(lèi)現(xiàn)象只占了詞匯的很小一部分,但兼類(lèi)詞使用的頻繁程
度并不很低。
(3)兼類(lèi)現(xiàn)象紛繁,覆蓋面很廣,涉及了大部分詞類(lèi)。._—
(4)兼類(lèi)現(xiàn)象的分布很不一致。一??二一
第5章單詞與詞組的處理與分析
two-------------------------------------------------------------------------------
上面情況說(shuō)明,不同的詞類(lèi)在兼類(lèi)問(wèn)題中的地位不是等同
的。有些詞類(lèi),兼類(lèi)現(xiàn)象很?chē)?yán)重,解決其兼類(lèi)問(wèn)題比較困難,而
這些困難的兼類(lèi)問(wèn)題,恰恰是兼類(lèi)現(xiàn)象中最基本的問(wèn)題,可以把
這些詞類(lèi)叫做“基本兼類(lèi)詞類(lèi)”。它們是:名詞、方位詞、代詞、
動(dòng)詞、能愿動(dòng)詞、形容詞、副詞、介詞、連詞等9類(lèi)詞。另一些
詞類(lèi),或者其兼類(lèi)問(wèn)題的解決比較容易,或者其兼類(lèi)現(xiàn)象極少,
例如時(shí)間詞中,僅僅“過(guò)去”一詞兼屬“時(shí)間(詞)一趨向(動(dòng)詞)一
動(dòng)(詞)”3類(lèi),我們可以把這些詞類(lèi),叫做“非基本兼類(lèi)詞類(lèi)L它
們是:時(shí)間詞、數(shù)詞、量詞、區(qū)別詞、趨向動(dòng)詞、助詞等6類(lèi)詞。
顯然,對(duì)于兼類(lèi)問(wèn)題的研究也是很重要的,而且有較大的用途。
后第5章單詞與詞組的處理與分析
-oScHro-----------------------------------------------------------
兼類(lèi)詞所包含兼類(lèi)詞類(lèi)的個(gè)數(shù)各有不同,有的兼類(lèi)詞可能
只含兩個(gè)兼類(lèi)詞類(lèi),有的兼類(lèi)詞可能就含有三個(gè)兼類(lèi)詞類(lèi)。某一
類(lèi)兼類(lèi)現(xiàn)象所包含兼類(lèi)詞類(lèi)的個(gè)數(shù)叫做兼類(lèi)長(zhǎng)度。兼類(lèi)長(zhǎng)度等于
2,而且所含兼類(lèi)詞類(lèi)均屬基本兼類(lèi)詞類(lèi)的兼類(lèi)類(lèi)型,叫做“,兼
類(lèi)基本型”。如果我們解決了兼類(lèi)基本型的兼類(lèi)問(wèn)題,實(shí)際上就
等于解決了大部分的兼類(lèi)問(wèn)題。而且其它的兼類(lèi)問(wèn)題,也可以設(shè)
法將它們轉(zhuǎn)化為兼類(lèi)基本型,這樣,我們就可以抓住兼類(lèi)現(xiàn)象中的
核心問(wèn)題,通過(guò)少量的規(guī)則來(lái)處理盡可能多的兼類(lèi)現(xiàn)象。否則,
需要的規(guī)則就多得多。
第5章單詞與詞組的處理與分析
兼類(lèi)基本型有以下幾種:
(1)“動(dòng)一名”兼類(lèi)
這種兼類(lèi)基本型我們最為常見(jiàn)。兼類(lèi)詞多由動(dòng)詞轉(zhuǎn)化而來(lái)。例如“報(bào)告,編
用,裝備,愛(ài)好,刺激,工作,”等等。
(2)“動(dòng)一形”兼類(lèi)
這種兼類(lèi)基本型我們也是常見(jiàn)的。兼類(lèi)詞主要由形容詞轉(zhuǎn)化而來(lái),形容詞后若
帶賓語(yǔ),則認(rèn)為其兼有動(dòng)詞的類(lèi)。例如,”多,苦.嚴(yán)肅,繁榮,普及,鞏固”等。
(3)“名一形”兼類(lèi)
這種兼類(lèi)基本型我們還是比較常見(jiàn)的。兼類(lèi)詞多由形容詞轉(zhuǎn)化而來(lái),例如“秘
密,規(guī)矩,痛苦,困難,煩惱,科學(xué)”等。
下面幾種兼類(lèi)基本型也是比較常見(jiàn)的。
(4)“形一副”兼類(lèi).
有的形容詞在修飾謂詞性成分時(shí),意義有所改變,句法功能與副詞相同,形成”
形一副”兼類(lèi)。例如J直、怪、老、全、白、光、快、偏、死、真、干”等:
試比較:路很直(“直”為形容詞).
他直哭(“直”為副詞).F.二0
后第5章單詞與詞組的處理與分析
-tmcHro-------------------------------------------------------------------------------------
⑸“動(dòng)一介”兼類(lèi)
很多介詞是由動(dòng)詞發(fā)展而成的,因此,介詞常常與動(dòng)詞兼類(lèi)。例如”在、朝、向、
往、順、對(duì)、為、跟、隨著”等:
試比較;我在家「在”為動(dòng)詞).
我在辦公室開(kāi)會(huì)(“在”為介詞)
(6)“介一副”兼類(lèi)
這種兼類(lèi)基本型數(shù)目有限。例如J連、就、至、從”等。
試比較:他從日本來(lái)「從”為介詞).
他從不抽煙「從"為副詞).
(7)“名一副”兼類(lèi)
這種兼類(lèi)詞不多見(jiàn)。例如J極端”。
試比較:你不要走另一個(gè)極端(“極端”為名詞)
.他對(duì)顧客極端熱忱(“極端”為副詞)5a
第5章單詞與詞組的處理與分析
(8)“動(dòng)一副”兼類(lèi).
這種兼類(lèi)基本型數(shù)目有限。例如J斷、還、越、比較”等。
試比較;老人斷了氣(“斷”為動(dòng)詞);斷無(wú)此事(“斷"為副詞).
(9)“代一副”兼類(lèi)
在代詞中,有些我們常見(jiàn)的指別詞,亦可修飾謂詞性成分。例如“每、各、本、
另、另外”等等,屬于此類(lèi)。
試比較:本編輯部概不負(fù)責(zé)(“本”為代詞).
我本姓馮(“本”為副詞).
(10)”能愿(動(dòng)詞)一動(dòng)”兼類(lèi)
有的能愿動(dòng)詞可以帶體詞性賓語(yǔ)。例如”要、會(huì)、得、想、該、配”等,屬于此類(lèi)。
試比較他要去美國(guó)要”為能愿動(dòng)詞)
他要這本書(shū)(“要”為動(dòng)詞).
后第5章單詞與詞組的處理與分析
trnuJo--------------------------------------------------
(11)“介一連”兼類(lèi)
這一類(lèi)兼類(lèi)僅有“跟、和、同、與”幾個(gè)詞,它們使用頻率很高,區(qū)別起來(lái)相當(dāng)
困難。
試比較:我和小張都會(huì)德語(yǔ)(“和”為連詞).
我和小張說(shuō)了這件事和”為介詞).
(12)“副一連”兼類(lèi)
這一類(lèi)兼類(lèi)有''不過(guò)、或、或者、并、盡管、只是“等,區(qū)別起來(lái)比較困難。
試比較;這個(gè)建議對(duì)他們或有好處(“或“為副詞),
你或他都可以出國(guó)(“或"為連詞).
(13)”方位(詞)一動(dòng)”兼類(lèi)
這一類(lèi)兼類(lèi)只包含“上,下”兩句詞,但由于”在……上在?一類(lèi)
搭配很常見(jiàn),有時(shí)可能產(chǎn)生混亂,所以將其列為兼類(lèi)基本型。
第5章單詞與詞組的處理與分析
試比較:我上學(xué)(,,上”為動(dòng)詞).
我在昆明上學(xué)(“上”為動(dòng)詞).
我在床上(”上”為方位詞).
我在床上看書(shū)(”上”為方位詞).
非基本兼類(lèi)詞類(lèi)的兼類(lèi)問(wèn)題我們比較容易解決,因?yàn)樗鼈兊那耙粋€(gè)或者
后一個(gè)句法單元(通常是一個(gè)單詞)有十分強(qiáng)的黏附性,可以根據(jù)這些句法單
元來(lái)區(qū)別兼類(lèi)現(xiàn)象。例如,“本”兼屬代詞、副詞、量詞3類(lèi),我們只要看它
的直接前趨詞是否為數(shù)詞,就可以判斷它是否為量詞。又如,“微”兼屬區(qū)
別詞、副詞兩類(lèi),如果它的直接后繼詞為名詞,就馬上可以判斷它為區(qū)別詞。
因此,在處理兼類(lèi)問(wèn)題時(shí),我們可以根據(jù)先易后難的原則,它先解決這一部
分的問(wèn)題,就可以大大簡(jiǎn)化處理的過(guò)程。這種方法,我們把叫做”兼類(lèi)詞過(guò)濾
,,
一詞多類(lèi),形成了詞的兼類(lèi)現(xiàn)象,詞類(lèi)標(biāo)注,要解決詞的兼類(lèi)問(wèn)題。
一詞多義,形成了詞的多義現(xiàn)象,語(yǔ)義標(biāo)注,主要戛解決詞的多義問(wèn)題.
后第5章單詞與詞組的處理與分析
-oScHro-----------------------------------------------------------
5.5詞語(yǔ)處理的其它問(wèn)題
5.5.1生詞處理
在機(jī)器翻譯過(guò)程中,肯定免不了輸入的原文中有機(jī)器詞典不
存在的生詞,這就要求機(jī)器翻譯系統(tǒng)有較好的生詞處理功能,當(dāng)
然這必須有好的方法、好的程序能夠?qū)υ撛~進(jìn)行自動(dòng)處理,包括
生成句法分折需要的各種信息。
目前的系統(tǒng)對(duì)查找不到的詞都按照名詞處理,語(yǔ)法、語(yǔ)義信
息與普通的名詞同,中文譯文為英文原文。生詞處理進(jìn)一步完善
方法是,處理過(guò)程由構(gòu)詞分析,句法、語(yǔ)義信息假定,用,確肯定
定,詞典添加等幾個(gè)子過(guò)程構(gòu)成。---
第5章單詞與詞組的處理與分析
構(gòu)詞分析應(yīng)該按照構(gòu)詞法分析各種不同的構(gòu)詞形式,建立
基本的詞根、詞綴字典,歸納出適合于機(jī)器分析的基本構(gòu)詞規(guī)
則。由規(guī)則驅(qū)動(dòng)構(gòu)詞分析,經(jīng)過(guò)構(gòu)詞分析就可以推導(dǎo)出可能的
基本的語(yǔ)法語(yǔ)義信息和譯文譯義。詞處理模塊可以據(jù)此生成詞
表,用于句法分析,處理結(jié)束后,機(jī)器可以按照用戶(hù)的要求修
改、確認(rèn)系統(tǒng)對(duì)生詞的處理結(jié)果,并決定是否可以將該詞條增
加到主詞典中。另外,在生詞處理中,還應(yīng)該包括建立生詞詞
典,對(duì)主詞典中不存在的詞條進(jìn)行登記,然后成批增加到主詞
典中,以提高效率。當(dāng)然,為了盡可能減少機(jī)器翻譯中出現(xiàn)的生
詞,我們還應(yīng)該有一些特殊詞類(lèi)的處理方法,這是下二2所要
介紹的。_6°*^
第5章單詞與詞組的處理與分析
5.5.2中國(guó)人名的處理
實(shí)際上,漢語(yǔ)自動(dòng)分詞有兩個(gè)基本困難,一個(gè)是歧義切分問(wèn)題,
另一個(gè)就是生詞的處理問(wèn)題。漢語(yǔ)詞匯變化太多,無(wú)論建立多么龐
大的詞典,都不可能窮舉所有的詞語(yǔ)。而且,隨著時(shí)間的推移,還
會(huì)源源不斷地出現(xiàn)大量的新詞。對(duì)于應(yīng)該收入機(jī)器詞典而沒(méi)有被收
入進(jìn)去的詞,實(shí)際上這是指一些被遺漏的詞,或者是一些未被收入
的新詞等等,這基本上是不可避免的,應(yīng)納入生詞處理的范圍。這
里主要討論中國(guó)人名的處理。
給人初步的感覺(jué),中國(guó)人名太多太多,處理可能也非常難。的
確,中文的名字選取隨心所欲,沒(méi)有任何可以遵循的規(guī)則,完全根
據(jù)個(gè)人的喜好,可以使用任何漢字或者漢字串作為名字。由此可見(jiàn),
除了少數(shù)著名人物以外,要把所有的中文名字都收入某一詞典模塊
基本上是不可能的,這只能讓機(jī)器翻譯系統(tǒng)具有這方面處理也功能。
第5章單詞與詞組的處理與分析
中文姓名的處理的確是一個(gè)非常復(fù)雜的問(wèn)題,不僅僅數(shù)量
太多,而且隨時(shí)間的變化而不斷變化。中文姓名的結(jié)構(gòu)也復(fù)雜,
表現(xiàn)形式多樣,姓名用字不僅可以自身成詞,而且也可以與相鄰
的字構(gòu)成詞。例如“馬”,可以當(dāng)作名詞來(lái)指一種家畜,也可以
作姓。所有的這些問(wèn)題都增加了姓名的處理難度,也成為一個(gè)研
究難題。
目前大多數(shù)姓名處理的方法都是利用姓名的分布規(guī)則、姓
名的用字規(guī)律、姓氏用字、名字用字的出現(xiàn)頻率和概率估值,以
及姓名的前后約束用詞等等信息綜合進(jìn)行推斷,也提出了一種基
于變換的方法(還不十分成熟)。
?k第5章單詞與詞組的處理與分析______________
下面,我們介紹基于語(yǔ)料庫(kù)和規(guī)則庫(kù)的中文人名處理方法:
(1)建立中文人名語(yǔ)料庫(kù),對(duì)人名語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì),列出可以用作雙名
的字極其在雙名中的位置,列出單名用字;
(2)采用最大匹配法進(jìn)行自動(dòng)分詞;
(3)如果句子中出現(xiàn)在詞典中標(biāo)為姓氏的詞,則可以找出其待定的中文
人名,檢測(cè)條件為:姓氏字或詞(復(fù)姓)后跟一個(gè)可以用作雙名的詞,或者
后跟一個(gè)雙名首字,再跟一個(gè)雙名末字;或者后跟一個(gè)單名字;
(4)利用可以依的規(guī)則對(duì)待定的中文人名進(jìn)行調(diào)整,這里的規(guī)則其實(shí)就
是一些用于人名處理的啟發(fā)信息,包括:
稱(chēng)謂詞,如“女士、先生、老師”;
地名和單位,人名前用單位名稱(chēng)和地名表示所在地笠|
人名前加“的”的定語(yǔ),如“年過(guò)四十的李力"
第5章單詞與詞組的處理與分析
(5)分詞規(guī)范里對(duì)于“小李”、“老王”、“劉總”、“張
大爺”、“何大媽”、“鐘哥”、“林姐”等等簡(jiǎn)稱(chēng)和尊稱(chēng)都劃為
分詞單位,這些表示的人名分詞單位可以采用如下一些簡(jiǎn)單的規(guī)則
進(jìn)行處理和分析:
設(shè)X為當(dāng)前詞,F(xiàn)為當(dāng)前詞的前一個(gè)詞,B為當(dāng)前詞的后一個(gè)
詞,SN為姓氏集,則可以有這樣的處理規(guī)則:
設(shè)Kl={小、老、大},若X£SN,并且F£K1
則FX是姓名
設(shè)K2={總、工、頭、…},若X&SN,并且B£K2
貝ljXB是姓名。*
云第5章單詞與詞組的處理與分析
-----------------------------------------------
5.5.3中國(guó)地名的處理
機(jī)器翻譯中如果存在沒(méi)有被檢索到的中國(guó)地名,將會(huì)出現(xiàn)嚴(yán)重的分詞錯(cuò)誤。
例如以下句子:
這是篷萊縣小門(mén)家鄉(xiāng)政府所在地。
如果沒(méi)有地名專(zhuān)門(mén)處理,容易被切分成:
這/是/篷/萊/縣/小/門(mén)/家鄉(xiāng)/政府/所在地。
地名不像人名那樣又多又復(fù)雜,無(wú)法枚舉,目前有的機(jī)器翻譯系統(tǒng)的漢語(yǔ)
自動(dòng)分詞是通過(guò)機(jī)器詞典中窮舉地名來(lái)實(shí)現(xiàn)這一處理的。這對(duì)于面向真實(shí)文
本的自動(dòng)分詞是不可取的。因?yàn)榈孛?,或者都市洲府,或者市井鄉(xiāng)村,或者
名川大澤,或者窮鄉(xiāng)僻壤,理論上雖然可以窮舉,但是實(shí)際上是不可能窮舉
完全的。而且即使可以窮舉完全,地名的數(shù)量必然極其龐大,如果都收入分
詞自字典中,一方面它會(huì)使分詞詞典的規(guī)模急劇增加,增加系統(tǒng)的開(kāi)銷(xiāo),降
低了機(jī)器翻譯的效率;另一方面也會(huì)增加各種歧義現(xiàn)象出現(xiàn)的概率,;附切分
精度也有影響。-
第5章單詞與詞組的處理與分析
例如“于山”如果是一個(gè)地名,那么加入詞典中,貝U對(duì)“由于山區(qū)”
的切分變成鏈長(zhǎng)為2的交集歧義問(wèn)題。因此,有必要研究中國(guó)地名特點(diǎn)、
用字規(guī)律、用詞規(guī)律、構(gòu)詞規(guī)律和地名的上下文規(guī)律,實(shí)現(xiàn)真實(shí)文本中中
國(guó)地名的自動(dòng)處理。
中國(guó)地名的特點(diǎn),有一些對(duì)處理構(gòu)成一定的難度。例如,中國(guó)地名的長(zhǎng)
度沒(méi)有一定的限制,從一個(gè)到多個(gè)不等,像“京、津”這樣的簡(jiǎn)稱(chēng),長(zhǎng)度
為1;而“北京”長(zhǎng)度為2,“內(nèi)蒙古”長(zhǎng)度為3等等。另外,漢語(yǔ)的常用
字經(jīng)常出現(xiàn)在地名之中,例如“大直街”、“馬家溝”中的漢字都是常用
字。此外,地名中含有的多字詞也不利于地名的處理,例如“黃果樹(shù)瀑布”
中的“果樹(shù)”本身就是一個(gè)詞,這肯定增加了難度。
但是,中國(guó)地名的處理過(guò)程中也有可以利用的信息,例如一些后綴有利于
地名的處理,像“鄉(xiāng)、村、市、縣”等。一—一
第5章單詞與詞組的處理與分析
對(duì)于地名的處理,雖然已經(jīng)有不少的方法,但是一般可以采用統(tǒng)計(jì)
與規(guī)則相結(jié)合的方法,現(xiàn)在舉例說(shuō)明如下:
(1)先建立一個(gè)包括省、自治區(qū)、直轄市、市、縣、區(qū)、鎮(zhèn)、鄉(xiāng)、村,
以及山脈、河流、湖泊、峽谷、島嶼等等的中國(guó)地名庫(kù),收集盡可能多
的地名。越多、越詳細(xì)越好,這將為以后的高質(zhì)量機(jī)器翻譯打下好的基
礎(chǔ)。
(2)可以先統(tǒng)計(jì)出地名庫(kù)中地名用字以及地名的首、中、尾用字規(guī)律
及頻率,然后再建立地名用字庫(kù),最后統(tǒng)計(jì)出地名用字庫(kù)中各個(gè)字用做
地名的首字、地名的中間字、地名的尾字的概率。這里面主要采用統(tǒng)計(jì)
的方法。
(3)采用某一分詞方法進(jìn)行分詞。
(4)對(duì)于那些單字詞,如果它確實(shí)屬于地名用字庫(kù),則可以激活地名
處理過(guò)程。先去尋找占據(jù)中文地名首字的詞或者字,然后再尋找中間的
和末尾的字或者詞。利用字頻和中文地名用字的統(tǒng)計(jì)規(guī)律確定中文地
名的邊界。
后第5章單詞與詞組的處理與分析
(5)在地名初步處理結(jié)束以后,可以進(jìn)一步調(diào)整其正確率。比如對(duì)于
連續(xù)的地名“黑龍江省哈爾濱市”,應(yīng)該將它們分開(kāi)。對(duì)于連續(xù)地名的分開(kāi)可以
采用如下的兩種方法:
[1]我們可以使用規(guī)則進(jìn)行處理。中文名的末尾字“省、市、縣、鄉(xiāng)、村”等等
都有很強(qiáng)的顯性特征可以方便地用于地名的右邊界,所以我們可以以它們?yōu)殛P(guān)
鍵字,然后采用規(guī)則的方法加以處理。當(dāng)然,還有其他的規(guī)律可以采用規(guī)則表
示出來(lái),并且也可以用于地名處理的過(guò)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)藥行業(yè)創(chuàng)新藥專(zhuān)題之五2024醫(yī)保國(guó)談梳理:醫(yī)?;鹪鏊俪袎合聞?chuàng)新藥價(jià)值日益突顯
- 基礎(chǔ)化工行業(yè)新材料專(zhuān)題研究(9)-環(huán)球新材國(guó)際:中國(guó)珠光顏料龍頭收購(gòu)默克表面解決方案業(yè)務(wù)
- 《無(wú)人機(jī)維保檢修》課件全套 馬明芳 1-7無(wú)人機(jī)日常維保- 無(wú)人機(jī)改造優(yōu)化
- 2024年客車(chē)從業(yè)資格證模擬考試答題
- 2024年阿里客運(yùn)從業(yè)資格考試
- 2024年南通道路客運(yùn)輸從業(yè)資格證試題答案
- 2025屆河北省衡水市衡水中學(xué)生物高一上期末質(zhì)量跟蹤監(jiān)視試題含解析
- 蒙古北京八中烏蘭察布分校2025屆高二上數(shù)學(xué)期末質(zhì)量跟蹤監(jiān)視試題含解析
- 2025屆河北省各地高三數(shù)學(xué)第一學(xué)期期末學(xué)業(yè)水平測(cè)試試題含解析
- 黃南市重點(diǎn)中學(xué)2025屆高一生物第一學(xué)期期末考試模擬試題含解析
- 店長(zhǎng)離職交接表
- 古琴教學(xué)精品課件ppt
- 《走進(jìn)愛(ài)國(guó)主義教育基地》ppt
- 自考《學(xué)前教育研究方法》全套課件(完整版)
- 無(wú)痛宮腔鏡檢查日間手術(shù)臨床路徑及表單
- 企業(yè)、事業(yè)專(zhuān)職消防隊(duì)訓(xùn)練內(nèi)容及操作規(guī)程
- 中考課外古詩(shī)詞鑒賞
- 語(yǔ)言行為法簡(jiǎn)介(課堂PPT)
- 完形填空20篇(附答案解析)
- GB_T5235-2021 加工鎳及鎳合金牌號(hào)和化學(xué)成分(高清最新版)
- 【課件】高一上學(xué)期英語(yǔ)人教版(2019)必修第一冊(cè)Unit 2 Grammar 現(xiàn)在進(jìn)行時(shí)-
評(píng)論
0/150
提交評(píng)論