現(xiàn)代漢語語義詞典的結(jié)構(gòu)及應(yīng)用精_第1頁
現(xiàn)代漢語語義詞典的結(jié)構(gòu)及應(yīng)用精_第2頁
現(xiàn)代漢語語義詞典的結(jié)構(gòu)及應(yīng)用精_第3頁
現(xiàn)代漢語語義詞典的結(jié)構(gòu)及應(yīng)用精_第4頁
現(xiàn)代漢語語義詞典的結(jié)構(gòu)及應(yīng)用精_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 收稿日期2003-10-20 作者簡介王惠,新加坡國立大學(xué)助教,博士,主要研究漢語詞匯學(xué)、語義學(xué)和計(jì)算語言學(xué);詹衛(wèi)東,北京 大學(xué)副教授,博士,主要研究漢語語法、語義和計(jì)算語言學(xué);俞士汶,北京大學(xué)教授,主要研究計(jì)算語言學(xué)。 3本研究得到國家973重點(diǎn)基礎(chǔ)研究項(xiàng)目(G 199803050724和(G 199803050721資助,研究還得到北京大學(xué)陸儉明教授的大力支持,在此一并致謝。 “現(xiàn)代漢語語義詞典”的結(jié)構(gòu)及應(yīng)用 3 王 惠1 詹衛(wèi)東2 俞士汶 2 (1.新加坡國立大學(xué)中文系 新加坡 117570;2.北京大學(xué) 北京 100871 摘要“現(xiàn)代漢語語義詞典(SK CC ”是一個(gè)面向漢英機(jī)器翻譯

2、的大規(guī)模漢語語 義知識(shí)庫,它以數(shù)據(jù)庫文件形式收錄616萬余實(shí)詞,不僅給出每個(gè)詞語所屬的詞類、語義類,而且以義項(xiàng)為單位詳細(xì)描述了它們的各種語義搭配限制。目的是為計(jì)算機(jī)語義自動(dòng)分析、詞義消歧等任務(wù)提供強(qiáng)有力的支持。本文介紹這部語義詞典的結(jié)構(gòu)、內(nèi)容,并以實(shí)例說明這部詞典可有效地解決翻譯系統(tǒng)中的詞匯歧義(WS D 問題。 關(guān)鍵詞語義詞典;詞義消歧;詞匯語義學(xué);自然語言處理;中文 中圖分類號(hào)H08文獻(xiàn)標(biāo)識(shí)碼A文章編號(hào)100325397(20060120134208 Structure and Application of The Semantic Knowledge 2base of Modern Ch

3、inese Wang Hui ,Zhan Weidong ,Yu Shiwen Abstract :The Semantic Knowledge 2base o f Modern Chinese (SK MC is a large scale bilingual semantic res ource.It provides a large am ount of semantic information such as semantic hierarchy and collocation features for 66539Chinese w ords and their English cou

4、nterparts.Its POS and semantic classification represent the latest progress in Chinese language engineering. The descriptions of semantic attributes are fairly thorough and com prehensive.The main w ork in this paper is to introduce the outline of SK MC ,and establish a multi 2level W ord Sense Disa

5、mbiguation (WS D m odel based on it.The results indicate that the SK MC is effective for w ord sense disambiguation in Chinese and are likely to be im portant for general Chinese Natural Language Processing (N LP . K ey w ords :Semantic K nowledge 2base ;WS D ;Lexical semantics ;N LP ;Chinese 2006年2

6、月第1期語言文字應(yīng)用Applied Linguistics Feb.,2006N o.1 一 前 言 在機(jī)器翻譯系統(tǒng)及其他自然語言處理系統(tǒng)中,通常都有一部包括語義信息的電子詞典。 為了給計(jì)算機(jī)自動(dòng)分析提供更全面、深入的語義信息,我們應(yīng)充分吸收現(xiàn)有的研究成果,在語法知識(shí)庫的基礎(chǔ)上構(gòu)建語義知識(shí)庫。不僅要進(jìn)行系統(tǒng)的語義分類,而且要對(duì)詞義組合信息加以全面描述,進(jìn)一步加強(qiáng)動(dòng)態(tài)的語義組合知識(shí)的研究和總結(jié),建立一個(gè)與語言工程應(yīng)用緊密配合的、合理的語義知識(shí)描述框架。 北京大學(xué)與中科院計(jì)算所自1994年聯(lián)合開發(fā)“漢英機(jī)器翻譯模型系統(tǒng)”開始,就著手研制為漢英機(jī)器翻譯服務(wù)的“現(xiàn)代漢語語義詞典”,目的是在語法分析的基

7、礎(chǔ)上,為計(jì)算機(jī)提供更深入的語義信息。1996年至1998年,雙方共同承擔(dān)了國家863高科技項(xiàng)目“通用機(jī)器翻譯開發(fā)平臺(tái)和漢英機(jī)器翻譯系統(tǒng)”課題(項(xiàng)目編號(hào):863230620320622。作為該課題的一個(gè)重要組成部分,“現(xiàn)代漢語語義詞典”進(jìn)入到大規(guī)模開發(fā)階段,并取得了重要的階段性成果,完成419萬名詞、動(dòng)詞、形容詞的語義分類,并在配價(jià)理論的基礎(chǔ)上,簡要描述了其語義搭配限制(王惠等,1998。從2001年開始,“現(xiàn)代漢語語義詞典”的再開發(fā)受到國家973重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃項(xiàng)目的支持,對(duì)詞語的語義分類以及配價(jià)屬性描述重新進(jìn)行填寫或修訂。 表1 語義詞典規(guī)模 庫名 詞條 屬性字段 名 詞3752215時(shí)

8、間詞56715處所詞18515方位詞20415代 詞23615動(dòng) 詞2114216形容詞382715區(qū)別詞75315狀態(tài)詞99715副 詞99711數(shù) 詞10911總 庫 66539 8 二 內(nèi)容概要 (一規(guī)模與結(jié)構(gòu) “現(xiàn)代漢語語義詞典”收錄了66539個(gè)通用領(lǐng)域內(nèi)的實(shí)詞,采用F oxpro 810實(shí)現(xiàn),共有12個(gè)數(shù)據(jù)庫,其中包含全部詞語的總庫1個(gè),每類詞語各建一庫,計(jì)11個(gè)。每個(gè)庫文件都詳細(xì)刻畫了詞語及其語義屬性的二維關(guān)系??値熘邪ㄔ~語、拼音、同形、義項(xiàng)、語義類、詞類、子類、兼類等8個(gè)字段。每類詞的特有屬性填在各類詞庫中,如名詞庫設(shè)15個(gè)屬性字段,動(dòng)詞庫設(shè)16個(gè)屬性字段,如此等等。 表2

9、名詞庫部分屬性字段 詞語詞類 同形義項(xiàng)語義類配價(jià)數(shù) 參照體對(duì)象W ORD EC AT 老虎n 動(dòng)物0tiger N 腿n 11生物構(gòu)件1人動(dòng)物leg N 腿n 22非生物構(gòu)件 1用具leg N 意見n 11認(rèn)知2人實(shí)體|抽象物view N 意見 n 2 2 認(rèn)知 2 人 人|事件 objection N (二詞語的語義分類 國內(nèi)外對(duì)漢語語義分類體系的研究已有不少成果,但由于各家分類體系的目的及應(yīng)用范圍不同,對(duì)同一事物可能有不同的定義與歸類。如“動(dòng)物”在一個(gè)語義體系中分為“獸類、鳥類、 5 312006年第1期王 惠等:“現(xiàn)代漢語語義詞典”的結(jié)構(gòu)及應(yīng)用 魚類、蟲類、爬行類”,而在另一個(gè)體系中分為

10、“脊椎動(dòng)物、腔腸動(dòng)物、軟體動(dòng)物”。但這些分類體系都是基于自然科學(xué)或常識(shí)而獨(dú)立于語法的。在實(shí)際語言分析中,如何將這些語義知識(shí)與語法知識(shí)有機(jī)地結(jié)合起來是一件很困難的事情。 與這些基于常識(shí)的各種語義分類相比,“現(xiàn)代漢語語義詞典”中語義分類的突出特點(diǎn)就是分類的深度與廣度取決于語法分析的需要。應(yīng)用語義知識(shí)應(yīng)著重于解決那些僅靠語法規(guī)則難以解決的問題。因而語義分類是在詞的語法分類基礎(chǔ)上進(jìn)行的,并且只對(duì)名詞、動(dòng)詞、形容詞等實(shí)詞進(jìn)行語義分類描述,而那些帶有明顯標(biāo)志的、通常用句法形式就可以表示的語義關(guān)系,如各類虛詞,則不作為語義分類研究的對(duì)象。 經(jīng)過4年來的應(yīng)用檢驗(yàn)與研究,我們發(fā)現(xiàn),對(duì)于中文信息處理來說,這種分類

11、法是很有前途和實(shí)用價(jià)值的。為了更徹底地貫徹這個(gè)原則,同時(shí)便于與W ordnet 和“中文概念辭書(CC D ”(于江生、俞士汶,2002兼容,與“知網(wǎng)(hownet ”、同義詞詞林等已有的多種語義詞典實(shí)現(xiàn)資源共享,我們在參照現(xiàn)有各家語義類的基礎(chǔ)上,針對(duì)漢英機(jī)器翻譯的需要,對(duì)語義詞典(1998版的原分類體系作了較大的調(diào)整。總的來說,新的語義分類更趨合理,其特點(diǎn)是對(duì)名詞的分類相對(duì)較細(xì),動(dòng)詞、形容詞的分類較粗,只要能揭示出與名詞性成分、動(dòng)詞性組合成分的不同組合類型即可。目前我們已實(shí)際完成了616萬詞語的語義類劃分與標(biāo)注。具體分類體系如下: 1.名詞(N oun 111 具體事物(entity 111

12、11 生物(organism 1111111 人(pers on 111111111 個(gè)人(individual :職業(yè) 身份 關(guān)系 姓名 111111112 團(tuán)體(group :機(jī)構(gòu) 人群1111112 動(dòng)物(animal :獸 鳥 魚 昆蟲 爬行動(dòng)物1111113 植物(plant :樹 草 花 莊稼1111114 微生物(microbe :細(xì)菌 病毒 霉菌11112 非生物(object 1111211 人工物(artifact :建筑物 衣物 食物 藥物 創(chuàng)作物 計(jì)算機(jī)軟件 錢財(cái) 票據(jù) 證書 符號(hào) 材料 器具1111212 自然物(natural object :天體 氣象 地理111

13、1213 排泄物(excrement :汗 尿 糞便 奶水 眼淚1111214 外形(shape :粉末 長方形 圓 窟窿 孔 洞 泡11113 構(gòu)件(part 1111311 身體構(gòu)件(body 2part :頭 臉 鼻子 嘴 耳朵 頭發(fā) 血液 骨頭1111312 非生物構(gòu)件(object 2part :梁 屋檐 車閘 車筐112 抽象事物(abstraction 11211 屬性(attribute 1121111 量化屬性(measurable :體積 面積 重量 質(zhì)量 價(jià)格1121112 模糊屬性112111211 人性(property of human :膽量 勇氣 脾氣 作風(fēng)11

14、2111212 事性(description of event :境況 形勢 狀態(tài) 環(huán)節(jié) 631 語言文字應(yīng)用2006年第1期 112111213 物性(property of object:性能 效用 品種 式樣 1121113 顏色(color:黑色 白色 淺色 素色 11212 信息(in formation:話 言語 信件 口信 密碼 聲明 借口11213 領(lǐng)域(field:社會(huì) 經(jīng)濟(jì) 法律 科學(xué) 藝術(shù) 11214 法規(guī)(rule:法律 條約 協(xié)議 制度 規(guī)章 合同 條文11215 生理(physiological state:瘟疫 疾病 炎癥 艾滋病 11216 心理特征(psych

15、ological feature 1121611 情感(feelings:態(tài)度 感情 愛情 1121612 意識(shí)(cognition:意圖 幻想 興趣 主意 見解 11217 動(dòng)機(jī)(m otivation:目的 原因 理由 113 過程(process 11311 事件(event:學(xué)潮 球賽 晚會(huì) 課 早餐 戰(zhàn)爭 火災(zāi)11312 自然現(xiàn)象(natural phenomenon 114 時(shí)間(time 11411 絕對(duì)時(shí)間(specific time:宋朝 三國 清代 11412 相對(duì)時(shí)間(relative time:昨天 當(dāng)代 古代 今天 115 空間(space 11511 處所(loca

16、tion:浙江 西湖 黃山 中國 亞洲 11512 方位(direction:東南 前面 之間 途中 高空 21形容詞(Adjective 211 事性值(description of event:緊急 突然 困難 容易 錯(cuò)誤 費(fèi)時(shí)212 物性值(property of object 21211 量化屬性值(measurable value 2121111 濃度(concentration:濃 稀薄 2121112 溫度(tem perature:熱 冷 涼爽 2121113 速度(speed:快 慢 2121114 長度(length:長 短 2121115 高度(height:高 矮 低

17、2121116 寬度(width:寬 窄 2121117 深度(depth:深 淺 2121118 厚度(thickness:厚 薄 2121119 硬度(rigidity:硬 軟 21211110 濕度(humidity:潮濕 濕潤 干燥 21211111 粗細(xì)(degree of finish:粗 細(xì) 21211112 松緊(degree of tightness:松 緊 21211113 大小(size:大 中 小 21211114 價(jià)值(value:貴 便宜 21212 模糊屬性值(unmeasurable value 2121211 視感(vision:亮 醒目 清晰 混濁731 2

18、006年第1期王 惠等:“現(xiàn)代漢語語義詞典”的結(jié)構(gòu)及應(yīng)用 2121212 觸感(tactility :緊 松 粗糙 滑 柔 2121213 音質(zhì)(tone :響亮 低沉 刺耳 2121214 味道(taste :酸 甜 苦 辣 可口2121215 性質(zhì)(quality :新 舊 真 假 好 壞 強(qiáng) 弱2121216 內(nèi)容(content :空洞 晦澀 清楚 淺顯2121217 外形(shape :方 圓 尖21213 顏色(color :紅 黃 藍(lán) 綠 鮮艷213 人性值(property of human 21311 年齡(age :年輕 幼小 老21312 品格(character :善良

19、 博學(xué) 幼稚 優(yōu)雅21313 關(guān)系(relation :親密 疏遠(yuǎn) 熱情 冷淡21314 境況(condition :繁忙 貧窮 危險(xiǎn) 疲勞214 空間值(property of space 21411 一維值(one dimension :遠(yuǎn) 近21412 二維值(tw o dimensions :平 斜 彎 21412 三維值(three dimensions :擁擠 雜亂 整齊 滿 壯闊215 時(shí)間值(property of time :古老 久遠(yuǎn) 短暫 早 晚3.動(dòng)詞(Verb 311 靜態(tài)關(guān)系(state :是 有 等于 包括312 心理活動(dòng)(em otion cognition :

20、喜歡 尊敬 反對(duì) 同意 懷疑 思考 判斷313 動(dòng)態(tài)行為(event 31311 變化(change :死 病 下降 長高 縮小 變暗 31312 氣象(weather :下雨 刮風(fēng) 打雷 起霧31313 身體活動(dòng)(bodily care and functions :蹬 跳 推 笑 咳嗽 游泳31314 五官感覺(perception :看見 聽到 聞著 品嘗31315 消耗(consum ption :吃 喝 飲31316 位移(m otion :跑 走 散步 飛 過來 回去 拉來31317 創(chuàng)造(creation :制作 畫 炒 寫 創(chuàng)建 修筑31318 接觸(contact :觸摸 撞

21、擊 打中 系 挖掘31319 領(lǐng)屬轉(zhuǎn)移(possession :買 賣 贈(zèng)送 給 轉(zhuǎn)讓 借 313110 信息交流(communication :告訴 詢問 請求 轉(zhuǎn)達(dá) 叮囑 說313111 比賽(com petition :競賽 賽跑 打仗 摔跤 辯論313112 社會(huì)活動(dòng)(s ocial behavior :改革 調(diào)價(jià) 開會(huì) 聯(lián)歡313113 其他行為(other event (三詞語的語義屬性描寫 為了進(jìn)一步提高機(jī)器翻譯系統(tǒng)的性能,本詞典在語義分類的基礎(chǔ)上,進(jìn)一步詳細(xì)刻畫了每個(gè)詞的配價(jià)數(shù)及其在上下文中的語義搭配限制,見表3。 831 語言文字應(yīng)用2006年第1期 2006 年第 1 期

22、王 惠等 “現(xiàn)代漢語語義詞典” : 的結(jié)構(gòu)及應(yīng)用 表3 現(xiàn)代漢語語義詞典動(dòng)詞庫的屬性字段 1 39 字段名 詞語 拼音 詞類 子類 兼類 14 個(gè)字的詞語 字段值 填每個(gè)詞語的漢語拼音 , 聲調(diào)用“1 ,2 ,3 ,4 ,5 ” 表示 , 其中 5 ” “ 表 示輕聲 。如 : 常識(shí)” “ 的全拼音是 “chang2shi2” “尺子” , 的全拼音是 chi3zi5” “ 。 填詞語所屬詞類的代碼 。如 : 名詞填 n”動(dòng)詞填 v”形容詞填 a” “ , “ , “ 。 填詞語所屬詞類的子類代碼 。如 : 名詞性成語填 IN”動(dòng)詞性習(xí)用語填 LV” “ , “ 。 填該詞語兼屬的詞類代碼 ,

23、如 : 名詞 “鎖” 的兼類填 v” “ 。 對(duì)于字形 、 詞類都相同但是應(yīng)算不同詞的情況 ,在本字段中填上字母 A ,B ,C ,如 “抄近道” “抄” 的 與 “抄作業(yè)” “抄” 的 。為了提高處理效率 ,也用 A ,B ,C 等標(biāo)識(shí)同字同類不同音的情況 , 如表示 “加在 一起” “合計(jì) ( he2ji4 ” 的 與表示 “盤算 、 磋商” “合計(jì) ( he2ji5 ” 的 。 對(duì)于同一個(gè)詞的不同義項(xiàng) ,填上數(shù)字 1 ,2 ,3 。如 “菜很清淡” “清淡” 中的 在本字段填 1 ” “ “生意清 , 淡” “清淡” “2” 的 則填 。 ( ( 填寫詞語的簡明釋義 。如 : 詞典中收錄

24、兩個(gè) “天才”一個(gè)指人 “一位天才” ,一個(gè)指 , “智慧” 很有 “ 天才” ,就在本字段分別填上 “人” “智慧” 和 。 同形 義項(xiàng) 釋義 語義類 填寫詞語的語義類別名稱 。如 “校長” “身份” 填 “刀” “用具” , 填 “是” “靜態(tài)關(guān)系” , 填 “喜歡” “心 , 填 理活動(dòng)” “打雷” “氣象” , 填 ??梢圆恢固钜粋€(gè)類別名稱 ,不同的名稱之間用 | ” “ 隔開 , 如 “青菜” 填 “植物| 食物” 。 填寫詞語在上下文中所能搭配的名詞數(shù)目 ,取值范圍為 0 、。如 “大 、 1 2 3 : 兒子 、 咳嗽” 僅能跟一個(gè) 名詞發(fā)生關(guān)聯(lián) ,如 “聲音大 、 老王的兒子

25、、 小李咳嗽” ,那么這些詞的配價(jià)數(shù)就為 1 。 等 “熱情 、 意見 、 吃” 能跟兩個(gè)名詞發(fā)生關(guān)聯(lián) ,配價(jià)數(shù)就是 2 。動(dòng)詞 “給” 可以跟三個(gè)體詞發(fā)生關(guān)聯(lián) ,它的配價(jià)數(shù)即為 3 。動(dòng)詞 “例如” 不跟任何成分搭配 ,它的配價(jià)數(shù)就是 0 。 指動(dòng)作行為的發(fā)出者或性狀的承當(dāng)者 。如 “逃跑” 在本字段填 “人類| 動(dòng)物” “刮倒” “氣象” , 填 “死” , 填 “生物” “紅” , 在本字段填 “具體事物” 。 指動(dòng)作行為所涉及的直接對(duì)象或性狀的關(guān)涉對(duì)象 。如 “吃” 在本字段填 “食物” “畫” “作品” , 填 “眼 , 熟” “具體事物” 填 “有利” “人類| 事物” , 填 。

26、 事件中的受益者或受損者 。如 “給” 在本字段填 “人類” “送” “人類” , 也填 。 填寫詞語對(duì)應(yīng)的英語譯文 ,如 “安靜” 在本字段填 quiet” “ “臟亂” “dirty and messy” , 填 。 填寫詞語的英語譯文的詞性代碼 ,或短語組成結(jié)構(gòu) ,如 “安靜” 在本字段填 A” “ “臟亂” “ ! A + , 則填 ( C + ! A” ! 表示中心詞 。 填寫詞語某些用法的簡明示例 。 配價(jià)數(shù) 主體 客體 與事 WORD ECAT 備注 三 應(yīng)用價(jià)值 “現(xiàn)代漢語語義詞典” 中的詞義信息在漢語分析的各個(gè)層面 ,包括多義詞義項(xiàng)判斷 、 短 語結(jié) 構(gòu)層次和結(jié)構(gòu)關(guān)系判定以及

27、成分之間語義關(guān)系的確定等等 ,都能起到重要的作用 。在漢英機(jī) 器翻譯中 ,利用詞義信息至少有兩個(gè)顯著作用 : 140 語言文字應(yīng)用 2006 年第 1 期 ( 1 在源語言句法分析過程中 ,排除一些歧義結(jié)構(gòu) ,有助于得到正確的句法結(jié)構(gòu) ; ( 2 在目標(biāo)語生成過程中 ,進(jìn)行詞義消歧 ,在多義詞的不同譯法中挑選一個(gè)最合適的 ,提高 譯文質(zhì)量 。 前者已經(jīng)有不少論述 ( 王惠 ,2004 ; 詹衛(wèi)東 、 劉群 ,1997 ,這里不再贅述 ,本節(jié)將重點(diǎn)放在后 者上 ,以具體實(shí)例介紹 “現(xiàn)代漢語語義詞典” 在漢英機(jī)器翻譯系統(tǒng)中詞義消歧方面的應(yīng)用 。 詞義消歧的第一步是確定哪些詞是多義詞 。語義詞典提供

28、了非常簡單的判斷方法 : 只要 “義項(xiàng)” “同形” “兼類” 3 個(gè)字段中的任何一個(gè)填有內(nèi)容 ,就說明當(dāng)前的詞條是一個(gè)多義詞 ,需 這 要進(jìn)行詞義消歧 。 如果一個(gè)詞的多個(gè)義項(xiàng)屬于不同的語義類 ,那么 ,它們在句子中所受到的組合限制也相應(yīng) 地不同 。對(duì)動(dòng)詞來說 ,主要表現(xiàn)在動(dòng)作的發(fā)出者 、 動(dòng)作對(duì)象的差異上 ; 對(duì)形容詞而言 ,則是修飾 對(duì)象的語義類不同 。 “現(xiàn)代漢語語義詞典” 對(duì)這些都作了具體描述 。如 : 表4 現(xiàn)代漢語語義詞典中的多義形容詞 詞語 清淡 清淡 詞類 a a 釋義 ( 氣味 清而淡 義項(xiàng) 1 2 語義類 氣味 境況 主體 食物| 植物 “生意” WORD light sl

29、ack 營業(yè)數(shù)額少 如果遇到以下經(jīng)過切分 、 標(biāo)注的文本 : 1 清淡 的 荷花 香氣 a u n n 2 農(nóng)忙時(shí) 進(jìn)城 的 人 不 多 ,生意 比較 清淡 。 t v u n d a n d a 句 1 中 “清淡” 后面的名詞是 “荷花” 屬于 , “植物” ; 句 2 中 類 “清淡” 的修飾對(duì)象是“生 意” 。根據(jù) “主體” 字段的信息 ,計(jì)算機(jī)就可準(zhǔn)確地判斷出這兩個(gè) “清淡” 屬于不同的語義類 ,前 一個(gè)屬于義項(xiàng) 1 ,應(yīng)譯為 light ”后一個(gè)只能與 “ , “生意” 搭配 ,則譯為 slack” “ 。 經(jīng)過詞類與語義類兩步篩選 ,可以完成絕大部分的漢語多義詞消歧 。但還有少數(shù)

30、多義詞 , 其內(nèi)部各義項(xiàng)的詞類 、 語義類均相同 ,如 : 表 5 “找” 動(dòng)詞 不同義項(xiàng)的語義搭配 詞語 找 找 詞類 v v 同形 A B 釋義 尋找 退還 語義類 對(duì)待 對(duì)待 主體 人 人 客體 具體事物 “ 3 錢” 與事 WORD look for 備注 材料 錢 人 give change 由表 5 可見 “尋找” “找” , 的 在句子中只帶一個(gè)賓語 ,而且這個(gè)賓語只能由表示 “具體事物” 的名詞充當(dāng) ,而 “找錢” “找” 的 后面可以跟兩個(gè) NP ,一個(gè)僅限于 “錢”另一個(gè)則必須屬于語義類 , “人” 。即 : 找 A 右組合 : + 名詞 ( 具體事物 “狗 、 自行車 、

31、 房子” ( 找 B 右組合 : + 名詞 人稱代詞 ( 人 “主任 、 、 + 名詞 “錢” 小李 你” 根 據(jù)這個(gè)搭配特征 ,計(jì)算機(jī)可以正確判斷出下面例句中 “找” 的詞義 : 1 我們 出去 再 找 一 塊 實(shí)驗(yàn)地 。 r v d v m q n 2 營業(yè)員 找 我 20 元 錢 。 n v r m q n 例 1 中的 “找” 后面只有一個(gè)名詞 “試驗(yàn)地” 屬于 , “具體事物” 因而 , 是 , “找 A” 應(yīng)譯為 , “l(fā)ook for”例 2 中的 ; “找” 后面有一個(gè)人稱代詞 “我”還有一個(gè)名詞 , “錢”顯然符合 , “找 B ” 的組 合條件 ,應(yīng)選擇 give chan

32、ge” “ 作為譯文輸出 。 2006 年第 1 期 王 惠等 “現(xiàn)代漢語語義詞典” : 的結(jié)構(gòu)及應(yīng)用 1 41 四 結(jié) 語 作為綜合語言知識(shí)庫的一個(gè)組成部分 “現(xiàn)代漢語語義詞典” , 不僅可以應(yīng)用于機(jī)器翻譯 ,而 且還可以在多種 NLP 系統(tǒng) ( 如自然語言接口 、 文獻(xiàn)檢索 、 信息自動(dòng)提取 、 語音識(shí)別與合成 、 文本 校對(duì) 、 語料庫加工等 的語義分析中發(fā)揮重要作用 。同時(shí) ,對(duì)于促進(jìn)漢語詞匯與語義學(xué)研究 、 開 展?jié)h語詞義定量分析等也有很大的價(jià)值 。 目前 ,本項(xiàng)研究已取得了可觀的階段性成果 , 詞典規(guī)模擴(kuò)大到了 616 萬詞語 , 質(zhì)量也有了 顯著提高 ,并已在一個(gè)漢英機(jī)器翻譯系統(tǒng)中得到實(shí)際應(yīng)用 。但語義詞典的開發(fā)畢竟是一項(xiàng)長 期的語言工程 ,不可能畢其功于一役 。我們在實(shí)踐檢驗(yàn)中還應(yīng)不斷地發(fā)現(xiàn)問題 ,總結(jié)經(jīng)驗(yàn) ,逐 漸完善現(xiàn)有的語義分類體系及屬性描寫 。同時(shí) ,從大規(guī)模語料中自動(dòng)抽取更多的語義搭配知 識(shí) ,檢驗(yàn)并豐富我們現(xiàn)有的語義約束描述 ,在計(jì)算詞義學(xué)方面進(jìn)行更深入的探索 。 參考文獻(xiàn) 1 Christiane Fellbaum. ed. . WordNet : an electronic lexical database M . Mass : MIT Press ,1998. 2 王 ,詹衛(wèi)東 ,劉 . 現(xiàn)代漢語語義詞典的設(shè)計(jì)與概要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論