自然語(yǔ)言處理講座4第四章漢語(yǔ)語(yǔ)料庫(kù)多級(jí)加工_第1頁(yè)
自然語(yǔ)言處理講座4第四章漢語(yǔ)語(yǔ)料庫(kù)多級(jí)加工_第2頁(yè)
自然語(yǔ)言處理講座4第四章漢語(yǔ)語(yǔ)料庫(kù)多級(jí)加工_第3頁(yè)
自然語(yǔ)言處理講座4第四章漢語(yǔ)語(yǔ)料庫(kù)多級(jí)加工_第4頁(yè)
自然語(yǔ)言處理講座4第四章漢語(yǔ)語(yǔ)料庫(kù)多級(jí)加工_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

漢語(yǔ)語(yǔ)料庫(kù)多級(jí)加工目的語(yǔ)料庫(kù)的多級(jí)加工技術(shù)是語(yǔ)料庫(kù)語(yǔ)言學(xué)研究的前沿課題。它的處理目標(biāo)是對(duì)生語(yǔ)料文本進(jìn)行多級(jí)加工(分詞、詞性標(biāo)注、句法分析)形成樹(shù)庫(kù)(treebank)語(yǔ)料。目的:大規(guī)模的語(yǔ)料庫(kù)中提取應(yīng)用所需要的各個(gè)語(yǔ)言單位上的語(yǔ)言學(xué)知識(shí)。計(jì)算機(jī)語(yǔ)料庫(kù)的功能的決定性因素

語(yǔ)料庫(kù)的規(guī)模語(yǔ)料庫(kù)容量的大小直接影響到統(tǒng)計(jì)結(jié)果的可靠性語(yǔ)料的分布語(yǔ)料分布的考慮則關(guān)系到統(tǒng)計(jì)結(jié)果的適用范圍語(yǔ)料的加工深度加工深度則決定了該語(yǔ)料庫(kù)能為自然語(yǔ)言處理提供什么樣的知識(shí)

語(yǔ)料的加工順序經(jīng)過(guò)不同階段的處理,語(yǔ)料庫(kù)包含的各類(lèi)信息也不斷增加,最終將成為一個(gè)名副其實(shí)的語(yǔ)言知識(shí)庫(kù)。這樣的知識(shí)庫(kù)可以為漢語(yǔ)統(tǒng)計(jì)分析、漢語(yǔ)理解和機(jī)器翻譯等資源提供重要的資源和有力的支持自動(dòng)分詞規(guī)范北大計(jì)算語(yǔ)言學(xué)研究所1994年制訂了《現(xiàn)代漢語(yǔ)文本切分與詞性標(biāo)注規(guī)范V1.0》。北大計(jì)算語(yǔ)言學(xué)研究所于1998年10月制訂了《現(xiàn)代漢語(yǔ)文本切分與詞性標(biāo)注規(guī)范V2.0》后改名為《現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)加工規(guī)范》。分詞的主要難點(diǎn)切分歧義交集型覆蓋型未登錄詞就是在詞典中沒(méi)有登錄過(guò)的人名,地名,機(jī)構(gòu)名,新詞語(yǔ)等.當(dāng)采用匹配的方法來(lái)切詞時(shí),由于詞典中沒(méi)有登錄這些詞,會(huì)引起自動(dòng)切詞的困難。歧義切分字段在漢語(yǔ)書(shū)面文本中所占的比例并不很大,在實(shí)際的書(shū)面文本中,特別是在新聞?lì)愇谋局?,未登錄詞的處理是書(shū)面文本自動(dòng)切分的一個(gè)十分突出的問(wèn)題。這是漢語(yǔ)書(shū)面語(yǔ)自動(dòng)切分的另一個(gè)難點(diǎn)。中國(guó)人名識(shí)別(1)根據(jù)統(tǒng)計(jì),漢語(yǔ)姓氏大約有1000多個(gè),姓氏中使用頻度最高的是“王”姓,“王,陳,李,張,劉”等5個(gè)大姓覆蓋率達(dá)32%,姓氏頻度表中的前14個(gè)高頻度的姓氏覆蓋率為50%,前400個(gè)姓氏覆蓋率達(dá)99%。人名的用字也比較集中。頻度最高的前6個(gè)字覆蓋率達(dá)10.35%,前10個(gè)字的覆蓋率達(dá)14.936%,前15個(gè)字的覆蓋率達(dá)19.695%,前400個(gè)字的覆蓋率達(dá)90%。第一次出現(xiàn)的人名叫做“定義性出現(xiàn)”,爾后出現(xiàn)的人名叫做“使用性出現(xiàn)”。為此,在切分時(shí)可根據(jù)人名在定義性出現(xiàn)時(shí)的限制性成分首先建立人名表。中國(guó)人名識(shí)別(2)人名的限制性成分主要有身份詞:表示人的職務(wù),職位,頭銜的詞語(yǔ)和親屬稱(chēng)謂的詞語(yǔ).有的出現(xiàn)在人名之前,如“工人,教師,丈夫,妻子,犯人”,有的出現(xiàn)在人名之后,如“先生,女士”,有的可以出現(xiàn)在人名的前面和后面,如“教授,總理”。許多身份詞帶有后綴字,如“在逃犯,理發(fā)員,面包師,目擊者”中的“犯,員,師,者”等。地名和單位名:如“浙江紹興周樹(shù)人,國(guó)家語(yǔ)委馮志偉”。

復(fù)雜的定語(yǔ):如“德高望重的呂叔湘先生”。根據(jù)這些限制性成分,可以有效地識(shí)別人名中國(guó)人名識(shí)別(3)中國(guó)姓氏用字中有的是專(zhuān)用作姓氏的,如“趙,鄧,潘,馮”等,有的則兼作其他詞語(yǔ)使用,如“顧,黃,周”等,對(duì)于兼作其他詞語(yǔ)的姓氏,需要建立規(guī)則來(lái)判斷。“顧”兼作動(dòng)詞記者顧小東只顧短期的經(jīng)濟(jì)利益規(guī)則:如果“顧”前有副詞(只),則“顧”不為姓氏?!包S”兼作形容詞黃曾陽(yáng)研究概念層次網(wǎng)絡(luò)彩色的光帶射到黃玻璃上規(guī)則:如果“黃”后有物質(zhì)名詞,則“黃”不為姓氏?!爸堋奔孀髁吭~由周恩來(lái)任國(guó)務(wù)院總理地球自轉(zhuǎn)一周規(guī)則:如果“周”前有數(shù)詞,則“周”不為姓氏。外國(guó)人名識(shí)別(1)《英語(yǔ)姓名譯名手冊(cè)》中共收英語(yǔ)姓氏,教名約4萬(wàn)個(gè),經(jīng)計(jì)算機(jī)統(tǒng)計(jì)得出英語(yǔ)姓名譯名用字表共476個(gè):“啊阿埃艾愛(ài)昂奧巴白柏拜班邦包保堡鮑北貝倍本比彼邊別濱賓玻波博勃伯卜布采蔡藏策查察昌徹陳楚垂茨慈次聰存措達(dá)大戴代丹當(dāng)?shù)赖碌玫青嚨系椎氐俚诘鄱|杜敦頓多厄恩耳爾法凡范方菲費(fèi)芬豐馮佛夫福弗輔富蓋甘岡高哥戈葛格各根貢古顧瓜圭郭果哈海罕翰漢杭豪赫黑亨洪侯胡華懷惠霍基吉季計(jì)嘉佳加賈簡(jiǎn)姜焦杰捷金津京久居喀卡開(kāi)凱坎康考柯科可克肯孔扣寇庫(kù)夸匡奎魁坤昆闊拉臘萊來(lái)賴(lài)蘭朗勞勒樂(lè)雷黎理李里禮荔麗歷利立蓮連廉良列琳林霖齡留劉流柳龍隆盧魯露路呂略倫蘿羅洛瑪馬麥邁滿曼芒茅梅門(mén)蒙孟米密敏明名摩莫墨默姆木穆拿娜納乃奈南內(nèi)嫩能妮尼年涅寧牛紐農(nóng)努女諾歐帕派潘龐培佩彭蓬皮匹平潑樸普漆奇齊契恰錢(qián)強(qiáng)喬切欽琴青瓊丘邱屈讓熱仁日榮茹儒瑞若撒薩塞賽三繕桑瑟森莎沙珊山尚紹舍申生盛圣施詩(shī)石什史士壽舒朔斯思絲松孫索所塔泰坦湯唐陶特藤提惕田鐵汀廷亭通透圖托脫娃瓦萬(wàn)旺威韋為維偉魏衛(wèi)溫文翁沃烏武伍西錫希悉席霞夏顯香向曉肖歇謝欣辛興幸姓雄休修雪遜雅亞延揚(yáng)陽(yáng)堯耀耶葉依易意因英永尤雨約宰贊早澤曾扎詹湛章張哲者珍真芝知智治朱卓茲子宗祖佐丕謨葆薇岑弼婭繆珀瑙賚滕斐熙鳩竇艮麟黛”。

利用這個(gè)譯名表,可初步確定外國(guó)人名在句子中的位置和邊界。設(shè)任一連續(xù)漢字串C1...Ci...Cn(n1),如果對(duì)所有的Ci(i=1,...,n),都有Ci屬于譯名表,則初步可認(rèn)為該漢字串為外國(guó)人名。外國(guó)人名識(shí)別(2)初步確定外國(guó)人名之后,再根據(jù)人名前后的限制性成分,進(jìn)一步確定外國(guó)人名的界限。政府總理盧卡諾夫參加了慶?;顒?dòng)英國(guó)首相撒切爾夫人訪問(wèn)美國(guó)根據(jù)譯名表切分時(shí)會(huì)認(rèn)為“理盧卡諾夫,撒切爾夫”是外國(guó)人名,得出錯(cuò)誤的切分。這時(shí),還要利用限制性成分“總理”和“夫人”,使譯名表中的漢字不能作用于限制性成分“總理”和“夫人”之上,便可以得到正確的切分:“總理/盧卡諾夫”,“撒切爾/夫人”。我們也可以利用只能出現(xiàn)在外國(guó)人名首和外國(guó)人名末的漢字作為特征字來(lái)判定外國(guó)人名的邊界。這需要分別建立相應(yīng)的字表來(lái)作為判定外國(guó)人名左右邊界的依據(jù)。外國(guó)人名識(shí)別(3)還可以利用簡(jiǎn)單的上下文來(lái)進(jìn)一步判定外國(guó)人名的邊界標(biāo)點(diǎn)符號(hào),數(shù)字,空格,西文字母,譯名連接符號(hào)常常是人名的邊界。人名經(jīng)常出現(xiàn)在一些表示行為的動(dòng)詞之前,如“率,說(shuō),抵,離,報(bào)道,率領(lǐng),會(huì)見(jiàn),表示,接受,指出,認(rèn)為,發(fā)現(xiàn),主持,呼吁,出席”等。地名識(shí)別(1)地名用字的分布比人名用字分散,處理起來(lái)困難更大。中國(guó)地名委員會(huì)編寫(xiě)了《中華人民共和國(guó)地名錄》,收集了全國(guó)鄉(xiāng)鎮(zhèn)以上(含鄉(xiāng)鎮(zhèn))各級(jí)行政區(qū)域的名稱(chēng),以鄉(xiāng)鎮(zhèn)人民政府所在地為主的居民聚落名稱(chēng),山、河、湖、海、島、高原、盆地、沙溪等自然地理實(shí)體名稱(chēng),名勝古跡、紀(jì)念地、古遺址、水庫(kù)、橋梁、電站等名稱(chēng)。共收錄地名10萬(wàn)多條。這個(gè)地名錄中使用的漢字共2662個(gè),頻度最高的前65個(gè)漢字占總頻度的50.22%,前622個(gè)漢字占總頻度的90.01%,前1872個(gè)漢字占總頻度的99%。與人名的用字情況相比較,地名用字分散得多。地名識(shí)別(2)中國(guó)地名的自動(dòng)識(shí)別主要利用地名用字的頻度信息以及關(guān)聯(lián)信息對(duì)侯選的地名用詞進(jìn)行篩選,再利用出現(xiàn)在地名后部的特征字“省、是、縣、鄉(xiāng)、鎮(zhèn)、山、湖、河、?!钡冗M(jìn)行判定。還可以利用地名的上下文信息進(jìn)一步判定某些動(dòng)詞和介詞(如“到、在、位于”等)的后面常常出現(xiàn)地名:例如,“到北京,在上海,位于八達(dá)嶺”。某些方位詞(如“附近、內(nèi)外”等)的前面常常出現(xiàn)地名:例如,“海淀附近,長(zhǎng)城內(nèi)外”。某些機(jī)構(gòu)名(如“郵電局、派出所”等)前面常常出現(xiàn)地名:例如,“東四郵電局,朝陽(yáng)門(mén)派出所”。機(jī)構(gòu)名識(shí)別主要是機(jī)關(guān)、團(tuán)體和企業(yè)事業(yè)單位的名稱(chēng)。機(jī)構(gòu)名數(shù)目龐大,并且隨著社會(huì)的發(fā)展而不斷變化。機(jī)構(gòu)名一般都比較長(zhǎng),處理時(shí)首先應(yīng)該弄清它的內(nèi)部結(jié)構(gòu)。機(jī)構(gòu)名在語(yǔ)法上屬于定中結(jié)構(gòu),在中心語(yǔ)前面加上一個(gè)或幾個(gè)修飾語(yǔ),這些修飾語(yǔ)可以是地名、人名、學(xué)科名、行業(yè)名。例如,“北京(地名)大學(xué)”、“白求恩(人名)醫(yī)科(學(xué)科名)大學(xué)”、“汽車(chē)制造(行業(yè)名)廠”。識(shí)別機(jī)構(gòu)名時(shí),首先應(yīng)找到作為中心語(yǔ)的機(jī)構(gòu)稱(chēng)呼詞,然后由后往前逐個(gè)識(shí)別其修飾語(yǔ),判定修飾語(yǔ)是否合法,在處理過(guò)程中,還需要進(jìn)行淺層的句法語(yǔ)義分析。自動(dòng)詞性標(biāo)注自動(dòng)詞性標(biāo)注就是用計(jì)算機(jī)來(lái)自動(dòng)地給文本中的詞標(biāo)注詞類(lèi)。在英語(yǔ)、漢語(yǔ)等自然語(yǔ)言中,都存在著大量的詞的兼類(lèi)現(xiàn)象,這給文本的自動(dòng)詞性標(biāo)注帶來(lái)了很大的困難。因此,如何排除詞類(lèi)歧義,是文本自動(dòng)詞性標(biāo)注研究的關(guān)鍵問(wèn)題。漢語(yǔ)中的兼類(lèi)詞漢語(yǔ)中的兼類(lèi)詞只占漢語(yǔ)詞匯的一小部分?!吨袑W(xué)生詞典》收詞1.4萬(wàn),兼類(lèi)詞有820個(gè),占5.86%。兼類(lèi)詞數(shù)量雖小,但大多是常用詞。往往越是常用的詞,不同的用法就越多,兼類(lèi)現(xiàn)象也就越多,兼類(lèi)詞主要集中在名詞、動(dòng)詞、形容詞、副詞等類(lèi)詞上?!吨袑W(xué)生詞典》中,“動(dòng)-名”(例如“計(jì)劃、報(bào)告”)、“動(dòng)-形”(例如“繁榮、普及”)、“名-形”(例如“科學(xué)、秘密”)、“形-副”(例如“直、白”)、“動(dòng)-副”(例如“斷、還”)、“名-副”(例如“極端”)、“名-動(dòng)-形”(例如“嚴(yán)肅、鞏固”)等7種兼類(lèi)現(xiàn)象,就占了820個(gè)兼類(lèi)詞的95.5%。如果我們把力量放在主要兼類(lèi)現(xiàn)象的處理上,就可以收到事半功倍的效果。

漢語(yǔ)中的兼類(lèi)詞在漢語(yǔ)中,兼類(lèi)詞主要集中在動(dòng)詞、名詞、形容詞等常用詞上。各種兼類(lèi)現(xiàn)象的比例如下:動(dòng)詞-名詞兼類(lèi):37.6%動(dòng)詞-形容詞兼類(lèi):24.3%名詞-形容詞兼類(lèi):10.4%形容詞-副詞兼類(lèi):4.55%動(dòng)詞-介詞兼類(lèi):4.04%動(dòng)詞-副詞兼類(lèi):2.27%名詞-動(dòng)詞-形容詞兼類(lèi):2.27%名詞-副詞兼類(lèi):2.02%其他兼類(lèi)現(xiàn)象:12.55%基于規(guī)則的方法主要根據(jù)句法、語(yǔ)義、上下文等語(yǔ)言學(xué)規(guī)則來(lái)消解兼類(lèi)歧義。語(yǔ)料庫(kù)中漢語(yǔ)書(shū)面文本的詞性標(biāo)注基于規(guī)則的詞性標(biāo)注主要依靠上下文來(lái)判定兼類(lèi)詞。這是一張白紙(“白‘出現(xiàn)在名詞”紙’之前,判定為形容詞)他白跑了一趟(“白”出現(xiàn)在動(dòng)詞“跑”之前,判定為副詞)詞性連坐:在并列的聯(lián)合結(jié)構(gòu)中,聯(lián)合的兩個(gè)成分的詞類(lèi)應(yīng)該相同,如果其中一個(gè)為非兼類(lèi)詞,另一個(gè)為兼類(lèi)詞,則可把非兼類(lèi)詞的詞性判定為兼類(lèi)詞的詞性。我讀了幾篇文章和報(bào)告“文章”為名詞,是非兼類(lèi)詞,“報(bào)告”為動(dòng)-名兼類(lèi)詞,由于處于聯(lián)合結(jié)構(gòu)中,故可判定“報(bào)告”為名詞。語(yǔ)料庫(kù)中漢語(yǔ)書(shū)面文本的詞性標(biāo)注基于隱馬爾可夫模型(HMM)的詞性標(biāo)注器從語(yǔ)料庫(kù)中選出一定數(shù)量的文本,作為訓(xùn)練集(trainingset),手工分析這個(gè)訓(xùn)練集,采用二元語(yǔ)法(bi-gramgrammar),從中歸納出統(tǒng)計(jì)數(shù)據(jù)。根據(jù)對(duì)訓(xùn)練集的語(yǔ)料分析得出的統(tǒng)計(jì)數(shù)據(jù),構(gòu)造統(tǒng)計(jì)模型;根據(jù)統(tǒng)計(jì)模型去標(biāo)注語(yǔ)料庫(kù)中新的文本?;谵D(zhuǎn)移的詞性標(biāo)注器基于轉(zhuǎn)移與隱馬爾可夫模型相結(jié)合的詞性標(biāo)注器舉例:詞性(詞類(lèi))標(biāo)注`結(jié)果邁向/v充滿/v希望/n的/u新/a世紀(jì)/n——/w一九九八年/t新年/t講話/n語(yǔ)料庫(kù)中漢語(yǔ)書(shū)面文本的自動(dòng)短語(yǔ)定界和句法標(biāo)注句法分析的總體結(jié)構(gòu)語(yǔ)料庫(kù)中漢語(yǔ)書(shū)面文本的自動(dòng)短語(yǔ)定界和句法標(biāo)注根據(jù)單詞的信息、詞類(lèi)類(lèi)別和句法特征,確定那一個(gè)單詞是短語(yǔ)的左邊界,那一個(gè)單詞是短語(yǔ)的右邊界,那些單詞是短語(yǔ)的中間部分。短語(yǔ)定界的格式如下:

[ww…ww]

其中,[w是開(kāi)括號(hào),它是短語(yǔ)的頭,w]是閉括號(hào),它是短語(yǔ)的尾。自動(dòng)短語(yǔ)定界的步驟是:根據(jù)上下文信息,把開(kāi)括號(hào)與其相應(yīng)的閉括號(hào)對(duì)應(yīng)起來(lái)。根據(jù)歧義消解規(guī)則和統(tǒng)計(jì)信息,消解短語(yǔ)定界的歧義。生成表示句子結(jié)構(gòu)的成分結(jié)構(gòu)樹(shù)。舉例1[zj紗籠/n。/w]2[zj[fj[dj紗籠/n[vp是/v[np[np馬來(lái)/n民族/n]的/u[np傳統(tǒng)/n服裝/n]]]],/w[vp[vbar富/a有/v][np濃厚/a的/u[np熱帶/n情調(diào)/n]]]]。/w]zj:整句fj:復(fù)合句型dj:單句句型vp:動(dòng)詞性短語(yǔ)np:名詞性短語(yǔ)vbar:形容詞性準(zhǔn)短語(yǔ)自動(dòng)語(yǔ)義標(biāo)注計(jì)算機(jī)對(duì)出現(xiàn)在一定上下文中的詞語(yǔ)的語(yǔ)義進(jìn)行判定,確定其正確的語(yǔ)義并加以標(biāo)注。確定詞匯與其他詞匯的關(guān)系語(yǔ)義的自動(dòng)判定一詞多類(lèi),形成了詞的兼類(lèi)現(xiàn)象,自動(dòng)詞性標(biāo)注主要是詞的兼類(lèi)問(wèn)題。一詞多義,形成了詞的多義現(xiàn)象,自動(dòng)語(yǔ)義標(biāo)注主要是解決詞的多義問(wèn)題。一詞多義也是自然語(yǔ)言中的普遍現(xiàn)象,但是,在一定的上下文中,一個(gè)詞一般只能解釋為一種語(yǔ)義。所謂自動(dòng)語(yǔ)義標(biāo)注,就是計(jì)算機(jī)對(duì)出現(xiàn)在一定上下文中的詞語(yǔ)的語(yǔ)義進(jìn)行判定,確定其正確的語(yǔ)義并加以標(biāo)注。語(yǔ)義的自動(dòng)判定的方法以字義定詞義:漢語(yǔ)中的絕大多數(shù)復(fù)合詞,其字義與詞義之間都有密切的聯(lián)系,字義在詞義中的作用十分明顯,詞義幾乎等于它所包含的字義的相加,以少量的漢字來(lái)推知大量的詞義,可以達(dá)到以簡(jiǎn)馭繁的效果。“打”在現(xiàn)代漢語(yǔ)中是一個(gè)多義詞,在《現(xiàn)代漢語(yǔ)詞典》中,其義項(xiàng)達(dá)24項(xiàng)之多。我們可以使用以字義定詞義的方法來(lái)確定文本中“打”的詞義。例如,“打鼓”中的“打”的字義是“用手或器具撞擊物體”,“鼓”的字義是“打擊樂(lè)器”,由此可以推知“打鑼鼓”中“打”的詞義。其推理過(guò)程是:因?yàn)椤按蜩尮摹敝械摹拌尮摹迸c“打鼓”中的“鼓”在《同義詞詞林》中的語(yǔ)義分類(lèi)相同,其代碼都是BP13,“鑼鼓”也是一種“打擊樂(lè)器”,所以,可以推知“打鑼鼓”中的“打”的詞義是“用手或器具撞擊物體”。

以單義詞的詞義定多義詞的詞義:如果某一單義詞的義項(xiàng)包含在某個(gè)多義詞的義項(xiàng)中,則可以根據(jù)單義詞的搭配信息來(lái)確定在文本中多義詞的義項(xiàng)。“織毛衣”中的“織”是一個(gè)單義詞,其義項(xiàng)是“用針使紗或線互相套住”,由此可以推知在“打毛衣”中的“打”的義項(xiàng)也是“用針使紗或線互相套住”,也就是“編織”。

語(yǔ)義的自動(dòng)判定的方法利用詞典條目的定義判斷詞義的親和程度,從而確定多義詞的詞義萊斯克(M.Lesk)提出利用既存的知識(shí)源來(lái)對(duì)多義詞的義項(xiàng)進(jìn)行優(yōu)選。機(jī)器可讀詞典中詞典條目的定義是一種既存的知識(shí)源,如果在兩個(gè)單詞的定義中都出現(xiàn)共同的詞語(yǔ),便可推斷它們之間的親和程度較大,從而據(jù)此優(yōu)選出多義詞的義項(xiàng)。在英語(yǔ)中,pen是一個(gè)多義詞,可以理解為“筆”,也可以理解為“動(dòng)物的圍欄”,如果在一個(gè)句子中既有pen,又有sheep,而在機(jī)器可讀詞典的pen的定義中有“anenclosureinwhichdomesticanimalsarekept”,在sheep的定義中有“Therearemanybreedsofdomesticsheep”,在這兩個(gè)定義中都存在共同出現(xiàn)的單詞domestic,從而可以判斷,在這個(gè)句子中,pen的含義應(yīng)該是“動(dòng)物的圍欄”,而不是“筆”,從而正確地確定了多義詞pen的義項(xiàng)。詹森(K.Jensen)和比諾特(J-L.Binot)利用聯(lián)機(jī)詞典中的單詞的定義來(lái)選擇英語(yǔ)中多義介詞的功能意義。英語(yǔ)的with這個(gè)介詞,其功能可以表示INSTRUMENT(工具),又可以表示PART-OF(部分-全體)關(guān)系,這就出現(xiàn)了功能上的歧義,這也是一種多義現(xiàn)象。在英語(yǔ)句子“Iateafishwithafork”中,fork(叉子)的定義為“aninstrumentforeatingfood”,其中的instrument與with的功能INSTRUMENT(工具)相同,故可判斷with在這個(gè)句子中的功能應(yīng)該是INSTRUMENT(工具),故此句的含義應(yīng)該為“我用叉子吃魚(yú)”。在英語(yǔ)句子“Iateafishwithbones”中,bone在機(jī)器可讀詞典中的定義是“apartofanimal”,在fish的定義中,有“akindofanimal”,這與with的功能PART-OF(部分-全體)關(guān)系相同,故可判斷with在這個(gè)句子中的功能是PART-OF(部分-全體)關(guān)系,這樣,這個(gè)句子的含義應(yīng)該是“我吃帶骨的魚(yú)”。語(yǔ)義的自動(dòng)判定的方法利用上下文搭配關(guān)系來(lái)確定多義詞的義項(xiàng):多義動(dòng)詞與名詞搭配有明確的選擇關(guān)系,利用所選擇名詞語(yǔ)義類(lèi)別的不同,可以判斷多義動(dòng)詞的詞義。英語(yǔ)attend是一個(gè)多義動(dòng)詞,其意義或者為“出席”,或者為“護(hù)理”,當(dāng)它后面的名詞的語(yǔ)義為“會(huì)議、宴會(huì)”,其義項(xiàng)取“出席”,當(dāng)它后面的名詞的語(yǔ)義為“人”時(shí),其義項(xiàng)取“護(hù)理”。在句子“Iattendaceremony”中,名詞

ceremony的語(yǔ)義為“會(huì)議、宴會(huì)”,所以,應(yīng)翻譯為“我參加典禮”;在句子“Whichdoctorisattendingthispatient?”中,名詞

patient的語(yǔ)義為“人”,所以,應(yīng)翻譯為“哪位醫(yī)生護(hù)理這個(gè)病人?”為了采用這種上下文搭配關(guān)系的方法,需要認(rèn)真研究動(dòng)詞和名詞的搭配關(guān)系,并且還要結(jié)合這樣的搭配關(guān)系建立名詞的語(yǔ)義分類(lèi)系統(tǒng),使名詞的語(yǔ)義分類(lèi)系統(tǒng)與動(dòng)詞名詞的搭配關(guān)系有機(jī)地結(jié)合起來(lái),而不是貌合神離,或者各行其道。

詞匯間語(yǔ)義關(guān)系的確定關(guān)系是詞匯語(yǔ)義的靈魂詞匯間的關(guān)系Hownet()董振東等上下位關(guān)系(XisakindofY)整體-部分關(guān)系(XisapartofY)同義關(guān)系(XisaY)反義關(guān)系(舉例:美丑(多為a))對(duì)義關(guān)系(舉例:得到失去(多為v))等等語(yǔ)義標(biāo)注舉例他在書(shū)店里看書(shū)。semantictree:[(word_no=7,SENTENCE,,,)[SEN(word_no=4,看,v,vv2,2241101)[LOC(word_no=2,書(shū)店,n,sss,1132041)OBJ(word_no=5,書(shū),n,nn1,1121)AGT(word_no=0,他,r,rr1,11111041)]]]漢語(yǔ)語(yǔ)料庫(kù)多級(jí)加工系統(tǒng)(ChineseCorpusMultilevelProcessing,CCMP)自動(dòng)切詞和詞性標(biāo)注子系統(tǒng)自動(dòng)短語(yǔ)定界和句法標(biāo)注子系統(tǒng)自動(dòng)語(yǔ)義標(biāo)注子系統(tǒng)輔助工具,如:查詢(xún)工具、樣本采取工具、統(tǒng)計(jì)工具、語(yǔ)料庫(kù)管理界面。人機(jī)互助的語(yǔ)料加工模型語(yǔ)料加工過(guò)程人機(jī)互助的語(yǔ)料加工模型此模型具有以下幾個(gè)特點(diǎn):普遍性知識(shí)和特殊性知識(shí)相結(jié)合當(dāng)正確標(biāo)注的語(yǔ)料達(dá)到一定規(guī)模以后,從中統(tǒng)計(jì)得到的分布數(shù)據(jù)近似地反映了語(yǔ)言中的一些普遍規(guī)律,將這些數(shù)據(jù)運(yùn)用于自動(dòng)標(biāo)注處理,可以期望獲得較高的處理正確率。但語(yǔ)言是千變?nèi)f化的,具有許多特例。因此系統(tǒng)配備了一個(gè)由錯(cuò)誤驅(qū)動(dòng)的規(guī)則學(xué)習(xí)程序,通過(guò)將自動(dòng)處理結(jié)果和人工校對(duì)結(jié)果相比較,發(fā)現(xiàn)錯(cuò)誤所在,從中可以總結(jié)歸納出若干特殊情況的處理規(guī)則。這樣,將統(tǒng)計(jì)得到的普遍性知識(shí)和學(xué)習(xí)得到的特殊性知識(shí)相結(jié)合,可以大大提高自動(dòng)標(biāo)注處理的性能。人機(jī)處理相結(jié)合機(jī)器處理的優(yōu)勢(shì)在于它有強(qiáng)大的計(jì)算能力,可以大規(guī)模地處理語(yǔ)料。而人工標(biāo)注的優(yōu)勢(shì)則在于它的精確性,因?yàn)槿四芾蒙舷挛男畔⒑椭R(shí)來(lái)排歧。這兩方面的優(yōu)勢(shì)在圖1所示的模型中都得到了充分的發(fā)揮:一是利用統(tǒng)計(jì)數(shù)據(jù),構(gòu)造適當(dāng)?shù)慕y(tǒng)計(jì)模型進(jìn)行自動(dòng)標(biāo)注處理;二是通過(guò)人工校對(duì),保證最終處理語(yǔ)料的正確性。而對(duì)于錯(cuò)誤校正規(guī)則的學(xué)習(xí),則要經(jīng)歷一個(gè)由手工到半自動(dòng)再到全自動(dòng)的發(fā)展過(guò)程。最初是人工總結(jié),隨著研究的深入,可以逐步利用一些統(tǒng)計(jì)工具降低人工處理的工作量,當(dāng)技術(shù)成

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論