版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、現(xiàn)代漢語語法信息詞典的開發(fā)與應(yīng)用朱學(xué)鋒俞士汶王惠【摘要】現(xiàn)代漢語語法信息詞典是為計(jì)算機(jī)實(shí)現(xiàn)漢語句子的自動(dòng)分析與自動(dòng)生成開發(fā)的一部 機(jī)器詞典,它以數(shù)據(jù)庫文件形式收錄了5萬多條現(xiàn)代漢語的詞語,不僅給出了每個(gè)詞語所屬的詞類,而且詳細(xì)描述了它們的各種語法屬性。本文介紹這部語法詞典的開發(fā)歷程、內(nèi)容概要和設(shè)計(jì)思想,并且舉例說明在自然語言處理系統(tǒng)中如何應(yīng)用這部語法詞典。關(guān)鍵詞:現(xiàn)代漢語、語法信息詞典、機(jī)器詞典、自然語言處理The Developme nt of Con temporary Chin ese GrammaticalKno wledge Base and its Applicati onsZHU
2、 Xuefe ng YU Shiwe n WANG HuiInstitute of Computational Linguistics, Peking UniversityBeijing 100871, P.R.CPho ne :2501892AbstractThe Con temporary Chin ese Grammatical Kno wledgeBase is a mach ine dict ion ary,whichis developed for automatic analysis and generation of Chinese sentences. There are a
3、bout 50,000 Chinese words and idioms in the knowledge base represented by database files. The kno wledge base not only gives part of speech for each word or idiom,but also describes their various grammatical attributes. The paper introducesthedesig n, the developme nt and the outl ine of the kno wle
4、dge base and shows its applicati ons in n atural la nguage process ing systems with examples.Keywodscon temporaryChin ese,grammaticalkno wledge base,machi nedictio nary,n atural la nguage process ing1. 現(xiàn)代漢語語法信息詞典的開發(fā)歷程十年前,中文輸入技術(shù)的主流還是漢字編碼,以詞為單位進(jìn)行輸入也只是漢字輸入的陪襯。北大計(jì)算語言學(xué)研究所在1986年提出了一個(gè)語法規(guī)則制導(dǎo)的以語句為單位的中文輸入方案,并
5、在一年多的時(shí)間內(nèi)實(shí)現(xiàn)了。參考文獻(xiàn)1深入淺出地介紹了這個(gè)方案的原理與實(shí)現(xiàn)技本項(xiàng)研究得到中國八五攻關(guān)項(xiàng)目與國家自然科學(xué)基金的支持術(shù)。這個(gè)方法中就包含了一部電子詞典,除了詞條及每個(gè)詞的檢索特征(拼音、起筆、末筆等)外,還包括詞類及細(xì)分的子類。這部詞典成為現(xiàn)代漢語語法信息詞典的基礎(chǔ)。作為中國七五攻關(guān)項(xiàng)目“自然語言理解與人機(jī)接口”中的一個(gè)子專題,俞士汶于1987年提出了開發(fā)“現(xiàn)代漢語詞語語法信息庫”的計(jì)劃2,把研究重點(diǎn)放在詞語語法屬性的描 述上。恰逢此時(shí),中國著名語言學(xué)家朱德熙先生承擔(dān)了全國社會(huì)科學(xué)規(guī)劃領(lǐng)導(dǎo)小組下達(dá)的“現(xiàn)代漢語詞類研究”的攻關(guān)項(xiàng)目。從此,北大計(jì)算語言學(xué)研究所與中文系的研究者們?cè)谥斓挛?先
6、生的率領(lǐng)下開始了聯(lián)合攻關(guān),并結(jié)成了穩(wěn)定的合作關(guān)系。1990年,“現(xiàn)代漢語詞語語法信息庫”取得了階段性成果,通過技術(shù)鑒定。在討論八五攻關(guān)項(xiàng)目時(shí), 以中國工程院院士、中國中文信息學(xué)會(huì)理事長陳力為教授為代 表的中國一批自然語言處理技術(shù)專家敏銳地覺察到,為了中文信息處理技術(shù)的發(fā)展,特別是語言信息處理技術(shù)的發(fā)展,有必要建立通用的應(yīng)用開發(fā)平臺(tái)34。這個(gè)大型語言工程將現(xiàn)代漢語語法信息詞典(以下有時(shí)簡(jiǎn)稱為“語法詞典”)列為它的一個(gè)子專題。從1991年起北大計(jì)算語言學(xué)研究所承擔(dān)了這個(gè)子專題的研制任務(wù)。本項(xiàng)研究繼承了 “現(xiàn)代漢語詞語語法信息庫”的成果,又經(jīng)過5年的努力,現(xiàn)在本項(xiàng)研究已完成如下任務(wù):(1)制訂了現(xiàn)代
7、漢語語法信息詞典的規(guī)格說明書與開發(fā)方略5; ( 2 )建立了面向信息處理的現(xiàn)代漢語詞語分類體系并完成了關(guān)于這個(gè)分類體系的研究報(bào)告6 ;( 3)明確了詞語的收錄范圍與選詞原則7;(4)探討了某些詞類的子類劃分 8 ;( 5)語法詞典本身的開發(fā),這當(dāng)然是最繁重、最艱巨的任務(wù)。到目前為止,語法詞典收錄的詞語總數(shù)為5萬多條,并且將這5萬多詞都?xì)w了類,按照規(guī)格說明書填入了語法屬性信息,其中百分之七十經(jīng)過了仔細(xì)的、多遍的、不同角度的校對(duì)。按照應(yīng)用開發(fā)平臺(tái)工程總體組的布署,北大已將語法詞典的部分內(nèi)容提交給其他子專題開發(fā)組使用。最近,負(fù)責(zé)句法規(guī)則的研究者告知,語法詞典對(duì)句法分析提供的語法知識(shí)是有價(jià)值的,也是相
8、當(dāng)充分的。對(duì)于開發(fā)者來說,這當(dāng)然是莫大的安慰與鼓勵(lì)。另外,北大計(jì)算 語言學(xué)研究所與中國科學(xué)院計(jì)算所聯(lián)合開發(fā)“漢英機(jī)器翻譯模型系統(tǒng)”,與北京通字公司聯(lián)合開發(fā)“面向通用圖像碼的自然語言生成系統(tǒng)”,與自然科學(xué)基金項(xiàng)目配合,開發(fā)漢語語料庫多級(jí)標(biāo)注系統(tǒng)9,這些應(yīng)用系統(tǒng)利用了語法詞典的信息。語法詞典為這些應(yīng)用系統(tǒng)取得 階段性成果也作出了貢獻(xiàn)??傊?,現(xiàn)代漢語語法信息詞典的開發(fā)已取得階段性成果,并且在若干自然語言處理應(yīng)用系統(tǒng)開發(fā)中得到了利用。2. 現(xiàn)代漢語語法信息詞典的內(nèi)容概要2.1詞語的分類詞語的分類既是任何一個(gè)自然語言處理系統(tǒng)的基礎(chǔ)也是語法信息詞典開發(fā)的基礎(chǔ)。因?yàn)檎Z法詞典既要描述每類詞都有的共同的語法屬性
9、,又要分別描述各類詞特有的語法屬性,只有這樣,語法信息才會(huì)充分、完備,而又不致過于冗余。語法詞典的詞類體系是在朱德熙先 生的語法理論指導(dǎo)下,依據(jù)詞的語法功能建立的,現(xiàn)代漢語詞語可劃分為以下 18個(gè)基本詞類: 名 詞(n)女口:書、水、教授、國家、心胸、北京時(shí)間詞女口:明天、元旦、唐朝、現(xiàn)在、春天處所詞(s)女口:空中、低處、郊外、隔壁方位詞(f)女口:上、下、前、后、東、西、南、北、里面、外頭、中間數(shù)詞(m)女如:一、第一、千、零、許多、分之量詞(q)女口:個(gè)、群、公斤、杯、片、種、些區(qū)別詞(b)女口:男、女、公共、微型、初級(jí)代 詞(r)女口:你、我們、這、那么、哪兒、誰動(dòng) 詞(v)女口:走、
10、休息、同意、能夠、出去、是、調(diào)查形容詞 女口:好、紅、大、溫柔、美麗、突然狀態(tài)詞 女口:雪白、金黃、淚汪汪、滿滿當(dāng)當(dāng)、灰不溜秋副詞(d)女口:不、很、都、剛剛、難道、忽然介詞(p)女口:把、被、對(duì)于、關(guān)于、以、按照連 詞(c)女口:和、與、或、雖然、但是、否則 助詞(u)如如:了、著、過、的、所、似的語氣詞(y) 如口:?jiǎn)帷⒛?、吧、嘛、啦、唄 擬聲詞(o)如口:?jiǎn)?、啪、叮呤?dāng)啷、嘩啦 嘆詞(e)如口:唉、喔、哎喲、嗯、啊括號(hào)中的英文字母是各個(gè)詞類的代碼。這18個(gè)基本詞類是被多數(shù)語言學(xué)家認(rèn)可的。其中名詞、時(shí)間詞、處所詞、方位詞、數(shù)詞、量詞可以歸并為體詞(其主要語法功能是作主語、 賓語),動(dòng)詞、形
11、容詞、狀態(tài)詞可以歸并為謂詞(其主要語法功能是作謂語),代詞有一部 分屬于體詞(如:你、我、這兒、哪里等),又有一部分屬于謂詞(如:這樣、那么、怎么 樣等)。體詞、謂詞、區(qū)別詞、副詞又合稱為實(shí)詞,而介詞、連詞、助詞、語氣詞合稱為虛 ?詞。在實(shí)際文本中出現(xiàn)的詞語,除了屬于以上18個(gè)基本詞類的以外, 還存在比基本詞類要大的單位,如:成語(i)如口:空中樓閣、畫龍點(diǎn)睛、字字珠璣、一衣帶水習(xí)用語(I)如口:總而言之、自古以來、跑龍?zhí)?、擺花架子簡(jiǎn)稱略語(j)如口:北大、數(shù)理化、總參、三好、農(nóng)牧業(yè)也存在比基本詞類更小的單位,如:前接成分(h)如口:阿(妹)、老(張)、偽(指令)后接成分(k)如口:子(桌)、
12、兒(花)、頭(石)、式、員語素字(g)如口:碧、棉、賓、潔、農(nóng)、怒非語素字(x)如口:鴛、鴦、葡、萄、咖、啡中文的標(biāo)點(diǎn)符號(hào)(w)如口:。,、!“”為了分析實(shí)際文本的需要,現(xiàn)代漢語詞語功能分類體系共包括了26個(gè)不同的詞語類別?,F(xiàn)在已完成了語法詞典收錄的5 萬詞語的歸類工作。2.2語法詞典的結(jié)構(gòu)與形態(tài)語法詞典采用成熟的關(guān)系數(shù)據(jù)庫技術(shù),結(jié)合使用分類與屬性描述兩種方法,對(duì)5萬詞語建立了分級(jí)的語法屬性庫。每一個(gè)庫文件都刻劃了詞語及其屬性的二維關(guān)系。長期以來,自然語言處理技術(shù)都是應(yīng)用規(guī)則系統(tǒng)描述語言的語法規(guī)律。這種規(guī)則系統(tǒng)抽象程度高,適合于描述詞類與詞類之間的組合關(guān)系。但是自然語言極其復(fù)雜,每個(gè)詞語都有自
13、己的特性,規(guī)則系統(tǒng)是難以應(yīng)付大范圍的實(shí)際語料的復(fù)雜性的。面向?qū)嶋H語料中詞與詞的同現(xiàn)關(guān)系的統(tǒng)計(jì)學(xué)研究是一個(gè)有前途的新方向,但統(tǒng)計(jì)的數(shù)據(jù)量非常大,需要強(qiáng)大的計(jì)算機(jī)系統(tǒng)甚至超并行計(jì) 算機(jī)系統(tǒng)的支持。語法詞典介于上述兩種辦法之間,是在應(yīng)用需求與客觀條件之間進(jìn)行權(quán)衡與折衷的實(shí)際可行的策略。詞典中共有32個(gè)數(shù)據(jù)庫文件??値?個(gè)。各類詞庫24個(gè)(嘆詞、象聲詞、非語素字現(xiàn)未 另建庫)。代詞庫下又設(shè)兩個(gè)庫,即人稱代詞、指示/疑問代詞分庫,動(dòng)詞庫下又設(shè)體賓動(dòng)詞、謂賓動(dòng)詞、雙賓動(dòng)詞、動(dòng)結(jié)式、動(dòng)趨式、離合詞等6個(gè)分庫。所有詞的共同屬性容納在總庫中, 總庫中的屬性包括讀音、詞類、切分標(biāo)記、姓氏標(biāo)記 等,共計(jì)約20項(xiàng)。各
14、類詞的特有屬性填在各類詞的庫中。以動(dòng)詞為例,動(dòng)詞庫中列出了46項(xiàng)屬性,表1是動(dòng)詞屬性庫中部分屬性的樣例。表1.動(dòng)詞屬性庫中部分屬性的樣例詞語同形義項(xiàng)助動(dòng)外內(nèi)體謂準(zhǔn)雙賓著了過重疊VVO離合單作謂語單作補(bǔ)語兼類交給體雙了理發(fā)內(nèi)了過VVO離可會(huì)A見面體著了過VVn會(huì)B1理解體可可會(huì)B2可能助謂可會(huì)C付帳體可加強(qiáng)體準(zhǔn)了進(jìn)行準(zhǔn)了能夠助謂可保管1保存體著了過ABAB可保管2擔(dān)保謂幫幫助體雙著了過VV可q冒險(xiǎn)內(nèi)過VVO離a上去內(nèi)了過離可可對(duì)動(dòng)詞的某些屬性(如體詞賓語、謂詞賓語的類型)還要進(jìn)一步刻劃,則分別建立有關(guān)的分庫。這樣,整個(gè)信息庫形成了層次構(gòu)造的體系。總庫與各類詞庫,代詞與下屬的2個(gè)分庫,動(dòng)詞與下屬的
15、6個(gè)分庫都可以進(jìn)行連結(jié) JOIN), 連接條件可以用詞語、詞類、同形這些字段來表達(dá)。這樣,這32個(gè)庫文件構(gòu)成有上下位繼承 關(guān)系的“樹”,子結(jié)點(diǎn)繼承父結(jié)點(diǎn)的全部信息,或者說,將父結(jié)點(diǎn)與子結(jié)點(diǎn)連結(jié)起來就可以 得到詞語的更全面的信息。2.3詞語的屬性描寫分類法刻劃事物雖然簡(jiǎn)潔、清晰、信息密度大,但屬于同一類的事物仍可能各具特點(diǎn), 例如“魚”和“?!蓖瑢賯€(gè)體名詞,因?yàn)椤棒~”有專用個(gè)體量詞“尾”,“牛”有專用個(gè)體 量詞“頭”。但是,“魚”通常還可以與度量詞“斤,克”搭配,“?!本筒恍?。因此語法 詞典更依靠屬性描述來刻劃每一個(gè)詞語的語法信息。如對(duì)于名詞,就詳細(xì)描述每個(gè)名詞可以搭配的各類量詞。語法詞典對(duì)每一
16、類詞的語法屬性進(jìn)行了相當(dāng)充分的發(fā)掘。例如,對(duì)于作為研究重點(diǎn)的動(dòng)詞共確定了 46項(xiàng)屬性。這些屬性大致可歸納為 7類。第一類是關(guān)于動(dòng)詞本身特性的,如該動(dòng) 詞是不是系詞、助動(dòng)詞、趨向動(dòng)詞。第二類是關(guān)于動(dòng)詞變化形態(tài)的,如有沒有VVABABAABB VV、V了 V等形態(tài)。第三類描述該動(dòng)詞有無名詞特性,如能否直接修飾名詞,能否直接受名詞修飾、能否作動(dòng)詞“有”的賓語等。第四類反映該動(dòng)詞同一些虛詞的關(guān)系,如它前面能不 能受“不,沒,很”修飾,后面能不能帶“著,了,過”。第五類描述動(dòng)詞在句中的功能, 即該動(dòng)詞在句法結(jié)構(gòu)中能否單獨(dú)作主語、謂語、賓語、狀語和補(bǔ)語,其中能否單獨(dú)作謂語是一項(xiàng)很重要的屬性。第六類刻劃動(dòng)詞
17、與后繼成分的關(guān)系,即該動(dòng)詞能否后接表示結(jié)果的補(bǔ)語,能否后接趨向動(dòng)詞,能否后接時(shí)量成分,能否后接動(dòng)量成分,能否帶賓語。如果能帶賓語,則進(jìn)一步細(xì)分能帶什么樣的賓語 : 體詞,謂詞,雙賓等。第七類包含其它零散的屬性,如該 動(dòng)詞的主語是否必須是“復(fù)數(shù)”。3. 現(xiàn)代漢語語法信息詞典的設(shè)計(jì)思想3.1 通用與專用相結(jié)合,以通用為主在自然語言處理系統(tǒng)中, 通常都有一部包括詞法、 句法、語義信息的機(jī)器詞典, 但由于 這類詞典是服務(wù)于特定目的與特定系統(tǒng)的, 為了把它從一個(gè)系統(tǒng)移植到另一個(gè)系統(tǒng)時(shí)需要花 費(fèi)很大力氣, 人們往往寧愿另起爐灶。 本語法詞典作為中文信息處理技術(shù)應(yīng)用開發(fā)平臺(tái)的一 個(gè)組成部分, 是獨(dú)立于特定的
18、處理系統(tǒng)的, 甚至也不依賴于某個(gè)具體的計(jì)算語言學(xué)理論與算 法,它反映的是現(xiàn)代漢語詞語的語法功能的基本事實(shí)。 各個(gè)具體的應(yīng)用系統(tǒng)可能不需要語法 詞典所包含的全部知識(shí), 但都可以對(duì)它進(jìn)行裁剪或從中提取出所需要的知識(shí)。 語法詞典的收 詞原則、各個(gè)詞的義項(xiàng)的選取原則以及語法屬性的確定都是面向通用的現(xiàn)代漢語的。但是, 當(dāng)將語法詞典應(yīng)用于具體系統(tǒng)時(shí), 也可以通過詞語的選取、 屬性的增刪向各個(gè)具體系統(tǒng)傾斜, 專用的色彩就會(huì)變濃。3.2 專家知識(shí)與語料庫相結(jié)合,以專家知識(shí)為主現(xiàn)代漢語詞語分類體系的確立、 若干詞類的子類的劃分、 各類詞的共同語法屬性 ( 總庫) 與特殊屬性 ( 分庫 ) 的設(shè)置以及屬性值的確定
19、主要依賴專家的知識(shí)。 指導(dǎo)、主持與參與語法詞 典開發(fā)的專家或者是造詣?lì)H深的著名語言學(xué)家, 或者是在開發(fā)具體的自然語言處理系統(tǒng)中積 累了豐富感性知識(shí)的計(jì)算機(jī)專家, 或者是基礎(chǔ)扎實(shí)文理結(jié)合的青年計(jì)算語言學(xué)工作者。 語法 詞典就是將這些專家的知識(shí)以形式化、 規(guī)格化的方式存儲(chǔ)到計(jì)算機(jī)系統(tǒng)中。 而且語法詞典的 開發(fā)也為計(jì)算機(jī)科學(xué)與語言學(xué)的結(jié)合找到了一個(gè)合適的途徑。 計(jì)算機(jī)系統(tǒng)可以較快地吸收語 言學(xué)家的知識(shí),語言學(xué)家也能比較容易地利用語法詞典開展語言研究與語言教學(xué)研究。在依賴專家知識(shí)的同時(shí),我們也重視語料庫的建設(shè)。對(duì)總體組提供的 3批語料,我們參 與了切分與詞性標(biāo)注。 北大計(jì)算語言學(xué)研究所還建立了面向語法
20、研究的語料庫, 并對(duì)其中一 部分 (約70萬字 )進(jìn)行了切分與標(biāo)注。 利用這些語料, 可對(duì)詞典內(nèi)容進(jìn)行比較與校對(duì), 從而大 大提高了詞典內(nèi)容的可信度。3.3 基礎(chǔ)研究與應(yīng)用研究相結(jié)合,以基礎(chǔ)研究為主 北大計(jì)算語言學(xué)研究所在八五期間始終將語法詞典的開發(fā)列為工作的重點(diǎn), 尤其是課題 組的主要成員, 更是全身心地投入了這項(xiàng)開發(fā)工作, 以全局利益和長遠(yuǎn)利益為重, 堅(jiān)持做底 層的基礎(chǔ)的工作。北大計(jì)算語言學(xué)研究所也在另外一些項(xiàng)目中使用語法詞典的成果。 這些項(xiàng)目包括獨(dú)立開發(fā)的現(xiàn)代漢語語料庫多級(jí)標(biāo)注系統(tǒng) CCMP9,也包括與其它單位合作開發(fā)的如 1中所述的應(yīng) 用系統(tǒng)。 從應(yīng)用中得到的反饋意見既使課題組得到鼓舞
21、, 也使課題組清醒地認(rèn)識(shí)到, 要使這 項(xiàng)成果早日問世,發(fā)揮作用,尚有很多艱苦的工作要做。4. 現(xiàn)代漢語語法詞典應(yīng)用例解語法詞典是語言信息處理的基礎(chǔ),它不僅可以在語言信息處理的各個(gè)項(xiàng)目(如:機(jī)器翻譯,自然語言接口,文獻(xiàn)檢索,語音識(shí)別,語音合成,文字識(shí)別,中文鍵盤輸入,文本校對(duì), 語料庫加工等)中得到應(yīng)用,而且也可以在傳統(tǒng)的語言學(xué)研究特別是現(xiàn)代漢語語法研究中得 到應(yīng)用。下面以實(shí)例解釋如何運(yùn)用這部語法詞典。4.1句法分析按照當(dāng)前的主流技術(shù),句法分析是機(jī)器翻譯與自然語言理解等系統(tǒng)的處理流程中的一個(gè) 必要的環(huán)節(jié)。句法分析指的是依據(jù)某種句法分析理論提供的規(guī)則分析自然語言的句子,得到這個(gè)句子的句法樹(如上下
22、文無關(guān)語法CFG)或以復(fù)雜特征集表示的功能結(jié)構(gòu)(如詞匯功能語 法LFG)。要進(jìn)行這種句法分析,必須要知道每個(gè)詞的詞性(即該詞所屬的詞類,part ofspeech)。但僅僅依靠詞性,會(huì)產(chǎn)生大量的歧義結(jié)構(gòu)。如:我們選舉他當(dāng)主席。我們認(rèn)為他是主席。(2)(1)與 的相似是明顯的,從詞性來看,它們都有如(3)所示的同樣的詞類序列。r v r v n (3)根據(jù)上下文無關(guān)的語法規(guī)則,這樣的詞類序列可以產(chǎn)生多種句法樹。 從語法詞典中查“選 舉”,這個(gè)動(dòng)詞可以后接兼語結(jié)構(gòu),(1)的結(jié)構(gòu)可以優(yōu)選為圖1中的左邊的樹。從語法詞典中 查“認(rèn)為”,這個(gè)動(dòng)詞只能帶謂詞性賓語,且這個(gè)謂詞性賓語是一個(gè)子句,(2)的結(jié)構(gòu)只
23、可能是圖1中的右邊的樹。SNP'rr| r我們SCVP我們認(rèn)為I席主I是II他圖1句子(1)與的句法樹在機(jī)器翻譯系統(tǒng)中,只有得到了源語言句子的正確的句法結(jié)構(gòu),才有可能產(chǎn)生可信度與可讀性皆好的目標(biāo)語言的句子。4.2句子生成一般地說,在自然語言處理系統(tǒng)中, 漢語的句子生成相對(duì)說來要簡(jiǎn)單些,這是因?yàn)闈h語的詞沒有復(fù)雜的形態(tài)變化,詞序又比較靈活。以漢語為母語的人容易從詞語、語素排列串中猜出它們要表達(dá)的意思。 正因?yàn)槿绱耍F(xiàn)在對(duì)漢語的句子生成投入的力量是不夠的。自然語言處理系統(tǒng)生成的漢語句子往往帶有“機(jī)器味兒”,不像地道的漢語。例如,機(jī)器翻譯系統(tǒng) 給出以下兩句漢語是尋常的。她是一個(gè)美麗姑娘。(4)
24、當(dāng)時(shí)敵機(jī)轟炸著這個(gè)城市。 (5)“美麗” 是形容詞, “美麗” 修飾“姑娘” 在語義上也是適配的, 但讀起來總覺得有些別扭。 這是因?yàn)闈h語中的形容詞, 只有一部分可以直接修飾名詞, 相當(dāng)多的一部分需要加助詞 “的” 才能修飾名詞。從語法詞典的形容詞庫中,可以查到, “美麗”需加“的”,而它的同義詞 “漂亮”則不需要加“的”。只要利用這些平凡的知識(shí),則能生成更自然的句子“她是一個(gè) 美麗的姑娘”或“她是一個(gè)漂亮姑娘”。對(duì)于 (5) ,之所以覺得它不地道,是因?yàn)椤稗Z炸” 這個(gè)動(dòng)詞后面不能接動(dòng)態(tài)助詞“著”,為了表示進(jìn)行時(shí)態(tài),可以改為“當(dāng)時(shí)敵機(jī)正在轟炸這 個(gè)城市”。在語法詞典中確實(shí)包含了動(dòng)詞“轟炸”不能
25、帶“著”、可以受“正在”修飾的信 息。4.3 語音識(shí)別與拼音漢字轉(zhuǎn)換語音識(shí)別通常分為兩個(gè)階段。 第一階段是將無編碼的語音信號(hào)轉(zhuǎn)換為機(jī)內(nèi)的漢語拼音序 列,這是模式識(shí)別的任務(wù)。 第二階段是分化同音字或同音詞, 表現(xiàn)在書面上則是將拼音序列 轉(zhuǎn)換為漢字序列。 這是語言信息處理的任務(wù)。 采用拼音方式從鍵盤上輸入中文所要解決的問 題也是拼音序列到漢字序列的轉(zhuǎn)換。假定,給定拼音序列Zhuo1zi5 shang4 you3 yi1 jin1 pi2pa5 。 (6)這里,全拼音節(jié)后的數(shù)字1,2,3, 4, 5分別代表陰平、陽平、上聲、去聲、輕聲。由于“ pi2pa5 ” 對(duì)應(yīng)兩個(gè)同音詞“琵琶”和“枇杷”,某些
26、系統(tǒng)轉(zhuǎn)換出桌子上有一斤琵琶 。(7)是不足為怪的。 但如果利用語法詞典, 則可以查到每一個(gè)具體的名詞可能與哪些子類的量詞 以及哪些具體的量詞相適配。與“琵琶”相適配的只有個(gè)體量詞“把”,而“枇杷”卻是可 以與度量詞“斤”相適配的。根據(jù)語法詞典提供的這些信息,系統(tǒng)就可以修正(7) ,從而得到“桌子上有一斤枇杷”。又假定系統(tǒng)已確認(rèn)對(duì)應(yīng)“ jiayi ”的詞是“加以”,接著輸入“ yanjiu ”。沒有更多的 信息,系統(tǒng)很難判定對(duì)應(yīng)“ yanjiu ”的是“煙酒”還是“研究”。如果利用語法詞典,則知 道“加以”是形式動(dòng)詞,只能帶準(zhǔn)謂詞性賓語,不會(huì)帶體詞性賓語,因此在“加以”的制約 下,對(duì)應(yīng)“ yan
27、jiu ”的只能是“研究”而不會(huì)是“煙酒”。4.4 漢字識(shí)別的后校正現(xiàn)在脫機(jī) (off-line) 漢字識(shí)別技術(shù)對(duì)“師”這個(gè)模式通常給出“師、怖、帥”等若干個(gè) 候選字。 如果沒有上下文, 孤立地決定選取哪一個(gè)字是困難的。 但如果在上下文 “三個(gè)師的 士兵”中, “師”的前后都是筆劃較少、較易辨認(rèn)的字,并且已經(jīng)唯一地確定下來了,則只 有“師”這個(gè)名詞可以與個(gè)體量詞“個(gè)”相適配。在現(xiàn)代漢語中,“帥”與“怖”只是語素,不能獨(dú)立成詞,一般不會(huì)與“個(gè)”相適配。因此,系統(tǒng)就會(huì)很有信心地從3個(gè)候選字中選擇“師”。4.5 語料庫標(biāo)注北大計(jì)算語言學(xué)研究所開發(fā)漢語語料庫多級(jí)加工系統(tǒng)CCM的經(jīng)驗(yàn)表明,進(jìn)行語料庫標(biāo)注
28、,采取基于規(guī)則的方法與基于統(tǒng)計(jì)的方法相結(jié)合的策略是恰當(dāng)?shù)模?并且切分與標(biāo)注同步進(jìn) 行是合理的 9 。在進(jìn)行這種標(biāo)注時(shí),語法詞典可以發(fā)揮重要的作用。詞典中的數(shù)以萬計(jì)的 詞都已經(jīng)劃好了類, 對(duì)標(biāo)注的正確性與一致性可以起到基本的保證作用。 標(biāo)注程序只需集中 力量解決兼類詞的歧義消解及未登錄詞的確認(rèn)與詞性判定。利用純粹的統(tǒng)計(jì)方法進(jìn)行詞類標(biāo)注, 也需要有人先對(duì)一部分語料進(jìn)行手工標(biāo)注 (即對(duì)系 統(tǒng)進(jìn)行訓(xùn)練) 。由于存在不同的語法體系, 由于不同的人會(huì)有不同的認(rèn)識(shí), 即使同一個(gè)人的 認(rèn)識(shí)也會(huì)發(fā)展變化, 所以由人直接標(biāo)注語料難免出現(xiàn)不一致性。 例如, 對(duì)于主賓語位置上的 謂詞 (動(dòng)詞、形容詞等 ) 有可能被標(biāo)為謂詞, 也有可能被標(biāo)為名詞。 這樣就會(huì)影響自動(dòng)標(biāo)注的 正確率。 依靠這部語法詞典, 就不會(huì)發(fā)生這種情況。 而且, 標(biāo)注了詞性的語料庫與語法信息 詞典相結(jié)合,可以構(gòu)成立體的知識(shí)庫,即從語料中的詞/ 詞性入口,可以迅速檢索到該詞的諸多語法特性,從
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024廠家和經(jīng)銷商代理合同范本
- 《混合影響》課件
- 廣告媒體選擇與渠道創(chuàng)新考核試卷
- 2024廣告軟文發(fā)布合同
- 農(nóng)藥制造產(chǎn)品質(zhì)量控制策略考核試卷
- 農(nóng)業(yè)科學(xué)與農(nóng)村文化創(chuàng)新廣播考核試卷
- 2024房地產(chǎn)廣告設(shè)計(jì)合同范本
- 前端畢業(yè)答辯
- 企業(yè)環(huán)保的風(fēng)險(xiǎn)管理與控制考核試卷
- 家長會(huì)家長制作
- 非新生兒破傷風(fēng)診療規(guī)范(2024年版)解讀
- 微測(cè)網(wǎng)題庫完整版行測(cè)
- 多圖中華民族共同體概論課件第十一講 中華一家與中華民族格局底定(清前中期)根據(jù)高等教育出版社教材制作
- 生涯發(fā)展報(bào)告 (修改版)
- 求職能力展示
- 中國馬克思主義與當(dāng)代思考題(附答案)
- (新版)征信知識(shí)競(jìng)賽基礎(chǔ)題庫(500題)
- 金屬風(fēng)管支架重量計(jì)算表
- 公司組織架構(gòu)圖模板可編輯
- 電視導(dǎo)演藝術(shù)的特性和創(chuàng)新
- 唐宋八大家及生平經(jīng)歷
評(píng)論
0/150
提交評(píng)論