版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、漢語(yǔ)言文字信息處理狀況分析詹衛(wèi)東 北京大學(xué)摘 要 本文第一節(jié)概括說(shuō)明了漢語(yǔ)言文字信息處理的整體態(tài)勢(shì),以及本文選擇哪些內(nèi)容作為重點(diǎn)分析對(duì)象的理由;第二節(jié)集中分析了核心技術(shù)的現(xiàn)狀;第三節(jié)分析了應(yīng)用系統(tǒng)的現(xiàn)狀;第四節(jié)評(píng)述語(yǔ)言資源建設(shè)的情況;第五節(jié)是結(jié)語(yǔ),指出了本領(lǐng)域值得注意的新動(dòng)向。關(guān)鍵詞 漢語(yǔ) 信息處理 技術(shù)評(píng)測(cè) 信息檢索 機(jī)器翻譯 語(yǔ)料庫(kù) 語(yǔ)言資源一 漢語(yǔ)言文字信息處理現(xiàn)狀概述自然語(yǔ)言(在本文中具體關(guān)注的是漢語(yǔ)語(yǔ)言文字的信息處理,是一個(gè)涉及到計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、文字學(xué)、數(shù)學(xué)、邏輯、認(rèn)知科學(xué)等多個(gè)學(xué)科的交叉研究領(lǐng)域。對(duì)于這樣一個(gè)交叉特點(diǎn)鮮明的領(lǐng)域,可以從不同視角,在不同層次上來(lái)認(rèn)識(shí)。為了更好地概括
2、說(shuō)明這一領(lǐng)域目前的理論研究以及實(shí)際應(yīng)用狀況,本文首先為這一領(lǐng)域勾勒一個(gè)相對(duì)全面的框架(表一和圖一。然后再針對(duì)這個(gè)框架中“相對(duì)更值得一說(shuō)”的部分展開(kāi)來(lái)加以分析和討論。表一:漢語(yǔ)言文字信息處理的對(duì)象、層次和任務(wù)(虛線(xiàn)表示并不總是有嚴(yán)格界限 圖一:漢語(yǔ)言文字信息處理的宏觀(guān)架構(gòu)1 服務(wù)平臺(tái) 多語(yǔ)信息服務(wù)系統(tǒng),智能終端 應(yīng)用系統(tǒng) 核心技術(shù) 基礎(chǔ)資源層 1圖一基本上可以看作是對(duì)表一中“符號(hào)的意義處理”這個(gè)層次的展開(kāi)(“符號(hào)的形式處理”已經(jīng)得到普遍應(yīng)用,因此本文描述從簡(jiǎn)。圖一中提及的大多數(shù)概念都是針對(duì)“書(shū)面文本”信息處理的,但關(guān)于“基礎(chǔ)資源”“核心技術(shù)”“應(yīng)用系統(tǒng)”“服務(wù)平臺(tái)”的層級(jí)劃分,同樣適用于“口語(yǔ)語(yǔ)
3、音”信息處理的情況。從上面一表一圖出發(fā),可以將當(dāng)前漢語(yǔ)言文字信息處理的總體發(fā)展?fàn)顩r概括為:(1對(duì)于符號(hào)形式層的處理,已經(jīng)取得很大成功,并且在社會(huì)生活中得到廣泛應(yīng)用。 (2對(duì)于符號(hào)意義層的處理,一些相對(duì)淺層的分析技術(shù)已經(jīng)有很大發(fā)展并進(jìn)入實(shí)用,比如中文詞語(yǔ)切分技術(shù)已經(jīng)應(yīng)用于互聯(lián)網(wǎng)信息檢索系統(tǒng),語(yǔ)音識(shí)別技術(shù)已經(jīng)應(yīng)用于語(yǔ)音電信增值服務(wù)(參見(jiàn)第三節(jié),等等;而一些需要對(duì)自然語(yǔ)言進(jìn)行深層分析的技術(shù),比如句法分析、機(jī)器翻譯等,仍然沒(méi)有取得突破性進(jìn)展,離真正走向大規(guī)模實(shí)際應(yīng)用還有較大距離。對(duì)于上述概括,需要說(shuō)明的是,盡管符號(hào)形式層的處理已經(jīng)得到普遍應(yīng)用,但并不是說(shuō)在這個(gè)層次上就沒(méi)有可研究的問(wèn)題,不需要進(jìn)一步發(fā)展
4、了。實(shí)際上,漢語(yǔ)言文字符號(hào)的數(shù)字化仍有許多工作要做,也還有不少難關(guān)需要攻克。其中比較突出的問(wèn)題來(lái)自?xún)蓚€(gè)方面:第一,在人們一般日常的文字信息處理已經(jīng)完全數(shù)字化之外,目前還有相當(dāng)多的“特殊”的文字內(nèi)容有待數(shù)字化(李宇明,2003。比如中國(guó)浩如煙海的古籍內(nèi)容在信息時(shí)代需要全面實(shí)現(xiàn)數(shù)字化,就涉及到大規(guī)模中文字庫(kù)的研制2,涉及到漢字OCR (光學(xué)字符識(shí)別技術(shù)的改進(jìn);再如對(duì)大量手寫(xiě)內(nèi)容和歷史上的科技文獻(xiàn)內(nèi)容的數(shù)字化,以及視頻圖像中所包含文字信息的數(shù)字化,就會(huì)涉及到對(duì)復(fù)雜版面內(nèi)容(包括圖文、公式、表格等以及圖像信號(hào)的分析處理。這些都是在符號(hào)的形式層進(jìn)行信息處理需要解決的問(wèn)題。第二,隨著信息產(chǎn)品的日益豐富和普
5、及,越來(lái)越多的嵌入式設(shè)備和便攜移動(dòng)式信息設(shè)備(比如手機(jī),固定電話(huà)的顯示模塊等走進(jìn)人們的生活,如何在這些微型設(shè)備中實(shí)現(xiàn)文字內(nèi)容的數(shù)字化(即漢字的存儲(chǔ)、傳輸?shù)?也是科研人員面臨的新挑戰(zhàn)。顯然,上述這兩個(gè)方面的問(wèn)題,要求人們從一“大”一“小”兩個(gè)方向來(lái)尋求如何更好地進(jìn)行漢字符號(hào)形式層的處理。 盡管如此,鑒于漢字符號(hào)形式層的信息處理在相當(dāng)大的范圍內(nèi)已經(jīng)達(dá)到實(shí)用程度,下文將重點(diǎn)分析符號(hào)意義層的信息處理狀況,這一方面是受篇幅的限制;另一方面也是因?yàn)?隨著研究的深入,許多符號(hào)形式層的處理問(wèn)題,需要在符號(hào)意義層取得進(jìn)展后反作用于形式層的處理,比如漢字OCR 漢字識(shí)別或者音字轉(zhuǎn)換,要達(dá)到非常高的質(zhì)量,就要求在后
6、處理階段,對(duì)識(shí)別出來(lái)的文字序列進(jìn)行內(nèi)容理解,從各種可能性中篩選出有意義的正確序列,排除無(wú)意義的錯(cuò)誤序列,才可能得到更好的效果。此外,從這一領(lǐng)域?qū)W術(shù)刊物和學(xué)術(shù)會(huì)議上發(fā)表的論文的分布情況看,也顯示當(dāng)前的漢語(yǔ)言文字信息處理研究,是以符號(hào)意義層的信息處理研究為重點(diǎn)和熱點(diǎn),而對(duì)符號(hào)形式層的信息處理研究,關(guān)注度相對(duì)較少一些。下面圖二、圖三基本顯示了這一現(xiàn)狀。圖二:中文信息學(xué)報(bào)2005年論文分布情況 表05101520253035詞句篇圖像音字5101520253035綜合資源建設(shè)機(jī)器翻譯字智能檢索中文信息學(xué)報(bào)(雙月刊是中國(guó)中文信息學(xué)會(huì)會(huì)刊,該刊刊登的論文應(yīng)該說(shuō)能夠基本反映中國(guó)語(yǔ)言信息處理目前的整體發(fā)展水平
7、和研究態(tài)勢(shì)。2005年中文信息學(xué)報(bào)6期共2對(duì)此不難從漢字字符集的發(fā)展看出。比如作為國(guó)家標(biāo)準(zhǔn)的漢字字符集,從最早的GB2312只對(duì)常用(一、二級(jí)的6764個(gè)漢字進(jìn)行了編碼,到后來(lái)的GBK ,GB18030,先后增加到20902,27533字。而一些IT 企業(yè)研制的字庫(kù)數(shù)量更是龐大,比如微軟Office XP ,方正公司的宋體超大字符集字?jǐn)?shù)都在6萬(wàn)以上??钦撐?8篇,其中9篇是涉及少數(shù)民族語(yǔ)言文字的(占10%,其余79篇是有關(guān)漢語(yǔ)言文字的信息處理的,如果以各篇論文所研究的語(yǔ)言單位層級(jí)來(lái)區(qū)分,可以得到如圖二所示的論文的分布情況。關(guān)于語(yǔ)音和文字的論文合在一起不到20%。大量研究集中在詞、句、篇3等語(yǔ)
8、言單位上。JSCL-2005是第八屆全國(guó)計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(兩年一屆。該會(huì)議是國(guó)內(nèi)自然語(yǔ)言信息處理的綜合性會(huì)議,也代表了當(dāng)前語(yǔ)言信息處理研究的發(fā)展水平。在會(huì)議正式論文和特邀報(bào)告中,除5篇有關(guān)少數(shù)民族語(yǔ)言文字的論文外,有關(guān)漢語(yǔ)言文字信息處理的文章共81篇,論文分布情況如圖三所示(其中“綜合”類(lèi)是在漢語(yǔ)理論層次或信息處理核心技術(shù)層次上對(duì)漢語(yǔ)詞、句、篇三級(jí)單位有關(guān)問(wèn)題加以研討。在此次會(huì)議中,有關(guān)漢字符號(hào)形式層處理的論文只有3篇4,而各種篇章級(jí)的應(yīng)用研究,包括信息檢索、提取、文本分類(lèi)、摘要、過(guò)濾等等,統(tǒng)稱(chēng)為“智能檢索”,共32篇。很明顯,當(dāng)前本領(lǐng)域的研究重點(diǎn)和熱點(diǎn)集中在篇章級(jí)的應(yīng)用系統(tǒng)上;資源建設(shè)
9、和機(jī)器翻譯技術(shù)的研究,以及在漢語(yǔ)各級(jí)語(yǔ)言單位層級(jí)上的信息處理研究也受到廣泛關(guān)注。而有關(guān)漢字層次上的研究,則明顯較少。就符號(hào)意義層的處理來(lái)說(shuō),目前的工作主要是在圖一所示的下面三個(gè)層次上,最高層的“服務(wù)平臺(tái)”層需要下面的基礎(chǔ)打牢之后才可能真正搭建起來(lái)?;谏鲜銮闆r,下文先從核心技術(shù)說(shuō)起,再延及應(yīng)用系統(tǒng)和基礎(chǔ)資源:第二節(jié)將著重分析核心技術(shù)的發(fā)展水平;第三節(jié)談應(yīng)用系統(tǒng)的發(fā)展水平;第四節(jié)分析語(yǔ)言基礎(chǔ)資源建設(shè)的現(xiàn)狀;第五節(jié)是結(jié)語(yǔ),指出當(dāng)前本領(lǐng)域若干值得注意的新趨勢(shì)。二 核心技術(shù)的發(fā)展現(xiàn)狀除了圖一列舉的詞語(yǔ)切分(也簡(jiǎn)稱(chēng)分詞技術(shù)、句法分析、句對(duì)齊、索引及檢索等之外,漢語(yǔ)信息處理的核心技術(shù)還應(yīng)該包括詞性標(biāo)注技術(shù)
10、、詞義消歧技術(shù)、詞和短語(yǔ)對(duì)齊技術(shù)、句子相似度計(jì)算技術(shù),等等。限于篇幅這里僅對(duì)分詞技術(shù)和句法分析技術(shù)的現(xiàn)狀做概要分析5。要了解語(yǔ)言信息處理技術(shù)的現(xiàn)狀,顯然應(yīng)該是通過(guò)公正的評(píng)測(cè)來(lái)說(shuō)明問(wèn)題。近年來(lái)國(guó)際上對(duì)NLP技術(shù)的大規(guī)模評(píng)測(cè)越來(lái)越重視,國(guó)內(nèi)這方面的工作也在積極推進(jìn)(錢(qián)躍良等2005。目前國(guó)際上NLP技術(shù)評(píng)測(cè)的共同特點(diǎn)是(1完全公開(kāi)(2用大規(guī)模真實(shí)語(yǔ)料數(shù)據(jù)進(jìn)行測(cè)試(3由計(jì)算機(jī)程序自動(dòng)打分來(lái)評(píng)價(jià)系統(tǒng)的性能。從NLP技術(shù)近年來(lái)發(fā)展的情況來(lái)看,這樣的評(píng)測(cè)在推進(jìn)技術(shù)進(jìn)步方面起到了顯著作用(黃昌寧2002。2005年國(guó)內(nèi)沒(méi)有舉辦有關(guān)中文分詞的評(píng)測(cè)。而國(guó)際計(jì)算語(yǔ)言學(xué)聯(lián)合會(huì)(ACL下設(shè)的中文信息處理興趣組(SIG
11、HAN從2003年開(kāi)始舉辦第一屆國(guó)際性的中文分詞評(píng)測(cè)(Bakeoff1,2005年舉辦了第二屆(Bakeoff2。因此我們對(duì)目前中文分詞系統(tǒng)的技術(shù)水平的考察,主要基于從SIGHAN網(wǎng)站上獲取的評(píng)測(cè)結(jié)果數(shù)據(jù)。需要說(shuō)明的是,一般采用計(jì)算精確率(precision,召回率(recall的辦法來(lái)評(píng)估一個(gè)中文自動(dòng)分詞系統(tǒng)的性能。精確率和召回率分別定義如下:3這里“詞”指是漢語(yǔ)分詞、詞性標(biāo)注,詞義排歧等方面的研究,“句”指的是句法分析相關(guān)研究,“篇”指的是篇章指代研究,以及各種以篇章單位為處理對(duì)象的應(yīng)用系統(tǒng)的研究,包括信息檢索、提取、文本分類(lèi)、話(huà)題發(fā)現(xiàn),等等4 JSCL上沒(méi)有語(yǔ)音處理技術(shù)方面的論文,200
12、5年語(yǔ)音技術(shù)方面的論文都集中到“第八屆全國(guó)人機(jī)語(yǔ)音通信學(xué)術(shù)會(huì)議”上發(fā)表了(134篇。5分詞幾乎是所有中文信息處理的基礎(chǔ),句法分析則是通向真正的語(yǔ)言理解的關(guān)鍵一步,一直一來(lái)都是自然語(yǔ)言處理中的核心問(wèn)題,因而本文將這二者作為主要考察對(duì)象。對(duì)齊技術(shù)主要用于雙語(yǔ)(多語(yǔ)平行語(yǔ)料庫(kù)的建設(shè),進(jìn)而應(yīng)用于基于記憶或基于統(tǒng)計(jì)的機(jī)器翻譯等系統(tǒng)中。目前漢英句子對(duì)齊的正確率一般在95%以上(張艷、柏岡秀紀(jì),2005,詞對(duì)齊和短語(yǔ)對(duì)齊的相關(guān)研究近期比較少(中文信息學(xué)報(bào)2005年沒(méi)有一篇有關(guān)詞對(duì)齊的研究。因此本文對(duì)這方面的工作不做具體分析。下面是今年“863計(jì)劃中文信息處理與智能人機(jī)接口技術(shù)評(píng)測(cè)”(參見(jiàn)第三節(jié)中機(jī)器翻譯項(xiàng)目
13、的技術(shù)評(píng)測(cè)任務(wù)中一家單位參加漢英詞語(yǔ)對(duì)齊評(píng)測(cè)的結(jié)果:精確率為0.8087,召回率為0.7220,F-Score為0.7629,對(duì)齊錯(cuò)誤率為0.2348。讀者可以從中大致了解目前詞語(yǔ)對(duì)齊的技術(shù)水平。100%*P(目自動(dòng)分詞結(jié)果中詞的數(shù)確詞的數(shù)目自動(dòng)分詞結(jié)果中切分正精確率=100%*(標(biāo)準(zhǔn)答案中詞的數(shù)目確詞的數(shù)目自動(dòng)分詞結(jié)果中切分正召回率=R通常將P 和R 兩個(gè)指標(biāo)綜合為二者的調(diào)和平均值F-Score 來(lái)反映一個(gè)系統(tǒng)的整體性能。F-Score 可以有不同的定義公式,通常采用的一個(gè)是(SIGHAN 的Bakeoff 采用的也是這個(gè)公式:RP PRF +=2。下面表二就是這兩屆評(píng)測(cè)各子項(xiàng)目中調(diào)和平均成
14、績(jī)(F-Score 排名第一的結(jié)果(本文關(guān)注的主要是技術(shù),而不特別關(guān)注具體的參評(píng)單位。表二:SIGHAN Bakeoff1 和Bakeoff2 的部分結(jié)果(數(shù)據(jù)來(lái)源:/項(xiàng)目 F-score R-oov R-iv 時(shí)間 來(lái)自 AS-o 0.904 0.426 0.926 2003 美國(guó) AS-c 0.961 0.364 0.980 2003 美國(guó) CTB-o 0.912 0.766 0.949 2003 中國(guó)大陸 CTB-c 0.881 0.705 0.927 2003 中國(guó)大陸 HK-o 0.956 0.788 0.971 2003 中國(guó)臺(tái)灣 HK-c
15、0.940 0.625 0.972 2003 中國(guó)臺(tái)灣 PK-o 0.959 0.799 0.975 2003 美國(guó) PK-c 0.951 0.724 0.979 2003 中國(guó)大陸 AS-o 0.956 0.684 0.975 2005 新加坡 AS-c 0.952 0.696 0.963 2005 日本 MSR-o 0.972 0.590 0.990 2005 中國(guó)大陸 MSR-c 0.964 0.717 0.968 2005 美國(guó) HK-o 0.962 0.806 0.980 2005 新加坡 HK-c 0.943 0.698 0.961 2005 美國(guó) PK-o 0.969 0.838
16、 0.976 2005 新加坡 PK-c 0.950 0.636 0.972 2005 美國(guó)說(shuō)明:SIGHAN 舉辦的兩屆Bakeoff 的評(píng)測(cè)方式基本一樣,都是選取了四種語(yǔ)料庫(kù),每種語(yǔ)料庫(kù)上參評(píng)系統(tǒng)可以選擇開(kāi)放測(cè)試(Open test 和封閉測(cè)試(Close test 兩種方式6。第一屆提供評(píng)測(cè)語(yǔ)料的四家單位是北京大學(xué)(PK ,香港城市大學(xué)(HK ,臺(tái)灣中研院(AS 和美國(guó)賓州大學(xué)(CTB 。其中前三家單位繼續(xù)為第二屆Bakeoff 提供語(yǔ)料,而美國(guó)賓州大學(xué)沒(méi)有為第二屆Bakeoff 提供語(yǔ)料,改為由微軟研究院(MSR 提供語(yǔ)料。表二中第一列的評(píng)測(cè)項(xiàng)目即由提供語(yǔ)料的單位名稱(chēng)縮寫(xiě)加開(kāi)放(O 或
17、封閉(C 兩種方式組成。除基本的P ,R ,F-score 成績(jī)外,Bakeoff 還給出了各參評(píng)系統(tǒng)的未登錄詞召回率(R-OOV 和詞表詞召回率(R-IV 指標(biāo)。表二把兩屆評(píng)測(cè)中各項(xiàng)目F-Score 的最好成績(jī)列出。在一定程度上可以反映目前中文分詞系統(tǒng)的質(zhì)量水平(當(dāng)然也存在這樣的可能性:質(zhì)量更好的分詞系統(tǒng)沒(méi)有參評(píng)。其中對(duì)于未登錄詞的識(shí)別,召回率在60%-80%之間。這意味著如果計(jì)算機(jī)處理的語(yǔ)料中包含較多生詞時(shí),分詞系統(tǒng)的性能將受到明顯影響。6所謂開(kāi)放測(cè)試是指參評(píng)的分詞系統(tǒng)不受限于主辦方提供的訓(xùn)練語(yǔ)料庫(kù),可以利用任何知識(shí)進(jìn)行分詞;封閉測(cè)試則要求參評(píng)系統(tǒng)只能利用訓(xùn)練語(yǔ)料庫(kù)獲取分詞知識(shí)。中文句法結(jié)
18、構(gòu)分析目前還沒(méi)有基于大規(guī)模語(yǔ)料的公開(kāi)評(píng)測(cè)7。因而很難有大家一致接受的數(shù)據(jù)來(lái)說(shuō)明問(wèn)題。下面我們提供兩個(gè)方面的數(shù)據(jù),表三是北大計(jì)算語(yǔ)言所常寶寶博士所做的完全句法分析(full parsing的實(shí)驗(yàn)結(jié)果數(shù)據(jù)。表四是來(lái)自微軟亞洲研究院黃昌寧教授的一份報(bào)告8中有關(guān)漢語(yǔ)語(yǔ)塊分析(chunking的實(shí)驗(yàn)結(jié)果數(shù)據(jù)。前者在一定程度上反映漢語(yǔ)深層句法結(jié)構(gòu)分析的研究狀況;后者則在一定程度上反映漢語(yǔ)淺層句法分析的研究狀況9。需要說(shuō)明的是,實(shí)驗(yàn)數(shù)據(jù)都是在分詞和詞性標(biāo)注完全正確的基礎(chǔ)上得到的。這在一定程度上降低了分析的難度10。表三:基于最大熵模型的漢語(yǔ)完全句法分析實(shí)驗(yàn)數(shù)據(jù)(語(yǔ)料:賓州大學(xué)中文樹(shù)庫(kù)1.0版11開(kāi)放測(cè)試句子
19、數(shù)量 = 245 短語(yǔ)結(jié)構(gòu)召回率 = 0.7167 短語(yǔ)結(jié)構(gòu)精確率 = 0.7524 整句匹配率 = 0.2653 平均結(jié)構(gòu)邊界交錯(cuò)率 = 0.2300 無(wú)邊界交錯(cuò)的句子比例 = 0.4776 邊界交錯(cuò)數(shù)小于2的句子比例 = 0.6612 封閉測(cè)試句子數(shù)量 = 119 短語(yǔ)結(jié)構(gòu)召回率 = 0.9084 短語(yǔ)結(jié)構(gòu)精確率 = 0.9518 整句匹配率 = 0.4538 平均結(jié)構(gòu)邊界交錯(cuò)率 = 0.0036 無(wú)邊界交錯(cuò)的句子比例 = 0.8487 邊界交錯(cuò)數(shù)小于2的句子比例 = 0.9580表四:漢語(yǔ)語(yǔ)塊分析實(shí)驗(yàn)數(shù)據(jù)(語(yǔ)料:1998年人民日?qǐng)?bào)1月份語(yǔ)料12模型 FMM FMM+規(guī)則裁剪 PCFG H
20、MM1-gram HMM3-gramF-score0.3588 0.6945 0.8144 0.8682 0.8839 (FMM:最大匹配法,PCFG:概率上下文無(wú)關(guān)文法;HMM3-gram:三元隱馬爾可夫模型對(duì)于完全句法分析來(lái)說(shuō),如果按照“整句匹配率”(complete match指標(biāo)作為評(píng)判標(biāo)準(zhǔn),可以看到,在開(kāi)放測(cè)試條件13下,句子分析結(jié)果完全正確率目前不到30%(即平均100個(gè)句子中完全分析正確的不到30句,還是比較低的。這樣也就很容易理解機(jī)器翻譯系統(tǒng)為什么性能很難上去了(連句法結(jié)構(gòu)分析都不正確,如何得到正確的翻譯結(jié)果呢?。下面第三節(jié)中機(jī)器翻譯系統(tǒng)評(píng)測(cè)數(shù)據(jù)也反映了這一現(xiàn)狀。三 應(yīng)用系統(tǒng)的
21、發(fā)展現(xiàn)狀需要說(shuō)明的是,這里所說(shuō)的“應(yīng)用系統(tǒng)”,主要還是側(cè)重于中文信息處理研究單位在實(shí)7要進(jìn)行漢語(yǔ)句法結(jié)構(gòu)分析技術(shù)的評(píng)測(cè),首先要求有得到大家認(rèn)可的漢語(yǔ)語(yǔ)法體系作為基礎(chǔ),并且以這樣的語(yǔ)法系統(tǒng)為指導(dǎo),對(duì)大規(guī)模真實(shí)語(yǔ)料進(jìn)行相應(yīng)的句法結(jié)構(gòu)標(biāo)注,由此形成的中文樹(shù)庫(kù)方可作為評(píng)測(cè)的客觀(guān)依據(jù),但目前這個(gè)條件顯然還不夠成熟。學(xué)術(shù)界目前有關(guān)中文句法結(jié)構(gòu)分析比較通行的做法是以美國(guó)賓州大學(xué)中文樹(shù)庫(kù)作為一個(gè)參照,來(lái)試驗(yàn)、比較各種句法分析方法的優(yōu)劣。最近的相關(guān)研究可參看Xiong, Deyi, et al.(2005。8來(lái)自中國(guó)語(yǔ)言文字網(wǎng)http:/ www.china-9 語(yǔ)塊分析是對(duì)句子做線(xiàn)性切割,類(lèi)似詞語(yǔ)切分,只不過(guò)
22、切分單位更大了,不像完全句法分析,涉及到層次嵌套的復(fù)雜問(wèn)題,因此一般認(rèn)為語(yǔ)塊分析的難度要低于完全句法分析。對(duì)于信息檢索和提取等一些應(yīng)用來(lái)說(shuō),淺層分析基本能滿(mǎn)足應(yīng)用需求;而對(duì)于機(jī)器翻譯等應(yīng)用系統(tǒng)來(lái)說(shuō),一般需要深層句法結(jié)構(gòu)分析才能滿(mǎn)足需要。10一般計(jì)算分詞正確率的時(shí)候,都是以詞數(shù)計(jì)的。而對(duì)于句法結(jié)構(gòu)分析(或語(yǔ)塊分析來(lái)說(shuō),分詞正確率的計(jì)算單位應(yīng)該是以整句來(lái)計(jì)更合理。舉個(gè)簡(jiǎn)單的例子:一個(gè)句子(比如含20個(gè)詞中就算僅有一處分詞錯(cuò)誤,對(duì)句法結(jié)構(gòu)分析的影響幾乎都是致命的。在這種情況下,如果按詞數(shù)計(jì)算分詞正確率,則為19/20,即95%的正確率,而如果按句子數(shù)來(lái)計(jì)算分詞正確率,則為0!11該版本的樹(shù)庫(kù)語(yǔ)料含3
23、25個(gè)數(shù)據(jù)文件,4185句,平均句長(zhǎng)23.89詞。12該語(yǔ)料可從北大計(jì)算語(yǔ)言學(xué)研究所網(wǎng)站下載13 這里的開(kāi)放測(cè)試不同于上文Bakeoff中的含義,而是指在測(cè)試語(yǔ)料集與訓(xùn)練語(yǔ)料集不同的情況下進(jìn)行測(cè)試;相應(yīng)的,封閉測(cè)試是指在測(cè)試語(yǔ)料是訓(xùn)練語(yǔ)料的一個(gè)子集的情況下進(jìn)行測(cè)試。驗(yàn)室環(huán)境下進(jìn)行相關(guān)應(yīng)用技術(shù)的研發(fā)和探索時(shí)所開(kāi)發(fā)的系統(tǒng),對(duì)于真正運(yùn)營(yíng)中的商業(yè)應(yīng)用系統(tǒng),本文基本不展開(kāi)討論。一方面,目前從互聯(lián)網(wǎng)媒體上比較容易找到有關(guān)應(yīng)用系統(tǒng)的非技術(shù)特征的調(diào)查數(shù)據(jù),以近年來(lái)最引人注目的搜索引擎為例,新浪(Sina 、賽迪(CCID 和中國(guó)互聯(lián)網(wǎng)信息中心(CNNIC 在今年都公布過(guò)2004年和2005年中國(guó)搜索引擎市場(chǎng)調(diào)
24、查報(bào)告。對(duì)諸如百度、Google 、雅虎、新浪、搜狐等多家搜索引擎網(wǎng)站和門(mén)戶(hù)網(wǎng)站提供的搜索服務(wù)情況做了調(diào)查。讀者可以通過(guò)這些報(bào)告了解到目前各家搜索引擎的市場(chǎng)占有率、用戶(hù)群特征等等情況(相關(guān)網(wǎng)頁(yè): 或 。另一方面,也有第三方技術(shù)評(píng)測(cè)單位對(duì)市場(chǎng)上的搜索引擎產(chǎn)品進(jìn)行過(guò)綜合質(zhì)量評(píng)估,比如清華大學(xué)IT 可用性實(shí)驗(yàn)室就先后在2004年6月和2005年9月兩次對(duì)中國(guó)市場(chǎng)的搜索引擎質(zhì)量進(jìn)行過(guò)評(píng)估,評(píng)測(cè)內(nèi)容包括標(biāo)準(zhǔn)搜索方式下檢索結(jié)果相關(guān)性、網(wǎng)頁(yè)覆蓋率、死鏈率、作弊率、中文分詞質(zhì)量等等。2005年9月的評(píng)測(cè)結(jié)果發(fā)表在計(jì)算機(jī)世界報(bào)2005年11月14日第44期E7版。讀者也可以從計(jì)算機(jī)世界網(wǎng)站下載全文( 。報(bào)告在結(jié)
25、論部分指出,本土搜索引擎(比如百度在中文分詞技術(shù)質(zhì)量方面有明顯優(yōu)勢(shì)。下表是引自該文的對(duì)各家搜索引擎的分詞技術(shù)所做的評(píng)測(cè)結(jié)果: 表五:系統(tǒng) Google 一搜 百度 中搜 愛(ài)問(wèn) 搜狗分詞成績(jī) 80% 77.80%90% 81.10% 74.40 76.70% 從表中數(shù)據(jù)可以看出,中文分詞系統(tǒng)在面對(duì)互聯(lián)網(wǎng)海量數(shù)據(jù)時(shí),分詞正確率比Bakeoff 評(píng)測(cè)中的成績(jī)要低不少(Bakeoff 評(píng)測(cè)的數(shù)據(jù)量在10萬(wàn)詞次以?xún)?nèi)。但必須指出,盡管如此,中文分詞系統(tǒng)對(duì)搜索引擎的質(zhì)量改進(jìn)還是比較明顯的,比如在上一代搜索引擎中查找“和服”“市政”這些存在分詞歧義的詞語(yǔ),返回的結(jié)果網(wǎng)頁(yè)經(jīng)常是“和服務(wù)”“市政府”“市政協(xié)”等不
26、相關(guān)網(wǎng)頁(yè)。但經(jīng)過(guò)中文分詞處理后,還是在相當(dāng)程度上提高了查詢(xún)結(jié)果的主題相關(guān)性,現(xiàn)在的搜索引擎已經(jīng)可以在很大程度上避免返回這些無(wú)關(guān)網(wǎng)頁(yè)。限于篇幅,下面僅以漢語(yǔ)信息處理應(yīng)用中最具代表性的信息檢索系統(tǒng)和機(jī)器翻譯系統(tǒng)為例來(lái)說(shuō)明目前的技術(shù)所達(dá)到的水平。前者因?yàn)榻陙?lái)基于互聯(lián)網(wǎng)的搜索引擎市場(chǎng)持續(xù)升溫從而也備受學(xué)術(shù)研究者的青睞,后者則因?yàn)榭梢哉f(shuō)是綜合反映計(jì)算機(jī)對(duì)自然語(yǔ)言真正意義上的“理解”水平,因而值得一談。關(guān)于信息檢索系統(tǒng)和機(jī)器翻譯系統(tǒng)的技術(shù)水平,我們可以從2005年11月召開(kāi)的國(guó)家“863計(jì)劃中文信息處理與智能人機(jī)接口技術(shù)評(píng)測(cè)”研討會(huì)公布的結(jié)果了解最新的情況14。2005年信息檢索系統(tǒng)的技術(shù)評(píng)測(cè)只設(shè)置了1
27、個(gè)子任務(wù):相關(guān)網(wǎng)頁(yè)檢索,有8家單位報(bào)名參加(其中有3家單位未提交最終結(jié)果。相關(guān)網(wǎng)頁(yè)檢索使用由北京大學(xué)提供的中文Web 網(wǎng)頁(yè)測(cè)試集,包含5,712,710個(gè)網(wǎng)頁(yè)(90GB 數(shù)據(jù),是2004年6月在中國(guó)范圍內(nèi)采樣17,683個(gè)站點(diǎn)獲得的。評(píng)測(cè)共有50個(gè)查詢(xún)主題(topic 15。系統(tǒng)提交查詢(xún)時(shí)可以用人工輸入查詢(xún),也可以由計(jì)算機(jī)程序自動(dòng)產(chǎn)生查詢(xún)(這種方式可以反映計(jì)算機(jī)擴(kuò)展查詢(xún)或者說(shuō)理解查詢(xún)主題的能力。對(duì)每種查詢(xún)方式,都給出平均準(zhǔn)確率(Mean Average Precision 、相關(guān)文檔篇數(shù)(R 確定后的平均精確率(R-Precision ,以及前10個(gè)結(jié)果的平均精確率(P10三個(gè)指標(biāo)來(lái)說(shuō)明系統(tǒng)性
28、能。這三個(gè)評(píng)測(cè)指標(biāo)均是值越大越好。下表是參評(píng)系統(tǒng)中成績(jī)突出的兩個(gè)系統(tǒng) 14 863計(jì)劃從1990開(kāi)始嘗試進(jìn)行對(duì)自然語(yǔ)言信息處理技術(shù)進(jìn)行公開(kāi)評(píng)測(cè),1991年正式實(shí)施,此后雖在有些年份中斷(比如1993,1996,1997,1999-2002,但這項(xiàng)工作基本還是延續(xù)下來(lái)了。特別是近年來(lái)國(guó)際上利用評(píng)測(cè)來(lái)推動(dòng)技術(shù)進(jìn)步越來(lái)越成為大家公認(rèn)的一種有效做法,有關(guān)中文信息處理技術(shù)的評(píng)測(cè)工作也得到了863專(zhuān)家組和學(xué)術(shù)界的重視和支持。有關(guān)評(píng)測(cè)詳情可訪(fǎng)問(wèn)15 相比之下,國(guó)際上最具影響力的信息檢索評(píng)測(cè)TREC (由美國(guó)國(guó)家標(biāo)準(zhǔn)局NIST 和美國(guó)軍方的國(guó)防部高級(jí)研究計(jì)劃署DARPA 組織的規(guī)模要大很多。TREC 評(píng)測(cè)從1
29、992年開(kāi)始,每年一次。從TREC 網(wǎng)站上可以了解到2004年TREC 的規(guī)模(2005年的總結(jié)尚未公布,參加單位超過(guò)100個(gè),評(píng)測(cè)子任務(wù)為7個(gè),其中Terabyte 子任務(wù)的數(shù)據(jù)量為2500萬(wàn)網(wǎng)頁(yè)文檔(460GB ,詳見(jiàn)TREC 網(wǎng)站/presentations/t2004.presentations.html 。(“manual”代表人工構(gòu)造查詢(xún),“auto”代表自動(dòng)構(gòu)造查詢(xún)的得分情況。 的結(jié)果是相關(guān)度很高的。應(yīng)該說(shuō),這個(gè)結(jié)果已經(jīng)可以滿(mǎn)足一般的信息檢索需求。這也正好說(shuō)明目前Web搜索引擎在互聯(lián)網(wǎng)時(shí)代確確實(shí)實(shí)能為人們更快捷地獲取信息提供便利,因而成就了一
30、個(gè)巨大的市場(chǎng)16。2005年機(jī)器翻譯評(píng)測(cè)項(xiàng)目設(shè)置了6個(gè)子評(píng)測(cè)項(xiàng)目,此外還設(shè)置了漢英詞語(yǔ)對(duì)齊評(píng)測(cè)子任務(wù)。6個(gè)子評(píng)測(cè)項(xiàng)目分別是英漢、漢英、漢日、日漢、日英、英日機(jī)器翻譯。這里我們只關(guān)注前四個(gè)跟中文有關(guān)的項(xiàng)目。每個(gè)項(xiàng)目又根據(jù)語(yǔ)料性質(zhì)不同分為對(duì)話(huà)翻譯和篇章翻譯兩個(gè)小項(xiàng)目。機(jī)器翻譯的結(jié)果按照人工打分和計(jì)算機(jī)自動(dòng)打分兩種方式進(jìn)行。前者的評(píng)分標(biāo)準(zhǔn)如下表所示。表七:(引自863評(píng)測(cè)網(wǎng)站評(píng)分 忠實(shí)度 流利度0 完全沒(méi)有譯出來(lái) 完全不可理解1 譯文只有個(gè)別詞符合原文 譯文晦澀難懂2 譯文有少數(shù)內(nèi)容符合原文 譯文很不流暢3 譯文基本表達(dá)了原文的意思 譯文基本流暢4 譯文表達(dá)了原文的絕大部分信息 譯文流暢,但是在地道
31、性方面有所不足5 譯文準(zhǔn)確完整地表達(dá)了原文信息 譯文是流暢而且地道的句子計(jì)算機(jī)自動(dòng)評(píng)測(cè)的指標(biāo)包括BLEU評(píng)分、NIST評(píng)分、一般文本匹配度(GTM、詞語(yǔ)位置相關(guān)錯(cuò)誤率(mWER、詞語(yǔ)位置無(wú)關(guān)錯(cuò)誤率(mPER等17。其中NIST分值、BLEU分值、GTM 分值都是越高越好,mWER、mPER的值則是越低越好。評(píng)測(cè)結(jié)果顯示自動(dòng)評(píng)測(cè)的排序跟人工評(píng)測(cè)的排序結(jié)果有很好的相關(guān)性。下表列出了在今年863評(píng)測(cè)的各個(gè)項(xiàng)目中BLEU成績(jī)排名第一的系統(tǒng)的具體得分情況18。表八:(數(shù)據(jù)來(lái)源:2005年11月召開(kāi)的863評(píng)測(cè)研討會(huì)語(yǔ)言類(lèi)別 NIST BLEU GTM mWER mPER 忠實(shí)度流利度對(duì)話(huà)7.1392 0
32、.25060.71580.61920.484365.38 64.25 漢英篇章 6.9015 0.18430.70530.72280.533761.72 55.90 英漢對(duì)話(huà)7.8703 0.37760.74700.53210.415682.59 78.2416國(guó)內(nèi)數(shù)據(jù)調(diào)查研究機(jī)構(gòu)賽迪顧問(wèn)在2005年12月27日舉行的2005中國(guó)搜索年會(huì)上,發(fā)布了2005-2006年中國(guó)搜索引擎市場(chǎng)及投資機(jī)會(huì)研究年度報(bào)告。該報(bào)告顯示,2005年中國(guó)搜索引擎市場(chǎng)規(guī)模實(shí)現(xiàn)了42.2%的增長(zhǎng),達(dá)到11.8億元人民幣(詳見(jiàn)17隨著統(tǒng)計(jì)機(jī)器翻譯技術(shù)的研究熱潮興起,各種機(jī)器翻譯自動(dòng)評(píng)測(cè)技術(shù)也是近年來(lái)國(guó)際自然語(yǔ)言處理領(lǐng)域研
33、究的熱點(diǎn)問(wèn)題之一。這些評(píng)測(cè)指標(biāo)是目前計(jì)算機(jī)自動(dòng)評(píng)測(cè)機(jī)器翻譯系統(tǒng)質(zhì)量常見(jiàn)指標(biāo),其中BLEU,NIST 指標(biāo)都是基于n-gram語(yǔ)言模型的(在今年863組織的評(píng)測(cè)中,BLEU的n值取4,NIST的n值取5。NIST舉辦的國(guó)際機(jī)器翻譯評(píng)測(cè)也采用這些指標(biāo)。關(guān)于BLEU、NIST、GTM、mWER、mPER的詳細(xì)說(shuō)明可參見(jiàn)Papineni et al.(2001,Joseph P. Turian et al.(2003,Chin-Yew Lin and Franz Josef Och (2004。18 NIST在其網(wǎng)站上公布了2005年機(jī)器翻譯評(píng)測(cè)的結(jié)果,其中漢英翻譯大數(shù)據(jù)集測(cè)試和無(wú)限制文本數(shù)據(jù)集測(cè)試兩
34、項(xiàng)排名第一的都是Google公司的系統(tǒng),BLEU(N=4得分分別為0.3531和0.3516。顯示出該系統(tǒng)的穩(wěn)定性特色。具體細(xì)節(jié)可訪(fǎng)問(wèn)NIST網(wǎng)站查詢(xún):/speech/tests/mt/mt05eval_official_results_release_20050801_v3.html。篇章8.7453 0.37090.79300.61620.393455.78 47.85對(duì)話(huà)7.1158 0.35120.77920.64830.442153.44 44.87 漢日篇章8.5858 0.37500.82650.64500.388644.74 35.29對(duì)話(huà)7
35、.7098 0.33020.73020.60300.443067.94 67.03 日漢篇章7.9797 0.30070.71700.67480.463650.41 44.58 總的來(lái)看,完全自動(dòng)的機(jī)器翻譯的質(zhì)量目前離實(shí)用還有明顯的距離。這也再次提示人們應(yīng)該從實(shí)際出發(fā)來(lái)定位機(jī)器翻譯系統(tǒng)的設(shè)計(jì)目標(biāo)。2000年中國(guó)科學(xué)技術(shù)基金會(huì)、中國(guó)科學(xué)院科技翻譯協(xié)會(huì)等單位曾聯(lián)合在互聯(lián)網(wǎng)上做過(guò)一項(xiàng)有關(guān)機(jī)器翻譯發(fā)展現(xiàn)狀與未來(lái)的調(diào)查19。調(diào)查顯示:計(jì)算機(jī)可以幫助翻譯人員解決的前三位問(wèn)題是提高工作效率、查字典、自動(dòng)記憶翻譯結(jié)果。對(duì)于翻譯軟件的功能,非常需要的前三位功能是:“大容量的專(zhuān)業(yè)詞庫(kù)”、“交互翻譯”和“記憶功能”
36、(所占比例分別為18.3%、14.8%和13.7%。交叉分析的結(jié)果顯示,不同行業(yè)的回答者對(duì)翻譯軟件的功能需求方面不存在差異。調(diào)查得出的結(jié)論是,未來(lái)市場(chǎng)需要的機(jī)器翻譯軟件是具有大容量的專(zhuān)業(yè)詞庫(kù)、交互翻譯、記憶功能的翻譯軟件。從目前全自動(dòng)機(jī)器翻譯系統(tǒng)的實(shí)際表現(xiàn)來(lái)說(shuō),五年前的這個(gè)調(diào)查還是很有參考價(jià)值的。此外,近年來(lái)語(yǔ)音技術(shù)在實(shí)際應(yīng)用中的發(fā)展非常迅速,比如捷通華聲、科大迅飛20等公司的語(yǔ)音技術(shù)在金融系統(tǒng)、保險(xiǎn)、電力以及政府部門(mén)等涉及到公眾生活領(lǐng)域的語(yǔ)音服務(wù)已經(jīng)切實(shí)發(fā)揮了作用,產(chǎn)生了巨大的經(jīng)濟(jì)效益。同時(shí),智能語(yǔ)音識(shí)別技術(shù)在普通話(huà)教學(xué)與水平測(cè)試中的應(yīng)用,也越來(lái)越受到關(guān)注。目前的研究表明,計(jì)算機(jī)自動(dòng)進(jìn)行普通
37、話(huà)水平測(cè)試已經(jīng)達(dá)到較高精度,預(yù)期會(huì)產(chǎn)生顯著的社會(huì)效益。限于篇幅,本文不展開(kāi)討論,詳情可訪(fǎng)問(wèn)相關(guān)網(wǎng)站查詢(xún)。四 漢語(yǔ)語(yǔ)言資源的建設(shè)漢語(yǔ)信息處理技術(shù)和應(yīng)用系統(tǒng)要達(dá)到實(shí)用目標(biāo),沒(méi)有大規(guī)模高質(zhì)量的語(yǔ)言基礎(chǔ)資源,是難以想像的。隨著計(jì)算機(jī)軟硬件環(huán)境的不斷改善,研究的深入,目前語(yǔ)言資源建設(shè)的條件比以往有了很大的提高。比如自動(dòng)分詞和詞性標(biāo)注軟件的性能改進(jìn),可以幫助人們?cè)诟虝r(shí)間內(nèi),花費(fèi)更少的人力建設(shè)更大規(guī)模的分詞和詞性標(biāo)注語(yǔ)料庫(kù),而句法分析器性能的改進(jìn)以及輔助編輯工具的使用則可以幫助人們更富于效率地建設(shè)中文句法樹(shù)庫(kù)。這些進(jìn)步已經(jīng)明顯地帶動(dòng)了語(yǔ)料庫(kù)的建設(shè)規(guī)模向廣度和深度兩個(gè)方向上的拓展(可以預(yù)見(jiàn),經(jīng)過(guò)深加工的大規(guī)
38、模中文樹(shù)庫(kù),經(jīng)過(guò)詞、短語(yǔ)對(duì)齊的雙語(yǔ)平行語(yǔ)料庫(kù)將成為今后語(yǔ)言資源建設(shè)的重點(diǎn)。此外,隨著開(kāi)放源代碼軟件(Open Source Software的不斷增多,互聯(lián)網(wǎng)上也出現(xiàn)了越來(lái)越多的可以利用的程序資源21(創(chuàng)立于2002年8月,由中國(guó)科學(xué)院計(jì)算技術(shù)研究所軟件研究室自然語(yǔ)言處理課題組發(fā)起并主辦的“中文自然語(yǔ)言處理開(kāi)放平臺(tái)”是國(guó)內(nèi)自然語(yǔ)言處理領(lǐng)域開(kāi)源網(wǎng)站的代表,從而大大縮短了語(yǔ)料庫(kù)檢索系統(tǒng)的開(kāi)發(fā)時(shí)間。應(yīng)該說(shuō),語(yǔ)言資源建設(shè)目前正處于一個(gè)比較好的大環(huán)境中。如果結(jié)合語(yǔ)言資源建設(shè)的歷史發(fā)展來(lái)看現(xiàn)狀,有兩點(diǎn)是很明顯的:(1無(wú)論是語(yǔ)料庫(kù),還是詞庫(kù),語(yǔ)言基礎(chǔ)資源的建設(shè)都是費(fèi)時(shí)費(fèi)力,投資成本相當(dāng)高的工程。因?yàn)橐_(dá)到實(shí)
39、用目標(biāo),語(yǔ)言資源庫(kù)就必需要有相當(dāng)大的規(guī)模,而且要求有相當(dāng)高的質(zhì)量。這一“大”、一“高”,就決定了語(yǔ)言基礎(chǔ)資源的建設(shè)絕非朝夕之功,而常常是經(jīng)年累月精雕細(xì)刻的結(jié)果。以目前有19相關(guān)報(bào)道見(jiàn)賽迪網(wǎng)20參見(jiàn) 和 21比如基于Java的公開(kāi)源代碼搜索引擎Lucene(/java/docs/index.html,以及基于XML 格式語(yǔ)料庫(kù)和C+程序語(yǔ)言開(kāi)發(fā)的語(yǔ)料庫(kù)Concordance系統(tǒng)XAIRA(http:/www.oucs.ox.ac.uk/rts/xaira/ 或代表性的國(guó)家語(yǔ)委的現(xiàn)代漢語(yǔ)通用語(yǔ)料庫(kù)為例22,該語(yǔ)料庫(kù)1991年立項(xiàng),到2005年,歷時(shí)近1
40、5年,生語(yǔ)料規(guī)模超過(guò)1億字。其中五千萬(wàn)字進(jìn)行了分詞和詞性標(biāo)注,100萬(wàn)字(5萬(wàn)句進(jìn)行了短語(yǔ)結(jié)構(gòu)標(biāo)注。目前部分語(yǔ)料已經(jīng)提供網(wǎng)上查詢(xún)服務(wù)。作為大型的國(guó)家級(jí)語(yǔ)料庫(kù),該語(yǔ)料庫(kù)的加工仍在繼續(xù)。再看信息處理用電子詞典中最有代表性的成果,北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所和北京大學(xué)中文系聯(lián)合研制的“現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典”(俞士汶等2003a, 2005,該詞典自1986年國(guó)家“七五”科技攻關(guān)項(xiàng)目立項(xiàng),歷經(jīng)近20年,發(fā)展至今,已收錄超過(guò)8萬(wàn)詞,共32個(gè)數(shù)據(jù)庫(kù),總信息量超過(guò)250萬(wàn),詞庫(kù)數(shù)據(jù)超過(guò)16MB。以該詞典為基礎(chǔ),北大計(jì)算語(yǔ)言所進(jìn)行了一系列的中文信息處理基礎(chǔ)語(yǔ)言資源的建設(shè),包括現(xiàn)代漢語(yǔ)語(yǔ)義詞典(王惠等2003、中文
41、概念詞典(于江生等2003,劉揚(yáng)2005、現(xiàn)代漢語(yǔ)基本標(biāo)注語(yǔ)料庫(kù)(俞士汶等2003b,2004,等等。從以上兩個(gè)單位富有代表性的語(yǔ)言資源建設(shè)歷程中,不難體會(huì)到資源建設(shè)的工程之艱巨。(2語(yǔ)言資源確實(shí)在信息處理的發(fā)展中發(fā)揮了巨大的推動(dòng)作用。比如北大計(jì)算語(yǔ)言所2001年在其網(wǎng)站上公布了1998年1月份人民日?qǐng)?bào)標(biāo)注語(yǔ)料(200多萬(wàn)詞次供免費(fèi)下載。至今已有超過(guò)7800次下載。此后學(xué)術(shù)雜志和會(huì)議論文中??梢钥吹交谠撜Z(yǔ)料庫(kù)所做的研究(比如中科院計(jì)算所開(kāi)發(fā)的漢語(yǔ)分詞和詞性標(biāo)注系統(tǒng)就基于北大人民日?qǐng)?bào)語(yǔ)料庫(kù)獲取參數(shù),該系統(tǒng)作為開(kāi)放源代碼軟件目前已有超過(guò)3萬(wàn)次下載23。再如清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室在研
42、制漢語(yǔ)分詞系統(tǒng)的過(guò)程中,積累了超過(guò)8億字的現(xiàn)代漢語(yǔ)生語(yǔ)料,為定量確定一個(gè)語(yǔ)言單位是否成詞提供統(tǒng)計(jì)數(shù)據(jù),在制訂“信息處理用現(xiàn)代漢語(yǔ)分詞詞表”的工作中起到了非常基礎(chǔ)性的作用。以上兩點(diǎn)是就語(yǔ)料庫(kù)、詞庫(kù)等語(yǔ)言基礎(chǔ)資源本身而論的。事實(shí)上,隨著語(yǔ)料庫(kù)建設(shè)和應(yīng)用的深入,人們?cè)絹?lái)越感覺(jué)到,語(yǔ)言基礎(chǔ)資源之外的一些因素,在很大程度上影響了語(yǔ)言資源的建設(shè)與利用。這其中突出的問(wèn)題有兩個(gè),一是在語(yǔ)言資源建設(shè)之初,如何解決語(yǔ)言原始資料的版權(quán)或者說(shuō)是授權(quán)加工的問(wèn)題;二是在語(yǔ)言資源庫(kù)建成之后,如何最大地發(fā)揮其效用,讓更多的人可以使用,同時(shí)又能保障語(yǔ)言資源開(kāi)發(fā)者的合理利益的問(wèn)題。應(yīng)該說(shuō),這兩個(gè)非常實(shí)際的問(wèn)題因?yàn)樯婕暗絿?guó)家法規(guī)政
43、策以及科研單位的經(jīng)濟(jì)利益等諸多因素,目前還沒(méi)有得到很好的解決。但越來(lái)越多的有識(shí)之士已經(jīng)意識(shí)到這些問(wèn)題并開(kāi)始著手尋求解決的途徑。近年來(lái)人們?yōu)榇俗龀龅呐梢詮膬蓚€(gè)代表性的事情上看出。一個(gè)是以國(guó)內(nèi)信息處理的學(xué)術(shù)界力量為主導(dǎo),引進(jìn)國(guó)外先進(jìn)的語(yǔ)言資源管理機(jī)制,從2003年開(kāi)始,在國(guó)家973計(jì)劃的資助和相關(guān)課題研究的推動(dòng)下,成立了中文語(yǔ)言資源聯(lián)盟Chinese LDC(趙軍等 2003,該組織致力于語(yǔ)言資源規(guī)范和標(biāo)準(zhǔn)的建設(shè)以及建立合理有效的管理機(jī)制,到2005年,中文語(yǔ)言資源聯(lián)盟官方網(wǎng)站上已經(jīng)列出了41項(xiàng)語(yǔ)言資源,涉及分詞和詞性標(biāo)注語(yǔ)料庫(kù)、句法樹(shù)庫(kù)、詞典(語(yǔ)法信息詞典、內(nèi)涵邏輯語(yǔ)義詞典,語(yǔ)音語(yǔ)料庫(kù)(語(yǔ)音
44、合成、方言庫(kù),自動(dòng)評(píng)測(cè)語(yǔ)料庫(kù)、多語(yǔ)對(duì)齊語(yǔ)料庫(kù),等等。其定價(jià)模式區(qū)分兩個(gè)因素:商用/研究用;中國(guó)大陸地區(qū)使用/在境外國(guó)外使用。盡管跟美國(guó)UPenn的LDC24相比,中國(guó)在這方面起步已經(jīng)晚了十年。但畢竟是起步了。我們希望,隨著機(jī)制的不斷完善,中文語(yǔ)言資源聯(lián)盟在中文信息處理和語(yǔ)言基礎(chǔ)資源建設(shè)方面將發(fā)揮越來(lái)越大的推動(dòng)作用。第二個(gè)有代表性的事情是以政府力量為主導(dǎo),由高等院校的研究單位來(lái)參與實(shí)施的。從2004到2005年,由教育部語(yǔ)言文字信息管理司牽頭,先后成立了國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心的五個(gè)分中心,包括教育部語(yǔ)言文字信息管理司與北京語(yǔ)言大學(xué)共建的平面媒體監(jiān)測(cè)與研究分中心,與華中師范大學(xué)共建的網(wǎng)絡(luò)媒體監(jiān)
45、測(cè)與研究分中心,與中國(guó)傳媒大學(xué)共建的有聲媒體監(jiān)測(cè)與研究分中心,與暨南大學(xué)共建的海外22其他國(guó)內(nèi)知名的語(yǔ)言知識(shí)庫(kù)、語(yǔ)料庫(kù)也都是長(zhǎng)年累積建設(shè)而成的,比如董振東先生開(kāi)發(fā)的“知網(wǎng)”(HowNet,清華大學(xué)的語(yǔ)義詞典、語(yǔ)料庫(kù)等等。23參見(jiàn)中文自然語(yǔ)言處理開(kāi)放平臺(tái)網(wǎng)站24美國(guó)語(yǔ)言資源聯(lián)盟(LDC成立于1992年,發(fā)展至今,在自然語(yǔ)言信息處理領(lǐng)域已經(jīng)產(chǎn)生深遠(yuǎn)影響。是目前國(guó)際上最大的語(yǔ)言資料庫(kù)集中地。該組織發(fā)布的語(yǔ)言資源數(shù)目為313項(xiàng)。詳情可訪(fǎng)問(wèn)其官方網(wǎng)站查詢(xún)/。網(wǎng)站上按年列出了語(yǔ)言資源目錄。華文媒體監(jiān)測(cè)與研究分中心,與廈門(mén)大學(xué)共建的教育、教材媒體監(jiān)測(cè)與研究分中心
46、。隨著這五個(gè)分中心的啟動(dòng)與工作的展開(kāi),語(yǔ)言信息作為一種公共資源的意識(shí)將受到越來(lái)越多的關(guān)注。而這些中心所建設(shè)的大型動(dòng)態(tài)流通語(yǔ)料庫(kù),無(wú)論是在信息處理領(lǐng)域,還是在語(yǔ)言研究與教學(xué)領(lǐng)域,都將產(chǎn)生顯著的輻射性影響。值得一題的是,盡管人們?cè)谡Z(yǔ)料庫(kù)的傳播和共享機(jī)制方面已經(jīng)做出了努力,但在語(yǔ)料庫(kù)的知識(shí)版權(quán)問(wèn)題上,目前還沒(méi)有出臺(tái)有效的法規(guī)和舉措25。這在很大程度上也是因?yàn)檎Z(yǔ)言資源庫(kù)的建設(shè)對(duì)于許多人來(lái)說(shuō)還是“陌生的新事物”。因此需要政府有關(guān)部門(mén)出面加強(qiáng)協(xié)調(diào),同時(shí)國(guó)家法律法規(guī)制訂部門(mén)應(yīng)該注意到語(yǔ)言資源建設(shè)中的特殊的知識(shí)版權(quán)問(wèn)題,以促進(jìn)科學(xué)研究,推動(dòng)信息技術(shù)進(jìn)步為出發(fā)點(diǎn),制訂更合理的相關(guān)法律。五 結(jié)語(yǔ):兼談漢語(yǔ)言文字信
47、息處理值得注意的新動(dòng)向要在一篇文章中巨細(xì)無(wú)遺地展現(xiàn)2005年漢語(yǔ)言文字信息處理的全貌是不可能的。上文試圖通過(guò)對(duì)一些“重點(diǎn)內(nèi)容”的透視,來(lái)努力勾勒出目前漢語(yǔ)言文字信息處理所達(dá)到的水平,基本上是“抓住一點(diǎn)、不及其余”,其局限性也是相當(dāng)?shù)拿黠@。事實(shí)上,如果我們將鏡頭拉遠(yuǎn)拉寬,2005年漢語(yǔ)言文字信息處理領(lǐng)域還有很多重要的事情沒(méi)有進(jìn)入上文的分析視野,比如國(guó)家863計(jì)劃、973計(jì)劃、國(guó)家自然科學(xué)基金資助的重大課題中,對(duì)漢語(yǔ)信息處理相關(guān)研究都給予了很大的支持,顯示了國(guó)家和政府相關(guān)部門(mén)對(duì)漢語(yǔ)信息處理領(lǐng)域的高度重視。再比如2005年一系列國(guó)際知名的自然語(yǔ)言處理教材譯成中文出版(馮志偉等2005,劉群等2005
48、,苑春法等2005,則體現(xiàn)出這一領(lǐng)域的教學(xué)工作得到了更多的關(guān)注。注意到這些或者宏觀(guān)或者微觀(guān)但都非常重要的事實(shí),顯然有助于我們更好地認(rèn)識(shí)這一領(lǐng)域的現(xiàn)狀。但限于篇幅,在權(quán)衡之下,本文還是選擇了把有限的筆墨統(tǒng)統(tǒng)集中在關(guān)于漢語(yǔ)言文字信息處理技術(shù)和資源本體內(nèi)容的描述上,相應(yīng)地也就把許多“外圍的大事”背景化或者干脆淡化了26。通觀(guān)2005年漢語(yǔ)信息處理的進(jìn)展情況,可以看到,伴隨近年來(lái)互聯(lián)網(wǎng)的熱潮不斷,人們工作生活中的信息處理量以加速度方式在急劇膨脹。這使得智能化的搜索引擎的需求現(xiàn)實(shí)性日益明顯,從而大力驅(qū)動(dòng)著信息處理的相關(guān)研究,包括信息檢索、信息提取、文本分類(lèi)、垃圾郵件過(guò)濾在內(nèi)的諸多應(yīng)用技術(shù)成為當(dāng)前研究的熱
49、點(diǎn)。除這些在“淺層”進(jìn)行信息處理的應(yīng)用系統(tǒng)外,人們也在開(kāi)始加大對(duì)于“深層”信息理解的關(guān)注度,比如文本褒貶色彩的評(píng)價(jià)研究,文本隱喻的發(fā)現(xiàn),等等。以上是從信息接收方“理解”信息的角度來(lái)看信息處理所能察覺(jué)到的研究新動(dòng)向。如果從信息發(fā)出方的角度來(lái)看如何“制造信息”,則近年來(lái)的熱點(diǎn)莫過(guò)于對(duì)Ontology(知識(shí)本體的研究(黃居仁2005。廣義地說(shuō),已有的語(yǔ)言基礎(chǔ)資源庫(kù)在某種程度上都可以看作是一個(gè)具體的Ontology。而隨著像WordNet27等免費(fèi)語(yǔ)言資源和像Protégé 28這樣的開(kāi)放源代碼Ontology構(gòu)建工具軟件在國(guó)際信息處理界的影響力加大,以及XML等新一代文本內(nèi)容標(biāo)示
50、語(yǔ)言的興起和普及,越來(lái)越多的信息處理學(xué)者開(kāi)始把自己的工作跟Ontology的設(shè)計(jì)聯(lián)系起來(lái),比如在術(shù)語(yǔ)提取、術(shù)語(yǔ)知識(shí)庫(kù)管理等領(lǐng)域,相關(guān)研究已經(jīng)成為新的趨勢(shì)。人們希望,隨著越來(lái)越多具體的人類(lèi)知識(shí)(當(dāng)然也包括語(yǔ)言知識(shí)被搭建成一個(gè)個(gè)的Ontology系統(tǒng),對(duì)自然語(yǔ)言文本中多義詞的消歧,對(duì)文本內(nèi)容的理解,進(jìn)而對(duì)基于內(nèi)容理解的信息搜索和信息提取,都會(huì)帶來(lái)質(zhì)量上可觀(guān)的改進(jìn)。如果說(shuō)以上都是循著原有的信息處理發(fā)展軌跡繼續(xù)向前的話(huà),那么,將信息處理研究中25 馮志偉(2002教授撰文介紹中國(guó)語(yǔ)料庫(kù)的狀況時(shí)就指出過(guò)這一問(wèn)題,并建議國(guó)家對(duì)語(yǔ)料庫(kù)的版權(quán)問(wèn)題制訂專(zhuān)門(mén)法規(guī)。26比如上文僅提到了JSCL-2005會(huì)議,但如果
51、能綜合考察本領(lǐng)域在2005年召開(kāi)的諸多國(guó)際國(guó)內(nèi)重要學(xué)術(shù)會(huì)議,也可更全面更準(zhǔn)確地反映這一領(lǐng)域?qū)W術(shù)研究的活躍程度。27 /28 /積累起來(lái)的技術(shù)用于詞典編纂, 用于語(yǔ)言教學(xué), 可以說(shuō)是大大拓展了信息處理研究的應(yīng)用范 圍.比如在漢英(英漢雙語(yǔ)對(duì)齊的語(yǔ)料庫(kù)基礎(chǔ)上,開(kāi)發(fā)雙語(yǔ)詞典編纂平臺(tái),就是突出的例 子.2005 年北大計(jì)算語(yǔ)言學(xué)研究所與外語(yǔ)教學(xué)與研究出版社合作,將計(jì)算語(yǔ)言所開(kāi)發(fā)的雙 語(yǔ)句子對(duì)齊軟件,大規(guī)模雙語(yǔ)語(yǔ)料庫(kù)檢索和搭配統(tǒng)計(jì)軟件等整合為一個(gè)基于 Web 界面的詞 典編纂平臺(tái).目前已經(jīng)實(shí)現(xiàn)原型系
52、統(tǒng),待進(jìn)一步調(diào)試后即可投入詞典編纂的具體應(yīng)用.像國(guó) 外著名的詞典出版機(jī)構(gòu) Oxford,Longman,Collins 等,都是語(yǔ)料庫(kù)詞典編纂方法的積極倡 導(dǎo)者和實(shí)踐者, 它們推出的詞典產(chǎn)品風(fēng)行全球, 語(yǔ)料庫(kù)及現(xiàn)代計(jì)算機(jī)信息處理技術(shù)在其中的 作用功不可沒(méi).現(xiàn)在,國(guó)內(nèi)這方面的條件也已逐漸成熟,利用已有的信息處理技術(shù)的成果, 在大規(guī)模語(yǔ)料庫(kù)的支撐下, 加快中文詞典編纂現(xiàn)代化的進(jìn)程, 無(wú)疑將是未來(lái)詞典出版業(yè)的一 個(gè)方向.而漢語(yǔ)信息處理的研究者,在這個(gè)進(jìn)程中,可以扮演積極而重要的角色. 總起來(lái)看,2005 年在漢語(yǔ)信息處理的發(fā)展歷程中不能說(shuō)有多少特別之處,自然語(yǔ)言處 理的困難無(wú)時(shí)無(wú)刻不在限制著這條路上
53、的行進(jìn)者的步伐. 但執(zhí)著的追求者們還是在堅(jiān)定地向 前:就算是一小步,那也是向前的一小步. 致謝:北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所俞士汶教授,常寶寶博士,胡俊峰博士,李素建博士,中 科院計(jì)算所劉群博士對(duì)本文初稿提出了寶貴意見(jiàn)和修改建議. 常寶寶博士, 劉群博士和北大 計(jì)算語(yǔ)言所劉揚(yáng)博士為作者提供了許多參考資料. 在此一并表示誠(chéng)摯的謝意. 文中錯(cuò)謬蓋由 作者本人負(fù)責(zé). 參考文獻(xiàn) 馮志偉(2002 ,中國(guó)語(yǔ)料庫(kù)研究的歷史與現(xiàn)狀, 漢語(yǔ)語(yǔ)言與計(jì)算學(xué)報(bào) 載 (新加坡 2002, , 第 12 卷,1 期. 馮志偉, 孫樂(lè) 譯 (2005 自然語(yǔ)言處理綜論 電子工業(yè)出版社. , 譯自 Daniel Jurafsk
54、y & James H. Martin, 2000, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall. 1999. 黃昌寧 等(2005 何謂金本位,載孫茂松,陳群秀 主編自然語(yǔ)言理解與大規(guī)模內(nèi)容計(jì) 算 ,清華大學(xué)出版社 2005 年版. 黃昌寧(2002統(tǒng)計(jì)語(yǔ)言模型能做什么? 語(yǔ)言文字應(yīng)用(2002 年第 1 期 . 黃居仁(2005語(yǔ)意網(wǎng)與中文
55、信息化的前瞻:知識(shí)本體與自然語(yǔ)言處理,載孫茂松,陳群秀 主編自然語(yǔ)言理解與大規(guī)模內(nèi)容計(jì)算 ,清華大學(xué)出版社. 教育部語(yǔ)言文字應(yīng)用研究所,2005,國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)介紹, "語(yǔ)言學(xué)研究手段現(xiàn)代 化 學(xué) 術(shù) 研 討 會(huì) " 北 京 大 學(xué) 2005.11.12-13 . 語(yǔ) 料 庫(kù) 在 線(xiàn) 檢 索 系 統(tǒng) 網(wǎng) 址 : , ( 13:8080/ 李宇明(2003 搭建中華字符集大平臺(tái), 中文信息學(xué)報(bào)2003 年第 2 期. 劉揚(yáng)(2005中文概念詞典的研究與開(kāi)發(fā),"語(yǔ)言研究現(xiàn)代化手段問(wèn)題學(xué)術(shù)研討會(huì)",2005 年 11
56、.12-13 日,北京大學(xué). 劉群,張華平,駱衛(wèi)華,孫健 譯(2005 ,劉群審校, 自然語(yǔ)言理解(第二版,電子工 業(yè)出版社,北京,2005.1,譯自 James Allen, 1995, Natural Language Understanding (Second Edition, The Benjamin / Cummings Publishing Company, Inc., 1995. 錢(qián)躍良,劉群,林守勛(2005自然語(yǔ)言處理與人機(jī)交互技術(shù)評(píng)測(cè)綜述,信息技術(shù)快報(bào)(中 國(guó)科學(xué)院計(jì)算技術(shù)研究所內(nèi)部刊物,中國(guó)計(jì)算機(jī)學(xué)會(huì)贈(zèng)閱會(huì)員刊物 ,第 3 卷第 8 期, 2005 年 8 月,網(wǎng)址: 孫茂松(2001漢語(yǔ)自動(dòng)分詞研究的若干最新進(jìn)展, 中文信息學(xué)會(huì)二十周年學(xué)術(shù)會(huì)議論文 集 ,清華大學(xué)出版社. 孫茂松(2003對(duì)統(tǒng)計(jì)語(yǔ)言模型的若干認(rèn)識(shí).載 徐波,孫茂松,靳光謹(jǐn) 主編,中文信息處 理若干重要問(wèn)題,科學(xué)出版社 2003 年版. 王惠,詹衛(wèi)東,俞士汶(2003現(xiàn)代漢語(yǔ)語(yǔ)義詞典規(guī)格說(shuō)明書(shū),載漢語(yǔ)語(yǔ)言與計(jì)算學(xué)報(bào) (新加坡 ,2003 年 6 月,第 13 卷 2 期.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二四年度養(yǎng)豬場(chǎng)租賃合同附帶農(nóng)業(yè)觀(guān)光休閑區(qū)建設(shè)合同3篇
- 2025年度農(nóng)業(yè)生態(tài)保護(hù)補(bǔ)償機(jī)制合作協(xié)議4篇
- 二零二五年度摩托車(chē)租賃市場(chǎng)分析報(bào)告編制合同4篇
- 二零二五年度畜牧技術(shù)人員勞動(dòng)合同解除協(xié)議書(shū)4篇
- 二零二五年度木工機(jī)械設(shè)備租賃與維護(hù)服務(wù)合同3篇
- 二零二五年度公共設(shè)施用地租賃協(xié)議4篇
- 二零二五年度綠色建筑技術(shù)引進(jìn)與應(yīng)用合同3篇
- 二零二五版新型防滑面磚技術(shù)研發(fā)與應(yīng)用合同3篇
- 2024項(xiàng)目管理人員安全培訓(xùn)考試題(審定)
- 2023年-2024年項(xiàng)目管理人員安全培訓(xùn)考試題及答案完美
- 平安產(chǎn)險(xiǎn)陜西省地方財(cái)政生豬價(jià)格保險(xiǎn)條款
- 銅礦成礦作用與地質(zhì)環(huán)境分析
- 30題紀(jì)檢監(jiān)察位崗位常見(jiàn)面試問(wèn)題含HR問(wèn)題考察點(diǎn)及參考回答
- 詢(xún)價(jià)函模板(非常詳盡)
- 《AI營(yíng)銷(xiāo)畫(huà)布:數(shù)字化營(yíng)銷(xiāo)的落地與實(shí)戰(zhàn)》
- 麻醉藥品、精神藥品、放射性藥品、醫(yī)療用毒性藥品及藥品類(lèi)易制毒化學(xué)品等特殊管理藥品的使用與管理規(guī)章制度
- 一個(gè)28歲的漂亮小媳婦在某公司打工-被老板看上之后
- 乘務(wù)培訓(xùn)4有限時(shí)間水上迫降
- 2023年低年級(jí)寫(xiě)話(huà)教學(xué)評(píng)語(yǔ)方法(五篇)
- DB22T 1655-2012結(jié)直腸外科術(shù)前腸道準(zhǔn)備技術(shù)要求
- GB/T 16474-2011變形鋁及鋁合金牌號(hào)表示方法
評(píng)論
0/150
提交評(píng)論