國(guó)內(nèi)漢語(yǔ)語(yǔ)料庫(kù)概況_第1頁(yè)
國(guó)內(nèi)漢語(yǔ)語(yǔ)料庫(kù)概況_第2頁(yè)
國(guó)內(nèi)漢語(yǔ)語(yǔ)料庫(kù)概況_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、國(guó)內(nèi)漢語(yǔ)語(yǔ)料庫(kù)概況 國(guó)內(nèi)漢語(yǔ)語(yǔ)料庫(kù)概況 【摘 要】本文概述了語(yǔ)料庫(kù)的起源和開展的歷史,著重從中國(guó)語(yǔ)料庫(kù)的建設(shè)與開展出發(fā),列舉近二十年常用的大型語(yǔ)料庫(kù),并對(duì)中國(guó)語(yǔ)料庫(kù)語(yǔ)言學(xué)研究存在的問(wèn)題和開展趨勢(shì)等方面進(jìn)行了分析,為語(yǔ)料庫(kù)的建設(shè)和語(yǔ)言學(xué)研究提供參考建議。 【關(guān)鍵詞】漢語(yǔ);語(yǔ)料庫(kù);語(yǔ)言學(xué) 0 引言 自20世紀(jì)60年代計(jì)算機(jī)問(wèn)世,計(jì)算機(jī)技術(shù)就迅速應(yīng)用到了以語(yǔ)料庫(kù)為根底的語(yǔ)言學(xué)研究中,隨著計(jì)算機(jī)技術(shù)的迅速開展,世界各國(guó)在語(yǔ)料庫(kù)的建設(shè)上成績(jī)顯著。不同語(yǔ)言、不同類型、不同規(guī)模的語(yǔ)料庫(kù)越來(lái)越多。語(yǔ)料庫(kù)的廣度越來(lái)越大,開發(fā)加工的深也日益加深。語(yǔ)料庫(kù)在語(yǔ)言學(xué)研究和自然語(yǔ)言處理中發(fā)揮的作用越來(lái)越大。 自第一代大型

2、電子語(yǔ)料庫(kù)BROWN建立至今,語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究已經(jīng)有50多年的歷史。而國(guó)內(nèi)的語(yǔ)料庫(kù)研究也有30多年的歷史,并在上世紀(jì)90年代得到飛速開展,語(yǔ)言學(xué)與計(jì)算機(jī)技術(shù)加速融合,不同的學(xué)者和專家秉著不同的出發(fā)點(diǎn),在各種角度和各種層次上進(jìn)行了大量實(shí)證研究,這使得我國(guó)的語(yǔ)料庫(kù)語(yǔ)言學(xué)迅速開展繁榮。 1 語(yǔ)料庫(kù)和語(yǔ)料庫(kù)語(yǔ)言學(xué) 1.1 語(yǔ)料庫(kù)和語(yǔ)料庫(kù)語(yǔ)言學(xué)的定義 語(yǔ)料庫(kù) :是指按照一定的語(yǔ)言學(xué)原那么,運(yùn)用隨機(jī)抽樣方,收集自然出現(xiàn)的連續(xù)語(yǔ)言運(yùn)用文本或話語(yǔ)片段而建成的具有一定容量的大型電子文本庫(kù)。 語(yǔ)料庫(kù)語(yǔ)言學(xué):在文本語(yǔ)料的根底上進(jìn)行語(yǔ)言研究的一門學(xué)科。語(yǔ)料庫(kù)語(yǔ)言學(xué)通過(guò)語(yǔ)言現(xiàn)象出現(xiàn)的概率對(duì)語(yǔ)言材料進(jìn)行研究。這里的語(yǔ)言

3、材料是真實(shí)的、可觀存在的,因此,通過(guò)概率統(tǒng)計(jì)手段在語(yǔ)料庫(kù)語(yǔ)言學(xué)研究中得到的語(yǔ)言使用情況是真實(shí)客觀的,排除掉了語(yǔ)言學(xué)家的主觀性,研究結(jié)果更加真實(shí)可靠。 1.2 語(yǔ)料庫(kù)在語(yǔ)言學(xué)研究領(lǐng)域的應(yīng)用 語(yǔ)料庫(kù)應(yīng)用對(duì)語(yǔ)言學(xué)研究的主要改良有: 保證了語(yǔ)料的客觀真實(shí)性,排除了語(yǔ)言學(xué)家的主觀性;借助計(jì)算機(jī)的儲(chǔ)存能力,提高了研究的廣度和深度;提高了工作效率,減少了人工誤差;使語(yǔ)料資源具有共享性。 語(yǔ)料庫(kù)在語(yǔ)言學(xué)研究中主要的應(yīng)用領(lǐng)域有: 詞典編纂;語(yǔ)言統(tǒng)計(jì);語(yǔ)言監(jiān)控,包括新詞、新用法的發(fā)現(xiàn);語(yǔ)言教學(xué);語(yǔ)言信息處理;語(yǔ)法、語(yǔ)義、詞匯、語(yǔ)音等各種語(yǔ)言問(wèn)題的研究;方言研究等等。 2 漢語(yǔ)語(yǔ)料庫(kù) 我國(guó)漢語(yǔ)語(yǔ)料庫(kù)的建設(shè)開始于20

4、世紀(jì)80年代,取得了不少成果。這里簡(jiǎn)單介紹北京大學(xué)建設(shè)的三個(gè)語(yǔ)料庫(kù)極其特點(diǎn)。 2.1 北京大學(xué)中國(guó)語(yǔ)言學(xué)研究中心ccl語(yǔ)料庫(kù) 該語(yǔ)料庫(kù)包含三個(gè)子語(yǔ)料庫(kù):現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)、古代漢語(yǔ)語(yǔ)料庫(kù)和漢英雙語(yǔ)語(yǔ)料庫(kù)。 其中現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)和古代漢語(yǔ)語(yǔ)料庫(kù)主要是面向漢語(yǔ)研究和教學(xué)使用的大規(guī)模語(yǔ)料庫(kù)及其在線檢索系統(tǒng)。目前該語(yǔ)料庫(kù)收集了大約4.77億字語(yǔ)料,現(xiàn)代漢語(yǔ)和古代漢語(yǔ)大體上各占一半?,F(xiàn)代漢語(yǔ)語(yǔ)料庫(kù),主要收錄1696部作品,9711字的查詢。古代漢語(yǔ)語(yǔ)料庫(kù),涉及從周代到民國(guó)時(shí)期,22580字的查詢。語(yǔ)料未經(jīng)分詞處理。該語(yǔ)料庫(kù)的檢索系統(tǒng)可以提供比擬方便的例句查詢功能,主要特色包括:A可以查詢不連續(xù)的詞語(yǔ),可以指定

5、詞語(yǔ)之間的距離;B可以查詢標(biāo)點(diǎn)符號(hào);C可以查詢漢語(yǔ)特有的重疊模式;D支持對(duì)標(biāo)點(diǎn)符號(hào)的查詢等等。 漢英雙語(yǔ)語(yǔ)料庫(kù)目前規(guī)模已經(jīng)超過(guò)100萬(wàn)句對(duì)。漢英雙語(yǔ)語(yǔ)料庫(kù)對(duì)于漢英語(yǔ)言比照研究有直接的幫助。該語(yǔ)料庫(kù)還可以用于漢英機(jī)器翻譯。目前北京大學(xué)在該語(yǔ)料庫(kù)的根底上開發(fā)一個(gè)雙語(yǔ)詞典編纂平臺(tái)。這個(gè)平臺(tái)集成例句查找功能,詞語(yǔ)搭配分析功能,多詞翻譯等價(jià)單位的自動(dòng)識(shí)別功能,等等。該語(yǔ)料庫(kù)只對(duì)北大校內(nèi)用戶開放。 2.2 人民日?qǐng)?bào)切分和標(biāo)注語(yǔ)料庫(kù) 北大計(jì)算語(yǔ)言所對(duì)1998年和2000年兩個(gè)全年的人民日?qǐng)?bào)語(yǔ)料進(jìn)行了切分和詞性標(biāo)注的加工。該語(yǔ)料庫(kù)可以用來(lái)訓(xùn)練統(tǒng)計(jì)模型幫助計(jì)算機(jī)自動(dòng)分詞和詞性標(biāo)注處理。對(duì)于制訂漢語(yǔ)高頻詞表,定量

6、研究詞語(yǔ)的語(yǔ)法功能,有直接的支持作用。 2.3 現(xiàn)代漢語(yǔ)樹庫(kù) 樹庫(kù)是對(duì)句子結(jié)構(gòu)進(jìn)行分析和標(biāo)注的深加工語(yǔ)料庫(kù)。北京大學(xué)中文系自2003年開始逐步建設(shè)現(xiàn)代漢語(yǔ)句法樹庫(kù),目前已經(jīng)到達(dá)百萬(wàn)漢字級(jí)的規(guī)模,同時(shí)也形成了一系列的相關(guān)工具軟件,包括分詞和詞性標(biāo)注、自動(dòng)句法分析、輔助校對(duì)工具、樹庫(kù)查詢與知識(shí)抽取工具等等。此外還開發(fā)了一個(gè)基于Web的樹庫(kù)查詢系統(tǒng)。建成的樹庫(kù)一方面可以用來(lái)訓(xùn)練統(tǒng)計(jì)參數(shù),幫助計(jì)算機(jī)進(jìn)行自動(dòng)句法分析,另一方面也可以用于漢語(yǔ)研究和教學(xué),既可以方便地查找例子,也可以做定量分析。 3 國(guó)內(nèi)語(yǔ)料庫(kù)建設(shè)現(xiàn)狀及開展方向 3.1 語(yǔ)料庫(kù)建設(shè)現(xiàn)狀 3.1.1 研究漢語(yǔ)的語(yǔ)料庫(kù)比例小 由于受國(guó)外語(yǔ)料庫(kù)語(yǔ)

7、言學(xué)研究和開展的影響,加上近年來(lái)我國(guó)對(duì)英語(yǔ)教學(xué)的重視程度越來(lái)越高,多數(shù)國(guó)內(nèi)語(yǔ)料庫(kù)的建設(shè)仍以英語(yǔ)為主。參考查找到的國(guó)內(nèi)建設(shè)的語(yǔ)料庫(kù),其中有大局部是與英語(yǔ)相關(guān)的,只有少數(shù)語(yǔ)料庫(kù)是完全用來(lái)研究漢語(yǔ)的。 3.1.2 語(yǔ)料庫(kù)建設(shè)小型化專業(yè)化 隨著計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)快速的開展,越來(lái)越多的語(yǔ)言學(xué)者躋身于語(yǔ)料庫(kù)建設(shè)中,因其研究方向各異,相比大型綜合型的語(yǔ)料庫(kù),小型的、專業(yè)化的語(yǔ)料庫(kù)的建設(shè)更受青睞。 3.1.3 生語(yǔ)料庫(kù)居多 因?yàn)槿鄙俳?biāo)準(zhǔn)和統(tǒng)一管理,現(xiàn)在國(guó)內(nèi)的語(yǔ)料庫(kù)建設(shè)雜亂,大多是自建自用,缺乏共享,語(yǔ)料庫(kù)中的內(nèi)容得到標(biāo)注和重新加工的寥寥無(wú)幾,這使得語(yǔ)料庫(kù)的使用效率不高,同時(shí)也存在著重復(fù)性建設(shè)。 3.2 國(guó)內(nèi)

8、漢語(yǔ)語(yǔ)料庫(kù)的開展方向 開展到現(xiàn)在,語(yǔ)料庫(kù)己經(jīng)成為現(xiàn)代語(yǔ)言學(xué)研究的重要根底。語(yǔ)料庫(kù)語(yǔ)言學(xué)是指以語(yǔ)料庫(kù)為根底的語(yǔ)言學(xué)研究方法。關(guān)于語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究有很多文章和專著,而把漢語(yǔ)語(yǔ)料庫(kù)建設(shè)本身作為一個(gè)研究對(duì)象來(lái)專門進(jìn)行研究的課題卻不是很多,導(dǎo)致了漢語(yǔ)語(yǔ)料庫(kù)建設(shè)的標(biāo)準(zhǔn)性不強(qiáng)、缺少系統(tǒng)的理論指導(dǎo)、缺少評(píng)測(cè)標(biāo)準(zhǔn)等現(xiàn)象,使得當(dāng)前漢語(yǔ)語(yǔ)料庫(kù)建設(shè)的質(zhì)量良莠不齊、重復(fù)開發(fā)。語(yǔ)料庫(kù)的建設(shè)牽涉到語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、概率統(tǒng)計(jì)學(xué)、文獻(xiàn)學(xué)、版權(quán)學(xué)、管理學(xué)等多個(gè)學(xué)科,建設(shè)一個(gè)高質(zhì)量的大型語(yǔ)料庫(kù),是一個(gè)人力、物力、時(shí)間、金錢開銷都很龐大的工程。因此語(yǔ)料庫(kù)建設(shè)周期長(zhǎng),難以滿足語(yǔ)料庫(kù)語(yǔ)言學(xué)開展的需要,難以為語(yǔ)言學(xué)研究提供全面、豐富、及時(shí)、權(quán)威的語(yǔ)料素材。因此,未來(lái)進(jìn)行漢語(yǔ)語(yǔ)料庫(kù)建設(shè)理論標(biāo)準(zhǔn)性研究、制定統(tǒng)一評(píng)判標(biāo)準(zhǔn),為研究者提供功能豐富、使用方便靈活、效率高的語(yǔ)料庫(kù)分析工具,是漢語(yǔ)語(yǔ)料庫(kù)未來(lái)的開展方向。 【參考文獻(xiàn)】 【1】段海鵬.近十年語(yǔ)料庫(kù)語(yǔ)言學(xué)在中國(guó)的開展綜述J.海外英語(yǔ),2021:304-305. 【2】侯敏.計(jì)算語(yǔ)言學(xué)與漢語(yǔ)自動(dòng)分析M.北京:北京播送學(xué)院出版社,1999:155-159. 【3】穆曉麗,尹轉(zhuǎn)云.語(yǔ)料庫(kù)在語(yǔ)言研究方面的應(yīng)用綜述J.西安外國(guó)語(yǔ)學(xué)院報(bào),2001:21-26. 【4】甄鳳超,張霞

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論