


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、國(guó)內(nèi)漢語(yǔ)語(yǔ)料庫(kù)概況 國(guó)內(nèi)漢語(yǔ)語(yǔ)料庫(kù)概況 【摘 要】本文概述了語(yǔ)料庫(kù)的起源和開展的歷史,著重從中國(guó)語(yǔ)料庫(kù)的建設(shè)與開展出發(fā),列舉近二十年常用的大型語(yǔ)料庫(kù),并對(duì)中國(guó)語(yǔ)料庫(kù)語(yǔ)言學(xué)研究存在的問(wèn)題和開展趨勢(shì)等方面進(jìn)行了分析,為語(yǔ)料庫(kù)的建設(shè)和語(yǔ)言學(xué)研究提供參考建議。 【關(guān)鍵詞】漢語(yǔ);語(yǔ)料庫(kù);語(yǔ)言學(xué) 0 引言 自20世紀(jì)60年代計(jì)算機(jī)問(wèn)世,計(jì)算機(jī)技術(shù)就迅速應(yīng)用到了以語(yǔ)料庫(kù)為根底的語(yǔ)言學(xué)研究中,隨著計(jì)算機(jī)技術(shù)的迅速開展,世界各國(guó)在語(yǔ)料庫(kù)的建設(shè)上成績(jī)顯著。不同語(yǔ)言、不同類型、不同規(guī)模的語(yǔ)料庫(kù)越來(lái)越多。語(yǔ)料庫(kù)的廣度越來(lái)越大,開發(fā)加工的深也日益加深。語(yǔ)料庫(kù)在語(yǔ)言學(xué)研究和自然語(yǔ)言處理中發(fā)揮的作用越來(lái)越大。 自第一代大型
2、電子語(yǔ)料庫(kù)BROWN建立至今,語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究已經(jīng)有50多年的歷史。而國(guó)內(nèi)的語(yǔ)料庫(kù)研究也有30多年的歷史,并在上世紀(jì)90年代得到飛速開展,語(yǔ)言學(xué)與計(jì)算機(jī)技術(shù)加速融合,不同的學(xué)者和專家秉著不同的出發(fā)點(diǎn),在各種角度和各種層次上進(jìn)行了大量實(shí)證研究,這使得我國(guó)的語(yǔ)料庫(kù)語(yǔ)言學(xué)迅速開展繁榮。 1 語(yǔ)料庫(kù)和語(yǔ)料庫(kù)語(yǔ)言學(xué) 1.1 語(yǔ)料庫(kù)和語(yǔ)料庫(kù)語(yǔ)言學(xué)的定義 語(yǔ)料庫(kù) :是指按照一定的語(yǔ)言學(xué)原那么,運(yùn)用隨機(jī)抽樣方,收集自然出現(xiàn)的連續(xù)語(yǔ)言運(yùn)用文本或話語(yǔ)片段而建成的具有一定容量的大型電子文本庫(kù)。 語(yǔ)料庫(kù)語(yǔ)言學(xué):在文本語(yǔ)料的根底上進(jìn)行語(yǔ)言研究的一門學(xué)科。語(yǔ)料庫(kù)語(yǔ)言學(xué)通過(guò)語(yǔ)言現(xiàn)象出現(xiàn)的概率對(duì)語(yǔ)言材料進(jìn)行研究。這里的語(yǔ)言
3、材料是真實(shí)的、可觀存在的,因此,通過(guò)概率統(tǒng)計(jì)手段在語(yǔ)料庫(kù)語(yǔ)言學(xué)研究中得到的語(yǔ)言使用情況是真實(shí)客觀的,排除掉了語(yǔ)言學(xué)家的主觀性,研究結(jié)果更加真實(shí)可靠。 1.2 語(yǔ)料庫(kù)在語(yǔ)言學(xué)研究領(lǐng)域的應(yīng)用 語(yǔ)料庫(kù)應(yīng)用對(duì)語(yǔ)言學(xué)研究的主要改良有: 保證了語(yǔ)料的客觀真實(shí)性,排除了語(yǔ)言學(xué)家的主觀性;借助計(jì)算機(jī)的儲(chǔ)存能力,提高了研究的廣度和深度;提高了工作效率,減少了人工誤差;使語(yǔ)料資源具有共享性。 語(yǔ)料庫(kù)在語(yǔ)言學(xué)研究中主要的應(yīng)用領(lǐng)域有: 詞典編纂;語(yǔ)言統(tǒng)計(jì);語(yǔ)言監(jiān)控,包括新詞、新用法的發(fā)現(xiàn);語(yǔ)言教學(xué);語(yǔ)言信息處理;語(yǔ)法、語(yǔ)義、詞匯、語(yǔ)音等各種語(yǔ)言問(wèn)題的研究;方言研究等等。 2 漢語(yǔ)語(yǔ)料庫(kù) 我國(guó)漢語(yǔ)語(yǔ)料庫(kù)的建設(shè)開始于20
4、世紀(jì)80年代,取得了不少成果。這里簡(jiǎn)單介紹北京大學(xué)建設(shè)的三個(gè)語(yǔ)料庫(kù)極其特點(diǎn)。 2.1 北京大學(xué)中國(guó)語(yǔ)言學(xué)研究中心ccl語(yǔ)料庫(kù) 該語(yǔ)料庫(kù)包含三個(gè)子語(yǔ)料庫(kù):現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)、古代漢語(yǔ)語(yǔ)料庫(kù)和漢英雙語(yǔ)語(yǔ)料庫(kù)。 其中現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)和古代漢語(yǔ)語(yǔ)料庫(kù)主要是面向漢語(yǔ)研究和教學(xué)使用的大規(guī)模語(yǔ)料庫(kù)及其在線檢索系統(tǒng)。目前該語(yǔ)料庫(kù)收集了大約4.77億字語(yǔ)料,現(xiàn)代漢語(yǔ)和古代漢語(yǔ)大體上各占一半?,F(xiàn)代漢語(yǔ)語(yǔ)料庫(kù),主要收錄1696部作品,9711字的查詢。古代漢語(yǔ)語(yǔ)料庫(kù),涉及從周代到民國(guó)時(shí)期,22580字的查詢。語(yǔ)料未經(jīng)分詞處理。該語(yǔ)料庫(kù)的檢索系統(tǒng)可以提供比擬方便的例句查詢功能,主要特色包括:A可以查詢不連續(xù)的詞語(yǔ),可以指定
5、詞語(yǔ)之間的距離;B可以查詢標(biāo)點(diǎn)符號(hào);C可以查詢漢語(yǔ)特有的重疊模式;D支持對(duì)標(biāo)點(diǎn)符號(hào)的查詢等等。 漢英雙語(yǔ)語(yǔ)料庫(kù)目前規(guī)模已經(jīng)超過(guò)100萬(wàn)句對(duì)。漢英雙語(yǔ)語(yǔ)料庫(kù)對(duì)于漢英語(yǔ)言比照研究有直接的幫助。該語(yǔ)料庫(kù)還可以用于漢英機(jī)器翻譯。目前北京大學(xué)在該語(yǔ)料庫(kù)的根底上開發(fā)一個(gè)雙語(yǔ)詞典編纂平臺(tái)。這個(gè)平臺(tái)集成例句查找功能,詞語(yǔ)搭配分析功能,多詞翻譯等價(jià)單位的自動(dòng)識(shí)別功能,等等。該語(yǔ)料庫(kù)只對(duì)北大校內(nèi)用戶開放。 2.2 人民日?qǐng)?bào)切分和標(biāo)注語(yǔ)料庫(kù) 北大計(jì)算語(yǔ)言所對(duì)1998年和2000年兩個(gè)全年的人民日?qǐng)?bào)語(yǔ)料進(jìn)行了切分和詞性標(biāo)注的加工。該語(yǔ)料庫(kù)可以用來(lái)訓(xùn)練統(tǒng)計(jì)模型幫助計(jì)算機(jī)自動(dòng)分詞和詞性標(biāo)注處理。對(duì)于制訂漢語(yǔ)高頻詞表,定量
6、研究詞語(yǔ)的語(yǔ)法功能,有直接的支持作用。 2.3 現(xiàn)代漢語(yǔ)樹庫(kù) 樹庫(kù)是對(duì)句子結(jié)構(gòu)進(jìn)行分析和標(biāo)注的深加工語(yǔ)料庫(kù)。北京大學(xué)中文系自2003年開始逐步建設(shè)現(xiàn)代漢語(yǔ)句法樹庫(kù),目前已經(jīng)到達(dá)百萬(wàn)漢字級(jí)的規(guī)模,同時(shí)也形成了一系列的相關(guān)工具軟件,包括分詞和詞性標(biāo)注、自動(dòng)句法分析、輔助校對(duì)工具、樹庫(kù)查詢與知識(shí)抽取工具等等。此外還開發(fā)了一個(gè)基于Web的樹庫(kù)查詢系統(tǒng)。建成的樹庫(kù)一方面可以用來(lái)訓(xùn)練統(tǒng)計(jì)參數(shù),幫助計(jì)算機(jī)進(jìn)行自動(dòng)句法分析,另一方面也可以用于漢語(yǔ)研究和教學(xué),既可以方便地查找例子,也可以做定量分析。 3 國(guó)內(nèi)語(yǔ)料庫(kù)建設(shè)現(xiàn)狀及開展方向 3.1 語(yǔ)料庫(kù)建設(shè)現(xiàn)狀 3.1.1 研究漢語(yǔ)的語(yǔ)料庫(kù)比例小 由于受國(guó)外語(yǔ)料庫(kù)語(yǔ)
7、言學(xué)研究和開展的影響,加上近年來(lái)我國(guó)對(duì)英語(yǔ)教學(xué)的重視程度越來(lái)越高,多數(shù)國(guó)內(nèi)語(yǔ)料庫(kù)的建設(shè)仍以英語(yǔ)為主。參考查找到的國(guó)內(nèi)建設(shè)的語(yǔ)料庫(kù),其中有大局部是與英語(yǔ)相關(guān)的,只有少數(shù)語(yǔ)料庫(kù)是完全用來(lái)研究漢語(yǔ)的。 3.1.2 語(yǔ)料庫(kù)建設(shè)小型化專業(yè)化 隨著計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)快速的開展,越來(lái)越多的語(yǔ)言學(xué)者躋身于語(yǔ)料庫(kù)建設(shè)中,因其研究方向各異,相比大型綜合型的語(yǔ)料庫(kù),小型的、專業(yè)化的語(yǔ)料庫(kù)的建設(shè)更受青睞。 3.1.3 生語(yǔ)料庫(kù)居多 因?yàn)槿鄙俳?biāo)準(zhǔn)和統(tǒng)一管理,現(xiàn)在國(guó)內(nèi)的語(yǔ)料庫(kù)建設(shè)雜亂,大多是自建自用,缺乏共享,語(yǔ)料庫(kù)中的內(nèi)容得到標(biāo)注和重新加工的寥寥無(wú)幾,這使得語(yǔ)料庫(kù)的使用效率不高,同時(shí)也存在著重復(fù)性建設(shè)。 3.2 國(guó)內(nèi)
8、漢語(yǔ)語(yǔ)料庫(kù)的開展方向 開展到現(xiàn)在,語(yǔ)料庫(kù)己經(jīng)成為現(xiàn)代語(yǔ)言學(xué)研究的重要根底。語(yǔ)料庫(kù)語(yǔ)言學(xué)是指以語(yǔ)料庫(kù)為根底的語(yǔ)言學(xué)研究方法。關(guān)于語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究有很多文章和專著,而把漢語(yǔ)語(yǔ)料庫(kù)建設(shè)本身作為一個(gè)研究對(duì)象來(lái)專門進(jìn)行研究的課題卻不是很多,導(dǎo)致了漢語(yǔ)語(yǔ)料庫(kù)建設(shè)的標(biāo)準(zhǔn)性不強(qiáng)、缺少系統(tǒng)的理論指導(dǎo)、缺少評(píng)測(cè)標(biāo)準(zhǔn)等現(xiàn)象,使得當(dāng)前漢語(yǔ)語(yǔ)料庫(kù)建設(shè)的質(zhì)量良莠不齊、重復(fù)開發(fā)。語(yǔ)料庫(kù)的建設(shè)牽涉到語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、概率統(tǒng)計(jì)學(xué)、文獻(xiàn)學(xué)、版權(quán)學(xué)、管理學(xué)等多個(gè)學(xué)科,建設(shè)一個(gè)高質(zhì)量的大型語(yǔ)料庫(kù),是一個(gè)人力、物力、時(shí)間、金錢開銷都很龐大的工程。因此語(yǔ)料庫(kù)建設(shè)周期長(zhǎng),難以滿足語(yǔ)料庫(kù)語(yǔ)言學(xué)開展的需要,難以為語(yǔ)言學(xué)研究提供全面、豐富、及時(shí)、權(quán)威的語(yǔ)料素材。因此,未來(lái)進(jìn)行漢語(yǔ)語(yǔ)料庫(kù)建設(shè)理論標(biāo)準(zhǔn)性研究、制定統(tǒng)一評(píng)判標(biāo)準(zhǔn),為研究者提供功能豐富、使用方便靈活、效率高的語(yǔ)料庫(kù)分析工具,是漢語(yǔ)語(yǔ)料庫(kù)未來(lái)的開展方向。 【參考文獻(xiàn)】 【1】段海鵬.近十年語(yǔ)料庫(kù)語(yǔ)言學(xué)在中國(guó)的開展綜述J.海外英語(yǔ),2021:304-305. 【2】侯敏.計(jì)算語(yǔ)言學(xué)與漢語(yǔ)自動(dòng)分析M.北京:北京播送學(xué)院出版社,1999:155-159. 【3】穆曉麗,尹轉(zhuǎn)云.語(yǔ)料庫(kù)在語(yǔ)言研究方面的應(yīng)用綜述J.西安外國(guó)語(yǔ)學(xué)院報(bào),2001:21-26. 【4】甄鳳超,張霞
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 會(huì)計(jì)師事務(wù)所的職業(yè)發(fā)展規(guī)劃計(jì)劃
- 急診場(chǎng)所環(huán)境改善計(jì)劃
- 行政管理師職業(yè)能力驗(yàn)證試題及答案
- 微生物檢驗(yàn)的學(xué)科交叉研究試題及答案
- 規(guī)章管理制度(32篇)
- 規(guī)培考試外科題庫(kù)-心胸外科高級(jí)1
- 微生物檢驗(yàn)技術(shù)考點(diǎn)歸納與試題及答案
- 2025注冊(cè)會(huì)計(jì)師課本使用指南試題及答案
- 2025年注會(huì)考試的技能要求解讀與試題及答案
- 微生物檢驗(yàn)的先進(jìn)理念與方法及試題及答案
- 2025年北京京能清潔能源電力股份有限公司招聘筆試參考題庫(kù)含答案解析
- 畢馬威-海南自貿(mào)港旅游零售白皮書2025版:韌性前行潛力無(wú)限
- 2025年上海市閔行區(qū)高三語(yǔ)文二模試卷及答案解析
- 2025年教師資格師德師風(fēng)建設(shè)試題及答案
- 期中測(cè)試卷(1-5單元)(試題)(含答案)-2024-2025學(xué)年二年級(jí)下冊(cè)數(shù)學(xué)青島版
- 2025屆北京市順義區(qū)高三下學(xué)期一模英語(yǔ)試題(原卷版+解析版)
- 2025年形勢(shì)與政策-加快建設(shè)社會(huì)主義文化強(qiáng)國(guó)+第二講中國(guó)經(jīng)濟(jì)行穩(wěn)致遠(yuǎn)
- 激光雷達(dá)筆試試題及答案
- 2025屆高三湖北省十一校第二次聯(lián)考英語(yǔ)試卷(含答案詳解)
- 信息技術(shù)與小學(xué)教育教學(xué)融合
- 產(chǎn)品設(shè)計(jì)研發(fā)費(fèi)用統(tǒng)計(jì)表
評(píng)論
0/150
提交評(píng)論