語料庫:俄語語言學(xué)理論和實(shí)踐的新課題_第1頁
語料庫:俄語語言學(xué)理論和實(shí)踐的新課題_第2頁
語料庫:俄語語言學(xué)理論和實(shí)踐的新課題_第3頁
語料庫:俄語語言學(xué)理論和實(shí)踐的新課題_第4頁
語料庫:俄語語言學(xué)理論和實(shí)踐的新課題_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、語料庫:俄語語言學(xué)理論和實(shí)踐的新課題提 要:語料庫語言學(xué)是隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)發(fā)展應(yīng)運(yùn)而生的新的語言學(xué)研究方向或研究手段。世界上英語語料庫的發(fā)展處于領(lǐng)先水平,但俄語語料庫也有了長足的進(jìn)步。俄語單語、俄漢雙語、中國俄語學(xué)習(xí)者的俄語語料庫對于中國俄語教學(xué)、俄語語言學(xué)研究、俄語教材編撰、俄漢互譯、俄語水平測試都有重大意義,是當(dāng)代俄語語言學(xué)理論與實(shí)踐的新的重大課題。關(guān)鍵詞:語料庫;語料庫語言學(xué);俄語理論研究與實(shí)踐1語料庫簡介11基本概念歸納和演繹是語言學(xué)家經(jīng)常使用的兩種基本研究方法。采用歸納法進(jìn)行語言學(xué)研究時(shí),語言學(xué)家事先沒有確定的理論或者假定,他們從言語交際的實(shí)踐中搜集有聲或文字語料,加以整理、歸納

2、,然后總結(jié)出一般的語言范式或者規(guī)律。演繹法則不同,語言學(xué)家心里有了一定的理論或者假定,然后去尋找語言事實(shí),來證實(shí)或推翻原有的理論或者假定。定量和定性分析也是語言學(xué)研究的主要方法。定性分析要求對觀察、搜集到的語料進(jìn)行綜合、歸納,提出一種描述的結(jié)論,發(fā)現(xiàn)規(guī)律或范式。定性分析的好處是觀察、收集的資料很豐富、客觀,描寫深入、細(xì)致。定量分析主要有兩種方法:統(tǒng)計(jì)法和實(shí)驗(yàn)法。通過統(tǒng)計(jì)或者實(shí)驗(yàn),很容易驗(yàn)證一些語言學(xué)和教學(xué)理論的可信程度。定量分析的結(jié)論可信度高,具有普遍性。然而,無論采用什么方法,語言事實(shí)、現(xiàn)象是語言學(xué)理論的根本,離開了語料,語言學(xué)研究就是無源之水,無本之木。計(jì)算機(jī)是二十世紀(jì)人類最偉大的發(fā)明之一

3、,以計(jì)算機(jī)和網(wǎng)絡(luò)為主的信息技術(shù)的發(fā)展向各個(gè)學(xué)科(包括語言學(xué))提出了新的研究課題,也為各個(gè)學(xué)科的發(fā)展提供了新的手段和方法。語料庫語言學(xué)( )便是隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)發(fā)展而應(yīng)運(yùn)而生的新的語言學(xué)研究方向。語料庫語言學(xué)代表的是一種傳統(tǒng)的結(jié)構(gòu)主義描寫語言學(xué)方法,利用語料庫可以對語言進(jìn)行定量和定性描寫。同時(shí),語料庫的語料也可以幫助驗(yàn)證語言學(xué)家通過演繹法提出的假定。語料庫,顧名思義,就是存放語言材料的倉庫。目前,人們通常用語料庫指存放在計(jì)算機(jī)里的未添加標(biāo)記的原始文本或者經(jīng)過加工添加了語言學(xué)信息標(biāo)記的文本。現(xiàn)代語料庫通常有下面四個(gè)特性:1) 取樣和代表性;2) 有限的規(guī)模(選擇性的條件);3) 機(jī)器可讀性;4

4、) 標(biāo)準(zhǔn)化的參考資料。語料庫語言學(xué)有兩層意思,一是利用語料庫對語言的某個(gè)方面進(jìn)行研究,這樣,所謂“語料庫語言學(xué)”實(shí)際上只是一種研究方法和角度;另一層意思是依據(jù)語料庫所反映的語言事實(shí)進(jìn)行語言學(xué)理論研究,只有在這個(gè)意義上“語料庫語言學(xué)”才能成為一門學(xué)科。12語料庫的種類語料庫可以根據(jù)不同的標(biāo)準(zhǔn)進(jìn)行分類:按照媒體不同分為印刷文本、電子文本、數(shù)字化言語、視頻、混合型;按照建立方法不同分為平衡型、金字塔型、隨機(jī)型;按照語言參數(shù)分為:單語和多語;原語和譯語(匹配的和未匹配的);母語和學(xué)習(xí)者所掌握的外語;按照語言狀態(tài)可以分為共時(shí)的和歷時(shí)的;按照文本存放格式分為純文本的和附碼的。純文本的語料庫沒有各種格式和語

5、言特征標(biāo)記(如字體、字形、字號、段落、分頁符等),附碼的文本主要帶有各種語言學(xué)信息(語體、詞類、句法結(jié)構(gòu)、作者)。純文本語料庫具有廣泛的適應(yīng)性,而附碼后的文本能夠更好地滿足語言研究的需要。john sinclair還提出了樣本語料庫和監(jiān)控語料庫的區(qū)分。樣本語料庫收集的語料是不變的,而監(jiān)控語料庫的內(nèi)容則處于不斷發(fā)展之中。建立什么樣的語料庫取決于許多因素,比如建庫目的、最終用戶類型、資金和技術(shù)、研究水平,等等。13語料庫采用電子形式的好處采用電子形式的文本有很多優(yōu)點(diǎn):容易訪問,便于攜帶;與用眼睛閱讀相比,計(jì)算機(jī)處理電子文本的速度快得多;計(jì)算機(jī)處理電子文本的準(zhǔn)確性一般要高得多;可以很容易地為電子文本

6、增添其它信息;滿足社會(huì)發(fā)展的新需要(如建立電子詞典、提供網(wǎng)絡(luò)服務(wù)等)。盡管任何形式的文本材料的匯集都可以稱為語料庫,但是,在今天這個(gè)發(fā)展水平上,語料庫一般都是電子形式的。2 語料庫的發(fā)展情況21英語語料庫的發(fā)展情況計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)是英美各國的強(qiáng)項(xiàng),英語又是國際通用語言,所以英語語料庫的規(guī)模最大,理論和技術(shù)也最成熟,并且已經(jīng)得到了實(shí)際應(yīng)用。目前,國際上將英語語料庫分為兩代:第一代英語語料庫有:211布朗語料庫(the brown corpus)布朗語料庫(brown university standard corpus of present-day american english)于1961年

7、在美國建成。這是第一個(gè)機(jī)器可讀的語料庫。1957年喬姆斯基的句法結(jié)構(gòu)發(fā)表,當(dāng)時(shí)很多的學(xué)者認(rèn)為,語言學(xué)理論應(yīng)該研究人類的語言能力(linguistic competence),而不是記錄和研究交際者的語言行為,即語言表現(xiàn)(linguistic performance)。語料庫語言學(xué)的哲學(xué)理論基礎(chǔ)顯然與轉(zhuǎn)換生成語法所代表的哲學(xué)思想相背,在這一背景下,布朗語料庫的建立具有特殊的意義。現(xiàn)在我們知道,語言可以從多個(gè)角度進(jìn)行研究,不同的研究角度可以相互補(bǔ)充,服務(wù)不同的目的,滿足不同的需要。布郎語料庫收集了500個(gè)連貫英語書面語文本,每個(gè)文本含2000詞,整個(gè)語料庫含有約1014,300詞。212蘭開斯特

8、奧斯陸/卑爾根語料庫(lob)1968年到1974年英國蘭開斯特大學(xué)、挪威奧斯陸大學(xué)與挪威卑爾根人文科學(xué)計(jì)算中心合作建立了蘭開斯特 奧斯陸/卑爾根語料庫(lancaster-oslo/bergen)。該語料庫收集了500個(gè)文本樣本,每個(gè)文本2000詞左右,成為可以與布朗語料庫相媲美的英國英語語料庫。語料庫也主要收集了書面語。在這兩個(gè)語料庫之后,世界上又建立了許多語料庫,如印度、新西蘭和澳大利亞三個(gè)英語變體語料庫、seu(survey of english usage)、sse (survey of spoken english)、llc(london-lund)。一些特殊用途英語語料庫十分令人

9、矚目,如為詞典編纂、口語研究、歷時(shí)研究、語言認(rèn)知研究、外語教學(xué)而建立的語料庫。計(jì)算機(jī)的功能越來越強(qiáng),同樣檔次計(jì)算機(jī)的價(jià)格卻變得越來越低,這使得語學(xué)家有可能建立大型語料庫,從而對語言進(jìn)行更加充分地描寫,于是第二代大型英語語料庫就出現(xiàn)了,其中主要有以下幾個(gè)。213cobuild 項(xiàng)目從1980年開始,collins出版社與伯明翰大學(xué)合作,建成了cobuild語料庫,這也是世界上第一個(gè)大型語料庫。該語料庫反映了當(dāng)代英語的現(xiàn)狀,主要的服務(wù)對象是英語學(xué)習(xí)者、教師、語言學(xué)家。該語料庫25%是口語,75%為書面語。1987年cobuild dictionary出版時(shí),cobuild語料庫的主體部分有130,

10、0000詞,另外還有保留語料庫。1990年,cobuild語料庫被擴(kuò)展為the bank of english語料庫計(jì)劃,至1997年,這個(gè)語料庫的規(guī)模達(dá)到了3億詞。語料庫語言學(xué)出現(xiàn)了超大型、與商業(yè)機(jī)構(gòu)合作、動(dòng)態(tài)性這些新特點(diǎn)。214longman語料庫網(wǎng)longman語料庫網(wǎng)由longman/lacaster英語語料庫(llelc)、longman口語語料庫(lsc)、longman學(xué)習(xí)者英語語料庫(lcle)組成,三個(gè)語料庫可以提供對英語的可靠描寫,對于編纂面向英語非母語的學(xué)生詞典非常有益。215英國國家語料庫(bnc)1991年到1995年,英國政府、科研機(jī)構(gòu)、出版商共同合作建立了英國國家

11、語料庫(bnc),收詞1億,其中有4124個(gè)語篇,90%是書面語,10%為口語。建立該語料庫的目的是為了編寫詞典、語法參考書和為自然語言處理服務(wù)。英國國家語料庫進(jìn)行了標(biāo)記(annotation),利用sgml語言(standard general markup language)建立了一種編碼系統(tǒng),符合tei(text encoding initiative)的要求,還利用lacaster大學(xué)開發(fā)的詞法標(biāo)注器(tagger)claws進(jìn)行了自動(dòng)詞法標(biāo)注。216國際英語語料庫(ice)這是世界上對進(jìn)行英語對比研究的最雄心勃勃的計(jì)劃。ice計(jì)劃要求在英國、美國、加拿大、澳大利亞、新西蘭等以英語為第

12、一語言以及印度、尼日爾、新加坡、加勒比地區(qū)等以英語為副官方語言或者第二種主要語言的國家建立了二十個(gè)子語料庫,以便研究英語在世界不同地區(qū)的變體。語料包括書面語和口語。22俄語語料庫的發(fā)展通過網(wǎng)絡(luò)調(diào)查,我們發(fā)現(xiàn)在世界各地也存在著各種俄語語料庫。雖然俄語語料庫的規(guī)模、技術(shù)水平不能與英語相比,但也足以顯示世界俄語學(xué)者對俄語語料庫的濃厚興趣,同時(shí)說明建立俄語語料庫是可行的、必要的。我們這里重點(diǎn)介紹兩個(gè)俄語語料庫的情況:221upssala-tbingen語料庫upssala是瑞典upssala大學(xué)斯拉夫研究系在lennart lnngren教授的領(lǐng)導(dǎo)下建立的。在該語料庫的基礎(chǔ)上,lennart lnng

13、ren教授編篡了一部俄語詞頻詞典。該語料庫收集了600個(gè)俄語文本,收詞規(guī)模達(dá)到了1百萬詞次,平均收集了信息類和小說類兩種文本。從時(shí)間上看,信息類文本涵蓋了1985到1889年這段時(shí)間,而小說類文本的涵蓋時(shí)間更長一些,從1960到1988年。語料庫不包括詩歌和劇本。語料庫的建立者盡力使語料庫具有代表性、多樣性。信息類文本包括了25個(gè)主題:經(jīng)濟(jì)、外事/外交政策、意識形態(tài)/國內(nèi)政策、黨務(wù)、蘇聯(lián)社會(huì)、社會(huì)問題、國防、教育、法律、歷史、文化、語言學(xué)、醫(yī)療健康、心理學(xué)、空間研究、信息技術(shù)、環(huán)境/生態(tài)、能源、生物、地質(zhì)/地理、物理、化學(xué)和體育等。小說類文本主要來自以下作家:、,等。小說類文本不是平均收錄的,

14、知名作家的文本收錄得更多一些。 經(jīng)lennart lnngren教授的許可,德國tbingen大學(xué)建立了俄語采訪文本語料庫,進(jìn)行了標(biāo)記(annotated),可以通過互聯(lián)網(wǎng)進(jìn)行查詢。采訪文本收集了通過網(wǎng)絡(luò)免費(fèi)發(fā)行的俄羅斯報(bào)刊,時(shí)間上是從1961年至今。內(nèi)容涉及政治、社會(huì)、經(jīng)濟(jì)、音樂、文學(xué)、生活和體育等。整個(gè)語料庫的規(guī)模還在不斷增加。222莫斯科大學(xué)報(bào)紙語料庫在俄羅斯政府基金支持下,莫大語義系普通和計(jì)算機(jī)詞匯學(xué)和詞匯編纂學(xué)實(shí)驗(yàn)室承擔(dān)了“二十世紀(jì)俄語報(bào)紙計(jì)算機(jī)文本語料庫( xx )”項(xiàng)目。報(bào)紙語料庫為建立大型現(xiàn)代俄語語料庫奠定了基礎(chǔ)。項(xiàng)目的第一步(2000年)是收集大量的報(bào)紙文本,客觀全面地反映俄

15、羅斯報(bào)紙的整體面貌。收集語料的原則是收集一定時(shí)間段內(nèi)各類報(bào)紙(左、中、右派;中央、地方;普通、專業(yè))的每一期報(bào)紙。語料庫的規(guī)模相當(dāng)大,總語料庫達(dá)1千萬詞次(),其中核心語料庫達(dá)1百30萬詞次,核心語料庫的報(bào)紙總數(shù)為12種,文本達(dá)3097個(gè),時(shí)間段為1997年。實(shí)驗(yàn)室還開發(fā)了-1系統(tǒng),利用該系統(tǒng)可以自動(dòng)或半自動(dòng)標(biāo)注文本的來源、大小、體裁、出版日期,詞形的語法、詞匯類型等。在語料庫的基礎(chǔ)上,實(shí)驗(yàn)室研究了報(bào)紙文本的體裁分類原則和各類體裁的特征。核心語料庫里見到的體裁和體裁變體共398個(gè),分為8類:1) 純信息類體裁;2) 純政論類體裁;3) 信息-政論類體裁;4) 文藝-政論類體裁;5) 純文藝類體

16、裁;6) 廣告類體裁;7) 公文事務(wù)類體裁8) 其它體裁。研究者還提取了8類體裁的詞頻-分布詞典,發(fā)現(xiàn)有5萬7千個(gè)不同詞位(),14萬個(gè)不同的詞形()。記錄了每個(gè)詞形的出現(xiàn)次數(shù)和出現(xiàn)該詞形的文檔。發(fā)現(xiàn)使用最多的詞是“”。通過對總語料庫進(jìn)行自動(dòng)詞素切分( ),自動(dòng)建立了總語料庫能產(chǎn)詞根頻率詞典。在總語料庫的詞匯里,7001個(gè)不同詞根在二個(gè)或兩個(gè)以上詞里出現(xiàn)(能產(chǎn)性最高的詞根在312個(gè)詞里出現(xiàn)),有2016個(gè)詞根只在一個(gè)詞里出現(xiàn)。這種不常用的詞根多數(shù)為外國人名、地名。世界俄語語料庫遠(yuǎn)不止以上兩個(gè),不少學(xué)者建立了自己的小型語料庫,開發(fā)了一些語料庫工具。除了一般的語料庫外,我們還可以找到古俄語語料庫、

17、語音-文本語料庫。3 語料庫檢索系統(tǒng)的基本功能語料庫包含了大量的文本,字?jǐn)?shù)常常超過百萬、甚至千萬。人工維護(hù)、管理語料庫所需的時(shí)間、資金是無法想象的,更不要說利用語料庫進(jìn)行語言研究,實(shí)現(xiàn)語料庫的語言學(xué)理論和應(yīng)用價(jià)值了。語料庫的魅力來自自動(dòng)檢索系統(tǒng)。借助于計(jì)算機(jī)的強(qiáng)大運(yùn)算和信息處理能力和自動(dòng)檢索系統(tǒng),語言學(xué)家可以迅速查找例證、對文本進(jìn)行分析。正是檢索系統(tǒng)的開發(fā)和完善才使得語料庫的應(yīng)用價(jià)值得以體現(xiàn)。檢索系統(tǒng)一般有下列功能:選定一個(gè)或者多個(gè)檢索文本;建立詞匯表;查找關(guān)鍵詞;排序并顯示檢索結(jié)果,等等。31建立詞匯表(wordlist)計(jì)算機(jī)通常區(qū)分、,不知道這是一個(gè)詞(word、)的不同形式,所以,建立

18、詞匯表就是讓計(jì)算機(jī)按照指定要求排列出一個(gè)或多個(gè)文本里出現(xiàn)的所有詞形(wordform、)。檢索系統(tǒng)一般會(huì)自動(dòng)統(tǒng)計(jì)每一個(gè)詞形的出現(xiàn)次數(shù)(occurrence),計(jì)算詞形的出現(xiàn)頻率。排序的規(guī)則非常重要,可以指定系統(tǒng)按照出現(xiàn)頻率(frequency)、詞形的字母順序(alphabetical order)、詞形出現(xiàn)的先后順序(first occurrence)等規(guī)則從大到小或者從小到大排序。對于教師和語言研究工作者來說,詞匯表有重要的理論和應(yīng)用價(jià)值。比如說,我們將普希金的作品全部輸入電腦,然后就可以讓檢索系統(tǒng)自動(dòng)生成普希金語匯詞典,還可以研究普希金最常用的詞、成語、風(fēng)格。如果將一個(gè)文本的詞匯表與各年

19、級教學(xué)大綱規(guī)定的詞匯、詞法、句法要求進(jìn)行比較,就能確定文本的教學(xué)難度、重點(diǎn)、適用性、重點(diǎn)詞匯的重復(fù)頻率等信息,從而提高教材的質(zhì)量,使教學(xué)更有針對性。32索引(index)索引與詞匯表比較相近,只是還列出了短文里各個(gè)詞形出現(xiàn)的位置信息,選擇索引號,單擊一個(gè)鼠標(biāo),便可以將光標(biāo)定位到詞形出現(xiàn)的位置。索引可以幫助語言學(xué)家方便地定位到詞語出現(xiàn)的上下文,對于研究每個(gè)詞形的用法非常有用。33關(guān)鍵詞及其語境(kwic)kwic(key word in context, )就是查找關(guān)鍵詞并同時(shí)顯示關(guān)鍵詞所在的上下文,這是語料庫檢索系統(tǒng)的另一個(gè)重要的功能。檢索過程中,我們不僅可以同時(shí)查找一個(gè)關(guān)鍵詞或者多個(gè)關(guān)鍵詞,

20、還可以使用通配符*號和?號分別代表任意個(gè)未知字符串進(jìn)行模糊匹配(例如鍵入*可以查找、,等等),同時(shí)也能查找語法范型(language pattern)。查找的結(jié)果可以按照一定的要求顯示,比如規(guī)定顯示關(guān)鍵詞左面幾個(gè)詞形、右面幾個(gè)詞形,或者顯示關(guān)鍵詞所在的整個(gè)句子。如果隱去某個(gè)句子里的關(guān)鍵詞,該句子就成為供學(xué)生訓(xùn)練用的填空練習(xí)。通過對顯示結(jié)果進(jìn)行形式、語義、語用分析,語言學(xué)家就可以客觀、準(zhǔn)確地對詞、成語、短語進(jìn)行描寫,分析同義詞、反義詞的用法,為教材編寫、詞典編纂提供素材,從而改變傳統(tǒng)的閱讀資料、手工填寫卡片的研究模式。以上功能只是語料庫檢索系統(tǒng)的一般功能,而處理的文本是文本文件,沒有加注語言學(xué)信

21、息。如果我們利用自動(dòng)詞法標(biāo)記器(tagger)和句法剖析器(parser)為語料庫添加一定詞法和句法信息,那么利用語料庫研究語言的成果會(huì)更顯著。4結(jié)論語料庫就像是一定時(shí)間、領(lǐng)域里語言使用情況的照片,包含了語言或者語言變體的詞匯、語法結(jié)構(gòu)、語義和語用信息,是語料的重要來源。進(jìn)行以語料庫為基礎(chǔ)的語言研究要充分地利用語料庫檢索系統(tǒng)。通過檢索工具,語言學(xué)家就可以處理大量文本。純文本文件具有較強(qiáng)的適應(yīng)性,可以滿足不同的研究目的,用于不同的領(lǐng)域和目的。當(dāng)然,為了更深入地研究語言,我們可以為文本語料添加各種語言信息的標(biāo)注,檢索軟件就能發(fā)揮更大的作用。語料庫主要用于語言描寫,為詞典編纂、教材編寫、語言教學(xué)提供實(shí)際語例,理論上則可以幫助語言學(xué)家揭示語言的詞匯、語法、語義和語用規(guī)律。從哲學(xué)上看,語料庫的認(rèn)識論、方法論似乎與生成語法所代表的理性主義格格不入,但是,殊途

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論