計(jì)算機(jī)數(shù)據(jù)庫(kù)技術(shù)在語(yǔ)言學(xué)研究中的利用,普通語(yǔ)言學(xué)論文_第1頁(yè)
計(jì)算機(jī)數(shù)據(jù)庫(kù)技術(shù)在語(yǔ)言學(xué)研究中的利用,普通語(yǔ)言學(xué)論文_第2頁(yè)
計(jì)算機(jī)數(shù)據(jù)庫(kù)技術(shù)在語(yǔ)言學(xué)研究中的利用,普通語(yǔ)言學(xué)論文_第3頁(yè)
計(jì)算機(jī)數(shù)據(jù)庫(kù)技術(shù)在語(yǔ)言學(xué)研究中的利用,普通語(yǔ)言學(xué)論文_第4頁(yè)
計(jì)算機(jī)數(shù)據(jù)庫(kù)技術(shù)在語(yǔ)言學(xué)研究中的利用,普通語(yǔ)言學(xué)論文_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

計(jì)算機(jī)數(shù)據(jù)庫(kù)技術(shù)在語(yǔ)言學(xué)研究中的利用,普通語(yǔ)言學(xué)論文語(yǔ)言學(xué)是一門既古老又年輕的學(xué)科,語(yǔ)言學(xué)的研究不只是理論和分析方式方法的創(chuàng)新。當(dāng)代科學(xué)表示清楚,研究方式方法和操作手段的更新往往成為理論發(fā)展的契機(jī)。語(yǔ)言學(xué)的研究需要收集、加工、處理語(yǔ)料,并強(qiáng)調(diào)語(yǔ)料的真實(shí)性和客觀性。語(yǔ)言學(xué)研究的學(xué)者都能感遭到語(yǔ)料處理方式和手段的重要性。語(yǔ)言學(xué)研究者面對(duì)大規(guī)模的文本語(yǔ)料,要從這些語(yǔ)料中開掘新的語(yǔ)言規(guī)則或需要的信息,首要任務(wù)就是對(duì)大規(guī)模真實(shí)的文本語(yǔ)料進(jìn)行加工、挑選。采用手工的處理方式方法對(duì)海量語(yǔ)料數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分類、分析等操作,工作效率會(huì)非常低,而且勞動(dòng)強(qiáng)度非常大。這也促使處理語(yǔ)言材料的工作方式方法和操作手段發(fā)生變化。數(shù)據(jù)庫(kù)技術(shù)是一門數(shù)據(jù)管理自動(dòng)化的綜合性技術(shù),數(shù)據(jù)庫(kù)是組織、存儲(chǔ)和管理數(shù)據(jù)的倉(cāng)庫(kù)。隨著計(jì)算機(jī)技術(shù)的廣泛應(yīng)用和網(wǎng)絡(luò)的普及,數(shù)據(jù)庫(kù)在生產(chǎn)、生活、科技領(lǐng)域得到了廣泛地應(yīng)用和推廣,在語(yǔ)言學(xué)研究中也表現(xiàn)出了強(qiáng)大的優(yōu)勢(shì),已成為語(yǔ)言學(xué)家的重要工具。二、數(shù)據(jù)庫(kù)與語(yǔ)言學(xué)數(shù)據(jù)庫(kù),顧名思義,就是存放數(shù)據(jù)的倉(cāng)庫(kù)。只不過(guò)這個(gè)倉(cāng)庫(kù)是在計(jì)算機(jī)存儲(chǔ)設(shè)備上按一定的格式存放的,具有強(qiáng)大的數(shù)據(jù)組織、數(shù)據(jù)處理和數(shù)據(jù)管理能力。語(yǔ)言學(xué)研究的語(yǔ)料具有規(guī)模大、類型多、異構(gòu)性、零散性等特點(diǎn),使用數(shù)據(jù)庫(kù)管理能夠提高語(yǔ)言學(xué)研究者的工作效率。要想高效地使用數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)、管理各種語(yǔ)言材料,語(yǔ)料庫(kù)設(shè)計(jì)的首要任務(wù)就是對(duì)語(yǔ)言材料數(shù)據(jù)進(jìn)行合理地定義,建立便于對(duì)數(shù)據(jù)進(jìn)行加工、處理的語(yǔ)言材料數(shù)據(jù)庫(kù)。數(shù)據(jù)在數(shù)據(jù)庫(kù)中的定義包括定義數(shù)據(jù)存儲(chǔ)的格式、數(shù)據(jù)的存儲(chǔ)類型和數(shù)據(jù)之間關(guān)聯(lián)關(guān)系。數(shù)據(jù)的定義是數(shù)據(jù)庫(kù)使用的關(guān)鍵,好的定義能夠方便用戶對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、檢索和處理。數(shù)據(jù)庫(kù)管理系統(tǒng)具有強(qiáng)大的數(shù)據(jù)定義功能,為語(yǔ)言學(xué)研究者提供使用數(shù)據(jù)庫(kù)的可能。數(shù)據(jù)庫(kù)在語(yǔ)言學(xué)中的應(yīng)用主要具體表現(xiàn)出在對(duì)語(yǔ)言材料的加工和處理方面。數(shù)據(jù)庫(kù)強(qiáng)大的數(shù)據(jù)定義功能為語(yǔ)言材料的存儲(chǔ)提供了可能,更重要的是語(yǔ)言學(xué)研究者能夠通過(guò)定義的語(yǔ)言材料對(duì)海量的語(yǔ)料進(jìn)行加工和處理。數(shù)據(jù)庫(kù)有強(qiáng)大的數(shù)據(jù)處理功能,語(yǔ)言學(xué)研究者能夠通太多種操作方式方法獲取語(yǔ)言材料信息,如挑選語(yǔ)料、語(yǔ)料排序、語(yǔ)料分類、語(yǔ)料統(tǒng)計(jì)和語(yǔ)料的更新等。譬如,何樂(lè)士的(左傳虛詞研究〕中的文章大都寫于二十世紀(jì)六十年代,當(dāng)時(shí)主要靠手抄卡片積累資料、分析統(tǒng)計(jì),這些工作何先生需要花費(fèi)大量的時(shí)間和精神,幾天甚至十幾天才能獲得結(jié)果,而如今研究者大都使用數(shù)據(jù)庫(kù)或語(yǔ)料庫(kù),輸入檢索內(nèi)容霎時(shí)就能準(zhǔn)確無(wú)誤地得到結(jié)果。這也是數(shù)據(jù)庫(kù)的最大受益之處,省時(shí)省力。當(dāng)前,隨著計(jì)算機(jī)網(wǎng)絡(luò)的普及和各種語(yǔ)言材料數(shù)據(jù)庫(kù)的建設(shè),使語(yǔ)言學(xué)研究者最大限度地占有語(yǔ)言資料成為了可能,充分具體表現(xiàn)出了數(shù)據(jù)庫(kù)的資源分享性。語(yǔ)言學(xué)研究也有不同的研究目的和語(yǔ)料需求,要想使數(shù)據(jù)庫(kù)能夠知足不同的主題需求,需要建立愈加廣泛的數(shù)據(jù)資源庫(kù)。當(dāng)然,語(yǔ)言材料的來(lái)源不同,類型不同,要讓這些異構(gòu)異質(zhì)資源進(jìn)行合理定義集成。語(yǔ)言學(xué)的研究需要現(xiàn)有的語(yǔ)言學(xué)研究成果,語(yǔ)言材料的數(shù)據(jù)庫(kù)能夠保證語(yǔ)言材料的可靠性,同時(shí)可以以知足語(yǔ)言學(xué)不斷發(fā)展更新的需要,這也是數(shù)據(jù)庫(kù)本身的特征。隨著計(jì)算機(jī)的發(fā)展,數(shù)據(jù)庫(kù)在語(yǔ)言學(xué)中得到了廣泛的應(yīng)用,已成為語(yǔ)言學(xué)家的重要工具。利用數(shù)據(jù)庫(kù)技術(shù)使其具有構(gòu)造化、關(guān)系化、集成、穩(wěn)定等特點(diǎn),建立語(yǔ)言材料的數(shù)據(jù)倉(cāng)庫(kù)語(yǔ)料庫(kù)。語(yǔ)料庫(kù)〔Corpus〕就是存放原始語(yǔ)言材料的數(shù)據(jù)倉(cāng)庫(kù),就是一個(gè)由大量在真實(shí)情況下使用的語(yǔ)言信息經(jīng)過(guò)科學(xué)的收集和組織而集成的專供研究使用的資料庫(kù)。近年來(lái)計(jì)算機(jī)技術(shù)的發(fā)展,相關(guān)研究者和組織建立了廣泛的語(yǔ)料庫(kù)。三、語(yǔ)料庫(kù)語(yǔ)言學(xué)語(yǔ)料庫(kù)的設(shè)計(jì)需要大量真實(shí)語(yǔ)料的不斷搜集、積累。所謂的語(yǔ)料庫(kù)〔corpus〕,就是存放大量事實(shí)語(yǔ)料的倉(cāng)庫(kù)。但嚴(yán)格定義的語(yǔ)料庫(kù),僅指由大量收集的書面語(yǔ)或白話構(gòu)成,并通過(guò)計(jì)算機(jī)儲(chǔ)存和處理,用于語(yǔ)言學(xué)研究的文本庫(kù)。語(yǔ)言學(xué)研究者在語(yǔ)料庫(kù)的基礎(chǔ)上開展語(yǔ)言學(xué)研究。語(yǔ)料庫(kù)語(yǔ)言學(xué)反映兩個(gè)層次的含義:一是語(yǔ)言學(xué)研究的一個(gè)新的手段,即利用語(yǔ)料庫(kù)對(duì)語(yǔ)言學(xué)的某個(gè)方面進(jìn)行研究;二是語(yǔ)料庫(kù)反映出來(lái)的語(yǔ)言學(xué)的新觀點(diǎn)和新理論,相當(dāng)于語(yǔ)言學(xué)的一個(gè)分支,如社會(huì)語(yǔ)言學(xué)、語(yǔ)用學(xué)等學(xué)科。從現(xiàn)有文獻(xiàn)資料看,大都將其作為語(yǔ)言學(xué)利用語(yǔ)料進(jìn)行科學(xué)研究的一種新的手段。〔一〕語(yǔ)料庫(kù)的作用和發(fā)展語(yǔ)料庫(kù)是根據(jù)一定的語(yǔ)言學(xué)原則,對(duì)語(yǔ)言文本信息進(jìn)行收集、加工、處理以電子計(jì)算機(jī)為載體承載語(yǔ)言知識(shí)的基礎(chǔ)資源庫(kù)。傳統(tǒng)的語(yǔ)言學(xué)研究是通過(guò)手工方式方法獲取語(yǔ)言材料,任何語(yǔ)言學(xué)研究者都不可能記憶和處理全部語(yǔ)言數(shù)據(jù)。建立語(yǔ)料庫(kù)后,能夠快速地從浩如煙海的語(yǔ)言資料庫(kù)中獲取準(zhǔn)確的信息。語(yǔ)料庫(kù)最直接的用處就是為編纂字典提供大量真實(shí)準(zhǔn)確的例句,例如,根據(jù)COBUILD語(yǔ)料庫(kù)編寫的詞典就有7種。除此之外,Leech〔1993〕還列舉了語(yǔ)料庫(kù)進(jìn)行語(yǔ)言理論研究、語(yǔ)法研究、語(yǔ)義研究、語(yǔ)篇分析研究等十幾種用處。講明了語(yǔ)料庫(kù)中的語(yǔ)料對(duì)語(yǔ)言學(xué)研究領(lǐng)域的重要性以及語(yǔ)料庫(kù)對(duì)語(yǔ)言學(xué)研究領(lǐng)域的促進(jìn)作用。20世紀(jì)90年代以來(lái),語(yǔ)料庫(kù)的建設(shè)和研究迅速發(fā)展,規(guī)模從百萬(wàn)字發(fā)展到千萬(wàn)字、億萬(wàn)字,語(yǔ)料加工的深度發(fā)展到篇章級(jí),實(shí)現(xiàn)了語(yǔ)料庫(kù)的定量分析、機(jī)器翻譯、詞典編纂等。如英國(guó)的COBUILD語(yǔ)料庫(kù),在該語(yǔ)料庫(kù)基礎(chǔ)上出版了語(yǔ)法、詞典、英語(yǔ)教學(xué)資料二十多種。漢語(yǔ)語(yǔ)料庫(kù)的起步較晚,如北京語(yǔ)言文化大學(xué)的當(dāng)代漢語(yǔ)語(yǔ)法研究語(yǔ)料庫(kù)、北京大學(xué)CCL語(yǔ)料庫(kù)和北語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)等?!捕郴谡Z(yǔ)料庫(kù)的語(yǔ)言學(xué)研究語(yǔ)料庫(kù)已經(jīng)成為語(yǔ)言學(xué)家研究語(yǔ)言學(xué)的強(qiáng)有力工具,基于語(yǔ)料庫(kù)的語(yǔ)言學(xué)研究具有下面特點(diǎn):〔1〕語(yǔ)料的真實(shí)性:學(xué)習(xí)者語(yǔ)料庫(kù)中的全部材料都是通過(guò)隨機(jī)采樣所收集的學(xué)生實(shí)際作文,是真實(shí)的語(yǔ)言運(yùn)用。通過(guò)對(duì)學(xué)習(xí)者中間語(yǔ)的分析得出的結(jié)論都是有根有據(jù)的,是從實(shí)際出發(fā)的。我們國(guó)家的英語(yǔ)教學(xué)成績(jī)很大,但問(wèn)題也不少,只要通過(guò)對(duì)教學(xué)現(xiàn)在狀況的科學(xué)分析、深切進(jìn)入研究,才可能提出有針對(duì)性的、切合實(shí)際的改良方案,收到實(shí)際效果,避免無(wú)的放矢,避免無(wú)謂的爭(zhēng)論?!?〕定量分析:基于語(yǔ)料庫(kù)的研究,一個(gè)顯著的特點(diǎn)就是數(shù)據(jù)驅(qū)動(dòng)。計(jì)算機(jī)的存儲(chǔ)和語(yǔ)言處理能力為觀察語(yǔ)言包括學(xué)習(xí)者提供了以前難以想象的強(qiáng)有力手段,定量分析使描寫具有客觀性,通過(guò)統(tǒng)計(jì)推斷可以以避免判定的主觀性。數(shù)據(jù)驅(qū)動(dòng)的定量分析使我們有可能看到以前憑直覺(jué)無(wú)法發(fā)現(xiàn)的問(wèn)題。這些統(tǒng)計(jì)數(shù)據(jù)使我們有可能從量化的角度來(lái)討論中國(guó)學(xué)生英語(yǔ)學(xué)習(xí)的特點(diǎn)。當(dāng)然定量分析還必須輔以定性分析,才能為如何學(xué)好英語(yǔ)提出切合實(shí)際的解決辦法?!?〕群體分析:通過(guò)數(shù)據(jù)驅(qū)動(dòng)的定量分析,我們還能夠發(fā)現(xiàn),有些言語(yǔ)失誤是個(gè)別學(xué)生語(yǔ)言運(yùn)用中的問(wèn)題,是個(gè)體行為。有些言語(yǔ)失誤則帶有普遍性,是中國(guó)的英語(yǔ)學(xué)習(xí)者中普遍存在的現(xiàn)象,這就促使我們不得不認(rèn)真研究其發(fā)生的原因。是由于母語(yǔ)遷移?還是由于過(guò)度概括?或者是出于教學(xué)資料或教學(xué)中的疏漏?只要找到了原因,才能找到改良教學(xué)的方式方法,提高教學(xué)質(zhì)量。〔4〕縱向分析:學(xué)習(xí)者語(yǔ)料庫(kù)中收集了各個(gè)層次學(xué)生的語(yǔ)言產(chǎn)出,他們處于不同的學(xué)習(xí)階段,有的是初學(xué)者,有的已經(jīng)到了學(xué)習(xí)的較高級(jí)階段,這樣就使我們有可能對(duì)英語(yǔ)學(xué)習(xí)的發(fā)展經(jīng)過(guò)進(jìn)行縱向分析,看看哪些是初學(xué)者容易出現(xiàn)的言語(yǔ)失誤,哪些言語(yǔ)失誤到高級(jí)階段就很少出現(xiàn),而另一類言語(yǔ)失誤的出現(xiàn)頻率卻又增加了,進(jìn)而發(fā)現(xiàn)學(xué)習(xí)者中間語(yǔ)發(fā)展的規(guī)律。〔5〕比照分析:所謂言語(yǔ)失誤是指中間語(yǔ)中不合目的語(yǔ)規(guī)范的地方。有了學(xué)習(xí)者語(yǔ)料庫(kù),我們能夠采用定量分析的方式方法,通過(guò)把學(xué)習(xí)者語(yǔ)料庫(kù)與本族語(yǔ)者語(yǔ)料庫(kù)進(jìn)行比照分析,不但能夠找出那些不合規(guī)范的地方,而且能夠找出哪些語(yǔ)言現(xiàn)象過(guò)度使用〔即超用〕了,哪些現(xiàn)象又過(guò)少使用〔即少用〕了,這些都是憑經(jīng)歷體驗(yàn)和直覺(jué)很難發(fā)現(xiàn)的。語(yǔ)料庫(kù)為語(yǔ)言學(xué)研究者提供真實(shí)的語(yǔ)料、統(tǒng)計(jì)數(shù)據(jù)、現(xiàn)行理論的驗(yàn)證和構(gòu)建新的研究理論,為語(yǔ)言學(xué)研究從高度抽象轉(zhuǎn)向語(yǔ)言實(shí)際應(yīng)用起到了非常重要的支持作用。四、結(jié)束語(yǔ)語(yǔ)言學(xué)的研究必須以語(yǔ)言事實(shí)為根據(jù),詳盡地、大量地占有語(yǔ)言資料。數(shù)據(jù)庫(kù)的出現(xiàn)使得語(yǔ)言材料的收集、整理和加工從

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論