語料庫語言學_第1頁
語料庫語言學_第2頁
語料庫語言學_第3頁
語料庫語言學_第4頁
語料庫語言學_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

應用語言學的最新成果語料庫語言學(CorpusLinguistics)

1.定義語料庫語言學(Corpuslinguistics)是基于語言運用的實例(即語料庫)的語言研究。語料庫語言學可以對自然語言進行語法與句法分析,還可以研究它與其他語言的關系。語料庫最初由手工完成,而現在主要是由計算機自動完成。語料庫語言學家相信,可靠的語言分析需建立在新鮮的語料、自然的語言環(huán)境,和最小的實驗干擾之上。在語料庫語言學中,語料標注的意義眾說紛紜,從約翰?辛克萊主張最少量的標注,并允許文本“為自己說話”,到“英語用法調查組”(設在倫敦大學學院)鼓勵更多的標注,并認為它是通向更完備和嚴謹的語言理解的道路。約翰?辛克萊約翰·辛克萊是第一代現代語料庫語言學家和COBUILD項目的創(chuàng)始人。該項目的目標是為了學習英語的外國學生,建立語料庫驅動的詞典。他成為了柯林斯COBUILD英語詞典(第一版出版于1987年)的首席顧問。他開創(chuàng)了對語料庫語言學,話語分析,詞典編纂和語言教學的研究。語料庫語言學是一個獨立的學科,它有自己獨到的理論體系和操作方法。由于語料庫語言學立足于大量真實的語言數據,對語料庫所做的系統(tǒng)而窮盡的觀察和概括所得到的結論對語言理論建設具有無可比擬的創(chuàng)新意義。而在另外一些研究者看來,語料庫語言學并非語言學的又一個分支學科,而是一種研究方法,這種方法基于大量的真實語言,可以用來回答通過其他途徑很難回答的問題,從而極大地豐富已有的研究方法。語料庫語言學以大量精心采集而來的真實文本(authentictexts)為研究素材,主要通過概率統(tǒng)計的方法得出結論,因此語料庫語言學從本質上講是實證性的(empirical)。2.發(fā)展語料語言學受行為主義的影響下,從60年代開始發(fā)展,迄今已經有近五十年的歷史。語料庫在發(fā)展的初期,只進行詞的一般分析,如詞頻統(tǒng)計等,后來增加了詞的語法屬性標注(如,詞性等),直到現在,人們越來越開始重視對語料庫作不同層次的標注,如:語音、構詞、句法、語義以及語用等層次的標注。語料語言學在其發(fā)展的初期并沒有引起太大的共鳴,但是現代語料語言學已經得到越來越多人的承認,其應用也越來越廣泛,從語言分析、語言教學、詞典編撰到人工智能等領域都開始應用語料庫?,F代語料庫語言學的一個里程碑是亨利·庫切拉和W.納爾遜弗朗西斯在1967年出版的《當代美語的計算分析》(ComputationalAnalysisofPresent-DayAmericanEnglish)一書。該項工作基于對布朗語料庫的分析,布朗語料庫是一個精心編制的美國英語語料庫,規(guī)模約有一百萬詞次。庫切拉和弗朗西斯將這些語料用于各種計算分析,獲得了豐富??和多樣化的成果,該成果結合了語言學、語言教學、心理學、統(tǒng)計學、和社會學元素。另一關鍵出版物是1960年倫道夫·夸克的《當代英語語法》(TowardsadescriptionofEnglishUsage),在這本書中他介紹了“英語用法調查”項目(TheSurveyofEnglishUsage)。布朗語料庫也催生了類似的語料庫:LOB語料庫(Lancaster-Oslo-BergenCorpus,20世紀60年代英國英語),科爾哈帕(Kolhapur,印度英語),惠靈頓(Wellington,新西蘭英語),澳大利亞英語語料庫(AustralianCorpusofEnglish,澳大利亞英語),皺眉語料庫(FrownCorpus,20世紀90年代初,美國英語),以及FLOB語料庫(FLOBCorpus,20世紀90年代,英國英語)。其他語料庫包括國際英語語料庫(InternationalCorpusofEnglish),和英國國家語料庫(BritishNationalCorpus,收集了1億詞次的口頭和書面語料,在20世紀90年代時由出版商、牛津大學、蘭卡斯特大學和大英圖書館創(chuàng)建)。至于說到當代的美國英語,現已有了美國國家語料(AmericanNationalCorpus),以及可以在線訪問的4億多詞次的美國當代英語語料庫(CorpusofContemporaryAmericanEnglish,1990年創(chuàng)建)。

3.方法語料庫語言學已經有了一大批研究方法,這些研究方法都試圖找到從數據到理論的解決方案。瓦利斯和尼爾森最先介紹了他們的3A觀點:注釋(Annotation),抽象(Abstraction)和分析(Analysis)。注釋

包括語料的數據庫方案。注釋可能包括結構標注,詞性標注,句法分析和其他形式。抽象

包括該方案在理論上的啟發(fā)式模型或數據集中的翻譯(映射)。抽象通常包括面向語言學家的定向搜索,但也可能包括句法研究者的句法規(guī)則學習。分析

包括統(tǒng)計學探測,操縱和對數據集的歸納概括。分析可能包括統(tǒng)計學評估,規(guī)則庫優(yōu)化和知識探索方法。4.在我國的發(fā)展與應用語料語言學經歷過這幾十年的發(fā)展,不論在理論上,還是在技術上,都已趨于成熟。在語言教學領域中的應用也開始引起注意。我國對語料語言學研究取得了一定的成果,早在1982年,上海交通大學的黃人杰、楊惠中教授就主持建立了一百萬詞次的專門用途英語語料庫(JDEST)。2003年,桂詩春和楊惠中兩位教授主持完成了中國英語學習者語料庫(ChineseLearnerEnglishCorpus,簡稱CLEC),這是國際上第一部公開發(fā)布的學習者語料庫,它對研究中國學生的語言應用和使用失誤等特征,以及它們與外語學習之間的關系等都具有十分重要的指導作用。除了書面語語料庫之外,研究者們也開始建立口語語料庫。如南京大學創(chuàng)建的中國學習者英語口語語料庫(SpokenEnglishCorpusofChineseLearners,簡稱SECCL)。上海交通大學也建立了大學英語學習者英語口語語料庫。與此同時,隨著個人電腦的普及,許多研究者個人也開始建立適合自己的小型語料庫,許多英語語料庫應運而生。這些英語語料庫大部分是中國英語學習者的中介語語料庫。在應用語言學領域,詞典編纂和語言教學同是語料庫的最大受益者。目前已有多部詞典在編纂或修訂過程中,不同程度地使用語料庫或電子文檔收集詞語數據,用于收詞、釋義、例句、屬性標注等。南京大學近年來開發(fā)了NULEXID語料庫暨雙語詞典編纂系統(tǒng),涉及英漢兩種語言,在《新時代英漢大詞典》的編纂過程中起了重要作用。語料庫用于語言教學的一個例子是上海交通大學的JDEST英語語料庫,利用這個語料庫,通過語料比較、統(tǒng)計、篩選等方法為中國大學英語教學提供通用詞匯和技術詞匯的應用信息,為確定大學英語教學大綱的詞表提供了可靠的量化依據。這個語料庫也在英語語言研究中發(fā)揮了作用,支持基于語料庫的英語語法的頻率特征、語料庫驅動的詞語搭配等項研究。5.近幾年的發(fā)展成果許家金和梁茂成(2011)認為語料庫的建設之初,主要是為了進行文本儲存,而研究者要基于語料庫進行研究,則需要建設子語料庫從不同的研究目的出發(fā),從而促進對比研究。他們旨在成為由中國學者開發(fā)建成的BROWN(布朗)語料庫的子語料庫,于2011開發(fā)建設的CBROWN(科朗)語料庫和CLOB語料庫兩個語料庫。張素敏(2011)基于自建語料庫研究學習者因素對教師話語的影響作用進行分析,研究表明教師的母語使用與學習者的語言概念認知和態(tài)度情感因素有關,且適當的母語使用有利于教學目標的順利實現。劉日升,楊振力(2012)通過分析語料庫共享平臺建設現狀及其建設必要性,提出由圖書館起主導作用的語料庫資源共享平臺建設的設想。這些研究對語料庫實現共享有重要意義。桂詩春(2010)也積極推進語料庫語言資源的共享,語料庫只有共享才能變成財富,“藏諸名山,束之高閣”只能是一堆數據垃圾,必將自毀前程。馮志偉(2010)支持語料庫的共享,表明語料庫只有普及才能發(fā)展6.從國內學術組織和學術會議

看語料庫語言學發(fā)展的最新動態(tài)國內學術界出現了幾只具有代表性的團隊,其蓬勃的生命力不斷推動了國內語料庫語言學的發(fā)展。北京外國語大學中國外語教育研究中心以梁茂成、許家金、文秋芳等為代表的研究團隊。以李文中為中心主任的河南師范大學語料庫與外語教學研究中心。以何安平為帶頭人的華南師范大學外文學院語料庫語言學研究室,以解放軍外國語學院團隊,上海外國語大學研究團隊,上海交通大學外國語學院語言文字工程研究所,廣東外語外貿大學外國語言學及應用語言學研究中心等組織。各組織的影響力體現在大型會議的召開,學術組織的成立。語料庫語言學研究會(CorpusLinguisticSocietyofChina,CLSC)的成立,成為中國語料庫語言學發(fā)展的里程碑自2010年10月29日,首次中國外語教育研究中心“語料庫語言學沙龍”(CorpusResearchGroup)在北京外國語大學成功舉行之后,分別舉行了2010年秋季,2011年春季,2011年秋季2012年四期有關語料庫語言學研究的名家及學者的交流活動。沙龍由語言學界的相關大家,許家金、文秋芳、馮志偉、王克非,熊文新等參與講座,對語料庫語言學的研究發(fā)展具有啟發(fā)式的引導。1.語料庫建設。文秋芳的“學習者語料庫的創(chuàng)建與研究”。在介紹國內研究現狀的同時,還重點分析了語料庫語言學研究方法的優(yōu)勢和局限。2.新的研究工具和軟件的介紹。開源統(tǒng)計軟件R的命令行操作方式以及下載模塊的方法。語料庫文本元信息添加(作文作者性別、年齡、年級、成績等)方法的介紹。這些新方法和新工具的介紹,也預示著語料庫發(fā)展的新方向。3.語料庫在語言學上的研究成果。主要是有關語料庫與詞匯、語法及話語分析的研究。鏈語法與語料庫語言學的研究,有關語料庫在語言學方面的應用,是一場變革和飛躍。1)2010首屆廣外應用語言學論壇。由廣東外語外貿大學外國語言學及應用語言學研究中心于2010年9月24-25日成功舉辦了備受矚目的首屆廣外應用語言學論壇。語料庫語言學首次以獨立議題的形式提出。會議包括:1.語料庫的資源共享;2.雙語語料庫建設,我國單語語料庫很多,還沒有高質量的英漢雙語語料庫;3.語料庫促進外語教學發(fā)展。外語學習者語料庫等在外語教學中的應用,推動外語教學的發(fā)展;4.語料庫語言學的現狀和未來。桂詩春肯定了語料學對外語教學的積極作用,并大力提倡資源共享,互助互利。2)2011年語料庫語言學大會。2011年中國語料庫語言學大會是中國語料庫語言學研究會成立后的首屆全國性語料庫語言學的學術研討會。大會以“語料庫語言學的多維視角”為主題,旨在加強國內語料庫語言學研究者的學術交流與合作,探討學術發(fā)展動態(tài)與關鍵技術,促進語料庫語言學學科建設和發(fā)展。1.“多維視角下的短語語料庫建設和研究”。2.“語料庫加工處理技術研究”中以漢語為處理語言的語料庫加工技術,彌補了本土語料庫的不足。3.“語料庫與語言描寫”指出語言描寫不是語料庫語言學研究的終點而是整個研究的出發(fā)點,最終揭示語言系統(tǒng)隱含的規(guī)律和趨勢。4.“中介語語料庫建設和研究”有助于發(fā)現和分析英語學習者二語習得過程中經常遇到的問題,這類語料庫的建設和研究對二語習得及外語教學研究具有重要意義。5.“平行語料庫及翻譯研究”平行語料庫的建

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論