語料庫語言學_第1頁
語料庫語言學_第2頁
語料庫語言學_第3頁
語料庫語言學_第4頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

語料庫語言學維基百科語料庫語言學(英語:corpuslinguistics)是基于語言運用的實例(即語料庫)的語言討論。語料庫語言學可以對自然語言進行語法與句法分析,還可以討論它與其他語言的關(guān)系。語料庫最初由手工完成,而現(xiàn)在主要是由計算機自動完成。語料庫語言學家信任,牢靠的語言分析需建立在新奇的語料、自然的語言環(huán)境,和最小的試驗干擾之上。在語料庫語言學中,語料標注的意義眾說紛紜,從約翰?辛克萊⑴主見最少量的標注,并允許文本“為自己說話",至『英語用法調(diào)杳組”(設(shè)在倫敦高校學院)[2]鼓舞更多的標注,并認為它是通向更完備和嚴謹?shù)恼Z言理解的道路。名目1歷史2方法3參考文獻o3.1引用o3.2期刊o3.3書籍4外部鏈接5參見歷史[編輯]現(xiàn)代語料庫語言學的一個里程碑是亨利?庫切拉和W.納爾遜弗朗西斯在1967年出版的《當代美語的計算分析》(ComputationalAnalysisofPresent-DayAmericanEnglish)一書。該項工作基于對布朗語料庫的分析,布朗語料庫是一個細心編制的美國英語語料庫,規(guī)模約有一百萬詞次。庫切拉和弗朗西斯將這些語料用于各種計算分析,獲得了豐富和多樣化的成果,該成果結(jié)合了語言學、語言教、心理學、統(tǒng)計學、和社會學元素。另一關(guān)鍵出版物是1960年倫道夫?夸克的《當代英語語法》(TowardsadescriptionofEnglishUsage)口】,在這本書中他介紹了"英語用法調(diào)杳”項目(TheSurveyofEnglishUsage)°此后不久,波士頓出版商霍頓米夫林邀請庫切拉為其新的美國傳統(tǒng)英語字典供應(yīng)百萬詞次,三線引文的來進行詞典編纂?!睹绹鴤鹘y(tǒng)英語字典》創(chuàng)新地將規(guī)定性元素(應(yīng)如何使用語言)和描述性元素(語言實際上是如何被使用)結(jié)合在了一起。其他出版社紛紛效仿。英國出版商柯林斯COBUILD單語學習詞典,就是為非英語母語者學習英語而出版的,它使用了“英語銀行"(BankofEnglish)語料庫?!坝⒄Z用法調(diào)查”語料庫被用于由夸克等人編著的《綜合英語語法》(AComprehensiveGrammaroftheEnglishLanguage)中。布朗語料庫也催生了類似的語料庫:LOB語料庫(Lancaster-Oslo-BergenCorpus,20世紀60年月英國英語),科爾哈帕(Kolhapur,印度英語),惠靈頓(Wellington,新西蘭英語),澳大利亞英語語料庫(AustralianCorpusofEnglish,澳大利亞英語),皺眉語料庫(FrownCorpus,20世紀90年月初,美國英語),以及FLOB語料庫(FLOBCorpus,20世紀90年月,英國英語)。其他語料庫包括國際英語語料庫(InternationalCorpusofEnglish),和英國我國語料庫(BiitishNationalCorpus,收集了1億詞次的口頭和書面語料,在20世紀90年月時由出版商、牛津高校、蘭卡斯特高校和大英圖書館創(chuàng)建)。至于說到當代的美國英語,現(xiàn)已有了美國我國語料庫(英語:AmericanNationalCorpus),以及可以在線訪問的4億多詞次的美國當代英語語料庫(英語:CorpusofContemporaryAmericanEnglish,1990年倉犍)。第一個電腦轉(zhuǎn)錄口語語料庫,建于1971年蒙特利爾法語項目(MontrealFrenchProject),【用有一億詞次,這一項目還啟發(fā)了夏娜?帕普拉克建立了規(guī)模更大的渥太華-赫爾地區(qū)法語口語語料庫({{lang-en|CorpusofspokenFrenchintheOttawa-Hullarea)。⑶語料庫除了收集現(xiàn)存語言,也收集古代語言。比如20世紀70年月建立的希伯來文圣經(jīng)的安徒生福布斯數(shù)據(jù)庫(英語:Andersen-ForbesdatabaseoftheHebrewBible,數(shù)據(jù)庫的每個子句的語法分析都使用了多達七級語構(gòu)的圖表,每一部分都標注了七個方面的信息。⑹⑺古蘭經(jīng)阿拉伯語語料庫(英語:QuranicArabicCorpus)是古典的阿拉伯文《古蘭經(jīng)》的標注語料庫。它包含多層次的標注,包括形態(tài)分割,詞性標注,以及使用依存語法進行的句法分析。網(wǎng)方法[編輯]語料庫語言學已經(jīng)有了一大批討論方法,這些討論方法都試圖找到從數(shù)據(jù)到理論的解決方案。瓦利斯和尼爾森⑼最先介紹了他們的3A觀點(英語:3Aperspective):注釋(英語:Annotation),抽象(英語:Abstraction)和分析(英語:Analysis)o注釋包括語料的數(shù)據(jù)庫方案。注釋可能包括結(jié)構(gòu)標注,詞性標注,句法分析和其他形式。抽象包括該方案在理論上的啟發(fā)式模型或數(shù)據(jù)集中的翻譯(映射)。抽象通常包括面對語言學家的定向搜尋,但也可能包括句法討論者的句法規(guī)章學習。分析包括統(tǒng)計學探測,操縱和對數(shù)據(jù)集的歸納概括。分析可能包括統(tǒng)計學評估,規(guī)章庫優(yōu)化和學問探究方法。如今大多數(shù)詞匯語料庫采納詞性標注(英語:part-of-speech-tagged)。然而,即使是采納未標注語料的語料庫語言學家也無疑會使用一些方法來從句子中隔離出他們感愛好的詞。在這種狀況下,注釋和抽象在詞匯搜素中結(jié)合起來了。發(fā)布標注語料庫的優(yōu)點是其他用戶可以在語料庫中進行討論與試驗。語言學家與其他相關(guān)人士就可以采用語料庫來工作通過數(shù)據(jù)共享,語料庫語言學家能將語料庫視為語言研討的核心,而不是學問的源泉。CorpuslinguisticsFromWikipedia,thefreeencyclopediaCorpuslinguisticsisthestudyoflanguageasexpressedinsamples(corpora)of“realworld"text.Thismethodrepresentsadigestiveapproachtoderivingasetofabstractrulesbywhichanaturallanguageisgovernedorelserelatestoanotherlanguage.Originallydonebyhand,corporaarenowlargelyderivedbyanautomatedprocess.Corpuslinguisticsadherentsbelievethatreliablelanguageanalysisbestoccursonfield-collectedsamples,innaturalcontextsandwithminimalexperimentalinterference.Withincorpuslinguisticstherearedivergentviewsastothevalueofcorpusannotation,fromJohnSinclair^advocatingminimalannotationandallowingtextsto'speakforthemselves',toothers,suchastheSurveyofEnglishUsageteam(basedinUniversityCollege,London)@advocatingannotationasapathtogreaterlinguisticunderstandingandrigour.LinguisticsTheoreticalCognitiveGenerativeQuantitative?FunctionaltheoriesofgrammarPhonologyMorphology*MorphophonologySyntaxLexisSemanticsPragmaticsGraphcmicsOrthographySemioticsDescriptiveAnthropologicalComparative?HistoricalEtymologyGraphetics?PhoneticsSociolinguisticsAppliedandexperimentalComputational

Contrastive?Evolutionar}'ForensicInternetLanguageacquisitionSecond-languageacquisitionLanguageassessmentLanguagedevelopmentLanguageeducationLinguisticanthropology

Neurolinguistics

PsycholinguisticsRelatedarticlesHistoryoflinguisticsLinguisticprescription

Listoflinguists

UnsolvedlinguisticsproblemsLinguisticsportalContents

[hide]1History2MethodsSeealsoReferenceso4.1Journalso4.2Bookserieso4.3OtherExternallinksHistory[edit]Someoftheearliesteffortsatgrammaticaldescriptionwerebasedatleastinpartoncorporaofparticularreligiousorculturalsignificance.Forexample,PratisakhyaliteraturedescribedthesoundpatternsofSanskritasfoundintheVedas,andPanini'sgrammarofclassicalSanskritwasbasedatleastinpartonanalysisofthatsamecorpus.Similarly,theearlyArabicarammarianspaidparticularattentiontothelanguageoftheQuran.IntheWesternEuropeantradition,scholarspreparedconcordancestoallowdetailedstudyofthelanguageoftheBibleandothercanonicaltexts.AlandmarkinmoderncorpuslinguisticswasthepublicationbyHenryKuceraandW.NelsonFrancisofComputationalAnalysisofPresent-DayAmericanEnglishin1967,aworkbasedontheanalysisoftheBrownCorpus,acarefullycompiledselectionofcurrentAmericanEnglish,totallingaboutamillionwordsdrawnfromawidevarietyofsources.KuceraandFrancissubjectedittoavarietyofcomputationalanalyses,fromwhichtheycompiledarichandvariegatedopus,combiningelementsoflinguistics,languageteaching,psychology,statistics,andsociology.AfurtherkeypublicationwasRandolphQuirk's'TowardsadescriptionofEnglishUsage'(I960)團inwhichheintroducedTheSurveyofEnglishUsage.Shortlythereafter,BostonpublisherHoughton-MifflinapproachedKuceratosupplyamillionword,three-linecitationbaseforitsnewAmericanHeritageDictionary,thefirstdictionarytobecompiledusingcorpuslinguistics.TheAHDtooktheinnovativestepofcombiningprescriptiveelements(howlanguageshouldbeused)withdescriptiveinformation(howitactuallyisused).Otherpublishersfollowedsuit.TheBritishpublisherCollins*COBUILDmonolinguallearner'sdictionary,designedforuserslearningEnglishasaforeignlanguage,wascompiledusingtheBankofEnglish.TheSurveyofEnglishUsageCorpuswasusedinthedevelopmentofoneofthemostimportantCorpus-basedGrammars,theComprehensiveGrammarofEnglish(Quirketal.1985).圖TheBrownCorpushasalsospawnedanumberofsimilarlystructuredcorpora:theLOBCorpus(1960sBritishEnglish),Kolhapur(IndianEnglish),Wellington(NewZealandEnglish),AustralianCorpusofEnglish(AustralianEnglish),theFrownCorpus(early1990sAmericanEnglish),andtheFLOBCorpus(1990sBritishEnglish).Othercorporarepresentmanylanguages,varietiesandmodes,andincludetheInternationalCorpusofEnglish,andtheBritishNationalCorpus,a100millionwordcollectionofarangeofspokenandwrittentexts,createdinthe1990sbyaconsortiumofpublishers,universities(OxfordandLancaster)andtheBritishLibrary.ForcontemporaryAmericanEnglish,workhasstalledontheAmericanNationalCorpus,butthe400+millionwordCorpusofContemporaryAmericanEnglish(1990-present)isnowavailablethroughawebinterface.Thefirstcomputerizedcorpusoftranscribedspokenlanguagewasconstructedin1971bytheMontrealFrenchProject,囪containingonemillionwords,whichinspiredShanaPoplack'smuchlargercorpusofspokenFrenchintheOttawa-Hullarea.?Besidesthesecorporaoflivinglanguages,computerizedcorporahavealsobeenmadeofcollectionsoftextsinancientlanguages.AnexampleistheAndersen-ForbesdatabaseoftheHebrewBible,developedsincethe1970s,inwhicheveryclauseisparsedusinggraphsrepresentinguptosevenlevelsofsyntax,andeverysegmenttaggedwithsevenfieldsofinformation.^TheQuranicArabicCorpusisanannotatedcorpusfortheClassicalArabiclanguageoftheQuran.Thisisarecentprojectwithmultiplelayersofannotationincludingmorphologicalsegmentation,part-of-speechtagging,andsyntacticanalysisusingdependencygrammar.倒Methods[edit]CorpusLinguisticshasgeneratedanumberofresearchmethods,attemptingtotraceapathfromdatatotheory.WallisandNelson(2001)3firstintroducedwhattheycalledthe3Aperspective:Annotation,AbstractionandAnalysis.Annotationconsistsoftheapplicationofaschemetotexts.Annotationsmayincludestructuralmarkup,part-of-speechtagging,parsing,andnumerousotherrepresentations.Abstractionconsistsofthetranslation(mapping)oftermsintheschemetotermsinatheoreticallymotivatedmodelordataset.Abstractiontypicallyincludeslinguist-directedsearchbutmayincludee.g.,rule-learningforparsers.Analysisconsistsofstatisticallyprobing,manipulatingandgeneralisi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論