語料庫常用術(shù)語解釋_第1頁
語料庫常用術(shù)語解釋_第2頁
語料庫常用術(shù)語解釋_第3頁
語料庫常用術(shù)語解釋_第4頁
語料庫常用術(shù)語解釋_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

熱烈歡迎來自全國各地的老師們!語料庫語言學(xué)常用術(shù)語Corpus(語料庫,尸體):

(pl.corporaorcorpuses):acollectionoftext,nowusuallyinmachine-readableformandcompiledtoberepresentativeofaparticularkindoflanguageandoftenprovidedwithsomekindofannotation(標注).按照一定的采樣標準采集而來的、能代表一種語言或者某語言的一種變體或文類的電子文本集。語料庫語言學(xué)常用術(shù)語著名語料庫BNC牛津大學(xué)等ANCCOCACLEC桂詩春、楊惠中CorpusLinguistics語料庫語言學(xué)立足于大量真實的語言數(shù)據(jù),主要通過概率統(tǒng)計方法,對語料庫做系統(tǒng)而窮盡的觀察和概括得出結(jié)論。從本質(zhì)上來講,是實證性的(empirical).為何要建立語料庫?為何要用語料庫方法研究語言并將其運用于語言學(xué)習(xí)?Example:Startorbegin?在口語中哪個更常用?我們的老師經(jīng)常說Let’sbegin!之類的話,對嗎?但有人在BNC等語料庫中查到,在口語中,start更常用。語料庫的方法基于真實的語言使用情況,事實勝于雄辯Acorpuscanbeanalyzedusingsoftwaretools,muchlikethoseusedtofindkeywordsontheInternet,butwithgreatersophistication.Byevaluatingtheresultsofthesesearches,itispossibletoseehowlanguageisreallyused,andtofindanswerstoquestionslikethese:WhatarethemostfrequentwordsandphrasesinEnglish?Whichtensesdopeopleusemostoften?Whatprepositionsfollowparticularverbs?Howdopeopleusewordslikecan,may,andmight?Howmanywordsmustalearnerknowinordertoparticipateineverydayconversation?Materialsdevelopedwithacorpuscanthereforebemoreauthenticandcanillustratelanguageasitisreallyused.TypesofcorporaAnnotated標注corpus:acorpusenhancedwithvarioustypesoflinguisticinformation(ortaggedcorpus).Anannotatedcorpusmaybeconsideredtobearepositoryoflinguisticinformation,becausetheinformationwhichwasimplicitintheplaintexthasbeenmadeexplicitthroughconcreteannotation(“addedvalue附加值”).Comparable(reference參照)corpus:acorpususedforcomparisonofdifferent(typesof)languages.Comparablecorporaoftenfollowthesamecompositionpattern.Ifcomparablecorporaareannotated,annotationschemesforthecorporaareoftensimilar.語料庫語言學(xué)常用術(shù)語Monolingual單語corpus:acorpuswhichcontainstextsinasinglelanguage.Multilingual多語corpus:acorpuswhichrepresentssmallcollectionsofindividualmonolingualcorpora(orsubcorpora)inthesensethattheyusethesameorsimilarsamplingproceduresandcategoriesforeachlanguagebutcontaincompletelydifferenttextsinthoseseverallanguages.Parallel平行(aligned)corpus:amultilingualcorpuswheretextsinonelanguageandtheirtranslationsintootherlanguagesarealigned,sentencebysentence,preferablyphrasebyphrase.語料庫語言學(xué)常用術(shù)語Specialcorpus專用語料庫:Atypeofcorporathatareassembledforaspecificpurpose,andtheyvaryinsizeandcompositionaccordingtotheirpurpose.Specialcorporaarenotbalanced(exceptwithinthescopeoftheirgivenpurpose)and,ifusedforotherpurposes,giveadistortedviewofthelanguagesegment.Theirmainadvantageisthatthetextscanbeselectedinsuchawaythatthephenomenaoneislookingforoccurmuchmorefrequentlyinspecialcorporathaninabalancedcorpus.Acorpusthatisenrichedinsuchawaycanbemuchsmallerthanabalancedcorpusprovidingthesamedata.Generalcorpus通用語料庫:語料庫語言學(xué)常用術(shù)語Token形符:anindividualwordType類符:wordform.指不重復(fù)計算的形符數(shù)。"Iseeacatandadog"containsseventokensbutonlysixtypes(thetype'a'occurstwice).Thesentence"Roseisaroseisaroseisarose."waswrittenbyGertrudeSteinaspartofthe1913poemSacredEmily.語料庫語言學(xué)常用術(shù)語type/tokenratio(TTR)類符/形符比,形次比Rose句的TTR:4/10*100=40TTR是衡量文本中詞匯密度的常用方法。可輔助說明文本的詞匯難度。但是,文本中有大量功能詞(functionwords,如the、a、of等)反復(fù)出現(xiàn),文本每增加一個詞,形符就會增加一個,但類符卻未必隨之增加。這樣文本越長,功能詞重復(fù)次數(shù)越多,TTR會越低。因此用TTR衡量詞匯密度就不合理。語料庫語言學(xué)常用術(shù)語standardizedtype/tokenratio標準化類符/形符比例如,計算每個文本每1000詞的TTR,均值處理,得出STTR語料庫語言學(xué)常用術(shù)語Frequencies/occurences(頻數(shù),出現(xiàn)次數(shù))Frequency(頻率)

例如每一百萬詞、十萬詞中,某單詞的出現(xiàn)次數(shù)常常將某個單詞在兩個語料庫中出現(xiàn)的頻率參照兩個語料庫的容量,用卡方檢驗或?qū)?shù)似然率進行對比,來確定兩個語料庫中的該單詞的使用上是否有差異語料庫語言學(xué)常用術(shù)語Lemma詞目在英語語料庫文本中,一些實詞有大量的屈折形式(inflections),如go這一動詞就有g(shù)o,goes,went,going,gone共5種不同的屈折變化形式。go就是詞目。在分析語言時,如果把那5種形式作為5個詞來看待,就有可能顯得不妥。因此需要將它們?nèi)繗w并到go名下。這個過程叫詞目歸并或詞形還原(lemmatization).有專門的軟件根據(jù)詞形還原表,自動對文本進行詞形還原。Keywords關(guān)鍵詞Keywordsarewordswhosenormalizedfrequencyinonecorpus(observedcorpus)issignificantlyhigherorlowerthanthatinanothercomparablecorpus(referencecorpus).Positivekeywordsandnegativekeywords語料庫語言學(xué)常用術(shù)語Concordance索引(又稱“語境中的關(guān)鍵詞,KeyWordInContext,KWIC”)指的是運用索引軟件在語料庫中查詢某詞或短語的使用實例,然后將所有符合條件的語言使用實例及其語境以清單的形式列出Atermthatsignifiesalistofaparticularwordorsequenceofwordsinacontext.Theconcordanceisatthecentreofcorpuslinguistics,becauseitgivesaccesstomanyimportantlanguagepatternsintexts.ConcordancesofmajorworkssuchastheBibleandShakespearehavebeenavailableformanyyears.Thecomputerhasmadeconcordanceseasytocompile.(concordancer索引軟件,concordancelines索引行)Thecomputer-generatedconcordancescanbeveryflexible;thecontextofawordcanbeselectedonvariouscriteria(forexamplecountingthewordsoneitherside).Interpretingconcordancelinescanbeademandingtask.AntConc、WordSmithTools等檢索軟件語料庫語言學(xué)常用術(shù)語

何謂語料庫檢索Concordancersaredevelopedtoproduceconcordancelinesofaspecificstringoftext.WordsmithToolsAntConcManyothersCollocation詞匯搭配:Atermusedtorefertothecombinationofwordsthathaveacertainmutualexpectancyi.e.wordsregularlykeepcompanywithcertainotherwords.Whenacollocationappearswithagreaterfrequencythanchance,thenitiscalledasignificantcollocation.Wordsarelikepeople.Amanmaybeinmadlovewithawomanwhodoesnotlovehimatall.Sheiseverythingtohim,butheisnothingtoher.(ConsidertherelationbetweenIandam)“Weshallknowawordbythecompanyitkeeps.”Measuresofcollocationstrength搭配強度:MI,T-score,Z-score,etc.語料庫語言學(xué)常用術(shù)語abigsmokerastrongsmokerahardsmokeraheavysmokerafurioussmokerColligation語法搭配,類聯(lián)接:collocationpatternsbasedonsyntacticgroupsratherthanindividualwords.(Barnbrook1996)Thereisabookonthedesk.There_EXis_VBZa_AT1book_NN1on_IIthe_ATdesk_NN1._.EXVBZAT1NN1IIATNN1.語料庫語言學(xué)常用術(shù)語Thecaseof‘Ithink’E.g.thewordwindowtendstocolligatewithprepositions.POS(part-of-speech)tagging詞性賦碼Amostbasictypeoflinguisticcorpusannotationitsaimistoassignacode(ortag)indicatingitspart-of-speech(e.g.singularcommonnoun-NN,pastparticiple-VVN)toeachlexicalunitinthetext.Part-of-speechinformationisafundamentalbasisforincreasingthespecificityofdataretrievalfromcorporaandalsoformsanessentialfoundationforfurtherformsofanalysissuchassyntacticparsingandsemanticfieldannotation.語料庫語言學(xué)常用術(shù)語It_PPH1

is_VBZ

not_XX

difficult_JJ

to_TO

complete_VVIeach_DD1

of_IOthose_DD2tasks_NN2._.KnowingPOStagsThis_DD1word_NN1

is_VBZ

easy_JJ._.This_DD1book_NN1

is_VBZ

new_JJ._.These_DD2words_NN2

are_VBR

long_JJ._.Those_DD2kids_NN2

are_VBR

taller_JJR._.最著名的語料庫標準軟件CLAWSTreeTagger均有自己的詞性賦碼系統(tǒng)。除了標準單詞詞性外,還標注段落、句子的起始N-gram多元序列,wordcluster詞族孤立地研究詞根本不能解決語言中的眾多問題在操作界面上,提取多次序列時,先確定序列中所含詞數(shù)N(如三詞序列,四次序列等),計算機自動讀取文本,統(tǒng)計每個N序列出現(xiàn)的頻數(shù)。Whataprettygirlsheis!Everymanfallsinlovewithherathisfirstsight.語義韻semanticprosody褒義、貶義例如,通過查詢語料庫,我們發(fā)現(xiàn)cause后面的名詞,多為貶義例如,我們需要在選定的語料中檢索analyze這個詞,在索引軟件的檢索詞輸入框內(nèi),輸入analyze即可。但是,另外一些文本可能使用analyse,或者我們還需要檢索它的曲折形式,如analyzed、analyzing、analyzes、analysed、analysing、analyses等,分別檢索就很麻煩了。這時我們需要:正則表達式RegularExpression,regex計算機匯編語言的一種技術(shù),用于匹配文本中的字符串幾乎每個正則表達式都由常量和變量兩部分組成。例如analyze的各種屈折形式中,analy是常量。序號符號含義舉例或說明1\b詞的邊界\ban\b2\w任何字母或數(shù)字\banaly\w3.任何字符或非字符2.44+重復(fù)1次或多次A+5*重復(fù)0次或更多BA*6?有或者無BA?7()組合,使得括號中的部分可以當作一個符號處理Act(ing)序號符號含義舉例或說明1\b詞的邊界\ban\b匹配an,不匹配a、and或sand2\w任何字母或數(shù)字\w匹配字母a-z,A-Z,數(shù)字0-9及下劃線3.任何字符或非字符2.4匹配204,214,2t4,24,2.4,2-44+重復(fù)1次或多次A+匹配A,AA,AAA等5*重復(fù)0次或更多BA*匹配B,BA,BAA,BAAA等6?有或者無BA?匹配B和BA7()組合,使得括號中的部分可以當作一個符號處理act(ing)可以匹配act和acting序號符號含義舉例或說明9[]方括號中的任意字符[abc]匹配a、b或c[abc]+匹配10\s空格\w+\s+\w

匹配任何二元序列11|或者(|號在回車鍵上面)(analyze|analyse)12\W非字符、非數(shù)字13\S非空格14\w*0個或多個任意數(shù)目的字母、數(shù)字及兩者的組合15.*?任何字符串正則表達式區(qū)分大小寫、全角和半角,輸入時要格外小心。如何不區(qū)分大小寫,可以在表達式前面加(?i)關(guān)于正則表達式的更詳細說明,參照/我們再回到前面提到的問題,如何檢索analyze的各種屈折形式?我們再回到前面提到的問題,如何檢索analyze的各種屈折形式?使用“或者”符號,如:1.\b(analyze|analyse|analyzing|analysing|analyzed|analysed|analyzes|analyses)\b2.\banaly(s|z)(e|es|ed|ing)\bCommonlyusedregexblocks\S+_V\w+=anyformofanyverb\S+_VV\w+=…anylexicalverb\S+_VB\w+=anyformofanyBEverb\S+_V\wN=anypastparticipleofv\S+_V\wG=anypresent…\S+_J\w+=anyadjective\S+_N\w*=anynoun\S+_AT\w*=anyarticle\S+_(A\w*|D\w*)=anydeterminerExerciseUsethesamewordtocompleteallthefollowingsentences.We’re____surethatit’smostlywaterandpainThey’re____goodatstartingstuff,thoseguys.…onewhoisbasicallydrivenby____decentinstinctsandmotivations.Theywere____tough-betterthanIthought...Throwingonthesideeverydaykeepsme____sharpandtherestofitisSheisvery____.Hermostrecentdecisionregardingher…ofthedistrictintact.Theboardis____certainthepublicisnotaptButtheysummeduphisHousestint____well.HehasbeendoggedlyKeyWe’reprettysurethatit’smostlywaterandpainThey’reprettygoodatstartingstuff,thoseguys.onwhoisbasicallydrivenbyprettydecentinstinctsandmotivations.Theywereprettytough-betterthanIthought...ThrowingonthesideeverydaykeepsmeprettysharpandtherestofitisSheisverypretty.Hermostrecentdecisionregardingherofthedistrictintact.TheboardisprettycertainthepublicisnotaptButtheysummeduphisHousestintprettywell.Hehasbeendoggedly常用語料庫檢索軟件AntConcWordSmithToolsRange最著名的語料庫標注軟件是哪兩種?Concordance----JohnSinclair'sexample:ResearchquestionsWhatarethefrequentcollocates(搭配詞)of“nakedeye”?Whatisstructuralfeatureofthecollocation?Whatisthesemanticpreferenceoftheunitofmeaning?Whatistheattitudesoremotionconveyedintheuseofthecollocation?MethodandprocedureL1:the:95%thenakedeyeR1:noregularpatternsfoundL2:colligationwith,to(136):90%by,from,as,upon:10%L3:semanticpreferencesee(11)seen(14)11+14=25visible(48)invisible(16)48+16=64N-3positiongrandtotal:89Otherwordswithsimilarsemanticfeatures:detect,spot,spotted,appear,perceived,viewed,recognized,read,studied,judgedSemanticpreference+grammaticalchoiceVerbs+withAdjectives+toLookbeyond:small,faint,weak,difficultseeReally,invisible,can,couldvisibleSemanticprosody:difficultySummarizationDIFFICULTY+VISIBILITY+Prep.+the+naked+eyeIfyouseesomethingwiththenakedeye,youalwaysseeitwithsomedifficulty.ACaseaboutChinese

Whatdoesitmean?子夏曰:賢賢易色,事父母,能竭其力。事君,能致其身。與朋友交,言而有信。雖曰未學(xué),吾必謂之學(xué)矣。Interpretations:1)何晏、朱熹:“以敬重賢人的心,替代愛好美色的心?!敝祆洹墩撜Z集注》說:“賢人之賢,而易其好色之心?!?)皇侃《論語集解義疏》:“如果有人能改變其好色的心來尊敬賢人,那么這個人便比賢人還要賢能?!薄跋胍鹁催@個賢人,那么就應(yīng)當改變平常的臉色,以一種莊敬的容貌面對之?!?)南懷瑾《論語別裁》:“這個‘色’字,很簡單,就是態(tài)度、形色”,“易色”也就是轉(zhuǎn)變態(tài)度。4)《漢書》卷七十五李尋傳顏師古注,并為楊伯峻《論語譯注》采信:“對妻子,重品德,不重容貌?!保╬.5)。5)清王念孫《廣雅疏證》:“尊敬賢能的人,如同愛好美色一般?!?)今人南亭批評以上解釋,譯為:“我們學(xué)習(xí)賢人(聖賢)是應(yīng)該著重內(nèi)在的東西,而看輕表面的東西?!狈椒ǎ?)先檢索出《論語》文本中所有“色”字,并逐一檢查其用法,共得27例2)分析用法和解釋,依此獲得孔子及同時代人用字的習(xí)慣及意義解釋。結(jié)果與討論:1)“色”字在論語中出現(xiàn)了27次,其中重復(fù)詞句7次,如“巧言令色”(3次),“吾未見好德如好色者也”(2次),“色勃如也”(2次)。除“戒之在色”句,該字在26例用法中都表示“顏色”、“臉色、外貌、態(tài)度”。Concordanceanalysis“色”的意義分析:1)作“神色、外貌”講,引申為“態(tài)度”:與”易色“相類的動賓結(jié)構(gòu):好色、潤色、變色、辟色、觀色、令色;復(fù)合詞組:顏色、容色、戰(zhàn)色、慍色、喜色;單獨作名詞:色莊者乎、色斯舉矣、色思溫、色取仁而行違、色難、色厲而內(nèi)荏、色惡;2)與”易色“意義可相互參照的短語:變色、色莊。再說”戒之在色“。楊伯峻《論語譯注》引淮南子詮言訓(xùn):“凡人之性,少則猖狂,壯則強暴,老則好利”,只說以“好利”釋貪,“可能涵義太狹”,并未指出“猖狂”作“貪戀女色”解,但在自己的譯文中卻譯成了“莫貪戀女色”。少者猖狂不一定就是指貪戀女色。“戒之在色”之“色”若作“女色”解,在《論語》中是個孤例。所以,朱熹解“賢賢易色”為“把愛好女色變成尊重和學(xué)習(xí)賢德”,缺乏文本依據(jù)。其他解法,如“像喜歡女色一樣喜歡賢德”更屬無稽之談

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論