常見語料庫使用入門講述_第1頁
常見語料庫使用入門講述_第2頁
常見語料庫使用入門講述_第3頁
常見語料庫使用入門講述_第4頁
常見語料庫使用入門講述_第5頁
已閱讀5頁,還剩55頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、常見語料庫使用入門語言研究中的小技能get華中師范大學語言研究所華中師范大學語言研究所20152015級級 秦志君秦志君PPT模板下載: 行業(yè)PPT模板: 節(jié)日PPT模板: PPT素材下載: PPT圖表下載: 優(yōu)秀PPT下載: PPT教程: Word教程: Excel教程: 資料下載: PPT課件下載: 范文下載: 試卷下載: 教案下載: PPT論壇: 主要部分第一節(jié) 語料庫及其分類第二節(jié)公共語料庫檢索第三節(jié) 個人語料庫創(chuàng)建0第一節(jié)語料庫及其分類語料庫及其分類1語料庫(corpus):存放語言材料的倉庫?,F(xiàn)代的語料庫是指存放在計算機里的原始語料文本或經(jīng)過加工后帶有語言學信息標注的語料文本的匯集

2、。三點基本認識:A.必須是實際使用中真實出現(xiàn)過的語言材料;B.須以計算機為必要載體;C.材料分析加工后才有用。語料庫及其分類2語料庫及其分類3第二節(jié)公共語料庫檢索公共語料庫檢索4統(tǒng)計頻率 查找例句驗證分析參數(shù)設置帶著問題收集證據(jù)基于檢索公共語料庫檢索5我國21個知名語料庫01.中央研究院近代漢語標記語料:.tw/Early_Mandarin/ 02.中央研究院漢籍電子文獻:.tw/ftms-bin/ftmsw3 03.國家現(xiàn)代漢語語料庫:1:8080/04.國家語委現(xiàn)代漢語語料

3、庫:http:/ 13.閩南語典藏:.tw/14.香港城市大學LIVAC共時語料庫:/search.php公共語料庫檢索7我國21個知名語料庫15.浙江師范大學的歷史文獻語庫:http:/ (ICE):http: /www.ucl.ac.uk/english-usage/ice/htm02.美國國家語料庫(ANC):/03.美國當代英語語料庫(COCA):/04.美國近當代英語語料庫(COHA):http:/co

4、/coha/05.英國國家語料庫(BNC):/bnc/06.柯林斯英語語料庫(BOE):http:/ /www.ucl.ac.uk/english-usage/08.澳大利亞英語語料庫(ACE):http: /khnt.hit.uib.no/icame/manuals/ 09.新規(guī)范語料庫(NMC):http: /www.sketchengine.co.uk/公共語料庫檢索9國外18個知名英語語料庫10.LLC口語語料庫: http:/khnt.hit.uib.no/icame/manuals/11.COBUILD語料庫:http

5、:/www.collins.co.uk/Corpus/CorpusSearch.aspx12.ICE東非等分庫:http:/www.ucl.ac.uk/english-usage/ice/avail. htm13.ARCHER語料庫:/english/degree_programs. asp14.CEECS語料庫:http:/www.eng.helsinki.fi/varieng/main/corporal.htm15.SCTS語料庫:http: /www.scottishcorpus.ac.uk/16.VOICE語料庫:http: /www.univ

6、ie.ac.at/Anglistik/voice/17.ELFA語料庫:http: /www.uta.fi/laitokset/kielet/engf/research/elfa/18.朗曼語料庫:http: /www.long- 一種語言現(xiàn)象我們至少得收集多少條語料呢?徐杰教授認為,語料多多益善,至少應收集500條。大數(shù)定律(Law of Large Numbers): 指在隨機試驗中,每次出現(xiàn)的結果不同,但是大量重復試驗出現(xiàn)的結果的平均值卻幾乎總是接近于某個確定的值。公共語料庫檢索11由收集驗證到實證分析需要學點統(tǒng)計學抽樣與調查離散與連續(xù)頻率與分布描述與圖示樣本與總體估計與檢驗統(tǒng)計統(tǒng)計置信

7、區(qū)間T檢驗公共語料庫檢索12由收集驗證到實證分析需要學點統(tǒng)計學集中趨勢的特征數(shù):平均數(shù)、眾數(shù)、中位數(shù)、調和平均數(shù)、幾何平均數(shù)變異程度的特征數(shù):極差、四分位差、平均差、方差、標準差參數(shù)估計與假設檢驗以樣本對總體的推斷一般步驟(1)明確問題(2)收集信息(3)提出假設(4)構建模型(5)模型求解(6)分析檢測公共語料庫檢索13由收集驗證到實證分析需要學點統(tǒng)計學在自然現(xiàn)象和社會現(xiàn)象中,大量的隨機變量都服從或近似地服從正態(tài)分布。大部分參數(shù)檢驗,比如t檢驗,方差分析,回歸分析等,要求數(shù)據(jù)符合正態(tài)分布。三個基本點:三個基本點:1)呈鐘形,形態(tài)如左圖;2)兩個參數(shù),均值和標準差;3)圖象大致表示:平均數(shù)周圍

8、的屬性值在總體上占到大多數(shù)。正態(tài)分布正態(tài)分布公共語料庫檢索14公共語料庫的檢索說明以BCC語料庫為例初階的進階的僅輸入關鍵字查找關鍵字特殊符號檢索式搜索語料庫檢索百度一下公共語料庫檢索15公共語料庫的檢索說明以BCC語料庫為例統(tǒng)計統(tǒng)計公共語料庫檢索16公共語料庫的檢索說明以BCC語料庫為例檢索式說明檢索式可以是字串、詞串、詞性的組合而成的查詢模式。例如:如果檢索“我想吃”后面緊接著一個名詞的語言實例,檢索式為:我想吃n,這里 n 是詞性符號,表示名詞。公共語料庫檢索17公共語料庫的檢索說明以BCC語料庫為例檢索式示例公共語料庫檢索18公共語料庫的檢索說明以BCC語料庫為例檢索式示例公共語料庫檢

9、索19公共語料庫的檢索說明以BCC語料庫為例特殊含義符號公共語料庫檢索20公共語料庫的檢索說明以BCC語料庫為例特殊含義符號公共語料庫檢索21公共語料庫的檢索說明以BCC語料庫為例詞性列表公共語料庫檢索22公共語料庫的檢索說明以BCC語料庫為例構詞公共語料庫檢索23公共語料庫的檢索說明以BCC語料庫為例構詞合成詞公共語料庫檢索24公共語料庫的檢索說明以BCC語料庫為例搭配公共語料庫檢索25公共語料庫的檢索說明以BCC語料庫為例離合公共語料庫檢索26公共語料庫的檢索說明以BCC語料庫為例句型公共語料庫檢索27公共語料庫的檢索說明以BCC語料庫為例定界公共語料庫檢索28公共語料庫的檢索說明以BCC

10、語料庫為例構式公共語料庫檢索29公共語料庫的檢索說明以BCC語料庫為例構式公共語料庫檢索30公共語料庫的檢索說明以BCC語料庫為例自定義搜索公共語料庫檢索31公共語料庫的檢索說明以BCC語料庫為例檢索結果公共語料庫檢索32公共語料庫的檢索說明以BCC語料庫為例歷時檢測公共語料庫檢索33公共語料庫的檢索說明以BCC語料庫為例檢索統(tǒng)計公共語料庫檢索34公共語料庫的檢索說明以BCC語料庫為例篩選查看上下文如果想對檢索結果進一步篩選,可以使用篩選功能,對檢索結果進一步剔除或者僅僅保留符合篩選檢索式的實例。公共語料庫檢索35公共語料庫的檢索說明以BCC語料庫為例下載高級設置公共語料庫檢索36公共語料庫的

11、檢索說明以BCC語料庫為例句法樹注意檢索格式 多摸索多使用 依據(jù)調查需要設置調查項目學點兒統(tǒng)計學 學點編程語言 公共語料庫檢索37第三節(jié) 個人語料庫創(chuàng)建個人語料庫創(chuàng)建38材料/工具準備階段1、電腦、辦公軟件2、語料的選取標準3、語料庫大小設定4、已收好集的語料5、采取txt格式保存生語料庫熟語料庫加工標注詞性標記句法標記詞義標記篇章指代標記韻律標記若只是要詞頻數(shù)據(jù),則生語料庫足夠,word/wps或txt記事本都可以建立word/wps的“查找替換”工具即可,txt記事本的“編輯-查找”工具也行?!昂辍眰€人語料庫創(chuàng)建39熟語料庫加工階段需要工具/材料:1、電腦、辦公軟件2、語料庫加工工具2、語

12、料的選取標準3、語料庫大小設定4、已存的生語料庫5、采取txt格式保存?zhèn)€人語料庫創(chuàng)建40熟語料庫加工階段可以采用這個工具雙擊 打開軟件個人語料庫創(chuàng)建41熟語料庫加工階段需要說明的是:自己找到的語料庫必須是已經(jīng)集中放好到“語料庫”這樣的文件夾中。點擊 打開文件個人語料庫創(chuàng)建42熟語料庫加工階段打開“語料庫”文件夾個人語料庫創(chuàng)建43熟語料庫加工階段比如,選擇“癡人”這個語料個人語料庫創(chuàng)建44熟語料庫加工階段然后,點擊“切分標注”即可個人語料庫創(chuàng)建45熟語料庫加工階段然后,點擊全選,復制到新建的一個txt文檔,保存文件,得到一個熟語料然后,把新存的那個熟語料文件保存到一個新建的“熟語料庫”文件夾中依

13、據(jù)此法,逐一對生語料庫中的單個語料進行“詞性標注”,然后逐一保存到“熟語料庫”中。這時,初加工的自建熟語料庫的完成了。個人語料庫創(chuàng)建46語料庫的檢索階段雙擊該軟件進入界面推薦使用的軟件AntConc個人語料庫創(chuàng)建47語料庫的檢索階段接下來,英語不好的話,可以設置語言,點擊“Global Settings”菜單,找到“Language Encodings”,點擊該菜單,再點擊右手邊的“Edit”,這時會彈出一些選項,選擇“Chinese Encodings”,在選擇該項目右邊的“Chinese(euc-cn),最后點擊右下方的“Apply”。個人語料庫創(chuàng)建48語料庫的檢索階段這時,會自動回到這個

14、界面?zhèn)€人語料庫創(chuàng)建49語料庫的檢索階段點擊“File”選項,再選擇“open files”,然后得找到“熟語料庫”文件夾,點擊。個人語料庫創(chuàng)建50語料庫的檢索階段選中全部語料,然后點擊“打開”。個人語料庫創(chuàng)建51語料庫的檢索階段所有“熟語料庫”中的單個語料都出現(xiàn)在了Antconc軟件的左側欄中,接下來,我們就可檢索了。比如,你檢索、研究的是“很+X”,那么由于轉成了熟語料庫,檢索式應為“很/d */a”(很接形容詞)、“很/d */v”(很接動詞)等等,然后依檢索式進行檢索。需要說明的是“很/d */a”詞與詞之間得空一格,就像英語中“I have ”得空一格。個人語料庫創(chuàng)建52語料庫的檢索階段比如說,檢索“很/d */a”,在檢索欄中寫上“很/d */a”點擊start 就出現(xiàn)了個人語料庫創(chuàng)建53語料庫的檢索階段Concordance Hits 代表的是出現(xiàn)“很/d */a”也就是(很+形容詞)出現(xiàn)的次數(shù),我們可知出現(xiàn)了“46”,那么這就意味著,很接形容詞在我的這個語料中出現(xiàn)了46次。依據(jù)此法可檢索“很/d */v”的次數(shù)。*代表任意字符,也就意味著在這個語料庫中任意的詞是不是,但是“/v”這種形式,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論