常見語料庫使用入門_第1頁
常見語料庫使用入門_第2頁
常見語料庫使用入門_第3頁
常見語料庫使用入門_第4頁
常見語料庫使用入門_第5頁
已閱讀5頁,還剩55頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

常見語料庫使用入門第1頁/共60頁PPT模板下載:/moban/行業(yè)PPT模板:/hangye/節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:

主要部分第一節(jié)

語料庫及其分類第二節(jié)公共語料庫檢索第三節(jié)

個人語料庫創(chuàng)建0第2頁/共60頁第一節(jié)語料庫及其分類第3頁/共60頁語料庫及其分類1語料庫(corpus):存放語言材料的倉庫。現代的語料庫是指存放在計算機里的原始語料文本或經過加工后帶有語言學信息標注的語料文本的匯集。三點基本認識:A.必須是實際使用中真實出現過的語言材料;B.須以計算機為必要載體;C.材料分析加工后才有用。第4頁/共60頁語料庫及其分類2第5頁/共60頁語料庫及其分類3第6頁/共60頁第二節(jié)公共語料庫檢索第7頁/共60頁公共語料庫檢索4統(tǒng)計頻率

查找例句驗證分析參數設置帶著問題收集證據基于檢索第8頁/共60頁公共語料庫檢索5我國21個知名語料庫01.中央研究院近代漢語標記語料:.tw/Early_Mandarin/02.中央研究院漢籍電子文獻:.tw/ftms-bin/ftmsw3

03.國家現代漢語語料庫:1:8080/04.國家語委現代漢語語料庫:/retrieval/index.html05.樹圖數據庫:.tw/06.語料庫語言學在線:07.北京大學CCL語料庫:/Yuliao_Contents.Asp第9頁/共60頁公共語料庫檢索6我國21個知名語料庫08.北京大學《人民日報》標注語料庫:09.北京語言大學的語料庫:/kych/H.htm10.清華大學TH-ACorpus:/ainlp/source.htm11.山西大學語料庫:/homepage/cslab/sxuc1.htm12.臺灣南島語典藏:.tw/Formosan/13.閩南語典藏:.tw/14.香港城市大學LIVAC共時語料庫:/search.php第10頁/共60頁公共語料庫檢索7我國21個知名語料庫15.浙江師范大學的歷史文獻語庫:/xueke/hyywzx/xkjj.htm16.中科院計算所語料庫:/corpus/query_process.php17.中文語言資源聯盟:/xyzy.htm18.SKETCHENGINE多語言語料庫:www.sketchengine.co.uk19.LIVAC共時語料庫:/20.紅樓夢漢英平行語料庫:/hongloumeng/21.北京語言大學BCC語料庫:/第11頁/共60頁公共語料庫檢索8國外18個知名英語語料庫01.國際英語語料庫(ICE):http://www.ucl.ac.uk/english-usage/ice/htm02.美國國家語料庫(ANC):/03.美國當代英語語料庫(COCA):/04.美國近當代英語語料庫(COHA):http:///coha/05.英國國家語料庫(BNC):http:///bnc/06.柯林斯英語語料庫(BOE):http://www./wordbanks/07.英國英語語料庫(SEU):http://www.ucl.ac.uk/english-usage/08.澳大利亞英語語料庫(ACE):http://khnt.hit.uib.no/icame/manuals/09.新規(guī)范語料庫(NMC):http://www.sketchengine.co.uk/第12頁/共60頁公共語料庫檢索9國外18個知名英語語料庫10.LLC口語語料庫:http://khnt.hit.uib.no/icame/manuals/11.COBUILD語料庫:http://www.collins.co.uk/Corpus/CorpusSearch.aspx12.ICE東非等分庫:http://www.ucl.ac.uk/english-usage/ice/avail.htm13.ARCHER語料庫:/english/degree_programs.asp14.CEECS語料庫:http://www.eng.helsinki.fi/varieng/main/corporal.htm15.SCTS語料庫:http://www.scottishcorpus.ac.uk/16.VOICE語料庫:http://www.univie.ac.at/Anglistik/voice/17.ELFA語料庫:http://www.uta.fi/laitokset/kielet/engf/research/elfa/18.朗曼語料庫:http://www.long-/dictionaries/corpus/index.html第13頁/共60頁公共語料庫檢索10小問題:

一種語言現象我們至少得收集多少條語料呢?徐杰教授認為,語料多多益善,至少應收集500條。大數定律(LawofLargeNumbers):

指在隨機試驗中,每次出現的結果不同,但是大量重復試驗出現的結果的平均值卻幾乎總是接近于某個確定的值。第14頁/共60頁公共語料庫檢索11由收集驗證到實證分析需要學點統(tǒng)計學抽樣與調查離散與連續(xù)頻率與分布描述與圖示樣本與總體估計與檢驗統(tǒng)計置信區(qū)間T檢驗第15頁/共60頁公共語料庫檢索12由收集驗證到實證分析需要學點統(tǒng)計學集中趨勢的特征數:平均數、眾數、中位數、調和平均數、幾何平均數變異程度的特征數:極差、四分位差、平均差、方差、標準差參數估計與假設檢驗——以樣本對總體的推斷一般步驟(1)明確問題(2)收集信息(3)提出假設(4)構建模型(5)模型求解(6)分析檢測第16頁/共60頁公共語料庫檢索13由收集驗證到實證分析需要學點統(tǒng)計學在自然現象和社會現象中,大量的隨機變量都服從或近似地服從正態(tài)分布。大部分參數檢驗,比如t檢驗,方差分析,回歸分析等,要求數據符合正態(tài)分布。三個基本點:1)呈鐘形,形態(tài)如左圖;2)兩個參數,均值和標準差;3)圖象大致表示:平均數周圍的屬性值在總體上占到大多數。正態(tài)分布第17頁/共60頁公共語料庫檢索14公共語料庫的檢索說明——以BCC語料庫為例初階的進階的僅輸入關鍵字查找關鍵字特殊符號檢索式搜索語料庫檢索≠百度一下第18頁/共60頁公共語料庫檢索15公共語料庫的檢索說明——以BCC語料庫為例統(tǒng)計第19頁/共60頁公共語料庫檢索16公共語料庫的檢索說明——以BCC語料庫為例檢索式說明檢索式可以是字串、詞串、詞性的組合而成的查詢模式。例如:如果檢索“我想吃”后面緊接著一個名詞的語言實例,檢索式為:我想吃n,這里n是詞性符號,表示名詞。第20頁/共60頁公共語料庫檢索17公共語料庫的檢索說明——以BCC語料庫為例檢索式示例第21頁/共60頁公共語料庫檢索18公共語料庫的檢索說明——以BCC語料庫為例檢索式示例第22頁/共60頁公共語料庫檢索19公共語料庫的檢索說明——以BCC語料庫為例特殊含義符號第23頁/共60頁公共語料庫檢索20公共語料庫的檢索說明——以BCC語料庫為例特殊含義符號第24頁/共60頁公共語料庫檢索21公共語料庫的檢索說明——以BCC語料庫為例詞性列表第25頁/共60頁公共語料庫檢索22公共語料庫的檢索說明——以BCC語料庫為例構詞第26頁/共60頁公共語料庫檢索23公共語料庫的檢索說明——以BCC語料庫為例構詞合成詞第27頁/共60頁公共語料庫檢索24公共語料庫的檢索說明——以BCC語料庫為例搭配第28頁/共60頁公共語料庫檢索25公共語料庫的檢索說明——以BCC語料庫為例離合第29頁/共60頁公共語料庫檢索26公共語料庫的檢索說明——以BCC語料庫為例句型第30頁/共60頁公共語料庫檢索27公共語料庫的檢索說明——以BCC語料庫為例定界第31頁/共60頁公共語料庫檢索28公共語料庫的檢索說明——以BCC語料庫為例構式第32頁/共60頁公共語料庫檢索29公共語料庫的檢索說明——以BCC語料庫為例構式第33頁/共60頁公共語料庫檢索30公共語料庫的檢索說明——以BCC語料庫為例自定義搜索第34頁/共60頁公共語料庫檢索31公共語料庫的檢索說明——以BCC語料庫為例檢索結果第35頁/共60頁公共語料庫檢索32公共語料庫的檢索說明——以BCC語料庫為例歷時檢測第36頁/共60頁公共語料庫檢索33公共語料庫的檢索說明——以BCC語料庫為例檢索統(tǒng)計第37頁/共60頁公共語料庫檢索34公共語料庫的檢索說明——以BCC語料庫為例篩選查看上下文如果想對檢索結果進一步篩選,可以使用篩選功能,對檢索結果進一步剔除或者僅僅保留符合篩選檢索式的實例。第38頁/共60頁公共語料庫檢索35公共語料庫的檢索說明——以BCC語料庫為例下載高級設置第39頁/共60頁公共語料庫檢索36公共語料庫的檢索說明——以BCC語料庫為例句法樹第40頁/共60頁注意檢索格式多摸索多使用

依據調查需要設置調查項目學點兒統(tǒng)計學學點編程語言

公共語料庫檢索37第41頁/共60頁第三節(jié)

個人語料庫創(chuàng)建第42頁/共60頁個人語料庫創(chuàng)建38材料/工具準備階段1、電腦、辦公軟件2、語料的選取標準3、語料庫大小設定4、已收好集的語料5、采取txt格式保存生語料庫熟語料庫加工標注詞性標記句法標記詞義標記篇章指代標記韻律標記……若只是要詞頻數據,則生語料庫足夠,word/wps或txt記事本都可以建立word/wps的“查找替換”工具即可,txt記事本的“編輯-查找”工具也行?!昂辍钡?3頁/共60頁個人語料庫創(chuàng)建39熟語料庫加工階段需要工具/材料:1、電腦、辦公軟件2、語料庫加工工具2、語料的選取標準3、語料庫大小設定4、已存的生語料庫5、采取txt格式保存第44頁/共60頁個人語料庫創(chuàng)建40熟語料庫加工階段可以采用這個工具雙擊打開軟件第45頁/共60頁個人語料庫創(chuàng)建41熟語料庫加工階段需要說明的是:自己找到的語料庫必須是已經集中放好到“語料庫”這樣的文件夾中。點擊打開文件第46頁/共60頁個人語料庫創(chuàng)建42熟語料庫加工階段打開“語料庫”文件夾第47頁/共60頁個人語料庫創(chuàng)建43熟語料庫加工階段比如,選擇“癡人”這個語料第48頁/共60頁個人語料庫創(chuàng)建44熟語料庫加工階段然后,點擊“切分標注”即可第49頁/共60頁個人語料庫創(chuàng)建45熟語料庫加工階段然后,點擊全選,復制到新建的一個txt文檔,保存文件,得到一個熟語料然后,把新存的那個熟語料文件保存到一個新建的“熟語料庫”文件夾中依據此法,逐一對生語料庫中的單個語料進行“詞性標注”,然后逐一保存到“熟語料庫”中。這時,初加工的自建熟語料庫的完成了。第50頁/共60頁個人語料庫創(chuàng)建46語料庫的檢索階段雙擊該軟件進入界面推薦使用的軟件AntConc第51頁/共60頁個人語料庫創(chuàng)建47語料庫的檢索階段接下來,英語不好的話,可以設置語言,點擊“GlobalSettings”菜單,找到“LanguageEncodings”,點擊該菜單,再點擊右手邊的“Edit”,這時會彈出一些選項,選擇“ChineseEncodings”,在選擇該項目右邊的“Chinese(euc-cn),最后點擊右下方的“Apply”。第52頁/共60頁個人語料庫創(chuàng)建48語料庫的檢索階段這時,會自動回到這個界面第53頁/共60頁個人語料庫創(chuàng)建49語料庫的檢索階段點擊“File”選項,再選擇“openfiles”,然后得找到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論