言語讀書會20160529林宸升_第1頁
言語讀書會20160529林宸升_第2頁
言語讀書會20160529林宸升_第3頁
言語讀書會20160529林宸升_第4頁
言語讀書會20160529林宸升_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、語言研究所語言研究所 林宸林宸昇昇語料庫語料庫基本概念基本概念常用語料庫及線上資源簡常用語料庫及線上資源簡介介各類各類常用常用線上資源線上資源的使用的使用方法及技巧方法及技巧語料庫的研究應(yīng)用領(lǐng)域語料庫的研究應(yīng)用領(lǐng)域自建語料庫自建語料庫主要問題:分詞錯(cuò)誤;標(biāo)記錯(cuò)誤四類語料庫名稱:北語動態(tài)流通語料庫(DCC)所屬機(jī)構(gòu):北京語言大學(xué)國家語言資源監(jiān)測與研究中心網(wǎng)址:http:/類型:現(xiàn)代漢語書面語(報(bào)刊)名稱:人民日報(bào)切分/標(biāo)注語料庫所屬機(jī)構(gòu):北京大學(xué)計(jì)算語言學(xué)研究所網(wǎng)址:http:/ 以下分為語料庫使用技巧、資源庫使用技巧和搜索引擎使用技巧三部分,各舉一例說明,其他的語料庫、資源庫和搜索引擎的使用方

2、法及技巧可查閱相關(guān)幫助頁面或使用說明頁面。Picture 以以CCLCCL語料庫為例語料庫為例根據(jù)CCL語料庫的使用說明(http:/:8080/ccl_corpus/CCLCorpus_Readme.html,),可用下列特殊符號構(gòu)成查詢表達(dá)式,得到更精確的查詢結(jié)果。空格用于同時(shí)查詢兩個(gè)關(guān)鍵字,如:把 被,把 被 讓;普通查詢Picture 以以CCLCCL語料庫為例語料庫為例|用于查詢兩個(gè)關(guān)鍵字中的任意一個(gè),如:把|被,把|被|讓;$用于讓兩個(gè)關(guān)鍵字依次出現(xiàn),且間隔字?jǐn)?shù)小于或等于指定字?jǐn)?shù),如:與其$10不如,被$10把$3給$2了;普通查詢Picture 以以CCLCCL語料庫為例語料庫為

3、例#用于讓兩個(gè)關(guān)鍵字在同一句中同現(xiàn),且間隔字?jǐn)?shù)小于或等于指定字?jǐn)?shù),如:能力#3大;+用于讓兩個(gè)關(guān)鍵字依次出現(xiàn),間隔字?jǐn)?shù)等于指定字?jǐn)?shù),如:吃+3虧,我+10你+3他+2了,我$10你+3他$2了($與+混合搜索);普通查詢Picture 以以CCLCCL語料庫為例語料庫為例-用于在前一關(guān)鍵字之后的某個(gè)指定字?jǐn)?shù)范圍內(nèi),不出現(xiàn)后一關(guān)鍵字,如:把-4不;用于在前一關(guān)鍵字之前的某個(gè)指定字?jǐn)?shù)范圍內(nèi),不出現(xiàn)后一關(guān)鍵字,如:給4把;!用于將以!后的關(guān)鍵字作為主要關(guān)鍵字,并以該關(guān)鍵字為中心對齊搜索結(jié)果,如:被$10!給;普通查詢以以CCLCCL語料庫為例語料庫為例:和author,name,type,patte

4、rn 等關(guān)鍵字合用,分別實(shí)現(xiàn)查詢某一作者、某一作品名、某一語體、某種構(gòu)詞模式(如AABB、AB不AB)的目的,如:author:老舍 pattern:A來A去,type:外國文學(xué)普通查詢以以CCLCCL語料庫為例語料庫為例除了以上符號外,還可使用英文括號(),作用是改變查詢先后順序,如“(把|被)$10!給”是指查詢結(jié)果中先出現(xiàn)“把”或“被”兩個(gè)關(guān)鍵字中的一個(gè),然后再出現(xiàn)關(guān)鍵字“給”,且與前一關(guān)鍵字(“把”或“被”)中間的間隔小于等于10個(gè)字,同時(shí)以“給”為中心對齊搜索結(jié)果。普通查詢以以CCLCCL語料庫為例語料庫為例CCL語料庫中還提供了“模式查詢”,用于檢索特定的模式。比如“愛V 不 V”

5、、“有 X V X”等構(gòu)式。此時(shí),為了與文本中的字母進(jìn)行區(qū)分,要求匹配的變量字符用括號括起來。比如查找構(gòu)式“愛V 不 V”,其對應(yīng)的查詢表達(dá)式為“愛(V)不(V)”。模式查詢以以CCLCCL語料庫為例語料庫為例V的長度也可以指定,比如:查詢表達(dá)式為“愛(V,=3)不(V)”,表示要求V的長度為3;查詢表達(dá)式為“愛(V,5)不(V)”,表示要求V的長度不超過5;查詢表達(dá)式為“愛(V,2-5)不(V)”,表示要求V的長度介于2-5之間。模式查詢*經(jīng)過試驗(yàn),發(fā)現(xiàn)此時(shí)只允許=X,X,X-X的表達(dá)形式,不允許=X和=X的表達(dá)形式以中國知網(wǎng)為例以中國知網(wǎng)為例中國知網(wǎng)的“專業(yè)檢索表達(dá)式語法”頁面(http:

6、/ ,表示精確匹配,如:AU(作者)=袁隆平;%,表示查詢檢索詞或其一部分,如:TI%雜交水稻;專業(yè)檢索表達(dá)式語法以中國知網(wǎng)為例以中國知網(wǎng)為例BETWEEN (數(shù)字1,數(shù)字2)為年度階段查詢,如:YE(發(fā)表年份) BETWEEN (2000,2013)。除此之外,知網(wǎng)搜索還包括SEN、NEAR、PREV、AFT、PRG、$等搜索符號。專業(yè)檢索表達(dá)式語法以以GoogleGoogle為例為例常用的檢索符號:+或&或空格或AND,搜索結(jié)果同時(shí)包含兩個(gè)檢索詞,如語言學(xué)+索緒爾-或NOT ,搜索結(jié)果只包含前一檢索詞而不包含后一檢索詞,如語言學(xué) -索緒爾|或OR,搜索結(jié)果包含兩個(gè)檢索詞中的至少一個(gè)

7、,如:語言學(xué)|索緒爾;搜索符號以以GoogleGoogle為例為例“” ,精確搜索檢索詞,如:”索緒爾語言學(xué)”;(),在使用多種符號時(shí)用以調(diào)整搜索條件的優(yōu)先級,如:(語言學(xué) 符號學(xué))|索緒爾;*,通配符,表示一個(gè)任意字符(包括漢字),如:*緒爾語言學(xué)。搜索符號以以GoogleGoogle為例為例命令命令是指由一個(gè)指定的命令項(xiàng)加上英文冒號所構(gòu)成的指令,用來檢索含有特定內(nèi)容限制的網(wǎng)絡(luò)數(shù)據(jù),和CCL語料庫中的author:、name:等搜索表達(dá)式類似。常用的檢索命令包括以下幾種:1. site:命令,用來在某一網(wǎng)址下搜素某檢索詞,如:索緒爾 site:,此檢索命令可用來查找電子書;搜索命令以以Goo

8、gleGoogle為例為例filetype:命令,用來搜索屬于某種文件類型的文件,如:索緒爾 filetype:ppt;related:命令,用來搜索與指定頁面相關(guān)的其他網(wǎng)頁,如:related:;intitle:命令,用來搜索網(wǎng)頁標(biāo)題中包含某檢索詞的頁面,如:intitle:索緒爾;inurl:命令,用來搜索網(wǎng)址中包含某檢索詞的頁面,如:inurl:.gov。搜索命令某個(gè)詞的詞頻統(tǒng)計(jì)某個(gè)詞的詞頻統(tǒng)計(jì)多個(gè)詞的詞頻比較多個(gè)詞的詞頻比較詞語在不同語體(語域)詞語在不同語體(語域)中出現(xiàn)的傾向性分析中出現(xiàn)的傾向性分析詞語間的傾向性搭配(同詞語間的傾向性搭配(同現(xiàn))情況及比較分析現(xiàn))情況及比較分析離合

9、詞的離合程度研究離合詞的離合程度研究各種句型的出現(xiàn)頻率及典各種句型的出現(xiàn)頻率及典型特征分析型特征分析某詞語出現(xiàn)頻率某詞語出現(xiàn)頻率的歷時(shí)變的歷時(shí)變化研究化研究某詞語或結(jié)構(gòu)的語源考察某詞語或結(jié)構(gòu)的語源考察語法化不同發(fā)展階段考察語法化不同發(fā)展階段考察對外漢語中確定表述的合對外漢語中確定表述的合理性理性程度程度以及偏誤分析以及偏誤分析確定目的或主題確定目的或主題搜索或錄入相關(guān)資源數(shù)據(jù)搜索或錄入相關(guān)資源數(shù)據(jù)進(jìn)行必要的處理進(jìn)行必要的處理,制成生,制成生語料庫語料庫對生語料庫中的文字作加對生語料庫中的文字作加標(biāo)處理標(biāo)處理進(jìn)行人工校正進(jìn)行人工校正自建語料庫是指按照某一特定目的或論題,尋找相關(guān)的原自建語料庫是指

10、按照某一特定目的或論題,尋找相關(guān)的原始語料資源,輸入電腦的文檔中,并進(jìn)行必要處理后,建始語料資源,輸入電腦的文檔中,并進(jìn)行必要處理后,建成的專題性質(zhì)的語料庫,有時(shí)還要進(jìn)行加標(biāo)操作。成的專題性質(zhì)的語料庫,有時(shí)還要進(jìn)行加標(biāo)操作。 由于漢英雙語語料庫和多語平行翻譯語料庫的欠缺,在進(jìn)行跨語言比較(如語言類型學(xué)、對比語言學(xué))研究時(shí),常需要借助英語語料庫的相關(guān)資源獲取英語的相關(guān)語料資源。這里簡單介紹兩個(gè)較為著名的英語語料庫。名稱:BNC(英國國家語料庫,British National Corpus)簡介:是牛津英語詞典、朗文當(dāng)代英語詞典等詞典所依據(jù)的主要語料庫資源之一,也是英語語料庫中最為出名和收詞量最大的在線語料庫之一。由牛津出版社、朗文出版公司、錢伯斯-哈羅普出版公司、牛津大學(xué)計(jì)算機(jī)服務(wù)中心、蘭開斯特大學(xué)英語計(jì)算機(jī)中心以及大英圖書館等機(jī)構(gòu)聯(lián)合研制,于1994年上線。其來源廣泛,涵蓋20世紀(jì)后期至今的當(dāng)代英式英語,資源達(dá)1億詞,包括口語(10%)和書面語(90%),包括了4124篇英語文本材料,在加標(biāo)上則采用了三級加標(biāo)方式。網(wǎng)址:/bn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論