版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
語料庫語言學提綱1什么是語料庫
2語料庫的發(fā)展簡史
3語料庫的設計
4語料庫的加工
5語料庫的應用語料庫與語料庫語言學傳統(tǒng)上認為語料庫就是存放語言材料的倉庫(或數(shù)據(jù)庫)。語料庫語言學主要包括兩方面的內(nèi)容:一是對自然語料進行加工、標注;二是用已經(jīng)標注好的語料進行語言研究和應用開發(fā)。1什么是語料庫在今天,僅僅將語料庫視為存放語言材料的倉庫,是令人無法忍受的觀點。新一代的兆億級的大規(guī)模語料庫可以作為語言模型的訓練和測試手段,來評價一個語言模型的質(zhì)量;此外,諸如困惑度之類的統(tǒng)計方法也可利用語料庫來評估一個語法模型對語料的解釋能力。——GeoffreyLeech,TheStateofTheArtinCorpusLinguistics,1991,InAijmar,K.andAltenberg,B.,eds.,EnglishCorpusLinguistics:StudiesinHonorofJanSvartvik,London:Longman,1991.關于語料庫的三點基本認識1.語料庫中存放的是在語言的實際使用中真實出現(xiàn)過的語言材料;
2.語料庫是以電子計算機為載體承載語言知識的基礎資源;
3.真實語料需要經(jīng)過加工(分析和處理),才能成為有用的資源;語料庫示例(一)北京大學計算語言所富士通人民日報標注語料庫樣例:歷史/n將/d銘記/v這個/r坐標/n:/w北緯/b41.1/m度/q、/w東經(jīng)/b114.3/m度/q;/w人們/n將/d銘記/v這/r一/m時刻/n:/w1998年/t1月/t10日/t11時/t50分/t。/w……[中國/ns政府/n]nt順利/ad恢復/v對/p香港/ns行使/v主權(quán)/n,/w并/c按照/p“/w一國兩制/j”/w、/w“/w港人治港/l”/w、/w高度/d自治/v的/u方針/n保持/v香港/ns的/u繁榮/an穩(wěn)定/an。/w語料庫示例(二)London-Lund英語口語語料庫樣例^whata_boutacigar\ette#./*((4sylls))*/*I^w\on'thaveoneth/anks#*---/^aren'tyou.goingtositd/own#-/^[/\m]#-/^havemy_coffeeinp=eace#---/^quiteanice.roomto!s\itin((actually))#/*^\isn't*it#/*^y/\es#*---/轉(zhuǎn)引自TonyMcEnery&AndrewWilson,1996,CorpusLinguistics,p55。語料庫與語言知識庫語言知識庫(LinguisticDatabase)語料庫(corpora/corpus)2語料庫發(fā)展簡史早期語料庫語言學(20世紀50年代中期以前,喬提出轉(zhuǎn)換生成語法理論之前的所有基于語言材料的語言研究)(語言習得:方言學;語言教學;句法和語義;音系研究)20世紀50年代Chomsky的影響(1.喬認為基于語料庫得研究方法有誤,提倡理性主義;2.語料的不充分性,短語結(jié)構(gòu)具有遞歸性)第一代(1970-80年代)
第二代(1980-90年代)
第三代(1990年代-)第一代語料庫Brown語料庫
LOB語料庫百萬詞級以語言研究為導向
LLC語料庫第二代語料庫COBUILD語料庫?千萬詞級詞典編纂-應用導向Longman語料庫第三代語料庫ACL/DCI語料庫(上億詞級)
標準編碼體系UPenn樹庫
深度標注/多語種LDC超大規(guī)模NLP應用3語料庫的設計語料庫的編碼體系SGML(標準置標語言)/MarkUp/SGML/XML(可擴展的置標語言)/TR/REC-xmlTEI(文檔編碼計劃)http://www.tei-/CES(語料庫編碼標準)/Applications/index-co02.html馮志偉,1998,《標準通用置標語言SGML及其在自然語言處理中的應用》,載《當代語言學》1998年第4期。CES標準(CorpusEncodingStandard)語料庫/n標記/n應該/v有/v規(guī)范/n
<sample_corpora>…
語料庫A:不符合CES<p>
<s><wPOS="n">語料庫</w>
語料庫B:符合CES<wPOS="n">標記</w><wPOS="v">應該</w><wPOS="v">有</w><wPOS="n">規(guī)范</w></s></p>…</sample_corpora>4語料庫的加工語料庫標注(Annotation)1)詞性標記(Part-of-speechtagging)2)句法層次和范疇標記(Grammaticalparsing)3)詞義標記(Wordsensetagging)4)篇章指代標記(Anaphoricannotation)5)韻律標記(Prosodicannotation)……p.lancs.ac.uk/computing/research/ucrel/annotation.html語料庫加工工具雙語語料庫(BilingualCorpora)加工段落對齊
句子對齊
詞對齊
短語對齊雙語句子對齊基于長度(length-based)的對齊方法Gale&Church(1993)純粹基于句子的長度來估計對齊可能性資源要求少,算法效率相對較高
基于詞(word-based)的對齊方法一般要依賴詞典資源,算法效率相對較低雙語句子對齊示例雙語句子對齊問題5語料庫應用1.支持自然語言處理應用系統(tǒng)開發(fā)
2.支持語言學研究和語言教學研究語料庫對NLP的支持基于大規(guī)模語料庫的語音識別;
基于大規(guī)模語料庫的音字轉(zhuǎn)換技術(中文輸入);基于大規(guī)模語料庫的自動文本校對技術;
利用語料庫訓練HMM模型進行分詞,詞性標注,詞義標注,等等;
基于語料庫的句法分析;
基于語料庫的機器翻譯;
基于機器學習技術,通過語料庫獲取語言知識,包括搭配特征,句法規(guī)則,等等;
基于語料庫的語言模型訓練和語法模型評價;中文音字轉(zhuǎn)換基于語料庫的語言研究Concordance(索引——相關集列)Collocation(搭配的定量研究)CobuildConcordanceandCollocationsSamplerhttp://titania.cobuild.collins.co.uk/form.html臺灣“中研院”現(xiàn)代漢語平衡語料庫http://www.sinica.edu.tw/ftms-bin/kiwi.sh
孫茂松等,1997,《漢語搭配定量分析初探》,載《中國語文》1997年第1期。pp29-38。關于搭配的定義搭配是重復出現(xiàn)的;
“大手筆”——“大文科”/“大歷史”
搭配是不可類推的;(自由組合——受限組合)
“吃豆腐”——“吃白菜”——“喝西北風”
搭配一般具有正常的句法結(jié)構(gòu);
“戴高帽”——?“戴高”——“風馬牛不相及”
搭配通常與領域相關;
“語言習得”——“學說話”“風險投資”其他研究風格學研究
抽取詞表(單語,雙語)
統(tǒng)計字頻、詞頻,編寫語言教材
詞典編纂
句法結(jié)構(gòu)研究
句型研究
……小結(jié)語料庫對NLP和語言研究與教學都有非常重要的意義;語料庫的建設是非常昂貴的;要利用好語料庫,應該盡量打好統(tǒng)計基礎;進一步閱讀文獻Gale,W.&Church,K.,Aprogramforaligningsentenceinbilingualcorpora,InComputationallinguistics,Vol.19,No.1,1993.
劉昕,周明,黃昌寧,1995,《基于長度算法的中英雙語文本對齊的試驗》,載陳力為等主編《計算語言學進展與應用》,清華大學出版社1995年版。
孫宏林,1997,《從標注語料庫中歸納語法規(guī)則:“V+N”序列試驗分析》,載陳力為、袁琦主編《語言工程》,清華大學出版社1997年版,pp157-163。
《當代語言學》1998年第1期,語料庫語言學???。
GraemeKennedy,1998,AnIntroduction
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣場物業(yè)管理保密合同
- 保證書承諾文書的寫作要點
- 遼寧省大連市高中化學 第三章 金屬及其化合物 3.2.2 鈉的重要化合物習題課教案 新人教版必修1
- 2024秋一年級語文上冊 漢語拼音 11 ie üe er教案 新人教版
- 2024秋六年級英語上冊 Unit 4 I have a pen pal說課稿 人教PEP
- 2024六年級英語上冊 Module 2 Unit 2 There are lots of beautiful lakes in China教案 外研版(三起)
- 2023九年級物理上冊 第一章 分子動理論與內(nèi)能1.3 比熱容教案 (新版)教科版
- 河北省工程大學附屬中學初中體育《第一課 技巧 跳躍練習 》教案
- 2024學年八年級英語上冊 Module 9 Population Unit 1 The population of China is about 137 billion教案 (新版)外研版
- 2024-2025版高中物理 第二章 恒定電流 7 閉合電路的歐姆定律教案 新人教版選修3-1
- 血標本采集法并發(fā)癥
- 2024天津港保稅區(qū)管委會雇員公開招聘6人高頻500題難、易錯點模擬試題附帶答案詳解
- 上海離職協(xié)議書模板
- TGDNAS 056-2024 胚胎移植婦女圍術期護理
- 第十五屆全國交通運輸行業(yè)職業(yè)技能大賽(公路收費及監(jiān)控員賽項)考試題庫-下(簡答題)
- 2024年中考語文復習分類必刷:非連續(xù)性文本閱讀(含答案解析)
- 項目經(jīng)理或管理招聘面試題與參考回答(某大型國企)
- 《進一步規(guī)范管理燃煤自備電廠工作方案》發(fā)改體改〔2021〕1624號
- 2024年國際貿(mào)易實務試題及答案
- 血透進修總結(jié)匯報
- 冀少版(2024)七年級上冊生物單元+期中+期末共6套學情評估測試卷匯編(含答案)
評論
0/150
提交評論