![五-語料庫匯總_第1頁](http://file4.renrendoc.com/view/c6c81dca06e5a5b381ab31a6a8ca2a2f/c6c81dca06e5a5b381ab31a6a8ca2a2f1.gif)
![五-語料庫匯總_第2頁](http://file4.renrendoc.com/view/c6c81dca06e5a5b381ab31a6a8ca2a2f/c6c81dca06e5a5b381ab31a6a8ca2a2f2.gif)
![五-語料庫匯總_第3頁](http://file4.renrendoc.com/view/c6c81dca06e5a5b381ab31a6a8ca2a2f/c6c81dca06e5a5b381ab31a6a8ca2a2f3.gif)
![五-語料庫匯總_第4頁](http://file4.renrendoc.com/view/c6c81dca06e5a5b381ab31a6a8ca2a2f/c6c81dca06e5a5b381ab31a6a8ca2a2f4.gif)
![五-語料庫匯總_第5頁](http://file4.renrendoc.com/view/c6c81dca06e5a5b381ab31a6a8ca2a2f/c6c81dca06e5a5b381ab31a6a8ca2a2f5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、五_語料庫匯總五_語料庫匯總1 什么是語料庫2 語料庫的發(fā)展3 語料的收集與加工4 語料庫的應用5 小結第2頁,共48頁幻燈片。1 什么是語料庫第2頁,共48頁幻燈片。1 什么是語料庫語料庫(corpus):存放語言材料的倉庫現(xiàn)代的語料庫是指存放在計算機里的原始語料文本 或 經(jīng)過加工后帶有語言學信息標注的語料文本。關于語料庫的三點基本認識:語料庫中存放的是在實際使用中真實出現(xiàn)過的語言材料;語料庫是以計算機為載體承載語言知識的基礎資源;真實語料需要經(jīng)過分析、處理和加工,才能成為有用的資源。第3頁,共48頁幻燈片。1 什么是語料庫語料庫(corpus):存放語言材料的倉庫1 什么是語料庫北京大學計
2、算語言所富士通人民日報標注語料庫樣例:歷史/n 將/d 銘記/v 這個/r 坐標/n :/w 北緯/b /m 度/q 、/w 東經(jīng)/b /m 度/q ;/w 人們/n 將/d 銘 記/v 這/r 一/m 時刻/n :/w 年/t 月/t 日/t 時/t 分/t 。/w中國/ns 政府/nnt 順利/ad 恢復/v 對/p 香港/ns 行使/v 主權/n ,/w 并/c 按照/p “/w 一國兩制/j ”/w 、/w “/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方針/n 保持/v 香港/ns 的/u 繁榮/an 穩(wěn)定/an 。/w第4頁,共48頁幻燈片。1 什么是語料庫北京
3、大學計算語言所富士通人民日報標注語料庫1 什么是語料庫第5頁,共48頁幻燈片。1 什么是語料庫第5頁,共48頁幻燈片。1 什么是語料庫London-Lund英語口語語料庫樣例:what a_bout a cigarette# . /*(4 sylls)* /*I wont have one th/anks#* - - - /arent you .going to sit d/own# - /m# - /have my _coffee in p=eace# - - - /quite a nice .room to !sit in (actually)# /*isnt* it# /*y/es#*
4、- - - /第6頁,共48頁幻燈片。1 什么是語料庫London-Lund英語口語語料庫樣例:1 什么是語料庫London-Lund英語口語語料庫部分標記:第7頁,共48頁幻燈片。1 什么是語料庫London-Lund英語口語語料庫部分標語料庫的分類生語料庫:未經(jīng)加工的,沒有任何切分、標注標記的原始語料庫熟語料庫:經(jīng)過加工,帶有切分、標注標記的語料庫第8頁,共48頁幻燈片。語料庫的分類第8頁,共48頁幻燈片。1 什么是語料庫語料庫的分類:口語語料書面語料 共時語料 歷時語料 平衡語料 專門語料監(jiān)控語料樣本語料語料庫的分類:生語料庫:未經(jīng)加工的,沒有任何切分、標注標記的原始語料庫熟語料庫:經(jīng)過
5、加工,帶有切分、標注標記的語料庫第9頁,共48頁幻燈片。1 什么是語料庫語料庫的分類:語料庫的分類:第9頁,共481 什么是語料庫語料庫與語言知識庫:語料庫:以語言的真實材料為基礎來呈現(xiàn)語言知識,反映語言單位的用法和意義,基本以知識的原始形態(tài)表現(xiàn)語言的原貌;語言知識庫:由專家從大量的實例中提煉、抽象、概括出來的系統(tǒng)的語言知識,如電子詞典、句法規(guī)則庫、詞法分析規(guī)則庫等。第10頁,共48頁幻燈片。1 什么是語料庫語料庫與語言知識庫:第10頁,共48頁幻燈1 什么是語料庫在新華字典中查詢“語言學”: “yynxu philology;linguistics對文學的研究,包括或可能包括語法、評論、文學
6、史、語言史、文學體系及任何與文學有關或與使用于文學的語言有關的內(nèi)容 ”在CCL語料庫中:第11頁,共48頁幻燈片。1 什么是語料庫在新華字典中查詢“語言學”: 第11頁,共1 什么是語料庫2 語料庫的發(fā)展3 語料的收集與加工4 語料庫的應用5 小結第12頁,共48頁幻燈片。1 什么是語料庫第12頁,共48頁幻燈片。2 語料庫的發(fā)展第一代(197080年代) Brown語料庫 LOB語料庫 LLC語料庫特點:百萬詞級,語言研究1960年代初,美國Brown大學,100萬詞次,當代美國英語,根據(jù)系統(tǒng)性原則采樣1970年代初,英國Lancaster大學,挪威Oslo大學,挪威Bergen大學,當代英
7、國英語1960年代初,由London大學Randolph Quirk主持,收集2000小時的談話和廣播等口語素材并整理成書面材料,由瑞典Lund大學J.Svartvik主持全部錄入計算機,1975年建成第13頁,共48頁幻燈片。2 語料庫的發(fā)展第一代(197080年代)1960年代初2 語料庫的發(fā)展第二代(198090年代) COBUILD語料庫2000萬詞級 Longman語料庫 特點:千萬詞級,詞典編纂建于1980年代,由英國Birmingham大學與Collins出版社合作完成,規(guī)模達2000萬詞次,基于該語料庫出版的CollinsCobuild詞典(1987)受到了廣泛的好評建于198
8、0年代,包括三個語料庫:LLELC語料庫(Longman/Lancaster英語語料庫)、LSC語料庫(Longman口語語料庫)、LCLE(Longman英語學習語料庫);目標是編撰英語學習詞典,為外國人學習英語服務,詞典規(guī)模達5000萬詞次第14頁,共48頁幻燈片。2 語料庫的發(fā)展第二代(198090年代)建于1980年2 語料庫的發(fā)展第三代(1990年代至今)ACL/DCI語料庫 UPenn樹庫 LDC 美國Pennsylvania大學80年代末發(fā)起;1993年,完成了對近300萬英語詞的句子語法結構標注;2000年發(fā)布中文樹庫第一版(10萬詞,4185個句子,325 data file
9、s(新華社語料);2004年發(fā)布中文樹庫4.0版(404,156 words, 664,633 Hanzi, 15,162 sentences,and 838 data files(大陸、香港、臺灣語料)LDC語言數(shù)據(jù)聯(lián)合會,有163 個語料庫 (包括Text 和 speech)美國計算語言學會倡議發(fā)起“數(shù)據(jù)采集計劃” ,由賓州大學M.Liberman主持,保存語料原始文本形式以及SGML標注信息第15頁,共48頁幻燈片。2 語料庫的發(fā)展第三代(1990年代至今)美國Pennsy2 語料庫的發(fā)展中文樹庫示例:他/PN 還/AD 提出/VV 一/CD 系列/M 具體/JJ 措施/NN 和/CC
10、政策/NN 要點/NN 。/PU特點:超大規(guī)模(上億詞級)/ 標準編碼體系 / 深度標注 / 多語種 / NLP應用第16頁,共48頁幻燈片。2 語料庫的發(fā)展中文樹庫示例:第16頁,共48頁幻燈片。1 什么是語料庫2 語料庫的發(fā)展3 語料的收集與加工4 語料庫的應用5 小結第17頁,共48頁幻燈片。1 什么是語料庫第17頁,共48頁幻燈片。3 語料的收集與加工建庫之前應考慮: 語料庫的應用目標 語料庫的規(guī)模 語料庫的實施 語料庫的可擴展性 軟硬件兼容性 第18頁,共48頁幻燈片。3 語料的收集與加工建庫之前應考慮:第18頁,共48頁幻燈第19頁,共48頁幻燈片。第19頁,共48頁幻燈片。3 語
11、料的收集與加工雙語語料庫:雙語平行語料庫:語料庫中的文本構成譯文關系 用于機器翻譯、雙語詞典編撰雙語比較語料庫:將表述同樣內(nèi)容的不同語言文本收集到一起,這些不同語言文本之間不構成翻譯關系 用于語言對比研究較少,英語國際語料庫(100萬詞規(guī)模,收集全球許多英語變體語言的文本)第20頁,共48頁幻燈片。3 語料的收集與加工雙語語料庫:第20頁,共48頁幻燈片。3 語料的收集與加工收集語料的收集 獲取語料的途徑紙質(zhì)媒介 人工錄入 光學掃描、OCR軟件電子語料:光盤語料 + 互聯(lián)網(wǎng)語料雙語平行語料庫:大型國際組織(聯(lián)合國、歐盟)雙語社會(加拿大、新加坡、香港)第21頁,共48頁幻燈片。3 語料的收集與
12、加工收集語料的收集 獲取語料的途3 語料的收集與加工收集語料的收集 語料文件的數(shù)據(jù)格式文件格式:.doc,txt,pdf,ps,rtf采用純文本文件格式存放語料,便于計算機處理采用關系數(shù)據(jù)庫組織語料,直接利用數(shù)據(jù)庫的檢索、統(tǒng)計等功能要考慮字符編碼方式第22頁,共48頁幻燈片。3 語料的收集與加工收集語料的收集 語料文件的數(shù)據(jù)3 語料的收集與加工收集語料的收集 語料文件的大小 取樣收集:將語料庫中文件所包含的詞數(shù)限制在一定范圍內(nèi);選取長文語料的片段 原樣收集:按原始文件大小原樣收入語料庫存儲無問題;建庫時需要考慮長文件的處理速度、對硬件性能的要求第23頁,共48頁幻燈片。3 語料的收集與加工收集
13、語料的收集 語料文件的大小3 語料的收集與加工收集語料的收集 語料的選取標準精品原則有影響力原則隨機挑選原則高流通度原則典型性原則易于獲得原則具有統(tǒng)計樣本意義原則符合語言規(guī)范原則語料庫中各類文本的比例均衡原則專業(yè)語料庫的建設應有專業(yè)領域的專家參與第24頁,共48頁幻燈片。3 語料的收集與加工收集語料的收集 語料的選取標準3 語料的收集與加工編碼語料庫的編碼問題提出:資源共享時的差異化語料文件的統(tǒng)一規(guī)范: TEI計劃(Text Encoding Initiative) LDC要求其提交的語料庫遵循SGML規(guī)范(Standard Generalized Mark-up Language)CES標準
14、(Corpus Encoding Standard)第25頁,共48頁幻燈片。3 語料的收集與加工編碼語料庫的編碼第25頁,共48頁3 語料的收集與加工編碼CES標準:第26頁,共48頁幻燈片。3 語料的收集與加工編碼CES標準:第26頁,共48頁3 語料的收集與加工編碼CES編碼的語料中使用的標記需要進行說明DTD (Document Type Definition)第27頁,共48頁幻燈片。3 語料的收集與加工編碼CES編碼的語料中使用的標記需3 語料的收集與加工編碼CES編碼規(guī)范:一個DTD描述保存在*.dtd文件中;在語料庫文件中加入聲明語句:說明這個語料庫文件所有標記的描述在文件co
15、rpus.dtd中,便于計算機處理第28頁,共48頁幻燈片。3 語料的收集與加工編碼CES編碼規(guī)范:第28頁,共43 語料的收集與加工加工語料庫加工/標注:隱形信息顯性信息 詞性標記(Part-of-speech tagging) 句法標記(Grammatical parsing) 詞義標記(Word sense tagging) 篇章指代標記(Anaphoric annotation) 韻律標記(Prosodic annotation)第29頁,共48頁幻燈片。3 語料的收集與加工加工語料庫加工/標注:隱形信息顯3 語料的收集與加工加工構建大型標注語料庫直接促進了NLP技術的發(fā)展:Brown
16、語料庫直接促使基于統(tǒng)計的詞性標注模型HMM和標注算法Viterbi的提出和完善;Upenn樹庫為基于統(tǒng)計的句法分析技術提供了訓練素材;作為統(tǒng)一的訓練和測試平臺,評估各類NLP算法的性能。第30頁,共48頁幻燈片。3 語料的收集與加工加工構建大型標注語料庫直接促進了N3 語料的收集與加工加工語料庫加工工具用計算機軟件輔助建庫第31頁,共48頁幻燈片。3 語料的收集與加工加工語料庫加工工具用計算機軟件3 語料的收集與加工加工雙語(平行)語料庫的對齊:段落對齊句子對齊詞對齊短語對齊雙語(平行)語料庫的句子對齊:原文句子譯文句子:確定源語言文本中哪個/些句子和目標語言文本中哪個/些句子互為譯文第32頁
17、,共48頁幻燈片。3 語料的收集與加工加工雙語(平行)語料庫的對齊:第33 語料的收集與加工加工第33頁,共48頁幻燈片。3 語料的收集與加工加工第33頁,共48頁幻燈片。3 語料的收集與加工加工(1) (1)+ (2);(2) (3) 兩種語言的句子間對齊模式(x句:y句, x=1,2,;y=1,2,) 雙語句子對齊的方法:基于長度(length-based)的對齊方法 純粹基于句子的長度來估計對齊可能性; 資源要求少,算法效率相對較高基于詞(word-based)的對齊方法 一般要依賴詞典資源,算法效率相對較低平均準確率在90%以上第34頁,共48頁幻燈片。3 語料的收集與加工加工(1)
18、(1)+ (2);3 語料的收集與加工加工Gale & Church 基于長度的對齊方法:定義了六種配對模式,在實際UBS語料庫的分布頻度為:第35頁,共48頁幻燈片。3 語料的收集與加工加工Gale & Church 基3 語料的收集與加工加工任一個雙語句子對( Si, Tj ),S表示原文,T表示譯文S中任意一個字符在T中所對應的字符數(shù)是個隨機變量XN(c,V2) 由此定義隨機變量來度量兩個句子之間的長度差距關系:隨機變量N(0,1)第36頁,共48頁幻燈片。3 語料的收集與加工加工任一個雙語句子對( Si, T此時句子Si與Tj對齊的可能性就可以表示為條件概率:P(Match)為常數(shù);P
19、(|Match)根據(jù)下式進行估計:服從標準正態(tài)分布N(0,1),P(|) 可通過查標準正態(tài)函數(shù)分布表或數(shù)值計算得到。第37頁,共48頁幻燈片。此時句子Si與Tj對齊的可能性就可以表示為條件概率:第37頁取對數(shù):記D(i,j) = Score(si,tj),D(i,j)是對兩個句子對齊可能性的一個評估,可以理解為兩個句子之間的距離。值越低,表示兩個句子之間距離越近,因而對齊的可能性越高??紤]不同的句子配對模式下的距離: d(x1,y1 ; 0,0) d(x1,y1; x2,0) d(x1,0 ; 0,0) d(x1,y1; 0,y2) d(0,y1; 0,0) d(x1,y1;x2,y2)第38
20、頁,共48頁幻燈片。取對數(shù):第38頁,共48頁幻燈片。兩個文本的最小距離可如下計算:其中si,tj (i=1,2,I ; j=1,2,J) 分別是兩個文本中的句子,算法初始時D(i,j) = 0D(i,j) = minD(i,j-1) + d(0,tj ; 0,0)D(i-1,j) + d(si,0; 0,0)D(i-1,j-1) + d(si,tj ; 0,0) D(i-1,j-2) + d(si,tj ; 0,tj-1)D(i-2,j-1) + d(si,tj ; si-1,0)D(i-2,j-2) + d(si,tj ; si-1, tj-1)第39頁,共48頁幻燈片。兩個文本的最小距離
21、可如下計算:D(i,j) = minD(iGale & Church (1993) 基于長度的對齊方法:Gale&Church 利用該算法對UBS和Canadian Hansard語料進行了對齊,準確率為96%;以字符為單位度量句長比以單詞為單位 好;語言有關的參數(shù)c, v對結果影響不大。第40頁,共48頁幻燈片。Gale & Church (1993) 基于長度的對齊方法基于詞的句子對齊方法:根據(jù)詞匯對齊關系推導句子對齊關系利用詞匯共現(xiàn)的統(tǒng)計特性確定句子的對齊關系,再利用句子和這些詞之間的包含關系確定句子的對齊關系利用明顯的詞匯對齊關系來改進基于長度對齊方法人名、地名、數(shù)字、日期等第41頁,共48頁幻燈片。基于詞的句子對齊方法:第41頁,共48頁幻燈片。1 什么是語料庫2 語料庫的發(fā)展3 語料的收集與加工4 語料庫的應用5 小結第42頁,共48頁幻燈片。1 什么是語料庫第42頁,共48頁幻燈片。語料庫的作用: 支持語言學研究和語言教學研究 支持NLP系統(tǒng)的開發(fā)基于大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度互聯(lián)網(wǎng)股票資金托管服務合同
- 2025年度舊機動車買賣與二手車檢測機構服務合同
- 2025年度供配電工程施工合同爭議解決協(xié)議
- 2025年度信息技術服務合同終止及后續(xù)維護協(xié)議
- 2025年度健身器材維修保養(yǎng)服務合同范本
- 2025年度勞動合同補充協(xié)議書-員工勞動爭議調(diào)解與仲裁協(xié)議
- 2025年度養(yǎng)老產(chǎn)業(yè)貸款咨詢服務合同樣本
- 2025年度抗裂砂漿隔熱材料產(chǎn)品研發(fā)與生產(chǎn)技術轉移合同
- 2025年家電產(chǎn)品線上線下營銷推廣合同
- 2025年度潔具行業(yè)市場調(diào)研與分析合同范本
- PDCA提高患者自備口服藥物正確堅持服用落實率
- 上海石油化工股份有限公司6181乙二醇裝置爆炸事故調(diào)查報告
- 家譜人物簡介(優(yōu)選12篇)
- 品管部崗位職責20篇
- 2023年中智集團下屬中智股份公司招聘筆試題庫及答案解析
- GA 1409-2017警用服飾硬式肩章
- 小兒垂釣 (課件)(14張)
- 嘉吉樂恩貝1-FarLactation課件
- 激光拉曼光譜技術課件
- DB33-T 2082-2017(2021)托幼機構消毒衛(wèi)生規(guī)范
- 提高攜帶雙J管患者的健康教育落實率泌尿科品管圈課件
評論
0/150
提交評論