



免費預覽已結(jié)束,剩余1頁可下載查看
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
課程編號: S0300010Q課程名稱:自然語言處理開課院系:計算機科學與技術學院 任課教師:關毅 劉秉權先修課程:概率論與數(shù)理統(tǒng)計 適用學科范圍:計算機科學與技術學時:40 學分:2 開課學期:秋季 開課形式:課堂講授課程目的和基本要求: 本課程屬于計算機科學與技術學科碩士研究生學科專業(yè)課。計算機自然語言處理是用計算機通過可計算的方法對自然語言的各級語言單位進行轉(zhuǎn)換、傳輸、存貯、分析等加工處理的科學。是一門與語言學、計算機科學、數(shù)學、心理學、信息論、聲學相聯(lián)系的交叉性學科。通過本課程的學習,使學生掌握自然語言(特別是中文語言)處理技術(特別是基于統(tǒng)計的語言處理技術)的基本概念、基本原理和主要方法,了解當前國際國內(nèi)語言處理技術的發(fā)展概貌,接觸語言處理技術的前沿課題,具備運用基本原理和主要方法解決科研工作中出現(xiàn)的實際問題的能力。為學生開展相關領域(如網(wǎng)絡信息處理、機器翻譯、語音識別)的研究奠定基礎。課程主要內(nèi)容: 本課程全面闡述了自然語言處理技術的基本原理、實用方法和主要應用,在課程內(nèi)容的安排上,既借鑒了國外學者在計算語言學領域里的最新成就,又闡明了中文語言處理技術的特殊規(guī)律,還包括了授課人的實踐經(jīng)驗和體會。1 自然語言處理技術概論(2學時)自然語言處理技術理性主義和經(jīng)驗主義的技術路線;自然語言處理技術的發(fā)展概況及主要困難;本學科主要科目;本課程的重點與難點。2 自然語言處理技術的數(shù)學基礎(4學時)基于統(tǒng)計的自然語言處理技術的數(shù)學基礎:概率論和信息論的基本概念及其在語言處理技術中的應用。如何處理文本文件和二進制文件,包括如何對文本形式的語料文件進行屬性標注;如何處理成批的文件等實踐內(nèi)容3 自然語言處理技術的語言學基礎(4學時)漢語的基本特點;漢語的語法功能分類體系;漢語句法分析的特殊性;基于規(guī)則的語言處理方法。ASCII字符集、ASCII擴展集、漢字字符集、漢字編碼等基礎知識。4 分詞與頻度統(tǒng)計(4學時)中文分詞技術的發(fā)展概貌;主要的分詞算法;中文分詞技術的主要難點:切分歧義的基本概念與處理方法和未登錄詞的處理方法;中外人名、地名、機構名的自動識別方法;詞匯的頻度統(tǒng)計及統(tǒng)計分布規(guī)律。以及詞頻統(tǒng)計、排序輸出;二元對頻度統(tǒng)計,統(tǒng)計結(jié)果瀏覽等實踐內(nèi)容。5 語料庫的多級加工(6學時)語料庫的基本概念;國際國內(nèi)主要語料庫簡介;語料庫加工的主要步驟;詞性標注的常用方法;主要句法分析算法簡介;漢語語義標注的基本概念和常用方法;漢語語義詞典Hownet介紹。以及如何組織語料庫,如何對語料庫進行字符串檢索等實踐內(nèi)容。6 基于統(tǒng)計的語言模型(4學時)N-gram統(tǒng)計語言模型的基本概念;構造統(tǒng)計語言模型的方法;數(shù)據(jù)平滑的常用算法;N-gram統(tǒng)計語言模型的應用及評價;現(xiàn)有的其他主要的統(tǒng)計語言模型。以及構造Bigram語言模型及good-turing算法實現(xiàn)等實踐內(nèi)容。7 馬爾可夫模型(4學時)馬爾可夫模型的基本概念;馬爾可夫模型幾個基本問題及其解法;馬爾可夫模型的幾個常用算法;馬爾可夫模型的應用(音字轉(zhuǎn)換、詞性標注)。以及隱馬爾可夫詞性標注器的實現(xiàn)等實踐內(nèi)容。8 句法分析技術(4學時)基于語言學規(guī)則的句法分析技術;基于統(tǒng)計的句法分析技術;依存文法;概率上下文無關文法(PCFG);級聯(lián)式有限狀態(tài)句法分析技術。9 篇章理解技術 (4學時)計算機自動文摘的基本理論與常用方法:文本的機器內(nèi)部表示;文本分析技術;摘要提取技術;摘要生成技術。10 問答式信息檢索(4學時)問答式信息檢索的基本概念;問答式信息檢索的主要難點;問答式信息檢索系統(tǒng)的系統(tǒng)構成;問答式信息檢索的相關技術;文本分類技術簡介;問答式信息檢索的評測方法;TREC簡介。以及VSM文本分類器設計等實踐內(nèi)容。課程主要教材:1 Chris Manning & H. Schutze. Foundations of Statistical Natural Language Processing. MIT Press, 19992 王曉龍,關毅 計算機自然語言處理技術清華大學出版社,預計2004年3 姚天順,自然語言理解一種讓機器懂得人類語言的研究,清華大學出版社,2002.10主要參考文獻:1 邊肇祺 等. 模式識別. 清華大學出版社. 1998.2 董振東,董強,知網(wǎng),3 馮志偉計算語言學對理論語言學的挑戰(zhàn),語言文字應用1992年第1期4 黃昌寧,中文信息處理中的分詞問題,語言文字應用, 1997, (1), 71-785 黃昌寧(1993)關于處理大規(guī)模真實文本的談話,載語言文字應用1993年第2期。6 劉開瑛,現(xiàn)代漢語自動分詞系統(tǒng)中幾個問題的討論,計算機開發(fā)與應用,19987 劉源等,信息處理用現(xiàn)代漢語分詞規(guī)范即自動分詞方法,清華大學出版社,廣西科學技術出版社,1994.8 宋柔,關于分詞規(guī)范的探討,語言文字應用,1997年第3期9 孫茂松、黃昌寧,鄒嘉彥,陸方,沈達陽, 利用漢字二元語法關系解決漢語自動分詞中的交集型歧義, 計算機研究與發(fā)展Vol.34, No.5, pp.332-339, 1997.510 孫茂松,左正平,鄒嘉彥. 高頻最大交集型歧義切分字段在漢語自動分詞中的作用. 中文信息學報. 1999, 13(1): 27-3411 俞士汶,現(xiàn)代漢語語法信息詞典詳解,清華大學出版社,199612 詹衛(wèi)東,面向中文信息處理的現(xiàn)代漢語短語結(jié)構規(guī)則研究,博士論文,19993 趙鐵軍等,機器翻譯原理,哈爾濱工業(yè)出版社,2000.14 朱德熙,語法問答,商務印書館,199315 A. B. Poritz. Hidden Markov Models: A Guided Tour. Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, 1: 7-13, New York Hilton, New York City, April 1988.16 Adwait Ratnaparkhi. A maximum entropy model for part-of-speech tagging. In proceedings of conference on empirical method in natural language processing, university of Pennsylvania, 1996.17 E.T. Jaynes. Information Theory and Statistical Mechanics. Physics Reviews. 1957, vol.106: 620-63018 Frederick Jelinek. Statistical Methods for Speech Recognition.The MIT Press. London. 199719 G. Salton , M. J. McGill. An Introduction to Modern Information Retrieval. McGraw-Hill, 1993.20 Lillian Lee.Similarity-Based Approaches to Natural Language Processing. Ph.D. thesis. Harvard University Technical Report TR-11-97.21 Ricardo Baeza-Yates & Berthier Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley, New-York, 1999.22 Stanley F. Chen. Building Probabilistic Models for Natural Language, PhD thesis, the Subject of Computer Science, Harvard University Cambridge Massachusetts, May 1996. 課程編號: 課程名稱:自然語言處理英文譯名:Natural Language Processing適用學科:計算機科學與技術先修課程:概率論與數(shù)理統(tǒng)計開課院(系):計算機科學與技術學院任課教師: 關毅、劉秉權內(nèi)容簡介:(200字左右)計算機自然語言處理是用計算機通過可計算的方法對自然語言的各級語言單位進行轉(zhuǎn)換、傳輸、存貯、分析等加工處理的科學。是一門與語言學、計算機科學、數(shù)學、心理學、信息論、聲學相聯(lián)系的交叉性學科。國際互聯(lián)網(wǎng)技術的飛速發(fā)展,極大地推動了信息處理技術的發(fā)展,也為信息處理技術不斷提出新的需求。語言作為信息的載體,語言處理技術已經(jīng)日益成為全球信息化和我國社會和經(jīng)濟發(fā)展的重要支撐性技術。本課程全面闡述了自然語言處理技術的基本概念、基本原理和實用方法,共分為基礎、原理和應用三部分。第一部分基礎部分,論述了自然語言處理技術概論;它的數(shù)學基礎和語言學基礎;以及自動分詞技術和語料庫多級加工技術;第二部分為原理部分,介紹了統(tǒng)計計算語言模型的構建以及兩個經(jīng)典統(tǒng)計分類模型:馬爾可夫模型、最大熵模型及其在語言處理中的應用。最后,以一種新型的信息檢索方式-問答式信息檢索的基本理論和系統(tǒng)集成為例,將前述的各項主要技術方法的應用貫穿于這一智能化信息檢索系統(tǒng)的系統(tǒng)研發(fā)的各個步驟中。Course overview:This course gives a research-oriented introduction on theory and practice of natural language processing focusing on statistical language modeling of human languages, especially Chinese.The course is divided into four relatively separate components. The first deals with foundations of language processing. We will cover a brief overview of language processing technologies, its mathematical foundations and linguistics foundations, word segmentation, multilevel processing of large corpus. The second component of the course deals with statistical language modeling, we will emphasize on building N-gram language model and a classical statistical classification model: Markov model. The third component introduces parsing and discourse analysis technologies. And finally, we summarize the applications of all previous techniques by their effects on a new type of information retrieval system- question answering system. 主要教材:1 Chris Manning & H. Schutze. Foundations of Statistical Natural Language Processing. MIT Press, 19992 王曉龍,關毅 計算機自然語言處理技術清華大學出版社,預計2004年3 姚天順,自然語言理解一種讓機器懂得人類語言的研究,清華大學出版社,2002.10參考文獻:1 劉源等,信息處理用現(xiàn)代漢語分詞規(guī)范即自動分詞方法,清華大學出版
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 車輛股權轉(zhuǎn)讓與改裝升級服務合同
- 出租車司機聘用及服務質(zhì)量保障合同
- 項目中止后采購合同數(shù)量變更及取消協(xié)議
- 老妖精咨詢工程師課件
- 美術紅色文化課件設計
- 安全生產(chǎn)方針五要素
- 物業(yè)消防工作計劃
- 安全生產(chǎn)管理制度及處罰條例
- 水電安全操作規(guī)程
- 安全生產(chǎn)提升活動總結(jié)
- 部編版九年級語文上冊教案
- 2023-2024學年黑龍江省寧安市初中語文七年級下冊期末高分通關試卷
- 重癥監(jiān)護ICU護理實習生出科考試試題及答案
- GB/T 6075.3-2011機械振動在非旋轉(zhuǎn)部件上測量評價機器的振動第3部分:額定功率大于15 kW額定轉(zhuǎn)速在120 r/min至15 000 r/min之間的在現(xiàn)場測量的工業(yè)機器
- GB/T 5594.4-2015電子元器件結(jié)構陶瓷材料性能測試方法第4部分:介電常數(shù)和介質(zhì)損耗角正切值測試方法
- GB/T 15558.1-2015燃氣用埋地聚乙烯(PE)管道系統(tǒng)第1部分:管材
- GB/T 11060.8-2020天然氣含硫化合物的測定第8部分:用紫外熒光光度法測定總硫含量
- 國開??啤锻鈬膶W》十年期末考試題庫及答案
- 浙江義務教育學校校園飲水質(zhì)量提升工程建設和維護浙江教育廳
- 林州重機710采煤機電控箱裝配流程
- JJF 1847-2020 電子天平校準規(guī)范(高清版)
評論
0/150
提交評論