



免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
課程編號(hào): S0300010Q課程名稱:自然語言處理開課院系:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 任課教師:關(guān)毅 劉秉權(quán)先修課程:概率論與數(shù)理統(tǒng)計(jì) 適用學(xué)科范圍:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)時(shí):40 學(xué)分:2 開課學(xué)期:秋季 開課形式:課堂講授課程目的和基本要求: 本課程屬于計(jì)算機(jī)科學(xué)與技術(shù)學(xué)科碩士研究生學(xué)科專業(yè)課。計(jì)算機(jī)自然語言處理是用計(jì)算機(jī)通過可計(jì)算的方法對(duì)自然語言的各級(jí)語言單位進(jìn)行轉(zhuǎn)換、傳輸、存貯、分析等加工處理的科學(xué)。是一門與語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、心理學(xué)、信息論、聲學(xué)相聯(lián)系的交叉性學(xué)科。通過本課程的學(xué)習(xí),使學(xué)生掌握自然語言(特別是中文語言)處理技術(shù)(特別是基于統(tǒng)計(jì)的語言處理技術(shù))的基本概念、基本原理和主要方法,了解當(dāng)前國際國內(nèi)語言處理技術(shù)的發(fā)展概貌,接觸語言處理技術(shù)的前沿課題,具備運(yùn)用基本原理和主要方法解決科研工作中出現(xiàn)的實(shí)際問題的能力。為學(xué)生開展相關(guān)領(lǐng)域(如網(wǎng)絡(luò)信息處理、機(jī)器翻譯、語音識(shí)別)的研究奠定基礎(chǔ)。課程主要內(nèi)容: 本課程全面闡述了自然語言處理技術(shù)的基本原理、實(shí)用方法和主要應(yīng)用,在課程內(nèi)容的安排上,既借鑒了國外學(xué)者在計(jì)算語言學(xué)領(lǐng)域里的最新成就,又闡明了中文語言處理技術(shù)的特殊規(guī)律,還包括了授課人的實(shí)踐經(jīng)驗(yàn)和體會(huì)。1 自然語言處理技術(shù)概論(2學(xué)時(shí))自然語言處理技術(shù)理性主義和經(jīng)驗(yàn)主義的技術(shù)路線;自然語言處理技術(shù)的發(fā)展概況及主要困難;本學(xué)科主要科目;本課程的重點(diǎn)與難點(diǎn)。2 自然語言處理技術(shù)的數(shù)學(xué)基礎(chǔ)(4學(xué)時(shí))基于統(tǒng)計(jì)的自然語言處理技術(shù)的數(shù)學(xué)基礎(chǔ):概率論和信息論的基本概念及其在語言處理技術(shù)中的應(yīng)用。如何處理文本文件和二進(jìn)制文件,包括如何對(duì)文本形式的語料文件進(jìn)行屬性標(biāo)注;如何處理成批的文件等實(shí)踐內(nèi)容3 自然語言處理技術(shù)的語言學(xué)基礎(chǔ)(4學(xué)時(shí))漢語的基本特點(diǎn);漢語的語法功能分類體系;漢語句法分析的特殊性;基于規(guī)則的語言處理方法。ASCII字符集、ASCII擴(kuò)展集、漢字字符集、漢字編碼等基礎(chǔ)知識(shí)。4 分詞與頻度統(tǒng)計(jì)(4學(xué)時(shí))中文分詞技術(shù)的發(fā)展概貌;主要的分詞算法;中文分詞技術(shù)的主要難點(diǎn):切分歧義的基本概念與處理方法和未登錄詞的處理方法;中外人名、地名、機(jī)構(gòu)名的自動(dòng)識(shí)別方法;詞匯的頻度統(tǒng)計(jì)及統(tǒng)計(jì)分布規(guī)律。以及詞頻統(tǒng)計(jì)、排序輸出;二元對(duì)頻度統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果瀏覽等實(shí)踐內(nèi)容。5 語料庫的多級(jí)加工(6學(xué)時(shí))語料庫的基本概念;國際國內(nèi)主要語料庫簡介;語料庫加工的主要步驟;詞性標(biāo)注的常用方法;主要句法分析算法簡介;漢語語義標(biāo)注的基本概念和常用方法;漢語語義詞典Hownet介紹。以及如何組織語料庫,如何對(duì)語料庫進(jìn)行字符串檢索等實(shí)踐內(nèi)容。6 基于統(tǒng)計(jì)的語言模型(4學(xué)時(shí))N-gram統(tǒng)計(jì)語言模型的基本概念;構(gòu)造統(tǒng)計(jì)語言模型的方法;數(shù)據(jù)平滑的常用算法;N-gram統(tǒng)計(jì)語言模型的應(yīng)用及評(píng)價(jià);現(xiàn)有的其他主要的統(tǒng)計(jì)語言模型。以及構(gòu)造Bigram語言模型及good-turing算法實(shí)現(xiàn)等實(shí)踐內(nèi)容。7 馬爾可夫模型(4學(xué)時(shí))馬爾可夫模型的基本概念;馬爾可夫模型幾個(gè)基本問題及其解法;馬爾可夫模型的幾個(gè)常用算法;馬爾可夫模型的應(yīng)用(音字轉(zhuǎn)換、詞性標(biāo)注)。以及隱馬爾可夫詞性標(biāo)注器的實(shí)現(xiàn)等實(shí)踐內(nèi)容。8 句法分析技術(shù)(4學(xué)時(shí))基于語言學(xué)規(guī)則的句法分析技術(shù);基于統(tǒng)計(jì)的句法分析技術(shù);依存文法;概率上下文無關(guān)文法(PCFG);級(jí)聯(lián)式有限狀態(tài)句法分析技術(shù)。9 篇章理解技術(shù) (4學(xué)時(shí))計(jì)算機(jī)自動(dòng)文摘的基本理論與常用方法:文本的機(jī)器內(nèi)部表示;文本分析技術(shù);摘要提取技術(shù);摘要生成技術(shù)。10 問答式信息檢索(4學(xué)時(shí))問答式信息檢索的基本概念;問答式信息檢索的主要難點(diǎn);問答式信息檢索系統(tǒng)的系統(tǒng)構(gòu)成;問答式信息檢索的相關(guān)技術(shù);文本分類技術(shù)簡介;問答式信息檢索的評(píng)測(cè)方法;TREC簡介。以及VSM文本分類器設(shè)計(jì)等實(shí)踐內(nèi)容。課程主要教材:1 Chris Manning & H. Schutze. Foundations of Statistical Natural Language Processing. MIT Press, 19992 王曉龍,關(guān)毅 計(jì)算機(jī)自然語言處理技術(shù)清華大學(xué)出版社,預(yù)計(jì)2004年3 姚天順,自然語言理解一種讓機(jī)器懂得人類語言的研究,清華大學(xué)出版社,2002.10主要參考文獻(xiàn):1 邊肇祺 等. 模式識(shí)別. 清華大學(xué)出版社. 1998.2 董振東,董強(qiáng),知網(wǎng),3 馮志偉計(jì)算語言學(xué)對(duì)理論語言學(xué)的挑戰(zhàn),語言文字應(yīng)用1992年第1期4 黃昌寧,中文信息處理中的分詞問題,語言文字應(yīng)用, 1997, (1), 71-785 黃昌寧(1993)關(guān)于處理大規(guī)模真實(shí)文本的談話,載語言文字應(yīng)用1993年第2期。6 劉開瑛,現(xiàn)代漢語自動(dòng)分詞系統(tǒng)中幾個(gè)問題的討論,計(jì)算機(jī)開發(fā)與應(yīng)用,19987 劉源等,信息處理用現(xiàn)代漢語分詞規(guī)范即自動(dòng)分詞方法,清華大學(xué)出版社,廣西科學(xué)技術(shù)出版社,1994.8 宋柔,關(guān)于分詞規(guī)范的探討,語言文字應(yīng)用,1997年第3期9 孫茂松、黃昌寧,鄒嘉彥,陸方,沈達(dá)陽, 利用漢字二元語法關(guān)系解決漢語自動(dòng)分詞中的交集型歧義, 計(jì)算機(jī)研究與發(fā)展Vol.34, No.5, pp.332-339, 1997.510 孫茂松,左正平,鄒嘉彥. 高頻最大交集型歧義切分字段在漢語自動(dòng)分詞中的作用. 中文信息學(xué)報(bào). 1999, 13(1): 27-3411 俞士汶,現(xiàn)代漢語語法信息詞典詳解,清華大學(xué)出版社,199612 詹衛(wèi)東,面向中文信息處理的現(xiàn)代漢語短語結(jié)構(gòu)規(guī)則研究,博士論文,19993 趙鐵軍等,機(jī)器翻譯原理,哈爾濱工業(yè)出版社,2000.14 朱德熙,語法問答,商務(wù)印書館,199315 A. B. Poritz. Hidden Markov Models: A Guided Tour. Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, 1: 7-13, New York Hilton, New York City, April 1988.16 Adwait Ratnaparkhi. A maximum entropy model for part-of-speech tagging. In proceedings of conference on empirical method in natural language processing, university of Pennsylvania, 1996.17 E.T. Jaynes. Information Theory and Statistical Mechanics. Physics Reviews. 1957, vol.106: 620-63018 Frederick Jelinek. Statistical Methods for Speech Recognition.The MIT Press. London. 199719 G. Salton , M. J. McGill. An Introduction to Modern Information Retrieval. McGraw-Hill, 1993.20 Lillian Lee.Similarity-Based Approaches to Natural Language Processing. Ph.D. thesis. Harvard University Technical Report TR-11-97.21 Ricardo Baeza-Yates & Berthier Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley, New-York, 1999.22 Stanley F. Chen. Building Probabilistic Models for Natural Language, PhD thesis, the Subject of Computer Science, Harvard University Cambridge Massachusetts, May 1996. 課程編號(hào): 課程名稱:自然語言處理英文譯名:Natural Language Processing適用學(xué)科:計(jì)算機(jī)科學(xué)與技術(shù)先修課程:概率論與數(shù)理統(tǒng)計(jì)開課院(系):計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院任課教師: 關(guān)毅、劉秉權(quán)內(nèi)容簡介:(200字左右)計(jì)算機(jī)自然語言處理是用計(jì)算機(jī)通過可計(jì)算的方法對(duì)自然語言的各級(jí)語言單位進(jìn)行轉(zhuǎn)換、傳輸、存貯、分析等加工處理的科學(xué)。是一門與語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、心理學(xué)、信息論、聲學(xué)相聯(lián)系的交叉性學(xué)科。國際互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,極大地推動(dòng)了信息處理技術(shù)的發(fā)展,也為信息處理技術(shù)不斷提出新的需求。語言作為信息的載體,語言處理技術(shù)已經(jīng)日益成為全球信息化和我國社會(huì)和經(jīng)濟(jì)發(fā)展的重要支撐性技術(shù)。本課程全面闡述了自然語言處理技術(shù)的基本概念、基本原理和實(shí)用方法,共分為基礎(chǔ)、原理和應(yīng)用三部分。第一部分基礎(chǔ)部分,論述了自然語言處理技術(shù)概論;它的數(shù)學(xué)基礎(chǔ)和語言學(xué)基礎(chǔ);以及自動(dòng)分詞技術(shù)和語料庫多級(jí)加工技術(shù);第二部分為原理部分,介紹了統(tǒng)計(jì)計(jì)算語言模型的構(gòu)建以及兩個(gè)經(jīng)典統(tǒng)計(jì)分類模型:馬爾可夫模型、最大熵模型及其在語言處理中的應(yīng)用。最后,以一種新型的信息檢索方式-問答式信息檢索的基本理論和系統(tǒng)集成為例,將前述的各項(xiàng)主要技術(shù)方法的應(yīng)用貫穿于這一智能化信息檢索系統(tǒng)的系統(tǒng)研發(fā)的各個(gè)步驟中。Course overview:This course gives a research-oriented introduction on theory and practice of natural language processing focusing on statistical language modeling of human languages, especially Chinese.The course is divided into four relatively separate components. The first deals with foundations of language processing. We will cover a brief overview of language processing technologies, its mathematical foundations and linguistics foundations, word segmentation, multilevel processing of large corpus. The second component of the course deals with statistical language modeling, we will emphasize on building N-gram language model and a classical statistical classification model: Markov model. The third component introduces parsing and discourse analysis technologies. And finally, we summarize the applications of all previous techniques by their effects on a new type of information retrieval system- question answering system. 主要教材:1 Chris Manning & H. Schutze. Foundations of Statistical Natural Language Processing. MIT Press, 19992 王曉龍,關(guān)毅 計(jì)算機(jī)自然語言處理技術(shù)清華大學(xué)出版社,預(yù)計(jì)2004年3 姚天順,自然語言理解一種讓機(jī)器懂得人類語言的研究,清華大學(xué)出版社,2002.10參考文獻(xiàn):1 劉源等,信息處理用現(xiàn)代漢語分詞規(guī)范即自動(dòng)分詞方法,清華大學(xué)出版
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨沂賣車合同樣本
- 公司商鋪賃合同范例
- 公司食堂蔬菜合同范例
- 關(guān)于綠化種植合同范例
- 中介代收定金合同范例
- 公共器材租賃合同范例
- 業(yè)主小區(qū)圈地合同范例
- 公司改制合同范例
- 京東自營母嬰采購合同范例
- oem白酒合同范例
- 鐵路基礎(chǔ)知識(shí)-課件
- EAP服務(wù)案例解析
- 產(chǎn)品思維到用戶思維
- 華為成本控制 論文
- “九小”場(chǎng)所、沿街門店安全排查表
- 仿生原理與創(chuàng)新設(shè)計(jì)課件
- 【自考練習(xí)題】大連理工大學(xué)概率論與數(shù)理統(tǒng)計(jì)真題匯總(附答案解析)
- 小兒吸痰法講稿
- xx學(xué)校研學(xué)旅行活動(dòng)告家長書
- (格式已排好)國家開放大學(xué)電大《計(jì)算機(jī)應(yīng)用基礎(chǔ)(專)》終結(jié)性考試大作業(yè)答案任務(wù)一
- 中秋節(jié)英文PPT
評(píng)論
0/150
提交評(píng)論