




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室關(guān)毅第一章 自然語言處理概論研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿
2、里巴巴聯(lián)合實驗室1、開場白2、自然語言處理概論3、學(xué)習(xí)方法主要內(nèi)容研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室歡迎大家加入可能是世界上人數(shù)最多的自然語言處理團(tuán)隊!1、開場白研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)
3、計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院的自然語言處理團(tuán)隊n起源80年代初n王開鑄教授,俄漢機(jī)器翻譯n李生教授,漢英機(jī)器翻譯研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院的自然語言處理團(tuán)隊(續(xù))n主要研究室語言技術(shù)研究中心社會計
4、算與信息檢索研究中心智能接口與人機(jī)交互研究中心研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室個人簡介n關(guān)毅1992年開始進(jìn)入自然語言處理領(lǐng)域主要工程項目n微軟拼音輸入法nBOPOMOFO漢字輸入系統(tǒng)nWeniwen搜索引擎主要科學(xué)貢獻(xiàn)n關(guān)于相似的研究-提出系統(tǒng)相似度測度理論現(xiàn)為哈工大計算機(jī)學(xué)院語言技術(shù)研究中心教授,博士生導(dǎo)師研究生專業(yè)必修課研究生專業(yè)
5、必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室課程概貌n研究生專業(yè)必修課:自然語言處理n學(xué)時:32學(xué)時+16學(xué)時n授課方式:課堂講授+課后上機(jī)練習(xí)n考察方式:閉卷考試n實驗課研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心
6、哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室?guī)讉€時間段n二十多年崛起于80年代初的統(tǒng)計自然語言處理技術(shù),已經(jīng)成為自然語言處理的主流技術(shù)本課程重點介紹統(tǒng)計語言處理技術(shù),特別是基于統(tǒng)計的漢語詞法分析技術(shù)研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室?guī)讉€時間段(續(xù))n六十多年自然語言處理技術(shù)起源于人們對機(jī)器翻譯
7、技術(shù)的研究,從1946年算起至今,已有60多年的歷史了“目前一些試用過的用戶表示,改進(jìn)后的翻譯服務(wù)在質(zhì)量方面令人驚訝。對于那些從未使用機(jī)器翻譯的用戶來說,他們完全可以通過翻譯后的文本理解原文的意思,一些細(xì)微的錯誤并不會引起太大的麻煩?!?-Franz Josef Och 研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室?guī)讉€時間段(續(xù))n還需要多少年才能
8、實現(xiàn)計算機(jī)與人類無障礙地溝通?1968年的美國影片2001太空奧德賽n機(jī)器人HAL和Dave進(jìn)行了如下對話:Dave Bownman: Open the pod bay doors, HAL. (Dave Bownman:HAL, 請你打開太空艙的分離門。)HAL: Im sorry Dave, I am afraid I cant do that. (HAL:對不起,Dave,我恐怕不能這樣做。)研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研
9、究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室?guī)讉€時間段(續(xù))自然語言處理是一個“AI complete”問題自然語言與(分子)生物學(xué)有著深刻的淵源生物學(xué)中有著至少500年也解決不完的有趣問題Donald E. Knuth研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理中的歧義問題n在自然語
10、言處理的各個階段廣泛大量地存在著形形色色的歧義問題,這是自然語言與人工語言的根本差別之一,也是自然語言處理的難點所在研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理中的歧義問題(續(xù))n詞法分析歧義分詞n嚴(yán)守一把手機(jī)關(guān)了嚴(yán)守/ 一把手/ 機(jī)關(guān)/ 了嚴(yán)守一/ 把/ 手機(jī)/ 關(guān)/ 了詞性標(biāo)注n我/pro 計劃/v 考/v 研/nn我/pro 完成
11、/v 了/aux 計劃/n命名實體識別n秦兵坑殺趙軍40萬于長平研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理中的歧義問題(續(xù))n語法分析歧義咬死了獵人的狗n那只狼咬死了獵人的狗n咬死了獵人的狗失蹤了研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rig
12、hts Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理中的歧義問題(續(xù))n語義分析歧義At last, a computer that understands you like your mother. 1985 McDonnell-Douglas ad含義1:計算機(jī)會象你的母親那樣很好地理解你(的語言)含義2:計算機(jī)理解你喜歡你的母親含義3:計算機(jī)會象很好地理解你的母親那樣理解你研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights
13、2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理中的歧義問題(續(xù))n語用分析歧義“你真壞”至少有如下三種理解:n當(dāng)人們對干了壞事的成年人說時,是一種嚴(yán)厲的斥責(zé)n當(dāng)媽媽對淘氣的兒子說時,實際表達(dá)的是對兒子的一種疼愛n當(dāng)戀愛中的女孩對男友說這句話時,則是女孩在男友面前撒嬌的一種表現(xiàn)n研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈
14、爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理中的歧義問題(續(xù))n自然語言處理應(yīng)用中的歧義問題音字轉(zhuǎn)換例nji qi fan yi ji qi ying yong ji qi le ren men ji qi nong hou de xing qu研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-
15、阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室?guī)c感性認(rèn)識n有點繁瑣枯燥“從繁體詞庫到簡體詞庫”要求同學(xué)們一絲不茍的認(rèn)真精神n充滿樂趣“機(jī)器翻譯及其應(yīng)用激起了人們極其濃厚的興趣”要求同學(xué)們有愚公移山,堅持到底的精神研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室?guī)c感性認(rèn)識(續(xù))n團(tuán)隊合作“128個字節(jié)的偏移量”要求同學(xué)們善于協(xié)作,有團(tuán)隊精神n獨創(chuàng)精神“一只美麗
16、的小花貓”要求同學(xué)們勇于創(chuàng)新研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室本人印象深刻的至理名言n取法其上,僅得其中;取法其中,僅得其下;取法其眾,得其上。-中國古代思想家nEvery important idea is simple-列夫.托爾斯泰研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights
17、 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室本人印象深刻的至理名言nThe grand aim of all science is to cover the greatest number of empirical facts by logical deduction from the smallest number of hypotheses or axioms-愛因斯坦研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季
18、年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室兩件寶貝nMindjet MindManagernEndnote/Mendeley/NoteExpress研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室
19、阿里巴巴聯(lián)合實驗室教材nChristopher Manning and Hinrich Schutze: Foundations of Statistical Language Processing, MIT press, 1999(有中譯本,譯者 苑春法 等)n自然語言處理綜論 Daniel Jurafsky &James H. Martin著 馮志偉 孫樂 譯n王曉龍、關(guān)毅 計算機(jī)自然語言處理 清華大學(xué)出版社 2005年研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工
20、業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室2、自然語言處理概論研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室什么是自然語言處理n定義1:自然語言處理可以定義為研究在人與人交際中以及在人與計算機(jī)交際中的語言問題的一門學(xué)科。自然語言處理要研制表示語言能力(linguistic
21、 competence)和語言應(yīng)用(linguistic performance)的模型,建立計算框架來實現(xiàn)這樣的語言模型,提出相應(yīng)的方法來不斷地完善這樣的語言模型,根據(jù)這樣的語言模型設(shè)計各種實用系統(tǒng),并探討這些實用系統(tǒng)的評測技術(shù)。-Bill Manaris, 1999 研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室解題n本學(xué)科的主題與背景:“自然語
22、言處理可以定義為研究在人與人交際中以及在人與計算機(jī)交際中的語言問題的一門學(xué)科?!比巳私浑H中的語言問題n例如語言不通的問題,促進(jìn)了機(jī)器翻譯這一語言處理中最重要的應(yīng)用之一的發(fā)展人機(jī)交際中的語言問題n例如語言文字的輸入輸出問題,促進(jìn)了智能化人機(jī)接口技術(shù)的研究研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室為什么要研究自然語言處理n從科學(xué)研究的角度:探尋人類通
23、過語言來交互信息的奧秘,更好地理解語言本身的內(nèi)在規(guī)律n從實際應(yīng)用的角度:構(gòu)建更加有效的人機(jī)交互方式研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室解題(續(xù))n兩類不同的語言處理模型(Chomsky)能力模型n通常是基于語言學(xué)規(guī)則的模型,建立在人腦中先天存在語法通則這一假設(shè)的基礎(chǔ)上,認(rèn)為語言是人腦的語言能力推導(dǎo)出來的,建立語言模型就是通過建立人工編輯的語
24、言規(guī)則集來模擬這種先天的語言能力。n又稱“理性主義的”語言模型n建模步驟語言學(xué)知識形式化形式化規(guī)則算法化算法實現(xiàn)研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室解題(續(xù))應(yīng)用模型n根據(jù)不同的語言處理應(yīng)用而建立的特定語言模型,通常是基于統(tǒng)計的模型。n又稱“經(jīng)驗主義的”語言模型n建模步驟大規(guī)模真實語料庫中獲得語言各級語言單位上的統(tǒng)計信息依據(jù)較低級語言單位上
25、的統(tǒng)計信息運用相關(guān)的統(tǒng)計推理技術(shù)計算較高級語言單位上的統(tǒng)計信息研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室解題(續(xù))n建立計算框架來實現(xiàn)這樣的語言模型借助計算機(jī),研究自動化的方法n提出相應(yīng)的方法來不斷地完善這樣的語言模型人工編輯的方法統(tǒng)計機(jī)器學(xué)習(xí)方法的大量運用研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copy
26、rights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室解題(續(xù))n根據(jù)這樣的語言模型設(shè)計各種實用系統(tǒng)規(guī)則與統(tǒng)計相結(jié)合n評測技術(shù)自然語言處理的重要研究專題之一國際公認(rèn)的自然語言研究競技場nSighannConllnTREC研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語
27、言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室什么是自然語言處理n定義2:是人工智能和語言學(xué)的交叉學(xué)科,研究自然語言的自動生成(natural language generation)與理解(natural language understanding)。自然語言自動生成研究將存放于計算機(jī)數(shù)據(jù)庫的信息轉(zhuǎn)換為自然語音。自然語言理解研究將人類語言轉(zhuǎn)換為計算機(jī)能夠理解操作的形式化表示方式-”Natural language processing”From Wikipedia, the free encyclopedia研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2
28、010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室圖靈實驗讓機(jī)器模仿人來回答某些問題,通過實驗和觀察來判斷機(jī)器是否具備智能。為人工智能確定了奮斗的目標(biāo),并指明了前進(jìn)的方向人工智能自誕生之日起就和自然語言理解結(jié)下了不解之緣 研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研
29、究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理是一門交叉性學(xué)科n它是人工智能的重要分支n它是應(yīng)用語言學(xué)的分支n交叉性學(xué)科語言學(xué)計算機(jī)科學(xué)數(shù)學(xué)心理學(xué)信息論聲學(xué)研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室相關(guān)術(shù)語n中文信息處理n中文語言處理n計算語言學(xué)n自然語言理解n智能化人機(jī)接口n研究生專
30、業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理的知識內(nèi)容n基礎(chǔ)n應(yīng)用n資源n評測研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)
31、合實驗室阿里巴巴聯(lián)合實驗室自然語言處理的知識內(nèi)容:基礎(chǔ)研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理的知識內(nèi)容:基礎(chǔ)n音位學(xué)描述音位的結(jié)合規(guī)律,說明音位怎樣形成語素舉例:“delete file x”-dilet#fail#eksn形態(tài)學(xué)描述語素的結(jié)合規(guī)律,說明語素怎樣形成單詞舉例: dilet#fail#eks-”delete” “fi
32、le” “x”研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理的知識內(nèi)容:基礎(chǔ)n詞匯學(xué)描述詞匯系統(tǒng)的規(guī)律,說明單詞本身固有的語義特性和語法特性舉例:”delete” “file” “x”-(“delete” VERB)(“file” NOUN)(“x” ID)研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季
33、Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理的知識內(nèi)容:基礎(chǔ)n句法學(xué)描述單詞或詞組之間的結(jié)構(gòu)規(guī)則,說明單詞或詞組怎樣構(gòu)成句子舉例:(“delete” VERB)(“file” NOUN)(“x” ID)-研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大
34、學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理的知識內(nèi)容:基礎(chǔ)n語義學(xué)描述句子中各個成分之間的語義關(guān)系,怎樣從構(gòu)成句子的各個成分推導(dǎo)出整個句子的語義舉例:- delete-file(x)研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理的知識內(nèi)容:基礎(chǔ)n話語分析描述句子和句子之間的結(jié)構(gòu)規(guī)律,說明怎樣
35、由句子形成話語或?qū)υ抧語用分析描述與情景有關(guān)的情景語義,說明怎樣推導(dǎo)出句子具有的與周圍話語有關(guān)的各種涵義舉例:delete-file(x)-rm -i x研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理的知識內(nèi)容:應(yīng)用n我們可以按照如下準(zhǔn)則將自然語言處理的各種應(yīng)用系統(tǒng)地組織起來一個應(yīng)用是重新生成或者恢復(fù)重新生成或者恢復(fù)還是需要轉(zhuǎn)轉(zhuǎn)換或者翻譯
36、換或者翻譯某種語言現(xiàn)象一個應(yīng)用是要識別或者分析要識別或者分析語言輸入還是需要產(chǎn)生或者合成產(chǎn)生或者合成語言輸出研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理的知識內(nèi)容:應(yīng)用重新生成轉(zhuǎn)換識別產(chǎn)生文本檢索文本分類與聚類問答信息抽取文摘機(jī)器翻譯實體識別語音識別主題抽取語音合成研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年
37、秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理的知識內(nèi)容:資源n語料庫n(計算機(jī)用)詞法、句法、語義詞典,文法規(guī)則集等等n常用中文資源簡介n北京大學(xué)人民日報語料庫n現(xiàn)代漢語語法信息詞典n黃曾陽HNCn董振東Hownetn研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言
38、技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自然語言處理的知識內(nèi)容:評測n自然語言處理的重要組成部分,對自然語言處理的各種應(yīng)用進(jìn)行系統(tǒng)地評價n引導(dǎo)自然語言處理應(yīng)用發(fā)展的重要手段n由如下三個方面組成評測方法評測對象(速度?精度?適用范圍?)評測量度研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自
39、然語言處理的知識內(nèi)容:評測n常用評測量度量度英文典型應(yīng)用定義單詞錯誤率Word error rate(WER)語音識別系統(tǒng)輸出與正確輸出的最小編輯距離精確度Precision (P)文本檢索系統(tǒng)輸出中的正確輸出占實際輸出總數(shù)的比率召回率Recall (R)文本檢索系統(tǒng)輸出中的正確輸出占全部正確輸出的比率研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室自
40、然語言處理的知識內(nèi)容:評測(續(xù))量度英文典型應(yīng)用定義F量度F-measure文本檢索精確度與召回率的調(diào)和平均數(shù)平均準(zhǔn)確率Mean average precision(MAP)文本檢索對不同召回率點上的精確度取平均值平均排序倒數(shù)Mean reciprocalRank(MRR)文本檢索RR是第一個正確答案出現(xiàn)位置的倒數(shù),MRR是多個主題的RR的平均值 研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大
41、哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室中文語言處理的發(fā)展概況n從漢字信息處理到漢語信息處理漢字信息處理已經(jīng)基本解決漢語信息處理遭遇瓶頸n從單機(jī)信息處理到網(wǎng)絡(luò)信息處理單機(jī)信息處理系統(tǒng)網(wǎng)絡(luò)信息處理系統(tǒng)研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室從漢字信息處理到漢語信息處理n字處理漢字機(jī)內(nèi)碼n國標(biāo)碼GB2312-80nGB18030國家信息產(chǎn)業(yè)部和
42、質(zhì)量技術(shù)監(jiān)督局發(fā)布 信息技術(shù)和信息交換用漢字編碼字符集、基本集的擴(kuò)充nUnicode漢字輸入碼漢字字型庫漢字排版系統(tǒng)n北大方正的激光照排系統(tǒng)研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室從漢字信息處理到漢語信息處理n詞處理詞是自然語言中最小的有意義的構(gòu)成單位分詞規(guī)范n信息處理用現(xiàn)代漢語分詞規(guī)范(中華人民共和國國家標(biāo)準(zhǔn)GB13715)研究內(nèi)容n分詞n詞
43、性標(biāo)注n名實體識別n詞義消歧等等研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室從漢字信息處理到漢語信息處理n語句處理句法分析語句的語義分析應(yīng)用n音字轉(zhuǎn)換n文本校對n語音合成n機(jī)器翻譯n研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾
44、濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室從漢字信息處理到漢語信息處理n篇章處理自動文摘n單文檔自動文摘n多文檔自動文摘研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室從單機(jī)信息處理到網(wǎng)絡(luò)信息處理n當(dāng)前的熱點問題信息抽取問答系統(tǒng)對話系統(tǒng)等等研究生專業(yè)必修課研究生專業(yè)必修
45、課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室本課重點n基于統(tǒng)計與規(guī)則相結(jié)合的漢語詞法分析技術(shù)規(guī)則與統(tǒng)計相結(jié)合詞法分析技術(shù)相對比較成熟(句法、語義分析等方面還不夠成熟)既注重語言無關(guān)性,又突出漢語的特點理論與實踐相結(jié)合n一個小型音字轉(zhuǎn)換系統(tǒng)研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Righ
46、ts Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室中文的幾大特點n漢語是大字符集的意音文字n漢語詞與詞之間沒有空格n漢語的同音詞較多n漢語沒有形態(tài)變化研究生專業(yè)必修課研究生專業(yè)必修課自然語言處理自然語言處理 , 2010年秋季年秋季Copyrights 2010. HIT. All Rights Reserved哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院語言技術(shù)研究中心哈工大哈工大-阿里巴巴聯(lián)合實驗室阿里巴巴聯(lián)合實驗室中文語言處理發(fā)展的主要困難n中文語言處理發(fā)展的主要困難n漢語的語法研究尚未規(guī)范化n漢語的語言學(xué)知識的量化與
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新形勢下國有企業(yè)財務(wù)會計向管理會計轉(zhuǎn)型路徑探討
- 機(jī)械工程CAD繪圖技能實踐題
- 2025年黑龍江貨運上崗證考試多少道題
- 人工智能算法與數(shù)據(jù)結(jié)構(gòu)試卷
- 雷鋒叔叔的紅色故事征文
- 動名詞進(jìn)行時與一般時態(tài)對比教案
- 2025年長治b2貨運資格證全題
- 2025年心電遙測監(jiān)護(hù)儀項目合作計劃書
- 2025年上門美甲項目建議書
- 2025年電子計算機(jī)外部設(shè)備及裝置項目發(fā)展計劃
- 汕頭大學(xué)匯報模板
- 山東省濟(jì)寧市2022年中考數(shù)學(xué)真題及答案
- 拼音拼讀音節(jié)帶聲調(diào)完全版
- 環(huán)泊酚注射液-臨床用藥解讀
- 冷庫安全檢查內(nèi)容與評價標(biāo)準(zhǔn)
- (完整版)4.19天體運動綜合習(xí)題(帶答案)
- 放射科未來五年發(fā)展規(guī)劃(2021-2025)
- 中學(xué)生預(yù)防性侵主題班會
- 不良資產(chǎn)項目律師法律盡調(diào)報告(模板)
- 高級技校電氣自動化設(shè)備安裝與維修教學(xué)計劃
- 《長征之戰(zhàn)役》課件
評論
0/150
提交評論