自然語(yǔ)言理解-緒論-PPT課件_第1頁(yè)
自然語(yǔ)言理解-緒論-PPT課件_第2頁(yè)
自然語(yǔ)言理解-緒論-PPT課件_第3頁(yè)
自然語(yǔ)言理解-緒論-PPT課件_第4頁(yè)
自然語(yǔ)言理解-緒論-PPT課件_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、自然語(yǔ)言理解上海交通大學(xué)計(jì)算機(jī)系陳玉泉聯(lián)系方式陳玉泉:34204406閔行電院3-525參考文獻(xiàn)俞士汶主編(2019)計(jì)算語(yǔ)言學(xué)概論,商務(wù)印書(shū)館劉穎(2019)計(jì)算語(yǔ)言學(xué),清華大學(xué)出版社James Allen(2019), Natural Language Understanding The Benjamin / Cummings Publishing Company, Inc.翁富良、王野翊(2019)計(jì)算語(yǔ)言學(xué)導(dǎo)論, 中國(guó)社會(huì)科學(xué)出版社Christopher D. Manning and Hinrich Schutze(2019), Foundations of Statistical N

2、atural Language Processing, The MIT Press, Cambridge, Massachusetts參考文獻(xiàn)劉開(kāi)瑛、郭炳炎(1991)自然語(yǔ)言處理,科學(xué)出版社馮志偉(1991)數(shù)學(xué)與語(yǔ)言,湖南教育出版社馮志偉(2019)自然語(yǔ)言機(jī)器翻譯新論,語(yǔ)文出版社2019年版。姚天順等(2019)自然語(yǔ)言理解一種讓機(jī)器懂得人類(lèi)語(yǔ)言的研究,清華大學(xué)出版社、廣西科學(xué)技術(shù)出版社馮志偉(2019)自然語(yǔ)言的計(jì)算機(jī)處理,上海外語(yǔ)教育出版社俞士汶等(2019)現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典詳解,清華大學(xué)出版社、廣西科學(xué)技術(shù)出版社陳小荷(2000)現(xiàn)代漢語(yǔ)自動(dòng)分析,北京語(yǔ)言文化大學(xué)出版社網(wǎng)絡(luò)資源

3、ACL主頁(yè):NLP新聞組:comp.ai.nat-langLDC:中文自然語(yǔ)言處理開(kāi)放平臺(tái):計(jì)算所自然語(yǔ)言處理研究組:mtgroup.ict.ac北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所:中國(guó)語(yǔ)言文字網(wǎng):linguitics_links.html期刊計(jì)算語(yǔ)言學(xué)外文期刊名.doc中文期刊: 語(yǔ)言文字學(xué) 語(yǔ)言文字應(yīng)用 中國(guó)語(yǔ)文 中文信息學(xué)報(bào) 當(dāng)代語(yǔ)言學(xué) 現(xiàn)代外語(yǔ) 課程說(shuō)明上課:1-8周,4學(xué)時(shí)/周,32學(xué)時(shí)考核:開(kāi)卷考試 致謝本課程講義(包括后續(xù)各節(jié))直接引用了下面幾位同行的課程講義中的部分內(nèi)容,在此深表感謝!劉群: 計(jì)算語(yǔ)言學(xué)詹衛(wèi)東: 計(jì)算語(yǔ)言學(xué)概論白碩: 計(jì)算語(yǔ)言學(xué)劉穎: 計(jì)算語(yǔ)言學(xué)馮志偉:機(jī)器翻譯研究的歷史

4、和現(xiàn)狀 依存語(yǔ)法在機(jī)器翻譯中的應(yīng)用第一章概論問(wèn)題驅(qū)動(dòng)的學(xué)習(xí)要了解一門(mén)學(xué)科,首先要知道這門(mén)學(xué)科所要解決的問(wèn)題。只有了解了一門(mén)學(xué)科所要解決的問(wèn)題,才能真正理解一門(mén)學(xué)科的內(nèi)在邏輯,才能不僅知其然,而且知其所以然。在學(xué)習(xí)一門(mén)學(xué)科之前,不妨拋開(kāi)這門(mén)學(xué)科的所有知識(shí),直接面對(duì)這門(mén)學(xué)科所面對(duì)的最基本的問(wèn)題,想一想如果要你來(lái)解決這個(gè)問(wèn)題,你會(huì)用什么辦法。然后在學(xué)習(xí)的過(guò)程中,不斷地用你學(xué)到的知識(shí)來(lái)印證你所要解決的問(wèn)題,才能深刻地理解你所學(xué)到的知識(shí),真正做到融會(huì)貫通。問(wèn)題之一:自動(dòng)翻譯 自動(dòng)翻譯問(wèn)題 人類(lèi)最古老的問(wèn)題之一:圣經(jīng)上巴比倫塔的傳說(shuō)計(jì)算機(jī)發(fā)明以來(lái),幾乎是人類(lèi)首先想到的計(jì)算機(jī)的應(yīng)用之一困難比人們想像的大得多

5、,至今沒(méi)有找到理想的解決辦法是推動(dòng)計(jì)算語(yǔ)言學(xué)研究的永恒動(dòng)力是計(jì)算語(yǔ)言學(xué)的終極目標(biāo)自動(dòng)翻譯研究,幾乎觸及到計(jì)算語(yǔ)言學(xué)研究的所有方方面面問(wèn)題之一:自動(dòng)翻譯(續(xù)) 一個(gè)經(jīng)典的例子(早期的英俄翻譯系統(tǒng)):源文:The spirit is willing , but the flesh is weak.正確的譯文:心有余而力不足機(jī)器的譯文:酒是好的,但肉是餿的又一個(gè)經(jīng)典的例子(一個(gè)笑話)源文:How are you?正確的譯文:你好嗎?逐字翻譯的譯文:怎么是你?源文:How old are you?正確的譯文:你多大了?逐字翻譯的譯文:怎么老是你?問(wèn)題之一:自動(dòng)翻譯(續(xù)二) 演示Light英漢機(jī)器翻譯系

6、統(tǒng)TransEasy漢英機(jī)器翻譯系統(tǒng)目前的水平:LogMedia:https:/logomedia/WordLingo:worldlingo/看世界: readworld金橋譯港:netat/問(wèn)題之二:自動(dòng)問(wèn)答 圖靈測(cè)試用于判斷“機(jī)器是否具有智能”一個(gè)封閉的小屋屋外一個(gè)人屋內(nèi)依次進(jìn)入一個(gè)人和一臺(tái)計(jì)算機(jī)屋外的人并不知道屋內(nèi)的是人還是計(jì)算機(jī)屋外的人向屋內(nèi)的人和計(jì)算機(jī)提出各種問(wèn)題屋外的人根據(jù)回答來(lái)判斷屋內(nèi)是人還是計(jì)算機(jī)如果判斷不出來(lái),那么可以認(rèn)為計(jì)算機(jī)具有了智能交談 甲:聽(tīng)說(shuō)吳媽打贏了阿Q。乙:不錯(cuò),阿Q確實(shí)被吳媽打敗了。甲:這個(gè)結(jié)果有些出人意料。乙:阿Q是大意失荊州,怪不得別人。 A. M. Tu

7、ring 我們可以期待,總有一天機(jī)器會(huì)同人在所有的智能領(lǐng)域里競(jìng)爭(zhēng)起來(lái)。但是,如何開(kāi)始呢?這是一個(gè)很難決定的問(wèn)題。許多人以為可以把下棋之類(lèi)的極為抽象的活動(dòng)作為最好的出發(fā)點(diǎn),不過(guò),還有一種辦法也應(yīng)加以考慮,就是為機(jī)器配備具有智能的、可用錢(qián)買(mǎi)到的意識(shí)器官,然后,教這種機(jī)器理解并且說(shuō)英語(yǔ)。這個(gè)過(guò)程可以仿效通常小孩子學(xué)話的方式進(jìn)行。我不能確定到底哪個(gè)出發(fā)點(diǎn)更好,但應(yīng)該都值得一試。A. M. Turing, Computing Machinery and Intelligence, Mind Vol.59, 1950.阿蘭. 圖靈(英國(guó)數(shù)學(xué)家)計(jì)算裝置與智能 關(guān)于語(yǔ)言,可以問(wèn)些什么? 人用來(lái)交際的“語(yǔ)言”

8、具有什么樣的性質(zhì)?這些性質(zhì)又是如何影響交際過(guò)程的?人用來(lái)交際的“語(yǔ)言”跟機(jī)器可以“理解”的語(yǔ)言有什么樣的關(guān)系?人是如何運(yùn)用“語(yǔ)言”進(jìn)行交際的?人運(yùn)用語(yǔ)言進(jìn)行交際的過(guò)程是否可以描述為一個(gè)機(jī)械的過(guò)程?什么叫做“理解”一種語(yǔ)言?其它問(wèn)題音字轉(zhuǎn)換:語(yǔ)音識(shí)別、拼音輸入自動(dòng)文摘:自動(dòng)給出一篇或多篇文章的摘要信息檢索:在海量的信息準(zhǔn)確找到你所需要的信息信息過(guò)濾:從信息流中篩選出你所感興趣的信息信息抽取:從海量的信息中抽取出你所需要的(結(jié)構(gòu)化)信息定義 計(jì)算語(yǔ)言學(xué)(Computational Linguistics)指的是這樣一門(mén)學(xué)科,它通過(guò)建立形式化的數(shù)學(xué)模型,來(lái)分析、處理自然語(yǔ)言,并在計(jì)算機(jī)上用程序來(lái)實(shí)現(xiàn)

9、分析和處理的過(guò)程,從而達(dá)到以機(jī)器來(lái)模擬人的部分乃至全部語(yǔ)言能力的目的。 NLP/NLU/CIP計(jì)算語(yǔ)言學(xué)(Computational Linguistics ) 廣義的計(jì)算語(yǔ)言學(xué)幾乎包括了與計(jì)算機(jī)(或計(jì)算機(jī)科學(xué))和語(yǔ)言學(xué)相關(guān)的所有方面;狹義的計(jì)算語(yǔ)言學(xué)一般等同于自然語(yǔ)言理解(NLU),也就是通過(guò)建立形式化的計(jì)算模型來(lái)分析、理解和處理語(yǔ)言。 中文信息處理( Chinese Information Processing , CIP):又稱(chēng)漢語(yǔ)信息處理,是漢語(yǔ)的自然語(yǔ)言處理(NLP)。計(jì)算語(yǔ)言學(xué)是三個(gè)學(xué)科的交叉領(lǐng)域常規(guī)統(tǒng)計(jì)方法:其中A:統(tǒng)計(jì)語(yǔ)言學(xué), B:機(jī)器學(xué)習(xí),C:人工神經(jīng)元網(wǎng)絡(luò) 非常規(guī)方法: 其

10、中D:模型論,情景理論E:非單調(diào)邏輯,模糊邏輯,博弈論語(yǔ)義,似然推理計(jì)算語(yǔ)言學(xué)與語(yǔ)言學(xué) 語(yǔ)言學(xué) 計(jì)算機(jī)科學(xué) 教學(xué)對(duì)象 人 機(jī)器理解依據(jù) 人類(lèi)活動(dòng)說(shuō)話環(huán)境 形式描述情景知識(shí)最基本語(yǔ)言條件 語(yǔ)感語(yǔ)料、加工平臺(tái)例句判斷的基本假設(shè) 單說(shuō)分解過(guò)程中任意出現(xiàn):“合法合情合理” 計(jì)算語(yǔ)言學(xué)的研究手段 計(jì)算語(yǔ)言學(xué)的研究手段是計(jì)算計(jì)算的基礎(chǔ)是馮諾依曼結(jié)構(gòu)的計(jì)算機(jī)計(jì)算的表現(xiàn)形式是算法算法:一組有窮的操作規(guī)則確定性:每一個(gè)步驟的結(jié)果都是確定的可行性:每一個(gè)步驟可在有限時(shí)間內(nèi)完成輸入:有輸入輸出:有輸出有窮性:可在有限步驟內(nèi)停止算法和程序的聯(lián)系與區(qū)別 計(jì)算語(yǔ)言學(xué)的研究對(duì)象 計(jì)算語(yǔ)言學(xué)的研究對(duì)象是自然語(yǔ)言自然語(yǔ)言與形式

11、語(yǔ)言的本質(zhì)區(qū)別:歧義性自然語(yǔ)言是一種符號(hào)系統(tǒng)語(yǔ)言符號(hào)的特點(diǎn)(索緒爾)任意性:語(yǔ)言符號(hào)的選擇是任意的線條性:語(yǔ)言符號(hào)的排列是線性的語(yǔ)言、思維與客觀世界 思維自然語(yǔ)言 客觀世界語(yǔ)言的層面 語(yǔ)言研究的層面語(yǔ)音語(yǔ)法(包括詞匯層和句法層)語(yǔ)法研究要回答的問(wèn)題是:一句話為什么可以這么說(shuō)而不能那么說(shuō)?語(yǔ)義語(yǔ)義研究要回答的問(wèn)題是:這句話說(shuō)了什么?語(yǔ)用語(yǔ)用研究要回答的問(wèn)題是:為什么要說(shuō)這句話? 語(yǔ)言的層面(續(xù)) 語(yǔ)言各層面之間的關(guān)系語(yǔ)言層面的劃分反映了語(yǔ)言在不同層次上的規(guī)律性語(yǔ)言的各個(gè)層面是互相交織密不可分的,語(yǔ)言層面的劃分只是為了研究方便,對(duì)任何一個(gè)層面的研究都不能忽略其他層面所起的作用語(yǔ)言在不同層面的歧義性

12、 .語(yǔ)音層面:多音字,同音詞施氏食獅史(趙元任)石室詩(shī)士施氏,嗜獅,誓食十獅。氏時(shí)時(shí)適市視獅,十時(shí),適十獅適市,是時(shí),適施氏適市,施氏視是十獅,拭矢試,使是十獅逝世,適石室,石室濕,氏使侍拭石室,石室拭,始食是十獅尸,始識(shí)是十獅尸,實(shí)十石獅尸,試釋是事。 語(yǔ)言在不同層面的歧義性(續(xù)) 語(yǔ)法層面詞法歧義詞性兼類(lèi):工作(動(dòng)名兼類(lèi)),在(動(dòng)副兼類(lèi))詞語(yǔ)切分歧義:乒乓球拍賣(mài)完了,魚(yú)在長(zhǎng)江中游句法歧義結(jié)構(gòu)歧義:張三和李四的朋友組合關(guān)系歧義:觀賞魚(yú)語(yǔ)言在不同層面的歧義性(續(xù)二) .語(yǔ)義層面一詞多義:后門(mén),人大,I can can the can in the can.結(jié)構(gòu)語(yǔ)義歧義:吃飯,吃食堂,吃大碗.語(yǔ)

13、境層面雞蛋!他去修車(chē)了。漢語(yǔ)的特點(diǎn) 語(yǔ)言的分類(lèi)漢語(yǔ):孤立語(yǔ)(分析語(yǔ))英語(yǔ):屈折語(yǔ)日語(yǔ):粘著語(yǔ)基本單位漢語(yǔ):漢字(單音節(jié),不用空格分隔)英語(yǔ):詞(多音節(jié),用空格分隔)詞語(yǔ)形態(tài)變化漢語(yǔ):弱(重疊、離合)英語(yǔ):強(qiáng)(屈折) 漢語(yǔ)的特點(diǎn)(續(xù)) 語(yǔ)言的層次劃分漢語(yǔ):不明顯:字與詞、詞與語(yǔ)、語(yǔ)與句、句與段,都沒(méi)有明確的界限英語(yǔ):明顯:詞、短語(yǔ)、子句、句子、段落之間界限分明詞類(lèi)與句法功能的對(duì)應(yīng)漢語(yǔ):多對(duì)多英語(yǔ):一對(duì)一 計(jì)算語(yǔ)言學(xué)的研究對(duì)象 從計(jì)算的角度來(lái)研究語(yǔ)言的性質(zhì)將語(yǔ)言作為計(jì)算對(duì)象來(lái)研究相應(yīng)的算法 從計(jì)算角度研究語(yǔ)言 所謂從計(jì)算的角度來(lái)看語(yǔ)言的性質(zhì),就是要求將人們對(duì)語(yǔ)言的結(jié)構(gòu)規(guī)律的認(rèn)識(shí)以精確的、形式化的、

14、可計(jì)算的方式呈現(xiàn)出來(lái),而不是像其他語(yǔ)言學(xué)研究那樣,在表述語(yǔ)言的結(jié)構(gòu)規(guī)律時(shí)一般采用非形式化的表達(dá)形式。 例子.張三趕跑了李四.張三把李四趕跑了.李四被張三趕跑了.吳媽以前很喜歡阿Q的理論.* 吳媽把阿Q的理論以前很喜歡.* 阿Q的理論被吳媽以前很喜歡語(yǔ)法規(guī)律 漢語(yǔ)中的一個(gè)基本句型是:P0: X 動(dòng)詞YP0可以變換為“把”字句或“被”字句P1: X+把+Y+動(dòng)詞P2: Y+被+X+動(dòng)詞有些時(shí)候P0可以變換為P1,P2;有些時(shí)候P0不可以變換為P1,P2;將語(yǔ)言作為計(jì)算對(duì)象 所謂將語(yǔ)言作為計(jì)算對(duì)象來(lái)研究相應(yīng)的算法,是研究如何以機(jī)械的、規(guī)定了嚴(yán)格操作步驟的程序來(lái)處理語(yǔ)言對(duì)象(主要是自然語(yǔ)言對(duì)象,當(dāng)然也

15、可以是形式語(yǔ)言對(duì)象),包括一個(gè)語(yǔ)言片斷(比如詞組、句子或篇章)中大小語(yǔ)言單位的識(shí)別,該語(yǔ)言片斷的結(jié)構(gòu)和意義的分析(自然語(yǔ)言理解),以及如何生成一個(gè)語(yǔ)言片斷來(lái)表達(dá)確定的意思(自然語(yǔ)言生成),等等 過(guò)程 S1:研究者以特定的方式對(duì)自然語(yǔ)言(NL0)的規(guī)律進(jìn)行抽象,以計(jì)算機(jī)能夠處理的形式來(lái)表述關(guān)于自然語(yǔ)言的規(guī)律得到語(yǔ)言知識(shí)K;S2:針對(duì)特定的語(yǔ)言知識(shí)表示形式,研制適合的分析和處理算法;S3:根據(jù)算法編制計(jì)算機(jī)可執(zhí)行的自然語(yǔ)言處理程序P。這樣的程序加上語(yǔ)言知識(shí),加上計(jì)算機(jī)硬件系統(tǒng),共同構(gòu)成一個(gè)自然語(yǔ)言處理系統(tǒng)(NLPs);S4:用這樣一個(gè)自然語(yǔ)言處理系統(tǒng)對(duì)自然語(yǔ)言NL0進(jìn)行分析處理,根據(jù)反饋的結(jié)果調(diào)整原來(lái)的設(shè)計(jì),改進(jìn)NLPs。 計(jì)算語(yǔ)言學(xué)的應(yīng)用領(lǐng)域 機(jī)器翻譯(Machine Translation)文本分類(lèi)(Text Classification)信息檢索(Information Retrieval)信息提?。↖nformation Extraction)語(yǔ)音合成(Speech Synthesis)語(yǔ)音識(shí)別(Speech Recognition)人機(jī)接口(Human-Machine Interface) 計(jì)算語(yǔ)言學(xué)研究的基本方法 理性主義研究方法 基于規(guī)則

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論