![應(yīng)用語言學(xué)概論自然語言處理_第1頁](http://file4.renrendoc.com/view/4ad5bf84076344dc26cefcf214bfa93e/4ad5bf84076344dc26cefcf214bfa93e1.gif)
![應(yīng)用語言學(xué)概論自然語言處理_第2頁](http://file4.renrendoc.com/view/4ad5bf84076344dc26cefcf214bfa93e/4ad5bf84076344dc26cefcf214bfa93e2.gif)
![應(yīng)用語言學(xué)概論自然語言處理_第3頁](http://file4.renrendoc.com/view/4ad5bf84076344dc26cefcf214bfa93e/4ad5bf84076344dc26cefcf214bfa93e3.gif)
![應(yīng)用語言學(xué)概論自然語言處理_第4頁](http://file4.renrendoc.com/view/4ad5bf84076344dc26cefcf214bfa93e/4ad5bf84076344dc26cefcf214bfa93e4.gif)
![應(yīng)用語言學(xué)概論自然語言處理_第5頁](http://file4.renrendoc.com/view/4ad5bf84076344dc26cefcf214bfa93e/4ad5bf84076344dc26cefcf214bfa93e5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
應(yīng)用語言學(xué)概論自然語言處理第一頁,共三十九頁,編輯于2023年,星期六2,把這種嚴(yán)密而規(guī)整的數(shù)學(xué)形式表示為算法,使之在計算上形式化。3。根據(jù)算法編寫計算機程序,使之在計算機上加以實現(xiàn)。自然語言學(xué)是介乎語言學(xué)、數(shù)學(xué)、計算機科學(xué)之間的邊緣性的交叉學(xué)科。第二頁,共三十九頁,編輯于2023年,星期六自然語言處理的原理機器翻譯的原理與發(fā)展階段術(shù)語數(shù)據(jù)庫的作用與工作原則數(shù)理語言學(xué)的研究對象統(tǒng)計語言學(xué)的統(tǒng)計自然語言處理運用到的語言理論主要有哪些?語料庫的類型與作用第三頁,共三十九頁,編輯于2023年,星期六美國著名語言學(xué)家喬姆斯基,創(chuàng)立了轉(zhuǎn)換生成語法,其核心就是語言能從有限的要素和規(guī)則演變出無限的句子;語言分深層與表層,深層結(jié)構(gòu)靠規(guī)則向表層結(jié)構(gòu)有規(guī)律地生成:“我們這里要考慮的是各種生成句子的裝置,它們又以各種各樣的方式,同自然語言的語法和各種人造語言的語法二者都有著密切的聯(lián)系。我們將把語言直接地看成在符號的某一有限集合V中的符號串的集合,而V就叫做該語言的詞匯……我們把語法看成是對程序設(shè)計語言的詳細(xì)說明,而把符號串看成是程序?!钡谒捻?,共三十九頁,編輯于2023年,星期六(一)機器翻譯系統(tǒng)自然語言處理系統(tǒng)的研究首先是從機器翻譯系統(tǒng)做起的。1,草創(chuàng)期(20世紀(jì)40-60年代)
1946年,美國賓夕法尼亞大學(xué)??颂兀?P.Eckert)和莫希萊(J.W.Mauchly)首創(chuàng)世界上第一臺計算機,1949年美國洛克菲勒基金會副總裁韋弗(W.Weaver)首創(chuàng)機器翻譯。工作原理:A語言與B語言之間經(jīng)過一種“中介語言”,又叫“通用語言”、“中間語言”來實現(xiàn)。機器翻譯相當(dāng)于讀碼解碼,實現(xiàn)上是以查詢詞典的方式來實現(xiàn)詞對詞的機器翻譯。第五頁,共三十九頁,編輯于2023年,星期六2,復(fù)蘇期(20世紀(jì)70年代)美國學(xué)者英格維(V.Yingve)提出機器翻譯的過程:用代碼化的結(jié)構(gòu)標(biāo)志來表示原語文句的結(jié)構(gòu);把原語的結(jié)構(gòu)標(biāo)志轉(zhuǎn)換為譯語的結(jié)構(gòu)標(biāo)志;構(gòu)成譯語的輸出文句。句法分析成為機器翻譯工作的中心。第六頁,共三十九頁,編輯于2023年,星期六復(fù)蘇期的代表產(chǎn)品是法國格勒諾布爾理科醫(yī)科大學(xué)自動翻譯中心的機器翻譯系統(tǒng)。這時研究者還認(rèn)識到,機器翻譯中必須保持原語和譯語在語義上的一致。從而語義分析比句法分析日益引起人們的重視。第七頁,共三十九頁,編輯于2023年,星期六3,繁榮期(20世紀(jì)70年代——)產(chǎn)品的實用化、商品化。工作原理:1,直譯式:詞對詞;句法直譯式、語義直譯式。2,轉(zhuǎn)換式:在原語和譯語之間設(shè)定能在一定程序上表現(xiàn)語義關(guān)系的中間表達式,再通過中間表達式來完成句法和語義的進一步轉(zhuǎn)換。3。樞軸式:把語言規(guī)則普遍化,成為不依賴任何具體語言的普遍意義,形成“樞軸”,由“樞軸”來承擔(dān)“中介語”的作用。第八頁,共三十九頁,編輯于2023年,星期六這時的機器翻譯都是“基于規(guī)則”的機器翻譯。近年來出現(xiàn)了“基于經(jīng)驗”的機器翻譯。所謂基于經(jīng)驗,就是指基于統(tǒng)計,基于實例。它是在大型語料庫的基礎(chǔ)上形成的。演示sxd軟件與sms軟件。第九頁,共三十九頁,編輯于2023年,星期六一種語言中的任何一個句子都有可能是另外一種語言中的某幾個句子的譯文,只是這些句子的可能性各不相同,機器翻譯就是要找出其中可能性最大的句子,也就是對所有可能的目標(biāo)S計算出概率最大的一個作為源語言T的譯文?!斑x優(yōu)式”的做法。第十頁,共三十九頁,編輯于2023年,星期六這種觀點的理論依據(jù):人類并不通過做深層的語言學(xué)分析來進行翻譯,而是首先把輸入的句子正確地分解為一些更小單位的短語,接著把這些短語翻譯成其他語言的短語,最后再把這些較小單位的短語構(gòu)成完整的句子。在短語的翻譯中是通過“類比”的原則來實現(xiàn)的。機器翻譯要做的事就是在機器中存儲一些實例,并建立由給定的句子找尋類似例句的機制。這就是基于實例的機器翻譯方法。第十一頁,共三十九頁,編輯于2023年,星期六基于實例的機器翻譯要研究的主要問題:1,正確地進行雙語自動對齊:在實例庫中要難準(zhǔn)確地由源語言例句找到相應(yīng)的目標(biāo)語言例句,并實現(xiàn)對應(yīng)。2,建立有效的實例匹配檢索機制:語言單位不能太小,愈小歧義愈多。因此,它非常強調(diào)盡量多地儲存短語實例。3,根據(jù)檢索到的實例生成與源語言句子相對應(yīng)的譯文。第十二頁,共三十九頁,編輯于2023年,星期六例子:金山詞霸:詞庫、釋義庫、音庫第十三頁,共三十九頁,編輯于2023年,星期六(二)自然語言理解人機對話:中國社科院語言研究所“RJD-80型漢語人機對話系統(tǒng)”中國科學(xué)院心理研究所“機器理解漢語-實驗I:CLUS系統(tǒng)”中國社科院語言研究所“TK-84型漢語人機對話系統(tǒng)”東北工學(xué)院建立“中文句子及文本理解系統(tǒng)CTUS”……第十四頁,共三十九頁,編輯于2023年,星期六(三)情報自動檢索情報自動檢索包括的內(nèi)容;1,文獻情報的采集;2,文獻情報的加工處理:3,文獻情報的編排和存儲:4,檢索服務(wù):第十五頁,共三十九頁,編輯于2023年,星期六情報檢索系統(tǒng)的評測標(biāo)準(zhǔn):1,查詢效率:查全率;查準(zhǔn)率:2,運行效率:機時;存儲空間;費用第十六頁,共三十九頁,編輯于2023年,星期六運用范圍:1,自動生成文摘;2,自動編制索引;3,自動抽取情報資料的主題詞;第十七頁,共三十九頁,編輯于2023年,星期六日常生活中隨時都可接觸到情報索引(信息檢索)學(xué)校查成績;銀行信用卡存取款;電話卡查詢:網(wǎng)絡(luò)搜索軟件:網(wǎng)上通輯逃犯:電子商務(wù):第十八頁,共三十九頁,編輯于2023年,星期六計算機輔助語言教學(xué);語音自動識別與合成系統(tǒng);文字自動識別系統(tǒng);言語統(tǒng)計;語料庫語言學(xué);第十九頁,共三十九頁,編輯于2023年,星期六數(shù)理語言學(xué)1894年,瑞士語言學(xué)家索緒爾指出,“在基本性質(zhì)方面,語言中的量和量之間的關(guān)系可以用數(shù)學(xué)公式有規(guī)律的表達出來?!?933年,美國語言學(xué)家布龍菲爾德提出了一個著名的論點:“數(shù)學(xué)不過是語言所能達到的最高境界”。第二十頁,共三十九頁,編輯于2023年,星期六定義:1、數(shù)理語言學(xué)是用數(shù)學(xué)方法來研究語言現(xiàn)象的語言學(xué)科。2、數(shù)理語言學(xué)是用數(shù)學(xué)思想和數(shù)學(xué)方法來研究語言現(xiàn)象的一門新興的語言學(xué)科。3、依據(jù)所使用的數(shù)學(xué)方法的不同,一般分為統(tǒng)計語言學(xué)(statisticallinguistics)和代數(shù)語言學(xué)(algebraiclinguistics)兩個分支,統(tǒng)計語言學(xué)所使用的方法主要是概率論、數(shù)理統(tǒng)計以及信息論方法;代數(shù)語言學(xué)使用的方法主要是集合論、數(shù)理邏輯和算法理論等離散數(shù)學(xué)方法。第二十一頁,共三十九頁,編輯于2023年,星期六二、任務(wù)和理論依據(jù)任務(wù):A、數(shù)理語言學(xué)從數(shù)學(xué)領(lǐng)域得到的主要是思考問題的思路和方法,而不是某種專門的結(jié)果,它把數(shù)學(xué)模型和數(shù)學(xué)程序運用于語言學(xué)的研究,采用定量化和形式化的描述方法,使得語言學(xué)和數(shù)學(xué)一樣精密,以便于計算機的操作,為計算機模擬人腦和進行人工智能的研究開山辟道。
B、從語言的內(nèi)部結(jié)構(gòu)和語言的交際活動兩方面進行,也就是說把數(shù)理語言學(xué)的研究首先分為作為符號系統(tǒng)的語言的數(shù)學(xué)性質(zhì)的研究和對作為交際活動的過程及結(jié)果的言談的數(shù)學(xué)性質(zhì)的研究兩個部分。第二十二頁,共三十九頁,編輯于2023年,星期六數(shù)理語言學(xué)的特點數(shù)理語言學(xué)從數(shù)學(xué)領(lǐng)域得到的主要是思考問題的思路和方法,而不是某種專門的結(jié)果,它把數(shù)學(xué)模型和數(shù)學(xué)程序運用于語言學(xué)的研究,采用定量化和形式化的描述方法,使得語言學(xué)和數(shù)學(xué)一樣精密,以便于計算機的操作,為計算機模擬人腦和進行人工智能的研究開山辟道。
第二十三頁,共三十九頁,編輯于2023年,星期六數(shù)理語言學(xué)的目標(biāo)是希望把一切語言所共有的某些結(jié)構(gòu)性質(zhì)分離出來,而這些性質(zhì)是形式上能夠用數(shù)學(xué)方法描述的。第二十四頁,共三十九頁,編輯于2023年,星期六數(shù)理語言學(xué)的理論來源一是數(shù)學(xué)理論:如集合論、數(shù)理邏輯、離散數(shù)學(xué)理論等,或概率、數(shù)理統(tǒng)計、信息論等;二是理論語言學(xué)的各種原理:如對音位、詞位、句法的各種理論學(xué)說。第二十五頁,共三十九頁,編輯于2023年,星期六三、研究內(nèi)容:
數(shù)理語言學(xué)主要包括統(tǒng)計語言學(xué)、代數(shù)語言學(xué)和應(yīng)用數(shù)理語言學(xué)等三個分支學(xué)科。1、統(tǒng)計語言學(xué)運用概率論、數(shù)理統(tǒng)計等數(shù)學(xué)的方法來作語言成分的定量分析和動態(tài)描寫,目的是要建立語言統(tǒng)計模型,來解決傳統(tǒng)語言學(xué)研究的定性和靜態(tài)研究的不足。統(tǒng)計語言學(xué)又分為統(tǒng)計語音學(xué)、計算語言風(fēng)格學(xué)和年代統(tǒng)計學(xué)。統(tǒng)計語音學(xué)研究音素音位,計算語言風(fēng)格學(xué)通過統(tǒng)計研究某人、某一時代和某一民族的言語風(fēng)格。年代統(tǒng)計學(xué)根據(jù)時代的變化,對詞匯特征和句型等進行分析。第二十六頁,共三十九頁,編輯于2023年,星期六數(shù)理語言學(xué)分支學(xué)科介紹1、統(tǒng)計語言學(xué)運用概率論、數(shù)理統(tǒng)計等數(shù)學(xué)的方法來作語言成分的定量分析和動態(tài)描寫,目的是要建立語言統(tǒng)計模型,來解決傳統(tǒng)語言學(xué)研究的定性和靜態(tài)研究的不足。統(tǒng)計語言學(xué)根據(jù)不同的研究對象,又可分出許多具體領(lǐng)域,如統(tǒng)計語音學(xué)、計算語言風(fēng)格學(xué)和年代統(tǒng)計學(xué)。統(tǒng)計語音學(xué)研究音素音位,計算語言風(fēng)格學(xué)通過統(tǒng)計研究某人、某一時代和某一民族的言語風(fēng)格。年代統(tǒng)計學(xué)根據(jù)時代的變化,對詞匯特征和句型等進行分析。第二十七頁,共三十九頁,編輯于2023年,星期六統(tǒng)計語言學(xué)又稱計量語言學(xué),它主要是應(yīng)用統(tǒng)計程序來處理語言資料,如統(tǒng)計語言單位出現(xiàn)的頻率。研究作者的文體風(fēng)格,在比較語言學(xué)中采用數(shù)學(xué)公式衡量多種語言的相關(guān)程度,在歷史語言學(xué)中確定不同時期語言的發(fā)展特征,以及從信息的角度分析語言信息的傳輸過程等等。美國人齊夫把詞的頻率分布和“消耗最小準(zhǔn)則”這一基本生物學(xué)理論聯(lián)系起來,總結(jié)出了著名的齊夫公式。(所謂齊夫公式就是描述某種語言中詞的順序號與出現(xiàn)的頻率關(guān)系的經(jīng)驗公式。)第二十八頁,共三十九頁,編輯于2023年,星期六使用頻率原理分布原理(離散原理)使用度原理
《現(xiàn)代漢語頻率詞典》頻率排序:“提綱”,序號6942;頻率級次745,詞次13;使用度9?!吧诎簟?,序號7170;頻率級次745,詞次13;使用度7?!奥牎?,序號118;頻率級次116;詞次1415;使用度1130?!包h”,序號119;頻率級次117;詞次1412;使用度829。分布排序:“各”,序號209;分布篇數(shù)123;分布類數(shù)4,詞次1344,使用度931?!伴T”,序號210;分布篇數(shù)123;分布類數(shù)4,詞次863,使用度642。第二十九頁,共三十九頁,編輯于2023年,星期六2,代數(shù)語言學(xué)運用集合論、數(shù)理邏輯、算法理論、模糊數(shù)學(xué)、圖論、格論等離散數(shù)學(xué)方法來作語言理論分析和形式特征的描寫。目的是建立起語言的代數(shù)模型,把語言學(xué)的某些方面改造成數(shù)學(xué)那樣的演繹系統(tǒng),建立語言模型理論,從而為自然語言的信息處理提供理論基礎(chǔ)。語言模型是一個單純的、統(tǒng)一的、抽象的形式系統(tǒng)。語言客觀事實經(jīng)過語言模型的描述之后,就比較適合于電子計算機對其進行自動加工。所以,語言模型的研究,對于自然語言的信息處理具有十分重要的意義。第三十頁,共三十九頁,編輯于2023年,星期六代數(shù)語言學(xué)的最突出成就首推喬姆斯基的轉(zhuǎn)換生成語法理論,他運用數(shù)學(xué)中的遞歸函數(shù)理論和自動機理論,建立起了一個形式的演繹系統(tǒng)。他把語言視為有限規(guī)則的無限應(yīng)用,把語言模型看作數(shù)學(xué)上的某種運算過程,即由一套給定的初始元素,根據(jù)一定的語法規(guī)則,生成這些元素的序列——詞和句子。第三十一頁,共三十九頁,編輯于2023年,星期六但是一涉及語義問題,各種語言模型都遭到了挫折,以至于所有的理論一改再改,引起了激烈的學(xué)術(shù)爭論。不過其中一點是越來越清楚了:只從形式上去研究語言是非常不夠的。為了解決語言構(gòu)造問題,必須尋求新的途徑以深入語言的內(nèi)部即語義學(xué)領(lǐng)域。這樣,數(shù)理語言學(xué)走向了它的第3個發(fā)展階段——算法語言學(xué)。第三十二頁,共三十九頁,編輯于2023年,星期六算法語言學(xué)是把語言的研究歸結(jié)為建立“表層結(jié)構(gòu)”和“底層結(jié)構(gòu)”的關(guān)系。它認(rèn)為語言是由一系列層次組成,各層次本身都有一定的結(jié)構(gòu)形式,各層次之間都有一定的對應(yīng)關(guān)系。第三十三頁,共三十九頁,編輯于2023年,星期六對于算法語言學(xué)來說,很難在人工語言和自然語言之間劃一道鴻溝,而這兩者在底層結(jié)構(gòu)的算法描述中統(tǒng)一起來了。當(dāng)然,算法語言學(xué)的產(chǎn)生絕不是對統(tǒng)計語言學(xué)的代數(shù)語言學(xué)的否定,相反,只有在弄清語言的統(tǒng)計規(guī)律和形式規(guī)律的基礎(chǔ)上,算法語言學(xué)才能發(fā)展起來。在算法語言學(xué)中,信息與概率的概念,轉(zhuǎn)換與生成的概念,集合論與數(shù)理邏輯的概念等等,不是被拋棄了,而是更加精確和系統(tǒng)化了。只有這樣,才可能摸透表層和底層的關(guān)系。第三十四頁,共三十九頁,編輯于2023年,星期六國內(nèi)成就——我國從50年代起逐步開展了對數(shù)理語言學(xué)的研究,在50年代初期,我國著名數(shù)理邏輯專家胡世華先生就主意到數(shù)理語言學(xué)的問題,1959年,劉涌泉先生在《中國語文》發(fā)表了《談數(shù)理語言學(xué)》一文,首次在國內(nèi)介紹這一學(xué)科。第三十五頁,共三十九頁,編輯于2023年,星
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年人事檔案保管合同經(jīng)典版(2篇)
- 2025年五金、交電、家電、化工產(chǎn)品購銷合同參考模板(2篇)
- 2025年互聯(lián)網(wǎng)站合作建立合同(2篇)
- 2025年代理記賬委托合同樣本(2篇)
- 2025年個人房屋維修服務(wù)合同簡單版(4篇)
- 2025年個人車庫車位租賃合同模板(2篇)
- 低溫煤炭儲存運輸協(xié)議
- 奢侈品區(qū)裝修合同范本
- 保健品辦公室裝修合同
- 博物館渣土清理合同
- 快消品公司銷售部薪酬績效方案(快消品公司銷售KPI績效考核指標(biāo))
- 化學(xué)第五單元化學(xué)反應(yīng)的定量關(guān)系大單元備課-2024-2025學(xué)年九年級化學(xué)人教版(2024)上冊
- 2024年中國網(wǎng)球游戲機市場調(diào)查研究報告
- 極簡統(tǒng)計學(xué)(中文版)
- 當(dāng)代世界經(jīng)濟與政治 第八版 課件 第六章 轉(zhuǎn)型國家的經(jīng)濟與政治
- 2024年長沙衛(wèi)生職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫參考答案
- 2024年資格考試-對外漢語教師資格證筆試參考題庫含答案
- 2024年4月自考02382管理信息系統(tǒng)答案及評分參考
- 新物業(yè)項目設(shè)備檢查標(biāo)準(zhǔn)【物業(yè)管理經(jīng)驗分享】
- 金屬硬度轉(zhuǎn)換表【HLD,HRC,HRB,HV,HB,HSD】
- GB/T 22076-2024氣動圓柱形快換接頭
評論
0/150
提交評論