自然語言理解1_第1頁
自然語言理解1_第2頁
自然語言理解1_第3頁
自然語言理解1_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、自然語言處理 自然語言處理(Natural Language Processing)俗稱人機對話,是研究如何利用計算機來理解和處理自然語言的,即把計算機作為語言研究的工具,在計算機技術(shù)的支持下對語言信息進行定量化的研究,通常又被稱為自然語言理解或計算語言學(xué)。1自然語言處理研究的意義它是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要分支學(xué)科,其研究是用電子計算機模擬人的語言交際過程,使計算機能理解和運用人類社會的自然語言如漢語、英語等,實現(xiàn)人機之間的自然語言通信,以代替人的部分腦力勞動,包括查詢資料、解答問題、摘錄文獻、匯編資料以及一切有關(guān)自然語言信息的加工處理。這在當(dāng)前新技術(shù)革命的浪潮中占有十分重要

2、的地位。研制第5代計算機的主要目標(biāo)之一,就是要使計算機具有理解和運用自然語言的功能。 自然語言理解是一門新興的邊緣學(xué)科,內(nèi)容涉及語言學(xué)、心理學(xué)、邏輯學(xué)、聲學(xué)、數(shù)學(xué)和計算機科學(xué),而以語言學(xué)為基礎(chǔ)。自然語言處理的目的是實現(xiàn)計算機對語言信息的自動分析和理解,它立足于實驗、理論和計算三大支柱,通過以對人腦及語言認知的實現(xiàn)途徑進行模擬研究,建立起多層次網(wǎng)絡(luò)處理模型來闡明人腦語言信息處理系統(tǒng),以期取得突破性的進展。自然語言理解的研究,具有很強的生命力,是當(dāng)代科學(xué)新的生長點。其綜合應(yīng)用了現(xiàn)代語音學(xué)、音系學(xué)語法學(xué)、語義學(xué)、語用學(xué)的知識,同時也向現(xiàn)代語言學(xué)提出了一系列的問題和要求。另外它的研究不可能一步就達到對

3、大規(guī)模真是文本的完善處理,必須逐層逐步地加以分析和解決,各層次的研究既相互獨立,又有著十分密切的聯(lián)系,對每一層次的研究,都應(yīng)考慮更高層次的研究需要。 由于自然語言處理的對象是人類自然形成的極其復(fù)雜的語言現(xiàn)象,所以這門學(xué)科極具艱巨性。事實上,這門學(xué)科自20世紀40年代產(chǎn)生以來,經(jīng)歷了十分曲折的發(fā)展歷程;然而隨著信息社會的到來,自然語言處理,在機器翻譯、信息檢索、人機交互等信息處理領(lǐng)域有著廣泛的應(yīng)用前景,這是這門學(xué)科的實用價值。2.自然語言處理的發(fā)展歷程及現(xiàn)狀2.1國外研究現(xiàn)狀自然語言處理是運用計算機對自然語言進行分析和理解,從而使計算機在某種程度上具有像人的語言處理能力。國外關(guān)于自然語言處理方面

4、的研究起步較早,一些卓有成就的語言學(xué)家、邏輯學(xué)家和心理學(xué)家都在自然語言處理中的語法、句法及語義分析方面提出了一系列較為系統(tǒng)的理論方法??梢哉J為,自然語言處理的研究始于機器翻譯。1954年初,美國喬治敦大學(xué)在國際商用機器公司(IBM)的幫助下,在 IBM701上進行了第一次機器翻譯實驗。此后,機器翻譯成了自然語言處理的重要研究課題。到了20世紀60年代,隨著一些新的人工智能方法的提出和Chomsky等人在語言理論上的突破,人工智能學(xué)者開發(fā)了一批新的語言處理系統(tǒng)。這些早期的自然處理沒有成熟的語言句法分析,采用的主要技術(shù)是模式識別中的句法匹配,而且智能達到英語的受限領(lǐng)域的有限目標(biāo)。在20世紀70年代

5、,出現(xiàn)了一些有名的自然語言處理系統(tǒng)。如 W.Woods在1972年設(shè)計了自然語言信息檢索系統(tǒng)LUNAR,并在此系統(tǒng)中提出了著名的擴充轉(zhuǎn)移網(wǎng)絡(luò)(augmented transition network,英文縮寫為ATN)。SHRDLU是T.Winogard于1972年在美國麻省理工學(xué)院的人工智能實驗室開發(fā)出來的一個自然語言理解系統(tǒng),該系統(tǒng)包括一個句法分析程序(具有一部基于M.Halliday系統(tǒng)語法的大型英語語法)、一個語義分析程序(含有為解釋詞和結(jié)構(gòu)所需的知識)、一個問題求解器(可以為執(zhí)行命令和尋找問題答案作出安排),是一個句法、語義和推理的組合系統(tǒng)。MARGL是由R.Schank于1975年

6、在斯坦福大學(xué)人工智能實驗室建立起來的一個系統(tǒng),其目的是提供一個自然語言理解的模型,該系統(tǒng)是根據(jù)Schank早年提出的概念從屬理論建立的,系統(tǒng)由概念分析器、推理機和篇章生成3個模塊組成。20世紀80年代,各種新的語法體系應(yīng)運而生。如Gazder 的廣義短語結(jié)構(gòu)語法(generalied phrase structure grammer)、Bresnan與Kaplan 的詞匯功能語法(lexical functional grammer)、M.Kay的功能合一語法(functional unification grammer)等。由于新的語法體系運用了復(fù)雜特征集雨功能合一技術(shù),使得自然語言處理能力

7、較以前采用單一標(biāo)記的處理大大增強。20世紀90年代,在國際上掀起了語料庫語言學(xué)(corpus linguistics)的研究熱潮。語料庫語言學(xué)研究機讀(自然語言)文本的采集、存儲、檢索、統(tǒng)計、語法標(biāo)注、句法和語義分析,以及具有上述功能的語料庫在語言定量分析、詞典編撰、作品風(fēng)格分析和機器翻譯等領(lǐng)域的應(yīng)用,為自然語言處理的研究提供了新思路。2.2國內(nèi)研究現(xiàn)狀 與國外的研究相比,我國自然語言處理研究所面臨的一個重要難題就是如何結(jié)合漢語自身的特點選取有效的形式理論和研究方法對漢語進行分析處理。 漢語的種種特點使我們的自然語言理解無法直接套用西方現(xiàn)有的語法和語義結(jié)構(gòu)體系,這使得漢語自然自然語言理解工作困

8、難重重。令人欣慰的是近幾年國內(nèi)自然語言處理的研究取得了很大的成績,無論是漢語書面語的自動分詞、漢語電子詞典、漢語機讀語料庫、機器翻譯、漢語人機交互、漢語文獻檢索等應(yīng)用研究,還是結(jié)合漢語、漢字特點探索自然語言處理基礎(chǔ)理論的研究,都取得了可喜的成果。 對自然語言處理的理論研究時從以詞形分析為主的早期階段以及注重語義分析的中期階段發(fā)展到了基于語料庫統(tǒng)計方法的近期階段。國內(nèi)眾多學(xué)者都為此作出了孜孜不倦的探索和努力。就理論發(fā)展來說,國內(nèi)自然語言處理的研究借鑒了國外的各種理論,提出了一系列符合漢語特點的語言分析方法和語言表示理論。早期的系統(tǒng)大都是基于轉(zhuǎn)換生成語法和擴充轉(zhuǎn)移網(wǎng)絡(luò),在語義分析方面大多是采用漢語

9、格語法理論,并專門研究了漢語的各種信息在語義網(wǎng)絡(luò)中的表示方法。近年來中國科學(xué)院聲學(xué)研究所黃增陽先生提出了概念層次網(wǎng)絡(luò)理論,它是面向自然語言理解的理論框架,以語義表達為基礎(chǔ),并以一種概念化、層次化和網(wǎng)絡(luò)化的形式來實現(xiàn)對知識的表達。 隨著計算語言學(xué)研究的深入和漢語自然語言信息處理應(yīng)用系統(tǒng)的開發(fā),學(xué)術(shù)界開始感覺到建設(shè)語言知識基礎(chǔ)工程的迫切性。從20世紀80年代中后期以來,學(xué)術(shù)界投入了許多力量來進行這方面的建設(shè)工作。如現(xiàn)代漢語語法信息詞典、信息吃力用漢語語義詞典、現(xiàn)代漢語述語動詞機器詞典等詞典出現(xiàn),為漢語自然語言應(yīng)用系統(tǒng)知識庫的開發(fā)提供了一個基礎(chǔ),它們在目前的一些應(yīng)用系統(tǒng)中發(fā)揮著實際的效用。3.我國自

10、然語言處理的研究領(lǐng)域 概括說來,目前國內(nèi)自然語言處理的研究課題主要有:自然語言的句法和語義分析、語料庫建設(shè)和語料加工技術(shù)、基于語料庫的語言分析方法、機器翻譯系統(tǒng)及其評測方法、文本分析與生成、機用詞典、自動文摘、文本校對、文字識別、智能型漢字輸入方法和人機交互接口等。我國的自然語言處理工作者們吸取借鑒國外同行的理論方法和最新研究成果,并結(jié)合漢語的特點開展和加強基礎(chǔ)理論的研究,從信息處理的角度進行漢語的研究,向自然語言處理的本土化發(fā)展。自然語言處理研究將向語法、語義、語用和語境各方面的綜合研究方向邁進。 但是,目前還存在的問題有兩個方面:一方面,迄今為止的語法都限于分析一個孤立的句子,上下文關(guān)系和談話環(huán)境對本句的約束和影響還缺乏系統(tǒng)的研究,因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論