關于新的句法標注模型探索_第1頁
關于新的句法標注模型探索_第2頁
關于新的句法標注模型探索_第3頁
關于新的句法標注模型探索_第4頁
關于新的句法標注模型探索_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、關于新的句法標注模型探究論文關鍵詞:語料庫語言學語義處理句法標注模型論文摘要:由于自然語言的語義存在不確定性,形式化很困難,因此語義處理成為自然語言處理的瓶頸所在?;诖笠?guī)模標注語料庫的語義處理已經(jīng)成為開展趨勢,語料標注本質上就是語言知識(包括語義)形式化?,F(xiàn)有句法標注模型主要包括基于短語構造語法(psg)和基于依存語法(dg)的句法標注模型,還存在一些局限性。文章在現(xiàn)有句法標注模型的根底上結合認知語法(g)的有關理論提出改進思路,以探究新的句法標注模型。人類社會開展的根本軌跡是:原始社會農業(yè)社會工業(yè)社會信息社會。人工智能的目的是用計算機模擬人的智能,以最大限度地解放和延伸人的智能,無疑是信息

2、社會的制高點。語言是人思維的物質外殼,人不可能分開語言而具備真正屬于人的高級智能。因此,模擬人類語言智能的自然語言處理無疑是人工智能的重要研究方向。然而,迄今為止的研究說明,在可以預見的將來,語義處理將是自然語言處理的瓶頸所在。原因是語義非常復雜,而基于現(xiàn)有計算機軟硬件的自然語言處理要求語義形式化。解決這一問題的根本之道是:探究新的句法標注模型,進展大規(guī)模的語義標注,基于語料庫進展語義知識獲取和自然語言處理。一、句法標注模型語言的復雜性在于語言與認識的關系。語言具有意義,而意義是入對主客觀世界的認識結果。主客觀世界的復雜性決定了意義的復雜性,進一步?jīng)Q定了語言的復雜性。語言本身又可以視為人的主客

3、觀世界中的一部分,因此語言研究是一種特殊的認識活動,是人對語言的認識。由此可見,語言離不開認識。人對主客觀世界的認識可以如此描繪:認識主體借助認識工具按照認識方法處理認識對象獲得認識結果。認識是由多種認識因素(主體、工具、方法、對象)共同作用的活動,認識結果是這一活動的產(chǎn)物,被多種認識因素共同決定,任何一種認識因素的改變必然導致認識結果出現(xiàn)或大或小的差異。顯然,認識結果與認識對象不能等同,是認識主體對認識對象的選擇性反映,認識具有主觀能動性。從這個意義上講。認識不可能也不應該去被動地復原認識對象,而是從符合主體目的性出發(fā),力求簡單有效地描繪和預測認識對象。借用模型的概念,認識結果就是認識對象的

4、模型(del),認識就是建立認識對象的模型,簡稱建模(deling)。這是一種實用主義認識觀。模型一般分為心理模型(psyhlgialdel)、數(shù)學模型(atheatialdel)和物理模型(physialdel)。心理模型是認識對象在人認識中的定性關系,是數(shù)學模型的根底;數(shù)學模型是認識對象在人認識中的定量關系,是物理模型的根底;物理模型是人借助特定材料和工具按照認識對象的數(shù)學模型實現(xiàn)的物質構造。傳統(tǒng)意義上的建模主要指建立數(shù)學模型和物理模型,一般意義上的建模還包括建立心理模型。人的認識才能是有限的,表如今:人不能建立任意認識對象的心理模型,也不能建立任意心理模型的數(shù)學模型,也不能建立任意數(shù)學模

5、型的物理模型。由于具有明確的實用主義特點,建模在理工科領域大行其道,在文科領域也逐漸受到青睞。人類將二進制數(shù)學模型成功實現(xiàn)為晶體管物理模型,并開發(fā)出越來越復雜和先進的計算機軟件和硬件,從而進入信息時代。20世紀以來一些主要或次要的語言理論都或多或少應用了數(shù)學模型,特別是一些面向語言計算的語言理論。隨著計算機技術的飛速開展,人們對計算機自動或輔助處理語言信息的需求越來越大。但計算機的根本缺陷在于,但凡不能建立數(shù)學模型的信息都無法處理。傳統(tǒng)語言理論往往只在心理模型層面定性研究,無法滿足這一需要。因此有必要引入數(shù)學模型研究語言,稱為語言數(shù)學模型,簡稱語言模型(1anguagedel)。統(tǒng)計語言模型(

6、sta-tistiallanguagedel)就是一個成功的例子。但統(tǒng)計語言模型的性能取決于訓練語料的規(guī)模和質量。目前,由于語料的不斷積累和計算機技術的不斷進步,語料規(guī)模已不成問題,語料中包含語言知識的數(shù)量和質量才是關鍵。計算機的語言知識主要來源于人。將語料中包含的語言知識標注出來,有助于計算機獲得更豐富、更有價值的語言知識,從而進步語言處理程度,這就是語料標注(rpustagging)。一般認為主要包括詞匯標注(1exialtagging,分詞、詞構造標注、詞性標注、詞義標注等)、句法標注(syntaxtagging,語法樹標注、語義樹標注等)、語篇標注(disursetagging,語體標

7、注、領域標注等)等內容。經(jīng)過標注的語料還可以用于語言學研究、語言教學、語言測試、詞典編撰等諸多理論研究和理論應用領域,越來越受到人們重視,并形成一門新興學科語料庫語言學(rpuslinguistis)。目前,相對句法標注,詞匯標注有更成熟的標準、準確率更高的技術和更大的標注規(guī)模。句法標注的主要困難在于,沒有一個真正成熟的語法或語義標注模型。句法構造尤其是語義構造很難統(tǒng)一描繪,現(xiàn)有的句法理論還不完善,難以制定統(tǒng)一標準,標注主觀性很大,自動標注準確率比較低。因此,句法標注成了語料標注的瓶頸問題。由于句法知識在語言知識中的重要地位,有理由相信:假設有了大規(guī)模、高質量的句法標注語料庫,圍繞語料庫的各種

8、研究和應用有可能在現(xiàn)有根底上產(chǎn)生質的飛躍。因此,研究句法標注模型應是當務之急。語料庫語言學屬于穿插學科,句法標注模型是語料庫語言學的根底理論,又與語言學的句法理論親密相關。一方面可以借鑒現(xiàn)有句法理論,另一方面,也可以從語料庫語言學的角度研究句法,提出新的句法標注模型。二、現(xiàn)有句法標注模型句法標注(syntaxtagging,st)以句子的語法知識和語義知識為標注對象,是語料標注的重點、難點所在,要以一定的語法理論為基矗根據(jù)語法理論制定的句法標注規(guī)那么、過程和結果,稱為句法標注模型(syntaxtaggingdel,st)。短語構造語法(phrasestruturegraar,psg)和依存語法

9、(dependenygraar,dg)是現(xiàn)有句法標注的兩種根底語法理論,彼此卻有很大的不同。基于psg的句法標注模型稱為短語構造句法標注模型(psgbasedtaggingdel,psgt),基于dg的句法標注模型稱為依存句法標注模型(dgbasedtaggingdel,dgt)。根據(jù)現(xiàn)有語料標注的理論結果來看,psgt與dgt都存在一定缺陷。美國語言學家喬姆斯基(nahsky)于1957年出版專著?句法構造?,從而奠定了短語構造語法(psg)的理論基矗其后開展起來的許多語法理論可以直接或間接歸到這一流派,如中心詞驅動的短語構造語法(hpsg)、廣義短語構造語法(gpsg)等。到目前為止,ps

10、g仍然是最重要的句法標注根底理論,為世界上眾多語料庫工程所采用和開展。法國語言學家特思尼耶爾(luientesnire)于1959年出版專著?構造句法基捶,從而奠定了依存語法(dg)的理論基矗其后開展起來的許多語法理論可以直接或間接歸到這一流派,如詞匯依存語法(d)、概念依存理論(d)、核心依存理論(kd)等。相對psg而言,dg側重于語義,在d、kd上表現(xiàn)得十清楚顯。另外,dg更簡潔、直觀、經(jīng)濟,適應性更強,因此反而有后來居上之勢,目前已經(jīng)成為世界上較為通用的句法標注根底理論。不過,在詳細的句法標注理論中dgt還是暴露出一些問題,“對一些沒有明確依存關系的成分,標注起來那么有些力不從心,存在

11、“依存失敗現(xiàn)象,最突出的是難以標注缺省構造。缺省構造一直是句法標注中經(jīng)常出現(xiàn)而且很難解決的問題。人類的自然語言符合經(jīng)濟性原那么,而缺省構造恰恰表達了這一原那么。借助句子的前后上下文省略一些成分,人們仍然可以理解,但對計算機來說卻是一種挑戰(zhàn)。句法標注的根本目的是讓計算機可以正確提取句子的語法和語義知識。缺省構造在真實語料中大量出現(xiàn),常常使得本來正常的句法構造變得異常,難以按已有規(guī)那么進展標注。這是任何句法標模型都必須面對的問題,目前psgt和dgt都還沒可以很好地解決。以dgt為例,在很多情況下,dgt不但不能正確標注缺省構造,反而在一些語言規(guī)那么的強迫限定下給出違犯真實語法或語義構造的標注結果

12、,形成干擾信息。請看以下4個句子:句1:我看一下下書句2:(真是好書啊?)我看一下句3:我看一本書句4:(好多書啊!)我看一本句2是句1的賓語省略句,句4是句3的賓語省略句。(為簡便起見,把“一下、“一本作為一個詞處理)。問題出在句4。句1和句3的依存構造是不同的,然而句2和句4卻有了一樣的依存構造。因為句4省略了“書,根據(jù)dg理論,“一本必須依存于獨立謂語成分“看。于是“看一本和“看一下依存構造一樣,實際上違犯了句3的正確構造。當然,我們可以采取補救措施,為d1標注一個特殊的依存關系屬性errr(即依存失敗),但這不是好方法。三、改進dgt美國認知語言學家蘭蓋克(rnald.langah.e

13、r)分別于1987年、1991年出版專著?認知語法基捶一、二卷,創(chuàng)始了認知語法(g)理論,關于語法構造有如下觀點:假設一個構件a使另一構件b的一部分抽象變?yōu)樵敿殻敲礃嫾就叫做概念自主(neep.tuallyautns)的構件,構件b就叫做概念依存(neptuallydependent)的構件。舉例來說:獨立地看,“一本隱含一個抽象的、可數(shù)的、可用“本量化的事物,可表示為“一本(x)?!皶埂皒變得詳細,因此“書是概念自主的,“一本是概念依存的。從信息表達的角度來看,“書表達了相對完好而詳細的信息,因此是概念自主的;“一本表達了不完好不詳細的信息,因此是概念依存的。從數(shù)學表達式的角度來看,“

14、一本類似函數(shù),“書類似參數(shù),函數(shù)的地位顯然是第一位的,決定了對參數(shù)的處理過程和返回參數(shù)。例如,“舊書與“一本書的區(qū)別不在“書,而在“舊和“一本。再從閱讀認知過程來看,當人們讀到“一本時,實際上已經(jīng)在期待“一本后面那個詳細事物跟著出現(xiàn)。為什么我們覺得“我看一本是缺省句?因為“看和“一本相對“書都是概念依存的,因此人們會斷定,“我看一本的缺省成分可能是“書。而讀到“我看書時,人們不會認為這是一個省略句,因為“書表達的信息已經(jīng)自足了。由此有足夠的理由認為:在句法構造中,“一本應是“書的父結點,而不是按傳統(tǒng)的補足中心原那么,中心成分總是限定成分的父結點。依存成分是自主成分的父結點,這一原那么可以稱為依

15、存中心原那么(dependenyheadpriniple,dhp)。采取這種原那么的dgt必然會有不同的標注結果。深化研究發(fā)現(xiàn),僅僅采用dhp是不夠的,dgt的其他參數(shù)也需要改變。例如,“看(x)和“一本(x)這兩個表達式在與其他詞語組合時是有區(qū)別的?!翱?x)與“我組合時由“看與“我產(chǎn)生聯(lián)絡?!翱磁c“一本(x)組合時卻是“x(書)與“看發(fā)生聯(lián)絡。代表表達式與其他詞語組合的成分稱為返回參數(shù),不同表達式的返回參數(shù)是不同的。例如?!耙槐?x)返回參數(shù)為“x,“看(x)返回參數(shù)為“看。正因為如此,表達式“看(一本(書)成立,“一本(看(書)不成立。另外,表達式“(x)一下的返回參數(shù)為“x,即“看;表

16、達式“(x)看的返回參數(shù)為“看。根據(jù)這些定義,句1、2、3、4的改進dgt。根據(jù)函數(shù)、輸入?yún)?shù)、返回參數(shù)的關系,各句構造的逆構造過程如下:句1:我看一下書:(我)看(x)一下)(書)=(看(x)一下)(書)=看(x)(書)=看(x=書)句2:我看一下:(我)看(x)一下=(看(x)一下=看(x)句3:我看一本書:(我)看(x)(一本(書)=看(x)(書)=看(x=書)句4:我看一本:(我)看(一本(x)=看(x)句1和句3的x有明確取值,為完好句。句2和句4那么是缺省句?;诳?x)和一本(x)的知識,可以預測并斷定缺省構造及其成分。直觀看來,改進dgt與原dgt的標注結果有了很大的差異由于不

17、采用補足中心原那么,因此改進dgt標注結果并不符合在補足中心原那么影響下人們長期以來形成的語感。但更符合人們閱讀認知經(jīng)歷,而且可以按函數(shù)標準給出形式化地解釋,其解釋結果符合句子本身的語法和語義構造,沒有錯誤和干擾信息。因此,改進dgt更適宜計算機處理,更符合句法標注的本來目的。四、結語psgt的語法理論根底是psg,dgt的語法理論根底是dg,改進dgt的dhp受g的啟發(fā),其語法理論根底應該是g。但g只是從理論上提出了“概念自主和“概念依存的概念,并沒有嚴格定義和證明依存成分與自主成分之間的主從關系。在g的實際應用中,存在有時自主成分為短語中心語,有時依存成分為短語中心語的情況。根據(jù)g理論,“abve是“abvethetable的中心語?!發(fā)ap是“l(fā)apabvethetable的中心語。然而,根據(jù)g對概念自主和概念依存的界定,相對“ta-ble和“l(fā)ap,“abve是概念依存的,具有兩個抽象部分“(x)abve(y),“l(fā)ap使“x詳細化,“table使“y詳細化。假設嚴格執(zhí)行dhp,“abvethetable和“l(fā)apabvethetable的中心語都應該是“abve。但這樣一來,怎樣解釋“vethelapabveth

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論