關于語義距離及其運算.docx_第1頁
關于語義距離及其運算.docx_第2頁
關于語義距離及其運算.docx_第3頁
關于語義距離及其運算.docx_第4頁
關于語義距離及其運算.docx_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

論文3.2 關于語義距離及其計算“語義距離”這個概念試圖對概念之間關聯性的強弱給以定量表述。關聯性的定量表述有“相關函數”或“相關系數”這樣現成的術語。所以直接采用“概念相關函數”或“語義相關系數”之類的術語比較自然,“語義距離”這個術語的引入在理論上并無必要,不過是取其表述簡明而已,實際上語義距離的計算就是計算概念之間的相關系數。不同概念之間的關聯性有明顯的強弱之分,這是毫無疑義的。但是如何量化和如何計算,則需要新的思路,不可能照搬信號處理中求相關函數的統(tǒng)計方法。統(tǒng)計方法的出發(fā)點是將待考察的系統(tǒng)視為“黑箱”,但語句不是“黑箱”,即使是語音識別系統(tǒng)的輸出語音陣列,也只能說是一個“明暗相間、明為主導”的箱子,棄“明”而不用,顯然是不明智的。概念之間的關聯性需要通過多重層面予以表達,有概念層面的關聯性,有詞匯層面的關聯性,有語法層面的關聯性,有語義塊內部的關聯性,有語義塊之間的關聯性。不同層面相關系數的量化和計算方法都應該有所不同。對這些不同側面的辯識是進行語義距離計算的先決條件,以語句物理表示式為立足點的句類分析,是判斷這些先決條件的強有力武器,在上一節(jié)針對十個例句作了示范性說明。這是語義距離計算的基本特點。相關函數是一個條件概率,語義距離的條件性更為突出,在某種意義上,條件的把握是計算語義距離的關鍵。下面將對條件進行具體的說明,上一節(jié)對十個例句的分析都是側重對條件的闡述,從中可以看到,句類知識是最基本的條件。當然,在某種情況下,對條件可以弱化。語法學所概括的詞性約束規(guī)則:即形容詞與名詞、副詞與動詞和形容詞、數詞與量詞的搭配規(guī)則就是明顯的例子。這些搭配實際上是有條件的,但作為語法規(guī)則來陳述,可以不管條件。概念關聯性或語義距離的概念,在某種意義上是對上述詞性約束規(guī)則的擴展和深化。擴展表現在它力圖表述語義塊之間或語句要素之間的約束,深化表現在它力圖盡可能給出條件。語句要素之間的約束就是1中所闡述的鏈式關聯,這一知識分別從概念層面和詞匯層面進行表達。前者的表述是概念關聯性知識庫的內容6,后者的表述是詞語知識庫的內容7。條件則通過句類知識、交式關聯和“同行優(yōu)先”三條途徑來表述,后兩條實際上就是詞性匹配的具體條件,第一條是運用鏈式關聯知識的條件。從上面的說明可知,語義距離的計算首先要區(qū)分語義塊之間兩種情況。語義塊內部語義距離的計算主要是運用:“同行優(yōu)先”準則;概念關聯性知識庫中“交式關聯”知識6;語義結構方程所給出的語義塊構成知識7。p69語義塊之間語義距離的計算主要是運用:概念關聯性知識庫中的基本句類知識和概念節(jié)點的鏈式關聯知識;語義結構方程所給出的搭配知識。所謂“同行優(yōu)先”準則,是對層次網絡符號天然屬性的一種簡明陳述,正式的陳述是:同行的五元組概念及掛靠的(w,p)類概念優(yōu)先相互搭配,在1中曾對此詳加闡述。從應用的角度來看,這不過是用數字符號表達概念關聯性的一個簡單技巧。在具體應用這一準則于語義距離計算時,要區(qū)分四種不同的搭配方式,因為每種搭配方式各有自己的約束準則。四種搭配方式是:修飾型搭配;補充型搭配;并合型搭配;對象內容型搭配。前三種是語義塊內部的搭配,第四種則表現為語義塊之間的搭配。下面就來對這四種搭配作較詳細的說明。關于修飾型搭配修飾型搭配大體上相應于語法學的上述詞性約束規(guī)則,“同行優(yōu)先”準則不過是對此規(guī)則的運用條件給以表述。“衷心的祝福”、“衷心的石頭”、“衷心的消息”都是形容詞與名詞搭配,但后者不合理。“衷心地希望”“衷心的詛咒”都是副詞與動詞的搭配,但后者不合理。把這些詞匯映射成層次網絡符號,通過語義距離計算,計算機不難得到“衷心的祝?!薄爸孕牡叵M闭Z義距離最小的結論,不難作出“衷心的詛咒”絕對不合理的結論。同時,也不難得到“衷心的石頭”“衷心的消息”不合理的結論。對修飾型搭配的語義距離計算,就是將兩概念的層次符號從高往低逐層匹配,“相同得分,相異不計”,它類似于在極性重合相關處理時期對相關系數的簡化計算。但計算前必須進行約束性檢驗,對修飾型搭配來說,需要作兩項檢驗:一是詞性及其順序的檢驗,二是對偶性檢驗。兩概念組合的合理性或合法性,可從關聯性和排斥性兩個角度進行考察。排斥性可視為反關聯,相應于相關函數的負值。但在語義距離計算時,僅取正值,負值一律視為相斥。從這個意義上說,約束性檢驗就是互斥或正負檢驗。不滿足約束條件,就意味著互斥,表示兩概念不能組合,這一結果對于解模糊或糾錯處理最為實用。詞性約束是常規(guī)的語法知識,無庸贅述。需要說明的只是它的兩條順序約束:一,gu類概念作為形容詞使用時,在順序上可前可后,但ug類概念優(yōu)先于前;二,u及vu類概念作為副詞使用時,在順序上可前可后,但uv及uu類概念優(yōu)先于前。參見存疑錄上面例句10中的“日益惡化”就是一個典型的同行修飾搭配,“日益”就個uv類概念和“惡化”這個vg類概念滿足詞性約束條件,其相關系數等于1。對偶性約束指對偶性概念的正負雙方不能互相修飾,此理不言自明?!爸孕摹迸c“詛咒”雖然高層層次符號同行,但前者不能修飾后者,因為它們違背了對偶性約束?!巴袃?yōu)先”準則有狹義與廣義之分,即本行與交式關聯行之分1。在本行里又有0分行和非0分行之分,這就不來細說。廣義“同行優(yōu)先”準則的應用,目前就是將交式關聯的級別指數6轉換成相關系數,這時不是匹配層次符號,而是依據層次符號查詢概念關聯性知識庫。這里的數值轉換,類似于層p70選處理時從音節(jié)感知庫的獨立性指數換算單音詞的位置置信度9。量詞與表述對象的搭配也屬于修飾型搭配,對這一搭配的語義距離計算可不作任何約束檢驗,而計算結果本身就是一種檢驗,因為兩者必須狹義“同行”,相關系數應等于1。漢語量詞之煩瑣令人生畏,但由于現在賦予了“同行”特性,就理解處理來說,反而成了一筆意外的“財富”,可作為解模糊的一項手段參照語言漫議。關于補充型搭配補充型搭配有兩種類型,一是高層概念與低層概念的搭配,二是泛指概念與特指概念的搭配。第一類搭配又分兩種情況,一是動詞的高低搭配,二是名詞的高低搭配。第一種情況僅出現在E語義塊內部,是造成E語義塊分離的原因之一2。這種高低搭配和分離現象不是概念表達的內在需要,而是語言表達的多樣性和藝術性的需要。在一般情況,語言的這一特性只會帶來理解處理的困難,但高低層概念的搭配則相反,它帶來的是機遇。原因在于相互匹配的高低層概念必須滿足“同行”的條件參照語言漫議。前節(jié)例句五中的“提出*抗議”就是高低層概念的“同行”搭配。如前文所述,對雙音詞“提出*”的解模糊處理就利用這了這一信息。名詞的高低搭配是包含性概念的特性,這種搭配也滿足狹義“同行”條件。對高低搭配也需要進行順序約束檢驗,順序準則是:高層在前,低層在后。這一準則對動詞似乎普遍適用,名詞則不然,與語種有關,漢語遵循這一準則,而英語則相反。參照語言比較泛指與特指的在許多情況也屬于“同行”,這是由于對泛指和特指的人或物均采用掛靠表示方式,兩者的層次符號一樣,從而也能對兩者進行語義距離的計算。由于這個計算非常簡單,并不是一項負擔,而應視為靈敏性反應的一種手段。這里不妨用一個例子來說明這一點。假定輸入語音流中出現了yue fei,則從詞庫中將找出“岳飛”這個詞,如果該文本實際指的是原蘇聯物理學家“約飛”,計算機能覺察“岳飛”是一個偽詞么?回答是肯定的。“岳飛”的層次符號是pa4,而該文表述的內容應主要涉及a6。線索就在這里,語義距離的計算本身非常簡單,但關鍵在于要運用專業(yè)活動的句類知識:專業(yè)活動aj的A要素優(yōu)先于從事該項專業(yè)的人paj注:pa4為從事軍事活動的人;a6為科技活動;aj和paj中的j改為t為宜,t約定為底層層次符號的變量表示,而j為基本概念類別標記。在一般情況這類判斷需要很多的常識性知識,但這里是不是“岳飛”的判斷,似乎可以繞過常識,僅從層次符號就能得到。當然,這樣“繞過”的適用范圍也許非常有限,但終究是有勝于無吧。對泛指與特指的語義距離計算,可暫不作順序約束檢驗。漢語里數詞與量詞的搭配屬于廣義“同行”補充型搭配。順序約束條件是:數詞在前,量詞在后。但漢語的數詞并非一定要與量詞搭配,成語里的“五湖四?!薄叭钗迳辍薄鞍倏浊Н彙薄鞍贌挸射摗倍际÷粤肆吭~,其中的數詞都是虛用,表示“多”或“全”的意思。現代漢語的“五講四美”“十大新聞”“三好學生”也省略了量詞。關于數詞的運用,需要建立一個專用的小知識庫,特別是“一”字的語義語用知識。參見技術實現提示關于并合型搭配 并合型搭配之間通常加邏輯指示符,這樣的指示符有四類,現將它們和相應的漢語和英p71語符號列表如下(表中順便給出了“的”的另一義項):參見HNC符號實例集22符號漢字英語意義l41的 de偏正l41461的 des偏正h $ ug的 de詞性轉換l42得 deof反偏正l43和同與及并跟and邏輯并l44或 huoor邏輯選前兩種并合稱為“修飾”并合,后三種并合稱為“邏輯”并合。修飾并合與前述的修飾搭配不同,兩者的差異在于“同行”性的有無,修飾搭配具有“同行”性,修飾并合不具有。參照概念比較集粹英語不僅對這兩種組合方式在表達形式上給予了明確區(qū)分,對修飾并合的三種類型也加以區(qū)分,漢語則一律不加區(qū)分。僅用符號“的”表示它們的共性,而模糊它們的個性。對前兩種修飾并合,曾有過用“的”和“底”加以區(qū)分的建議,但未得到廣泛響應,說明這一模糊并不影響人的理解。參照語言比較從理解處理來看,對修飾并合和修飾搭配的語義距離計算,都需要進行對偶性檢驗和詞性檢驗,雖然詞性檢驗的內容略有不同,但并不影響語義距離的計算。因此,漢語在這里的模糊表示似乎無損于理解處理,其實不然。問題在于兩種情況的合理性閾值差異甚大,修飾搭配的閾值很高,而修飾并合的閾值很低,人在理解過程中能自動調節(jié)這一閾值,計算機很難做到這一點,因為這不僅涉及概念和詞匯層面的知識,還涉及常識性知識。但是,理解處理的途徑是陽關道與獨木橋并存,解模糊處理更是如此,此路不通,可置之不理而另覓它徑。在前一節(jié)的十個例句中,有五處以de標志的修飾組合,而且都是修飾并合,但需要利用并合前后概念關聯性知識的只有第七句,這一句又恰好具有足夠的關聯性。當然,十個例句不能代替統(tǒng)計,漢語的這一模糊對理解處理造成的不利影響需要利用語料庫作深入的研究。參照待求證問題提示對于邏輯并合,需要進行類別符號的對仗性檢驗,即檢驗并合前后兩概念的類別符號是否相同或相當?!跋喈敗笔悄:恼f法,有待給出具體的規(guī)則,這是不難做到的。這一規(guī)則的制定也有賴于語料庫的建設。漢語常省略邏輯并合標志,這一省略與修飾搭配符號的省略將模糊兩類組合,由于這兩類組合的約束準則不同,將影響到語義距離的計算,因此,必須先消除組合模糊,這確實是漢語理解處理的一項額外負擔。參照語言漫議但是,像上述兩類修飾模糊一樣,對這一負擔應采取靈活反應策略,因為許多情況可以置之不理。而在無此模糊時,從對仗性檢驗及語義距離計算結果常能取得消除模糊的關鍵性信息。關于對象內容型搭配前面已經說明,對象內容型搭配是語義塊之間的搭配。具體的說,就是E要素與B要素或C要素的搭配。這種搭配,一般說來,并不具有“同行”特性。但應該指出,上述修飾型和補充型搭配的天然“同行”特性乃來于概念層次網絡符號的知識表示方式,沒有這種表示p72方式,也就無所謂“同行”。層次網絡符號由于在五元組中引入了r類概念,并對具體概念采用了掛靠為主的表示方式,使得對象內容型搭配大大增加了“同行”的機會。對象或內容“同行”顯然是一個非常寶貴的信息,這一信息分別在概念和詞匯層面予以明確的表達。前者用概念關聯性知識庫B、C欄目的第一項表示6,后者用語義結構方程“1-3”規(guī)則的k=7表示7。當然,對象和內容屬于“同行”的情況,即使我們著意作了盡可能多的安排,仍然只是少數。對居于多數的不“同行”情況,采取三條途徑提供關聯信息。一是概念關聯性知識庫中的A、B、C、M、Pr、Rt欄目,二是詞義表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論