




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)結(jié)構(gòu)間的縱橫聯(lián)系 摘 要 本文詳細闡述了數(shù)據(jù)結(jié)構(gòu)間的縱橫聯(lián)系,所謂“橫向聯(lián)系”是對各種數(shù)據(jù)結(jié)構(gòu)研究都從邏輯結(jié)構(gòu)、存儲結(jié)構(gòu)、操作運算三方面出發(fā)的模式思想,所謂“縱向聯(lián)系”是以簡單數(shù)據(jù)結(jié)構(gòu)類型為基礎來實現(xiàn)對較復雜數(shù)據(jù)結(jié)構(gòu)類型的研究。 關鍵詞 邏輯結(jié)構(gòu) 存儲結(jié)構(gòu) 操作運算 橫向聯(lián)系 縱向聯(lián)系 1 引言 數(shù)據(jù)結(jié)構(gòu)作為計算機核心學科,其主要研究內(nèi)容:邏輯結(jié)構(gòu),物理存儲結(jié)構(gòu),操作(或算法)1。通常,算法的設計取決于數(shù)據(jù)的
2、邏輯結(jié)構(gòu),算法的實現(xiàn)取決于數(shù)據(jù)的物理存儲結(jié)構(gòu)。 根據(jù)數(shù)據(jù)元素之間不同特性,把數(shù)據(jù)結(jié)構(gòu)劃分四種基本結(jié)構(gòu):(1)集合,(2)線型結(jié)構(gòu),(3)樹型結(jié)構(gòu),(4)圖狀結(jié)構(gòu)或網(wǎng)狀結(jié)構(gòu)。針對每種數(shù)據(jù)結(jié)構(gòu)均從邏輯結(jié)構(gòu)、存儲結(jié)構(gòu)和操作運算等方面進行研究,是貫穿數(shù)據(jù)結(jié)構(gòu)研究始終的 “紅線”,也是數(shù)據(jù)結(jié)構(gòu)研究的共同切入點,稱之為數(shù)據(jù)結(jié)構(gòu)的“橫向聯(lián)系”。從集合、線型結(jié)構(gòu)等基本數(shù)據(jù)結(jié)構(gòu)入手,以實現(xiàn)樹形結(jié)構(gòu)、圖或網(wǎng)狀結(jié)構(gòu)等較復雜結(jié)構(gòu)研究,實現(xiàn)數(shù)據(jù)元素間的關系從簡單到復雜探討,稱之為“縱向聯(lián)系”。 2 邏輯結(jié)構(gòu)、存儲結(jié)構(gòu)、操作運算的思想模式數(shù)據(jù)結(jié)構(gòu)間的橫向聯(lián)系
3、 邏輯結(jié)構(gòu)的定義、存儲結(jié)構(gòu)的實現(xiàn)、操作運算的實現(xiàn)是對數(shù)據(jù)結(jié)構(gòu)研究的基本思想,一種數(shù)據(jù)結(jié)構(gòu)的研究首先對這三方面內(nèi)容有一個清晰的探討。 集合數(shù)據(jù)結(jié)構(gòu)與數(shù)學中集合概念是一致的,其邏輯結(jié)構(gòu)元素間只是同屬關系。存儲結(jié)構(gòu)實現(xiàn)只是在計算機內(nèi)存儲,它的操作就是一些交、差、并、補等。 線型結(jié)構(gòu)是N個數(shù)據(jù)元素的有限序列,至于每一個數(shù)據(jù)元素的具體的含義在不同的情況下各不相同,其長度可根據(jù)需要增長或縮短,其邏輯結(jié)構(gòu)就是它的數(shù)據(jù)元素間的線形關系,即一個對一個,一個元素最多有一個前驅(qū),最多有一個后繼。它的存儲結(jié)構(gòu)的實現(xiàn)一般
4、有順序存儲和鏈式存儲兩種方法。順序表是指用一組地址連續(xù)的存儲單元依次存儲線性結(jié)構(gòu)中的數(shù)據(jù)元素,這是一種隨機存取的存儲結(jié)構(gòu);鏈式存儲是數(shù)據(jù)元素之間的邏輯關系由結(jié)點中的指針來表示并且每一個結(jié)點有且只有一個指針域。線性結(jié)構(gòu)的操作中,最基本的操作是在線性結(jié)構(gòu)中插入、刪除數(shù)據(jù)元素。存儲結(jié)構(gòu)為順序存儲有線性順序表、數(shù)組、串等。存儲結(jié)構(gòu)為鏈式存儲結(jié)構(gòu)時有鏈表等。根據(jù)線性表的操作的不同便產(chǎn)生了兩種重要的數(shù)據(jù)結(jié)構(gòu)即棧和隊列,這兩種數(shù)據(jù)結(jié)構(gòu)是線性結(jié)構(gòu)的典型例子2。 樹型結(jié)構(gòu)是一種重要的非線性結(jié)構(gòu),其中的樹和二叉樹最為常用。直觀看來,樹是以分支關系定義的層次結(jié)構(gòu),其邏輯結(jié)構(gòu)是一
5、對多的關系,而在二叉樹中是一個根結(jié)點對應左右兩個孩子的層次關系。存儲結(jié)構(gòu)的實現(xiàn)當采取順序存儲時用一組地址連續(xù)的存儲單元依上而下、自左向右存儲樹中的結(jié)點元素。在鏈式存儲結(jié)構(gòu)中可采用二叉鏈表表示法即鏈表中結(jié)點的兩個鏈域分別指向該結(jié)點的第一個孩子和下一個兄弟結(jié)點,樹形結(jié)構(gòu)的最基本的操作是遍歷,其它復雜的操作大部分就是遍歷操作的衍生與擴展。在樹型結(jié)構(gòu)中最有特色的一種數(shù)據(jù)結(jié)構(gòu)就是二叉樹,其獨特的邏輯結(jié)構(gòu)是每個結(jié)點至多有二棵子樹并且還有左右之分,這就決定著它獨特的鏈式存儲結(jié)構(gòu),每個數(shù)據(jù)元素有且只有兩個指針分別指向該結(jié)點的左右孩子。二叉樹的最基本的操作是遍歷二叉樹,對每個結(jié)點的訪問是對其它復雜操作的基礎,例
6、如統(tǒng)計結(jié)點個數(shù)、統(tǒng)計葉子結(jié)點數(shù)、交換二叉樹的左右孩子等一些復雜的操作運算均是遍歷二叉樹操作的擴展和衍生?;诙鏄涞倪f歸定義可得到遍歷二叉樹遞歸算法,前序遍歷、中序遍歷、后序遍歷二叉樹。 圖狀結(jié)構(gòu)是一種較線型結(jié)構(gòu)和樹更復雜的數(shù)據(jù)結(jié)構(gòu),圖的邏輯結(jié)構(gòu)是多對多的關系即在圖形結(jié)構(gòu)中結(jié)點之間的關系是任意的。因此在存儲結(jié)構(gòu)中無法以數(shù)據(jù)元素在存儲區(qū)中的物理位置來表示數(shù)據(jù)元素間的關系。即圖沒有順序映象但可以借助數(shù)組的數(shù)據(jù)類型表示元素之間的關系,用兩個數(shù)組分別存儲數(shù)據(jù)元素(頂點)的信息和數(shù)據(jù)元素之間的關系信息3。另一方面圖的存儲結(jié)構(gòu)也可由多重鏈表實現(xiàn),即一個由一個數(shù)據(jù)域和多
7、個指針域組成的結(jié)點來表示圖中的一個頂點, F Kij 與Kj 有上述關系 THEN Weight(Kij)= Weight(Kij)+1 ENDIF 5 實驗結(jié)果分析 我們選擇人民日報語料庫作為實驗語料,語料中共有800個句子,每個句
8、子的長度為20-30字符。把以上的消歧過程在VC6.0中實現(xiàn)做以測試。消歧的正確率計算公式為: 消歧的正確率=得到正確消歧結(jié)果的詞語總數(shù)/存在歧義的詞語總數(shù).(3) 消歧結(jié)果的正確與否是通過手工進行判定的。目前實驗的正確率為90.6%。這表明我們提出的基于依存句法對歧義進行消解是有效的。實驗中我們還對句子長度對消歧正確率的影響做了測試,如果句子的長度過短,那么消歧的效果將會下降,句子的長度過長,理論上會提高消歧的精度,但是依存句法分析主要是針對句子分析的程序,對于文本段落的分析,會降低依存關系的分析精度,從而降低詞語消
9、歧的準確率。 雖然該方法與基于統(tǒng)計的方法在計算復雜度和時間上具有明顯的效率,但是也存在著一些問題。 (1) 義原的敏感性問題。由于該方法是基于多義詞語義原與關聯(lián)詞語的義原關系進行的,故義原詞語如何確定是一個關鍵問題。 (2) 知網(wǎng)本身的缺陷。目前知網(wǎng)尚未完全開放所有詞條義項實例,在試驗中我們手工地為部分詞語添加義項實例,這不免會有一些主觀傾向性,并且試驗語料的數(shù)目比較有限。 (3) 擴大測試對象的范圍。多義詞消歧方法的系統(tǒng)評價是困難的,本文提出
10、的方法需要進一步在大規(guī)模測試集進行檢驗。 6 結(jié)論 本文提出了一種基于依存句法分析句子結(jié)構(gòu)進行歧義消解的方法,這種方法不需要制定規(guī)則約束,而是通過關聯(lián)詞語的義原在知網(wǎng)中的關聯(lián)關系來調(diào)整概念的趨向權重從而從多個概念中得到一個最優(yōu)的結(jié)果。實例是用自然語言來表示的,可以很方便通過調(diào)整詞語實例集的例子來達到一個比較好的排歧效果。同時我們采用的語義知識資源知網(wǎng)是專為自然語言處理而設計的,無論是詞條數(shù)還是語義定義及分類體系都十分適用于自然語言處理。從實驗的分析來看,基于實例的方法具有良好的歧義消解效果。 參考文獻 1 劉開瑛. 漢語全文檢索中的義項標注技術
11、研究. 計算語言學進展與應用. 北京: 清華大學出版社, 1995 2 劉小虎. 英漢機器翻譯中詞義消歧方法的研究. 哈爾濱工業(yè)大學博士學位論文 F Kij 與Kj 有上述關系 THEN Weight(Kij)= Weight(Kij)+1 ENDIF 5 實驗結(jié)果分析
12、 我們選擇人民日報語料庫作為實驗語料,語料中共有800個句子,每個句子的長度為20-30字符。把以上的消歧過程在VC6.0中實現(xiàn)做以測試。消歧的正確率計算公式為: 消歧的正確率=得到正確消歧結(jié)果的詞語總數(shù)/存在歧義的詞語總數(shù).(3) 消歧結(jié)果的正確與否是通過手工進行判定的。目前實驗的正確率為90.6%。這表明我們提出的基于依存句法對歧義進行消解是有效的。實驗中我們還對句子長度對消歧正確率的影響做了測試,如果句子的長度過短,那么消歧的效果將會下降,句子的長度過長,理論上會提高消歧的精度
13、,但是依存句法分析主要是針對句子分析的程序,對于文本段落的分析,會降低依存關系的分析精度,從而降低詞語消歧的準確率。 雖然該方法與基于統(tǒng)計的方法在計算復雜度和時間上具有明顯的效率,但是也存在著一些問題。 (1) 義原的敏感性問題。由于該方法是基于多義詞語義原與關聯(lián)詞語的義原關系進行的,故義原詞語如何確定是一個關鍵問題。 (2) 知網(wǎng)本身的缺陷。目前知網(wǎng)尚未完全開放所有詞條義項實例,在試驗中我們手工地為部分詞語添加義項實例,這不免會有一些主觀傾向性,并且試驗語料的數(shù)目比較有限。
14、160; (3) 擴大測試對象的范圍。多義詞消歧方法的系統(tǒng)評價是困難的,本文提出的方法需要進一步在大規(guī)模測試集進行檢驗。 6 結(jié)論 本文提出了一種基于依存句法分析句子結(jié)構(gòu)進行歧義消解的方法,這種方法不需要制定規(guī)則約束,而是通過關聯(lián)詞語的義原在知網(wǎng)中的關聯(lián)關系來調(diào)整概念的趨向權重從而從多個概念中得到一個最優(yōu)的結(jié)果。實例是用自然語言來表示的,可以很方便通過調(diào)整詞語實例集的例子來達到一個比較好的排歧效果。同時我們采用的語義知識資源知網(wǎng)是專為自然語言處理而設計的,無論是詞條數(shù)還是語義定義及分類體系都十分適用于自然語言處理。從實驗
15、的分析來看,基于實例的方法具有良好的歧義消解效果。 參考文獻 1 劉開瑛. 漢語全文檢索中的義項標注技術研究. 計算語言學進展與應用. 北京: 清華大學出版社, 1995 2 劉小虎. 英漢機器翻譯中詞義消歧方法的研究. 哈爾濱工業(yè)大學博士學位論文 F Kij 與Kj 有上述關系 THEN Weight(Kij)= Weight(Kij)+1
16、; ENDIF 5 實驗結(jié)果分析 我們選擇人民日報語料庫作為實驗語料,語料中共有800個句子,每個句子的長度為20-30字符。把以上的消歧過程在VC6.0中實現(xiàn)做以測試。消歧的正確率計算公式為: 消歧的正確率=得到正確消歧結(jié)果的詞語總數(shù)/存在歧義的詞語總數(shù).(3) 消歧結(jié)果的正確與否是通過手工進行判定的。目前實驗的正確率為90.6%。這表明我們提出的基于依存句法對歧義進行消解是有效的。實驗中我們還對句子長度對消歧
17、正確率的影響做了測試,如果句子的長度過短,那么消歧的效果將會下降,句子的長度過長,理論上會提高消歧的精度,但是依存句法分析主要是針對句子分析的程序,對于文本段落的分析,會降低依存關系的分析精度,從而降低詞語消歧的準確率。 雖然該方法與基于統(tǒng)計的方法在計算復雜度和時間上具有明顯的效率,但是也存在著一些問題。 (1) 義原的敏感性問題。由于該方法是基于多義詞語義原與關聯(lián)詞語的義原關系進行的,故義原詞語如何確定是一個關鍵問題。 (2) 知網(wǎng)本身的缺陷。目前知網(wǎng)尚未完全開放所有詞條義項實例
18、,在試驗中我們手工地為部分詞語添加義項實例,這不免會有一些主觀傾向性,并且試驗語料的數(shù)目比較有限。 (3) 擴大測試對象的范圍。多義詞消歧方法的系統(tǒng)評價是困難的,本文提出的方法需要進一步在大規(guī)模測試集進行檢驗。 6 結(jié)論 本文提出了一種基于依存句法分析句子結(jié)構(gòu)進行歧義消解的方法,這種方法不需要制定規(guī)則約束,而是通過關聯(lián)詞語的義原在知網(wǎng)中的關聯(lián)關系來調(diào)整概念的趨向權重從而從多個概念中得到一個最優(yōu)的結(jié)果。實例是用自然語言來表示的,可以很方便通過調(diào)整詞語實例集的例子來達到一個比較好的排歧效果。同時我們采用的語義知
19、識資源知網(wǎng)是專為自然語言處理而設計的,無論是詞條數(shù)還是語義定義及分類體系都十分適用于自然語言處理。從實驗的分析來看,基于實例的方法具有良好的歧義消解效果。 參考文獻 1 劉開瑛. 漢語全文檢索中的義項標注技術研究. 計算語言學進展與應用. 北京: 清華大學出版社, 1995 2 劉小虎. 英漢機器翻譯中詞義消歧方法的研究. 哈爾濱工業(yè)大學博士學位論文 F Kij 與Kj 有上述關系 THEN Weight(Kij)= Weight(Kij)+1
20、160; ENDIF 5 實驗結(jié)果分析 我們選擇人民日報語料庫作為實驗語料,語料中共有800個句子,每個句子的長度為20-30字符。把以上的消歧過程在VC6.0中實現(xiàn)做以測試。消歧的正確率計算公式為: 消歧的正確率=得到正確消歧結(jié)果的詞語總數(shù)/存在歧義的詞語總數(shù).(3) 消歧結(jié)果的正確與否是通過手工進行判定的。目前實
21、驗的正確率為90.6%。這表明我們提出的基于依存句法對歧義進行消解是有效的。實驗中我們還對句子長度對消歧正確率的影響做了測試,如果句子的長度過短,那么消歧的效果將會下降,句子的長度過長,理論上會提高消歧的精度,但是依存句法分析主要是針對句子分析的程序,對于文本段落的分析,會降低依存關系的分析精度,從而降低詞語消歧的準確率。 雖然該方法與基于統(tǒng)計的方法在計算復雜度和時間上具有明顯的效率,但是也存在著一些問題。 (1) 義原的敏感性問題。由于該方法是基于多義詞語義原與關聯(lián)詞語的義原關系進行的,故義原詞語如何確定是一個關鍵問
22、題。 (2) 知網(wǎng)本身的缺陷。目前知網(wǎng)尚未完全開放所有詞條義項實例,在試驗中我們手工地為部分詞語添加義項實例,這不免會有一些主觀傾向性,并且試驗語料的數(shù)目比較有限。 (3) 擴大測試對象的范圍。多義詞消歧方法的系統(tǒng)評價是困難的,本文提出的方法需要進一步在大規(guī)模測試集進行檢驗。 6 結(jié)論 本文提出了一種基于依存句法分析句子結(jié)構(gòu)進行歧義消解的方法,這種方法不需要制定規(guī)則約束,而是通過關聯(lián)詞語的義原在知網(wǎng)中的關聯(lián)關系來調(diào)整概念的趨向權重從而從多個概念中得到一個最優(yōu)的結(jié)果。實例
23、是用自然語言來表示的,可以很方便通過調(diào)整詞語實例集的例子來達到一個比較好的排歧效果。同時我們采用的語義知識資源知網(wǎng)是專為自然語言處理而設計的,無論是詞條數(shù)還是語義定義及分類體系都十分適用于自然語言處理。從實驗的分析來看,基于實例的方法具有良好的歧義消解效果。 參考文獻 1 劉開瑛. 漢語全文檢索中的義項標注技術研究. 計算語言學進展與應用. 北京: 清華大學出版社, 1995 2 劉小虎. 英漢機器翻譯中詞義消歧方法的研究. 哈爾濱工業(yè)大學博士學位論文 F Kij 與Kj
24、有上述關系 THEN Weight(Kij)= Weight(Kij)+1 ENDIF 5 實驗結(jié)果分析 我們選擇人民日報語料庫作為實驗語料,語料中共有800個句子,每個句子的長度為20-30字符。把以上的消歧過程在VC6.0中實現(xiàn)做以測試。消歧的正確率計算公式為: 消歧的正確率=得到正確消歧結(jié)果的詞語總數(shù)/存在歧義
25、的詞語總數(shù).(3) 消歧結(jié)果的正確與否是通過手工進行判定的。目前實驗的正確率為90.6%。這表明我們提出的基于依存句法對歧義進行消解是有效的。實驗中我們還對句子長度對消歧正確率的影響做了測試,如果句子的長度過短,那么消歧的效果將會下降,句子的長度過長,理論上會提高消歧的精度,但是依存句法分析主要是針對句子分析的程序,對于文本段落的分析,會降低依存關系的分析精度,從而降低詞語消歧的準確率。 雖然該方法與基于統(tǒng)計的方法在計算復雜度和時間上具有明顯的效率,但是也存在著一些問題。 (1)
26、義原的敏感性問題。由于該方法是基于多義詞語義原與關聯(lián)詞語的義原關系進行的,故義原詞語如何確定是一個關鍵問題。 (2) 知網(wǎng)本身的缺陷。目前知網(wǎng)尚未完全開放所有詞條義項實例,在試驗中我們手工地為部分詞語添加義項實例,這不免會有一些主觀傾向性,并且試驗語料的數(shù)目比較有限。 (3) 擴大測試對象的范圍。多義詞消歧方法的系統(tǒng)評價是困難的,本文提出的方法需要進一步在大規(guī)模測試集進行檢驗。 6 結(jié)論 本文提出了一種基于依存句法分析句子結(jié)構(gòu)進行歧義消解的方法,這種方法不需要制定規(guī)則約
27、束,而是通過關聯(lián)詞語的義原在知網(wǎng)中的關聯(lián)關系來調(diào)整概念的趨向權重從而從多個概念中得到一個最優(yōu)的結(jié)果。實例是用自然語言來表示的,可以很方便通過調(diào)整詞語實例集的例子來達到一個比較好的排歧效果。同時我們采用的語義知識資源知網(wǎng)是專為自然語言處理而設計的,無論是詞條數(shù)還是語義定義及分類體系都十分適用于自然語言處理。從實驗的分析來看,基于實例的方法具有良好的歧義消解效果。 參考文獻 1 劉開瑛. 漢語全文檢索中的義項標注技術研究. 計算語言學進展與應用. 北京: 清華大學出版社, 1995 2 劉小虎. 英漢機器翻譯中詞義消歧方法的研究. 哈爾濱工業(yè)大學博士學位論文
28、160; F Kij 與Kj 有上述關系 THEN Weight(Kij)= Weight(Kij)+1 ENDIF 5 實驗結(jié)果分析 我們選擇人民日報語料庫作為實驗語料,語料中共有800個句子,每個句子的長度為20-30字符。把以上的消歧過程在VC6.0中實現(xiàn)做以測試。消歧的正確
29、率計算公式為: 消歧的正確率=得到正確消歧結(jié)果的詞語總數(shù)/存在歧義的詞語總數(shù).(3) 消歧結(jié)果的正確與否是通過手工進行判定的。目前實驗的正確率為90.6%。這表明我們提出的基于依存句法對歧義進行消解是有效的。實驗中我們還對句子長度對消歧正確率的影響做了測試,如果句子的長度過短,那么消歧的效果將會下降,句子的長度過長,理論上會提高消歧的精度,但是依存句法分析主要是針對句子分析的程序,對于文本段落的分析,會降低依存關系的分析精度,從而降低詞語消歧的準確率。 雖然該方法與基于統(tǒng)計的方法在
30、計算復雜度和時間上具有明顯的效率,但是也存在著一些問題。 (1) 義原的敏感性問題。由于該方法是基于多義詞語義原與關聯(lián)詞語的義原關系進行的,故義原詞語如何確定是一個關鍵問題。 (2) 知網(wǎng)本身的缺陷。目前知網(wǎng)尚未完全開放所有詞條義項實例,在試驗中我們手工地為部分詞語添加義項實例,這不免會有一些主觀傾向性,并且試驗語料的數(shù)目比較有限。 (3) 擴大測試對象的范圍。多義詞消歧方法的系統(tǒng)評價是困難的,本文提出的方法需要進一步在大規(guī)模測試集進行檢驗。 6 結(jié)論
31、160; 本文提出了一種基于依存句法分析句子結(jié)構(gòu)進行歧義消解的方法,這種方法不需要制定規(guī)則約束,而是通過關聯(lián)詞語的義原在知網(wǎng)中的關聯(lián)關系來調(diào)整概念的趨向權重從而從多個概念中得到一個最優(yōu)的結(jié)果。實例是用自然語言來表示的,可以很方便通過調(diào)整詞語實例集的例子來達到一個比較好的排歧效果。同時我們采用的語義知識資源知網(wǎng)是專為自然語言處理而設計的,無論是詞條數(shù)還是語義定義及分類體系都十分適用于自然語言處理。從實驗的分析來看,基于實例的方法具有良好的歧義消解效果。 參考文獻 1 劉開瑛. 漢語全文檢索中的義項標注技術研究. 計算語言學進展與應用. 北京: 清華大學出版社, 1995 2 劉小虎.
32、 英漢機器翻譯中詞義消歧方法的研究. 哈爾濱工業(yè)大學博士學位論文 F Kij 與Kj 有上述關系 THEN Weight(Kij)= Weight(Kij)+1 ENDIF 5 實驗結(jié)果分析 我們選擇人民日報語料庫作為實驗語料,語料中
33、共有800個句子,每個句子的長度為20-30字符。把以上的消歧過程在VC6.0中實現(xiàn)做以測試。消歧的正確率計算公式為: 消歧的正確率=得到正確消歧結(jié)果的詞語總數(shù)/存在歧義的詞語總數(shù).(3) 消歧結(jié)果的正確與否是通過手工進行判定的。目前實驗的正確率為90.6%。這表明我們提出的基于依存句法對歧義進行消解是有效的。實驗中我們還對句子長度對消歧正確率的影響做了測試,如果句子的長度過短,那么消歧的效果將會下降,句子的長度過長,理論上會提高消歧的精度,但是依存句法分析主要是針對句子分析的程序,對于文本段落的分析,會降低依存關系的
34、分析精度,從而降低詞語消歧的準確率。 雖然該方法與基于統(tǒng)計的方法在計算復雜度和時間上具有明顯的效率,但是也存在著一些問題。 (1) 義原的敏感性問題。由于該方法是基于多義詞語義原與關聯(lián)詞語的義原關系進行的,故義原詞語如何確定是一個關鍵問題。 (2) 知網(wǎng)本身的缺陷。目前知網(wǎng)尚未完全開放所有詞條義項實例,在試驗中我們手工地為部分詞語添加義項實例,這不免會有一些主觀傾向性,并且試驗語料的數(shù)目比較有限。 (3) 擴大測試對象的范圍。多義詞消歧方法的系
35、統(tǒng)評價是困難的,本文提出的方法需要進一步在大規(guī)模測試集進行檢驗。 6 結(jié)論 本文提出了一種基于依存句法分析句子結(jié)構(gòu)進行歧義消解的方法,這種方法不需要制定規(guī)則約束,而是通過關聯(lián)詞語的義原在知網(wǎng)中的關聯(lián)關系來調(diào)整概念的趨向權重從而從多個概念中得到一個最優(yōu)的結(jié)果。實例是用自然語言來表示的,可以很方便通過調(diào)整詞語實例集的例子來達到一個比較好的排歧效果。同時我們采用的語義知識資源知網(wǎng)是專為自然語言處理而設計的,無論是詞條數(shù)還是語義定義及分類體系都十分適用于自然語言處理。從實驗的分析來看,基于實例的方法具有良好的歧義消解效果。 參考文獻 1 劉開瑛. 漢語
36、全文檢索中的義項標注技術研究. 計算語言學進展與應用. 北京: 清華大學出版社, 1995 2 劉小虎. 英漢機器翻譯中詞義消歧方法的研究. 哈爾濱工業(yè)大學博士學位論文 F Kij 與Kj 有上述關系 THEN Weight(Kij)= Weight(Kij)+1 ENDIF 5
37、160; 實驗結(jié)果分析 我們選擇人民日報語料庫作為實驗語料,語料中共有800個句子,每個句子的長度為20-30字符。把以上的消歧過程在VC6.0中實現(xiàn)做以測試。消歧的正確率計算公式為: 消歧的正確率=得到正確消歧結(jié)果的詞語總數(shù)/存在歧義的詞語總數(shù).(3) 消歧結(jié)果的正確與否是通過手工進行判定的。目前實驗的正確率為90.6%。這表明我們提出的基于依存句法對歧義進行消解是有效的。實驗中我們還對句子長度對消歧正確率的影響做了測試,如果句子的長度過短,那么消歧的效果將會下降,句子的長度過長
38、,理論上會提高消歧的精度,但是依存句法分析主要是針對句子分析的程序,對于文本段落的分析,會降低依存關系的分析精度,從而降低詞語消歧的準確率。 雖然該方法與基于統(tǒng)計的方法在計算復雜度和時間上具有明顯的效率,但是也存在著一些問題。 (1) 義原的敏感性問題。由于該方法是基于多義詞語義原與關聯(lián)詞語的義原關系進行的,故義原詞語如何確定是一個關鍵問題。 (2) 知網(wǎng)本身的缺陷。目前知網(wǎng)尚未完全開放所有詞條義項實例,在試驗中我們手工地為部分詞語添加義項實例,這不免會有一些主觀傾向性,并且試驗語
39、料的數(shù)目比較有限。 (3) 擴大測試對象的范圍。多義詞消歧方法的系統(tǒng)評價是困難的,本文提出的方法需要進一步在大規(guī)模測試集進行檢驗。 6 結(jié)論 本文提出了一種基于依存句法分析句子結(jié)構(gòu)進行歧義消解的方法,這種方法不需要制定規(guī)則約束,而是通過關聯(lián)詞語的義原在知網(wǎng)中的關聯(lián)關系來調(diào)整概念的趨向權重從而從多個概念中得到一個最優(yōu)的結(jié)果。實例是用自然語言來表示的,可以很方便通過調(diào)整詞語實例集的例子來達到一個比較好的排歧效果。同時我們采用的語義知識資源知網(wǎng)是專為自然語言處理而設計的,無論是詞條數(shù)還是語義定義及分類體系都十分適
40、用于自然語言處理。從實驗的分析來看,基于實例的方法具有良好的歧義消解效果。 參考文獻 1 劉開瑛. 漢語全文檢索中的義項標注技術研究. 計算語言學進展與應用. 北京: 清華大學出版社, 1995 2 劉小虎. 英漢機器翻譯中詞義消歧方法的研究. 哈爾濱工業(yè)大學博士學位論文 sp;
41、0; Visitedw=true; Push(s,w); 因為二叉樹、圖的其它的操作大部分是對遍歷基本操作的拓展或綜合應用,靈活運用棧和隊列可實現(xiàn),并且算法描述比較直觀。線性結(jié)構(gòu)是數(shù)據(jù)結(jié)構(gòu)學科的基礎,樹、圖的發(fā)展在線性結(jié)構(gòu)的基礎上而發(fā)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全與可靠性試題及答案
- 深度分析2025年能源行業(yè)智能電網(wǎng)優(yōu)化與能源互聯(lián)網(wǎng)產(chǎn)業(yè)鏈圖譜報告
- 安全環(huán)保試題及答案大全
- 2025年成人教育線上學習模式創(chuàng)新與學習評價工具研發(fā)報告001
- 2025年文化與科技融合趨勢下的數(shù)字博物館數(shù)字化技術應用案例研究報告
- 中國醫(yī)保體制培訓課件
- 員工培訓視頻課件
- 中國制度自信課件
- 再貼現(xiàn)政策課件
- 北京十一學校2025屆八年級英語第二學期期中考試試題含答案
- 武陟縣袁肯紙業(yè)有限公司紙箱項目環(huán)評報告
- 液氨的管理及應急救援處置
- 工程質(zhì)量驗收報告和竣工驗收報告
- 2022-2023學年內(nèi)蒙古赤峰市數(shù)學高一下期末統(tǒng)考模擬試題含解析
- 江西省建筑工程竣工備案表
- 幼兒園三年發(fā)展規(guī)劃第一年實施績效自評報告
- 中醫(yī)醫(yī)院中醫(yī)師帶徒協(xié)議模板范文
- GB/T 9081-2008機動車燃油加油機
- GB/T 17626.27-2006電磁兼容試驗和測量技術三相電壓不平衡抗擾度試驗
- GB/T 1185-2006光學零件表面疵病
- 2023年人社所半年工作總結(jié)
評論
0/150
提交評論