【畢業(yè)學位論文】(Word原稿)基于本體的高校數(shù)字圖書館語義檢索系統(tǒng)的研究與應用-軟件工程_第1頁
【畢業(yè)學位論文】(Word原稿)基于本體的高校數(shù)字圖書館語義檢索系統(tǒng)的研究與應用-軟件工程_第2頁
【畢業(yè)學位論文】(Word原稿)基于本體的高校數(shù)字圖書館語義檢索系統(tǒng)的研究與應用-軟件工程_第3頁
【畢業(yè)學位論文】(Word原稿)基于本體的高校數(shù)字圖書館語義檢索系統(tǒng)的研究與應用-軟件工程_第4頁
【畢業(yè)學位論文】(Word原稿)基于本體的高校數(shù)字圖書館語義檢索系統(tǒng)的研究與應用-軟件工程_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

中圖分類號: 學校代碼: 10055 密級: 公開 碩 士 專 業(yè) 學 位 論 文 基于本體的高校數(shù)字圖書館語義檢索系統(tǒng)的研究與應用 要 I 摘 要 在知識大爆炸的信息化社會,高校數(shù)字圖書館成為重要的信息傳承介質(zhì),目前其檢索平臺完全采用字符匹配的模式,缺乏表達檢索需求的語義信息,致使 檢索結(jié)果與檢索需求出現(xiàn)偏差。 本論文深入研究了本體的概念、應用領(lǐng)域、描述語言以及本體的創(chuàng)建規(guī)則,提出了基于軟件工程方式的本體創(chuàng)建流程,以計算機圖書為例,詳細論述了需求分析、設計、形式化編碼以及本體評價的全過程。在分析傳統(tǒng)模型的基礎上,引入本體語義層,提出基于本體語義的檢索模型,設計了用戶交互層、數(shù)據(jù)管理層和本體語義層的應用功能,設計了檢索系統(tǒng)的整體結(jié)構(gòu)模型。研究了數(shù)字圖書館檢索的擴展查詢,提出了基于單關(guān)鍵詞、多關(guān)鍵詞的查詢算法和處理流程,在研究目前推理機工作機制的基礎上,提出并設計了基于本體概念與關(guān)系的語義 推理模型。 在檢索模型設計的基礎上,詳細描述了檢索系統(tǒng)的本體維護、語義推理等操作的具體實現(xiàn)過程。通過樣例試驗數(shù)據(jù)驗證了本體檢索系統(tǒng)在查準率和查全率兩方面優(yōu)于傳統(tǒng)檢索系統(tǒng)。論文實現(xiàn)的檢索系統(tǒng)可在目前高校圖書館中推廣應用,能夠提高書目檢索的查準率和查全率。 關(guān)鍵詞 :本體 ,語義檢索 ,語義推理 ,數(shù)字圖書館 I he an in on is of of so of of of on of in by an of On of of on of It of on of of of on of on of is to in be in it of 目錄 錄 第一章 緒論 . 1 第一節(jié) 研究的背景與意義 . 1 第二節(jié) 國內(nèi)外研究現(xiàn)狀分析 . 2 內(nèi)研究現(xiàn)狀 . 2 外研究現(xiàn)狀 . 3 第三節(jié) 論文的主要內(nèi)容 . 3 第四節(jié) 論文的組織與結(jié)構(gòu) . 4 第二章 相關(guān)理論與技術(shù) . 6 第一節(jié) 數(shù)字圖書館 . 6 第二節(jié) 本體概 念 . 6 體概念 . 6 體的應用 . 7 體的構(gòu)成 . 8 體的描述語言 . 9 體庫建立 . 10 第三節(jié) 數(shù)字圖書館領(lǐng)域本體的形式化描述 . 11 第四節(jié) 本章小節(jié) . 13 第三章 計算機圖書本體庫建設 . 14 第一節(jié) 計算機本體庫的構(gòu)建背景 . 14 第二節(jié) 本體庫采用的語言和工具 . 14 第三節(jié) 計算機本體庫的構(gòu)建步驟 . 15 求分析階段 . 16 計階段 . 16 目錄 形式化編碼 . 19 體的評價 . 20 第四節(jié) 本章小節(jié) . 21 第四章 數(shù)字圖書館本體語義檢索模型設計 . 22 第一節(jié) 總體結(jié)構(gòu)設計 . 22 統(tǒng)數(shù)字圖書館檢索系統(tǒng)總體結(jié)構(gòu) . 22 于本體的數(shù)字圖書館檢索系統(tǒng)總體結(jié)構(gòu) . 23 統(tǒng)總體流程結(jié)構(gòu) . 25 第二節(jié) 擴展查詢設計 . 26 第三節(jié) 資源映射管理設計 . 29 第四節(jié) 語義推理設計 . 31 第五節(jié) 基于語義檢索的關(guān)鍵技術(shù) . 34 第六節(jié) 本章小節(jié) . 36 第五章 數(shù)字圖書館本體語義檢索系統(tǒng)的實現(xiàn) . 37 第一節(jié) 系統(tǒng)開發(fā)環(huán)境 . 37 第二節(jié) 系統(tǒng)總體結(jié)構(gòu)實現(xiàn) . 37 統(tǒng)服務總體結(jié)構(gòu) . 37 統(tǒng)模塊框架 . 38 第三節(jié) 本體庫維護處理的實現(xiàn) . 40 體庫創(chuàng)建的實現(xiàn) . 40 體文檔管理器的操作實現(xiàn) . 41 體操作的實現(xiàn)方法 . 41 第四節(jié) 語義推理的實現(xiàn) . 42 理機的創(chuàng)建 . 42 義推 理的實現(xiàn) . 43 第五節(jié) 實驗分析 . 45 目錄 V 第六節(jié) 本章小結(jié) . 50 第六章 總結(jié)與展望 . 51 第一節(jié) 總結(jié) . 51 第二節(jié) 展望 . 52 參考文獻 . 53 致謝 . 56 個人簡歷 在學期間發(fā)表的學術(shù)論文與科研成果 . 57 第一章 緒論 1 第一章 緒論 第一節(jié) 研究的背景與意義 隨著信息化和知識經(jīng)濟的不斷發(fā)展,高校圖書館作為我國教育的重要知識載體越來越龐大,存書量越來越大,形成千萬的圖書。同時由于近些年計算機技術(shù)、網(wǎng)絡技術(shù)和信息處理技術(shù)有很大的發(fā)展,促使了數(shù)字圖書館的產(chǎn) 生,對一所高校來說有兩個方面的重要影響,通過信息化的存儲對圖書館文獻資料的保存、繼承等方面起到重要的作用,同時通過計算機信息檢索技術(shù)的運用,為高校師生圖書檢索提供高效、快捷的手段,能夠讓檢索用戶快速找到出所需要的圖書文獻。 目前,國內(nèi)大部分高校已經(jīng)完成了數(shù)字圖書館的基礎建設,學校的圖書文獻索引、主題詞、作者信息、文獻題目等信息已經(jīng)存檔入庫,已經(jīng)建設了完善的基于關(guān)鍵字的圖書檢索方法,這種檢索方法是完全基于字符之間的匹配,即通過用戶輸入的查找關(guān)鍵字與圖書信息的關(guān)鍵字進行匹配,匹配成功后,找出找到相關(guān)圖書數(shù)據(jù),很 明顯這種采用字符匹配的檢索方法,沒有準確地表達出關(guān)鍵詞豐富的語義信息,造成系統(tǒng)給出的檢索結(jié)果與用戶原有的檢索需求存在一定的偏差,使檢索結(jié)果不能完全表達出作者所想要的圖書信息,降低了檢索的查全率和查準率。 基于上述背景,作者所在高校為提高本校的數(shù)字圖書館中信息檢索的準確率和查全率,更好地讓圖書館為全校師生服務,在原有數(shù)字圖書館傳統(tǒng)的基于字符串匹配檢索技術(shù)的基礎上引入本體語義概念,研究了基于本體語義的數(shù)字圖書館檢索技術(shù),本體概念的引入,能夠挖掘出概念之間復雜的語義關(guān)系,在檢索系統(tǒng)中運用本體,可以由原來的字符串匹 配方式完全轉(zhuǎn)為基于概念的匹配方式,實現(xiàn)能夠反映用戶檢索意圖的語義檢索。該技術(shù)的運用使檢索系統(tǒng)如同一個智能的領(lǐng)域?qū)<?,改變了傳統(tǒng)數(shù)字圖書館檢索系統(tǒng)的技術(shù)局限性,引入了語義,提高了檢索的精度和覆蓋率。 第一章 緒論 2 第二節(jié) 國內(nèi)外研究現(xiàn)狀分析 內(nèi)研究現(xiàn)狀 國內(nèi)有關(guān)檢索系統(tǒng)的研究大部分面向公眾服務領(lǐng)域,如門戶的 索系統(tǒng),這種檢索的特點是面向廣泛的搜索領(lǐng)域。針對一些特定領(lǐng)域的需求,要求檢索范圍限定于特定的專業(yè)范圍之內(nèi)的檢索成為近年來的搜索領(lǐng)域研究的熱門課題。本體作為專業(yè)領(lǐng)域內(nèi)的知識庫的存儲形式,這一概念的提出 給廣大檢索研究者,提供了信息的表示、存儲方面的研究方向的同時,更為重要的是為信息檢索、語義推理等方面提供研究方向。 目前國內(nèi)有許多研究者將本體語義作為檢索數(shù)據(jù)結(jié)構(gòu)、存儲、管理的載體,實現(xiàn)專業(yè)領(lǐng)域內(nèi)語義檢索,把用戶模糊的需求轉(zhuǎn)化為概念的標準詞,提高了檢索精度。在這些研究過程中,一般都建立了本專業(yè)領(lǐng)域內(nèi)的本體庫。如中國農(nóng)業(yè)大學的李景 1在分析、歸納花卉學領(lǐng)域的基礎上,建立了此領(lǐng)域的本體,并通過開發(fā)檢索系統(tǒng),研發(fā)了基于本體庫的專業(yè)檢索系統(tǒng);趙慶齡 2在分析農(nóng)業(yè)學科中的土壤專業(yè)、農(nóng)業(yè)化學專業(yè)的基礎上,建立了土壤 和農(nóng)業(yè)化學領(lǐng)域的本體庫,這一本體庫在農(nóng)業(yè)領(lǐng)域內(nèi)得到了較為廣泛的應用;另外以山西大學為代表的高校承擔的“現(xiàn)代漢語框架語義系統(tǒng)研究” 3,項目組構(gòu)建了漢語框架語義知識本體庫,這些研究大部分集中在各個領(lǐng)域的本體庫的建設與檢索系統(tǒng)的開發(fā)上。 此外,國內(nèi)許多學者對本體 檢索 理論和方法進行了深入的研究,比如 中國科學院計算技術(shù)研究所 的 武成鋼 4等人在本體理論的基礎上研究了基于本體的與多智能主體的信息檢索,設計了檢索服務器,此項成果可用在按專業(yè)領(lǐng)域分類處理互聯(lián)網(wǎng)上的數(shù)據(jù),根據(jù)不同的關(guān)注度建立信息資源的索引,使用戶的信息 檢索模式得到了優(yōu)化和規(guī)范,能夠動態(tài)地把互聯(lián)網(wǎng)上更新的數(shù)據(jù)分類索引,提高了檢索的準確率。 通過查閱相關(guān)參考文獻,近幾年來國內(nèi)學者在本體領(lǐng)域方面的研究一般集中在以下幾個方面:( 1)具體專業(yè)本體庫的建設,本體庫是本體語義檢索的基礎,一些專業(yè)領(lǐng)域的專家根據(jù)多年來在本行業(yè)的知識積累,研究設計了基于本專業(yè)的本體庫。( 2)本體庫的應用方面的研究,一些學者根據(jù)已建本體庫研究了具體應用,如本體庫概念之間的關(guān)系研究、本體庫概念的邏輯規(guī)則研究和本體庫語義檢索的研究等。 第一章 緒論 3 外研究現(xiàn)狀 國外在本體檢索方面的研究比較早,形 成了一些較為成熟的研究成果,通過查閱文獻資料,國外的軍事國防、大型研究所、商業(yè)公司都對有關(guān)本體檢索進行了研究,把一些成果應用到具體的應用中。 美國國防部高級研究計劃署(究了 實施的高性能知識庫系統(tǒng) (課題建立了一個基于智能學習的自適應知識庫,這個知識庫完全基于本體的組織形式的,在數(shù)據(jù)表示、存儲、檢索方面都基于本體庫中的概念實現(xiàn)的。 美國斯坦福大 學下屬的知識系統(tǒng)實驗室的學者對本論的應用、建模工具、管理等一些基礎層面的應用做了許多的研究成果,學者 在 1993 年提出了本體的定義,學者 計了本體的頂層結(jié)構(gòu)。 項目是歐洲信息技術(shù)委員會實施的 信息社會技術(shù) 計劃中的一個課題,課題的研究是在眾多的分布式應用系統(tǒng)中引入本體庫,實現(xiàn)各種分布式資源的描述信息管理,為資源信息管理建立了一個可視化的本體維護工具。 意大利的國家生物工程研究所與 司合作完成了一項課題研究,研發(fā)了基于本體驅(qū)動的網(wǎng)上在線產(chǎn)品目 錄的檢索系統(tǒng) ,系統(tǒng)通過運用本體與專業(yè)數(shù)據(jù)庫集成關(guān)聯(lián),通過本體提供的概念,實現(xiàn)概念上的內(nèi)容匹配,為檢索用戶提供在選定專業(yè)領(lǐng)域內(nèi)的任意詞匯的組合的綜合智能檢索系統(tǒng)。 除此之外,國外許多科研學者,研發(fā)了許多面向 本體檢索系統(tǒng)。如 通過運用分布式數(shù)據(jù)的概念的結(jié)構(gòu)化技術(shù),用戶可以在此系統(tǒng)中檢索 已經(jīng)存在的共享本體,實現(xiàn)信息的檢索。 通過查閱相關(guān)參考文獻,近幾年來國外在有關(guān)本體研究方面由本體庫的建設研究逐漸轉(zhuǎn)為本體的應用研究,國外的本體庫建 設已經(jīng)逐步完善,并且提供一些開放的接口供其他科研單位使用,提高了本體庫的使用效率。隨著近幾年來互聯(lián)網(wǎng)技術(shù)的發(fā)展,基于本體的檢索系統(tǒng)不僅僅限于局部小范圍的應用,逐步在互聯(lián)網(wǎng)信息檢索方面應用。 第三節(jié) 論文的主要內(nèi)容 1)本論文深入研究了本體的概念、定義、應用領(lǐng)域、采用的建模語言、描述語言以及本體的創(chuàng)建規(guī)則。提出了基于軟件工程方式的本體創(chuàng)建流程,以計第一章 緒論 4 算機圖書為例,詳細論述了需求分析、設計、形式化編碼以及本體評價的全過程。 2)結(jié)合數(shù)字圖書館的數(shù)據(jù)庫特征,設計了數(shù)字圖書館領(lǐng)域的本體形式化描述定義 ,并對本體的概念集 進行了規(guī)范的設計,提出了基于語義檢索要求的數(shù)字圖書館本體概念及關(guān)系的集合定義。 3)論文在研究傳統(tǒng)的數(shù)字圖書館檢索模型的基礎上,提出了基于本體語義檢索功能的改進的數(shù)字圖書館檢索系統(tǒng)框架,設計了用戶交互層、數(shù)據(jù)管理層和本體語義層的不同功能應用,提出了檢索系統(tǒng)的整體結(jié)構(gòu)模型設計。 4)深入研究了數(shù)字圖書館檢索的擴展查詢,提出了基于單關(guān)鍵詞、多關(guān)鍵詞的查詢算法和處理流程,在研究目前推理機工作機制的基礎上,提出并設計了基于本體概念與關(guān)系的語義推理模型。 5)在檢索模型設計的基礎上,對檢索系統(tǒng)的整體流程做了詳細的實現(xiàn) 描述,詳細描述了本體的維護、語義推理等技術(shù)實現(xiàn)。系統(tǒng)設計實現(xiàn)完成后,通過輸入測試實驗數(shù)據(jù),對比分析本系統(tǒng)與傳統(tǒng)檢索系統(tǒng),驗證了本論文設計的檢索模型在查準率和查全率兩方面優(yōu)于傳統(tǒng)檢索模型。 第四節(jié) 論文的組織與結(jié)構(gòu) 本文具體結(jié)構(gòu)如下: 第一章介紹論文的研究背景、國內(nèi)外研究現(xiàn)狀以及本文所做的工作。 第二章介紹了數(shù)字圖書館的概念,研究了本論的概念、定義、描述語言、構(gòu)建步驟和采用的工具,在此基礎上提出了數(shù)字圖書館領(lǐng)域本體的形式化描述。 第三章以計算機圖書為例介紹本體庫建設過程,提出了基于軟件工程方式的本體的創(chuàng)建流 程,詳細論述了計算機本體領(lǐng)域建設的需求分析、設計、形式化編碼以及本體評價的全過程。 第四章在研究傳統(tǒng)的數(shù)字圖書館檢索模型的基礎上,結(jié)合語義檢索的需求,設計了基于本體語義檢索功能的改進的數(shù)字圖書館檢索系統(tǒng)框架,詳細設計了用戶交互層、數(shù)據(jù)管理層和本體語義層的不同應用功能。 第五章對檢索系統(tǒng)的整體架構(gòu)和功能進行實現(xiàn)的詳細描述,描述了本體的維護、語義推理的技術(shù)實現(xiàn)。通過樣例數(shù)據(jù)驗證了基于本體語義的數(shù)字圖書館檢索模型在查準率和查全率兩方面優(yōu)于傳統(tǒng)檢索模型。 第一章 緒論 5 第六章總結(jié)論文的主要內(nèi)容,總結(jié)了檢索模型的設計和實現(xiàn),對此模 型的后期改進工作做了展望,提出了完善改進的方向。 第二章 相關(guān)理論與技術(shù) 6 第二章 相關(guān)理論與技術(shù) 第一節(jié) 數(shù)字圖書館 圖書館作為傳播知識的載體,它一直是學者、研究人員、師生等查閱文獻資料、獲取知識的重要場所。隨著信息化技術(shù)的發(fā)展和計算機應用普及 ,傳統(tǒng)的圖書館的服務模式逐漸向智能化方向轉(zhuǎn)變 ,尤其在檢索方式上需要更能夠達到檢索者的需求,在新的需求下,通過計算機建模實現(xiàn)圖書檢索的智能化在此背景下產(chǎn)生 9。數(shù)字圖書館突出的特征是提供信息檢索的工具,是圖書文獻數(shù)字化信息存儲和檢索的高層次的綜合應用平臺 10。 數(shù)字圖書館與傳 統(tǒng)圖書館相比,其在信息采集、存儲、檢索等方面有較大提高,數(shù)字圖書館綜合了圖書訂購入庫、數(shù)據(jù)更新、信息檢索與網(wǎng)上瀏覽等業(yè)務功能,使圖書資源實時更新,使傳統(tǒng)圖書館工作模式在信息存儲、管理、檢索等方面的效率得到較大的提高,最終為圖書管理人員、檢索者不受時間地點的限制實現(xiàn)信息的管理和檢索。數(shù)字圖書館發(fā)展的方向就是使圖書檢索模型和算法更為智能,滿足檢索者的需求,為讀者提供高質(zhì)量的綜合信息服務 11 第二節(jié) 本體概念 體概念 在計算機學科中,數(shù)據(jù)信息的存儲與管理,是計算機研究的一個熱門課題,隨 著人工智能處理信息技術(shù)的出現(xiàn),數(shù)據(jù)傳輸技術(shù)也有了突飛猛進的發(fā)展,海量數(shù)據(jù)的出現(xiàn)使許多海量數(shù)據(jù)處理技術(shù)應用產(chǎn)生,如何在海量數(shù)據(jù)中有效地對數(shù)據(jù)進行結(jié)構(gòu)化管理,提供快捷的數(shù)據(jù)獲取模式是信息處理領(lǐng)域的學者和科研人員研究的重點方向,本體( 概念的管理的這種模式能夠滿足學者們研究需求。 本體概念最初的提出是來哲學領(lǐng)域,自本體引入到計算機中,使之成為信息資源組織和語義表達的工具,更多地通過概念層次去表達客觀世界。目前本體在信息檢索、數(shù)據(jù)管理等科學工程領(lǐng)域得到了較為廣泛的應用,其結(jié)構(gòu)化數(shù)據(jù)描述和概念的關(guān)系 描述使其在有關(guān)數(shù)據(jù)處理領(lǐng)域中得到全面應用,如自然語言處理、情報檢索、人工智能、語義表述與推理等 13。 第二章 相關(guān)理論與技術(shù) 7 本體的定義的提出是經(jīng)學者們經(jīng)過多年逐步完善的,起初學者 出本體是由相關(guān)領(lǐng)域內(nèi)詞匯術(shù)語組成,并且通過它定義其外延規(guī)則 14 ,隨后從事知識智能研究的 本體的定義進行了改進, 提出本體是針對概念模型的規(guī)范化表示 15, 士在 1997 年在以上學者研究的基礎上進一步完善其定義,從概念共享的角度定義本體 16,研究員 出了一個至今被廣泛認可的定義,提出 本體 的定義為:“本體是共享概念模型的明確的形式化規(guī)范說明” 17 。 從本體的定義來分析,其包含四層含義,分別是概念模型、明確、形式化和共享?!案拍钅P汀敝竿ㄟ^計算機語言進行抽象化處理,建立與現(xiàn)實世界無關(guān)的模型,能夠被計算機識別、存儲和處理。“明確”指通過定義,概念比較確切,各類條件標準明確,不存在其他的語義?!靶问交敝竿ㄟ^本體建立的概念及關(guān)系能夠在計算機中識別、處理?!肮蚕怼敝父拍钅軌蜃裾展矘藴鼠w系,能夠在其他研究領(lǐng)域中應用 18 19。 體的應用 1)本體的應用領(lǐng)域 本體的概念 一提出來,立即成為相關(guān)領(lǐng)域的概念、知識表示、管理的工具和平臺,其計算機的層面的表示,為信息系統(tǒng)中概念處理的引用提供了方便的計算機處理模型,隨著本體體系結(jié)構(gòu)的不斷發(fā)展,逐漸成為數(shù)字圖書館、教育、語義網(wǎng)格、互聯(lián)網(wǎng)檢索等領(lǐng)域的知識管理的工具 20 21。除了本體作為知識庫管理的工具之外,越來越多的應用體現(xiàn)在信息集成,這是因為本體作為知識的表示,其存取遵循特定的標準,任何信息系統(tǒng)可根據(jù)此標準實現(xiàn)本體庫的維護與存取,多個系統(tǒng)可對同一本體庫進行操作,最終達到各個應用領(lǐng)域的數(shù)據(jù)和知識集成的目的 22 ,這種應用主 要體現(xiàn)在并發(fā)處理系統(tǒng)和一些商業(yè)系統(tǒng)的信息集成等方面。 根據(jù)本體的應用范圍和應用層面,本體的應用功能可分為三種:信息共享、信息傳輸和信息集成。 信息共享:本體通過統(tǒng)一的描述語言,實現(xiàn)對知識領(lǐng)域的概念的定義,這種規(guī)范化的定義最終通過計算機語言來描述,使不同層面的研究人員通過這種無二義的描述完成知識概念的理解和交流,達到實現(xiàn)領(lǐng)域知識的信息共享的目的 23。 信息傳輸:本體的最終表示通過計算機描述語言來表示,本體庫建立后,第二章 相關(guān)理論與技術(shù) 8 各使用者通過讀取存儲在計算機的本體庫完成在各不同應用的信息傳輸,同時在權(quán)限允許的條件下,一些 應用者可以更新、完善本體庫的概念結(jié)構(gòu)和關(guān)系定義,這些方式的應用最終實現(xiàn)信息的傳輸。 信息集成:本體庫的構(gòu)建過程采用軟件工程實施的方法和步驟,通過需求分析、設計、描述、實現(xiàn)、維護各個階段建立本體庫,這種方式有利于各個應用單位共同參與,實現(xiàn)信息的集成,同時建立的本體庫在不同的領(lǐng)域應用系統(tǒng)中作為信息管理的基礎平臺,通過此平臺可實現(xiàn)多應用系統(tǒng)中的信息集成 24 。 2)本體在信息檢索中的應用 一般來說信息檢索的應用要求兩個方面:第一需要最終信息的存儲表示,實現(xiàn)信息的存取和維護,另一方面需要信息組織方式的邏輯化,各 信息的存儲表示能夠為邏輯推理提供基礎。本體是通過概念之間的語義關(guān)聯(lián)實現(xiàn)推理的,此特征與檢索系統(tǒng)的需求相符合 25 26。 通過本體工具,在查詢系統(tǒng)中具體應用的步驟如下: ( 1) 構(gòu)建本體庫:選取查詢的專業(yè)范圍或者子領(lǐng)域,通過咨詢本學科的專家或者由其直接參考,對領(lǐng)域內(nèi)的主題概念進行分析、歸并,運用本體描述語言建立本體庫。 ( 2)本體的存儲:目前信息檢索的往往通過關(guān)系數(shù)據(jù)庫來實現(xiàn),本體庫建立后,為提高信息檢索的效率和本體庫的管理,需要把本體庫按照規(guī)范的標準格式進行存儲。 ( 3)分析 用戶查索需求:把用戶提交 的查詢請求,解析成語義推理接受的模式,轉(zhuǎn)換成能夠借助推理機完成推理的表示,最終在數(shù)據(jù)庫中檢索能夠滿足檢索需求的信息。 ( 4)檢索結(jié)果處理 :把檢索的結(jié)果按照系統(tǒng)設定的規(guī)則進行排序,根據(jù)用戶興趣度或者設定的標準實現(xiàn)檢索結(jié)果的輸出。 體的構(gòu)成 由本體的定義可知,本體包括兩部分:本體的概念和概念之間的關(guān)系。從數(shù)學角度分析, 7等人認為本體由概念、關(guān)系、函數(shù)、公理以及實例構(gòu)成,具體描述如下: 1)概念( 指描述客觀世界中事物性質(zhì)的特征集合,能夠通過計第二章 相關(guān)理論與技術(shù) 9 算機實現(xiàn)其事件的推 理。 2)關(guān)系( 表示領(lǐng)域內(nèi)概念之間存在的相互作用,用數(shù)學語言描述為: : . . . . . 3 )函數(shù)( , 表 示 關(guān) 系 的 一 種 特 例 , 其 定 義 為 F : . . . . . 4)公理 (表示其定義的規(guī)則是永遠成立的,不需要證明的,常用來表示概念的屬性和關(guān)系的一些約定規(guī)則。 5)實例 (用來表示概念的一些具體的對象。如 體的描述語言 1) 本體描述語言的特征 本體的最終服務對象是檢索系統(tǒng),從表示的結(jié)構(gòu)分析,其結(jié)果能夠被計算機接受和處理,為此本體描述語言必須具備以下特征: ( 1)具備規(guī)范、精確的語法定義規(guī)則( 2)具備規(guī)范、精確的語義定義( 3)能夠支持邏輯推理( 4)具備強大的信息表達能力和處理規(guī)則 ( 5)表示形式易讀,方便維護。 2) 本體描述語言的類別 從應用領(lǐng)域和范圍來看,本體描述語言可分為基于 ( 1)基于 理應用,以標記語言作為基礎,通過這種開放性的語言表示概念的存儲和 處理,具有代表性的有以下幾種: 8、 ) 29、0、 1。 ( 2)基于人工智能處理的本體語言:此種描述規(guī)則為自行定義,沒有嚴格的統(tǒng)一標準,但定的規(guī)則能夠被自行編寫的程序識別和處理,如 233,這是一種本體的形式化定義, 4助一些邏輯謂詞用以概念的表示,這些本體語言一般都是根據(jù)各自的專業(yè)項目研究的描述規(guī)則,不具有開放、共享性。 3) 采用的標準 在實際應用中,本體描述語言一般有兩種:形式化和非形式化。非形式化方 式中可用自然語言描述本體,同時也可采用一些規(guī)范定義和標準來描述本體,第二章 相關(guān)理論與技術(shù) 10 如常見的語義網(wǎng)、資源框架等,比如與本體有關(guān)的語言標準有: 7語言標準包括了從網(wǎng)絡數(shù)據(jù)的表示、顯示處理、數(shù)據(jù)集成、數(shù)據(jù)傳遞的各個階段的 的應用,不同的操作系統(tǒng)平臺通過 現(xiàn)信息的交換和共享,具體標準包括基于 過結(jié)構(gòu)化的標記語言,把數(shù)據(jù)結(jié)構(gòu)和屬性分開表示,語義的定義通過規(guī)則約束來實現(xiàn)的,一般通過 結(jié)構(gòu)定義,實現(xiàn)其與本體的概念結(jié)構(gòu)相關(guān)聯(lián),然后利用文檔結(jié)構(gòu)中數(shù)據(jù)內(nèi)容的表示將 數(shù)據(jù)項與本體的概念相關(guān)聯(lián),最終實現(xiàn)對本體中的概念及其關(guān)系的描述,具體操作通過 現(xiàn)。 隨著本體概念的不斷完善, 能滿足描述的要求,為此 出了一種采用元語方式實現(xiàn)描述本體的方法,即通過 述簡單的本體, 一種基于三元組框架容器,它也是基于式實現(xiàn)數(shù)據(jù)的語義定義,數(shù)據(jù)采用 “ 資源 屬性值 ”形式,此結(jié)構(gòu)能夠完全基于計 算處理的。 表示本體方面具有很大的不同,在 通過定義約束規(guī)則描述本體,而 通過標準化的元語或元語組合來實現(xiàn)的, 構(gòu)的轉(zhuǎn)換機制實現(xiàn)最終 檔的生成,完成本體的描述。 雖然 本體描述方面功能有較大的提高,但隨著各領(lǐng)域?qū)Ρ倔w的語義推理的要求的規(guī)范化,一些弊端顯示出來,其表示不能準確地表示各概念之間的語義關(guān)系,為解決此弊端, 2001 年 計制定了 目前已成為行業(yè)標 準,通過 夠明確的表示概念含義及其之間的關(guān)系,與其他的描述語言相比, 通過更多的技術(shù)機制來實現(xiàn)語義的表達。 體庫建立 本體庫的建立方法一直是眾多學者研究的熱點,由于本體面向特定的專業(yè)領(lǐng)域,需要一套規(guī)范的、可行的技術(shù)路線作為指導,依照此路線或標準建設本體庫。 截止目前為止,國際上還未建立一套被普通認可的方法,但各個學者根據(jù)各自的項目、課題提出了一些原則、步驟和方法,一些學者提出了本體構(gòu)建的第二章 相關(guān)理論與技術(shù) 11 規(guī)范,通過這些規(guī)范能夠使建立的本體庫在概念表示、語義處理方面更加規(guī)范,方便了應用系統(tǒng)的推理。雖然 目前尚未形成一套標準的本體構(gòu)建方法,但 前較為廣泛地應用于本體庫的構(gòu)建工作中,其五條規(guī)則包括:明確性和客觀性、完整性、一致性、可擴充性、最少約束。 在眾多的領(lǐng)域本體構(gòu)建的方法中,斯坦福大學制定的七步法被廣泛采用,構(gòu)建步驟為: 1)分析本體所在的專業(yè)領(lǐng)域,劃定知識結(jié)構(gòu)范圍; 2)考慮是否能夠重用已經(jīng)存在的本體庫; 3)詳細列舉、描述出本體構(gòu)建領(lǐng)域的重要專業(yè)術(shù)語; 4)選擇本體描述語言和支撐環(huán)境; 5)定義本體中的概念的屬性及其關(guān)系;6)定義概念的屬性中存在的約 束條件; 7)構(gòu)建概念的實例化。 第三節(jié) 數(shù)字圖書館領(lǐng)域本體的形式化描述 本體可通過形式化進行定義描述,通過描述可以表示概念、屬性、關(guān)系,定義描述是本體存存和語義推理的基礎。在本節(jié)中以計算機圖書的一部分概念子集為例說明本體的形式化描述。 計算機圖書館領(lǐng)域本體的本體為 包括概念集、屬性集、概念之間的關(guān)系、概念層次、推理規(guī)則。 假定本體定義 ,H,A,R,A, O n t o l o g y c其中, 計算機概念集合, 個概 念對應一個屬性集, 于表示計算機概念之間的關(guān)系集合, 個關(guān)系對應一個集合, 于表示計算機圖書概念的概念層次, 于表示推理規(guī)則或者公理。 下面通過選取計算機頂級的幾個概念說明描述的方法: 1)概念集合 計算機基礎理論與方法、基礎知識概念、計算機硬件知識、計算機軟件知識 2)概念的屬性集 = 計算機 基礎理論與方法 ), C 基礎知識概念 ), C 計算機硬件知識 ), 計算機軟件知識 ) 第二章 相關(guān)理論與技術(shù) 12 其中: 計算機基礎理論與方法 ) = 計算機編譯理論、離散數(shù)學、自動機理論、程序算法、系統(tǒng)結(jié)構(gòu) 基礎知識概念 ) = 設備安全、系統(tǒng)的軟硬備份、數(shù)據(jù)庫的安全操作、數(shù)據(jù)加密、計算機日常維護 計算機硬件知識 ) =處理器、存儲設備、輸入輸出設備 計算機軟件知識 ) =操作系統(tǒng)、應用系統(tǒng)、程序語言、算法設計 3)概念之間的關(guān)系 由于計算機概念比較多,為表示概念之間的關(guān)系,在計算機其他概念作為說明。 聯(lián)網(wǎng)), 構(gòu)化查詢語言), 件開發(fā), 需求分析 ), 網(wǎng)絡,局域網(wǎng)), 4)關(guān)系的屬 性 = = 同義領(lǐng)域 = 部分關(guān)系 5)概念層次結(jié)構(gòu) ( 6)推理規(guī)則或公理 推理規(guī)則是推理的基礎,假如用 )表示概 念 ,其中的取值為 0 用 示概念 關(guān)系( 屬性 如同義關(guān)系的相關(guān)度為 1,則表示 2, 1)。如 聯(lián)網(wǎng)) =1。 第二章 相關(guān)理論與技術(shù) 13 第四節(jié) 本章小節(jié) 本章為相關(guān)知識和技術(shù)介紹部分,研究了本體的概念、定義、應用領(lǐng)域、采用 的建模語言、描述語言以及本體的創(chuàng)建規(guī)則,這些知識為后面的本體的建立和系統(tǒng)的設計提供基礎。 第三章 計算機圖書本體庫建設 14 第三章 計算機圖書本體庫建設 第一節(jié) 計算機本體庫的構(gòu)建背景 本課題是研究基于本體語義的數(shù)字圖書館查詢系統(tǒng),本體庫的建設是課題研究的重要內(nèi)容,從前面的相關(guān)知識理論可以知道,本體庫是以專業(yè)領(lǐng)域中的知識概念為基礎實現(xiàn)語義上的知識庫的組織,課題本體庫是服務于數(shù)字圖書館數(shù)據(jù)檢索的,很顯然,目前數(shù)字圖書館數(shù)據(jù)庫中存儲的專業(yè)門類和領(lǐng)域復雜,知識分類比較龐雜,建設一個基于全部專業(yè)領(lǐng)域的本體庫是一件不可能完成的, 因此在課題的研 究過程中,以選取一個專業(yè)、學科的某一分支的知識為例進行本體庫的搭建是切實可行的。 基于論文的作者的專業(yè)知識,本論文以計算機類圖書為例,結(jié)合相關(guān)參考文獻,對現(xiàn)有的計算機類的主要概念進行提取、合并,構(gòu)建語義上的關(guān)系來實現(xiàn)計算機圖書本體庫。論文中本體庫的構(gòu)建的數(shù)據(jù)來源于作者所在高校的圖書館數(shù)據(jù)庫,在構(gòu)建過程中,作者參考了中國文獻編目規(guī)則 38和 計算機科學技術(shù)漢語敘詞表 39,對計算機專業(yè)概念的術(shù)語、詞匯進行規(guī)范化處理。 第二節(jié) 本體庫采用的語言和工具 論文本體庫構(gòu)建時采用的描述語言為 計的規(guī)范的基于專業(yè)領(lǐng)域的語言標準, 它能夠準確地表示出概念主題詞的含義及其之間的關(guān)系,能夠支持多種推理機,開發(fā)者可以通過其提供的程序二次開發(fā)編程接口實現(xiàn)對本體庫的操作。在課題研究中,我們通過運用 計算機的專業(yè)詞匯進行了準確的描述,并且設計了概念之間的關(guān)系。 本體庫構(gòu)建采用了斯坦福大學設計開發(fā)的 0,目前它已經(jīng)被廣泛使用,成為本體庫開發(fā)者的普通選用的工具,它支持 言,給創(chuàng)建者提供了本體的概念類、屬性、關(guān)系和實例的構(gòu)建,其構(gòu)建過程與具體的描述語言無關(guān)的。 第三章 計算機圖書本體庫建設 15 第三節(jié) 計 算機本體庫的構(gòu)建步驟 由第二章相關(guān)理論內(nèi)容可以知道,本體庫構(gòu)建過程一般分為七步法來完成,每個過程清晰明確,但在課題項目的設計時,發(fā)現(xiàn)其過程不是建立在工程實踐的基礎上的,為達到構(gòu)建本體庫的創(chuàng)建過程的流程化,使本體的設計、創(chuàng)建、維護工作減少工作量,實現(xiàn)其標準化,為此我們在課題研究時提出了一種借鑒計算機學科中軟件工程中的項目設計開發(fā)步驟來完成本體庫構(gòu)建的,這種方法是參考了傳統(tǒng)的七步法和軟件工程方法,具體步驟如圖 示。 圖 體庫構(gòu)建步驟 本體專業(yè)領(lǐng)域的確定 本體構(gòu)建規(guī)劃 本體信息的獲取 需求分析階段 列舉本體中的重要術(shù)語 定義類及其繼承關(guān)系 定義屬性和關(guān)系 設計階段 定義屬性的限制 定義實例 形式化編碼 本體的評價 第三章 計算機圖書本體庫建設 16 求分析階段 1)本體專業(yè)領(lǐng)域的確定 近年來隨著計算機應用的普及,計算機專業(yè)知識已經(jīng)成為一個應用范圍較廣的知識體系。論文建設的計算機領(lǐng)域本體是其中一個子集,由于計算機專業(yè)門類較為龐大,信息量大,不可能把全部的計算機知識點都考慮進去,并且本體庫需要更新維護的,需要一個更新維護、不斷完善的過程。本論文的本體庫構(gòu)建好之后,將提供給語義檢索的用戶,通過本體對輸入的關(guān)鍵詞進行語義擴展,提高查全率。 2)本體構(gòu)建規(guī)劃 本體構(gòu)建規(guī)劃分為三個階段: 第一階段:確定本體領(lǐng)域,收集專業(yè)領(lǐng)域內(nèi)的詞匯表。 第二階段 :對前一段收集的詞匯進行整理取舍,以概念的形式表示,在本階段詳細設計和形式化編碼,完成后需要進一步實施本體評價。 第三階段:屬于本體庫完善的過程,由本體庫維護人員根據(jù)學科的不斷發(fā)展,吸取新出現(xiàn)的專業(yè)詞匯,補充到本體概念中,并且刪除一些過時的概念。 3)本體信息的獲取 在本階段,以作者所在高校的圖書館的數(shù)據(jù)庫中計算機類圖書中的主題詞為基礎進行分析、歸類,結(jié)合計算機專業(yè)的漢語敘詞表,把這些概念合同整理后,得到本體信息的基礎數(shù)據(jù)。 計階段 1)列舉本體中重要的術(shù)語 由于計算機領(lǐng)域知識繁雜,分類較多, 本體的頂層結(jié)構(gòu)的劃分是個比較復雜的問題,作者根據(jù)計算機學科的框架結(jié)構(gòu),把計算機本體的頂層結(jié)構(gòu)劃分為四部分:計算機基礎理論與方法、基礎知識概念、計算機硬件知識以及計算機軟件知識。其結(jié)構(gòu)圖 示。 計算機基礎理論與方法是針對有關(guān)計算機理論方面的概念的集合,一般集中在計算理論、組合數(shù)學、算法等相關(guān)課程。 基礎知識問題一般包括計算機方面的日常維護知識,具體包括計算機設計方面的工藝、日常維護和檢修方面的知識。計算硬件知識主要針對計算機體系結(jié)構(gòu)、計算機組成原理課程涉及的相關(guān)概念。具體性能計算、體系結(jié)構(gòu)、硬件第三章 計算機圖書本體庫建設 17 結(jié)構(gòu)等。 計算機軟件知識主要從軟件工程、操作系統(tǒng)、程序設計等課程組合的相關(guān)知識等。 圖 算機本體庫概念結(jié)構(gòu) 以上分類是作者在自己的計算機知識結(jié)構(gòu)的基礎上,再通過征求老師意見形成的框架結(jié)構(gòu),基本涵蓋了計算機領(lǐng)域的知識,以上框架的分類不是唯一的,在本課題研究中,采用了以上框架結(jié)構(gòu)設計了計算機本體庫。 ( 1)計算機理論與方法概念 本論文本體庫劃定的計算機理論與方法概念主要面向一些計算機學科的基礎理論,包括計算機編譯理論、離散數(shù)學、自動機理論、程序算法、系統(tǒng)結(jié)構(gòu)等。 ( 2)基礎知識概念 本論文本體庫劃定的基礎知識 概念主要指一些有關(guān)計算機硬件工藝設計、制造、硬件檢測和故障排查等方面的概念。具體包括計算機的設備安全、系統(tǒng)的軟硬備份、數(shù)據(jù)庫的安全操作、數(shù)據(jù)的加密和計算機日常維護等知識。 第三章 計算機圖書本體庫建設 18 ( 3)計算硬件知識概念 本論文本體庫劃定的計算硬件知識概念主要硬件數(shù)字電路、邏輯電路等方面的知識;具體包括計算機基礎組成的處理器、存儲設備、輸入輸出設備等方面的概念知識;還包括有關(guān)網(wǎng)絡的硬件資源,如 域網(wǎng)、城域網(wǎng)、局域網(wǎng)絡等方面的網(wǎng)絡設備知識概念,如網(wǎng)卡、集線器、路由器等。 ( 4)計算軟件知識概念 本論文本體庫劃定的計算 軟件知識概念主要包括操作系統(tǒng)、應用系統(tǒng)、程序語言、算法設計等,另外還包括計算機網(wǎng)絡的軟件資源,如網(wǎng)絡的操作系統(tǒng)、網(wǎng)絡協(xié)議、網(wǎng)絡算法等。 2)定義類及其繼承關(guān)系 本體中的類的繼承結(jié)構(gòu)可采用自頂向下或自底向上的方法,從層次結(jié)構(gòu)模式中可采用自頂向下的方法,先建立頂層開涮,然后逐步添加其下屬子概念,最終完成所有子類的定義,例如“計算機軟件知識”概念中的“程序設計”、“操作系統(tǒng)”、“應用軟件”等這些概念形成了“ 系,可把其作為“計算機軟件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論