



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、本文以構(gòu)建醫(yī)學(xué)文獻(xiàn)領(lǐng)域本體模型為例,闡述了構(gòu)建醫(yī)學(xué)情報領(lǐng)域本體的基本方法、流程框 架和使用工具,并對本體構(gòu)建過程存在的幾個關(guān)鍵問題進(jìn)行了分析,為醫(yī)學(xué)情報領(lǐng)域本體的 建設(shè)進(jìn)行了可借鑒的嘗試。本體(ontology)源于哲學(xué)范疇,指的是客觀存在的一個系統(tǒng)的解釋和說明。1993年Gruber 為本體下了這樣的定義,即“本體是概念模型的明確的規(guī)范說明后來Studer等對前人的 定義進(jìn)行深入研究后給出了另一個定義:“本體是共享概念模型的明確形式化規(guī)范說明”。 雖然諸多學(xué)者對本體概念的定義描述到目前為止還沒有達(dá)成共識,但是這些概念都包涵了本 體的四個共性特征,即:概念化、明確、形式化和共享?!案拍罨敝傅?/p>
2、是通過抽象出客觀 世界中一些現(xiàn)象的相關(guān)概念而得到概述模型;“明確”指所使用的概念及使用這些概念的約 束都有明確的定義;“形式化”指本體是計算機可讀的(即能被計算機處理的);“共享”指 本體中體現(xiàn)的是共同的認(rèn)可和知識,反映的是相關(guān)領(lǐng)域中公認(rèn)的概念集,即本體針對的是社 會范疇而非個體之間的共識。同時,N.Guarino提出將本體劃分為頂級本體(top-level ontology)、領(lǐng)域本體(domain ontology )、任務(wù)本體(task ontology)和應(yīng)用本體(application ontology )。領(lǐng)域本體是指描述 特定領(lǐng)域中的概念以及概念之間的關(guān)系,是用于描述指定領(lǐng)域知識
3、的一種專門本體。它給出 了領(lǐng)域?qū)嶓w概念及其相互關(guān)系,是領(lǐng)域話動以及該領(lǐng)域所具有特性和規(guī)律的一種形式化描述。一個領(lǐng)域本體包括一套關(guān)于某一領(lǐng)域概念的規(guī)范而清晰的描 述,稱為類(classes)或概念(Concepts);描述了有關(guān)概念的各種特征的屬性(properties)和屬性 插件(slots),還包括屬性插件的限制條件(restrictions)和分面(facets),以及一系列與某個類相 關(guān)的實例(這些實例組成了一個知識庫)。類是本體的核心,它描述了某一領(lǐng)域的概念。屬性 插件描述了類的屬性和實例。目前,本體模型的研究已經(jīng)進(jìn)入了一個新階段,許多研究領(lǐng)域 都在建立自己標(biāo)準(zhǔn)的本體。1學(xué)科領(lǐng)域常用
4、本體構(gòu)建方法和建設(shè)工具1.1學(xué)科領(lǐng)域常用本體的構(gòu)建方法由于本體工程到目前為止仍處于探索階段,領(lǐng)域本體的 建設(shè)還處于探索期,構(gòu)建過程中存在著很多問題。中科院的李景博士在本體理論及在農(nóng)業(yè) 文獻(xiàn)檢索系統(tǒng)中的應(yīng)用研究-以花卉學(xué)本體建模為例中對目前常見的7種本體構(gòu)建方法的 成熟性進(jìn)行了排序,即七步法、METHONTOLOGY法 IDEFS TOVE法 骨架法 SENSUS法、KACTUS法。本文大部分過程借鑒了七步法的思路和流程。1.2學(xué)科領(lǐng)域本體常用建設(shè)工具到目前為止,已經(jīng)出現(xiàn)了許多本體建設(shè)工具。根據(jù)這些工 具所支持的本體描述語言,大致可以分為2類。第1類包括Ontolingua,OntoSaurus
5、,WebOnto 等。這3個工具的共同點是,都基于某種特定的語言,并在一定程度上支持多種基于AI的 本體描述語。第2類包括Protege系列、WebODE、OntoEdit、Oi1Ed等。這些工具最大的 特點是獨立于特定的語言,可以導(dǎo)入/導(dǎo)出多種基于Web的本體描述語言格式(如XML、 RDF(S)、DAML+OIL等)。它們都是基于組件的結(jié)構(gòu),很容易通過添加新的模塊來提供更多 的功能,具有良好的可擴(kuò)展性。本文之所以選擇Protege作為構(gòu)建工具,是因為Protege與其他本體創(chuàng)建工具相比,有很多 其獨特的優(yōu)勢:Protege作為開源工具,目前擁有最多注冊用戶;不斷有新的版本推出; 可擴(kuò)展性好
6、;以多種方式存儲本體、互操作性強;圖形化的用戶界面,簡單友好; 支持DAML+OIL,OWL,RDF,RDFS等本體表示語言。正是這些優(yōu)點,使得Protege成 為各種領(lǐng)域本體構(gòu)建的首選工具。2.1醫(yī)學(xué)文獻(xiàn)領(lǐng)域本體的構(gòu)建規(guī)劃在真正開始構(gòu)建領(lǐng)域本體之前,要首先明確需求分析和 計劃制定階段主要幾個問題:在哪個領(lǐng)域構(gòu)建本體?在醫(yī)學(xué)文獻(xiàn)領(lǐng)域,主要側(cè)重圖書情報界 對醫(yī)學(xué)文獻(xiàn)的分類和處理。構(gòu)建本體的目的什么?從概念之間關(guān)聯(lián)的角度,深層次地揭示 領(lǐng)域的信息,實現(xiàn)該領(lǐng)域文獻(xiàn)集的基于知識結(jié)構(gòu)的導(dǎo)航。選擇什么樣的本體描述語言?采 用OWL描述該領(lǐng)域本體,標(biāo)注XML文檔。選擇什么樣的構(gòu)建工具?本體的構(gòu)建工具選擇 P
7、rotege作為本體創(chuàng)建工具。2.2醫(yī)學(xué)文獻(xiàn)領(lǐng)域本體的構(gòu)建過程2.2.1列出醫(yī)學(xué)文獻(xiàn)領(lǐng)域本體中的重要概念根據(jù)分類法、中圖法和我國數(shù)字圖書館標(biāo)準(zhǔn)與規(guī)范建設(shè)項目(CDLS)的相關(guān)標(biāo)準(zhǔn),并且在請教解放軍醫(yī)學(xué)圖書館相關(guān)館員的基礎(chǔ)上, 確定了與“醫(yī)學(xué)文獻(xiàn)”最為相關(guān)的11個子概念,即:圖書、期刊、期刊論文、會議論文、 學(xué)位論文、科技成果、科技報告、專利文獻(xiàn)、標(biāo)準(zhǔn)、政府出版物、網(wǎng)絡(luò)資源。2.2.2確定類及其類之間的等級關(guān)系 上一步提取出來的“醫(yī)學(xué)文獻(xiàn)”的11個密切相關(guān)的子 概念,可以直接作為“醫(yī)學(xué)文獻(xiàn)”這個本體的頂層根類的11個子類,即醫(yī)學(xué)文獻(xiàn)為該本體 的頂層類,在其下根據(jù)文獻(xiàn)類型具體劃分為圖書、期刊等共1
8、1個子類。該本體的類和層次 關(guān)系的定義如圖1所示。安排好本體的類層次結(jié)構(gòu)之后,在Protege中創(chuàng)建類、子類非常方便明了。圖2是醫(yī)學(xué)文獻(xiàn) 類及其子類在Protege編輯器中的界面圖:圖2醫(yī)學(xué)文獻(xiàn)本體類定義界面圖2.2.3定義類的屬性及其子屬性屬性在類中是很重要的一個部分,它將一個概念與其他概 念和對象聯(lián)系起來,起到一定的知識聯(lián)通的作用。本文參照DC元數(shù)據(jù)的相關(guān)標(biāo)準(zhǔn)和借鑒了 CDLS的有關(guān)規(guī)范,對“醫(yī)學(xué)文獻(xiàn)”類及其下11 個子類,分別設(shè)置了如下主要屬性:醫(yī)學(xué)文獻(xiàn)的15個主要屬性 題名(Title)、創(chuàng)建者(Creator) 日期(Date)、主題(Subject)、出版者(Publisher)
9、類型(Type)、描述(Description)、 其他責(zé)任者(Contributo r)、格式(Format)、來源(Source)、權(quán)限(Rights)、標(biāo)識符(Identifier)、 語種(Language)、關(guān)聯(lián)(Relation)覆蓋范圍(Coverage)。根據(jù)DC元數(shù)據(jù)的相關(guān)規(guī)范,筆者 對于描述、日期、格式、關(guān)聯(lián)和覆蓋范圍5個屬性設(shè)置了相關(guān)的子屬性,具體如下:說明 (Description)屬性的子屬性:目 次(table of Contents)、摘要(abstract);日期(Date)屬性的 子屬性:創(chuàng)建日期(created)、生效日期(valid)、可獲得日期(avai
10、lable)、發(fā)行日期(issued)、修 改日期(modified)接受日期(date Accepted)、賦予版權(quán)日期(date Copyrighted)、提交日期(date Submitted);格式(Format)屬性的子屬性:范圍(extend)、媒體(medium);關(guān)聯(lián)(Relation)屬性 的子屬性:版本繼承(is Version of)、版本關(guān)聯(lián)(hasVersion)、被替代(isReplacedBy)、替代 (replaces)、被需求(isRcquircdBy)、需求(r equires)、組成(isPartOf)、部分為(hasPart)、被參照 (isRefere
11、ncedBy)、參照(references)、格式轉(zhuǎn)換于(isFormatOf)、格式轉(zhuǎn)換為(hasFormat)、遵循 (conformsTo);覆蓋范圍(Coverage屬性的子屬性:空間范圍(spatial)、時間范圍(temporal)。 根據(jù)Protege中類繼承性,“醫(yī)學(xué)文獻(xiàn)”的11個子類,自動繼承了 “醫(yī)學(xué)文獻(xiàn)”根類的 全部屬性,由于11個子類中某些文獻(xiàn)的特殊性,筆者也對應(yīng)增加了相應(yīng)屬性,比如,為“會 議論文”子類增加了 “會議”屬性,包括“會議論文集名稱、“會議日期”、“會議地點”和 “會議名稱”等子屬性;“標(biāo)準(zhǔn)”子類從“醫(yī)學(xué)文獻(xiàn)”根類繼承到的“其他責(zé)任者”屬性下 增加了 “批
12、準(zhǔn)機構(gòu)”子屬性,等等。圖3給出了 Protege工具編輯“醫(yī)學(xué)文獻(xiàn)”本體的界面。圖3 醫(yī)學(xué)文獻(xiàn)本體屬性及其分面定義界面圖2.2.4定義屬性的分面每一篇醫(yī)學(xué)文獻(xiàn)對應(yīng)文獻(xiàn)類型下的一個實例,其屬性值就是該文獻(xiàn)相應(yīng)的著錄和標(biāo)引項。利用“關(guān)聯(lián)”屬性還可以實現(xiàn)不同文獻(xiàn)之間的連接,例如某一“期刊 論文”實例可以“部分為(has Part)”某一 “期刊”實例;不同版本的圖書也可以通過“版本 繼承(is Version of)屬性來關(guān)聯(lián)。相對應(yīng)地,在Protege中,可以創(chuàng)建多種類型的屬性,包 括data type屬性、object屬性、annotation屬性,上述屬性又可以定義其Sub property屬
13、性。 根據(jù)屬性類別不同,對屬性的分面也不同,如“摘要”屬性,為object屬性,其所屬領(lǐng)域 (Domains)為“說明”,范圍(Range)為醫(yī)學(xué)文獻(xiàn)類中的某個類。annotation屬性必須要么是一 個數(shù)據(jù)字符串 (data11teral)或一個 URI 引用(URLreferenee),要么是一個 individual。 rdfs:comment來規(guī)定屬性的顯示名稱和解釋屬性的含義。2.2.5創(chuàng)建實例 根據(jù)前面建好的類、屬性及其允許值,可在Individuals editor中添加具體 實例。創(chuàng)建實例時,首先輸入實例名稱,之后輸入實例所屬類定義的各個屬性值(圖4)。3醫(yī)學(xué)文獻(xiàn)本體構(gòu)建過程中
14、的幾個關(guān)鍵問題3.1本體關(guān)鍵概念抽取 目前來講,學(xué)科領(lǐng)域本體構(gòu)建時用到的核心概念的獲取有兩種方 式:通過知識挖掘技術(shù)從現(xiàn)有的學(xué)科數(shù)據(jù)庫中提取專業(yè)術(shù)語;將傳統(tǒng)的知識組織體系如 分類法和主題詞表轉(zhuǎn)換改造為初始核心本體。正是因為概念系統(tǒng)是領(lǐng)域本體的基礎(chǔ),而分 類法/主題詞表也是分類概念和主題概念及關(guān)系的集合,其基本功能和領(lǐng)域本體具有一致性。 通過對“醫(yī)學(xué)文獻(xiàn)”本體的實際構(gòu)建,將傳統(tǒng)分類法/主題詞表中的分類概念和主題概念進(jìn) 行適當(dāng)改造,是獲得學(xué)科領(lǐng)域本體初始核心概念集的科學(xué)方法。3.2建立概念關(guān)聯(lián)通過本次實踐,構(gòu)建本體最難的是在其語義關(guān)系的定義上。它要求要 充分考慮各概念之間除了等級關(guān)系以外的,更多的
15、考慮概念之間的邏輯關(guān)系,包括其定義域、 值域、必要條件,充要條件等,這一點與面向?qū)ο缶幊逃行╊愃?。但由WL有限的建模 原語,所以必須仔細(xì)閱讀、認(rèn)真領(lǐng)會每個建模原語所能表達(dá)的邏輯含義。3.3 OWL的表達(dá)問題 OWL的表達(dá)能力OWL具有對屬性的取值范圍(all Values From, some Values From)以及取值個數(shù)(has Cardinality, min Cardinality, max Cardinality的 限制,而對取值 的限制不夠。目前OWL對屬性的取值限制只有一個hasValue,即某一屬性的值等于hasValue 所給出的值,而不能表達(dá)大于、大于等于、小于或小于等于。此外,與傳統(tǒng)分類法不同, OWL子類會繼承父類的所有屬性,在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45222-2025食品安全事故應(yīng)急演練要求
- 上下鋪銷售合同范本
- 臨汾購房合同范本
- 2025年寧夏貨運從業(yè)資格證模擬考
- 勞務(wù)派人員合同范本
- 代理經(jīng)紀(jì)服務(wù)合同范本
- 農(nóng)村水電改造施工合同范本
- 修房勞動安全合同范本
- 醬菜批發(fā)合同范本
- 包租協(xié)議合同范例
- 2025年春新人教版歷史七年級下冊全冊課件
- 活在課堂里 課件
- 教科版五年級下冊科學(xué)同步練習(xí)全冊
- 汶川地震波時程記錄(臥龍3向)
- 五金英語詞匯盤點
- 內(nèi)容講義說明案例nxt pop trainning
- GB-T-15894-2008-化學(xué)試劑-石油醚
- 工業(yè)自動化設(shè)備項目用地申請報告(模板)
- 作息時間調(diào)整告家長書
- 2021年羽毛球比賽規(guī)則及裁判手勢
- 標(biāo)準(zhǔn)色卡(建筑類)下載
評論
0/150
提交評論