基于本體驅動的法律信息檢索模型

上傳人：活*** IP屬地：寧夏上傳時間：2021-10-29 格式：DOC 頁數：3 大小：993.50KB 積分：8.4 舉報 版權申訴

全文預覽已結束

 下載本文檔

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、文章編號:1008- 0570(2007)10- 3- 0178- 03基于本體驅動的法律信息檢索模型a model for ontology- driven legal information retrieval(上海水產大學)鐘振鴻印潤遠于慶梅zhong zhenhong yin runyuan yu qingmei摘要: 本文提出了基于本體驅動的法律信息檢索模型 , 以解決當前 web 信息檢索中存在的問題。本文運用到了數據挖掘中的關聯規(guī) 則 , 并借鑒“七步法 ”來構建信息

2、檢索模型 , 構建步驟包括文檔預處理、構建領域本體、過濾、構造人機接口等。向用戶提供基于法律本體的概念查詢、語義擴充查詢、分類瀏覽等檢索手段。該模型能夠改善用戶查準率和查全率 , 實現對該領域資源的智能化檢索。關鍵詞: 本體; 律信息; 檢索; 關聯規(guī)則; 數據挖掘中圖分類號:tp182, g350.7文獻標識碼:aabstr act:in this paper , a model for ontology- driv

3、en legal information retrieval (lir)is designed to solve the problem existing in thecurrent time. a kind of mining association rules is used in this model. and the information retrieval model refers to " seven steps" as well. the steps includes how to deal with the document pretreatment, h

4、ow to build the domain ontology, how to filters and how to construct man - machine interface and so on. concept query, expanded semantic query and sort query are provided based on legal ontology. we are sure that the model can greatly improve the precision and the recall, and achieve the goal of int

5、elligent retrieval in this domain as well.key wor ds:ontology,legal infor mation,r etr ieval,mining association r ules,data mining在我國 , 隨著人民對法律意識的不斷增強 , 對法律問題的查詢也不再成為專業(yè)人士的專利, 利用現有檢索工具來查詢相關的法律信息 , 得到的結果往往有一大堆的信息垃圾。根據 iprospect 在 2004 年 4 月間發(fā)布的搜索引擎用戶使用習慣調查報告表顯示 :81.7%

6、的用戶不會瀏覽三頁之后搜索結果 , 而52.2%的用戶只會關注搜索引擎返回的第一頁搜索結果。也就是說, 通常用戶只關心搜索引擎返回的排在前列相關度較高的頁面。如果占在前面的都是些垃圾信息, 那么用戶將“永遠”找不到自己想要的東西。因此筆者借鑒本體論的基本思想, 提出了一種基于本體論和 kong 的 “ 骨架法 ”, gruninger 和 fox 的 “ 評估法 ”( 又稱tove), kactus 方法, methontology 方法, sensus 方法和七步法。其中“七步法”是由斯坦福大學醫(yī)學院開發(fā), 主要用于領域本體的構建。本文將借鑒“

7、七步法”來構建基于本體的法律信息檢索模型?；诒倔w的法律信息檢索的一般模型2.2法律信息檢索方法的優(yōu) 劣一般采用查全率和查準率兩個概念來衡量。查全率用以衡量搜索到的法律信息的多少, 而查準率用以表示搜索到的法律信息的準確度, 即是否是期望所搜索的法律信息。目前比較流行的是基于網站分類技術和全文檢索技術, 這兩者都不能很好地滿足查全率和查準率的要求。雖然網站分類技術為法律網絡信息導航帶來了較大的方便, 但是其網站描述信息相對簡單, 不能滿足查全率的要求;而基于全文檢索技術雖然能夠解決對網頁細節(jié)的檢索問題。但這又導致搜索的信息太多, 因此查準率很低

8、。而本體具有良好的概念層次結構和對邏輯推理的支持, 一方面, 用戶的信息需求需要通過共享本體轉化為計算機可理解的查詢表達。通過共享本體中概念與概念之間的關系擴展查詢表達, 可以有效的提高查全率。另一方面, 被檢信息資源需要通過同樣的本體進行標引, 信息資源的表達包括邏輯判斷等, 使信息表達成為本體結構中的一部分。在基于本體的信息檢索過程中 , 查詢表達與信息資源之間進行相應的匹配 , 這一過程能夠按照查詢的表達形式和邏輯理解方式來實現, 這就大大提高了查準率。2.3 構建基于本體的法律信息檢索模型構建基于本體的法律信息檢索模型的主要步驟如下: (1

9、)建立領域本體的法律信息檢索方法 ,它通過對分類目錄的進一步智能化處理, 更好的滿足用戶的查詢需求。本體的概念1本體(ontology)的概念起源于哲學領域, 本體論概念在引入人工智能領域后, 被賦予了更為具體的意義。最著名并被引用得最為廣泛的定義是由 gruber 提出的,“本體是概念化的明確的規(guī)范說明”。本體是領域內重要實體、屬性、過程及其相互關系形式化描述的基礎。這種形式化描述可成為軟件系統中可重用和共享的組件?？偟膩碚f, 構造本體的目的都是為了實現某種程度的知識共享和重用?；诒倔w驅動的法律信息檢索22.1

10、基于本體的檢索方法目前, 基于本體的檢索構建方法大致有如下幾種:uschold鐘振鴻: 碩士研究生法律領域本體 , 是法律專業(yè) 性的本體 , 提供了法律學科領 web 資源 uri。域中概念的詞表以及概念間的關系, 或在該領域里占主導地位 (4)過濾的理論。構建法律領域本體, 可以解決在用戶或軟件代理間達在本體的幫助下 , 我們可以很好地學習用戶的興趣 , 若要成對于法律信息組織結構的共同理解和認識, 為基于知識的法通過用戶的個性化偏好對結果進行過濾, 就要求我們對用戶的律信息檢索提供基礎。 (興趣)提問進行規(guī)范化。模型中基本上構

11、建了法律本體由 29 個類組成, 如:憲法類、一般用戶的提問很模糊, 事實上大多用戶會使用自己日常經濟法類、刑法類、民法類等, 每個類下包含若干子類。系統本使用的詞匯、語句進行查詢, 其輸入的關鍵詞可能是本體中類、體的元語基本分為三種:一是法律實體概念, 如搶劫、販賣毒品、屬性、個體中任何一個。因此我們要通過“過濾”來規(guī)范用戶的放火、爆炸等;二是能體現法律實體間關系的概念 , 如預備、未查詢。當人機接口遞交提問(關鍵詞)后,“過濾”首先訪問領域本遂、中止、剝奪、豁免、撤消等;三是一些輔助性的助詞、限定詞、體庫判定哪些關鍵詞是本體庫中包含的

12、類、屬性、個體, 對用戶連詞、代詞等, 這類詞同樣也包含一定的語義信息 , 如共同 , 間提問概念進行規(guī)范化。歇性、完全喪失等。由于領域本體以四元組的方式存儲于本體庫中, 因此規(guī)范與本體相匹配的還有一個基本術語的詞典參考美費化實質上就是判斷輸入概念哪些屬于四元組的 c、a、r、w。判曼著牛津法律術語小典, 其涵蓋了本體中的所有概念, 并且斷結果一般有三種情況:所有關鍵詞都包含于領域本體庫;部分包括每個概念的不同詞形, 如- s, - ed, - ing 等。法律本體同時也關鍵詞包含于領域本體庫;沒有關鍵詞包含于領域本體庫。判斷作為用戶接口, 可以供用戶選擇

13、查看。其基本領域本體局部示過程如下:意圖如圖 2 所示。假設輸入關鍵詞的集合為 t, 當 t時: t , t 中的概念為 c 的存入集合 xc t- xc , c- xc 中的概念為 a 的存入集合 xa t- xc - xa , t- xc - xa 中的概念為 r 的存人集合 xr t- xc - xa - xr 時 , t- xc - xa - xr 中的概念為 w存入集合 xw。 t- xc - xa - xr - xw 時, t- xc - xa - xr - xw 中的圖 2 領域本體局部示意圖概念存入集合 u。由此可見, 本體在表現概念之間關系上有著明顯的優(yōu)勢。

14、經過判斷后, 用戶遞交概念被劃分為五個概念集 xc 、xa、(2)收集信息源中的數據 xr 、xw、u。其中集合 u 中的概念不屬于本體庫, 因此當 u參照已建立的本體把收集來的數據按規(guī) 定格式存儲在元時 , 采用改進的正向最大匹配法與本體庫的類、屬性、個體匹數據庫(如關系數據庫、知識數據庫等)中。使用 xml 描述語言配, 對此概念規(guī)范化進行處理, 向用戶提供相近的本體概念, 供來表示本體, 數據保存在知識數據庫中。用戶選擇。標引過程。從 pdf、doc、html 中導出相關的摘要、題最后,“過濾”后的

15、系統將提供四個概念集 xc 、xa、xr 、xw。名、全文信息或關鍵詞的純文本數據, 根據本體用 xml 對其進 (5)人機接口設計行注釋。再將提取出的作者、年份、參考文獻, 以及文章鏈接等對用戶檢索界面獲取的查詢請求,“過濾”按照本體把查詢信息共同存入數據庫中, 形成關鍵詞和本體類別標引文件, 供請求轉換成規(guī)定的格式。檢索使用, 其中的關鍵步驟為本體注釋。使用關聯規(guī)則庫中的規(guī)則, 可實現對本體的語義擴展, 充本體注釋。利用本體對語料庫中的文檔題名、摘要及全分挖掘概念之間潛在的關系, 因此該模型在關聯規(guī)則庫的幫助文中的每個詞和關鍵詞進行標注, 生成 xml 文件。系統對本體下從

16、本體數據庫中匹配出符合條件的數據集合, 然后返回給用的注釋分兩步進行: 戶。其基本框架圖如圖 3 所示。a.標注每個詞, 計算機先從詞典中找出其原形形式, 再從系統本體中找出其對應的概念, 然后利用本體對應概念用 xml語言進行標注。對于沒有語義信息的詞, 即在本體中沒有對應概念的詞, 用<text>標注。b.標注句子, 將標注的詞組成句子。(3)數據存儲由于文件是基于 xml 語法對本體進行序列化表示 , 而 xml 具有跨平臺的特性, 這樣表示的領域本體可以在多個用戶及大范圍團體內實現共享和重用, 但是當本體的規(guī)模增大時, 文件形式

17、的本體處理效率較低。所以本文結合當前本體開發(fā)和應用的主流技術, 利用 jena 平臺向用戶提供的 rdf、api、owl圖 3 基于本體的法律信息檢索模型基本框架api 實現對本體的結構化存儲, 并以四元組方式將領域本體存其中使用的匹配算法為查詢擴展算法。儲于關系數據庫 mysql, 記作 o=<c, a, r, w >。其中, c 是概念查詢擴展的基本思想為:集, 表示領域本體包含的概念;a 表示屬性集 , 主要用來表現概 q(xc 、xa、xr 、xw);/查詢子串念自身的特征;r 是關系 , 指領域中概念間的交互作用;w 為

18、 s=getsubset(q); /按項數遞增的方式.依次生成 q 的子集軟件時空郵局訂閱號: 82-946 360 元 / 年 - 179 - p lc 技術應用 200 例您的論文得到兩院院士關注參考文獻1楊廣翔，俞寧，諶莉.搜索引擎結果的重排序方法 2鄧志鴻，唐世渭. ontology 研究綜述.北京大學學報(自然科學版)2002(7).38,53thomas r.gruber. toward principles for the design of ontolo- gies used for knowledge sharing. august 23, 19

19、93.4w.n.borst. construction of engineering ontologies for knowl-edge sharing and reuse. phd thesis, university of twente, en- schede, 1997.5 吳丹. 本體在信息檢索中的作用及實例研究 a. 情報雜志2006.6:7275 6李景.構建領域本體的方法體系比較研究j.現代圖書情報技術.2004(7):1722.7趙秀芳.基于本體的農業(yè)信息檢索. journal of anhui agri. sci.2006 34(10):230323048郭輝，蘇中義，王文

20、.一種改進的 mm 分詞算法j微型電腦應用.2o02 18(1):1315.9譚義紅，李學勇，陳治平.關聯規(guī)則挖掘在 web 信息檢索中的應用a.軟件技術與數據庫. vol.32 no.9，2006 年 5 月:5761. 10肖燕華，邵世煌.一種基于本體論的 internet 信息個性化檢索系統的 agent 實現模型. j微計算機信息 2003,19- 6:77- 78.作者簡介: 鐘振鴻(1982.2- ), 漢, 女, 浙江, 上海水產大學碩士研究生, 研究方向:網絡技術應用及網絡安全;印潤遠, 男, 上海市, 教授, 碩士生導師;于慶梅, 女, 上海市, 博士, 副教授, 碩

21、士生導師。 biogr aphy:zhong zhenhong (1982 - ),female, zhejiang, master,shanghai fisheries university, application of network technologyfor all s 的子集 do從本體庫中表取得該詞語的所有子層詞語按信任度大小排序。取前 r 個相關詞語, 寫入 rs(sk)if rs(sk)為空從關聯庫中相關關系表取得該詞語的所有相干詞語, 按信任度大小排序, 取前 r 個相關詞語, 寫入 rs(sk)rs(s)=rs(sk), 將 rs(sk)集合中所有相關項

22、按權值大小進行排序, 存入 rs(s)q =q rs(s)/q 為查詢串 q 與擴展串 rs(s)合并后得到的集合2.4 模型主要功能基于本體的法律信息檢索模型包括本體的概念查詢、語義擴充查詢、分類瀏覽等。其檢索功能提供用戶指定類、子類的組合, 布爾邏輯檢索,指定關鍵詞在文中出現的頻率, 選擇查找題名、摘要或正文。用戶還可以選擇其查詢表達是與文檔全文還是句子匹配, 按照全文、摘要、題名、作者、年份等項查詢。仿真實驗與評價3試驗測試集是 100 篇經過專家評定的法律方面的文章, 分成 6 類, 分別檢索文摘和全文。試驗結果顯示, 文摘的查全率是75.2%

23、 , 查準率是 83.4% ; 全文的查全率是 93.8% , 查準率是79.8%。經分析, 本體構建的質量直接關系檢索的效率。一般錯檢的句子, 70%是由于檢索用的關鍵詞缺乏語境造成的。因此, 我們應該明確 , 現在的本體匹配還處在初級階段, 從某種程度上來說, 一對一的匹配本身是不盡合理的。重要的是在研究本體匹配的過程中能發(fā) 現更多有價值的理論和方法使之用于其領域檢索。and research for network security,yin runyuan ,male,shanghai, profe

24、ssor, teacher for master,yu qingmei, female,shanghai, ph.d., associate professor, teacher for master.上海上海水產大學信息學院)鐘振鴻印潤遠(200090于慶梅總結4(college of infor mation , shanghai fisher ies univer sity,shanghai 200090, china) zhong zhenhong yin runyuanyu qingmei通訊地址:(200135 上海市浦東新區(qū)棲山路 1489 弄 15 號 401)鐘振鴻(收稿日

25、期:2007.7.03)(修稿日期:2007.9.05) 本體是對概念化的明確描述, 是當前人工智能、計算機交叉領域的研究熱點。大量國內外專家的實驗證明, 基于本體的信息檢索技術能形成較好的語義理解, 能有效地提高信息檢索的效率, 是一種值得研究的方法。作為知識表示的一種方式, 本體在概念語義的表達上涵蓋語義檢索, 但是本體的構建卻是該研究領域的瓶頸 , 一方面很難形成大規(guī)模通用本體, 另一方面本體構建現在很多是人工進行, 工作巨大。因此在深入研究基于本體的領域信息檢索時, 需要結合機器學習技術, 發(fā)展本體自動獲取工具。本文作者創(chuàng)新點:現在本體論是一個新型的研究課題, 其本身的構建方式就不同于以往的信息檢索, 具有良好的概念層次結構和對邏輯推理的支持。本文以本體論作為驅動, 在專門的領域, 即法律信息檢索方面著手, 提出這樣一種檢索方法, 還是很新穎的。其次 , 本文結合當前本體開發(fā)和應用的主流技術 , 引用并改進了領域本體的存儲方式 ,

人人文庫> 全部分類> 行業(yè)資料 > 農林牧漁

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于本體驅動的法律信息檢索模型

文檔簡介

溫馨提示

最新文檔

評論

基于本體驅動的法律信息檢索模型

文檔簡介

溫馨提示

最新文檔

評論

相關文檔