基于本體驅動的法律信息檢索模型_第1頁
基于本體驅動的法律信息檢索模型_第2頁
基于本體驅動的法律信息檢索模型_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、文章編號:1008- 0570(2007)10- 3- 0178- 03基于本體驅動的法律信息檢索模型a model for ontology- driven legal information retrieval(上海水產大學)鐘振鴻印潤遠 于慶梅zhong zhenhong yin runyuan yu qingmei摘要: 本 文 提 出 了 基 于 本 體 驅 動 的 法 律 信 息 檢 索 模 型 , 以 解 決 當 前 web 信 息 檢 索 中 存 在 的 問 題 。 本 文 運 用 到 了 數 據 挖 掘 中的 關 聯 規(guī) 則 , 并 借 鑒“七 步 法 ”來 構 建 信 息

2、檢 索 模 型 , 構 建 步 驟 包 括 文 檔 預 處 理 、構 建 領 域 本 體 、過 濾 、構 造 人 機 接 口 等 。向 用 戶 提 供 基 于 法 律 本 體 的 概 念 查 詢 、語 義 擴 充 查 詢 、分 類 瀏 覽 等 檢 索 手 段 。該 模 型 能 夠 改 善 用 戶 查 準 率 和 查 全 率 , 實 現 對 該 領 域 資 源 的 智 能 化 檢 索 。關鍵詞: 本體; 律信息; 檢索; 關聯規(guī)則; 數據挖掘中圖分類號:tp182, g350.7文獻標識碼:aabstr act:in this paper , a model for ontology- driv

3、en legal information retrieval (lir)is designed to solve the problem existing in thecurrent time. a kind of mining association rules is used in this model. and the information retrieval model refers to " seven steps" as well. the steps includes how to deal with the document pretreatment, h

4、ow to build the domain ontology, how to filters and how to construct man - machine interface and so on. concept query, expanded semantic query and sort query are provided based on legal ontology. we are sure that the model can greatly improve the precision and the recall, and achieve the goal of int

5、elligent retrieval in this domain as well.key wor ds:ontology,legal infor mation,r etr ieval,mining association r ules,data mining在我 國 , 隨著 人 民 對法 律 意 識的 不 斷 增強 , 對 法 律問 題 的查詢也不再成為專業(yè)人士的專利, 利用現有檢索工具來查詢相 關的法律 信 息 , 得到 的 結 果往 往 有 一大 堆 的 信息 垃 圾 。根據 iprospect 在 2004 年 4 月間發(fā)布的搜索引擎用戶使用習慣調查 報 告 表 顯 示 :81.7%

6、 的 用 戶 不 會 瀏 覽 三 頁 之 后 搜 索 結 果 , 而52.2%的用戶只會關注搜索引擎返回的第一頁搜索結果。也就 是說, 通常用戶只關心搜索引擎返回的排在前列相關度較高的頁面。如果占在前面的都是些垃圾信息, 那么用戶將“永遠”找 不到自己想要的東西。因此筆者借鑒本體論的基本思想, 提出了一種基于本體論和 kong 的 “ 骨 架 法 ”, gruninger 和 fox 的 “ 評 估 法 ”( 又 稱tove), kactus 方法, methontology 方法, sensus 方法和 七步法。其中“七步法”是由斯坦福大學醫(yī)學院開發(fā), 主要用于 領域本體的構建。本文將借鑒“

7、七步法”來構建基于本體的法律 信息檢索模型?;诒倔w的法律信息檢索的一般模型2.2法律 信 息檢 索 方 法的 優(yōu) 劣 一般 采 用 查全 率 和 查 準 率 兩 個概念來衡量。查全率用以衡量搜索到的法律信息的多少, 而查 準率用以表示搜索到的法律信息的準確度, 即是否是期望所搜 索的法律信息。目前比較流行的是基于網站分類技術和全文檢索技術, 這 兩者都不能很好地滿足查全率和查準率的要求。雖然網站分類 技術為法律網絡信息導航帶來了較大的方便, 但是其網站描述 信息相對簡單, 不能滿足查全率的要求;而基于全文檢索技術雖 然能夠解決對網頁細節(jié)的檢索問題。但這又導致搜索的信息太 多, 因此查準率很低

8、。而本體具有良好的概念層次結構和對邏輯推理的支持, 一 方面, 用戶的信息需求需要通過共享本體轉化為計算機可理解 的查詢表達。通過共享本體中概念與概念之間的關系擴展查詢 表達, 可以有效的提高查全率。另一方面, 被檢信息資源需要通過同樣的本體進行標引, 信息資源的表達包括邏輯判斷等, 使 信息表達成為本體結構中的一部分。在基于本體的信息檢索過 程中 , 查 詢表 達 與 信息 資 源 之間 進 行 相應 的 匹 配 , 這 一 過 程能 夠按照查詢的表達形式和邏輯理解方式來實現, 這就大大提高 了查準率。2.3 構建基于本體的法律信息檢索模型構建基于本體的法律信息檢索模型的主要步驟如下: (1

9、)建立領域本體的法律信息 檢 索 方法 ,它 通 過對 分 類 目錄 的 進 一步 智 能 化處理, 更好的滿足用戶的查詢需求。本體的概念1本體(ontology)的概念起源于哲學領域, 本體論 概念 在 引 入人工智能領域后, 被賦予了更為具體的意義。最著名并被引用 得最為廣泛的定義是由 gruber 提出的,“本體是概念化的 明 確的規(guī)范說明”。本體 是 領域 內 重 要實 體 、屬 性、過 程 及 其相 互 關 系形 式 化 描述的基礎。這種形式化描述可成為軟件系統中可重用和共享 的組件??偟膩碚f, 構造本體的目的都是為了實現某種程度的 知識共享和重用?;诒倔w驅動的法律信息檢索22.1

10、 基于本體的檢索方法目前, 基于本體的檢索構建方法大致有如下幾種:uschold鐘振鴻: 碩士研究生法律 領 域本 體 , 是 法律 專 業(yè) 性的 本 體 , 提供 了 法 律學 科 領 web 資源 uri。域中概念的詞表以及概念間的關系, 或在該領域里占主導地位 (4)過濾的理論。構建法律領域本體, 可以解決在用戶或軟件代理間達 在本 體 的幫 助 下 , 我們 可 以 很好 地 學 習用 戶 的 興 趣 , 若 要 成對于法律信息組織結構的共同理解和認識, 為基于知識的法 通過用戶的個性化偏好對結果進行過濾, 就要求我們對用戶的律信息檢索提供基礎。 (興趣)提問進行規(guī)范化。模型中基本上構

11、建了法律本體由 29 個類組成, 如:憲法類、 一般用戶的提問很模糊, 事實上大多用戶會使用自己日常 經濟法類、刑法類、民法類等, 每個類下包含若干子類。系統本 使用的詞匯、語句進行查詢, 其輸入的關鍵詞可能是本體中類、 體的元語基本分為三種:一是法律實體概念, 如搶劫、販賣毒品、 屬性、個體中任何一個。因此我們要通過“過濾”來規(guī)范用戶的 放火 、爆 炸 等;二 是 能 體現 法 律 實 體 間 關 系 的 概 念 , 如 預 備 、未 查詢。當人機接口遞交提問(關鍵詞)后,“過濾”首先訪問領域本 遂、中止、剝奪、豁免、撤消等;三是一些輔助性的助詞、限定詞、 體庫判定哪些關鍵詞是本體庫中包含的

12、類、屬性、個體, 對用戶 連詞、代詞等, 這類 詞 同 樣也 包 含 一定 的 語 義信 息 , 如 共同 , 間 提問概念進行規(guī)范化。歇性、完全喪失等。 由于領域本體以四元組的方式存儲于本體庫中, 因此規(guī)范 與本體相匹配的還有一個基本術語的詞典參考美費化實質上就是判斷輸入概念哪些屬于四元組的 c、a、r、w。判曼 著牛津法律術語小典, 其涵蓋了本體中的所有概念, 并且 斷結果一般有三種情況:所有關鍵詞都包含于領域本體庫;部分 包括每個概念的不同詞形, 如- s, - ed, - ing 等。法律本體同時也 關鍵詞包含于領域本體庫;沒有關鍵詞包含于領域本體庫。判斷作為用戶接口, 可以供用戶選擇

13、查看。其基本領域本體局部示 過程如下:意圖如圖 2 所示。 假設輸入關鍵詞的集合為 t, 當 t時: t , t 中的概念為 c 的存入集合 xc t- xc , c- xc 中的概念為 a 的存入集合 xa t- xc - xa , t- xc - xa 中的概念為 r 的存人集合 xr t- xc - xa - xr 時 , t- xc - xa - xr 中 的 概 念 為 w存入集合 xw。 t- xc - xa - xr - xw 時, t- xc - xa - xr - xw 中的 圖 2 領域本體局部示意圖 概念存入集合 u。由此可見, 本體在表現概念之間關系上有著明顯的優(yōu)勢。

14、經過判斷后, 用戶遞交概念被劃分為五個概念集 xc 、xa、(2)收集信息源中的數據 xr 、xw、u。其中集合 u 中的概念不屬于本體庫, 因此當 u參照 已 建立 的 本 體把 收 集 來的 數 據 按規(guī) 定 格 式 存 儲 在 元 時 , 采 用 改 進 的 正 向 最 大 匹 配 法 與 本 體 庫 的 類 、屬 性 、個 體 匹 數據庫(如關系數據庫、知識數據庫等)中。使用 xml 描述語言 配, 對此概念規(guī)范化進行處理, 向用戶提供相近的本體概念, 供來表示本體, 數據保存在知識數據庫中。 用戶選擇。 標引過程。從 pdf、doc、html 中導出相關的摘要、題 最后,“過濾”后的

15、系統將提供四個概念集 xc 、xa、xr 、xw。 名、全文信息或關鍵詞的純文本數據, 根據本體用 xml 對其進 (5)人機接口設計行注釋。再將提取出的作者、年份、參考文獻, 以及文章鏈接等 對用戶檢索界面獲取的查詢請求,“過濾”按照本體把查詢信息共同存入數據庫中, 形成關鍵詞和本體類別標引文件, 供 請求轉換成規(guī)定的格式。檢索使用, 其中的關鍵步驟為本體注釋。 使用關聯規(guī)則庫中的規(guī)則, 可實現對本體的語義擴展, 充 本體注釋。利用本體對語料庫中的文檔題名、摘要及全 分挖掘概念之間潛在的關系, 因此該模型在關聯規(guī)則庫的幫助 文中的每個詞和關鍵詞進行標注, 生成 xml 文件。系統對本體 下從

16、本體數據庫中匹配出符合條件的數據集合, 然后返回給用的注釋分兩步進行: 戶。其基本框架圖如圖 3 所示。a.標注每個詞, 計算機先從詞典中找出其原形形式, 再從系 統本體中找出其對應的概念, 然后利用本體 對 應 概念 用 xml語言進行標注。對于沒有語義信息的詞, 即在本體中沒有對應概念的詞, 用<text>標注。b.標注句子, 將標注的詞組成句子。(3)數據存儲由 于 文 件 是 基 于 xml 語 法 對 本 體 進 行 序 列 化 表 示 , 而 xml 具有跨平臺的特性, 這樣表示的領域本體可以在多個用戶 及大范圍團體內實現共享和重用, 但是當本體的規(guī)模增大時, 文件形式

17、的本體處理效率較低。所以本文結合當前本體開發(fā)和應用的主流技術, 利用 jena 平臺向用戶提供的 rdf、api、owl圖 3 基于本體的法律信息檢索模型基本框架api 實現對本體的結構化存儲, 并以四元組方式將領域本體存 其中使用的匹配算法為查詢擴展算法。 儲于關系數據庫 mysql, 記作 o=<c, a, r, w >。其中, c 是概念 查詢擴展的基本思想為:集, 表示領域本體包含的概念;a 表示屬性集 , 主 要 用來 表 現 概 q(xc 、xa、xr 、xw);/查詢子串念 自 身 的 特 征;r 是 關 系 , 指 領 域 中 概 念 間 的 交 互 作 用;w 為

18、 s=getsubset(q); /按項數遞增的方式.依次生成 q 的子集軟 件 時 空郵局訂閱號: 82-946 360 元 / 年 - 179 - p lc 技術應用 200 例您 的 論 文 得 到 兩 院 院 士 關 注參考文獻1楊廣翔,俞寧,諶莉.搜索引擎結果的重排序方法 2鄧志鴻,唐世渭. ontology 研究綜述.北京大學學報(自然科學 版)2002(7).38,53thomas r.gruber. toward principles for the design of ontolo- gies used for knowledge sharing. august 23, 19

19、93.4w.n.borst. construction of engineering ontologies for knowl-edge sharing and reuse. phd thesis, university of twente, en- schede, 1997.5 吳丹. 本體在信息檢索中的作用及實例研究 a. 情報雜志2006.6:7275 6李景.構建領域本體的方法體系比較研究j.現代圖書情報技 術.2004(7):1722.7趙秀芳.基于本體的農業(yè)信息檢索. journal of anhui agri. sci.2006 34(10):230323048郭輝,蘇中義,王文

20、.一種改進的 mm 分詞算法j微型電腦應 用.2o02 18(1):1315.9譚義紅,李學勇,陳治平.關聯規(guī)則挖掘在 web 信息檢索中的應用a.軟件技術與數據庫. vol.32 no.9,2006 年 5 月:5761. 10肖燕華,邵世煌.一種基于本體論的 internet 信息個性化檢索 系統的 agent 實現模型. j微計算機信息 2003,19- 6:77- 78.作者簡介: 鐘振鴻(1982.2- ), 漢, 女, 浙江, 上海水產大學碩士研究 生, 研究方向:網絡技術應用及網絡安全;印潤遠, 男, 上海市, 教 授, 碩士生導師;于慶梅, 女, 上海市, 博士, 副教授, 碩

21、士生導師。 biogr aphy:zhong zhenhong (1982 - ),female, zhejiang, master,shanghai fisheries university, application of network technologyfor all s 的子集 do從本體庫中表取得該詞語的所有子層詞語按信任度大小 排序。取前 r 個相關詞語, 寫入 rs(sk)if rs(sk)為空從關聯庫中相關關系表取得該詞語的所有相干詞語, 按信 任度大小排序, 取前 r 個相關詞語, 寫入 rs(sk)rs(s)=rs(sk), 將 rs(sk)集 合 中 所 有 相 關 項

22、 按 權 值 大 小進行排序, 存入 rs(s)q =q rs(s)/q 為 查 詢 串 q 與 擴 展 串 rs(s)合 并 后 得 到 的 集 合2.4 模型主要功能基于本體的法律信息檢索模型包括本體的概念查詢、語義 擴充查詢、分類瀏覽等。其檢索功能提供用戶指定類、子類的組合, 布爾邏輯檢索,指定關鍵詞在文中出現的頻率, 選擇查找題名、摘要或正文。用 戶還可以選擇其查詢表達是與文檔全文還是句子匹配, 按照全 文、摘要、題名、作者、年份等項查詢。仿真實驗與評價3試驗測試集是 100 篇經過專家評定的法律方面的文章, 分成 6 類, 分別檢索文摘和全文。試驗結果顯示, 文摘的查全率是75.2%

23、 , 查 準 率 是 83.4% ; 全 文 的 查 全 率 是 93.8% , 查 準 率 是79.8%。經分析, 本體構建的質量直接關系檢索的效率。一般錯 檢的句子, 70%是由于檢索用的關鍵詞缺乏語境造成的。因此, 我們應該明確 , 現 在的 本 體 匹配 還 處 在初 級 階 段, 從 某 種 程度 上來說, 一對一的匹配本身是不盡合理的。重要的是在研究本 體匹配的 過 程中 能 發(fā) 現更 多 有 價值 的 理 論和 方 法 使之 用 于 其 領域檢索。and research for network security,yin runyuan ,male,shanghai, profe

24、ssor, teacher for master,yu qingmei, female,shanghai, ph.d., associate professor, teacher for master.上海上海水產大學信息學院)鐘振鴻印潤遠(200090于慶梅總結4(college of infor mation , shanghai fisher ies univer sity,shanghai 200090, china) zhong zhenhong yin runyuanyu qingmei通訊地址:(200135 上海市 浦東新區(qū)棲山路 1489 弄 15 號 401)鐘振鴻(收稿日

25、期:2007.7.03)(修稿日期:2007.9.05) 本體 是 對概 念 化 的明 確 描 述, 是 當 前 人工 智 能 、計算 機 交叉領域的研究熱點。大量國內外專家的實驗證明, 基于本體的 信息檢索技術能形成較好的語義理解, 能有效地提高信息檢索 的效率, 是一種值得研究的方法。作為知識表示的一種方式, 本體在概念語義的表達上涵蓋 語義檢索, 但是 本 體的 構 建 卻是 該 研 究領 域 的 瓶頸 , 一 方 面很 難形成大規(guī)模通用本體, 另一方面本體構建現在很多是人工進 行, 工作巨大。因此在深入研究基于本體的領域信息檢索時, 需 要結合機器學習技術, 發(fā)展本體自動獲取工具。本文作者創(chuàng)新點:現在本體論是一個新型的研究課題, 其本 身的構建方式就不同于以往的信息檢索, 具有良好的概念層次 結構和對邏輯推理的支持。本文以本體論作為驅動, 在專門的 領域, 即法律信息檢索方面著手, 提出這樣一種檢索方法, 還是 很新穎的。其次 , 本 文結 合 當 前本 體 開 發(fā)和 應 用 的主 流 技 術 , 引 用 并 改進了領域本 體 的 存儲 方 式 ,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論