淺談校園網多數(shù)據(jù)源信息檢索系統(tǒng)的設計與實現(xiàn)的論文_第1頁
淺談校園網多數(shù)據(jù)源信息檢索系統(tǒng)的設計與實現(xiàn)的論文_第2頁
淺談校園網多數(shù)據(jù)源信息檢索系統(tǒng)的設計與實現(xiàn)的論文_第3頁
淺談校園網多數(shù)據(jù)源信息檢索系統(tǒng)的設計與實現(xiàn)的論文_第4頁
淺談校園網多數(shù)據(jù)源信息檢索系統(tǒng)的設計與實現(xiàn)的論文_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

淺談校園網多數(shù)據(jù)源信息檢索系統(tǒng)的設計與實現(xiàn)的論文本文從網絡收集而來,上傳到平臺為了幫到更多的人,如果您需要使用本文檔,請點擊下載按鈕下載本文檔(有償下載),另外祝您生活愉快,工作順利,萬事如意!

論文關鍵詞:信息集成異構數(shù)據(jù)odinutchlucene

論文摘要:高校校園網信息資源數(shù)量巨大,各信息發(fā)布系統(tǒng)的相互獨立及多種異構數(shù)據(jù)源的使用對在校園網范圍內進行統(tǒng)一的信息檢索設置了障礙,系統(tǒng)著重解決由非結構化文本數(shù)據(jù)和結構化數(shù)據(jù)庫數(shù)據(jù)形成的多數(shù)據(jù)源的集成與整合問題,在nutch搜索引擎基礎上利用lucene接口對多種源數(shù)據(jù)建立索引,構建多數(shù)據(jù)源全文信息檢索平臺,從而有效地實現(xiàn)全網信息檢索并提高檢索速度和精度。

一、引言

隨著校園信息化進程的不斷深入,校園網上信息資源的數(shù)量迅速膨脹,各種相互獨立的信息發(fā)布系統(tǒng)在提高效率的同時,也為校園網范圍內統(tǒng)一的信息檢索設置了障礙,校園網信息資源主要包括兩類數(shù)據(jù):一類是非結構化文本數(shù)據(jù),以網頁文件、文本文件、電子郵件等形式存儲在多個信息系統(tǒng)當中:另一類是結構化數(shù)據(jù),以數(shù)據(jù)記錄的形式存儲在不同的異構數(shù)據(jù)庫之中。由于各獨立信息系統(tǒng)間沒有相互連接的渠道,快速檢索校園網內部信息存在著較大困難。如何設計一個穩(wěn)定而高效的架構,能夠對多種信息數(shù)據(jù)源進行集成與整合,實現(xiàn)全網范圍內全文信息檢索成為校園信息化過程中一個重要研究課題。

校園網信息檢索技術大體可分為三個發(fā)展階段:第一階段是基于數(shù)據(jù)庫查詢方式的結構化數(shù)據(jù)檢索,應用于信息發(fā)布系統(tǒng)內部的檢索功能,通常是通過匹配標題、作者和摘要等字段來實現(xiàn)信息檢索。由于受到數(shù)據(jù)庫性能、檢索效率等因素影響,不能實現(xiàn)基于匹配正文內容的全文檢索,因此該階段檢索方式從檢索范圍到檢索性能及效果都并不能完全滿足現(xiàn)階段用戶的需要:第二階段是將基于互聯(lián)網的搜索引擎技術應用于校園網,構建校園網信息檢索平臺。主要采用開源lueene提供的全文檢索功能和基于lucene索引管理、存儲和檢索技術之上的nutch搜索引擎技術。這兩種方式能夠實現(xiàn)對非結構化文本數(shù)據(jù)和結構化數(shù)據(jù)庫數(shù)據(jù)的檢索,應用在網站站內索引、企業(yè)內部文檔管理及知識管理系統(tǒng)等多方面,對應用系統(tǒng)內部全文信息檢索取得了較好的效果,但要實現(xiàn)校園網全網范圍內多系統(tǒng)綜合信息檢索還有待進一步完善與改進:當前校園網信息檢索技術已經發(fā)展到多系統(tǒng)多數(shù)據(jù)源信息檢索階段,通過多種方式將各種數(shù)據(jù)源統(tǒng)一建立索引進行檢索,對于非結構化文本的web頁面信息采用網絡爬蟲方式獲取數(shù)據(jù),對于結構化文檔數(shù)據(jù)源可通過lucene接口和nutch插件機制與第三方類庫相結合來進行文檔分析處理,對于數(shù)據(jù)庫資源通過lucene數(shù)據(jù)庫訪問接口來獲取數(shù)據(jù)記錄并建立索引。目前校園網信息檢索平臺大多是以檢索功能為核心通過上述方式與多數(shù)據(jù)源集成的輻射狀架構,該種架構雖可實現(xiàn)全網多數(shù)據(jù)源檢索,但檢索平臺與各應用系統(tǒng)耦合度高,系統(tǒng)整體穩(wěn)定性和可擴展性較差,數(shù)據(jù)安全和數(shù)據(jù)質量較低。

針對上述問題,本系統(tǒng)將數(shù)據(jù)采集和數(shù)據(jù)集成作為平臺整體架構的基礎,將oracle數(shù)據(jù)集成工具odi用于對多數(shù)據(jù)源結構化數(shù)據(jù)的抽取、轉換和處理,從而提供一個統(tǒng)一的全局共享數(shù)據(jù)源,對非結構化文本數(shù)據(jù)提供對word、pdf、ppt及xml等多種格式化文檔解析的支持、以上述工作為基礎,系統(tǒng)將分散分布、非結構化、異構的信息資源統(tǒng)一整合,提供給校園網用戶統(tǒng)一的全文信息檢索平臺。

二、系統(tǒng)體系結構

多數(shù)據(jù)源校園網信息檢索系統(tǒng)分為數(shù)據(jù)采集層和信息檢索層兩層體系架構,數(shù)據(jù)采集層以oracle全局數(shù)據(jù)庫為核心向下通過odi集成各異構數(shù)據(jù)庫數(shù)據(jù),并通過網絡爬蟲和非結構化文本數(shù)據(jù)解析來實現(xiàn)多數(shù)據(jù)源數(shù)據(jù)采集,向上通過數(shù)據(jù)庫接口為上層應用提供數(shù)據(jù):信息檢索層采用以lueene為基礎的nutch搜索引擎實現(xiàn)信息索引和檢索。系統(tǒng)共包括異構數(shù)據(jù)庫集成、異構文檔解析、信息分類模塊、信息索引模塊、信息檢索模塊和系統(tǒng)管理模塊六部分,系統(tǒng)體系結構如圖1所示。

校園網信息檢索技術并不是簡單地將開源搜索引擎技術應用于校園網,而是針對校園網內部數(shù)據(jù)特點設計相應的解決方案。異構數(shù)據(jù)庫集成模塊從系統(tǒng)底層做好結構化數(shù)據(jù)庫數(shù)據(jù)的高效獲取和有效組織。校園網內信息發(fā)布以web網站為主要方式,對其進行信息檢索一是采用網絡爬蟲方式進行數(shù)據(jù)采集:二是通過lucene數(shù)據(jù)庫接口與各異構數(shù)據(jù)庫相連采集數(shù)據(jù),第一種方式雖然操作簡單,但在數(shù)據(jù)采集質量和深度上都有所不足,并沒有充分利用校園網信息數(shù)據(jù)存儲的特點:第二種方式雖然在數(shù)據(jù)來源上有所改進,但在系統(tǒng)的穩(wěn)定性、耦合程度和可擴展性上都存在不足,從各異構數(shù)據(jù)庫中獲取的數(shù)據(jù)無法進一步加工處理,從而導致對上層應用的支持有限。校園網內數(shù)據(jù)雖然表現(xiàn)為web網頁等非結構化文本形式,但其數(shù)據(jù)來源大都存儲在結構化數(shù)據(jù)庫中。通過獲取對各業(yè)務異構數(shù)據(jù)庫的查詢管理權限,系統(tǒng)將oracle數(shù)據(jù)集成工具odi代替網絡爬蟲和數(shù)據(jù)庫訪問接口,從底層實現(xiàn)對多個異構數(shù)據(jù)庫的統(tǒng)一管理,使系統(tǒng)具有更加穩(wěn)定和高效的數(shù)據(jù)來源。異構文檔解析模塊實現(xiàn)對pdf、office等文檔的解析功能,通過插件機制提取各種格式化文檔的文本信息進行處理。信息分類模塊按照信息來源的部門、發(fā)布時間等提供分類信息檢索,實現(xiàn)信息的高級檢索功能。信息索引模塊對多種數(shù)據(jù)源數(shù)據(jù)建立索引,并進行索引優(yōu)化以減少索引文件的數(shù)量,并且能在搜索時減少讀取索引文件的時間。信息檢索模塊為校園網用戶提供統(tǒng)一的信息檢索的平臺,可以快速定位用戶所需資源,及時有效地獲取信息。系統(tǒng)管理模塊針對不同資源,設置不同的訪問權限,按照用戶權限決定可以訪問的資源。

三、系統(tǒng)主要功能模塊

數(shù)據(jù)集成工具(odi)

odi(oracledataintegrator)是oracle公司采用elt理念進行數(shù)據(jù)抽取、加載、轉換的數(shù)據(jù)集成中間件工具,其最大特點是提出了知識模塊的概念。odi將一些場景(如文件加載到數(shù)據(jù)庫,從mysql數(shù)據(jù)庫抓取數(shù)據(jù)到oracle數(shù)據(jù)庫等)的詳細實現(xiàn)步驟使用jvthon腳本語言結合數(shù)據(jù)庫sql語句錄制成詳細的步驟記錄下來,形成知識模塊,odi中共有超過100種主流數(shù)據(jù)庫引擎和應用系統(tǒng)的知識模塊,基本上包含了普通應用所涉及的所有場景,因此odi可以實現(xiàn)對校園網內多種異構數(shù)據(jù)庫的支持。在一個數(shù)據(jù)集成任務中,odi通過聲明設計運用接口和關系圖等概念聲明數(shù)據(jù)集成規(guī)則,使集成的邏輯和技術層面分離,底層的技術方面由知識模塊描述和定義,系統(tǒng)只需要把重點放在集成任務規(guī)則的制定上面,再將制定好的集成規(guī)則封裝為一個服務模型。發(fā)布和訂閱該模型便可實現(xiàn)類似于數(shù)據(jù)增量定時更新的功能,異構數(shù)據(jù)庫集成模塊示意如圖2所示。

系統(tǒng)以全局數(shù)據(jù)庫為核心通過odi工具對校園網內異構數(shù)據(jù)庫數(shù)據(jù)進行抽取、轉換、清洗和加載,集成后的數(shù)據(jù)質量得到了提高,對異構數(shù)據(jù)源的處理也得到了加強。在對數(shù)據(jù)處理的過程中提取了信息的標題、作者、正文、發(fā)布時間、url地址等字段,可定時對各異構數(shù)據(jù)庫數(shù)據(jù)進行增量更新操作,從而替代利用網絡爬蟲獲取信息數(shù)據(jù)。oracle全局數(shù)據(jù)庫可以集成校園網內大部分信息發(fā)布系統(tǒng)的數(shù)據(jù)并提供給信息索引和檢索模塊。

與nutch

lucelle不是一個完整的搜索引擎,而是一個用于實現(xiàn)全文檢索的軟件庫,采用java語言開發(fā),提供了檢索內核,其設計原理是索引檢索,任何信息資源只要被轉換成文本格式都可以被檢索。nutch是lucene得到廣泛應用和認可后出現(xiàn)的搜索引擎系統(tǒng),內部使用了lucene的索引檢索技術,并進一步封裝了網絡爬蟲和分布式處理等模塊從而成為一個完整的應用系統(tǒng)。本系統(tǒng)以nutch為基礎,既應用了nuteh系統(tǒng)的完整性,減少了不必要的開發(fā),又可靈活使用lucene接口,豐富系統(tǒng)功能。

對于非結構化文本信息,系統(tǒng)對office文檔采用了poi插件方式,用pdfbox插件來實現(xiàn)對pdf文檔的讀取,并將上述插件集成到nutch當中。信息檢索的基礎是文本分析,而文本分析在很大程度上依賴于分詞模塊對語言的處理。nutch自帶的cjk分詞模塊對中文分詞的效率和準確度上不能滿足實際需要。為此。在對比了je分詞、paoding分詞和ictclas分詞等多款中文分詞模塊后,paoding分詞由于其開源性和良好的分詞效果被本系統(tǒng)采用,并通過nuteh的插件機制集成到系統(tǒng)當中。

3.信息索引與檢索

為滿足用戶全網檢索和分類分部門檢索信息的需要,并提高檢索效率,信息索引模塊首先對每個數(shù)據(jù)源建立索引文件提供給分類檢索用戶,然后通過優(yōu)化索引提供給全網檢索用戶。優(yōu)化索引就是將多個索引文件合并成單個文件的過程,目的是為了減少索引文件的數(shù)量,并且能在搜索時減少讀取索引文件的時間。nutch中的indexwrite類提供了optimize方法實現(xiàn)該優(yōu)化操作。利用nutch中的multisearcher類可實現(xiàn)對優(yōu)化后索引的全網檢索功能,檢索結果會以一種指定的順序合并起來。

針對校園網用戶信息檢索的特點。綜合考慮信息相關度、時效性和訪問量等因素后,系統(tǒng)采用了自定義的排序機制,文檔文本相關度作為信息檢索的主要排序依據(jù),信息發(fā)布時間和訪問次數(shù)作為重要的排序因子,系統(tǒng)通過lucene的激勵因子boost值來改變文檔得分,從而調整文檔的出現(xiàn)順序。系統(tǒng)為校園網用戶提供了通用檢索和高級檢索功能,通用檢索在用戶輸入檢索信息的關鍵字后可檢索出所需信息:高級檢索功能為用戶提供了更為詳細的檢索條件,用戶可根據(jù)需要對信息進行更加精細的檢索。系統(tǒng)管理功能除對用戶權限進行管理外還對信息檢索結果進行屏蔽和進一步處理。

四、系統(tǒng)運行環(huán)境

考慮到開發(fā)調試和維護的方便性,系統(tǒng)在測試運行期間采用了windows平臺。上層在開源nutch搜索引擎的基礎上進行開發(fā),采用myeclipse作為開發(fā)平臺,用java語言實現(xiàn),因此具有跨平臺特性。但由于運行nutch自帶的腳本命令需要linux環(huán)境,所以必須首先安裝cygwin來模擬這種環(huán)境。為了確保版本能夠正確運行,java虛擬機需采用以上的版本,運用作為檢索平臺的容器。系統(tǒng)底層采用oracle10g作為全局數(shù)據(jù)庫。數(shù)據(jù)集成工具odi版本為,與數(shù)據(jù)庫安裝在同一臺服務器上。

五、結束語

校園網多數(shù)據(jù)源信息檢索系統(tǒng)將oracle數(shù)據(jù)集成工具odi引入到數(shù)據(jù)采集模塊,實現(xiàn)了對校園網內各信息發(fā)布系統(tǒng)后臺異構數(shù)據(jù)庫的有效整合與集成,改變了以往主要通過網絡爬蟲獲取數(shù)據(jù)的方式,提高了數(shù)據(jù)來源的精度與質量,又通過nutch插件機制實現(xiàn)了對非結構化文本的解析。從而為信息索引與檢索打下了良好的基礎。信息檢索模塊基于nutch搜索引擎技術并充分利用lucene接口實現(xiàn)了靈活高效的全網信息檢索系統(tǒng)

該系統(tǒng)為校園網用戶提供了方便快捷的信息檢索平臺,整合了校園網信息資源,實現(xiàn)了信息共享,對校園信息化建設起了很好的推進作用。

經過對系統(tǒng)測試運行期間性能的測試,信息檢索時間和精度都得到了較大的提升,信息檢索的廣度和深度也有了很大提高,滿足了校園網用戶的需要、今后的工作是在信息檢索功能的基礎上進一步研究校園網輿情監(jiān)測技術,完善系統(tǒng)功能,在提高校園信息化程度的同時為建設積極向上的校園網絡文化起到較好的推動作用。

參考文獻:

[1]王雪松lucene+nutch搜索引擎[m]北京:人民郵電出版社,2008

[2]邱哲,符滔滔,王雪松,開發(fā)自己的搜索引擎lucellc+heritrix,北京:人民郵電出版社,2010

[3]oracle,oracledataintegrator技術白皮書,北

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論