基于數(shù)據(jù)挖掘的圖書館海量信息快速檢索方法獲獎科研報告_第1頁
基于數(shù)據(jù)挖掘的圖書館海量信息快速檢索方法獲獎科研報告_第2頁
基于數(shù)據(jù)挖掘的圖書館海量信息快速檢索方法獲獎科研報告_第3頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于數(shù)據(jù)挖掘的圖書館海量信息快速檢索方法獲獎科研報告【摘要】文章主要是分析了圖書館海量圖書信息分類檢索系統(tǒng)硬件設(shè)計,在此基礎(chǔ)上講解了數(shù)據(jù)挖掘技術(shù)在海量信息檢索中的作用,最后探討了數(shù)據(jù)挖掘的圖書館海量信息快速檢索方法,望可以為有關(guān)人員提供到一定的參考和幫助。

【關(guān)鍵詞】數(shù)據(jù)挖掘;圖書館;海量信息;快速檢索方法

1、前言

當前信息化時代的到來,在一定程度上增加了人們檢索信息的難度,為此如何能夠有效探索出符合自身需求的相關(guān)信息成為可以當前有關(guān)研究人員應當思考的難題。

2、圖書館海量圖書信息分類檢索系統(tǒng)硬件設(shè)計

系統(tǒng)硬件設(shè)備與傳統(tǒng)系統(tǒng)的最大區(qū)別是在傳統(tǒng)系統(tǒng)硬件的基礎(chǔ)上引入搜索引擎,搜索引擎是在互聯(lián)網(wǎng)上搜索網(wǎng)絡(luò)信息的搜索工具,主要集中在應用過程中收集的信息,并將收集到的網(wǎng)絡(luò)資源構(gòu)建到專門用于圖書信息的知識庫中,供查詢庫使用,并進行索引,通過輸入,可以在搜索引擎中為要查詢的內(nèi)容指明關(guān)鍵字,搜索引擎可以在知識庫當中查看與關(guān)鍵字相匹配的相關(guān)信息。搜索結(jié)果顯示在屏幕上,并按照搜索結(jié)果選擇并訪問相關(guān)的網(wǎng)頁。完整的搜索引擎由搜索器,搜索者和用戶界面組成。搜索者主要負責收集和發(fā)現(xiàn)在線書籍信息資源,并通過使用蜘蛛或機器人計算機程序自動收集庫網(wǎng)頁,以及收集的網(wǎng)站中錄制的網(wǎng)站網(wǎng)站的網(wǎng)站和所有公共區(qū)域總結(jié)為詳細的庫網(wǎng)絡(luò)目錄。此外,該檢索還需要定期更新系統(tǒng)中收集的舊信息以避免無效鏈接。搜索設(shè)備將收集的Web信息發(fā)送到索引器,并且索引器分析Web地址信息,提取書籍信息索引項,并最終在文檔索引表中表達它們,通常使用某種形式的Reversalable,記錄書籍信息索引項的特定位置,這才能夠方便到了搜索搜索器計算索引之間的距離關(guān)系。有兩種方法可以信息索引項目:目標索引和內(nèi)容索引。目標索引與書籍信息文檔的語義內(nèi)容是完全無關(guān)的,主要包括書籍信息的更新時間,書籍信息代碼等。內(nèi)容索引代表了例如,作為書籍信息的關(guān)鍵字,關(guān)鍵字等的關(guān)鍵字,索引器將從分析和理解發(fā)送到獵犬的信息。按照用戶的書籍信息查詢要求,將從分析和理解發(fā)送信息??焖俨樵冎R庫中的相關(guān)文檔,評估文檔與書籍信息之間的相關(guān)性和用戶查詢的信息,并可以按照到了相關(guān)性對輸出查詢結(jié)果進行了排序。搜索引擎的用戶界面是輸入圖書信息并輸出查詢結(jié)果。按照信息查詢方式的不同,搜索引擎主要分為三類:第一類是目錄搜索引擎,它有著搜索信息準確率高、導航性好的優(yōu)點,但缺點是人工干預,網(wǎng)絡(luò)信息維護量大,更新不及時。第二類是機器人搜索引擎,其信息量大,網(wǎng)絡(luò)信息編程程度高,但存在返回信息結(jié)果多、信息無效等缺點。元搜索引擎的優(yōu)勢在于它返回大而全面的結(jié)果,但缺點是它需要在搜索結(jié)果上進行更多篩選。結(jié)合系統(tǒng)開發(fā)的要求,本文選擇了機器人搜索引擎。該策略針對圖書館的書籍信息檢索,在互聯(lián)網(wǎng)上搜索大規(guī)模的書籍信息,并分析,提取,組織和處理書籍信息,并可扮演書籍信息導航的作用,最終可以為用戶提供高質(zhì)量的書籍信息檢索服務(wù)。

3、數(shù)據(jù)挖掘技術(shù)在海量信息檢索中的作用

當前正在擴展數(shù)據(jù)挖掘技術(shù)的應用范圍。以往傳統(tǒng)的市場圖書館被打破,圖書館中的紙質(zhì)書籍正在不斷的減少,其中電子書越來越多,人們可以檢索圖書館的信息,功能欄進入書籍關(guān)鍵詞查找書的位置。在一定程度上,信息挖掘技術(shù)的信息效率得到改善,為圖書館建設(shè)提供到了一個新的導指方向,為工業(yè)發(fā)展提供了更多的開發(fā)空間。

4、圖書館海量信息快速檢索方法

4.1、信息屬性提取

在設(shè)計大規(guī)模信息之前,我們可以參考多維信息空間模型來提取信息數(shù)據(jù)的屬性,在這個過程中,首先要明確數(shù)據(jù)的錄入內(nèi)容,將信息屬性劃分為數(shù)據(jù)字典、關(guān)鍵字、,按照習慣句的習慣檢索方法,圖書信息被認為是多用途計算機二進制算法,使用計算機二進制算法,圖書館中的大規(guī)模信息是用反向表達式來表達的,用圖書館自身的主體庫代替用戶檢索到的信息關(guān)鍵字,描述圖書館中的大量信息。使用圖書館中的不同類型的書籍,測量和映射信息正在調(diào)查和映射信息。在處理過程中,可以通過建立列表來索引密鑰信息,并且可以按照庫的大規(guī)模信息的特征來映射資源信息。

4.2、快速檢索的價值

基于上述相關(guān)工作,本文將基于在用戶搜索行為中檢索的信息量獲得價值信息的重要性。在為可以進一步探索大規(guī)模數(shù)據(jù)的定律,將引入數(shù)據(jù)挖掘技術(shù)獲取價值信息。在此過程中,Q表示大量信息,在行為搜索庫用戶的項目中,TT應該是主要值信息TT應該屬于中間值。在Q信息中,T應該屬于輔助值信息,組合當前相關(guān)的分析,本文被歸類為圖書館的大規(guī)模信息。k是數(shù)據(jù)庫中的大量信息,M是用戶搜索項目中的關(guān)鍵數(shù)據(jù)的排列,這是滿足快速搜索行為的時間,并且我是搜索的用戶數(shù)。按照上述計算公式信息檢索操作作為快速搜索控制標準執(zhí)行,并且在完成搜索項目的最佳布置時執(zhí)行。在本文中,搜索項目被隨機選擇為搜索行為的關(guān)鍵字以獲得搜索行為的權(quán)重;基于庫中的多資源信息的重疊區(qū)域,提取重疊區(qū)域的數(shù)據(jù),并且按照小編的信息定律執(zhí)行數(shù)據(jù)重疊,該信息被用作搜索庫信息收集并完成的基礎(chǔ)快速搜索庫中的大規(guī)模信息。

5、對比實驗

本實驗中使用的計算機內(nèi)存為8.0GB,其中其的運行內(nèi)存為256MB且系統(tǒng)為Win10。在改進實驗環(huán)境的前提下,傳統(tǒng)信息快速檢索方法和基于本文設(shè)計的數(shù)據(jù)挖掘的庫大規(guī)模信息快速檢索方法用于從上述網(wǎng)站提取信息,并使用召回速率實驗的比較基礎(chǔ),分析不同檢索行為下兩種方法的信息查詢精度。在完全相同的檢索條件下,本文提出的檢索方法可以從大量相關(guān)的無關(guān)信息中準確地檢索出1000條有價值的信息,而傳統(tǒng)的檢索方法只能從大量信息中檢索出600-800條數(shù)據(jù),這在一定程度上造成了一定的信息損失。實驗的最終結(jié)論是,與傳統(tǒng)的快速檢索方法相比,基于數(shù)據(jù)挖掘的海量信息檢索方法在信息檢索中有著

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論