基于數(shù)據(jù)挖掘的圖書館海量信息快速檢索方法獲獎科研報告

上傳人：一*** IP屬地：陜西上傳時間：2023-07-30 格式：DOCX 頁數(shù)：3 大?。?3.16KB 積分：12 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

基于數(shù)據(jù)挖掘的圖書館海量信息快速檢索方法獲獎科研報告【摘要】文章主要是分析了圖書館海量圖書信息分類檢索系統(tǒng)硬件設(shè)計，在此基礎(chǔ)上講解了數(shù)據(jù)挖掘技術(shù)在海量信息檢索中的作用，最后探討了數(shù)據(jù)挖掘的圖書館海量信息快速檢索方法，望可以為有關(guān)人員提供到一定的參考和幫助。

【關(guān)鍵詞】數(shù)據(jù)挖掘;圖書館;海量信息;快速檢索方法

1、前言

當前信息化時代的到來，在一定程度上增加了人們檢索信息的難度，為此如何能夠有效探索出符合自身需求的相關(guān)信息成為可以當前有關(guān)研究人員應(yīng)當思考的難題。

2、圖書館海量圖書信息分類檢索系統(tǒng)硬件設(shè)計

系統(tǒng)硬件設(shè)備與傳統(tǒng)系統(tǒng)的最大區(qū)別是在傳統(tǒng)系統(tǒng)硬件的基礎(chǔ)上引入搜索引擎，搜索引擎是在互聯(lián)網(wǎng)上搜索網(wǎng)絡(luò)信息的搜索工具，主要集中在應(yīng)用過程中收集的信息，并將收集到的網(wǎng)絡(luò)資源構(gòu)建到專門用于圖書信息的知識庫中，供查詢庫使用，并進行索引，通過輸入，可以在搜索引擎中為要查詢的內(nèi)容指明關(guān)鍵字，搜索引擎可以在知識庫當中查看與關(guān)鍵字相匹配的相關(guān)信息。搜索結(jié)果顯示在屏幕上，并按照搜索結(jié)果選擇并訪問相關(guān)的網(wǎng)頁。完整的搜索引擎由搜索器，搜索者和用戶界面組成。搜索者主要負責(zé)收集和發(fā)現(xiàn)在線書籍信息資源，并通過使用蜘蛛或機器人計算機程序自動收集庫網(wǎng)頁，以及收集的網(wǎng)站中錄制的網(wǎng)站網(wǎng)站的網(wǎng)站和所有公共區(qū)域總結(jié)為詳細的庫網(wǎng)絡(luò)目錄。此外，該檢索還需要定期更新系統(tǒng)中收集的舊信息以避免無效鏈接。搜索設(shè)備將收集的Web信息發(fā)送到索引器，并且索引器分析Web地址信息，提取書籍信息索引項，并最終在文檔索引表中表達它們，通常使用某種形式的Reversalable，記錄書籍信息索引項的特定位置，這才能夠方便到了搜索搜索器計算索引之間的距離關(guān)系。有兩種方法可以信息索引項目：目標索引和內(nèi)容索引。目標索引與書籍信息文檔的語義內(nèi)容是完全無關(guān)的，主要包括書籍信息的更新時間，書籍信息代碼等。內(nèi)容索引代表了例如，作為書籍信息的關(guān)鍵字，關(guān)鍵字等的關(guān)鍵字，索引器將從分析和理解發(fā)送到獵犬的信息。按照用戶的書籍信息查詢要求，將從分析和理解發(fā)送信息?？焖俨樵冎R庫中的相關(guān)文檔，評估文檔與書籍信息之間的相關(guān)性和用戶查詢的信息，并可以按照到了相關(guān)性對輸出查詢結(jié)果進行了排序。搜索引擎的用戶界面是輸入圖書信息并輸出查詢結(jié)果。按照信息查詢方式的不同，搜索引擎主要分為三類：第一類是目錄搜索引擎，它有著搜索信息準確率高、導(dǎo)航性好的優(yōu)點，但缺點是人工干預(yù)，網(wǎng)絡(luò)信息維護量大，更新不及時。第二類是機器人搜索引擎，其信息量大，網(wǎng)絡(luò)信息編程程度高，但存在返回信息結(jié)果多、信息無效等缺點。元搜索引擎的優(yōu)勢在于它返回大而全面的結(jié)果，但缺點是它需要在搜索結(jié)果上進行更多篩選。結(jié)合系統(tǒng)開發(fā)的要求，本文選擇了機器人搜索引擎。該策略針對圖書館的書籍信息檢索，在互聯(lián)網(wǎng)上搜索大規(guī)模的書籍信息，并分析，提取，組織和處理書籍信息，并可扮演書籍信息導(dǎo)航的作用，最終可以為用戶提供高質(zhì)量的書籍信息檢索服務(wù)。

3、數(shù)據(jù)挖掘技術(shù)在海量信息檢索中的作用

當前正在擴展數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍。以往傳統(tǒng)的市場圖書館被打破，圖書館中的紙質(zhì)書籍正在不斷的減少，其中電子書越來越多，人們可以檢索圖書館的信息，功能欄進入書籍關(guān)鍵詞查找書的位置。在一定程度上，信息挖掘技術(shù)的信息效率得到改善，為圖書館建設(shè)提供到了一個新的導(dǎo)指方向，為工業(yè)發(fā)展提供了更多的開發(fā)空間。

4、圖書館海量信息快速檢索方法

4.1、信息屬性提取

在設(shè)計大規(guī)模信息之前，我們可以參考多維信息空間模型來提取信息數(shù)據(jù)的屬性，在這個過程中，首先要明確數(shù)據(jù)的錄入內(nèi)容，將信息屬性劃分為數(shù)據(jù)字典、關(guān)鍵字、，按照習(xí)慣句的習(xí)慣檢索方法，圖書信息被認為是多用途計算機二進制算法，使用計算機二進制算法，圖書館中的大規(guī)模信息是用反向表達式來表達的，用圖書館自身的主體庫代替用戶檢索到的信息關(guān)鍵字，描述圖書館中的大量信息。使用圖書館中的不同類型的書籍，測量和映射信息正在調(diào)查和映射信息。在處理過程中，可以通過建立列表來索引密鑰信息，并且可以按照庫的大規(guī)模信息的特征來映射資源信息。

4.2、快速檢索的價值

基于上述相關(guān)工作，本文將基于在用戶搜索行為中檢索的信息量獲得價值信息的重要性。在為可以進一步探索大規(guī)模數(shù)據(jù)的定律，將引入數(shù)據(jù)挖掘技術(shù)獲取價值信息。在此過程中，Q表示大量信息，在行為搜索庫用戶的項目中，TT應(yīng)該是主要值信息TT應(yīng)該屬于中間值。在Q信息中，T應(yīng)該屬于輔助值信息，組合當前相關(guān)的分析，本文被歸類為圖書館的大規(guī)模信息。k是數(shù)據(jù)庫中的大量信息，M是用戶搜索項目中的關(guān)鍵數(shù)據(jù)的排列，這是滿足快速搜索行為的時間，并且我是搜索的用戶數(shù)。按照上述計算公式信息檢索操作作為快速搜索控制標準執(zhí)行，并且在完成搜索項目的最佳布置時執(zhí)行。在本文中，搜索項目被隨機選擇為搜索行為的關(guān)鍵字以獲得搜索行為的權(quán)重;基于庫中的多資源信息的重疊區(qū)域，提取重疊區(qū)域的數(shù)據(jù)，并且按照小編的信息定律執(zhí)行數(shù)據(jù)重疊，該信息被用作搜索庫信息收集并完成的基礎(chǔ)快速搜索庫中的大規(guī)模信息。

5、對比實驗

本實驗中使用的計算機內(nèi)存為8.0GB，其中其的運行內(nèi)存為256MB且系統(tǒng)為Win10。在改進實驗環(huán)境的前提下，傳統(tǒng)信息快速檢索方法和基于本文設(shè)計的數(shù)據(jù)挖掘的庫大規(guī)模信息快速檢索方法用于從上述網(wǎng)站提取信息，并使用召回速率實驗的比較基礎(chǔ)，分析不同檢索行為下兩種方法的信息查詢精度。在完全相同的檢索條件下，本文提出的檢索方法可以從大量相關(guān)的無關(guān)信息中準確地檢索出1000條有價值的信息，而傳統(tǒng)的檢索方法只能從大量信息中檢索出600-800條數(shù)據(jù)，這在一定程度上造成了一定的信息損失。實驗的最終結(jié)論是，與傳統(tǒng)的快速檢索方法相比，基于數(shù)據(jù)挖掘的海量信息檢索方法在信息檢索中有著

人人文庫> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于數(shù)據(jù)挖掘的圖書館海量信息快速檢索方法獲獎科研報告

文檔簡介

溫馨提示

最新文檔

評論