《信息檢索系統(tǒng)》方案.doc

上傳人：搶*** IP屬地：江西上傳時(shí)間：2020-02-09 格式：DOC 頁數(shù)：9 大?。?67KB 積分：16 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

0 HX 2055HX 2055 信息檢索系統(tǒng)方案信息檢索系統(tǒng)方案 1 目錄目錄一一項(xiàng)目意義項(xiàng)目意義 2 二二系統(tǒng)設(shè)計(jì)系統(tǒng)設(shè)計(jì) 3 2 12 1 技術(shù)原理技術(shù)原理 3 2 22 2 系統(tǒng)構(gòu)架系統(tǒng)構(gòu)架 5 三三系統(tǒng)功能系統(tǒng)功能 6 3 1 信息采集信息采集 6 3 2 中文自然語言處理中文自然語言處理 6 3 3 全文檢索功能全文檢索功能 7 3 4 格式文件檢索格式文件檢索 8 3 5 性能指標(biāo)性能指標(biāo) 8 2 一一項(xiàng)目意義項(xiàng)目意義隨著互聯(lián)網(wǎng)的快速發(fā)展每天有數(shù)千萬條信息生成包括文字信息圖片信息視頻信息語音信息等通過百度谷歌等大型商業(yè)搜索引擎可以找到自己想要的信息但是也存在很多弊端百度谷歌等大型商業(yè)搜索引擎的搜索原理是基于網(wǎng)絡(luò)爬蟲 Spider 在世界各地百萬臺服務(wù)器上爬取網(wǎng)頁數(shù)據(jù) 然后存儲到數(shù)據(jù)庫之后展現(xiàn)給查詢用戶隨著網(wǎng)站數(shù)量以及網(wǎng)絡(luò)上信息更新的快速化這些網(wǎng)絡(luò)爬蟲不能保證把所有的信息都抓到尤其是特殊行業(yè)的行業(yè)信息即便是抓到了也不一定能夠在眾多數(shù)據(jù)中展現(xiàn)出來所以對于一個(gè)部門來講有必要存在一款互聯(lián)網(wǎng)信息檢索系統(tǒng)來檢索某一個(gè)行業(yè)的信息每天自動在各大行業(yè)網(wǎng)站政府網(wǎng)站等數(shù)據(jù)庫中檢索最新信息通過自建的網(wǎng) 絡(luò)爬蟲進(jìn)行目標(biāo)數(shù)據(jù)的抓取存貯歸類展現(xiàn) 通過自己的信息檢索系統(tǒng) 可以讓自己部門每天輕松地獲得世界各地各個(gè)部門都發(fā)生了什么有哪些新的政策方便管理層在最新的信息數(shù)據(jù) 下快速做出正確的決定據(jù)統(tǒng)計(jì) 內(nèi)部網(wǎng)上的信息每年以 200 的速度增長其中發(fā)布到互聯(lián)網(wǎng) 上的信息只占到信息量的 1 2 而 98 以上的信息是發(fā)布在內(nèi)部網(wǎng)上的內(nèi)部網(wǎng)上的信息既有網(wǎng)頁形式的也包含其他 Word PDF XML 等多種格式的數(shù)據(jù) 因此面對內(nèi)部網(wǎng)中海量異構(gòu)的信息資源如何幫助用戶快速找到他們所需要的信息是一個(gè)主要的技術(shù)挑戰(zhàn) 搜索引擎能幫助用戶方便快捷安全地獲取內(nèi)部網(wǎng)上的信息在滿足高效的同時(shí) 更重要的是保證了較高的查全率和查準(zhǔn)率能提供智能化的概念擴(kuò)展搜索極大的提高工作效率內(nèi)部網(wǎng)搜索引擎將組織中分散管理的信息整合在一起在組織層面上實(shí)現(xiàn)新的增值與共享從而有效實(shí)現(xiàn) 組織內(nèi)容利用的最優(yōu)目標(biāo) 搜索引擎的目標(biāo)是實(shí)現(xiàn)內(nèi)部網(wǎng)全文檢索系統(tǒng)可對實(shí)施了內(nèi)部網(wǎng)站資源進(jìn)行爬行無論內(nèi)部網(wǎng)上的數(shù)據(jù)源在何地以何種形式存在都能夠?qū)?其快速地訪問通過準(zhǔn)確的分詞建立索引從而實(shí)現(xiàn)高質(zhì)量的搜索查詢搜索引擎的主要目標(biāo)包括 3 1 較高的查準(zhǔn)率搜索系統(tǒng)支持按詞索引按字索引同時(shí)實(shí)現(xiàn)中文自動分詞 2 較高的查全率搜索系統(tǒng)可搜索各類異構(gòu)的信息資源包括傳統(tǒng) 的網(wǎng)頁信息 Word PDF XML 等不同格式的文檔以及各類主流數(shù)據(jù)庫的表中記錄 3 智能化的檢索結(jié)果排序安全搜索系統(tǒng)應(yīng)采用相關(guān)度分析技術(shù) 將用戶需要的信息排在結(jié)果列表的前面屏蔽無用和錯(cuò)誤的信息二二系統(tǒng)設(shè)計(jì)系統(tǒng)設(shè)計(jì) 2 12 1 技術(shù)原理技術(shù)原理 HX 2055 互聯(lián)網(wǎng)信息檢索系統(tǒng) 以下簡稱 HX 2055 是針對特殊行業(yè) 政府部門決策部門設(shè)計(jì)的一款高效率互聯(lián)網(wǎng)信息檢索系統(tǒng) 采用國際一流程序算法設(shè)計(jì) 系統(tǒng)構(gòu)架與谷歌和百度的搜索引擎擁有共同的技術(shù)特點(diǎn) 能夠保證系統(tǒng)對實(shí)時(shí)信息的快速采集歸類展現(xiàn) 在當(dāng)今信息爆炸的時(shí)代每個(gè)單位或個(gè)人都在為信息的快速增長做出了各種貢獻(xiàn) 信息的種類也在不斷的擴(kuò)展越來越多的非結(jié)構(gòu)化信息不斷出現(xiàn) 包括企業(yè)的各種報(bào)表帳單電子文檔網(wǎng)站的各種元素圖片傳真掃描影像以及大量的多媒體的音頻視頻信息等等所有的存儲數(shù)據(jù)中有 85 采用的是非結(jié)構(gòu)化格式的非結(jié)構(gòu)化信息每三個(gè)月增長一倍由于信息格式的差異很大所以基本無法整合為統(tǒng)一的接口供政府工作人員或廣大群眾方便使用全文檢索是計(jì)算機(jī)程序通過掃描文章中的每一個(gè)詞對每一個(gè)詞建立一個(gè)索引指明該詞在文章中出現(xiàn)的次數(shù)和位置當(dāng)用戶查詢時(shí)根據(jù)建立的索引查找類似于通過字典的檢索字表查字的過程全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務(wù) 的軟件系統(tǒng) 全文檢索系統(tǒng)的核心則具有建立索引處理查詢返回結(jié)果集增加索引優(yōu)化索引結(jié)構(gòu)等功能 HX 2055 全文檢索系統(tǒng)的主要目標(biāo)是實(shí) 現(xiàn)文本索引的快速構(gòu)建 Index Construction 動態(tài)文檔集的索引維護(hù) Index Maintenance 短語查詢 Phrase Query Top K 查詢的快速處理 Top k Query Process 以及各種檢索模型 IR Model 等高性能和靈活 4 的架構(gòu)也使 HX 2055 全文檢索系統(tǒng)可以應(yīng)用在內(nèi)外網(wǎng)檢索專業(yè)系統(tǒng)資料檢索行業(yè)專業(yè)數(shù)據(jù)庫檢索圖 1 HX 2055 系統(tǒng)原理 HX 2055 可以實(shí)現(xiàn)對內(nèi)部網(wǎng)絡(luò)和外部網(wǎng)絡(luò)的信息抓取歸類展現(xiàn) 對于外部網(wǎng)絡(luò) HX 2055 采用網(wǎng)絡(luò)爬蟲定時(shí)對各大行業(yè)網(wǎng)站政府部門網(wǎng)站進(jìn)行數(shù)據(jù) 爬取通過對海量數(shù)據(jù)的挖掘可以建立龐大的外網(wǎng)數(shù)據(jù)庫通過一流的數(shù)據(jù)整理算法簡單快捷方便的展示給使用者 HX 2055 也可以對內(nèi)部網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)的挖掘分析整理展現(xiàn) HX 2055 通過基于局域網(wǎng)的網(wǎng)絡(luò)爬蟲算法可以對政府行業(yè)內(nèi)部網(wǎng)站單位內(nèi)部服務(wù) 器資源等數(shù)據(jù)源進(jìn)行數(shù)據(jù)的抓取包括內(nèi)部網(wǎng)絡(luò)的新政策新聞通知日常文檔文件資料等 5 HX 2055 搜索引擎的系統(tǒng)體系架構(gòu)如圖所示圖 2 HX 2055 內(nèi)部網(wǎng)絡(luò)搜索系結(jié)構(gòu)圖索引模塊索引庫爬行器搜索結(jié)果排序數(shù)據(jù)源注冊資源描述策略描述用戶提交搜索安全過濾數(shù)據(jù)庫爬行控制內(nèi)部數(shù)據(jù) 庫 Web 頁面數(shù)據(jù) 庫表數(shù)據(jù)庫數(shù)據(jù)源 2 電子文檔文件系統(tǒng) 數(shù)據(jù)源 3 電子郵件郵件系統(tǒng) 數(shù)據(jù)源 n 搜索請求返回結(jié)果內(nèi)部網(wǎng)用戶內(nèi)部網(wǎng)站數(shù)據(jù)源 1 引擎實(shí)現(xiàn)了下列主要功能 1 爬行器爬行器根據(jù)資源描述信息對內(nèi)部網(wǎng)中各種異構(gòu)的資源信息進(jìn) 行爬行獲取所有能夠獲得的資源信息資源信息的格式應(yīng)包括 Web 網(wǎng) 頁 Word PDF Excel PPT 等格式的辦公文檔各類主流數(shù)據(jù)庫的表中記錄 2 索引器通過中文分詞技術(shù) 對爬行到的資源信息進(jìn)行解析建立索引文件 3 搜索用戶提交其搜索條件搜索條件經(jīng)過特定處理后在索引文件中檢索出所有滿足搜索條件的資源 2 22 2 系統(tǒng)構(gòu)架系統(tǒng)構(gòu)架全文檢索系統(tǒng)統(tǒng)一搜索平臺的總體架構(gòu)采用三層數(shù)據(jù)層應(yīng)用層和表現(xiàn)層可擴(kuò)展的設(shè)計(jì) 使整個(gè)系統(tǒng)不受硬件平臺的限制具有良好的擴(kuò)展性和可管理性 6 三三系統(tǒng)功能系統(tǒng)功能 3 1 信息采集信息采集 1 采用多線程并發(fā)搜索技術(shù) 2 提供多種采集范圍控制方式包括在指定網(wǎng)站內(nèi) 在指定域內(nèi) 以及在指定 IP 地址范圍等方式 3 可以設(shè)置多種網(wǎng)站采集控制方式包括采集的網(wǎng)頁大小超時(shí)限制等 4 提供高效更新功能對于已經(jīng)采集過的網(wǎng)站更新時(shí)只采集發(fā)生變化和新加入的資源 5 可以靈活設(shè)定采集結(jié)果的存儲方式具有開放性 3 2 中文自然語言處理中文自然語言處理 1 內(nèi)嵌自動分詞系統(tǒng) 有效提高了分詞準(zhǔn)確性 2 在應(yīng)用層上提供自動分類和摘要功能 3 支持按詞索引按字索引按關(guān)鍵詞索引適應(yīng)不同應(yīng)用環(huán)境的需求 7 4 內(nèi)嵌相似性檢索技術(shù) 提供文章的相似性檢索和聚類功能 3 3 全文檢索功能全文檢索功能 1 支持 Web Browser Web Server 檢索方式 2 智能中文分詞采用先進(jìn)的自動分詞系統(tǒng) 根據(jù)大量的語料統(tǒng)計(jì)和分析建立了上萬條的歧義排除規(guī)則因此檢索華人不會把僅僅包含中華人民共和國的文章檢索出來 3 支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的混合檢索 4 允許使用文中的任意字詞句和片段進(jìn)行檢索 5 全方位檢索手段與或非異或 6 對數(shù)值日期等特征字段可以進(jìn)行比較和范圍檢索 7 支持任意一致的通配符檢索模糊檢索 8 支持多網(wǎng)站的全文檢索 9 具備中文自動分詞系統(tǒng) 能有效提高分詞準(zhǔn)確性 10 采用智能中文分詞技術(shù) 建立高效索引庫 11 支持實(shí)時(shí)索引 1分鐘內(nèi) 12 支持增量式實(shí)時(shí)索引 13 多線程設(shè)計(jì) 支持大量并發(fā)用戶訪問每秒并發(fā)達(dá)到50個(gè)以上 14 支持在結(jié)果中查詢 15 支持 GBK BIG5 UTF8 GB18030等編碼采用 UTF8編碼方式實(shí)現(xiàn) 多語言和多文種內(nèi)容的檢索及展現(xiàn) 16 支持中文英文和中英文混合檢索 17 多樣化排序包括按抓取時(shí)間排序按相關(guān)性排序 18 多種條件組合檢索包括標(biāo)題正文以及日期范圍檢索 19 支持關(guān)鍵詞邏輯表達(dá)式組合檢索 20 檢索結(jié)果支持基于查詢關(guān)鍵詞的動態(tài)摘要 21 支持檢索關(guān)鍵詞的高亮顯示 22 將所檢索到的信息可按設(shè)定的模版顯示 23 檢索結(jié)果模板自定義如如文章標(biāo)題文章欄目簡介作者點(diǎn)擊率 8 時(shí)間以及文章類別等 24 支持根據(jù)自動分類的類目進(jìn)行檢索 25 采用 KNN SVM 為基礎(chǔ)的相關(guān)性算法 3 4 格式文件檢索格式文件檢索支持 MS OFFICE PDF HTML 可以對 pdf rtf d

人人文庫> 全部分類> 應(yīng)用文書 > 項(xiàng)目管理

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《信息檢索系統(tǒng)》方案.doc

文檔簡介

溫馨提示

最新文檔

評論

《信息檢索系統(tǒng)》方案.doc

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔