《信息檢索系統(tǒng)》方案.doc_第1頁
《信息檢索系統(tǒng)》方案.doc_第2頁
《信息檢索系統(tǒng)》方案.doc_第3頁
《信息檢索系統(tǒng)》方案.doc_第4頁
《信息檢索系統(tǒng)》方案.doc_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

0 HX 2055HX 2055 信息檢索系統(tǒng)方案信息檢索系統(tǒng)方案 1 目錄目錄 一一 項(xiàng)目意義項(xiàng)目意義 2 二二 系統(tǒng)設(shè)計(jì)系統(tǒng)設(shè)計(jì) 3 2 12 1 技術(shù)原理技術(shù)原理 3 2 22 2 系統(tǒng)構(gòu)架系統(tǒng)構(gòu)架 5 三三 系統(tǒng)功能系統(tǒng)功能 6 3 1 信息采集信息采集 6 3 2 中文自然語言處理中文自然語言處理 6 3 3 全文檢索功能全文檢索功能 7 3 4 格式文件檢索格式文件檢索 8 3 5 性能指標(biāo)性能指標(biāo) 8 2 一一 項(xiàng)目意義項(xiàng)目意義 隨著互聯(lián)網(wǎng)的快速發(fā)展 每天有數(shù)千萬條信息生成 包括文字信息 圖片信息 視頻信息 語音信息等 通過百度 谷歌等大型商業(yè)搜索引擎 可以找到自己想要的信息 但是也存在很多弊端 百度 谷歌等大型商業(yè)搜索引擎的搜索原理是基于網(wǎng)絡(luò)爬蟲 Spider 在世界各地百萬臺服務(wù)器上爬取網(wǎng)頁數(shù)據(jù) 然后存儲到數(shù)據(jù)庫 之后展現(xiàn)給查詢用戶 隨著網(wǎng)站數(shù)量以及網(wǎng)絡(luò)上信息更新的快速化 這些 網(wǎng)絡(luò)爬蟲不能保證把所有的信息都抓到 尤其是特殊行業(yè)的行業(yè)信息 即 便是抓到了也不一定能夠在眾多數(shù)據(jù)中展現(xiàn)出來 所以 對于一個(gè)部門來 講 有必要存在一款互聯(lián)網(wǎng)信息檢索系統(tǒng)來檢索某一個(gè)行業(yè)的信息 每天 自動在各大行業(yè)網(wǎng)站 政府網(wǎng)站等數(shù)據(jù)庫中檢索最新信息 通過自建的網(wǎng) 絡(luò)爬蟲進(jìn)行目標(biāo)數(shù)據(jù)的抓取 存貯 歸類 展現(xiàn) 通過自己的信息檢索系統(tǒng) 可以讓自己部門每天輕松地獲得世界各地 各個(gè)部門都發(fā)生了什么 有哪些新的政策 方便管理層在最新的信息數(shù)據(jù) 下快速做出正確的決定 據(jù)統(tǒng)計(jì) 內(nèi)部網(wǎng)上的信息每年以 200 的速度增長 其中發(fā)布到互聯(lián)網(wǎng) 上的信息只占到信息量的 1 2 而 98 以上的信息是發(fā)布在內(nèi)部網(wǎng)上的 內(nèi)部網(wǎng)上的信息既有網(wǎng)頁形式的 也包含其他 Word PDF XML 等多種格式 的數(shù)據(jù) 因此 面對內(nèi)部網(wǎng)中海量異構(gòu)的信息資源 如何幫助用戶快速找 到他們所需要的信息是一個(gè)主要的技術(shù)挑戰(zhàn) 搜索引擎能幫助用戶方便 快捷 安全地獲取內(nèi)部網(wǎng)上的信息 在滿 足高效的同時(shí) 更重要的是保證了較高的查全率和查準(zhǔn)率 能提供智能化 的概念擴(kuò)展搜索 極大的提高工作效率 內(nèi)部網(wǎng)搜索引擎將組織中分散管 理的信息整合在一起 在組織層面上實(shí)現(xiàn)新的增值與共享 從而有效實(shí)現(xiàn) 組織內(nèi)容利用的最優(yōu)目標(biāo) 搜索引擎的目標(biāo)是實(shí)現(xiàn)內(nèi)部網(wǎng)全文檢索 系統(tǒng)可對實(shí)施了內(nèi)部網(wǎng)站資 源進(jìn)行爬行 無論內(nèi)部網(wǎng)上的數(shù)據(jù)源在何地 以何種形式存在 都能夠?qū)?其快速地訪問 通過準(zhǔn)確的分詞建立索引 從而實(shí)現(xiàn)高質(zhì)量的搜索查詢 搜索引擎的主要目標(biāo)包括 3 1 較高的查準(zhǔn)率 搜索系統(tǒng)支持按詞索引 按字索引 同時(shí)實(shí)現(xiàn)中 文自動分詞 2 較高的查全率 搜索系統(tǒng)可搜索各類異構(gòu)的信息資源 包括傳統(tǒng) 的網(wǎng)頁信息 Word PDF XML 等不同格式的文檔以及各類主流數(shù)據(jù)庫的表 中記錄 3 智能化的檢索結(jié)果排序 安全搜索系統(tǒng)應(yīng)采用相關(guān)度分析技術(shù) 將用戶需要的信息排在結(jié)果列表的前面 屏蔽無用和錯(cuò)誤的信息 二二 系統(tǒng)設(shè)計(jì)系統(tǒng)設(shè)計(jì) 2 12 1 技術(shù)原理技術(shù)原理 HX 2055 互聯(lián)網(wǎng)信息檢索系統(tǒng) 以下簡稱 HX 2055 是針對特殊行業(yè) 政府部門 決策部門設(shè)計(jì)的一款高效率互聯(lián)網(wǎng)信息檢索系統(tǒng) 采用國際一 流程序算法設(shè)計(jì) 系統(tǒng)構(gòu)架與谷歌和百度的搜索引擎擁有共同的技術(shù)特點(diǎn) 能夠保證系統(tǒng)對實(shí)時(shí)信息的快速采集 歸類 展現(xiàn) 在當(dāng)今信息爆炸的時(shí)代 每個(gè)單位或個(gè)人都在為信息的快速增長做出 了各種貢獻(xiàn) 信息的種類也在不斷的擴(kuò)展 越來越多的非結(jié)構(gòu)化信息不斷 出現(xiàn) 包括企業(yè)的各種報(bào)表 帳單 電子文檔 網(wǎng)站的各種元素 圖片 傳真 掃描影像 以及大量的多媒體的音頻 視頻信息等等 所有的存儲 數(shù)據(jù)中 有 85 采用的是非結(jié)構(gòu)化格式的 非結(jié)構(gòu)化信息每三個(gè)月增長一 倍 由于信息格式的差異很大 所以基本無法整合為統(tǒng)一的接口供政府工 作人員或廣大群眾方便使用 全文檢索是計(jì)算機(jī)程序通過掃描文章中的每一個(gè)詞 對每一個(gè)詞建立 一個(gè)索引 指明該詞在文章中出現(xiàn)的次數(shù)和位置 當(dāng)用戶查詢時(shí)根據(jù)建立 的索引查找 類似于通過字典的檢索字表查字的過程 全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務(wù) 的軟件系統(tǒng) 全文檢索系統(tǒng)的核心則具有建立索引 處理查詢返回結(jié)果集 增加索引 優(yōu)化索引結(jié)構(gòu)等功能 HX 2055 全文檢索系統(tǒng)的主要目標(biāo)是實(shí) 現(xiàn)文本索引的快速構(gòu)建 Index Construction 動態(tài)文檔集的索引維護(hù) Index Maintenance 短語查詢 Phrase Query Top K 查詢的快速處理 Top k Query Process 以及各種檢索模型 IR Model 等 高性能和靈活 4 的架構(gòu)也使 HX 2055 全文檢索系統(tǒng)可以應(yīng)用在內(nèi)外網(wǎng)檢索 專業(yè)系統(tǒng)資料 檢索 行業(yè)專業(yè)數(shù)據(jù)庫檢索 圖 1 HX 2055 系統(tǒng)原理 HX 2055 可以實(shí)現(xiàn)對內(nèi)部網(wǎng)絡(luò)和外部網(wǎng)絡(luò)的信息抓取 歸類 展現(xiàn) 對于外 部網(wǎng)絡(luò) HX 2055 采用網(wǎng)絡(luò)爬蟲定時(shí)對各大行業(yè)網(wǎng)站 政府部門網(wǎng)站進(jìn)行數(shù)據(jù) 爬取 通過對海量數(shù)據(jù)的挖掘可以建立龐大的外網(wǎng)數(shù)據(jù)庫 通過一流的數(shù)據(jù)整 理算法 簡單 快捷 方便的展示給使用者 HX 2055 也可以對內(nèi)部網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)的挖掘 分析 整理 展現(xiàn) HX 2055 通過基于局域網(wǎng)的網(wǎng)絡(luò)爬蟲算法 可以對政府 行業(yè)內(nèi)部網(wǎng)站 單位內(nèi)部服務(wù) 器資源等數(shù)據(jù)源進(jìn)行數(shù)據(jù)的抓取 包括內(nèi)部網(wǎng)絡(luò)的新政策 新聞通知 日常文 檔 文件資料等 5 HX 2055 搜索引擎的系統(tǒng)體系架構(gòu)如圖所示 圖 2 HX 2055 內(nèi)部網(wǎng)絡(luò)搜索系結(jié)構(gòu)圖 索引模塊 索 引 庫 爬 行 器 搜索結(jié)果排序 數(shù)據(jù)源注冊 資源 描述 策略描述 用戶提交搜索 安全過濾 數(shù)據(jù)庫 爬行控制 內(nèi)部數(shù)據(jù) 庫 Web 頁面 數(shù)據(jù) 庫表 數(shù)據(jù)庫 數(shù)據(jù)源 2 電子 文檔 文件系統(tǒng) 數(shù)據(jù)源 3 電子 郵件 郵件系統(tǒng) 數(shù)據(jù)源 n 搜索請求 返回結(jié)果 內(nèi)部網(wǎng)用戶 內(nèi)部網(wǎng)站 數(shù)據(jù)源 1 引擎實(shí)現(xiàn)了下列主要功能 1 爬行器 爬行器根據(jù)資源描述信息對內(nèi)部網(wǎng)中各種異構(gòu)的資源信息進(jìn) 行爬行 獲取所有能夠獲得的資源信息 資源信息的格式應(yīng)包括 Web 網(wǎng) 頁 Word PDF Excel PPT 等格式的辦公文檔 各類主流數(shù)據(jù)庫的表中 記錄 2 索引器 通過中文分詞技術(shù) 對爬行到的資源信息進(jìn)行解析 建立索 引文件 3 搜索 用戶提交其搜索條件 搜索條件經(jīng)過特定處理后 在索引文件 中檢索出所有滿足搜索條件的資源 2 22 2 系統(tǒng)構(gòu)架系統(tǒng)構(gòu)架 全文檢索系統(tǒng)統(tǒng)一搜索平臺的總體架構(gòu)采用三層 數(shù)據(jù)層 應(yīng)用層和表現(xiàn)層 可擴(kuò)展 的設(shè)計(jì) 使整個(gè)系統(tǒng)不受硬件平臺的限制 具有良好的擴(kuò)展性和可管理性 6 三三 系統(tǒng)功能系統(tǒng)功能 3 1 信息采集信息采集 1 采用多線程并發(fā)搜索技術(shù) 2 提供多種采集范圍控制方式 包括在指定網(wǎng)站內(nèi) 在指定域內(nèi) 以及在 指定 IP 地址范圍等方式 3 可以設(shè)置多種網(wǎng)站采集控制方式 包括采集的網(wǎng)頁大小 超時(shí)限制等 4 提供高效更新功能 對于已經(jīng)采集過的網(wǎng)站 更新時(shí)只采集發(fā)生變化和 新加入的資源 5 可以靈活設(shè)定采集結(jié)果的存儲方式 具有開放性 3 2 中文自然語言處理中文自然語言處理 1 內(nèi)嵌自動分詞系統(tǒng) 有效提高了分詞準(zhǔn)確性 2 在應(yīng)用層上 提供自動分類和摘要功能 3 支持按詞索引 按字索引 按關(guān)鍵詞索引 適應(yīng)不同應(yīng)用環(huán)境的需求 7 4 內(nèi)嵌相似性檢索技術(shù) 提供文章的相似性檢索和聚類功能 3 3 全文檢索功能全文檢索功能 1 支持 Web Browser Web Server 檢索方式 2 智能中文分詞 采用先進(jìn)的自動分詞系統(tǒng) 根據(jù)大量的語料統(tǒng)計(jì)和分析 建立了上萬條的歧義排除規(guī)則 因此檢索 華人 不會把僅僅包含 中華人民共和 國 的文章檢索出來 3 支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的混合檢索 4 允許使用文中的任意字 詞 句和片段進(jìn)行檢索 5 全方位檢索手段 與 或 非 異或 6 對數(shù)值 日期等特征字段可以進(jìn)行比較和范圍檢索 7 支持任意一致的通配符檢索 模糊檢索 8 支持多網(wǎng)站的全文檢索 9 具備中文自動分詞系統(tǒng) 能有效提高分詞準(zhǔn)確性 10 采用智能中文分詞技術(shù) 建立高效索引庫 11 支持實(shí)時(shí)索引 1分鐘內(nèi) 12 支持增量式實(shí)時(shí)索引 13 多線程設(shè)計(jì) 支持大量并發(fā)用戶訪問 每秒并發(fā)達(dá)到50個(gè)以上 14 支持在結(jié)果中查詢 15 支持 GBK BIG5 UTF8 GB18030等編碼 采用 UTF8編碼方式實(shí)現(xiàn) 多語言和多文種內(nèi)容的檢索及展現(xiàn) 16 支持中文 英文和中英文混合檢索 17 多樣化排序 包括按抓取時(shí)間排序 按相關(guān)性排序 18 多種條件組合檢索 包括標(biāo)題 正文以及日期范圍檢索 19 支持關(guān)鍵詞邏輯表達(dá)式組合檢索 20 檢索結(jié)果支持基于查詢關(guān)鍵詞的動態(tài)摘要 21 支持檢索關(guān)鍵詞的高亮顯示 22 將所檢索到的信息可按設(shè)定的模版顯示 23 檢索結(jié)果模板自定義如 如文章標(biāo)題 文章欄目 簡介 作者 點(diǎn)擊率 8 時(shí)間以及文章類別等 24 支持根據(jù)自動分類的類目進(jìn)行檢索 25 采用 KNN SVM 為基礎(chǔ)的相關(guān)性算法 3 4 格式文件檢索格式文件檢索 支持 MS OFFICE PDF HTML 可以對 pdf rtf d

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論