中文智能搜索引擎技術研究_第1頁
中文智能搜索引擎技術研究_第2頁
中文智能搜索引擎技術研究_第3頁
中文智能搜索引擎技術研究_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、中文智能搜索引擎技術研究中文智能搜索引擎技術研究引言隨著互聯(lián)網的快速開展,網絡信息量不斷增加。面對數(shù)量龐大,種類多樣的信息,一般搜索引擎無法為用戶提供準確的檢索結果,開發(fā)新的搜索引擎勢在必行。智能搜索引擎不僅要進步信息檢索準確性和全面性,還要滿足用戶個性等搜索信息需求。搜索引擎與智能代理相結合的智能化搜索引擎技術可以比擬好的實現(xiàn)這一目的。1搜索引擎1.1搜索引擎根本原理搜索引擎由信息搜集系統(tǒng)、文件處理系統(tǒng)、索引系統(tǒng)和檢索系統(tǒng)組成。信息搜集系統(tǒng)通過網頁抓取程序spider在網絡中順著網頁的超鏈接抓取網頁,搜集文檔的根本信息并下載至搜索引擎本地,然后將文檔和其根本信息分開,并保存到原始文檔數(shù)據庫和

2、文檔信息數(shù)據庫中。文件處理系統(tǒng)負責將需要索引的文件轉換成具有統(tǒng)一編碼格式的文本文件。信息搜集系統(tǒng)從網絡上下載文件,保存到本地供索引器索引。文件文本格式種類繁多,如純文本文件、htl格式文件、rd文件、pdf文檔等,文本格式一樣的文件,字符編碼方式也不盡一樣。文件的異構性要求文件處理系統(tǒng)將各種不同格式的類文本文件轉換成純文本文件。索引系統(tǒng)將程序搜集到的文件進展處理,建立索引庫和索引。相關處理還包括去除重復網頁、分詞中文、判斷網頁類型、分析超鏈接,計算網頁的重要度、豐富度等。檢索系統(tǒng)通過用戶輸入的關鍵詞從索引數(shù)據庫中找到與關鍵詞匹配的網頁,并按照文檔得分的上下依次顯示在用戶閱讀器中。1.2傳統(tǒng)搜索

3、引擎的局限性面對浩如煙海的網絡信息,用戶想要通過一般搜索引擎獲取準確和全面的信息較困難。其局限性表如今:1信息檢索方式單一。搜索引擎一般提供網站分類查詢和關鍵詞全文檢索兩種方式,這兩種方法均容易造成信息喪失,不能全面檢索用戶需要的信息;不能對用戶輸入的關鍵詞進展詞意分析和詞意擴展。如今信息的多樣化要求搜索引擎不僅要檢索出文檔,還要檢索需要的圖片、視頻、音頻等。2不能個性化制定。傳統(tǒng)搜索引擎提供一樣的界面和檢索策略,不能提供用戶信息定制,不同用戶輸入一樣的查詢條件返回的結果一樣。不同領域的用戶對同一個關鍵詞的搜索返回的檢索結果應該不一樣,智能搜索引擎能根據用戶專業(yè)背景和網頁閱讀歷史檢索出用戶需求

4、的信息。3對信息的標引深度不夠。搜索引擎檢索的結果往往只提供線形的網址和包括關鍵詞的網頁信息,或者返回過多的無用信息,特別是對特定文獻數(shù)據庫的檢索更顯得無能為力1。4信息更新才能低。搜索引擎信息搜集和查詢是兩個別離的過程,缺少有機結合。網絡信息資源呈分布式、動態(tài)、快速增長,搜索引擎的集中化架構不能跟上文檔的擴張速度,也就不能有規(guī)律地及時更新數(shù)據庫,用戶檢索到的結果可能不是最新信息。2智能搜索引擎智能搜索引擎應擺脫傳統(tǒng)搜索引擎的局限性,更加智能化,更具主動性,提供多元化的檢索方式,為用戶提供個性化制定,檢索出滿足用戶個性需求。2.1智能搜索引擎主本文由論文聯(lián)盟搜集整理要特征1智能性。智能化搜索引

5、擎網絡蜘蛛通過自主啟發(fā)式學習選擇最有效的搜索策略和最正確時機,在特定站點或者整個因特網搜集和整理信息。智能化搜索引擎可以將多個引擎的搜索結果進展整合,作為一個整體存放到數(shù)據庫中。2個性化。智能化搜索引擎提供個性化制定效勞,用戶注冊根本信息,如年齡、專業(yè)背景、工作方向等,通過分析用戶根本信息及平時閱讀網頁的記錄制定出用戶興趣模塊,檢索出來的信息和用戶興趣相關,不同興趣的用戶輸入同一個關鍵詞返回的結果可能不同。3多元化。智能化搜索引擎有多元化的檢索方式,提供基于群眾的搜索分析,基于自然語言、關鍵詞、概念和上下文,通過相關反應技術檢索可選擇查詢途徑。對關鍵詞進展詞意擴展和詞意派生,實現(xiàn)準確的分詞,從

6、而更加準確地把握用戶的搜索需求。4協(xié)作性。智能化搜索引擎能通過各種通信協(xié)議和其它智能代理進展信息交流,并可以互相協(xié)調共同完成復雜任務2。2.2智能搜索引擎技術要實現(xiàn)智能化搜索引擎,當前要特別加強對漢語分詞技術、短語識別技術、同義詞處理技術、知識庫與推理機應有技術和人機對話智能技術的研究。智能化搜索引擎對語義的理解主要表達在以下兩個方面:一是對用戶輸入的關鍵詞的理解;二是對網頁信息內容的理解。傳統(tǒng)搜索引擎對關鍵字的識別是較機械的匹配方式,容易造成信息不準確和喪失。智能化搜索引擎可對用戶輸入的關鍵詞進展語義理解,并返回用戶想要的信息。自然語言語義理解的技術主要有4種:漢語分詞技術。中國文化博大精深

7、,語句是由各種詞語按照一定的語序組成的。漢語對詞語的劃分相對英文來說復雜得多,漢語詞語可以是由一個字或者多個字組成。漢語分詞技術主要有基于字典、詞庫匹配的分詞、基于詞頻度和基于知識理解的分詞,通過這些方法準確把握用戶輸入關鍵詞的含義;短語識別技術。短語是由詞語所構成的,是句子中根本的識別單位,在漢語句法分析和語義分析中具有重大意義。用戶搜索有時需要對關鍵詞加一定的修飾詞,例如關鍵字為搜索,參加修飾詞可為個性化的搜索,前者就是詞語,后者為短語。需要通過短語識別技術對關鍵詞進展正確的分詞,從而準確理解用戶的查詢需求;同義詞處理技術。包括基于詞匯字面相似度算法、基于詞素的語義相似度算法以及基于?同義

8、詞詞林?、?知網?等語義詞典的語義相似度算法。主要依靠人工方式構造同義詞庫等輔助詞庫,利用搜索引擎主動聯(lián)想技術實現(xiàn)對同義詞的聯(lián)想,準確把握用戶關鍵詞語義;知識庫構建技術。知識庫包含各種詞典,詞典按其功能不同可分成定義詞詞典、同名詞詞典、派生詞詞典等,詞典按詞確實定性又可分成系統(tǒng)詞典與用戶詞典。這些詞典構成了一個龐大而復雜的知識庫。人機接口智能化主要有以下技術:人機交互界面技術。智能化搜索引擎界面具有智能化、多元化、個性化等特點。其技術主要包括搜索懇求提交技術、搜索結果表現(xiàn)技術、搜索向導技術、搜索行為分析技術。其中,搜索行為分析技術是個性化搜索的關鍵技術,它通過分析用戶的閱讀記錄和搜索習慣來進步搜索效率;關聯(lián)式綜合搜索。將圖片、新聞等各種有關聯(lián)的信息呈如今同一界面上,用戶搜索時只需查詢一次,即可在同一界面得到各種有關聯(lián)的查詢結果。隨著云技術的出現(xiàn),智能搜索引擎將全球效勞器當作一個云系統(tǒng),從而極大提升從數(shù)據庫中提取信息速度。云技術的成熟可以有效提升搜索引擎的算法速度,進步智能搜索引擎的運行速度3。3結語智能化搜索引擎技術的開展首先應該解決目前搜索引擎的局限性,然后再添加智能搜索。智能搜索引擎應該在以下幾個方面尋求開展:提供友好的查詢界面;多元化的檢索方式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論