個性化搜索引擎關(guān)鍵技術(shù)及應(yīng)用_第1頁
個性化搜索引擎關(guān)鍵技術(shù)及應(yīng)用_第2頁
個性化搜索引擎關(guān)鍵技術(shù)及應(yīng)用_第3頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、個性化搜索引擎關(guān)鍵技術(shù)及應(yīng)用摘要:網(wǎng)絡(luò)中的資源非常豐富,但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個問題的最好方法。本文首先介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu),然后從網(wǎng)絡(luò)機(jī)器人、索引引擎、Web服務(wù)器3個方面進(jìn)行說明,并從個性化搜索引擎的“個性化”進(jìn)行探討。關(guān)鍵詞:搜索引擎;搜索器;索引器;個性化信息過濾0引言搜索引擎(searchengine是指根據(jù)一定的策略、運用特定的計算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。隨著WWW信息爆炸式生長和人們對搜索引擎關(guān)注點的轉(zhuǎn)變(從如何找到更多的信息轉(zhuǎn)移到如何找

2、到準(zhǔn)確、有用的信息),現(xiàn)有搜索引擎越來越不能滿足人們的查詢要求,搜索引擎技術(shù)面臨著前所未有的挑戰(zhàn)。這就需要人們不斷鉆研新的快速、高效的搜索引擎。搜索引擎一般由信息搜集系統(tǒng)、索引數(shù)據(jù)庫、檢索器和用戶接口4個部分組成:信息搜集系統(tǒng):信息搜集系統(tǒng)又稱為搜索器,即各種搜索引擎的蜘蛛、爬蟲,其功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息;索引數(shù)據(jù)庫有時稱索引器,其功能是理解搜索器所搜索到的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表;檢索器:其功能是根據(jù)用戶的查詢在索引庫中快速檢索文檔,進(jìn)行相關(guān)度評價,對將要輸出的結(jié)果排序,并能按用戶的查詢需求合理反饋信息;用戶接口:用戶接口即傳統(tǒng)的搜索框,其作用

3、是接納用戶查詢、顯示查詢結(jié)果、提供個性化查詢項。1搜索引擎的構(gòu)成1.1網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)機(jī)器人也稱為“網(wǎng)絡(luò)蜘蛛”(Spider),是一個功能很強(qiáng)的Web掃描程序。它可以在掃描Web頁面的同時檢索其內(nèi)的超鏈接并加入掃描隊列等待以后掃描。蜘蛛的工作職責(zé)是發(fā)現(xiàn)新的網(wǎng)頁并收集這些網(wǎng)頁的快照,然后分析該網(wǎng)頁。蜘蛛以抓取頁面為主,比如掃描網(wǎng)頁,所有的搜索引擎都能夠?qū)崿F(xiàn)深層檢索和快速檢索。在深層檢索中,蜘蛛可以查找和掃描網(wǎng)頁內(nèi)的所有內(nèi)容;在快速檢索中,蜘蛛不遵循深層檢索的規(guī)則,只搜索重要的關(guān)鍵詞部分,而不檢查和掃描網(wǎng)頁里的所有內(nèi)容。大家都知道網(wǎng)站最重要的是快照時間,也就是說蜘蛛爬行和收錄的網(wǎng)頁速度越快,就說明這

4、個網(wǎng)站在搜索引擎心中越重要,比如新華網(wǎng)和人民網(wǎng),蜘蛛每小時爬4次以上,有的網(wǎng)站一個月也不見得能被蜘蛛爬一次??煺盏淖ト〕潭热Q于網(wǎng)站內(nèi)容的流行度、更新速度與網(wǎng)站域名的新舊。在蜘蛛的爬行規(guī)則中,如果有許多外部鏈接指向這個網(wǎng)站,那就說明這個網(wǎng)站比較重要,所以抓取這個網(wǎng)站的頻率很高。當(dāng)然,搜索引擎這樣做也是為了省錢,如果都以同樣的頻率爬行所有網(wǎng)站,這樣需要更多的時間和成本,才能得到更全面的搜索1.2索引與搜索網(wǎng)絡(luò)機(jī)器人將遍歷得到的頁面存放在臨時數(shù)據(jù)庫中,如果通過SQL直接查詢信息速度將會難以忍受。為了提高檢索效率,需要建立索引,按照倒排文件的格式存放,而且索引需要及時的更新。用戶輸入搜索條件后搜索程

5、序?qū)⑼ㄟ^索引數(shù)據(jù)庫進(jìn)行檢索然后把符合查詢要求的數(shù)據(jù)庫按照一定的策略進(jìn)行分級排列并且返回給用戶。1.3Web服務(wù)器客戶一般通過瀏覽器進(jìn)行查詢,這就需要系統(tǒng)提供Web服務(wù)器并且與索引數(shù)據(jù)庫進(jìn)行連接??蛻粼跒g覽器中輸入查詢條件,Web服務(wù)器接收到客戶的查詢條件后在索引數(shù)據(jù)庫中進(jìn)行查詢、排列然后返回給客戶端。2搜索引擎的分類搜索引擎按其工作方式主要可分為3種,分別是全文搜索引擎(FullTextSearchEngine)、目錄索引類搜索引擎(SearchIndex/Directory)和元搜索引擎(MetaSearchEngine。2.1全文搜索引擎全文索引引擎是名副其實的搜索引擎,國外代表有Goog

6、le,國內(nèi)知名的百度搜索。它們從互聯(lián)網(wǎng)提取各個網(wǎng)站的信息(以網(wǎng)頁文字為主),建立起數(shù)據(jù)庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類:一類擁有自己的網(wǎng)頁抓取、索引、檢索系統(tǒng)(Indexer),有獨立的“蜘蛛”(Spider)程序、或爬蟲(Crawler)、或“機(jī)器人”(Robot)程序(這三種稱法意義相同),能自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,女口Lycos搜索引擎。2.2目錄搜索引擎實際上它們算不上是搜索引擎

7、,僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo。其他著名的還有OpenDirectory(DMOZ)、LookSmart、About等。國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。2.3元搜索引擎元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。3搜索引擎技術(shù)的現(xiàn)狀目前的搜索引擎仍然存在不少的局限性。概括起來主要有信息丟失、檢索結(jié)果中存在著大量垃圾信息、對自然語言提問沒有理解能力、對多媒體內(nèi)容的檢索尚不成熟等等。本文認(rèn)為未來的搜索引擎應(yīng)考慮這

8、樣幾個方向:智能化搜索、個性化搜索、結(jié)構(gòu)化搜索、專業(yè)化搜索和本土化搜索等。4個性化搜索引擎的關(guān)鍵技術(shù)4.1個性化信息服務(wù)個性化信息服務(wù)主要包括兩個方面的含義:第一、個性化信息是反映人類個體特性的一切信息,這些信息包括了這個個體所具有的各種屬性的描述;第二、個性化信息是由人類個體特性所決定的其對信息的需求的一種信息組合,也就是由人類個性對信息需求的決定關(guān)系而產(chǎn)生的一系列對個體有用的信息。4.2Agent技術(shù)Agent的概念由Minsky在其1986年出版的思維的社會一書中提出。Minsky認(rèn)為社會中的某些個體經(jīng)過協(xié)商之后可求得問題的解,這些個體就是Agent。他還認(rèn)為Agent應(yīng)具有社會交互性和

9、智能性。從此,Agent的概念便被引入人工智能和計算機(jī)領(lǐng)域,并迅速成為研究熱點。在分布計算領(lǐng)域,人們通常把在分布式系統(tǒng)中持續(xù)自主發(fā)揮作用的、具有以下特征的活著的計算實體稱為Agent。一般認(rèn)為Agent具有如下特征:自主性、交互性、反應(yīng)性、主動性。5結(jié)束語目前,國人已經(jīng)越來越關(guān)注中文個性化搜索引擎的開發(fā),雖然現(xiàn)在已經(jīng)有了一定的基礎(chǔ),但它距離成為一個成熟的產(chǎn)品,道路還很漫長。搜索引擎的個性化服務(wù)使搜索引擎能夠分析檢索者的瀏覽行為來學(xué)習(xí)檢索者的需求,利用搜索引擎的現(xiàn)有服務(wù),有選擇地為用戶提供個性化服務(wù),達(dá)到向用戶推送他們真正感興趣的信息。而現(xiàn)在,飛速發(fā)展的智能代理技術(shù)以一種完全不同的方式提供智能化的信息獲取和處理手段,能夠滿足用戶的個性化需求。因此,搜索引擎的發(fā)展應(yīng)是在實現(xiàn)個性化的同時,向智能化服務(wù)的方向發(fā)展。參考文獻(xiàn):1 陳根栓,寇敏,宋文中Web搜索引擎技術(shù)及應(yīng)用J.山西電子技術(shù),2000(6).2 莊毅,黎浩宏.搜索引擎發(fā)展現(xiàn)狀

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論