搜索引擎的工作原理與挑戰(zhàn)分析_第1頁(yè)
搜索引擎的工作原理與挑戰(zhàn)分析_第2頁(yè)
搜索引擎的工作原理與挑戰(zhàn)分析_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

搜索引擎的工作原理與挑戰(zhàn)分析

1根據(jù)搜索引擎提取數(shù)據(jù)的方法,可將搜索引擎系統(tǒng)可以分為三大類:1.1目錄式搜索引擎:是一種網(wǎng)站級(jí)搜索引擎。目錄式搜索引擎由分類專家將網(wǎng)絡(luò)信息按照主題分成若干個(gè)大類,每個(gè)大類再分為若干個(gè)小類,依次細(xì)分,一般的搜索引擎分類體系有五六層,有的甚至十幾層。先由程序自動(dòng)搜集信息,然后由編輯員查看信息,人工形成信息摘要,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,因此其搜索的準(zhǔn)確度是相當(dāng)高的,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不夠及時(shí)。Yahoo就是這類搜索引擎的代表。12機(jī)器人搜索引擎:Robot(機(jī)器人)一詞大家并不陌生,ComputerRobot是指某個(gè)能以人類無(wú)法達(dá)到的速度不斷重復(fù)執(zhí)行某項(xiàng)任務(wù)的自動(dòng)程序。由于專門(mén)用于檢索信息的Robot程序象蜘蛛(spider)一樣在網(wǎng)絡(luò)間爬來(lái)爬去,因此,搜索引擎的Robot程序被稱為spider程序。搜索引擎主動(dòng)派出稱為蜘蛛(Spider)的機(jī)器人程序定期搜索(比如Google一般是28天),對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過(guò)多,有很多無(wú)關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。Google、北大天網(wǎng)、百度(Baidu)就是這類搜索引擎的代表。2搜索引擎的性能指標(biāo)搜索引擎的目標(biāo)就是在非常短的時(shí)間內(nèi)搜索的信息全面并且準(zhǔn)確。傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)——召回率和精度同樣也可以衡量一個(gè)搜索引擎的性能。召回率是檢索出的相關(guān)文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查全率;精度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查準(zhǔn)率。對(duì)于一個(gè)檢索系統(tǒng)來(lái)講,召回率和精度不可能兩全其美:召回率高時(shí),精度低;精度高時(shí),召回率低。因?yàn)闆](méi)有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的WEB網(wǎng)頁(yè),所以召回率很難計(jì)算。對(duì)于網(wǎng)民來(lái)說(shuō),互聯(lián)網(wǎng)上的信息不是不夠,而是“過(guò)?!?,如何精確查找到信息是大家所關(guān)心的問(wèn)題。因此,目前的搜索引擎系統(tǒng)都非常關(guān)心精度。3搜索引擎面臨的挑戰(zhàn)目前搜索引擎是網(wǎng)絡(luò)上被使用頻率最高的服務(wù)項(xiàng)目之一。隨著Internet的強(qiáng)勢(shì)發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾日益突出。國(guó)際數(shù)據(jù)公司(IDC)曾公布的一份報(bào)告表明,被大肆宣傳為“使用簡(jiǎn)便易用,搜索結(jié)果豐富”的搜索引擎技術(shù)正在被信息更集中的局域網(wǎng)取代,因?yàn)榇蠖鄶?shù)搜索系統(tǒng)的表現(xiàn)與用戶的期望值相差太大,諸如數(shù)據(jù)量高速增長(zhǎng)的視頻、音頻等多媒體信息的檢索,現(xiàn)在仍然是無(wú)法突破的難題。搜索引擎越來(lái)越不能滿足挑剔的網(wǎng)民們的各種信息需求,這表現(xiàn)在以下幾個(gè)方面:收集的網(wǎng)頁(yè)數(shù)量和其數(shù)據(jù)庫(kù)的更新速度存在著不可調(diào)和的矛盾。用戶經(jīng)常無(wú)法打開(kāi)查詢的結(jié)果。網(wǎng)絡(luò)信息時(shí)刻變動(dòng),實(shí)時(shí)搜索幾乎不可能。就是剛剛瀏覽過(guò)的網(wǎng)頁(yè),也隨時(shí)都有更新、過(guò)期、刪除的可能。網(wǎng)絡(luò)信息收集與整理是搜索引擎工作的重要一部分。搜索引擎需要定期不斷地訪問(wèn)網(wǎng)絡(luò)資源。目前網(wǎng)絡(luò)帶寬不足,網(wǎng)絡(luò)速度不夠理想,遍歷如此龐雜的網(wǎng)絡(luò)時(shí)間花費(fèi)是非常龐大的,這就是不能實(shí)時(shí)搜索的原因。對(duì)多媒體內(nèi)容的處理尚不成熟。迄今為止,搜索對(duì)象主要是文本。基于語(yǔ)義的多媒體搜索技術(shù)還不成熟,比如搜索圖片時(shí)還只能通過(guò)周圍相關(guān)的文字進(jìn)行判斷,而無(wú)法根據(jù)圖片本身的信息提供檢索。多媒體技術(shù)的發(fā)展,對(duì)搜索引擎提出了更多的要求。人們期望引擎不僅能挑出自己需要的文章,還能挑出自己所關(guān)心的圖片、電影、音樂(lè)等。搜索引擎的“智能”有待提高。一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自動(dòng)排序軟件Spiders蜘蛛程序,只能接受這種格式的網(wǎng)頁(yè)。這意味著,在企業(yè)內(nèi)部的局域網(wǎng)上,任何沒(méi)有使用HTML格式的信息將無(wú)法被外部的搜索引擎查到。這就是為什么像PPT、Word、PDF、電子郵件等文件,以及ERP、CRM等應(yīng)用軟件的數(shù)據(jù)庫(kù)的信息會(huì)長(zhǎng)期的“沉沒(méi)”在信息的海底中。智能搜索引擎具有跨平臺(tái)工作和處理多種混合文檔結(jié)構(gòu)的能力。譬如既能處理HTML(HyperTextMarkupLanguage,超文本標(biāo)志語(yǔ)言),又能處理SGML(StandardforGeneralMarkupLanguage,通用標(biāo)志語(yǔ)言標(biāo)準(zhǔn))和XML(ExtendedMarkedLanguage,擴(kuò)展標(biāo)志語(yǔ)言)文檔以及其他類型的文檔,譬如Word、WPS等。智能搜索引擎應(yīng)該可以支持多語(yǔ)言搜索。搜索引擎應(yīng)更好地支持動(dòng)態(tài)網(wǎng)頁(yè),許多蜘蛛軟件不敢去碰動(dòng)態(tài)網(wǎng)頁(yè),怕被變化無(wú)窮的動(dòng)態(tài)系統(tǒng)黑洞吸進(jìn)去出不來(lái)。然而,網(wǎng)站使用動(dòng)態(tài)網(wǎng)頁(yè)生成工具乃是大事所趨,解決動(dòng)態(tài)網(wǎng)頁(yè)查找的問(wèn)題已經(jīng)迫在眉睫。如何解決這些難題已成為第三代搜索引擎探索的方向。一個(gè)好的搜

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論