




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、網(wǎng)絡搜索引擎的實踐應用研究論文網(wǎng)絡搜索引擎的實踐應用研究13搜索引擎的檢索機制614搜索引擎的基本工作原理615搜索引擎的分類8第二章中外搜索引擎發(fā)展現(xiàn)狀比較研究102.1國外的比較研究102.2國內(nèi)的比較研究10第三章各大搜索引擎的比較研究133.1百度搜索引擎介紹和研究133.2 google搜索引擎的介紹和研究133.3網(wǎng)易搜索引擎的介紹與研究14第四章搜索引擎的五大問題164.1 flash 優(yōu)化 164.2內(nèi)容管理系統(tǒng)(cms)的優(yōu)化164.3 frames 的優(yōu)化 164.4購物系統(tǒng)(shopping carts)的優(yōu)化174.5圖片型索引頁/主頁的優(yōu)化17第五章搜索引擎的未來發(fā)展
2、趨勢195.1大型綜合性的搜索引擎與小型專業(yè)專題性搜索引擎協(xié)調(diào)發(fā)展19 5.2查詢智能化195.3制定分編網(wǎng)頁內(nèi)容的標準語言和格式并倡導實行20 5.4多媒體搜索引擎的發(fā)展2055多語種檢索、本土化服務205.6增加個性化服務與特色服務205.7收費型與免費型搜索引擎并存21結束語22參考文獻83網(wǎng)絡搜索引擎的實踐應用研究摘要:隨著科技的不斷發(fā)展,搜索引擎會越來越強大,必然會成為網(wǎng)絡用戶獲取信息的 一個不可或缺的網(wǎng)絡檢索工具。搜索引擎技術如何發(fā)展,服務方式如何改進,宗旨始終都會 是滿足用戶快速、準確、方便以及個性化地查找信息。提供高質(zhì)量、有價值的網(wǎng)絡信息是搜 索引擎不懈的追求。網(wǎng)絡屮的資源非常
3、豐富,但是如何有效的搜索信息卻是一件困難的事情。 本文介紹了基于因特網(wǎng)的搜索引擎的原理、分類、中外搜索引擎的發(fā)展現(xiàn)狀分析,并把百度 和google、網(wǎng)易搜索引擎進行對比,并在此基礎上得出搜索引擎的未來發(fā)展趨勢,希望 能對國內(nèi)中文搜索引擎的開發(fā)和準確、快速、全面檢索www網(wǎng)絡乃至因特網(wǎng)信息資源有 所啟示。關鍵字:搜索引擎;研究;原理;優(yōu)化;發(fā)展趨勢internet search engines1 practice of the applied researchhan linlin , class 3 grade 2004, department of computer scienceabstra
4、ct: along with the technical unceasing development, the search engine will be getting more and more fonnidable, definitely will become the network user gain information an indispensable network retrieval tool. how docs the search engine technology develop, how docs the service mode improve, the obje
5、ctive can be throughout satisfies the user fast, accurate, convenient as well as the personalized search information. supplies, the valuable network information high grade is the search engine unremitting pursue network is very rich in resources, but how to trade effective search information is also
6、 a difficult task. this paper based on principles, classification of the internet search engine and analysis the development of home and aboard search engine and compared the google search engine,baidu search engine and nctcasc search engine ,and on this basis that a search engine for the future dev
7、elopment trends i hope this paper can bring chinese search engine and the development of accurate, rapid, comprehensive network and the internet www retrieval of information resources to enlightenment.key words: search engine ; research ; theory; optimization; developmentt rends網(wǎng)絡搜索引擎的實踐應用研究搜索引擎的發(fā)展是
8、引人注目的。由于因特網(wǎng)上信息資源內(nèi)容廣泛、時效性強、訪問快速、 網(wǎng)絡交互搜尋、動態(tài)更新,而且還提供快速訪問網(wǎng)上信息資源的各種搜索引擎(search engines),用于快速搜索www網(wǎng)絡乃至因特上的有用信息,使得通過www網(wǎng)絡獲取網(wǎng) 絡信息資源成為國內(nèi)外研究的一大熱點?;诰W(wǎng)絡的搜索引擎的研制與開發(fā)應用成為當前網(wǎng) 絡信息資源開發(fā)應用研究領域的熱點。英文搜索引擎“google”和中文搜索引繁“百度搜索” 的推出,拉開了搜索引擎核心技術爭奪戰(zhàn)的序幕??梢灶A言,在今后一段相當長的時間里, 搜索引擎還將有長足的發(fā)展和進步,檢索功能將更趨向于集成化和更具親和力、更顯人性化。 信息技術的不斷發(fā)展,特別是
9、互聯(lián)網(wǎng)應用的迅速普及,深入到了人們生活的各個 方面,改變了人們生活方式和思維方式,方便了全球信息資源共享。全球目前的 網(wǎng)頁超過100億,每天新增加數(shù)百萬網(wǎng)頁,電子信息爆炸似的豐富起來。要在如 此浩瀚的海洋里尋找信息,就像“大海撈針” 一樣。能有-種工具使我們可以在 不到1秒鐘的時間就迅速找到我們想要的內(nèi)容嗎?答案是“有”,這就是搜索引 擎。今天,搜索引擎已成為人們在網(wǎng)絡信息海洋中自如沖浪必不可少的利器。l1搜索引擎定義搜索引擎,search engines 又稱搜索機,web搜索器,是伴隨www網(wǎng)絡出 現(xiàn)的檢索網(wǎng)上信息資源的新工具。實質(zhì)上是一種網(wǎng)頁網(wǎng)址檢索系統(tǒng),有的提供分 類和尖鍵詞檢索途徑,
10、有的僅提供矢鍵詞檢索途徑。它根據(jù)檢索規(guī)則和從其他信 息服務器上得到數(shù)據(jù)并對數(shù)據(jù)進行加工處理,自動建立索引,并通過檢索接口為 用戶捉供信息查詢服務,能夠自動對www資源建立索引或進行主題分類,并通過 查詢語法為用戶返回匹配資源的系統(tǒng)。搜索引擎主要是由crawler 'spider 'worm、 robot等計算機軟件程序自動在因特網(wǎng)上漫游,不斷搜集各類新網(wǎng)址及網(wǎng)頁,形 成數(shù)以千萬甚至上億條記錄的數(shù)據(jù)庫。它是通過采集標引眾多網(wǎng)絡站點來提供全 局性網(wǎng)絡資源控制與檢索機制、將全球www網(wǎng)絡中所有信息資源作一完整的集合、 整理和分類、方便用戶查找所需信息的網(wǎng)絡檢索軟件。具有檢索面廣信息量
11、大、 信息更新速度快,特定主題的檢索專指性強等特點。12搜索引擎的主要技術一個搜索引擎由搜索器、索引器、檢索器和用戶接口等四個部分組成。1 搜索器搜索器的功能是在互聯(lián)網(wǎng)屮漫游,發(fā)現(xiàn)和搜集信息。它常常是一個計算機程序,日夜不 停地運行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時因為互聯(lián)網(wǎng)上的信息更 新很快,所以還要定期更新己經(jīng)搜集過的舊信息,以避免死連接和無效連接。目前有兩種搜 集信息的策略:從一個起始url集合開始,順著這些url中的超鏈(hyperlink),以寬度優(yōu)先、深度 優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)屮發(fā)現(xiàn)信息。這些起始url可以是任意的url,但常常 是一些非常流行、包含很多
12、鏈接的站點(如yahoo)。將web空間按照域名、ip地址或國家域名劃分,每個搜索器負責一個子空間的窮盡搜 索。搜索器搜集的信息類型多種多樣,包括html、xml、newsgroup文章、ftp文件、字 處理文檔、多媒體信息。搜索器的實現(xiàn)常常用分布式、并行計算技術,以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索 引擎的信息發(fā)現(xiàn)可以達到每天幾百萬網(wǎng)頁。2. 索引器索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成 文檔庫的索引表。索引項有客觀索引項和內(nèi)容索引項兩種:客觀項與文檔的語意內(nèi)容無關, 如作者名、url、更新時間、編碼、長度、鏈接流行度(link popularity)等
13、等;內(nèi)容索引 項是用來反映文檔內(nèi)容的,如關鍵詞及其權重、短語、單字等等。內(nèi)容索引項對以分為單索 引項和多索引項(或稱短語索引項)兩種。單索引項對于英文來講是英語單詞,比較容易提 取,因為單詞之i'可有天然的分隔符(空格);對于中文等連續(xù)書寫的語言,必須進行詞語的 切分。在搜索引擎中,一般要給單索引項賦與一個權值,以表示該索引項對文檔的區(qū)分度,同 時用來計算查詢結果的相關度。使用的方法一般有統(tǒng)計法、信息論法和概率法。短語索引項 的提取方法有統(tǒng)計法、概率法和語言學法。索引表一般使用某種形式的倒排表(inversionlist),即由索引項查找相應的文檔。索 引表也可能要記錄索引項在文檔屮出
14、現(xiàn)的位置,以便檢索器計算索引項z間的相鄰或接近關 系(proximity)。索引器可以使用集中式索引算法或分布式索引算法。當數(shù)據(jù)量很大時,必須實現(xiàn)即時索 引(instant indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能 (如大規(guī)模峰值查詢時的響應速度)有很大的影響。一個搜索引擎的有效性在很大程度上取 決于索引的質(zhì)量。3. 檢索器檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評 價,對將要輸出的結果進行排序,并實現(xiàn)某種用戶相關性反饋機制。檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。4. 用戶接口用戶接口的
15、作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的冃 的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶 接口的設計和實現(xiàn)使用人機交互的理論和方法,以充分適應人類的思維習慣。用戶輸入接口可以分為簡單接口和復雜接口兩種。簡單接口只提供用戶輸入查詢串的文 本框;復雜接口可以讓用戶對查詢進行限制,如邏輯運算(與、或、非;、)、相近關系(相鄰、near)、域名范圍(如.edu、.com)、出現(xiàn)位置(如標題、內(nèi)容)、信息時間、 長度等等。目前一些公司和機構正在考慮制定查詢選項的標準。13搜索引擎的檢索機制 搜索引擎定期自動搜尋有尖web站點、采集尖于這些站點上
16、的各類信息,自動對 這些資源進行標引、編制目錄和文摘,自動將這些數(shù)據(jù)整合到數(shù)據(jù)庫,并能提供 以web為基礎的包括布爾檢索、短語或詞組檢索、自然語言檢索和各種限制檢索 在內(nèi)的數(shù)據(jù)檢索,按相尖度輸出檢索結果。搜索引擎的主體部分包括了數(shù)據(jù)采 集模塊、數(shù)據(jù)組織模塊和數(shù)據(jù)檢索模塊。對應地,其資源組織和檢索機制包括了 數(shù)據(jù)采集標引機制、數(shù)據(jù)組織機制和用戶檢索機制,見圖11。,網(wǎng)絡搜索引擎 的實踐應用研究論文免費, 網(wǎng)絡搜索引擎的實踐應用研究圖1-1搜索引擎的檢索機制示意圖14搜索引擎的基本工作原理全文搜索引擎的“網(wǎng)絡機器人”或“網(wǎng)絡蜘蛛”是一種網(wǎng)絡上的軟件,它遍歷web空間, 能夠掃描一定ip地址范圍內(nèi)的
17、網(wǎng)站,并沿著網(wǎng)絡上的鏈接從一個網(wǎng)頁到另一個網(wǎng)頁,從一 個網(wǎng)站到另一個網(wǎng)站采集網(wǎng)頁資料。它為保證釆集的資料最新,還會回訪已抓取過的網(wǎng)頁。 網(wǎng)絡機器人或網(wǎng)絡蜘蛛采集的網(wǎng)頁,還要有其它程序進行分析,根據(jù)一定的相關度算法進行 大量的計算建立網(wǎng)頁索引,才能添加到索引數(shù)據(jù)庫中。我們平時看到的全文搜索引擎,實際 上只是一個搜索引擎系統(tǒng)的檢索界面,當你輸入關鍵詞進行查詢時,搜索引擎會從龐大的數(shù) 據(jù)庫屮找到符合該關鍵詞的所有相關網(wǎng)頁的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的 搜索引擎,網(wǎng)頁索引數(shù)據(jù)庫不同,排名規(guī)則也不盡相同,所以,當我們以同一關鍵詞用不同 的搜索引擎查詢時,搜索結果也就不盡相同。和全文搜索引擎
18、一樣,分類目錄的整個工作過程也同樣分為收集信息、分析信息和查詢 信息三部分,只不過分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都 有專門的編輯人員,負責收集網(wǎng)站的信息。隨著收錄站點的增多,現(xiàn)在-般都是由站點管理 者遞交自己的網(wǎng)站信息給分類目錄,然后市分類目錄的編輯人員審核遞交的網(wǎng)站,以決定是 否收錄該站點。如果該站點審核通過,分類冃錄的編輯人員還需要分析該站點的內(nèi)容,并將 該站點放在相應的類別和目錄中。所有這些收錄的站點同樣被存放在一個“索引數(shù)據(jù)庫''中。 用戶在查詢信息時,可以選擇按照關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索, 返冋的結果跟全文搜索引
19、擎一樣,也是根據(jù)信息關聯(lián)程度排列網(wǎng)站。需要注意的是,分類目 錄的關鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡介等內(nèi)容屮進行,它的查詢結果也只是被收錄 網(wǎng)站首頁的url地址,而不是具體的頁面。分類fi錄就像一個電話號碼薄一樣,按照各個 網(wǎng)站的性質(zhì),把其網(wǎng)址分門別類排在一起,大類下面套著小類,一直到各個網(wǎng)站的詳細地址, 一般還會提供各個網(wǎng)站的內(nèi)容簡介,用戶不使用關鍵詞也可進行查詢,只要找到相關目錄, 就完全可以找到相關的網(wǎng)站(注意:是相關的網(wǎng)站,而不是這個網(wǎng)站上某個網(wǎng)頁的內(nèi)容,某 一目錄屮網(wǎng)站的排名一般是按照標題字母的先后順序或者收錄的時間順序決定的)。搜索引 擎并不真正搜索互聯(lián)網(wǎng),它搜索的實際上是預先整
20、理好的網(wǎng)頁索引數(shù)據(jù)庫。真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個網(wǎng)頁并對網(wǎng)頁中 的每一個詞(即關鍵詞)進行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當用戶查找某個關鍵 詞的時候,所有在頁面內(nèi)容中包含了該關鍵詞的網(wǎng)頁都將作為搜索結果被搜出來。在經(jīng)過復 雜的算法進行排序后,這些結果將按照與搜索關鍵詞的相關度高低,依次排列?,F(xiàn)在的搜索引擎己普遍使用超鏈分析技術,除了分析索引網(wǎng)頁本身的內(nèi)容,還分析索引 所有指向該網(wǎng)頁的鏈接的url、anchortext甚至鏈接周圍的文字。所以,有時候,即使 某個網(wǎng)頁a屮并沒有某個詞比如“惡魔撒旦”,但如果有別的網(wǎng)頁b用鏈接“惡魔撒旦”指向 這個網(wǎng)頁a,那
21、么用戶搜索“惡魔撒旦”時也能找到網(wǎng)頁a。而且,如果有越多網(wǎng)頁(c、d、 e、f.)用名為“惡魔撒旦”的鏈接指向這個網(wǎng)頁a,或者給岀這個鏈接的源網(wǎng)頁(b、c、 d、e、f)越優(yōu)秀,那么網(wǎng)頁a在用戶搜索“惡魔撒旦”時也會被認為更相關,排序也會 越靠前。搜索引擎的原理,可以看做三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁一建立索引數(shù)據(jù)庫一在索引數(shù)據(jù) 庫屮搜索排序。1. 從互聯(lián)網(wǎng)上抓取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的spider系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何 網(wǎng)頁中的所有url爬到其它網(wǎng)頁,重復這過程,并把爬過的所有網(wǎng)頁收集回來。2. 建立索引數(shù)據(jù)庫rti分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析,提取相關網(wǎng)頁信
22、息(包插網(wǎng)頁所在 url、編碼類型、頁面內(nèi)容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈 接關系等),根據(jù)一定的相關度算法進行大量復雜計算,得到每一個網(wǎng)頁針対頁面內(nèi)容中及 超鏈中每一個關鍵詞的相關度(或重要性),然后用這些相關信息建立網(wǎng)頁索引數(shù)據(jù)庫。3. 在索引數(shù)據(jù)庫屮搜索排序當用戶輸入關鍵詞搜索后,rh搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫屮找到符合該關鍵詞的所 有相關網(wǎng)頁。因為所有相關網(wǎng)頁針對該關鍵詞的相關度早已算好,所以只需按照現(xiàn)成的相關 度數(shù)值排序,相關度越高,排名越靠前。最后,由頁血生成系統(tǒng)將搜索結杲的鏈接地址和頁血內(nèi)容摘要等內(nèi)容組織起來返回給用 戶。搜索引擎的spider -般要
23、定期重新訪問所有網(wǎng)頁(各搜索引擎的周期不同,可能是兒 天、幾周或幾月,也可能對不同重要性的網(wǎng)頁有不同的更新頻率),更新網(wǎng)頁索引數(shù)據(jù)庫, 以反映出網(wǎng)頁內(nèi)容的更新情況,增加新的網(wǎng)貝信息,去除死鏈接,并根據(jù)網(wǎng)頁內(nèi)容和鏈接關 系的變化重新排序。這樣,網(wǎng)頁的具體內(nèi)容和變化情況就會反映到用戶查詢的結果中?;ヂ?lián)網(wǎng)雖然只有一個,但各搜索引擎的能力和偏好不同,所以抓取的網(wǎng)頁各 不相同,排序算法也各不相同。大型搜索引擎的數(shù)據(jù)庫儲存了互聯(lián)網(wǎng)上幾億至幾 十億的網(wǎng)頁索引,數(shù)據(jù)量達到幾千g甚至幾萬g。但即使最大的搜索引擎建立超 過二十億網(wǎng)頁的索引數(shù)據(jù)庫,也只能占到互聯(lián)網(wǎng)上普通網(wǎng)頁的不到30%,不同搜 索引擎之間的網(wǎng)頁數(shù)據(jù)
24、重疊率一般在70%以下。我們使用不同搜索引擎的重要原 因,就是因為它們能分別搜索到不同的內(nèi)容。而互聯(lián)網(wǎng)上有更大量的內(nèi)容,是搜 索引擎無法抓取索引的,也是我們無法用搜索引擎搜索到的。1.5搜索引擎的分類搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(full text search engine) 目錄索引類搜索引擎(search index/directory)和元搜索 引擎(meta search engine) c1. 全文搜索引擎全文搜索引擎是名副其實的搜索引擎,國外具代表性的有google、fast/alltheweb.altavista a inktomi > teom
25、a wisenut等,國內(nèi)著名的有百度(baidu) «它們都是通過從互 聯(lián)網(wǎng)上提収的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件 兀配的相關記錄,然后按一定的排列順序?qū)⒔Y果返回給用戶,因此他們是真正的搜索引擎。從搜索結果來源的角度,全文搜索引擎乂可細分為兩種,一種是擁有白己的檢索程序 (indexer),俗稱“蜘蛛” (spider)程序或“機器人” (robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜 索結果直接從自身的數(shù)據(jù)庫中調(diào)用,如上面提到的7家引擎;另一種則是租用其他引擎的數(shù) 據(jù)庫,并按自定的格式排列搜索結果,如lycos引擎。2. 目錄索引目錄索引雖然功能,但
26、在嚴格意義上算不上是真止的搜索引擎,僅僅是按目 錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進行關鍵詞(keywords)查詢, 僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的 yahoo 雅虎。其他著名的還有 open di rectory proj ect (dmoz) > looksmart > abo"等。國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。3. 元搜索引擎(meta search engine)元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,并將結果返冋給 用戶。著名的元搜索引擎有infospace> dogpil
27、e、vivisimo等(元搜索引擎列表),中文元 搜索引擎屮具代表性的有搜星搜索引擎。在搜索結果排列方面,有的直接按來源引擎排列搜 索結果,如dogpile,有的則按自定的規(guī)則將結果重新排列組合,如vivisimoo除上述三大類引擎外,還有以下幾種非主流形式:1、集合式搜索引擎:如hotbot在2002年底推出的引擎。該引擎類似meta 搜索引擎,但區(qū)別在于不是同時調(diào)用多個引擎進行搜索,而是由用戶從提供的4 個引擎當屮選擇,因此叫它“集合式”搜索引擎更確切些。2、門戶搜索引擎:如aol search、msn search等雖然提供搜索服務,但自身即沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結果完全來
28、自其他引擎。3、免費鏈接列表(free for all links,簡稱ffa):這類網(wǎng)站一般只簡 單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規(guī)模比起yahoo等目錄 索引來要小得多。網(wǎng)絡搜索引擎的實踐應用研究第二章中外搜索引擎發(fā)展現(xiàn)狀比較研究搜索引擎的功能在于將分散的網(wǎng)址集屮起來,分類提供給用戶,以便快速查 找到所需的信息。常規(guī)搜索引擎一般都帶有數(shù)據(jù)庫資源,因此對搜索引擎的比較 主耍集中在數(shù)據(jù)庫資源和搜索引擎的性能兩個方面。數(shù)據(jù)庫資源方面的比較研究 主要包括:數(shù)據(jù)庫規(guī)模、索引方式、以及資源內(nèi)容(如聲音、圖像、usenet、ftp、 newsgroup> gopher> e
29、mail等其它資源)。檢索性能的比較,主耍有布爾檢索、 復雜布爾檢索、相鄰和相鄰and/or檢索(near、adj、far、before> followed by、 <scntcnccs>> <paragraph>) >截詞檢索、檢索范圍限定、出版日期限定、多語 種檢索、多種版本選擇、大小寫有別、概念檢索、詞語加權、詞語限定、自然語 言檢索、特定字段檢索、缺省值、檢索結果顯示方式、顯示數(shù)量選擇、相關排序、 站點評價、相似性檢索、結果過濾、用戶界面、查準率、響應時間等方面的比較 研究。2.1國外的比較研究國外學者對altavista、exci te>
30、; lycos從檢索方式、響應吋間、準確性等 方面進行比較與評價,alta vista檢索功能較強,lycos的覆蓋范圍較廣,alta vista真正地支持詞語檢索。不同搜索引擎的檢索結果有很大差別,即使功能最 完善的搜索引擎也只能找到web上大約1/3的網(wǎng)頁,1998年6種主耍搜索引擎的 web 網(wǎng)頁搜索覆蓋率:hotbot 34%;a1 tavista 28%; nor thenlight 20%;excite 14%; infoseek 10%;lycos 3%。1999 年被測試的 11 種搜 索引擎中查詢到網(wǎng)頁最多的前三名是northernlight> snap> alt
31、avista,沒有 任何一種搜索引擎可以包羅超過16%的網(wǎng)上信息資源,搜索引擎的覆蓋能力與一 年前相比明顯萎縮。近些年來陸續(xù)出現(xiàn)了許多比較網(wǎng)絡檢索工具的研究和報道, 絕大多數(shù)研究是就一些檢索提問,比較和評價多個檢索工具,采用的比較和評價 標準不統(tǒng)一。22國內(nèi)的比較研究國內(nèi)對于搜索引擎的比較研究主要在兩個方面:一是對搜索引擎的基本檢索 性能和數(shù)據(jù)庫內(nèi)容進行比較;二是通過一定的檢索提問進行上網(wǎng)測試。己有作者 從數(shù)據(jù)庫的內(nèi)容和結構、檢索方式及特點、檢索結果的顯示、數(shù)據(jù)庫的更新及 有無擴展功能等方面四個方面加以比較,發(fā)現(xiàn)目錄型檢索工具yahoo> librarians*的檢索功能相對較弱,檢索型
32、檢索工具的檢索功能則相對較強。在 布爾邏輯檢索方面,僅僅少數(shù)搜索引擎做得比較好。infoseek和open text為 檢索結果提供了很好的描述,open text是唯一支持全文檢索的引擎,lycos、 excite、open text是覆蓋面較廣的數(shù)據(jù)庫,yahoo是較完整的目錄。國內(nèi)作者 對多種搜索引擎的比較測試表明,對同一檢索式,不同檢索引擎的檢索結果相互 交叉的現(xiàn)象不多,各搜索引擎檢索出的條數(shù)有較大差別,元搜索引擎檢索出的結 果不一定比單一搜索引擎多。有作者發(fā)現(xiàn),al t a vi st a、exci te、hotbot、infoseek > lycos a open text> weber awler yahoo以及中文搜索引擎goyoyo在索引資源、 用戶界面、功能設置、檢索速度、檢索數(shù)量以及準確率等方面各有所長。也有人 對屮文搜索引擎進行了網(wǎng)絡測試。與傳統(tǒng)的光盤數(shù)據(jù)庫檢索相比,因特網(wǎng)信息缺 乏深度、質(zhì)量和可靠性不穩(wěn)定,搜索引擎查詢和光盤檢索在用戶服務方面均有優(yōu) 勢和不足。搜索引擎及網(wǎng)址開發(fā)公司運行時網(wǎng)頁數(shù)檢索功能結果顯示間google(http:/www. go ogle, com)199833億網(wǎng)頁簡單、高級檢 索、精確檢索、 網(wǎng)站定位標準、相關性排序、 頁顯示結果數(shù)可選 擇altavista(http:/www美國數(shù)字1995. 1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 買車合同買賣合同范本
- 廠房分租裝修合同范本
- 怎么講課題申報書
- 單方解除租賃合同范本
- 出口鱘魚合同范本
- 入股石礦合同范本
- 臨時駐地建設合同范例
- 保健按摩合同范本
- 合同范本教程租房文字
- 員工合同范本修訂
- 2025年服裝制版師(中級)職業(yè)技能鑒定考試題(附答案)
- 高考模擬作文“中國游”“city不city”導寫及范文
- 福建省福州市2024-2025學年九年級上學期期末語文試題(解析版)
- 一年級下冊綜合實踐活動教案2
- 九年級主題班會課件:遇見最好的自己(開學第一課)
- 2025版股權投資基金股份收購與退出機制協(xié)議3篇
- 【營銷方案】2025小紅書平臺營銷通案
- 2025年江西電力職業(yè)技術學院高職單招職業(yè)適應性測試近5年??及鎱⒖碱}庫含答案解析
- 2025年棗莊科技職業(yè)學院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 護苗行動安全教育課件
- 2024年湖南鐵道職業(yè)技術學院高職單招語文歷年參考題庫含答案解析
評論
0/150
提交評論