信息檢索與利用(第三版)課件 第4章 網(wǎng)絡(luò)信息資源檢索_第1頁(yè)
信息檢索與利用(第三版)課件 第4章 網(wǎng)絡(luò)信息資源檢索_第2頁(yè)
信息檢索與利用(第三版)課件 第4章 網(wǎng)絡(luò)信息資源檢索_第3頁(yè)
信息檢索與利用(第三版)課件 第4章 網(wǎng)絡(luò)信息資源檢索_第4頁(yè)
信息檢索與利用(第三版)課件 第4章 網(wǎng)絡(luò)信息資源檢索_第5頁(yè)
已閱讀5頁(yè),還剩71頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

4.1網(wǎng)絡(luò)信息資源概述

4.2搜索引擎

4.3開放存取4.1網(wǎng)絡(luò)信息資源概述4.1.1網(wǎng)絡(luò)信息資源的定義和特點(diǎn)1.網(wǎng)絡(luò)信息資源的定義網(wǎng)絡(luò)信息資源是指通過計(jì)算機(jī)網(wǎng)絡(luò)可以利用的各種信息資源的總和,即以數(shù)字化形式記錄的,以多媒體形式表達(dá)的,分布式存儲(chǔ)在網(wǎng)絡(luò)計(jì)算機(jī)的存儲(chǔ)介質(zhì)以及各類通信介質(zhì)上,并通過計(jì)算機(jī)網(wǎng)絡(luò)通信方式進(jìn)行傳遞的信息內(nèi)容的集合。網(wǎng)絡(luò)信息資源將原本相互獨(dú)立、分布于世界各地的數(shù)據(jù)庫(kù)、信息中心、文獻(xiàn)中心等聯(lián)結(jié)在一起,形成一個(gè)內(nèi)容與結(jié)構(gòu)全新的信息整體。2.?InternetInternet是世界上規(guī)模最大、覆蓋面最廣、信息資源最為豐富的計(jì)算機(jī)信息資源網(wǎng)絡(luò)。它將遍布全球的各個(gè)國(guó)家和地區(qū)的計(jì)算機(jī)系統(tǒng)連接而成了一個(gè)計(jì)算機(jī)互聯(lián)網(wǎng)絡(luò)。從技術(shù)角度看,Internet是一個(gè)以TCP/IP作為通信協(xié)議連接各國(guó)、各地區(qū)、各機(jī)構(gòu)計(jì)算機(jī)網(wǎng)絡(luò)的數(shù)據(jù)通信網(wǎng)絡(luò);從資源角度來看,它是一個(gè)集各部門、各領(lǐng)域的各種信息資源為一體的,供網(wǎng)絡(luò)用戶共享的信息資源網(wǎng)絡(luò)。Internet最早起源于美國(guó)國(guó)防部高級(jí)研究計(jì)劃局建立的軍用計(jì)算機(jī)網(wǎng)絡(luò)ARPAnet。ARPAnet于1969年開通,它利用分組交換技術(shù)將斯坦福研究所、加州大學(xué)圣塔芭芭拉分校、加州大學(xué)洛杉磯分校和猶他大學(xué)連接起來。ARPA后改名為DefenseAdvancedResearchProjectAgency,簡(jiǎn)稱DARPA,ARPAnet被稱為DARPAnetInternet,簡(jiǎn)稱Internet。1974年提出的TCP/IP協(xié)議在ARPAnet上的應(yīng)用使ARPAnet成為初期Internet的主干網(wǎng)。1985年,美國(guó)國(guó)家科學(xué)基金會(huì)籌建了互聯(lián)網(wǎng)中心,將位于新澤西州、加州、伊利諾伊州、紐約州、密歇根州和科羅拉多州的6臺(tái)超級(jí)計(jì)算機(jī)連接起來,形成NSFnet,并通過NSFnet資助建立了按地區(qū)劃分的近20個(gè)區(qū)域性的計(jì)算機(jī)廣域網(wǎng)。同時(shí),NSF確定了Internet的TCP/IP通信協(xié)議,所有網(wǎng)絡(luò)都采用TCP/IP協(xié)議集并連接到ARPAnet,從而使各個(gè)NSFnet用戶都能享用所有用于Internet的服務(wù)。隨后,NSFnet又把各大學(xué)和學(xué)術(shù)團(tuán)體的各種區(qū)域性網(wǎng)絡(luò)與全國(guó)學(xué)術(shù)網(wǎng)絡(luò)連接起來。1990年3月,ARPAnet停止運(yùn)轉(zhuǎn),NSFnet接替ARPAnet成為Internet新的主干網(wǎng)絡(luò)。1995年4月,NSFnet停止運(yùn)行,由美國(guó)政府指定的PacificBell、AmeritechAdvancedDataServicesandBellcore和Sprint三家私營(yíng)企業(yè)介入網(wǎng)絡(luò)的運(yùn)作,網(wǎng)絡(luò)進(jìn)入了商業(yè)化全盛發(fā)展時(shí)期。很快,Internet將遍布世界各地的大小不等的網(wǎng)絡(luò)連接成一個(gè)開放的計(jì)算機(jī)網(wǎng)絡(luò)體系。1997年6月,諾基亞、愛立信、摩托羅拉和無線星球(UnwiredPlanet)共同組成了WAP論壇。在WAP論壇成員的努力下,WAP(無線通信協(xié)議)誕生了。WAP是在數(shù)字移動(dòng)電話、互聯(lián)網(wǎng)或其他個(gè)人數(shù)字助理機(jī)(PDA)、計(jì)算機(jī)乃至未來的信息家電之間進(jìn)行通信的全球性開放標(biāo)準(zhǔn)。通過WAP技術(shù),可以將Internet的大量信息及各種各樣的業(yè)務(wù)引入到移動(dòng)電話、PALM等無線終端之中。無論何時(shí)何地,只需打開WAP手機(jī),用戶就可享受無窮無盡的網(wǎng)上信息或者網(wǎng)上資源。1987年至1993年,以中國(guó)科學(xué)院高能物理研究所為首的一批科研院所與國(guó)外機(jī)構(gòu)合作開展了一些與Internet聯(lián)網(wǎng)的科研課題,通過撥號(hào)方式使用Internet的電子郵件系統(tǒng),并為國(guó)內(nèi)一些科研機(jī)構(gòu)提供Internet電子郵件服務(wù)。1990年10月,中國(guó)正式向國(guó)際互聯(lián)網(wǎng)絡(luò)信息中心(InterNIC)登記注冊(cè)了最高域名CN,從而開通了使用自己域名的Internet電子郵件。1994年4月,由中國(guó)科學(xué)院主持建設(shè)的中國(guó)國(guó)家計(jì)算與網(wǎng)絡(luò)設(shè)施(TheNationalComputingandNetworkingFacilityofChina,NCFC,又稱中關(guān)村地區(qū)教育科研示范網(wǎng)NCFCnet),以專線形式連入Internet,開通了Internet的全功能服務(wù)。幾十年來,中國(guó)互聯(lián)網(wǎng)蓬勃發(fā)展。據(jù)《中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》統(tǒng)計(jì),截至2023年6月底,我國(guó)上網(wǎng)用戶總?cè)藬?shù)達(dá)10.79億,其中手機(jī)網(wǎng)民規(guī)模達(dá)到10.76億,域名總數(shù)超過3000萬個(gè)。3.網(wǎng)絡(luò)信息資源的特點(diǎn)網(wǎng)絡(luò)信息資源是通過網(wǎng)絡(luò)生產(chǎn)和傳播的數(shù)字化資源。在Internet這個(gè)信息媒體和交流渠道的支持下,網(wǎng)絡(luò)信息資源日益成為人們獲取信息的首選。與傳統(tǒng)信息資源相比,網(wǎng)絡(luò)信息資源在數(shù)量、結(jié)構(gòu)、分布、傳播范圍、類型、載體形態(tài)等方面都有顯著的差異。

1)信息量大、傳播廣泛Internet具有結(jié)構(gòu)的開放性和信息發(fā)布的自由性。近20年來,人類生產(chǎn)的信息已超過過去5000年信息生產(chǎn)的總和。網(wǎng)絡(luò)信息資源又有著廣泛的可獲取性,通過Internet,用戶可以利用分布于世界各地的信息資源,遠(yuǎn)遠(yuǎn)突破了傳統(tǒng)檢索系統(tǒng)所能提供的信息資源范圍。2)信息類型多樣、內(nèi)容豐富網(wǎng)絡(luò)信息資源是多媒體、多類型、集成式的信息混合體,覆蓋了人類生活、工作、學(xué)習(xí)等各個(gè)領(lǐng)域。從信息的類型來看,有文本、圖表、圖像以及多媒體信息;從存在的形式看,有文件、數(shù)據(jù)庫(kù)、超文本和超媒體等。3)信息時(shí)效性強(qiáng)、動(dòng)態(tài)、不穩(wěn)定網(wǎng)絡(luò)信息更新快、時(shí)效性很強(qiáng)。不但各種信息處在不斷生產(chǎn)、更新、淘汰的狀態(tài),它所連接的網(wǎng)絡(luò),其網(wǎng)站、網(wǎng)頁(yè)也都處在變化之中。網(wǎng)絡(luò)信息的快速變化和不可預(yù)測(cè)性,使得網(wǎng)絡(luò)信息的組織和管理難度大大增加。4)信息分散無序,但關(guān)聯(lián)程度高從宏觀上看,分散存儲(chǔ)在聯(lián)網(wǎng)計(jì)算機(jī)上的信息沒有統(tǒng)一的控制,網(wǎng)絡(luò)信息是分散、無序、不規(guī)范的。但從某個(gè)局部來看,如某個(gè)網(wǎng)站、網(wǎng)頁(yè)、數(shù)據(jù)庫(kù),信息是有控制的,也是相對(duì)集中、有序和規(guī)范的。由于網(wǎng)絡(luò)信息資源是借助于Internet特有的超文本和超媒體鏈接技術(shù)組織在一起的,所以其內(nèi)容之間具有較高的關(guān)聯(lián)程度。而這種局部有序、總體無序的特點(diǎn),凸現(xiàn)了網(wǎng)絡(luò)信息組織與整合的重要性。5)信息價(jià)值差異大,難于管理網(wǎng)絡(luò)的共享性與開放性使得人人都可以通過網(wǎng)絡(luò)獲取和存放信息。由于缺乏質(zhì)量控制和監(jiān)管機(jī)制,很多信息沒有經(jīng)過嚴(yán)格編輯和整理,導(dǎo)致大量不良和無用的信息充斥在網(wǎng)絡(luò)上,形成了一個(gè)紛繁復(fù)雜的信息世界,給用戶選擇和利用網(wǎng)絡(luò)信息帶來了障礙。4.1.2網(wǎng)絡(luò)信息資源的類型1.按網(wǎng)絡(luò)傳輸協(xié)議劃分1)?WWW信息資源WWW信息資源是建立在超文本、超媒體技術(shù)以及超文本傳輸協(xié)議(HyperTextTransferProtocol,HTTP)基礎(chǔ)上的集文本、圖形、圖像、聲音于一體,以直觀的圖形界面來展現(xiàn)和提供信息的網(wǎng)絡(luò)資源形式。WWW其實(shí)是Internet中一個(gè)特殊的網(wǎng)絡(luò)區(qū)域,這個(gè)區(qū)域是由網(wǎng)上所有超文本格式的文檔(網(wǎng)頁(yè))集合而成的。超文本文檔里既有數(shù)據(jù)又有包含指向其他文檔的“鏈(Link)”,使得不同文檔里的相關(guān)信息連接在一起。通過這些“鏈”,用戶在WWW上查找信息時(shí),可以從一個(gè)文檔跳到另一個(gè)文檔,而不必考慮這些文檔在網(wǎng)絡(luò)上的具體地點(diǎn)。WWW信息資源是Internet信息資源的最主要、最常見的形式。2)?TELNET信息資源TELNET信息資源是指在遠(yuǎn)程登錄協(xié)議(TelecommunicationNetworkProtocol,TELNET)的支持下,用戶計(jì)算機(jī)經(jīng)Internet登錄遠(yuǎn)程計(jì)算機(jī),使自己的本地計(jì)算機(jī)暫時(shí)成為遠(yuǎn)程計(jì)算機(jī)的一個(gè)終端,進(jìn)而可以實(shí)時(shí)訪問,并在權(quán)限允許的范圍內(nèi)實(shí)時(shí)使用遠(yuǎn)程計(jì)算機(jī)系統(tǒng)中的各種硬件資源和軟件資源。通過TELNET方式提供的信息資源主要有政府部門和研究機(jī)構(gòu)的對(duì)外開放數(shù)據(jù)庫(kù),圖書館的公共目錄系統(tǒng)及信息服務(wù)機(jī)構(gòu)的綜合信息系統(tǒng)等。Dialog、OCLC等商用聯(lián)機(jī)信息檢索系統(tǒng)提供了TELNET形式的連接方式,付費(fèi)取得賬號(hào)和口令后,可以檢索其數(shù)據(jù)庫(kù)資源。3)?FTP信息資源信息資源文件傳輸協(xié)議(FileTransferProtocol,F(xiàn)TP)的主要功能是利用網(wǎng)絡(luò)在本地與遠(yuǎn)程計(jì)算機(jī)之間建立連接,從而使不同操作系統(tǒng)的計(jì)算機(jī)之間實(shí)現(xiàn)文件傳送。FTP不僅允許從遠(yuǎn)程計(jì)算機(jī)獲取和下載文件(Download),也可將文件從本地機(jī)復(fù)制到遠(yuǎn)程計(jì)算機(jī)(Upload),因此,F(xiàn)TP實(shí)質(zhì)上相當(dāng)于在網(wǎng)絡(luò)上兩個(gè)主機(jī)之間復(fù)制文件。FTP信息資源是指借助于FTP訪問Internet上各種FTP服務(wù)器,以文件方式在聯(lián)網(wǎng)計(jì)算機(jī)之間傳輸?shù)男畔①Y源。FTP一般在組織或機(jī)構(gòu)內(nèi)部比較常見,使用的網(wǎng)絡(luò)信息資源可為任何類型,不過目前以應(yīng)用程序軟件和多媒體信息資源為主。目前,F(xiàn)TP仍是發(fā)布、共享、傳遞軟件和長(zhǎng)文件的主要方法。4)新聞組信息資源新聞組是一種利用網(wǎng)絡(luò)環(huán)境提供專題討論服務(wù)的應(yīng)用軟件,是Internet服務(wù)體系的一部分。在此體系中,有眾多的新聞組服務(wù)器,它們接收和存儲(chǔ)有關(guān)主題的消息供用戶查閱。新聞組實(shí)質(zhì)上是由一組對(duì)某一特定主題有共同興趣的網(wǎng)絡(luò)用戶組成的電子論壇,用戶在自己的主機(jī)上運(yùn)行新聞組閱讀程序,申請(qǐng)加入某個(gè)感興趣的新聞組,便可以從服務(wù)器中讀取新聞組信息。同時(shí),用戶也可以將自己的見解發(fā)送到新聞組中,供其他用戶參考。新聞組信息資源是一種豐富、自由、開放的信息資源。5)電子郵件信息資源電子郵件是借助網(wǎng)絡(luò)傳遞信息的現(xiàn)代化通信方式。只要知道收件人的郵箱地址,就可以利用計(jì)算機(jī)網(wǎng)絡(luò)將郵件發(fā)送給對(duì)方。同時(shí),也可以接收來自世界各地的郵件。用戶可向提供電子郵件服務(wù)的機(jī)構(gòu)申請(qǐng)電子郵箱來利用該類信息資源。6)?Gopher信息資源Gopher是一種基于菜單的網(wǎng)絡(luò)服務(wù)程序,能為用戶提供廣泛、豐富的信息。通過Gopher,用戶無需知道信息的存放位置和掌握相關(guān)的操作命令就能快速找到并訪問所需的網(wǎng)絡(luò)資源。用戶在各級(jí)菜單的指引下,逐層展開菜單,在菜單中選擇項(xiàng)目和瀏覽相關(guān)內(nèi)容,就能訪問因特網(wǎng)(Internet)上遠(yuǎn)程聯(lián)機(jī)計(jì)算機(jī)信息系統(tǒng)。這是Gopher的一大優(yōu)勢(shì),即它可以跨越多個(gè)計(jì)算機(jī)系統(tǒng),在本地計(jì)算機(jī)與遠(yuǎn)程Gopher服務(wù)器之間實(shí)現(xiàn)連接與信息共享。此外,Gopher還設(shè)有工具轉(zhuǎn)換接口,可直接調(diào)用其他的信息資源檢索工具或轉(zhuǎn)入其他的服務(wù)器,如WWW、FTP、TELNET、WAIS、Archie服務(wù)器等。Gopher曾經(jīng)以簡(jiǎn)單、統(tǒng)一的界面,方便易用的特點(diǎn)和豐富的資源構(gòu)成了Internet上的一種重要的資源類型,但隨著網(wǎng)絡(luò)的發(fā)展,只能提供文本信息的Gopher服務(wù)器已大多被Web服務(wù)器所取代。7)?WAIS信息資源信息資源廣域信息服務(wù)器(WideAreaInformationServer,WAIS)是一種雙層客戶機(jī)/服務(wù)器結(jié)構(gòu)的網(wǎng)絡(luò)全文信息資源和檢索體系,允許用戶在不同結(jié)構(gòu)的遠(yuǎn)程數(shù)據(jù)庫(kù)之間傳輸和檢索信息。網(wǎng)上有數(shù)百個(gè)免費(fèi)的WAIS數(shù)據(jù)庫(kù),可通過訪問匿名服務(wù)器/pub.Directory-of-servers,了解所需信息存放的WAIS服務(wù)器后,再通過相應(yīng)的WAIS服務(wù)器查詢所需的數(shù)據(jù)庫(kù)。2.按網(wǎng)絡(luò)信息資源的組織方式劃分信息組織是將無序狀態(tài)的特定信息,根據(jù)一定的原則和方法,使其成為有序狀態(tài)的過程。其目的在于將無序信息變?yōu)橛行蛐畔?,方便人們有效利用和傳遞信息。面對(duì)紛繁、無序的網(wǎng)絡(luò)信息,人們采取了多種方式對(duì)其進(jìn)行組織。目前使用較為普遍的方式主要有以下四種。1)文件方式文件(File)是一種較為古老的信息組織方式,適用于網(wǎng)絡(luò)信息資源。文件方式簡(jiǎn)單方便,適合存儲(chǔ)文本、程序、圖形、圖像、圖表、音頻、視頻等非結(jié)構(gòu)化信息。在Web中,網(wǎng)頁(yè)就屬于超文本文件,F(xiàn)TP類檢索工具也是用來幫助用戶利用那些以文件形式組織和保存的信息資源。但是文件方式對(duì)結(jié)構(gòu)化信息的管理則顯得力不從心,因?yàn)槲募到y(tǒng)只能涉及信息的簡(jiǎn)單邏輯結(jié)構(gòu),當(dāng)信息結(jié)構(gòu)較為復(fù)雜時(shí),就難以實(shí)現(xiàn)有效的控制和管理。而且,隨著網(wǎng)絡(luò)信息量的不斷增長(zhǎng),以文件為單位的信息資源共享和傳輸還會(huì)使網(wǎng)絡(luò)負(fù)載加大。因此,文件本身只能作為信息單位成為其他信息組織方式的管理對(duì)象。2)超文本/超媒體方式超文本/超媒體方式是一種新型的信息管理組織方式,不僅注重所要管理的信息本身,而且更加注重信息之間關(guān)系的建立與表達(dá)。超文本/超媒體方式是將網(wǎng)絡(luò)信息按照相互關(guān)系非線性存儲(chǔ)在許多的節(jié)點(diǎn)(Node)上,節(jié)點(diǎn)間以鏈路(Link)相連,形成一個(gè)可任意連接的、有層次的、復(fù)雜的網(wǎng)狀結(jié)構(gòu)。超文本方式以線性和靜態(tài)的文本信息為處理對(duì)象;超媒體方式是超文本與多媒體技術(shù)的結(jié)合,將文字、圖表、聲音、圖像、視頻等多媒體信息以超文本方式組織管理。超文本/超媒體方式不僅體現(xiàn)了信息的層次關(guān)系,而且也符合人們思維的聯(lián)想和跳躍性習(xí)慣。正是由于這個(gè)優(yōu)點(diǎn),超文本/超媒體方式已成為Internet上占主流地位的信息組織與檢索方式。但對(duì)于一些大型的超文本/超媒體檢索系統(tǒng),由于涉及的節(jié)點(diǎn)和鏈路太多,用戶很容易出現(xiàn)信息迷航和知識(shí)認(rèn)知過載的問題,很難迅速而準(zhǔn)確地定位到真正需要的信息節(jié)點(diǎn)上。為了避免這些檢索瓶頸,需要設(shè)立導(dǎo)航工具,并輔以搜索查詢機(jī)制,以便用戶在任何位置都能到達(dá)想要去的節(jié)點(diǎn)。3)數(shù)據(jù)庫(kù)方式數(shù)據(jù)庫(kù)是對(duì)大量的規(guī)范化數(shù)據(jù)進(jìn)行管理的技術(shù)。它將要處理的數(shù)據(jù)經(jīng)合理分類和規(guī)范化處理后,以記錄形式存儲(chǔ)于計(jì)算機(jī)中,用戶通過關(guān)鍵詞及其組配查詢,就可以找到所需信息或其線索。利用數(shù)據(jù)庫(kù)技術(shù)組織信息資源可在很大程度上提高信息的有序性、完整性和安全性,提高對(duì)大量的結(jié)構(gòu)化數(shù)據(jù)的處理效率。此外,數(shù)據(jù)庫(kù)以字段作為存取單位,用戶可根據(jù)需要靈活地改變查詢結(jié)果集的大小,從而大大降低網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)呢?fù)載。傳統(tǒng)數(shù)據(jù)庫(kù)方式對(duì)非結(jié)構(gòu)化信息的處理難度較大,不能提供數(shù)據(jù)信息之間的知識(shí)關(guān)聯(lián),無法處理結(jié)構(gòu)日益復(fù)雜的信息單元,檢索界面也缺乏直觀性和人機(jī)交互性。但隨著信息處理技術(shù)的發(fā)展,集Web技術(shù)和數(shù)據(jù)庫(kù)技術(shù)于一體的Web數(shù)據(jù)庫(kù)已經(jīng)成為Web信息資源的重要組成部分,其所存儲(chǔ)的都是經(jīng)過人工嚴(yán)格收集、整理加工和組織的具有較高學(xué)術(shù)價(jià)值、科研價(jià)值的信息。由于各個(gè)數(shù)據(jù)庫(kù)后臺(tái)的異構(gòu)性和復(fù)雜性,以及對(duì)其使用的限制,利用一般的網(wǎng)絡(luò)信息檢索工具已無法檢索其信息資源,因此必須利用各個(gè)數(shù)據(jù)庫(kù)的專用檢索系統(tǒng)進(jìn)行檢索。4)網(wǎng)站網(wǎng)站(WebSite)一般綜合采用文件、超文本/超媒體和數(shù)據(jù)庫(kù)等方式將內(nèi)容相關(guān)的信息組織到主頁(yè)和從屬頁(yè)面中。它們既是信息資源開發(fā)的要素,又是網(wǎng)絡(luò)中的實(shí)體。從網(wǎng)絡(luò)的組織結(jié)構(gòu)可以看出,信息資源主要分布在網(wǎng)站上。作為網(wǎng)絡(luò)信息與網(wǎng)絡(luò)用戶之間的中介,網(wǎng)站集網(wǎng)絡(luò)信息提供、網(wǎng)絡(luò)信息組織和網(wǎng)絡(luò)信息服務(wù)于一體,其最終目的是將網(wǎng)絡(luò)信息有序化、整合化,向用戶提供優(yōu)質(zhì)的信息服務(wù)。3.按網(wǎng)絡(luò)信息資源的內(nèi)容劃分1)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)是借助Internet,以Web為檢索平臺(tái)提供信息檢索服務(wù)的數(shù)據(jù)庫(kù),它是數(shù)據(jù)庫(kù)技術(shù)和Web技術(shù)相結(jié)合的產(chǎn)物。除了傳統(tǒng)紙本工具書、聯(lián)機(jī)數(shù)據(jù)庫(kù)與光盤數(shù)據(jù)庫(kù)改造而成的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)外,還出現(xiàn)了大量依托Web產(chǎn)生的商業(yè)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。這些網(wǎng)絡(luò)數(shù)據(jù)庫(kù)內(nèi)容涉及各種不同的專業(yè)領(lǐng)域和文獻(xiàn)類型,如萬方知識(shí)服務(wù)系統(tǒng)、OCLC的數(shù)據(jù)庫(kù)系列、INSPEC網(wǎng)絡(luò)數(shù)據(jù)庫(kù)等。2)網(wǎng)絡(luò)出版物網(wǎng)絡(luò)出版物是以數(shù)字代碼形式將文字、圖像、聲音、視頻等信息存儲(chǔ)在磁、光、電介質(zhì)上,通過Internet高速傳播,并通過計(jì)算機(jī)或者類似設(shè)備閱讀使用的出版物。信息技術(shù)和網(wǎng)絡(luò)技術(shù)為出版物的出版、發(fā)行和傳播創(chuàng)造了良好的條件,不僅大量的紙本文獻(xiàn)開始發(fā)行電子版本,很多出版物更完全以電子化、數(shù)字化形式進(jìn)行編輯、制作、出版和發(fā)布,并以網(wǎng)絡(luò)化形式發(fā)行。3)社會(huì)信息社會(huì)信息是機(jī)構(gòu)和個(gè)人發(fā)布的數(shù)據(jù)、資料、新聞和服務(wù)等多方面的信息。社會(huì)信息范圍廣泛、內(nèi)容龐雜,主要包括政府機(jī)構(gòu)部門的政策和服務(wù)信息、社會(huì)新聞、生活?yuàn)蕵沸畔ⅰC(jī)構(gòu)名錄、產(chǎn)品目錄、廣告信息、商品信息、股市信息和專題評(píng)論等。4)軟件資源軟件資源主要是指通過網(wǎng)絡(luò)提供給用戶使用的各種應(yīng)用程序。它們以文件形式存在,幫助用戶實(shí)現(xiàn)某些應(yīng)用功能,如殺毒、解壓、聊天、系統(tǒng)維護(hù)、多媒體播放、文件傳輸、程序編輯等。5)其他類型的信息其他類型的信息包括網(wǎng)絡(luò)論壇交流信息、電子公告、網(wǎng)絡(luò)日志等存在于Internet上的信息。4.1.3網(wǎng)絡(luò)信息檢索的一般方法網(wǎng)絡(luò)信息資源存儲(chǔ)在連接到網(wǎng)絡(luò)的主機(jī)和服務(wù)器中,如果知道資源的地址,就可通過瀏覽器或其他方式利用這些信息。不管是哪一種檢索方法,都是以找到服務(wù)器在網(wǎng)上的地址(URL)為目標(biāo),再通過該地址去訪問服務(wù)器提供的信息。1.網(wǎng)上瀏覽網(wǎng)上瀏覽需要從一個(gè)相關(guān)網(wǎng)站或網(wǎng)頁(yè)出發(fā),通過超文本文檔中的鏈接找到一批新的相關(guān)網(wǎng)站或網(wǎng)頁(yè),在瀏覽這些網(wǎng)頁(yè)后,再?gòu)倪@些網(wǎng)站或網(wǎng)頁(yè)提供的鏈接找到下一批相關(guān)網(wǎng)站,如此循環(huán)下去,像滾雪球一樣不斷擴(kuò)大搜索范圍。網(wǎng)上瀏覽類似于文獻(xiàn)檢索方法中的引文法,只是檢索對(duì)象不是普通文獻(xiàn),而是網(wǎng)站。用網(wǎng)上瀏覽的方法,通常會(huì)有意外的發(fā)現(xiàn),但耗費(fèi)的時(shí)間較多,且需要預(yù)先收集網(wǎng)址。在研究課題時(shí)用這種方法收集信息,其效率相對(duì)較低,并且收集到的信息也不全面。2.網(wǎng)絡(luò)資源指南網(wǎng)絡(luò)資源指南是專業(yè)人員對(duì)網(wǎng)絡(luò)信息資源進(jìn)行采集、評(píng)價(jià)、組織、過濾和控制,從而開發(fā)出的可供用戶瀏覽和檢索的多級(jí)主題分類體系。當(dāng)用戶需要某一類信息資源的時(shí)候,通過逐級(jí)瀏覽網(wǎng)頁(yè)主題指南的分類體系,就可獲取相關(guān)信息。網(wǎng)絡(luò)資源指南的局限性在于管理和維護(hù)跟不上網(wǎng)絡(luò)信息的增長(zhǎng)和更新,收錄范圍不夠全面,各網(wǎng)站的分類體系不統(tǒng)一。3.搜索引擎利用搜索引擎是較為普遍的網(wǎng)絡(luò)信息檢索方式。用戶以關(guān)鍵詞、詞組或自然語(yǔ)言構(gòu)成檢索表達(dá)式,提出檢索要求,搜索引擎代替用戶在數(shù)據(jù)庫(kù)中檢索,并將檢索結(jié)果提供給用戶。利用搜索引擎檢索的優(yōu)點(diǎn)是簡(jiǎn)單方便,檢索速度快、范圍廣,能及時(shí)獲取新增信息。其缺點(diǎn)在于檢索準(zhǔn)確性不理想。4.?RSS閱讀工具RSS是一種用于發(fā)布和獲取網(wǎng)絡(luò)內(nèi)容的XML格式的工具。使用RSS閱讀工具,用戶可以輕松地訂閱所需信息。這些被稱做RSS閱讀工具的軟件,會(huì)自動(dòng)將用戶訂閱的RSS源內(nèi)容聚合成一個(gè)網(wǎng)頁(yè),并不斷自主更新,使用戶無需一個(gè)個(gè)打開有關(guān)的目標(biāo)網(wǎng)頁(yè)即可瀏覽所需內(nèi)容。4.2搜索引擎4.2.1搜索引擎的概念搜索引擎是根據(jù)一定的策略,運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,并對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。換句話說,搜索引擎是通過Internet接受用戶的查詢指令,并向用戶提供符合查詢要求的信息資源網(wǎng)址系統(tǒng)。它在Web中主動(dòng)搜索信息(網(wǎng)頁(yè)上的單詞和特定的描述內(nèi)容)并將其自動(dòng)索引,存儲(chǔ)在可供檢索的大型數(shù)據(jù)庫(kù)中。當(dāng)用戶輸入關(guān)鍵詞查詢時(shí),搜索引擎會(huì)告訴用戶包含該關(guān)鍵詞信息的所有網(wǎng)址,并提供通向該網(wǎng)絡(luò)的鏈接。搜索引擎既是用于檢索的軟件,又是提供查詢、檢索的網(wǎng)站。所以,搜索引擎也可稱為Internet上具有檢索功能的網(wǎng)頁(yè)。4.2.2搜索引擎的基本工作原理看似簡(jiǎn)單的搜索引擎背后涉及包括數(shù)據(jù)結(jié)構(gòu)、索引、算法、知識(shí)表示、自然語(yǔ)言處理、信息檢索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘等多個(gè)方面的內(nèi)容。通常,搜索引擎主要包括信息采集、信息加工、信息檢索與檢索結(jié)果提供這幾個(gè)部分。信息采集模塊(搜集器)以一定的策略在因特網(wǎng)等信息源中采集相關(guān)信息。大多數(shù)搜索引擎利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序,自動(dòng)訪問互聯(lián)網(wǎng),并沿著網(wǎng)頁(yè)中的URL爬到其他網(wǎng)頁(yè)。不斷重復(fù)此過程,并把爬過的所有網(wǎng)頁(yè)收集回來。信息加工模塊是對(duì)收集到的網(wǎng)頁(yè)資源進(jìn)行標(biāo)引、建立索引、編制摘要、完成分類等過程,即由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其他網(wǎng)頁(yè)的鏈接關(guān)系等),并根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈接中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。信息檢索模塊根據(jù)用戶的檢索提問對(duì)檢索項(xiàng)與索引項(xiàng)進(jìn)行匹配運(yùn)算以獲取對(duì)應(yīng)的檢索結(jié)果集。當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。

檢索結(jié)果提供是在進(jìn)行必要的相關(guān)分析后以超鏈接形式給出檢索結(jié)果,即由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容、摘要等內(nèi)容組織起來提供給用戶。搜索引擎基本工作原理如圖4-1所示。事實(shí)上,搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的是預(yù)先整理好的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個(gè)網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫(kù)的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁(yè)面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法排序后,這些結(jié)果將按照與搜索關(guān)鍵詞相關(guān)度的高低,依次排列并呈現(xiàn)?,F(xiàn)在的搜索引擎已普遍使用超鏈接分析技術(shù),除了分析索引網(wǎng)頁(yè)本身的內(nèi)容,還分析索引所有指向該網(wǎng)頁(yè)的鏈接的URL和AnchorText,甚至鏈接周圍的文字。所以,有時(shí)候,即使某個(gè)網(wǎng)頁(yè)A中并沒有某個(gè)詞比如“信息素質(zhì)”,但如果有別的網(wǎng)頁(yè)B用鏈接“信息素質(zhì)”指向這個(gè)網(wǎng)頁(yè)A,那么用戶搜索“信息素質(zhì)”時(shí)也能找到網(wǎng)頁(yè)A。如果有越多網(wǎng)頁(yè)(C、D、E、F…)用名為“信息素質(zhì)”的鏈接指向這個(gè)網(wǎng)頁(yè)A,或者給出這個(gè)鏈接的源網(wǎng)頁(yè)(B、C、D、E、F…)越優(yōu)秀,那么網(wǎng)頁(yè)A在用戶搜索“信息素質(zhì)”時(shí)會(huì)被認(rèn)為更相關(guān),排序會(huì)越靠前。4.2.3搜索引擎的發(fā)展歷史一般認(rèn)為搜索引擎的雛形是1990年加拿大麥吉爾大學(xué)開發(fā)的Archie系統(tǒng),它通過定期搜集并分析FTP系統(tǒng)中的文件名信息,提供查找分布在各個(gè)FTP主機(jī)中的文件。1993年,美國(guó)內(nèi)華達(dá)大學(xué)開發(fā)出功能更為全面的提供網(wǎng)頁(yè)檢索的Veronica系統(tǒng)。緊隨其后,搜索引擎開始采用網(wǎng)頁(yè)自動(dòng)采集器,即網(wǎng)絡(luò)蜘蛛Spider來提高信息采集的性能。1994年初,美國(guó)華盛頓大學(xué)開發(fā)出了因特網(wǎng)上實(shí)現(xiàn)全文搜索的搜索引擎WebCrawler。同年7月,MichaelMauldin開發(fā)出基于Spider技術(shù)的搜索引擎Lycos。接著,美國(guó)斯坦福大學(xué)的大衛(wèi)·菲勒(DavidFilo)和美籍華人楊致遠(yuǎn)(GerryYang)共同開發(fā)出目錄索引式搜索引擎Yahoo。從此,搜索引擎進(jìn)入了快速發(fā)展的新時(shí)期。1995年12月,DEC正式發(fā)布的AltaVista是第一個(gè)支持自然語(yǔ)言搜索的搜索引擎,也是第一個(gè)實(shí)現(xiàn)高級(jí)搜索語(yǔ)法(如AND、OR、NOT等)的搜索引擎。近年來,Google、百度等搜索引擎日益成熟,功能日趨完善??v觀搜索引擎的發(fā)展歷史,一般來說,可根據(jù)其在不同時(shí)期的研發(fā)重點(diǎn)和性能的不同分為三代。第一代搜索引擎以早期的Yahoo、AltaVista和Infoseek等為代表,這類搜索引擎的特征是基于人工分類目錄搜索。以Google、DirectHit等為代表的搜索引擎一般稱為第二代搜索引擎。第二代搜索引擎的主要特征是運(yùn)用“符號(hào)計(jì)算”,基于關(guān)鍵詞搜索以及以關(guān)鍵詞組合為基礎(chǔ)的全文搜索和模糊搜索。與第一代搜索引擎相比,基于關(guān)鍵詞搜索的優(yōu)勢(shì)是使用方便,搜索速度快,直接搜索內(nèi)容,這是第一代搜索引擎無法比擬的。目前,搜索引擎已進(jìn)入了一個(gè)空前繁榮的時(shí)期?,F(xiàn)今的搜索引擎不僅索引規(guī)模大,而且更多地結(jié)合了自然語(yǔ)言理解、個(gè)性化等智能化技術(shù),有人亦稱這一時(shí)期的搜索引擎為第三代搜索引擎。4.2.4發(fā)展中的搜索引擎作為Internet必不可少的核心技術(shù)之一,搜索引擎技術(shù)是人們利用海量網(wǎng)絡(luò)資源的重要工具。Google中國(guó)原總裁李開復(fù)認(rèn)為,目前的搜索引擎只是對(duì)海量的網(wǎng)頁(yè)進(jìn)行簡(jiǎn)單排序,事實(shí)上,最聰明的搜索引擎,并非要提供多元化信息,而是能夠?yàn)橛脩籼峁┧岢鰡栴}的答案,甚至解決問題。因此,隨著Internet的快速發(fā)展,未來的搜索引擎應(yīng)該更能夠滿足用戶的信息查詢需求。整合搜索、社區(qū)搜索和移動(dòng)搜索等正在成為今后發(fā)展的趨勢(shì)。1.整合搜索用戶通過網(wǎng)絡(luò)搜索并獲得海量信息是利用信息抓取技術(shù)實(shí)現(xiàn)的,屬于剛性搜索。如果搜索引擎能夠通過對(duì)用戶信息的整合,預(yù)知用戶搜索的目的,就能從海量信息中整理出用戶最需要、最實(shí)用的信息,并通過整合其他渠道幫助用戶解決實(shí)際問題,這就是剛性搜索的軟化處理。網(wǎng)絡(luò)實(shí)名、用戶注冊(cè)信息以及IP地址分析等是軟性搜索的必要條件。另外,整合搜索不是簡(jiǎn)單地把搜索結(jié)果羅列在一起,而是經(jīng)過頁(yè)面搜索、垂直搜索之后,在更高層次上為用戶提供最佳搜索結(jié)果,即通過將其他搜索產(chǎn)品的結(jié)果整合到網(wǎng)頁(yè)搜索中,使結(jié)果信息內(nèi)容更加豐富、形式更為多媒體化。整合搜索的前提是基于對(duì)關(guān)鍵詞的智能分析判斷。但是,隨著用戶需求的提高,對(duì)整合搜索的要求也越來越高。如何美觀、簡(jiǎn)潔地呈現(xiàn)多種類型的信息,如何提高信息查詢結(jié)果的精度、檢索的有效性與整合的質(zhì)量,仍是搜索引擎不可回避的命題。2.社區(qū)搜索社區(qū)搜索代表一種理念,即把大眾的智慧匯集起來給需要的人(搜索)使用。比如通過百度旗下的“百度知道”,用戶可以用提問的形式將問題提交給搜索引擎,不同的人將會(huì)回答提出的問題,過一段時(shí)間后大多都能有滿意的答案。這些答案匯集起來,逐漸壯大,形成一個(gè)知識(shí)庫(kù)。當(dāng)然,對(duì)于很多問題,用戶可以直接搜索得到答案。雖然大部分都還處于發(fā)展期,不過在不久的將來,社區(qū)搜索將會(huì)越來越完善。3.移動(dòng)搜索隨著手機(jī)等移動(dòng)終端的逐漸普及,移動(dòng)搜索已經(jīng)成為獲取信息資源的重要方式。移動(dòng)搜索是基于移動(dòng)網(wǎng)絡(luò)的搜索技術(shù)的總稱,用戶可以通過SMS、WAP、IVR等多種接入方式進(jìn)行搜索,獲取互聯(lián)網(wǎng)信息、移動(dòng)增值服務(wù)及本地信息等信息服務(wù)內(nèi)容。移動(dòng)搜索的核心是將搜索引擎與移動(dòng)設(shè)備有機(jī)結(jié)合,生成符合產(chǎn)品和用戶特點(diǎn)的搜索結(jié)果。目前,知名的移動(dòng)搜索引擎有百度、搜狗、360搜索、神馬搜索、Google、Bing、微信搜一搜、頭條搜索、中國(guó)搜索、夸克搜索等。Google已在全球范圍發(fā)布谷歌中文語(yǔ)音搜索,谷歌手機(jī)搜索已經(jīng)加入中文語(yǔ)音搜索功能,用戶在手機(jī)上只需按下通話鍵即可進(jìn)行語(yǔ)音搜索,這是手機(jī)搜索與PC互聯(lián)網(wǎng)搜索最大的不同之處。蘋果公司也推出了Siri語(yǔ)音控制功能。通過這個(gè)語(yǔ)音功能,可以把iPhone變成一個(gè)智能化的機(jī)器人,實(shí)現(xiàn)天氣查詢、搜索查詢等功能。未來的移動(dòng)搜索將會(huì)變得更加個(gè)性化,移動(dòng)的搜索結(jié)果也將基于搜索位置、搜索偏好以及個(gè)人的社交網(wǎng)絡(luò)信息等。4.垂直搜索垂直搜索引擎也常常被稱為專業(yè)搜索引擎、專題搜索引擎,是有針對(duì)性地為某一特定領(lǐng)域、某一特定人群或某一特定需求提供專門的信息檢索服務(wù),以滿足用戶個(gè)性化的信息需求的搜索引擎。垂直搜索引擎是對(duì)特定領(lǐng)域或行業(yè)的內(nèi)容進(jìn)行專業(yè)和深入的分析挖掘、過濾篩選,對(duì)其信息定位更為精準(zhǔn)的專業(yè)搜索,實(shí)際上是搜索引擎的細(xì)分和延伸。垂直搜索引擎的特點(diǎn)是“專、精、深”,且具有行業(yè)特色,即與綜合搜索引擎的海量信息無序化相比,垂直搜索引擎則更加專業(yè)、具體和深入。垂直搜索引擎的Spider更加專業(yè)化和可定制化,能夠定向采集與垂直搜索范圍相關(guān)的網(wǎng)頁(yè),對(duì)內(nèi)容相關(guān)的以及適于進(jìn)一步處理的網(wǎng)頁(yè)進(jìn)行優(yōu)先采集。其信息采集可以通過人工設(shè)定網(wǎng)址和網(wǎng)頁(yè)分析等方式共同進(jìn)行,在定向分字段抽取出所需要的數(shù)據(jù)并處理后再以某種形式返回給用戶。由于垂直搜索引擎在信息抓取的過程中已經(jīng)進(jìn)行了去重、分類、比較分析、數(shù)據(jù)挖掘等深度加工,因此垂直搜索引擎提供給我們的信息具有較高的價(jià)值。4.2.5搜索引擎的類型搜索引擎按不同的分類原則可以有多種分類方式。例如:按信息標(biāo)引的方式,搜索引擎可以分為目錄式搜索引擎、機(jī)器人搜索引擎和混合式搜索引擎;按信息查詢的方式,搜索引擎可以分為瀏覽式搜索引擎、關(guān)鍵詞搜索引擎、全文搜索引擎、智能搜索引擎;按語(yǔ)種,搜索引擎又可以分為單語(yǔ)種搜索引擎、多語(yǔ)種搜索引擎和跨語(yǔ)言搜索引擎等;按工作方式或者檢索機(jī)制,搜索引擎可以分為目錄型搜索引擎、索引型搜索引擎和元搜索引擎。目錄型搜索引擎層次結(jié)構(gòu)清晰、易于查找,而且所收錄的網(wǎng)絡(luò)信息資源經(jīng)過了專業(yè)信息人員的鑒別、選擇和組織,從而確保了檢索工具的質(zhì)量和檢索的準(zhǔn)確性。但目錄型搜索引擎的數(shù)據(jù)庫(kù)規(guī)模相對(duì)較小,某些分類主題收錄內(nèi)容不夠全面,系統(tǒng)更新、維護(hù)的速度受到很大的制約,查全率不高。目錄型搜索引擎一般比較適合于查找綜合性、概括性的主題概念或類屬明確的課題。著名的目錄型搜索引擎有Yahoo、Galaxy、搜狐、新浪、OpenDirectory、Infoseek、TheWWWVirtualLibrary、BUBLLINK、AOLSearch和藍(lán)帆等。目前,只有數(shù)量很少的目錄型搜索引擎仍在提供服務(wù)。2.索引型搜索引擎基于關(guān)鍵詞檢索的索引型搜索引擎是名副其實(shí)的搜索引擎。索引型搜索引擎也稱為機(jī)器人搜索引擎或關(guān)鍵詞搜索引擎,它實(shí)際上是一個(gè)WWW網(wǎng)站。與普通網(wǎng)站不同的是,索引型搜索引擎網(wǎng)站的主要資源是包括WWW等眾多資源的索引數(shù)據(jù)庫(kù)。索引型搜索引擎主要使用“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”等自動(dòng)跟蹤索引軟件,通過自動(dòng)分析網(wǎng)頁(yè)的超鏈接,依靠超鏈接和HTML代碼分析獲取網(wǎng)頁(yè)信息內(nèi)容,并采用自動(dòng)搜索、自動(dòng)標(biāo)引、自動(dòng)文摘等方式建立和維護(hù)索引數(shù)據(jù)庫(kù),以Web形式提供用戶檢索界面,用戶輸入關(guān)鍵詞后,其后臺(tái)的檢索代理軟件代替用戶在索引數(shù)據(jù)庫(kù)中查找出與檢索提問匹配的記錄,并將檢索結(jié)果反饋給用戶。索引型搜索引擎的索引數(shù)據(jù)庫(kù)的容量非常龐大,收錄、加工信息的范圍廣、速度快,能向用戶及時(shí)提供最新信息。但由于標(biāo)引過程缺乏人工干預(yù),加之檢索代理軟件的智能化程度不是很高,導(dǎo)致其檢索準(zhǔn)確性不是很高。索引型搜索引擎比較適合于檢索特定主題的信息以及較為專深、具體或類屬不明確的課題。3.元搜索引擎元搜索引擎是一種將多個(gè)獨(dú)立的搜索引擎集成到一起,提供統(tǒng)一的用戶查詢界面,將用戶的檢索提問同時(shí)提交給多個(gè)獨(dú)立搜索引擎,檢索其共享的獨(dú)立搜索引擎的資源庫(kù),再經(jīng)過聚合、去重和排序等處理,將最終檢索結(jié)果一并提供給用戶的網(wǎng)絡(luò)檢索工具。元搜索引擎是對(duì)搜索引擎進(jìn)行搜索的搜索引擎,是對(duì)多個(gè)獨(dú)立搜索引擎的整合、調(diào)用、控制和優(yōu)化利用。因此,元搜索引擎被稱為“搜索引擎之母”。相對(duì)于元搜索引擎,可被利用的獨(dú)立搜索引擎稱為“源搜索引擎”或“成員搜索引擎”。元搜索引擎一般都沒有自己的網(wǎng)絡(luò)機(jī)器人及數(shù)據(jù)庫(kù),但在檢索請(qǐng)求提交、檢索接口代理和檢索結(jié)果顯示等方面,通常都有自己研發(fā)的特色元搜索技術(shù)。在搜索引擎的發(fā)展進(jìn)程中,元搜索引擎有一種初級(jí)形態(tài),稱為集合式搜索引擎(All-In-OneSearchPage)。集合式搜索引擎曾以其方便、實(shí)用在網(wǎng)絡(luò)搜索工具家族中占據(jù)了一席之地。集合式搜索引擎通過網(wǎng)絡(luò)技術(shù),在一個(gè)網(wǎng)頁(yè)上鏈接很多個(gè)獨(dú)立搜索引擎,檢索時(shí),需點(diǎn)選或指定搜索引擎,一次輸入,多個(gè)搜索引擎同時(shí)查詢,搜索結(jié)果由各搜索引擎分別以不同的頁(yè)面顯示,其實(shí)質(zhì)是利用網(wǎng)站鏈接技術(shù)形成的搜索引擎集合,而并非真正意義上的搜索引擎。集合式搜索引擎無自建數(shù)據(jù)庫(kù),不需研發(fā)支持技術(shù),也不能控制和優(yōu)化檢索結(jié)果。4.2.6常用搜索引擎1.索引型搜索引擎1)百度()百度是全球最大的中文搜索引擎,1999年底由李彥宏、徐勇創(chuàng)建于美國(guó)硅谷,2000年開始在中國(guó)發(fā)展。2000年5月,百度首次為門戶網(wǎng)站—硅谷動(dòng)力提供搜索技術(shù)服務(wù),之后迅速占領(lǐng)中國(guó)搜索引擎市場(chǎng),成為最主要的搜索技術(shù)提供商。2001年8月,百度發(fā)布了B搜索引擎Beta版,從后臺(tái)服務(wù)轉(zhuǎn)向獨(dú)立提供搜索服務(wù),并且在中國(guó)首創(chuàng)了競(jìng)價(jià)排名的商業(yè)模式。2001年10月22日,百度正式發(fā)布Baidu搜索引擎。2005年8月5日,百度在美國(guó)納斯達(dá)克上市,成為2005年全球資本市場(chǎng)上最為引人注目的上市公司,百度由此進(jìn)入一個(gè)嶄新的發(fā)展階段。百度主頁(yè)如圖4-2所示。百度運(yùn)用了中文智能語(yǔ)言的處理方法,支持主流的中文編碼標(biāo)準(zhǔn),包括漢字內(nèi)碼擴(kuò)展規(guī)范(GBK)、簡(jiǎn)體(GB2312)、繁體(BIG5)等,并且能夠在不同的編碼之間轉(zhuǎn)換,極大地方便了來自全球各個(gè)國(guó)家的中文搜索請(qǐng)求。除網(wǎng)頁(yè)搜索外,百度還提供MP3音樂、新聞、地圖、影視等多樣化的搜索服務(wù),創(chuàng)造了以貼吧、知道、百科、空間為代表的搜索社區(qū)。百度還為各類企業(yè)提供競(jìng)價(jià)排名推廣業(yè)務(wù),以及關(guān)聯(lián)廣告服務(wù)。隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,百度網(wǎng)頁(yè)搜索完成了由PC向移動(dòng)的轉(zhuǎn)型,由連接人與信息擴(kuò)展到連接人與服務(wù),用戶可以在PC、Pad、手機(jī)上訪問百度主頁(yè),通過文字、語(yǔ)音、圖像多種交互方式瞬間找到所需要的信息和服務(wù)。在提供同樣的海量應(yīng)用、精準(zhǔn)搜索外,百度移動(dòng)應(yīng)用客戶端還具備云推送、精準(zhǔn)語(yǔ)音搜索等功能。(1)網(wǎng)頁(yè)搜索。

(2)視頻搜索。(3)圖片搜索。在圖片搜索框中輸入要搜索的關(guān)鍵字(黨的二十大),點(diǎn)擊“百度一下”按鈕,即可搜索出相關(guān)的圖片。搜索結(jié)果頁(yè)面支持圖片尺寸選擇、顏色選擇、圖片類型等篩選項(xiàng),可以得到更為精確的結(jié)果,如圖4-3所示。(4)?MP3搜索。(5)新聞搜索。(6)地圖搜索。(7)常用搜索。(8)百度的搜索技巧。①

輸入多個(gè)詞語(yǔ)搜索(不同字詞之間用一個(gè)空格隔開,相當(dāng)于邏輯“與”),可以縮小檢索范圍,獲得更精準(zhǔn)的搜索結(jié)果。在百度查詢時(shí)不需要使用邏輯符號(hào)“AND”或“+”,百度會(huì)在空格隔開的詞語(yǔ)之間自動(dòng)添加邏輯“與”運(yùn)算符。②

減除無關(guān)資料(邏輯“非”)。有時(shí)候,搜索結(jié)果中某一方面的不相關(guān)內(nèi)容特別多,這時(shí)可以利用“減除無關(guān)資料”功能,縮小查詢范圍,提高命中率。百度支持“-”功能,用于有目的地刪除某些無關(guān)網(wǎng)頁(yè),但減號(hào)之前必須留一空格。③

并行搜索(邏輯“或”)。使用“A|B”來搜索“或者包含詞語(yǔ)A,或者包含詞語(yǔ)B”的網(wǎng)頁(yè)。例如,要查詢“歐債危機(jī)”或“次貸危機(jī)”的相關(guān)資料,無需分兩次查詢,只要輸入“歐債危機(jī)|次貸危機(jī)”搜索即可。④

相關(guān)檢索。百度的“相關(guān)搜索”,會(huì)列出一些和當(dāng)前搜索很相似的一系列檢索詞。當(dāng)搜索結(jié)果不理想時(shí),用戶可以通過參考別人進(jìn)行過的搜索來獲得一些啟發(fā)。如果無法確定輸入什么詞語(yǔ)才能找到滿意的資料,則可以使用百度相關(guān)搜索??梢韵容斎胍粋€(gè)關(guān)鍵詞搜索,百度搜索引擎會(huì)在搜索結(jié)果頁(yè)面的下方顯示“其他用戶搜索過的相關(guān)搜索詞語(yǔ)”作參考。點(diǎn)擊其中一個(gè)相關(guān)搜索詞,就能得到這個(gè)相關(guān)搜索詞的搜索結(jié)果,如圖4-4所示。⑤

百度快照。如果無法打開某個(gè)搜索結(jié)果,或者打開速度特別慢,可以使用“百度快照”。每個(gè)未被禁止搜索的網(wǎng)頁(yè),在百度上都會(huì)自動(dòng)生成臨時(shí)緩存頁(yè)面,稱為“百度快照”。當(dāng)用戶遇到網(wǎng)站服務(wù)器暫時(shí)故障或網(wǎng)絡(luò)傳輸堵塞時(shí),可以通過“百度快照”快速瀏覽頁(yè)面文本內(nèi)容。百度快照只會(huì)臨時(shí)緩存網(wǎng)頁(yè)的文本內(nèi)容,所以那些圖片、音樂等非文本信息,仍是存儲(chǔ)于原網(wǎng)頁(yè)。當(dāng)原網(wǎng)頁(yè)修改、刪除或者屏蔽后,百度搜索引擎會(huì)自動(dòng)修改、刪除或者屏蔽相應(yīng)的網(wǎng)頁(yè)快照。⑥

專業(yè)文檔搜索。網(wǎng)上很多有價(jià)值的資料以Word、PowerPoint、PDF等格式存在,百度支持這些文檔的搜索。搜索時(shí),在輸入的關(guān)鍵詞后面加一個(gè)“filetype:文檔類型”即可?!癴iletype:”后的文檔類型可以是DOC、XLS、PPT、PDF、RTF、ALL等文件格式。其中,ALL表示搜索所有以上文件類型。例如,查找交易費(fèi)用方面的WORD文檔,可以輸入“交易費(fèi)用filetype:doc”。在搜索結(jié)果頁(yè)面下,點(diǎn)擊結(jié)果標(biāo)題,可下載文檔。⑦

在指定網(wǎng)站內(nèi)搜索。百度默認(rèn)搜索整個(gè)互聯(lián)網(wǎng),利用“site:”命令可以限制只搜索某個(gè)具體網(wǎng)站、網(wǎng)站頻道或某域名內(nèi)的網(wǎng)頁(yè)。例如,“植物生理site:”表示在蘭州大學(xué)網(wǎng)站內(nèi)搜索與“植物生理”相關(guān)的資料;“intelsite:”表示在域名以“”結(jié)尾的網(wǎng)站內(nèi)搜索與“intel”相關(guān)的資料;“甘肅site:cn”表示在域名以“cn”結(jié)尾的網(wǎng)站內(nèi)搜索與“甘肅”相關(guān)的資料。需要注意的是,利用“site:”命令時(shí),搜索關(guān)鍵詞在前,“site:”及網(wǎng)址在后;關(guān)鍵詞與“site:”之間需留一空格隔開;site后的冒號(hào)“:”可以是半角,也可以是全角,百度搜索引擎會(huì)自動(dòng)辨認(rèn);“site:”后最好不要有“http://”前綴或“/”后綴;網(wǎng)站頻道只局限于“頻道名.域名”方式,不能是“域名/頻道名”方式。⑧

在標(biāo)題中搜索。利用“intitle:”命令,可以限制只搜索網(wǎng)頁(yè)標(biāo)題中含有某些關(guān)鍵詞的網(wǎng)頁(yè)。例如,“intitle:十九大”表示搜索標(biāo)題中含有關(guān)鍵詞“十九大”的網(wǎng)頁(yè);“intitle:搜索引擎

互聯(lián)網(wǎng)”表示搜索標(biāo)題中含有關(guān)鍵詞“搜索引擎”和“互聯(lián)網(wǎng)”的網(wǎng)頁(yè)。

在url中搜索。利用“inurl:”命令,可以限制只搜索url中含有這些文字的網(wǎng)頁(yè)。例如:“inurl:mp3”表示搜索url中含有“mp3”的網(wǎng)頁(yè);“inurl:網(wǎng)頁(yè)”表示搜索url中含有“網(wǎng)頁(yè)”的網(wǎng)頁(yè);“inurl:chinanews”表示搜索url中含有“china”和“news”的網(wǎng)頁(yè)。

高級(jí)搜索。如果對(duì)百度各種查詢語(yǔ)法不熟悉,可以使用百度的高級(jí)搜索。例如,要查找題名中包含網(wǎng)絡(luò)數(shù)據(jù)庫(kù)PPT的課件,可以在高級(jí)搜索頁(yè)面中按圖4-5所示進(jìn)行檢索,執(zhí)行檢索后得到的檢索結(jié)果如圖4-6所示。2)?Google中文版(.hk)Google公司是由斯坦福大學(xué)拉里·佩奇(LarryPage)和謝爾蓋·布林(SergeyBrin)于1998年9月組建的,公司提供的核心服務(wù)就是搜索引擎。Google原是一個(gè)數(shù)學(xué)名詞,表示一個(gè)1后面跟著100個(gè)零,Google公司使用這一術(shù)語(yǔ)作為公司名體現(xiàn)了公司整合網(wǎng)上海量信息的遠(yuǎn)大目標(biāo)。自2000年開始商業(yè)運(yùn)作以來,Google以其先進(jìn)的技術(shù)、全面的檢索功能和簡(jiǎn)單有效的服務(wù),在全球范圍內(nèi)擁有了大量的用戶。目前,Google已經(jīng)發(fā)展成為世界范圍內(nèi)最優(yōu)秀的搜索引擎。Google搜索引擎的成功得益于其強(qiáng)大的功能和獨(dú)到的特點(diǎn)。Google采用超文本鏈接結(jié)構(gòu)分析技術(shù)和大規(guī)模的數(shù)據(jù)挖掘技術(shù),能根據(jù)Internet本身的鏈接結(jié)構(gòu)對(duì)相關(guān)網(wǎng)站用自動(dòng)方法進(jìn)行分類,提供便捷的網(wǎng)上信息查詢方法,并為查詢提供快速準(zhǔn)確的結(jié)果。Google使用PageRank技術(shù)檢查整個(gè)網(wǎng)絡(luò)鏈接結(jié)構(gòu),并確定哪些網(wǎng)頁(yè)重要性最高,然后進(jìn)行超文本匹配分析,以確定哪些網(wǎng)頁(yè)與正在執(zhí)行的特定搜索相關(guān)。在綜合考慮整體重要性以及與特定查詢的相關(guān)性之后,Google可以將最相關(guān)最可靠的搜索結(jié)果放在首位。PageRank并不計(jì)算直接鏈接的數(shù)量,而是將從網(wǎng)頁(yè)A指向網(wǎng)頁(yè)B的鏈接解釋為由網(wǎng)頁(yè)A對(duì)網(wǎng)頁(yè)B所投的一票。這樣,PageRank會(huì)根據(jù)網(wǎng)頁(yè)B所收到的投票數(shù)量來評(píng)估該頁(yè)的重要性。此外,PageRank還會(huì)評(píng)估每個(gè)投票網(wǎng)頁(yè)的重要性,因?yàn)槟承┚W(wǎng)頁(yè)的投票被認(rèn)為具有較高的價(jià)值,這樣,它所鏈接的網(wǎng)頁(yè)就能獲得較高的價(jià)值。重要網(wǎng)頁(yè)獲得的PageRank(網(wǎng)頁(yè)排名)較高,從而顯示在搜索結(jié)果的頂部。Google技術(shù)使用網(wǎng)上反饋的綜合信息來確定某個(gè)網(wǎng)頁(yè)的重要性。搜索結(jié)果沒有人工干預(yù)或操縱,這也是為什么Google會(huì)成為一個(gè)廣受用戶信賴、不受付費(fèi)排名影響且公正客觀的信息來源。Google支持使用中、英、德、日、法等57種語(yǔ)言,支持新聞組的Web方式瀏覽和張貼、目錄服務(wù)、PDF文檔搜索、地圖搜索、工具條、搜索結(jié)果翻譯、搜索結(jié)果過濾等功能。Google不僅擁有自身的獨(dú)立搜索引擎網(wǎng)站,還將其搜索引擎技術(shù)出售給世界上許多公司,目前,包括美國(guó)在線(AOL)在內(nèi)的全球150多家公司采用了Google搜索引擎技術(shù)。2010年3月,Google宣布停止了中國(guó)大陸地區(qū)的搜索服務(wù)。谷歌香港域名為.hk。(1)基本搜索(如圖4-7所示)。(2)高級(jí)搜索。單擊Google中文主頁(yè)中的“高級(jí)搜索”鏈接,進(jìn)入高級(jí)搜索頁(yè)面,如圖4-8所示。在高級(jí)搜索方式下,用戶可以通過檢索文本框和下拉列表來確定搜索條件。除了可對(duì)關(guān)鍵詞的內(nèi)容和匹配方式進(jìn)行限制外,還可以從語(yǔ)言、文件格式、日期、字詞位置、網(wǎng)域、使用權(quán)限、搜索特定網(wǎng)頁(yè)和特定主題等方面進(jìn)行檢索條件和檢索范圍的限定。此外,Google允許用戶按照個(gè)人愛好設(shè)置“使用偏好”,并可以保存以供將來使用。(3)搜索范圍限制功能。除了高級(jí)搜索提供的多種搜索條件選擇外,Google還提供按鏈接和網(wǎng)域等進(jìn)行搜索范圍的限制?!皊ite:”表示搜索結(jié)果局限于某個(gè)具體網(wǎng)站或者網(wǎng)站頻道,如“信息素質(zhì)site:”表示在新浪網(wǎng)上搜索信息素質(zhì)的有關(guān)資料。如果要排除某網(wǎng)站或者域名范圍內(nèi)的頁(yè)面,則用“-site:網(wǎng)站/域名”即可?!癴iletype”是Google開發(fā)的非常實(shí)用的一個(gè)搜索語(yǔ)法。也就是說,Google不僅能搜索一般的文字頁(yè)面,還能對(duì)某些二進(jìn)制文檔進(jìn)行檢索。目前,Google已經(jīng)能檢索?.xls、.ppt、.doc、.rtf、.pdf、.swf等多種文檔。如搜索資產(chǎn)負(fù)債表的Office文檔,可輸入“資產(chǎn)負(fù)債表filetype:docORfiletype:xlsORfiletype:ppt”。Google中可用“inurl”語(yǔ)法,使搜索的關(guān)鍵詞包含在URL鏈接中。“inurl”語(yǔ)法表示返回的網(wǎng)頁(yè)鏈接中一定包含第一個(gè)關(guān)鍵詞,后面的關(guān)鍵詞可出現(xiàn)在鏈接中或者網(wǎng)頁(yè)文檔中。有很多網(wǎng)站把某一類具有相同屬性的資源名稱顯示在目錄名稱或者網(wǎng)頁(yè)名稱中,比如“MP3”“GALLARY”等,于是,就可以用“inurl”語(yǔ)法找到這些相關(guān)資源鏈接,然后,用第二個(gè)關(guān)鍵詞確定是否有某項(xiàng)具體資料。例如,查找MIDI曲“滄海一聲笑”,可以輸入“inurl:midi“滄海一聲笑””?!癷nurl”語(yǔ)法和基本搜索語(yǔ)法的最大區(qū)別在于,前者通常能提供非常精確的專題資料。Google中可使用“intitle”語(yǔ)法,使搜索的關(guān)鍵詞包含在網(wǎng)頁(yè)標(biāo)題中?!癷ntitle”的用法類似于上面的inurl,只是后者對(duì)URL進(jìn)行查詢,而前者對(duì)網(wǎng)頁(yè)的標(biāo)題欄進(jìn)行查詢。網(wǎng)頁(yè)標(biāo)題就是HTML標(biāo)記語(yǔ)言title中間的部分。通常,網(wǎng)頁(yè)設(shè)計(jì)的一個(gè)原則就是要把主頁(yè)的關(guān)鍵內(nèi)容用簡(jiǎn)潔的語(yǔ)言表示在網(wǎng)頁(yè)標(biāo)題中。因此,只查詢標(biāo)題欄,通常也可以找到符合要求的專題頁(yè)面。Google可查找所有包含了某個(gè)指定URL的頁(yè)面列表。如果你擁有一個(gè)個(gè)人網(wǎng)站,估計(jì)很想知道有多少人對(duì)你的網(wǎng)站作了鏈接,而“l(fā)ink”語(yǔ)法就能迅速達(dá)到這個(gè)目的。例如,搜索所有含指向華軍軟件園“”鏈接的網(wǎng)頁(yè),可輸入“l(fā)ink:”。需要注意的是,“l(fā)ink”不能與其他語(yǔ)法混合操作,所以“l(fā)ink:”后面即使有空格,也將被Google忽略。另外還要說明的是,link只列出了Google索引鏈接的很小一部分,而非全部,所以如果使用Google沒有搜到鏈接到你主頁(yè)的鏈接,也不必灰心喪氣。除了上述功能,link語(yǔ)法還有其他妙用。例如,做友情鏈接的網(wǎng)站都有相似地方。這樣,通過這些友情鏈接,可以找到一大批具有相似內(nèi)容的網(wǎng)站。Google可使用“related”命令查找與某個(gè)頁(yè)面結(jié)構(gòu)內(nèi)容相似的頁(yè)面。例如,搜索所有與中文新浪網(wǎng)主頁(yè)相似的頁(yè)面,可輸入“related:”。Google中使用“cache”命令可搜索Google服務(wù)器上某頁(yè)面的緩存,查找某些已經(jīng)被刪除的死鏈接網(wǎng)頁(yè)。也就是說,“cache”命令相當(dāng)于使用普通搜索結(jié)果頁(yè)面中的“網(wǎng)頁(yè)快照”功能。(4)特色查詢功能。Google還提供一些特色的查詢功能,如手氣不錯(cuò)、集成化工具條、網(wǎng)頁(yè)快照、類似網(wǎng)頁(yè)、網(wǎng)頁(yè)翻譯、單詞英文解釋和搜索結(jié)果過濾等。①

手氣不錯(cuò)。如果在輸入關(guān)鍵詞后選擇“手氣不錯(cuò)”按鈕,Google將帶你到它所推薦的網(wǎng)頁(yè),省去許多麻煩。一般情況下,返回的網(wǎng)頁(yè)是符合檢索要求的第一個(gè)檢索結(jié)果的頁(yè)面。②

網(wǎng)頁(yè)快照。網(wǎng)頁(yè)快照是Google為網(wǎng)頁(yè)做的一份索引快照,用戶通過“網(wǎng)頁(yè)快照”功能,可以查看數(shù)據(jù)庫(kù)緩存中該網(wǎng)頁(yè)的存檔文件,而無須鏈接到網(wǎng)頁(yè)所在的網(wǎng)站。③

類似網(wǎng)頁(yè)。如果用戶對(duì)某一網(wǎng)站的內(nèi)容很感興趣,但網(wǎng)頁(yè)資源卻有限,可以單擊“類似網(wǎng)頁(yè)”,Google會(huì)幫助找尋與這一網(wǎng)頁(yè)相關(guān)的網(wǎng)頁(yè)和資料。④

集成化工具條。為了方便用戶,Google提供了工具條,集成在IE瀏覽器中,用戶無需打開Google主頁(yè),就可以在工具條內(nèi)輸入關(guān)鍵字進(jìn)行檢索。此外,利用Google工具條,用戶可以快捷地在Google主頁(yè)、目錄服務(wù)、新聞組搜索、字典、高級(jí)搜索和搜索設(shè)定之間進(jìn)行切換。⑤

多元化服務(wù)。除了提供Web信息資源的檢索外,Google還推出了許多其他方面的服務(wù),如計(jì)算器、天氣查詢、股票查詢、郵編區(qū)號(hào)、電子郵件等。另外,Google還提供圖片搜索、新聞搜索、文檔搜索、網(wǎng)上論壇搜索、博客搜索、學(xué)術(shù)搜索、快訊搜索和代碼搜索等功能。用戶可以根據(jù)自己的需求體驗(yàn)Google更多產(chǎn)品,如圖4-9所示。3)雅虎()雅虎是美國(guó)著名的互聯(lián)網(wǎng)門戶網(wǎng)站,由楊致遠(yuǎn)和大衛(wèi)·費(fèi)羅于1994年在美國(guó)創(chuàng)立。雅虎是20世紀(jì)末互聯(lián)網(wǎng)奇跡的創(chuàng)造者之一,雅虎是全球第一家提供因特網(wǎng)導(dǎo)航服務(wù)的網(wǎng)站,是最老的“分類目錄”搜索數(shù)據(jù)庫(kù),也是最重要的搜索服務(wù)網(wǎng)站之一。2003年3月,雅虎完成對(duì)Inktomi的收購(gòu),成為Google的主要競(jìng)爭(zhēng)對(duì)手之一。在過去的幾年中,雅虎公司又收購(gòu)了Inktomi、Overtune、Fast、AltaVista、Kelkoo等五家可與Google匹敵的國(guó)際知名搜索服務(wù)商,打造出獨(dú)特的雅虎搜索技術(shù)。在美國(guó),有400余名雅虎資深工程師組成的開發(fā)團(tuán)隊(duì)在進(jìn)行YST的核心技術(shù)開發(fā)。2014年9月,雅虎宣布關(guān)閉目錄搜索服務(wù)。雅虎主頁(yè)如圖4-10所示。4)?Lycos()Lycos是一個(gè)多功能搜索引擎,主頁(yè)如圖4-11所示。它于1994年8月開始在網(wǎng)上運(yùn)行,目前是Lycos集團(tuán)公司Lycosnetwork服務(wù)的成員之一。Lycos借助自動(dòng)搜索軟件收集網(wǎng)頁(yè)、人名、企業(yè)名錄、多媒體、音樂/MP3、討論組、新聞、產(chǎn)品信息等多種類型的資源,搜索結(jié)果精確度較高,尤其是搜索圖像和音頻文件的功能很強(qiáng)。Lycos支持布爾邏輯運(yùn)算符(AND、OR、NOT)、精確檢索符(雙引號(hào)),也可在檢索詞前加“+”表示該詞一定出現(xiàn),檢索詞前加“-”表示該詞一定不出現(xiàn)。個(gè)人Lycos主頁(yè)可根據(jù)個(gè)人興趣和愛好設(shè)置相關(guān)的檢索參數(shù)。此外,Lycos還提供游戲、電子郵件、音樂、購(gòu)物、個(gè)性化Lycos、新聞快訊等服務(wù)。5)?Excite(http://www.E)Excite是由斯坦福大學(xué)的幾個(gè)大學(xué)生于1993年8月創(chuàng)建的Architext擴(kuò)展而成的萬維網(wǎng)搜索引擎,目前屬于AskJeeves公司。Excite提供網(wǎng)頁(yè)檢索、主題目錄檢索、新聞檢索、圖片檢索和視頻檢索等服務(wù)。Excite可以采用雙引號(hào)進(jìn)行精確檢索,“+”表示其后的檢索詞一定出現(xiàn),“-”表示其后的檢索詞不能出現(xiàn)。此外,Excite還提供個(gè)性化定制服務(wù),用戶可以根據(jù)自己的興趣愛好設(shè)置個(gè)性化的界面格式、內(nèi)容、布局或者顏色。2.元搜索引擎1)?MetaCrawler()MetaCrawler是最早的一個(gè)集合型搜索引擎,由華盛頓大學(xué)的EricSelberg和OrenEtzioni于1994年開發(fā),曾被評(píng)為綜合性能最優(yōu)良的集合搜索引擎。2000年MetaCrawler加入InfoSpaceNetwork服務(wù),隸屬于InfoSpace公司。MetaCrawler沒有自己的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù),只充當(dāng)用戶的檢索代理,可調(diào)用Google、Yahoo!和Yandex等幾個(gè)搜索引擎來查找信息。在檢索過程中,MetaCrawler提供統(tǒng)一的檢索界面,將用戶檢索請(qǐng)求轉(zhuǎn)換成成員搜索引擎的檢索指令,然后對(duì)檢索結(jié)果進(jìn)行轉(zhuǎn)換、查重和排序。MetaCrawler可檢索網(wǎng)頁(yè)、圖片、視頻、新聞、黃頁(yè)、白頁(yè)等多種信息資源,檢索界面簡(jiǎn)潔、直觀,操作簡(jiǎn)便,有基本檢索和高級(jí)檢索兩種方式?;緳z索無法構(gòu)造復(fù)雜檢索式,不支持布爾邏輯運(yùn)算符、精確檢索符(“”)、通配符(*)等。高級(jí)檢索提供了大量限制檢索條件的選項(xiàng),用戶可以指定檢索式包含的檢索詞(組)式、不包含的檢索詞(組),運(yùn)用布爾邏輯運(yùn)算符構(gòu)造檢索式,設(shè)置是否過濾相關(guān)的語(yǔ)種和網(wǎng)站。2)?Dogpile()Dogpile創(chuàng)建于1996年1月。早期的Dogpile只提供晨報(bào)新聞檢索,后來逐步發(fā)展成為最受歡迎的元搜索引擎之一。Dogpile是性能較好的元搜索引擎,可以調(diào)用包括Google、Yahoo!等搜索引擎來查找信息。Dogpile的搜索技術(shù)十分先進(jìn),可以使用“*”作為通配符,支持邏輯運(yùn)算符NOT、AND、OR和括號(hào)。Dogpile具有智能化的檢索程序和簡(jiǎn)單易用的界面,用戶只需輸入檢索詞,然后單擊“GoFetch!”即可,如圖4-12所示。3.垂直搜索引擎(專業(yè)性搜索引擎)1)圖像搜索引擎萬維網(wǎng)上的圖像信息有多種形式,如圖像、圖形、位圖和動(dòng)畫等。對(duì)于這些信息的查找,既可以利用Yahoo!、百度、Google、Lycos和AltaVista等綜合性搜索引擎的圖片檢索功能,也可以訪問一些搜集各種圖像資料的專業(yè)資料庫(kù)和俱樂部網(wǎng)站。此外,還可利用一些專門的圖像搜索引擎,如。2)地圖搜索引擎地圖搜索引擎是面向公眾提供電子地圖服務(wù)的網(wǎng)站,是檢索全國(guó)乃至世界地圖信息的重要工具。常用的地圖搜索引擎主要有百度地圖()、谷歌地圖(/maps)、高德地圖()、搜狗地圖(https://map.)、360地圖()、騰訊地圖()等。3)視頻搜索引擎利用視頻搜索引擎可以搜索感興趣的視頻。常用的視頻搜索引擎有百度視頻()、搜狗視頻()、騰訊視頻()、愛奇藝()和360視頻()等。4)讀書搜索引擎利用讀書搜索引擎可以搜索圖書全文,查找感興趣的圖書。常用的讀書搜索引擎有豆瓣讀書()、百度閱讀()、網(wǎng)易云閱讀(http://yuedu.163.com/book)、多看閱讀()、超星讀書()和讀秀()等。5)論壇搜索引擎論壇搜索引擎專注于抓取論壇里的內(nèi)容,是一種專業(yè)化的搜索引擎。論壇具有交互性和參與性等特點(diǎn),很多時(shí)候,譬如想查找關(guān)于某人某事的評(píng)論,論壇搜索引擎是不錯(cuò)的選擇。常用的論壇搜索引擎有搜狗知乎()、360問答(/)和百度知道()等。6)工作搜索引擎

以前,求職或者招聘信息通常通過紙媒、電視和廣播等途徑傳播。網(wǎng)絡(luò)興起以后,有許多專業(yè)招聘網(wǎng)站,如前程無憂()、智聯(lián)招聘()等開始提供招聘信息,通過網(wǎng)絡(luò)找工作成了流行的求職方法。后來,又出現(xiàn)了許多工作搜索引擎,如職友集()和C()等。

7)法律搜索引擎若想了解有關(guān)法律法規(guī)的內(nèi)容,可以利用國(guó)家法律法規(guī)數(shù)據(jù)庫(kù)(https://flk.npc./xf.html)、法律教育網(wǎng)(/falvfagui/)、中國(guó)法律檢索系統(tǒng)(https://law./)、法律快搜(/)和法律之星(/)等。8)?P2P搜索引擎P2P(Peer-to-Peer)意為對(duì)等網(wǎng)絡(luò),是與C/S相對(duì)應(yīng)的網(wǎng)絡(luò)運(yùn)作模式,其顯著特點(diǎn)是整個(gè)網(wǎng)絡(luò)不存在中心節(jié)點(diǎn)(或中心服務(wù)器),其中的每一個(gè)節(jié)點(diǎn)(Peer)同時(shí)具有信息消費(fèi)者、信息提供者和信息通信等三方面的功能。P2P搜索引擎相對(duì)一般網(wǎng)站搜索引擎而言,傳播速度更快,獲取更方便,適用于大流量網(wǎng)絡(luò)信息資源的共享和獲取。目前,我國(guó)的P2P搜索主要在BT搜索領(lǐng)域,多用于軟件、電影、音樂、書籍和游戲的搜索和獲取。目前常用的P2P搜索引擎主要有P2PSearcher、BTDigg等。4.3開放存取4.3.1開放存取的含義開放存取(OpenAccess,OA)是國(guó)際科技界、學(xué)術(shù)界、出版界、圖書館界為推動(dòng)科研成果自由傳播而發(fā)起的運(yùn)動(dòng),其目的是促進(jìn)科學(xué)信息的廣泛傳播,促進(jìn)學(xué)術(shù)信息的交流與出版,提升科學(xué)研究的公共利用程度,保障科學(xué)信息的長(zhǎng)期保存。開放存取是一種新的學(xué)術(shù)信息交流方法,作者提交作品不是為了得到直接的金錢回報(bào),而是為了作品的傳播和利用。對(duì)于“開放存取”,國(guó)內(nèi)外很多組織和研究者都分別按照自己的理解給出了不同的定義。2001年12月1~2日,開放社會(huì)研究所在匈牙利布達(dá)佩斯召集了一次有關(guān)OA的國(guó)際研討會(huì),起草和發(fā)表了《布達(dá)佩斯開放存取計(jì)劃》。該計(jì)劃首次給出了開放存取的完整定義:“對(duì)于某文獻(xiàn),存在多種不同級(jí)別和種類的、范圍更廣、更容易操作的存取方法。對(duì)某文獻(xiàn)的‘開放存取’意味著它在Internet公共領(lǐng)域里

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論