元搜索引擎原理與利用_第1頁
元搜索引擎原理與利用_第2頁
元搜索引擎原理與利用_第3頁
元搜索引擎原理與利用_第4頁
元搜索引擎原理與利用_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、現(xiàn)代圖書情報(bào)技術(shù)1998年第6期收稿日期:1998-06-03元搜索引擎:原理與利用王芳張曉林(四川聯(lián)合大學(xué)信息管理系成都610064【摘要】對(duì)元搜索引擎的基本結(jié)構(gòu)和運(yùn)行過程進(jìn)行了分析,并結(jié)合實(shí)例介紹了元搜索引擎的類別與特點(diǎn)?!娟P(guān)鍵詞】元搜索引擎搜索引擎桌面搜索引擎信息檢索M eta-search Eng i nes:Pr i nc iples and Appl ica tion sW ang FangZhang X i aol i n(D ep a rt m en t of L ibra ry and Inf or m a tion S cience,S ichuan U n ion U n

2、 iversity,Cheng d u【Abstract】T he paper givers an analysis of the basic structu re and functi onal p rocess of m eta search engines,and describes w ith examp les the catego ries and characteristics of these new search too ls.1前言In ternet WWW的迅速發(fā)展帶來豐富的和動(dòng)態(tài)變化的網(wǎng)絡(luò)化信息資源,同時(shí)也呼喚新的檢索機(jī)制與能力。搜索引擎技術(shù)應(yīng)運(yùn)而生,通過采集標(biāo)引眾多網(wǎng)

3、絡(luò)站點(diǎn)來提供全局性網(wǎng)絡(luò)資源控制與檢索機(jī)制,從而幫助用戶方便地在網(wǎng)絡(luò)中準(zhǔn)確檢索所需信息1-3,著名的Yahoo!、Info seek、A ltaV ista、悠游(GoYoYo等就是典型代表。然而,當(dāng)搜索引擎數(shù)量迅速增加、各自使用的檢索方式日益復(fù)雜時(shí),如何準(zhǔn)確選擇搜索引擎、如何減輕學(xué)習(xí)與操作負(fù)擔(dān)、如何有效利用多個(gè)搜索引擎的“集成”資源與檢索能力等就成為制約網(wǎng)絡(luò)信息檢索技術(shù)進(jìn)一步優(yōu)化和發(fā)展的重要問題。正是面對(duì)這個(gè)挑戰(zhàn),檢索工具開發(fā)者設(shè)計(jì)了元搜索引擎(M eta2Search Engines,能夠利用多個(gè)搜索引擎進(jìn)行網(wǎng)絡(luò)信息查詢。2元搜索引擎的基本結(jié)構(gòu)與運(yùn)行原理211元搜索引擎的基本性質(zhì)與結(jié)構(gòu)所謂元

4、搜索引擎,是對(duì)分布于網(wǎng)絡(luò)的多種檢索工具的全局控制機(jī)制,它通過一個(gè)統(tǒng)一用戶界面幫助用戶在多個(gè)搜索引擎中選擇和利用合適的(甚至是同時(shí)利用若干個(gè)搜索引擎來實(shí)現(xiàn)檢索操作(Search the search engines4-5,其基本結(jié)構(gòu)如圖1所示。圖1元搜索引擎搜索引擎搜索引擎搜索引擎用戶我們可將元搜索引擎看成具有雙層C S 結(jié)構(gòu)的系統(tǒng),用戶向元搜索引擎發(fā)出檢索請(qǐng)求,元搜索引擎再根據(jù)該請(qǐng)求向多個(gè)搜索引擎發(fā)出實(shí)際檢索請(qǐng)求;搜索引擎執(zhí)行元搜索引擎檢索請(qǐng)求后將檢查結(jié)果以應(yīng)答形式傳送給元搜索引擎,元搜索引擎將從多個(gè)搜索引擎獲得的檢索81結(jié)果經(jīng)過整理再以應(yīng)答形式傳送給實(shí)際用戶。當(dāng)然,某些元搜索引擎具有略微不同

5、的機(jī)制,我們將在下面討論元搜索引擎實(shí)例時(shí)具體介紹。212搜索引擎和元搜索引擎的區(qū)別搜索引擎與元搜索引擎的主要區(qū)別在于搜索引擎擁有獨(dú)立的網(wǎng)絡(luò)資源采集標(biāo)引機(jī)制和相應(yīng)的數(shù)據(jù)庫,而元搜索引擎一般沒有自己獨(dú)立的數(shù)據(jù)庫,卻更多地是提供統(tǒng)一聯(lián)結(jié)界面(或進(jìn)一步地提供統(tǒng)一檢索方式和結(jié)果整理,形成一個(gè)由多個(gè)分布的、具有獨(dú)立功能的搜索引擎構(gòu)成的虛擬邏輯整體,用戶通過元搜索引擎的功能實(shí)現(xiàn)對(duì)這個(gè)虛擬整體中各獨(dú)立搜索引擎數(shù)據(jù)庫的查詢顯示等一切操作。元搜索引擎中各獨(dú)立搜索引擎被稱為“成員搜索引擎”,它們各自保持其原來的局部數(shù)據(jù)模式和自己的檢索指令;元搜索引擎給出一個(gè)全局外部模式,用以接受用戶檢索輸入和結(jié)果輸出。不過,有些元

6、搜索引擎給出的全局外部模式不夠完善。213元搜索引擎的基本運(yùn)行過程根據(jù)分布式數(shù)據(jù)庫系統(tǒng)的原理,我們可以用圖2初步描述元搜索引擎基本運(yùn)行過程的概念模型6:用戶元搜索引擎搜索引擎目錄全局 局部指令字典圖2全局 局部格式字典全局結(jié)果組織局部結(jié)果轉(zhuǎn)換局部接收結(jié)果局部指令發(fā)送全局指令解析選擇搜索引擎根據(jù)該模型,元搜索引擎的主要功能有: (1搜索引擎的選擇:元搜索引擎一般允許用戶選擇合適的搜索引擎集合具體進(jìn)行檢索,選擇方式包括選擇一個(gè)搜索引擎、選擇全部搜索引擎、選擇滿足一定條件的若干個(gè)搜索引擎(例如最快的或最好的三個(gè)。有些元搜索引擎只能使用固定的搜索引擎集合。(2檢索指令的轉(zhuǎn)換:由于每個(gè)搜索引擎都有自己的

7、查詢語言,因此元搜索引擎需要將用戶通過統(tǒng)一界面以統(tǒng)一形式輸入的全局檢索指令轉(zhuǎn)換為各個(gè)成員搜索引擎的局部指令語言,這可利用“全局 局部指令字典”來實(shí)現(xiàn)。但指令語言轉(zhuǎn)換并不是異形指令的簡(jiǎn)單、機(jī)械互換,應(yīng)做到:對(duì)應(yīng)指令的功能性質(zhì)一致性;對(duì)應(yīng)指令的功能作用范圍一致;對(duì)應(yīng)指令的邏輯結(jié)構(gòu)和構(gòu)成一致;對(duì)應(yīng)指令的邏輯結(jié)果一致。全局指令既要準(zhǔn)確地表達(dá)所有成員搜索引擎指令語言的共同特點(diǎn)和指令形式,又要能夠以一定方式執(zhí)行有關(guān)成員搜索引擎指令的特殊功能。目前,指令轉(zhuǎn)換尚有較多不足之處。(3局部結(jié)果轉(zhuǎn)換和全局結(jié)果組織:從各搜索引擎返回的結(jié)果具有自己的數(shù)據(jù)格式,元搜索引擎需要依照用戶要求或系統(tǒng)設(shè)置值將各個(gè)局部結(jié)果轉(zhuǎn)換為全

8、局結(jié)果要求的形式,并構(gòu)成邏輯上統(tǒng)一的整體結(jié)果集合和格式呈交用戶。全局格式轉(zhuǎn)換與檢索指令轉(zhuǎn)換一樣,要在數(shù)據(jù)項(xiàng)數(shù)量、邏輯內(nèi)容、名稱、長(zhǎng)度、位置等方面準(zhǔn)確地表達(dá)所有成員搜索引擎局部格式的共同特點(diǎn)和要求,又要能根據(jù)全局模式的要求對(duì)數(shù)據(jù)進(jìn)行處理,還要協(xié)調(diào)不同的局部格式可能存在的差異,對(duì)某些搜索引擎特有的信息段要適當(dāng)處理,保證對(duì)每一個(gè)命中記錄具有盡可能詳細(xì)的描述資料。元搜索引擎還應(yīng)對(duì)全局結(jié)果進(jìn)行剔重、排序等處理。214自動(dòng)選擇的實(shí)現(xiàn)方式前面提到,用戶可選擇滿足一定條件的若干搜索引擎同時(shí)進(jìn)行檢索。一般地,元搜索引擎將根據(jù)一定條件自動(dòng)實(shí)施這種選擇7。(1“選擇最好”模式:元搜索引擎可能采取以下方式來選擇“最好

9、”的搜索引擎,例如它可跟蹤一定時(shí)期各類檢索式檢索成員搜索引擎的命中記錄數(shù)的統(tǒng)計(jì)分布,根據(jù)該分布來確定相對(duì)于一定主題的“最好”搜索引擎?;蛘?元搜索引擎可對(duì)成員搜索引擎的索引數(shù)據(jù)庫進(jìn)行某種方式的分類統(tǒng)計(jì),建立類目與U RL數(shù)量的對(duì)應(yīng)關(guān)系,并據(jù)此確立“最好”的搜索引擎。例如, P rofu si on和SavvySearch就提供了類似的功能。(2“選擇最快”模式:元搜索引擎系統(tǒng)可能采取下列兩種方式來選擇“最快”的搜索引擎:A1隨機(jī)產(chǎn)生方式:元搜索引擎以并行方式將檢索指令傳送給若干搜索引擎,選擇最先返回的幾個(gè)(比如前三個(gè)結(jié)果集并組織成全局結(jié)果集,忽略后面的其它結(jié)果集。B1先驗(yàn)式:檢索工具研制者在大

10、量測(cè)試數(shù)據(jù)基礎(chǔ)上,制定相應(yīng)的控制字典,明確標(biāo)明某一類信息與搜索引擎檢索速度的映射關(guān)系。用戶提交檢索式后,元搜索引擎首先進(jìn)91行概念分析,確認(rèn)它隸屬的類別范疇,然后對(duì)照控制字典通過一定的算法選擇最快的前幾個(gè)搜索引擎。該方式涉及的技術(shù)細(xì)節(jié)較多,包括詞表的建立、維護(hù),詞表中用于速度測(cè)試的詞匯的選定,對(duì)成員搜索引擎的定期速度測(cè)試等,都將對(duì)測(cè)試結(jié)果的可靠性產(chǎn)生較大影響。3元搜索引擎的分類按功能劃分,元搜索引擎包括多線索式搜索引擎和A ll-in-one式搜索引擎;按運(yùn)行方式的差異可分為在線搜索引擎和桌面搜索引擎。311多線索式元搜索引擎所謂多線索式元搜索引擎指利用唯一的、確定的檢索界面,實(shí)現(xiàn)對(duì)多個(gè)獨(dú)立搜

11、索引擎索引數(shù)據(jù)庫進(jìn)行檢索,并將檢索結(jié)果以統(tǒng)一格式顯示的網(wǎng)絡(luò)檢索工具。如M etacraw ler、Savvysearch、P rofu si on等都是屬于多線索式元搜索引擎。在理想狀態(tài)下,這類元搜索引擎應(yīng)具有以下特征:(1統(tǒng)一檢索界面:元搜索引擎提供統(tǒng)一界面,提供對(duì)各搜索引擎特點(diǎn)介紹和選擇機(jī)制,但所有成員搜索引擎構(gòu)成一個(gè)邏輯整體,元搜索引擎檢索界面構(gòu)成唯一的全局外部檢索模式,用戶通過這個(gè)全局界面實(shí)現(xiàn)對(duì)多個(gè)或任意一個(gè)搜索引擎的檢索。(2檢索指令轉(zhuǎn)換:在具有唯一全局外部檢索模式情況下,系統(tǒng)可提供統(tǒng)一的全局指令語言,并自動(dòng)地實(shí)現(xiàn)元搜索引擎指令與其成員搜索引擎指令的轉(zhuǎn)換,用戶使用同一指令語言檢索不同

12、的搜索引擎的索引數(shù)據(jù)庫。(3統(tǒng)一結(jié)果集的組織與顯示:元搜索引擎提供全局組織器,對(duì)各搜索引擎返回的結(jié)果進(jìn)行處理以形成全局結(jié)果集,并以統(tǒng)一格式顯示,主要涉及數(shù)據(jù)格式轉(zhuǎn)換、剔重、統(tǒng)一排序等。312A ll-in-one方式h tm l。這種A ll-in-one方式的元搜索引擎確切地說只是搜索引擎的羅列,它們具有以下特點(diǎn):(1僅僅提供一個(gè)簡(jiǎn)單的界面來幫助用戶選擇和使用各搜索引擎。(2只能選擇一個(gè)搜索引擎進(jìn)行檢索。(3對(duì)各獨(dú)立搜索引擎檢索界面的復(fù)制可能是部分的或全部的。(4直接利用所選搜索引擎的顯示格式呈送給用戶。313桌面元搜索引擎4實(shí)際元搜索引擎分析下面我們通過對(duì)三個(gè)著名的元搜索引擎的介紹來進(jìn)一步

13、分析元搜索引擎的特點(diǎn)。411M etaCrawlerM etaC raw ler9由華盛頓大學(xué)的E rik2Selberg等共同研制,1997年初被Go2net收購(gòu),目前已發(fā)展成為一個(gè)優(yōu)秀的多線索式搜索引擎。它可同時(shí)調(diào)用6個(gè)搜索引擎并行檢索,包括L yco s、Info seek、W ebC raw ler、Excite、A ltaV ista和Yahoo!。它可使用簡(jiǎn)單檢索和高級(jí)檢索。檢索式中關(guān)鍵詞間用空格分開,允許包括一個(gè)或多個(gè)短語(短語用“”標(biāo)志;詞前加“+”號(hào)或“-”號(hào)表示結(jié)果中必須包括的詞或禁止出現(xiàn)的詞;圓括號(hào)中的詞當(dāng)作一個(gè)整體處理。圖形界面提供了相當(dāng)于布爾操作AND、O R的選項(xiàng)和

14、短語檢索,檢索范疇可限制在W eb、新聞組、計(jì)算機(jī)產(chǎn)品或文件中。M etaC raw ler高級(jí)檢索界面中還能定義等待檢索的最大時(shí)間(5秒-2分鐘和從每個(gè)搜索引擎返回的最大結(jié)果數(shù)(10,20,30。它能整體地集成查詢結(jié)果,刪除重復(fù)的U RL,將結(jié)果排序以統(tǒng)一的格式顯示給用戶。而且,M etaC raw ler具有自動(dòng)核實(shí)功能,它將存儲(chǔ)各個(gè)搜索引擎返回的結(jié)果并確認(rèn)和刪除死鏈。412SavvySearchSavvySearch10是一個(gè)并行檢索的元搜索引擎,它可調(diào)用21個(gè)獨(dú)立的搜索引擎,檢索包括W eb、U senet新聞組、軟件、參考工具、人、技術(shù)報(bào)告等信息。每次最多可同時(shí)檢索5個(gè)搜索引擎的數(shù)據(jù)

15、庫。它根據(jù)歷次檢索獲取有關(guān)統(tǒng)計(jì)數(shù)據(jù),從而可依據(jù)搜索引擎對(duì)提問式的可能有用程度,將21個(gè)搜索引擎進(jìn)行分組排序,以確定每次選擇的5個(gè)搜索引擎。SavvySearch提供布爾邏輯算法和詞組檢索:all query term (AND,any query term(O R和all query term as a p h rase但不是所有的成員搜索引擎都能正確處理布爾操作符,結(jié)果可能不精確。檢索可在一定的資源類型中進(jìn)行,如W eb資源、人、或?qū)W術(shù)資料等。在SavvySearch中用戶可指定每個(gè)搜索引擎返回結(jié)果的數(shù)目,而且如果選擇了“in tegrate resu lt”選項(xiàng),系統(tǒng)將對(duì)結(jié)果集作刪重處理。

16、檢索結(jié)果包括發(fā)現(xiàn)資源的搜索引擎的名稱、可鏈接的網(wǎng)頁標(biāo)題、U RL、文件大小、相關(guān)程度和頁面開始的十幾個(gè)單詞。413ProFusionP roFu si on11也是一個(gè)并行檢索的搜索引擎,最多可同時(shí)調(diào)用9個(gè)獨(dú)立的搜索引擎。搜索引擎的調(diào)用方式分為:a.系統(tǒng)自動(dòng)選擇最好的3個(gè);b.系統(tǒng)自動(dòng)選擇最快的3個(gè);c.全部調(diào)用;d.用戶從中選取任意個(gè)搜索引擎。P rofu si on會(huì)按每個(gè)搜索引擎的語法分析查詢,對(duì)于真正的布爾查詢可以從下拉菜單中選擇“Boo lean”,短語檢索選擇“p h rase”,檢索范疇可選則W eb或U senet。在檢索式中可直接用圓括號(hào)(、AND(或&、O R(或丨、NO T(!和N EA R(,操作符必須大寫,且操作符前后都要有空格。P rofu si on能夠綜合搜索結(jié)果并為結(jié)果排序,但它不能顯示每個(gè)結(jié)果來自哪個(gè)搜索引擎。另外,它還提供個(gè)性化的結(jié)果頁面。在免費(fèi)注冊(cè)后,P

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論