版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第六章第六章基于搜索引擎的信息檢索基于搜索引擎的信息檢索 主要知識(shí)點(diǎn) (一)搜索引擎技術(shù)原理 (二)搜索引擎檢索方法 (三)萬維網(wǎng)搜索引擎(四)元搜索引擎(五)專用搜索引擎(六)搜索引擎技術(shù)的未來發(fā)展趨勢搜索引擎 (Search Engine)是互聯(lián)網(wǎng)上專門用于檢索的網(wǎng)站的統(tǒng)稱,目前已多達(dá)數(shù)百上千種,包括通用萬維網(wǎng)搜索引擎(Web Search Engines)、通用元搜索引擎(Meta-Search Engines)和各種專用搜索引擎三大類型。搜索引擎的起源可以上溯到1990年由加拿大蒙特利爾大學(xué)學(xué)生Alan Emtage開發(fā)的Archie。Archie用于檢索分散在各FTP服務(wù)器上的文件,
2、但其工作原理與現(xiàn)在的搜索引擎很接近。1993年底,人們認(rèn)識(shí)到既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一個(gè)網(wǎng)站的鏈接開始,就有可能檢索整個(gè)互聯(lián)網(wǎng),這一簡單想法就是今天搜索引擎的基本原理。1994年,Yahoo!和Lycos問世,成功地使搜索引擎的概念深入人心。1995年后,搜索引擎進(jìn)入了高速發(fā)展時(shí)期,被譽(yù)為僅次于門戶網(wǎng)站的互聯(lián)網(wǎng)第二大核心技術(shù)。搜索引擎的技術(shù)原理和檢索方法與DIALOG等專業(yè)文獻(xiàn)型信息檢索系統(tǒng)不同,有它自己的特點(diǎn)。 搜索引擎技術(shù)原理搜索引擎技術(shù)原理搜索引擎的組成搜索引擎的組成 (1)搜索器(Searcher)20世紀(jì)90年代,“機(jī)器人” (Robot)一詞在計(jì)算機(jī)編程者
3、中用于特指某種能以人類無法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門用于檢索Web信息的“機(jī)器人”程序像蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,作為Web搜索器的“機(jī)器人”就被稱為“網(wǎng)絡(luò)蜘蛛”(Spider)。“網(wǎng)絡(luò)蜘蛛”的功能就是在互聯(lián)網(wǎng)中不斷漫游,發(fā)現(xiàn)和搜集信息。作為一個(gè)計(jì)算機(jī)程序,搜索器日夜不停地運(yùn)行,盡可能多、盡可能快地搜集各種類型的新信息,并定期更新已經(jīng)搜集過的舊信息,以避免出現(xiàn)死鏈接和無效鏈接。 (2)索引器(Indexer) 索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),并生成文檔庫的索引表。索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:客觀索引項(xiàng)與文檔的語意內(nèi)容無關(guān),如作者名、URL
4、、更新時(shí)間等;內(nèi)容索引項(xiàng)則是用來反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語、單字等。 搜索引擎技術(shù)原理搜索引擎技術(shù)原理搜索引擎的組成搜索引擎的組成 (3)用戶檢索界面(Interface) 用戶檢索界面是搜索引擎呈現(xiàn)在用戶面前的形象,其作用是接受用戶輸入的查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋。為使用戶方便、高效地使用搜索引擎,從搜索引擎中檢索到有效、及時(shí)的信息,用戶檢索界面的設(shè)計(jì)和實(shí)現(xiàn)采用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。 用戶檢索界面包括簡單界面和高級界面兩類。簡單界面只提供用戶輸入查詢串的文本框;高級界面提供用戶按照檢索模型查詢的機(jī)制。 搜索引擎技術(shù)原理搜索引擎技術(shù)原理搜索引擎
5、的組成搜索引擎的組成 (1)發(fā)現(xiàn)并搜集網(wǎng)頁信息 搜索引擎通過高性能的“網(wǎng)絡(luò)蜘蛛”程序(Spider)自動(dòng)地在互聯(lián)網(wǎng)中搜索信息。一個(gè)典型的網(wǎng)絡(luò)蜘蛛工作的方式是通過查看一個(gè)頁面,從中找到與檢索內(nèi)容相關(guān)的信息, 然后再從該頁面的所有鏈接中繼續(xù)尋找相關(guān)的信息,以此類推,直至窮盡?!熬W(wǎng)絡(luò)蜘蛛”為實(shí)現(xiàn)快速瀏覽整個(gè)互聯(lián)網(wǎng),通常在技術(shù)上采用搶先式多線程技術(shù)實(shí)現(xiàn)在網(wǎng)上聚集信息。 (2)對信息進(jìn)行提取并建立索引庫 索引庫的建立關(guān)系到用戶能否最迅速地找到最準(zhǔn)確、最廣泛的信息。索引器對“網(wǎng)絡(luò)蜘蛛”抓來的網(wǎng)頁信息極快地建立索引,以保證信息的及時(shí)性。建索引時(shí)對網(wǎng)頁采用基于網(wǎng)頁內(nèi)容分析和基于超鏈分析相結(jié)合的方法進(jìn)行相關(guān)度評
6、價(jià),能夠客觀地對網(wǎng)頁進(jìn)行排序,從而最大限度地保證搜索出的結(jié)果與用戶的檢索提問相一致。搜索引擎技術(shù)原理搜索引擎技術(shù)原理搜索引擎的運(yùn)作搜索引擎的運(yùn)作 (3)用戶檢索利用 搜索引擎根據(jù)用戶輸入的檢索詞,在索引庫中快速檢出文檔,進(jìn)行文檔與檢索的相關(guān)度評價(jià),對將要輸出的結(jié)果進(jìn)行排序,并將檢索結(jié)果返回給用戶。當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度,出現(xiàn)的位置/頻次,鏈接質(zhì)量等計(jì)算出各網(wǎng)頁的相關(guān)度及排名等級,然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。這是對前兩個(gè)過程的檢驗(yàn),檢驗(yàn)該搜索引擎能否給出最準(zhǔn)確
7、、最廣泛的信息,檢驗(yàn)該搜索引擎能否迅速地給出用戶最想得到的信息。 搜索引擎技術(shù)原理搜索引擎技術(shù)原理搜索引擎的運(yùn)作搜索引擎的運(yùn)作第六章第六章基于搜索引擎的信息檢索基于搜索引擎的信息檢索 主要知識(shí)點(diǎn) (一)搜索引擎技術(shù)原理 (二)搜索引擎檢索方法 (三)萬維網(wǎng)搜索引擎(四)元搜索引擎(五)專用搜索引擎(六)搜索引擎技術(shù)的未來發(fā)展趨勢 (1)簡單搜索(Simple Search):指輸入一個(gè)單詞(關(guān)鍵詞),提交搜索引擎檢索后反饋結(jié)果,也叫單詞搜索。這是最基本的檢索方法。 (2)詞組搜索(Phrase Search):指輸入兩個(gè)單詞以上的詞組(短語),提交搜索引擎檢索并反饋結(jié)果,也叫短語搜索?,F(xiàn)有搜索
8、引擎一般都約定把詞組或短語放在引號(hào)“”內(nèi)。如果查找的是一個(gè)詞組或多個(gè)漢字,最好的辦法就是將它們用雙引號(hào)括起來,這樣得到的結(jié)果最精確,這就叫使用雙引號(hào)進(jìn)行精確查找。一般說來在網(wǎng)頁搜索引擎中,用詞組搜索來縮小范圍從而找到搜索結(jié)果是最好的辦法。 (3)高級搜索(Advanced Search):指用布爾邏輯組配方式檢索,也叫定制搜索。常用的邏輯運(yùn)算為AND(和)、OR(或)、NOT(非)。對A、B兩詞而言, A AND B是指取A和B的公共部分(交集),A OR B是指取A和B的全部(并集),A NOT B是指取A中排除B后的部分,其中NOT只作用于一個(gè)詞,故稱為一元操作符,其余作用于兩個(gè)詞,故稱作
9、二元操作符。A、B本身為多詞時(shí),可以用括號(hào)()分別括起來作為一個(gè)邏輯單位。 搜索引擎檢索方法搜索引擎檢索方法搜索引擎常用檢索方法搜索引擎常用檢索方法 (1)語句搜索(Sentence Search):指輸入任意自然語言問句,提交搜索引擎檢索并反饋結(jié)果,這種方式也叫任意檢索,實(shí)際上就是自然語言檢索。并非所有的搜索引擎都支持這樣的檢索,而且不同搜索引擎對語句中詞與詞之間的關(guān)系的處理方式也不同。 (2)目錄搜索(Catalog Search):指按搜索引擎提供的分類目錄逐級檢索,用戶一般不需要輸入檢索詞,而是按照檢索系統(tǒng)所給的幾種分類項(xiàng)目,選擇類別進(jìn)行搜索,也叫分類搜索(Classified Sea
10、rch)。 搜索引擎檢索方法搜索引擎檢索方法搜索引擎其他檢索方法搜索引擎其他檢索方法 (1)有針對性地選擇搜索引擎:用不同的搜索引擎進(jìn)行檢索得到的結(jié)果常常有很大的差異,這是因?yàn)樗鼈兊脑O(shè)計(jì)目的和發(fā)展走向存在著許多不同,有的專用于檢索Web信息,有的專用于檢索Usenet信息,而有的則針對商業(yè)需要設(shè)計(jì),使用時(shí)要根據(jù)自己的需要選擇合適的搜索引擎。 (2)根據(jù)要求選擇檢索方法并細(xì)化檢索:如果需要快速找到一些相關(guān)性比較大的信息,可以使用目錄索引式搜索引擎檢索;如果想得到某一方面比較系統(tǒng)的資源信息或比較冷門的信息,則應(yīng)該選用全文搜索引擎查找。許多搜索引擎都提供了對搜索結(jié)果進(jìn)行細(xì)化與再檢索的功能,如有的搜索
11、引擎在結(jié)果中有“檢索類似網(wǎng)頁”的按鈕,還有一些則可以對得到的結(jié)果進(jìn)行新一輪的檢索。沒有一種技術(shù)是萬能的,但將幾種技術(shù)巧妙地結(jié)合起來使用則會(huì)大大提高檢索效率。搜索引擎檢索方法搜索引擎檢索方法搜索引擎使用技巧搜索引擎使用技巧第六章第六章基于搜索引擎的信息檢索基于搜索引擎的信息檢索 主要知識(shí)點(diǎn) (一)搜索引擎技術(shù)原理 (二)搜索引擎檢索方法 (三)萬維網(wǎng)搜索引擎(四)元搜索引擎(五)專用搜索引擎(六)搜索引擎技術(shù)的未來發(fā)展趨勢萬維網(wǎng)搜索引擎的主體是全文搜索引擎(Full Text Search Engine),最具代表性的全文搜索引擎是Google、AlltheWeb、百度、慧聰?shù)?,它們都是從互?lián)網(wǎng)
12、上提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主),建立索引數(shù)據(jù)庫,并在用戶檢索時(shí)予以匹配響應(yīng),再按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此是所謂真正意義上的搜索引擎。 萬維網(wǎng)搜索引擎萬維網(wǎng)搜索引擎 (1)Google簡介:Google是由美國斯坦福大學(xué)的兩位博士生 Larry Page 和 Sergey Brin 在 1998 年創(chuàng)建的。1999 年 6 月,Google 通過自己的網(wǎng)站 推出 ,很快以其特有的技術(shù)優(yōu)勢和極佳性能揚(yáng)名世界。 Google 的使命就是要提供網(wǎng)上最好的檢索服務(wù),促進(jìn)全球信息的交流和共享。Google 開發(fā)出了世界上最大的搜索引擎,提供了最便捷的網(wǎng)上信息檢索方法,通過對 30 多億
13、網(wǎng)頁進(jìn)行整理,Google 可為世界各地的用戶提供所需的搜索結(jié)果,而且搜索響應(yīng)時(shí)間通常不到半秒。 Google 將網(wǎng)頁級別與完善的文本匹配技術(shù)結(jié)合在一起,可找到最重要、最有用的網(wǎng)頁。Google 所關(guān)注的遠(yuǎn)不只是關(guān)鍵詞在網(wǎng)頁上出現(xiàn)的次數(shù),它還對該網(wǎng)頁的內(nèi)容(以及該網(wǎng)頁所鏈接的內(nèi)容)進(jìn)行全面檢查,從而確定該網(wǎng)頁是否滿足檢索要求。 Google 復(fù)雜的自動(dòng)搜索方法可以避免任何人為感情因素。與其他搜索引擎相比,Google 的結(jié)構(gòu)設(shè)計(jì)確保了它絕對誠實(shí)、公正,任何人都無法用錢換取較高的排名。因此,使用Google 可以誠實(shí)、客觀并且方便地在網(wǎng)上找到有價(jià)值的資料。由于 Google 搜索既快又好,因而成
14、為網(wǎng)上搜索的首選引擎。 萬維網(wǎng)搜索引擎萬維網(wǎng)搜索引擎Google(http:/Google(http:/) ) (2)Google檢索方法 Google支持簡單搜索、詞組搜索和高級搜索(選搜索框右側(cè)的高級搜索項(xiàng)即可進(jìn)入),而且以多語種、多媒體兼容為特色,用戶鍵入搜索框中的任何符號(hào)均可得到反饋。如果用戶鍵入了明顯的錯(cuò)別字詞,Google會(huì)給出提示,顯示了一定的智能。 簡單搜索:簡單搜索是Google的基本搜索,檢索簡捷且方便,僅需輸入檢索內(nèi)容并敲一下回車鍵 (Enter),或單擊“Google 搜索”按鈕,即可得到相關(guān)資料。如果想縮小搜索范圍,可輸入更多的關(guān)鍵詞,只要在關(guān)鍵詞中間留空格就行,此時(shí)
15、,會(huì)自動(dòng)使用“and”進(jìn)行邏輯組配檢索。 詞組搜索: Google詞組搜索使用英文雙引號(hào)。在 Google 中,可以通過添加英文雙引號(hào)來搜索短語。雙引號(hào)中的詞語(比如“world economy” )在檢索到的文檔中將作為一個(gè)整體出現(xiàn)。這一方法在查找名言警句或?qū)S忻~時(shí)顯得格外有用。Google檢索時(shí)會(huì)自動(dòng)忽略最常用的詞和字符,這些詞和字符稱為忽略詞。Google 忽略詞包括“http”、“.com”和“的”等字符以及數(shù)字和單字,因?yàn)檫@類字詞不僅無助于縮小檢索范圍,而且會(huì)大大降低搜索速度。萬維網(wǎng)搜索引擎萬維網(wǎng)搜索引擎Google(http:/Google(http:/) ) 高級搜索:可以將檢
16、索策略輸入Google主頁面的檢索框中進(jìn)行檢索,也可以進(jìn)入高級檢索界面后將檢索策略輸入檢索框中檢索。 (3)Google特殊功能 圖像搜索:Google 的“圖像搜索”是網(wǎng)絡(luò)上現(xiàn)今最好的圖像搜索工具,收錄有超過 3.3 億張圖像供查看。要進(jìn)行圖像搜索,選擇主頁上方的圖像鍵或直接用URL http:/即可進(jìn)入,在圖像搜索框中輸入要查找的圖像主題或相關(guān)關(guān)鍵詞,然后單擊“搜索”按鈕。在檢索結(jié)果頁上單擊縮略圖即可看到原始大小的圖像,同時(shí)還可看到該圖像所在的網(wǎng)頁。 信息挖掘:如果要查找網(wǎng)絡(luò)上的 PDF格式、DOC 格式、GIF格式等專門格式的文件,只需在檢索詞后加上.PDF、.DOC、.GIF等信息即可
17、,Google會(huì)自動(dòng)到服務(wù)器甚至數(shù)據(jù)庫中去搜尋這些文件,體現(xiàn)了新穎的信息挖掘功能。 手氣不錯(cuò):按下“手氣不錯(cuò)”按鈕將自動(dòng)進(jìn)入 Google 檢索到的第一個(gè)網(wǎng)頁,而完全看不到其他搜索結(jié)果。使用“手氣不錯(cuò)”進(jìn)行搜索表示用于搜索網(wǎng)頁的時(shí)間較少而用于檢查網(wǎng)頁的時(shí)間較多。 萬維網(wǎng)搜索引擎萬維網(wǎng)搜索引擎Google(http:/Google(http:/) ) 網(wǎng)頁快照:Google 在訪問網(wǎng)站時(shí),會(huì)將看過的網(wǎng)頁復(fù)制一份網(wǎng)頁快照,以備在找不到原來的網(wǎng)頁時(shí)使用。單擊“網(wǎng)頁快照”時(shí),將看到 Google 將該網(wǎng)頁編入索引時(shí)的頁面。在顯示網(wǎng)頁快照時(shí),其頂部有一個(gè)標(biāo)題,用來提醒用戶這不是實(shí)際的網(wǎng)頁。符合搜索條件的
18、詞語在網(wǎng)頁快照上突出顯示,便于快速找到所需的相關(guān)資料。 類似網(wǎng)頁:單擊“類似網(wǎng)頁”時(shí),Google 偵察兵便開始尋找與這一網(wǎng)頁相關(guān)的網(wǎng)頁。Google 偵察兵可以“一兵多用”。如果用戶對某一網(wǎng)站的內(nèi)容很感興趣,但又嫌資料不夠,Google 偵察兵會(huì)幫助找到其他有類似資料的網(wǎng)站。 按鏈接搜索:有一些詞后面加上冒號(hào)對 Google 具有特殊的含義。其中的一個(gè)詞是“l(fā)ink:”。檢索 link: 顯示所有指向該網(wǎng)址的網(wǎng)頁。 指定網(wǎng)域:又一個(gè)后面加冒號(hào)而有特殊含義的詞是“site:”。要在某個(gè)特 定 的 網(wǎng) 域 或 網(wǎng) 站 中 進(jìn) 行 搜 索 , 可 以 在 G o o g l e 搜 索 框 中 輸
19、 入“site:”。 語句搜索Google是最早支持自然語言檢索的少數(shù)搜索引擎之一,目前這一功能仍在不斷改善之中??梢詫oogle 工具箱安裝到 Internet Explorer 的工具列內(nèi),使用戶在任何網(wǎng)頁上隨時(shí)可以使用 Google 的強(qiáng)力搜索,而不需要每次造訪 Google 的首頁。 萬維網(wǎng)搜索引擎萬維網(wǎng)搜索引擎Google(http:/Google(http:/) ) (1)Yahoo簡介:Yahoo!是世界上最早的搜索引擎之一,它是1994年4月由Standord大學(xué)的兩名博士生David Filo 和Jerry Yang(楊致遠(yuǎn))研制的。Yahoo!擁有第一流的Web目錄和最佳
20、的新聞鏈接以及許多附加服務(wù),因而也有人將其專門獨(dú)立為目錄索引類搜索引擎(Search Index/Directory)。Yahoo!支持簡單搜索,性能良好;支持詞組搜索,性能優(yōu)秀;支持高級搜索,但性能一般。Yahoo!提供的簡單搜索和高級搜索具有匹配關(guān)系:前者主要檢索其分類結(jié)構(gòu)中的一級目錄,后者可使用關(guān)鍵詞構(gòu)成布爾邏輯式進(jìn)行檢索,并可以使用*作為通配符。支持+、-詞操作。 (2)Yahoo!常用檢索:Yahoo!的魅力,就在于它的可瀏覽式分類主題目錄。按照主題建立分類索引,提供全面的分類體系結(jié)構(gòu),并結(jié)合高質(zhì)量的檢索軟件,Yahoo!成功地建立起了一套獨(dú)特的信息管理和組織機(jī)制,使得對網(wǎng)絡(luò)信息的全
21、面檢索變成現(xiàn)實(shí)。 萬維網(wǎng)搜索引擎萬維網(wǎng)搜索引擎Yahoo!(http:/)Yahoo!(http:/) (3)Yahoo!特色搜索 目錄搜索:Yahoo!的目錄搜索使用很簡單,只要進(jìn)入其網(wǎng)站,選定所查主題,逐級進(jìn)入即可。這些目錄由于是人工參與建立的,故標(biāo)引較準(zhǔn)確,因而查準(zhǔn)率較高。 專門搜索:Yahoo!針對各國用戶和專門用戶設(shè)計(jì)開發(fā)了相應(yīng)的功能檢索界 面 , 例 如 中 文 Y a h o o ! ( h t t p : / / c n . y a h o o . c o m ) 、 德 文Yahoo!(http:/)、法文Yahoo!(http:/)以及專門為兒童設(shè)計(jì)的搜索引擎Yahooli
22、gans!(http:/)等等,形成全方位的Yahoo!搜索網(wǎng)站系列。 具體檢索操作時(shí)值得提醒的事項(xiàng)還有:Yahoo!對大小寫字母不敏感,即對輸入的檢索詞大小寫字母一視同仁。Yahoo!也支持任意詞檢索。雖然目錄索引在技術(shù)意義上不算嚴(yán)格的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表,但目錄索引在搜索引擎中卻具有不可替代性,從總體上看,Yahoo!仍然是Web上獨(dú)具特色的搜索引擎。 萬維網(wǎng)搜索引擎萬維網(wǎng)搜索引擎Yahoo!(http:/)Yahoo!(http:/)Ask原名AskJeeves,初出道時(shí)只是一個(gè)元搜索引擎,后以目錄搜索為主,而在2002年初收購Teoma全文搜索引擎后,很快便成為以實(shí)現(xiàn)
23、自然語言檢索為特色的全文搜索引擎,并躋身著名搜索引擎之林,在國際互聯(lián)網(wǎng)上贏得一席之地。 Ask主頁中欄有檢索選擇及輸入框,輸入檢索詞后點(diǎn)擊Ask按鈕可查。Ask的搜索功能包括:(1)支持簡單搜索;(2)支持詞組搜索;(3) 支持高級搜索。其特色是支持自然語言搜索。 Ask支持自然語言搜索的實(shí)現(xiàn)方式是支持自然語言提問,它的數(shù)據(jù)庫里已經(jīng)儲(chǔ)存了1 000多萬個(gè)問題的答案,只要用英文輸入一個(gè)問題,它就會(huì)給出問題的答案。如果問題答案不在它的數(shù)據(jù)庫中,那么它會(huì)列出一串與問題類似的問題和含有答案的鏈接,供選擇。 用自然語言具體檢索Ask時(shí),可以用特殊疑問句或一般疑問句提問,通常用特殊疑問句提問效果較好。也就
24、是說,當(dāng)遇到一些屬于事實(shí)型、原理型的問題時(shí),使用Ask是很方便的。 萬維網(wǎng)搜索引擎萬維網(wǎng)搜索引擎Ask(http:/)Ask(http:/) (1)AlltheWeb(http:/):其技術(shù)起源于挪威科技大學(xué),現(xiàn)為Overture公司所擁有。支持簡單搜索、詞組搜索和高級搜索,性能和名氣都直逼Google。 (2)AltaVista(http:/):老牌搜索引擎,是DEC公司1995年12月推出的萬維網(wǎng)搜索引擎。支持簡單搜索、詞組搜索和高級搜索,目前仍是富有活力的重要搜索引擎。 (3)Excite(http:/):是基于斯坦福大學(xué)1993年8月創(chuàng)建的Architext擴(kuò)展而成的萬維網(wǎng)搜索引擎,它
25、能為簡單搜索返回很好的結(jié)果,并能提供一系列附加內(nèi)容,尤其適合經(jīng)驗(yàn)不多的用戶使用,也支持詞組搜索和高級搜索。 (4)Hotbot(http:/):具有一流的高級搜索功能和新聞?wù)搲阉鞴δ?、圖形化的搜索工具以及一系列的過濾選項(xiàng),尤其是有優(yōu)良的Usenet搜索功能,其對應(yīng)的NewsBot數(shù)據(jù)庫每天都及時(shí)地更新。它支持簡單搜索、詞組搜索和高級搜索。 萬維網(wǎng)搜索引擎萬維網(wǎng)搜索引擎其他著名搜索引擎其他著名搜索引擎 (5)Infoseek(http:/或http:/):它是一個(gè)綜合網(wǎng)點(diǎn),提供了很多有用的附加服務(wù),包括通過電子郵件發(fā)送新聞、外國語搜索、按地理區(qū)域的搜索以及個(gè)人的金融文件夾等。它的新聞搜索能訪問
26、許多一流的資源,也支持簡單搜索、詞組搜索和高級搜索。 (6)Lycos(http:/):它曾是最早的搜索引擎之一,具有多種搜索選項(xiàng)和內(nèi)容豐富的目錄,執(zhí)行簡單搜索時(shí)能返回較好的結(jié)果。最大特色是專門整理了一份占前5%的熱門網(wǎng)址。支持簡單搜索、詞組搜索和高級搜索。 (7)WebCrawler(http:/):是最早的萬維網(wǎng)搜索引擎之一,支持簡單搜索、詞組搜索和高級搜索。 (8)百度(http:/):百度搜索引擎不僅是最大的中文搜索引擎,而且是搜狐、新浪、Chinaren、21CN、263、TOM等許多門戶網(wǎng)站和中央電視臺(tái)等的后臺(tái)搜索引擎,成為中文搜索引擎中的佼佼者。萬維網(wǎng)搜索引擎萬維網(wǎng)搜索引擎其他著
27、名搜索引擎其他著名搜索引擎其他著名中文搜索引擎還有慧聰(http:/)、悠游(http:/)等等?;勐斒悄壳靶阅苤北瓢俣鹊闹形乃阉饕妗K押?http:/) 主要把大量的人力物力花在網(wǎng)站分類目錄的整理上,建立了分類合理的網(wǎng)站分類目錄。網(wǎng)易(http:/)則讓各行各業(yè)的高手參與網(wǎng)易分類目錄的制作,形成開放式目錄;網(wǎng)易還進(jìn)一步挖掘搜索引 擎 的 潛 力 , 推 出 了 把 搜 索 結(jié) 果 通 過 手 機(jī) 短 信 發(fā) 送 的 功 能 。 新 浪(http:/)則推出了綜合搜索,只要輸入一次想搜索的關(guān)鍵詞,就能得到網(wǎng)站、網(wǎng)頁、新聞、商品等常用信息,層次分明,一目了然,在保持快速、準(zhǔn)確的基礎(chǔ)上,給用戶提
28、供了更多的選擇。北京大學(xué)的天網(wǎng)(http:/) 收錄了大量教育網(wǎng)內(nèi)資源,使教育網(wǎng)內(nèi)的資源也能被廣泛利用起來,特別是它的FTP搜索部分,提供了非常豐富的下載資源。上海交通大學(xué)的納訊新聞搜索引擎(http:/ 每個(gè)搜索引擎都有獨(dú)特的優(yōu)點(diǎn),不同的需要就應(yīng)該使用不同的搜索引擎,例如:通常檢索可用Google和Yahoo!,有問題可問Ask,要做特定的主題搜索可用Search?;ヂ?lián)網(wǎng)是一個(gè)寶庫,搜索引擎是打開寶庫的一把鑰匙。 萬維網(wǎng)搜索引擎萬維網(wǎng)搜索引擎其他著名搜索引擎其他著名搜索引擎第六章第六章基于搜索引擎的信息檢索基于搜索引擎的信息檢索 主要知識(shí)點(diǎn) (一)搜索引擎技術(shù)原理 (二)搜索引擎檢索方法 (
29、三)萬維網(wǎng)搜索引擎(四)元搜索引擎(五)專用搜索引擎(六)搜索引擎技術(shù)的未來發(fā)展趨勢 元搜索引擎(Meta Search Engine)在接受用戶查詢請求時(shí),同時(shí)調(diào)用多個(gè)已有引擎進(jìn)行搜索,并將結(jié)果統(tǒng)一返回給用戶。 1.Search(http:/):原名SavvySearch,是一個(gè)新興的高性能元搜索引擎,以功能齊全、選擇眾多而成為元搜索引擎的后起之秀,它廣泛收集了800多種專業(yè)搜索引擎和數(shù)據(jù)庫,分為商業(yè)金融、娛樂、健康醫(yī)藥、新聞媒體等共15個(gè)大主題,每個(gè)大主題又分許多小主題。Search元搜索引擎支持簡單搜索、詞組搜索和高級搜索,可以選擇調(diào)用8個(gè)搜索引擎之中的18個(gè): About, AltaV
30、ista, Ask, Britannica, Open Directory, Surfpoint, Thunderstone, Wisenut;方法是通過顧客化(Customize)鏈接進(jìn)入后選擇。也可以專門選擇調(diào)用4個(gè)目錄搜索引擎:LookSmart, mySimon, Open Directory, Yahoo!。此外,還可以通過左下方的頻道選擇,專門調(diào)用搜索新聞媒體(News & Media)、個(gè)人信息(People)、商務(wù)信息(Yellow pages)、旅游信息(Travel)等的相關(guān)主題搜索引擎。 元搜索引擎元搜索引擎 2.ProFusion(http:/):ProFusi
31、on是由美國堪薩斯大學(xué)研發(fā)的并行式元搜索引擎。ProFusion擁有智能化的搜索技術(shù)、對檢索的實(shí)用提示和非常寶貴的個(gè)性化搜索服務(wù),曾是最優(yōu)秀的元搜索引擎,但幾經(jīng)商界易手和技術(shù)改造后,優(yōu)勢已不明顯。其特色和優(yōu)勢是:(1) 可選擇調(diào)用5個(gè)最快的引擎或全部搜索引擎,或手工自選引擎進(jìn)行檢索。(2) 自動(dòng)對檢索結(jié)果進(jìn)行整理,刪除冗余的結(jié)果,并按相關(guān)性進(jìn)行排序。(3) 高級搜索健全,可使用*作為通配符,支持+、-詞操作。 3.Mamma(http:/):Mamma是并行式元搜索引擎,自稱是所有搜索引擎之母(The Mother of all Search Engines),它可以同時(shí)調(diào)用AltaVista
32、、Excite、InfoSeek、Lycos、WebCrawler、Yahoo!等獨(dú)立引擎,并且可以查新聞組、聲像信息等。其特色和優(yōu)勢是:具有多媒體查詢功能;會(huì)自動(dòng)對檢索結(jié)果進(jìn)行整理,使結(jié)果看上去就像是從一個(gè)數(shù)據(jù)庫中查出來的;自動(dòng)將搜索策略轉(zhuǎn)化為符合各搜索引擎的語法,使之能返回正確的結(jié)果。缺點(diǎn)是搜索結(jié)果無可信度排名。 其他著名元搜索引擎參閱教材。 元搜索引擎元搜索引擎第六章第六章基于搜索引擎的信息檢索基于搜索引擎的信息檢索 主要知識(shí)點(diǎn) (一)搜索引擎技術(shù)原理 (二)搜索引擎檢索方法 (三)萬維網(wǎng)搜索引擎(四)元搜索引擎(五)專用搜索引擎(六)搜索引擎技術(shù)的未來發(fā)展趨勢 1.專業(yè)領(lǐng)域搜索引擎:專
33、業(yè)領(lǐng)域搜索引擎是指專門用于檢索某特定專業(yè)領(lǐng)域信息的搜索引擎,是目前搜索引擎發(fā)展的一大方向。 2.網(wǎng)絡(luò)應(yīng)用搜索引擎:網(wǎng)絡(luò)應(yīng)用搜索引擎是指除Web外與Internet上的其他功能應(yīng)用相適應(yīng)的搜索引擎,主要有E-mail搜索引擎、FTP搜索引擎、Usenet(網(wǎng)絡(luò)新聞)搜索引擎,等等。 ( 1 ) E - m a i l 搜 索 引 擎 : E - m a i l 搜 索 引 擎 的 代 表 是BigFoot(http:/)。主要功能是可以檢索個(gè)人電子郵件地址、住址和電話號(hào)碼等信息。由于傳統(tǒng)電話號(hào)碼簿的個(gè)人信息內(nèi)容是白頁,故搜索引擎中有關(guān)檢索住址和電話號(hào)碼的部分也稱白頁搜索引擎(White Page
34、s Search Engine)。又因BigFoot的數(shù)據(jù)庫不是集成的,所以查電子郵件地址與查住址和電話號(hào)碼的分別形成了獨(dú)立的功能,查電子郵件地址用Find People功能項(xiàng),查住址和電話號(hào)碼則用White Pages功能項(xiàng)。 ( 2 ) F T P 搜 索 引 擎 : F T P 搜 索 引 擎 的 代 表 首 推Philes(http:/)。Philes號(hào)稱全球最大的FTP搜索引擎,其主頁如教材圖6.20所示。在搜索框中輸入待查的軟件名稱,即可獲得相應(yīng)軟件所在服務(wù)器一覽,并提供鏈接供下載。專用搜索引擎專用搜索引擎 (3)Usenet搜索引擎:最好的Usenet搜索引擎是DejaNews,URL為http:/,現(xiàn)已并入Google,URL 為http:/。DejaNews作為最好的Usenet搜索引擎,提供許多過濾選項(xiàng)和豐富的內(nèi)容,擁有20000多個(gè)新聞組的存檔。通過DejaNews簡潔的界面能連續(xù)而方便地訪問所有功能,包括向新聞組張貼文章和瀏覽新聞組。選項(xiàng)中包括增強(qiáng)搜索(Power Search),它允許設(shè)置關(guān)鍵詞匹配和數(shù)據(jù)庫(新的或舊的)編號(hào);利用搜索過濾器(Search Filter)可以指定組、作者、主題和日期。 3.商用搜索引擎:商用搜索引擎 (Business Search Engines)是檢索商務(wù)信息為主的搜索引擎,由于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025標(biāo)準(zhǔn)的攝影作品使用許可合同
- 二零二五年度凈水器綠色環(huán)保認(rèn)證采購合同
- 2025年度文化產(chǎn)業(yè)分紅合作協(xié)議范本(含IP授權(quán))3篇
- 2025年度公司設(shè)立前股東合作協(xié)議書(含知識(shí)產(chǎn)權(quán)保護(hù))3篇
- 2025年度公司股東間應(yīng)急事件處理合作協(xié)議書3篇
- 2025年度農(nóng)產(chǎn)品電商平臺(tái)農(nóng)產(chǎn)品物流配送優(yōu)化合同版3篇
- 2025年度農(nóng)機(jī)租賃與農(nóng)業(yè)科研合作開發(fā)合同3篇
- 二零二五年度農(nóng)村宅基地租賃及土地流轉(zhuǎn)服務(wù)協(xié)議
- 2025年度農(nóng)產(chǎn)品深加工項(xiàng)目原料供應(yīng)合同版3篇
- 二零二五年度婚慶服務(wù)市場區(qū)域保護(hù)競業(yè)禁止合同2篇
- GB/T 13914-2013沖壓件尺寸公差
- BB/T 0045-2021紙漿模塑制品工業(yè)品包裝
- 《信息檢索實(shí)驗(yàn)》課程教學(xué)大綱
- 連退生產(chǎn)過程操作優(yōu)化-質(zhì)量預(yù)報(bào)監(jiān)測及診斷
- 梅毒專題知識(shí)培訓(xùn)
- 小說閱讀抓住矛盾沖突參考資料課件
- 簡約企業(yè)報(bào)刊報(bào)紙?jiān)O(shè)計(jì)排版word模板
- 矛盾糾紛排查化解登記表
- 大班科學(xué)活動(dòng) 有害的噪音
- 建筑施工成品保護(hù)措施
- 魚骨圖PPT模板精品教案0002
評論
0/150
提交評論