網(wǎng)絡(luò)信息檢索課件_第1頁
網(wǎng)絡(luò)信息檢索課件_第2頁
網(wǎng)絡(luò)信息檢索課件_第3頁
網(wǎng)絡(luò)信息檢索課件_第4頁
網(wǎng)絡(luò)信息檢索課件_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、第六章網(wǎng)絡(luò)信息檢索第一節(jié)搜索引擎概述第二節(jié)常用中文搜索引擎第一節(jié)搜索引擎概述搜索引擎的定義與類型搜索引擎的定義搜索引擎,英文為Search Engine是指根據(jù)一定的策略、運用特定的計算機程序搜集互聯(lián)網(wǎng)上的信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。搜索引擎的類型搜索引擎種類繁多,它可以按照內(nèi)容組織方式和工作機理等進行區(qū)分。下一頁返回第一節(jié)搜索引擎概述按內(nèi)容組織方式劃分第一類是全文檢索(Full Text Search)的搜索引擎,用戶能夠?qū)Ω骶W(wǎng)站的每個主頁中的每個詞進行搜索。全文搜索引擎的優(yōu)點是查詢?nèi)娑浞帧.?dāng)全文搜索引擎遇到一個網(wǎng)站時,會將該網(wǎng)站上所有開放的網(wǎng)頁全部獲取下來

2、,并收入到引擎的數(shù)據(jù)庫中。第一類是建立在分類學(xué)基礎(chǔ)上的目錄分類式搜索引擎。它通過人工方式將所收入的站點進行分類而建立數(shù)據(jù)庫,以提供查詢。目錄分類式搜索引擎當(dāng)遇到一個網(wǎng)站時,先將該網(wǎng)站劃分到某個分類下,再記錄一些摘要信息對該網(wǎng)站進行概述性的介紹。下一頁上一頁返回第一節(jié)搜索引擎概述按工作機理劃分第一類是機器人搜索引擎,由一個稱為蜘蛛(Spider)的機器人程序按設(shè)計者和網(wǎng)站定制的策略自動在勻_聯(lián)網(wǎng)中抓取相應(yīng)的信息,并通過分析抓取的網(wǎng)頁文件獲取網(wǎng)頁中存在的新的URL鏈接,以此達到層層深入抓取的日的,抓取結(jié)束后采用單機存儲或分布式存儲的方式進行磁盤存儲,然后由索引器為搜集到的信息建立索引,根據(jù)用戶的查

3、詢輸入檢索索引庫,并將查詢結(jié)果返回給用戶。該類搜索引擎的優(yōu)點是信息量大,更新及時,無需人工干預(yù);缺點是返回多而雜,必須進行人工篩選。第二類是元搜索引擎,這類搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結(jié)果進行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。下一頁上一頁返回第一節(jié)搜索引擎概述搜索引擎的工作原理搜索引擎構(gòu)成搜索引擎廣義上是一種基于互聯(lián)網(wǎng)的信息查詢系統(tǒng)。一個網(wǎng)絡(luò)搜索引擎一般由搜索器、索引器、檢索器和用戶接口四部分組成。搜索器就是幫助用戶查找到特定信息的一種工具。而搜索引擎中的搜索器卻承擔(dān)了另一個網(wǎng)絡(luò)數(shù)據(jù)抓取功能。只有準(zhǔn)確地獲取、表示、存儲、組織信

4、息,同時提供便利的訪問方式,才能方便用戶進行準(zhǔn)確的查詢。下一頁上一頁返回第一節(jié)搜索引擎概述需要一種方法對文檔進行預(yù)處理,在文檔間建立一種便于檢索的數(shù)據(jù)結(jié)構(gòu),以此來提高信息檢索的速度,這種數(shù)據(jù)結(jié)構(gòu)就是索引。而索引器的工作就是建立一個包含關(guān)鍵信息的索引庫以備查詢。索引器的策略在很大程度上影響了搜索引擎的效率與準(zhǔn)確性。檢索軟件負責(zé)提供用戶使用搜索引擎的接口。檢索軟件一般是一個Web應(yīng)用程序,其主要工作包括獲取用戶制定的搜索規(guī)則;查詢索引庫;計算網(wǎng)頁搜索請求的關(guān)聯(lián)度;提供排序后的搜索結(jié)果返回。用戶接口的作用是為用戶提供可視化的查詢輸入和結(jié)果輸出界面,其主要目的是方便用戶使用搜索引擎獲取有效信息,可以分

5、為簡單接口和復(fù)雜接口兩種。下一頁上一頁返回第一節(jié)搜索引擎概述搜索原理其搜索原理主要分為四個步驟:從網(wǎng)絡(luò)上抓取網(wǎng)頁,搜索引擎主動派出“蜘蛛”程序訪問Internet,對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站或者網(wǎng)站擁有者主動向搜索引擎提交的網(wǎng)址進行檢索,并將搜集到的信息和網(wǎng)頁收集到服務(wù)器上。建立索引數(shù)據(jù)庫,由索引系統(tǒng)程序?qū)κ占骄W(wǎng)頁進行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL,編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、生成時間、大小、相關(guān)鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進行大量復(fù)雜計算,得到每個網(wǎng)頁針對頁面內(nèi)容及鏈接中每個關(guān)鍵詞的相關(guān)度,然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。下一頁上一頁返回第一節(jié)搜索引擎概述在

6、索引數(shù)據(jù)庫中搜索,當(dāng)用戶輸入關(guān)鍵詞搜索后,分解搜索請求,由搜索系統(tǒng)從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。對搜索結(jié)果進行處理排序,所有相關(guān)網(wǎng)頁針對關(guān)鍵詞的相關(guān)信息在索引庫中都有記錄,通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度,出現(xiàn)的位置、頻次、鏈接質(zhì)量等計算出各網(wǎng)頁的相關(guān)度及排名等級,然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。下一頁上一頁第一節(jié)搜索引擎概述搜索引擎的語法規(guī)則與檢索式的構(gòu)建語法規(guī)則搜索引擎的語法規(guī)則主要包括基本數(shù)學(xué)規(guī)則、限制搜索語法、輔助搜索語法以及布爾邏輯算符?;緮?shù)學(xué)規(guī)則連接符號連接符號主要有(+)和減號(-)。在檢索詞前面使用“+”時候,表示所有檢索結(jié)果的頁面都必須

7、包含該詞。檢索式為“+A+B,表示所查的該頁面中應(yīng)出現(xiàn)“A”和“B”方面的信息。而檢索式“A+B”則表示檢索結(jié)果頁面中一定含有+B;,但是不一定包含有“A”的信息。檢索詞前面使用“-”,表示任何檢索結(jié)果的頁面都不能包含該詞語。下一頁返回第一節(jié)搜索引擎概述空格、逗號、括號和引號的作用空格的作用與邏輯“與”的作用相同。逗號的作用類似于邏輯“或”,也是查找那些至少包含一個指定關(guān)鍵詞的頁面,區(qū)別在于檢索結(jié)果輸出時,包含指定關(guān)鍵詞越多的頁面,其排列順序位置越靠前。括號的作用是使括號內(nèi)的運算符優(yōu)先執(zhí)行,用來改變復(fù)雜檢索式中固有邏輯運算符優(yōu)先級的次序。引號的作用是將引在其中的多個詞被當(dāng)作一個短語來檢索。下一

8、頁上一頁返回第一節(jié)搜索引擎概述限制搜索語法限制搜索語法是從不同角度限定網(wǎng)絡(luò)搜索的功能性詞語和符號,對搜索結(jié)果起到定向作用和控制作用。主要包括標(biāo)題搜索(Title Search)、網(wǎng)站搜索(Site Search)、網(wǎng)址搜索(URL Search),鏈接搜索(Link Search)、文件搜索(Fileype Search)檢索式的構(gòu)建檢索式是指搜索引擎能夠理解和運算的查詢串,由關(guān)鍵詞、邏輯運算符、搜索語法等構(gòu)成。關(guān)鍵詞是檢索式的主體,邏輯運算符和搜索指令根據(jù)具體的查詢內(nèi)容,力求使關(guān)鍵詞與內(nèi)容描述詞一致。準(zhǔn)確選擇關(guān)鍵詞,需要對查詢內(nèi)容有一定了解,有一個根據(jù)搜索結(jié)果從模糊到準(zhǔn)確的逐步調(diào)整關(guān)鍵詞的練

9、習(xí)過程。在使用邏輯運算上一頁返回第二節(jié)常用中文搜索引擎百度概述百度()是由百度公司于1999年底在美國硅谷成立的,是目前全球最優(yōu)秀的中文信息檢索與傳遞技術(shù)供應(yīng)商。使用百度搜索引擎,其基本檢索頁面由功能模塊和檢索輸入框及檢索按鈕三部分組成,如圖6-1所示下一頁返回第二節(jié)常用中文搜索引擎檢索方法和技巧百度支持布爾邏輯檢索,支持通配符的使用支持邏輯“與”,檢索時不需要使用“AND”或者“+”,只需要在輸入的多個檢索詞之間以空格加以隔開,系統(tǒng)會自動在各檢索詞之間添加“+”;支持邏輯“非”,運算符為“一”,注意前一個關(guān)鍵詞和減號之間必須有空格,否則減號會被當(dāng)少戊連字符處理,而失去減號語法功能。減號和后一

10、個關(guān)鍵詞之間,有無空格均可。下一頁上一頁返回第二節(jié)常用中文搜索引擎百度支持搜索位置的限定檢索時,有如下命令:intitle關(guān)鍵詞在網(wǎng)頁標(biāo)題中,把查詢內(nèi)容范圍限定在網(wǎng)頁標(biāo)題中,有時能獲得良好的效果。Fileype對搜索對象做格式限制,使用方法是在“Fileype”后跟文件格式。Inurl限定在URL鏈接中搜索,網(wǎng)頁url中的某些信息,常常有某種有價值的含義,用戶可通過對搜索結(jié)果的url做某種限定來獲得良好的效果。下一頁上一頁返回第二節(jié)常用中文搜索引擎百度支持任意的關(guān)鍵詞檢索,無論中文、英文、數(shù)字,還是各種形式文字的混合在輸入多個檢索詞時,應(yīng)用空格隔開。要想精確搜索,有兩個符號可以用到,雙引號(“

11、”)和書名號( )。若輸入的查詢詞很長,百度在經(jīng)過分析后,給出的搜索結(jié)果中的查詢詞,可能是拆分的。用戶可以給查詢詞加上雙引號而嘗試讓百度不拆分查詢詞。書名號是百度獨有的一個特殊查詢語法。百度提供相關(guān)檢索如果用戶無法確定輸入什么詞語能找到滿意資料,可以試用相關(guān)檢索,先輸入一個簡單詞語,搜索引擎會在頁面結(jié)果第一頁下方提供“相關(guān)搜索”做參考,這時,只擊要單擊其中一個搜索詞,就能得到那個相關(guān)搜索詞的搜索結(jié)果。下一頁上一頁返回第二節(jié)常用中文搜索引擎依據(jù)檢索需要,用戶可以通過高級檢索中提供的各種條件限制來精確檢索范圍,從而提高檢索的查準(zhǔn)率在百度高級檢索中,如圖6-3所示,用戶可以限制某一檢索必須包含或者排

12、除某些特定的關(guān)鍵詞或短語,也可以定制搜索結(jié)果頁面所含的條目數(shù)量,還可以限定所搜索網(wǎng)頁的時間、地區(qū)、語言、格式及關(guān)鍵詞在結(jié)果中出現(xiàn)位置等。下一頁上一頁返回第二節(jié)常用中文搜索引擎其他特色功能目前百度網(wǎng)頁搜索的特色功能包括百度快照、相關(guān)搜索、拼音提示、錯別字提示、英漢互譯詞典、計算器和度量衡轉(zhuǎn)換、股票、列車時刻表和飛機航班查詢、天氣查詢、高級搜索、地區(qū)搜索和個性設(shè)置等百度快照每個被收錄的網(wǎng)頁,在百度上都存有一個純文本的備份,稱為“百度快照”。相關(guān)搜索搜索結(jié)果不佳,有時候是因為選擇的檢索詞不是很妥當(dāng)。百度使用相關(guān)檢索詞智能推薦技術(shù),即在用戶第一次檢索后,會在搜索結(jié)果頁的下方提示相關(guān)的檢索詞,幫助用戶查

13、找更相關(guān)的結(jié)果,統(tǒng)計表明其可以促進檢索量提升10%20%下一頁上一頁返回第二節(jié)常用中文搜索引擎拼音與錯別字提示如果只知道某個詞的發(fā)音,卻不知道怎么寫,或者嫌某個詞拼寫輸入太麻煩,可通過百度拼音提小來解決問題。英漢互譯詞典隨便輸入一個英語單詞,或者輸入一個漢字詞語,留意一下搜索框上方多出來的詞典提小。如搜索“apple “計算器和度量衡轉(zhuǎn)換Window系統(tǒng)自帶的計算器功能過于簡陋,尤其是無法處理一個復(fù)雜計算式,很不方便。下一頁上一頁返回第二節(jié)常用中文搜索引擎股票、列車時刻表和飛機航班查詢在百度搜索框中輸入股票代碼、列車車次或者飛機航班號,用戶就能直接獲得相關(guān)信息。天氣查詢百度支持全國多達400多

14、個城市和近百個國外著名城市的天氣查詢。百度搜霸百度搜霸是一款免費的瀏覽器工具條,下載后安裝在IE瀏覽器的工具欄內(nèi)用戶無需登陸百度搜索引擎,即可以利用該工具條進行即時檢索。下一頁上一頁返回第二節(jié)常用中文搜索引擎谷歌概述谷歌是Google中文名。Google(www.G)是一個搜索引擎,由斯坦福大學(xué)的兩個博士生Larry Page與Sergey Brin于1998年9月發(fā)明,Google Inc.于1999年創(chuàng)立。基本檢索Google的頁面十分簡單,如圖6-4所示,在檢索輸入框下面排列著幾大功能模塊,分別是視頻、圖片、生活、地圖、音樂、翻譯、265導(dǎo)航。下一頁上一頁返回第二節(jié)常用中文搜索引擎高級檢

15、索Google提供的高級檢索功能可以為檢索附加多種限制條件,從而使檢索結(jié)果更精確,同時也在一定程度上避免用戶由于對檢索式構(gòu)造不夠熟悉而造成的錯檢、漏檢等現(xiàn)象。Google高級搜索提供了輸入項、網(wǎng)頁語言、網(wǎng)頁區(qū)域、文件格式、日期、關(guān)鍵詞位置、網(wǎng)域、權(quán)限等自定義搜索結(jié)果,如圖6-6所示。下一頁上一頁返回第二節(jié)常用中文搜索引擎檢索方法與技巧空格、OR和減號(-)用戶輸入的關(guān)鍵詞之間如果不加其他修飾符號而只留空格的話,Google會默認(rèn)關(guān)鍵詞之間為“and”的關(guān)系,就會對所有的關(guān)鍵詞同時進行搜索并只返回那些符合全部查詢條件的網(wǎng)頁。雙引號(“”)和通配符(*)在Google中,可以通過添加英文雙引號來搜索短語。雙引號中的詞語在查詢到的文檔中將作為一個整體出現(xiàn)。下一頁上一頁返回第二節(jié)常用中文搜索引擎其他功能Google除了上述特點外,還具備相當(dāng)多的功能,包括網(wǎng)頁快照、類似網(wǎng)頁、錯別字改正、中英文字典、google學(xué)術(shù)搜索,天氣查詢、股票查詢、郵編區(qū)號、手機號碼等。下面介紹其中幾個。google學(xué)術(shù)搜索Google提供可廣泛搜索學(xué)術(shù)文獻的簡便方法。google生活搜索切

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論