網(wǎng)絡(luò)信息檢索課件_第1頁(yè)
網(wǎng)絡(luò)信息檢索課件_第2頁(yè)
網(wǎng)絡(luò)信息檢索課件_第3頁(yè)
網(wǎng)絡(luò)信息檢索課件_第4頁(yè)
網(wǎng)絡(luò)信息檢索課件_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第六章網(wǎng)絡(luò)信息檢索第一節(jié)搜索引擎概述第二節(jié)常用中文搜索引擎第一節(jié)搜索引擎概述搜索引擎的定義與類型搜索引擎的定義搜索引擎,英文為Search Engine是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。搜索引擎的類型搜索引擎種類繁多,它可以按照內(nèi)容組織方式和工作機(jī)理等進(jìn)行區(qū)分。下一頁(yè)返回第一節(jié)搜索引擎概述按內(nèi)容組織方式劃分第一類是全文檢索(Full Text Search)的搜索引擎,用戶能夠?qū)Ω骶W(wǎng)站的每個(gè)主頁(yè)中的每個(gè)詞進(jìn)行搜索。全文搜索引擎的優(yōu)點(diǎn)是查詢?nèi)娑浞?。?dāng)全文搜索引擎遇到一個(gè)網(wǎng)站時(shí),會(huì)將該網(wǎng)站上所有開(kāi)放的網(wǎng)頁(yè)全部獲取下來(lái)

2、,并收入到引擎的數(shù)據(jù)庫(kù)中。第一類是建立在分類學(xué)基礎(chǔ)上的目錄分類式搜索引擎。它通過(guò)人工方式將所收入的站點(diǎn)進(jìn)行分類而建立數(shù)據(jù)庫(kù),以提供查詢。目錄分類式搜索引擎當(dāng)遇到一個(gè)網(wǎng)站時(shí),先將該網(wǎng)站劃分到某個(gè)分類下,再記錄一些摘要信息對(duì)該網(wǎng)站進(jìn)行概述性的介紹。下一頁(yè)上一頁(yè)返回第一節(jié)搜索引擎概述按工作機(jī)理劃分第一類是機(jī)器人搜索引擎,由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序按設(shè)計(jì)者和網(wǎng)站定制的策略自動(dòng)在勻_聯(lián)網(wǎng)中抓取相應(yīng)的信息,并通過(guò)分析抓取的網(wǎng)頁(yè)文件獲取網(wǎng)頁(yè)中存在的新的URL鏈接,以此達(dá)到層層深入抓取的日的,抓取結(jié)束后采用單機(jī)存儲(chǔ)或分布式存儲(chǔ)的方式進(jìn)行磁盤存儲(chǔ),然后由索引器為搜集到的信息建立索引,根據(jù)用戶的查

3、詢輸入檢索索引庫(kù),并將查詢結(jié)果返回給用戶。該類搜索引擎的優(yōu)點(diǎn)是信息量大,更新及時(shí),無(wú)需人工干預(yù);缺點(diǎn)是返回多而雜,必須進(jìn)行人工篩選。第二類是元搜索引擎,這類搜索引擎沒(méi)有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。下一頁(yè)上一頁(yè)返回第一節(jié)搜索引擎概述搜索引擎的工作原理搜索引擎構(gòu)成搜索引擎廣義上是一種基于互聯(lián)網(wǎng)的信息查詢系統(tǒng)。一個(gè)網(wǎng)絡(luò)搜索引擎一般由搜索器、索引器、檢索器和用戶接口四部分組成。搜索器就是幫助用戶查找到特定信息的一種工具。而搜索引擎中的搜索器卻承擔(dān)了另一個(gè)網(wǎng)絡(luò)數(shù)據(jù)抓取功能。只有準(zhǔn)確地獲取、表示、存儲(chǔ)、組織信

4、息,同時(shí)提供便利的訪問(wèn)方式,才能方便用戶進(jìn)行準(zhǔn)確的查詢。下一頁(yè)上一頁(yè)返回第一節(jié)搜索引擎概述需要一種方法對(duì)文檔進(jìn)行預(yù)處理,在文檔間建立一種便于檢索的數(shù)據(jù)結(jié)構(gòu),以此來(lái)提高信息檢索的速度,這種數(shù)據(jù)結(jié)構(gòu)就是索引。而索引器的工作就是建立一個(gè)包含關(guān)鍵信息的索引庫(kù)以備查詢。索引器的策略在很大程度上影響了搜索引擎的效率與準(zhǔn)確性。檢索軟件負(fù)責(zé)提供用戶使用搜索引擎的接口。檢索軟件一般是一個(gè)Web應(yīng)用程序,其主要工作包括獲取用戶制定的搜索規(guī)則;查詢索引庫(kù);計(jì)算網(wǎng)頁(yè)搜索請(qǐng)求的關(guān)聯(lián)度;提供排序后的搜索結(jié)果返回。用戶接口的作用是為用戶提供可視化的查詢輸入和結(jié)果輸出界面,其主要目的是方便用戶使用搜索引擎獲取有效信息,可以分

5、為簡(jiǎn)單接口和復(fù)雜接口兩種。下一頁(yè)上一頁(yè)返回第一節(jié)搜索引擎概述搜索原理其搜索原理主要分為四個(gè)步驟:從網(wǎng)絡(luò)上抓取網(wǎng)頁(yè),搜索引擎主動(dòng)派出“蜘蛛”程序訪問(wèn)Internet,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站或者網(wǎng)站擁有者主動(dòng)向搜索引擎提交的網(wǎng)址進(jìn)行檢索,并將搜集到的信息和網(wǎng)頁(yè)收集到服務(wù)器上。建立索引數(shù)據(jù)庫(kù),由索引系統(tǒng)程序?qū)κ占骄W(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL,編碼類型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、生成時(shí)間、大小、相關(guān)鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容及鏈接中每個(gè)關(guān)鍵詞的相關(guān)度,然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。下一頁(yè)上一頁(yè)返回第一節(jié)搜索引擎概述在

6、索引數(shù)據(jù)庫(kù)中搜索,當(dāng)用戶輸入關(guān)鍵詞搜索后,分解搜索請(qǐng)求,由搜索系統(tǒng)從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。對(duì)搜索結(jié)果進(jìn)行處理排序,所有相關(guān)網(wǎng)頁(yè)針對(duì)關(guān)鍵詞的相關(guān)信息在索引庫(kù)中都有記錄,通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度,出現(xiàn)的位置、頻次、鏈接質(zhì)量等計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁(yè)鏈接返回給用戶。下一頁(yè)上一頁(yè)第一節(jié)搜索引擎概述搜索引擎的語(yǔ)法規(guī)則與檢索式的構(gòu)建語(yǔ)法規(guī)則搜索引擎的語(yǔ)法規(guī)則主要包括基本數(shù)學(xué)規(guī)則、限制搜索語(yǔ)法、輔助搜索語(yǔ)法以及布爾邏輯算符?;緮?shù)學(xué)規(guī)則連接符號(hào)連接符號(hào)主要有(+)和減號(hào)(-)。在檢索詞前面使用“+”時(shí)候,表示所有檢索結(jié)果的頁(yè)面都必須

7、包含該詞。檢索式為“+A+B,表示所查的該頁(yè)面中應(yīng)出現(xiàn)“A”和“B”方面的信息。而檢索式“A+B”則表示檢索結(jié)果頁(yè)面中一定含有+B;,但是不一定包含有“A”的信息。檢索詞前面使用“-”,表示任何檢索結(jié)果的頁(yè)面都不能包含該詞語(yǔ)。下一頁(yè)返回第一節(jié)搜索引擎概述空格、逗號(hào)、括號(hào)和引號(hào)的作用空格的作用與邏輯“與”的作用相同。逗號(hào)的作用類似于邏輯“或”,也是查找那些至少包含一個(gè)指定關(guān)鍵詞的頁(yè)面,區(qū)別在于檢索結(jié)果輸出時(shí),包含指定關(guān)鍵詞越多的頁(yè)面,其排列順序位置越靠前。括號(hào)的作用是使括號(hào)內(nèi)的運(yùn)算符優(yōu)先執(zhí)行,用來(lái)改變復(fù)雜檢索式中固有邏輯運(yùn)算符優(yōu)先級(jí)的次序。引號(hào)的作用是將引在其中的多個(gè)詞被當(dāng)作一個(gè)短語(yǔ)來(lái)檢索。下一

8、頁(yè)上一頁(yè)返回第一節(jié)搜索引擎概述限制搜索語(yǔ)法限制搜索語(yǔ)法是從不同角度限定網(wǎng)絡(luò)搜索的功能性詞語(yǔ)和符號(hào),對(duì)搜索結(jié)果起到定向作用和控制作用。主要包括標(biāo)題搜索(Title Search)、網(wǎng)站搜索(Site Search)、網(wǎng)址搜索(URL Search),鏈接搜索(Link Search)、文件搜索(Fileype Search)檢索式的構(gòu)建檢索式是指搜索引擎能夠理解和運(yùn)算的查詢串,由關(guān)鍵詞、邏輯運(yùn)算符、搜索語(yǔ)法等構(gòu)成。關(guān)鍵詞是檢索式的主體,邏輯運(yùn)算符和搜索指令根據(jù)具體的查詢內(nèi)容,力求使關(guān)鍵詞與內(nèi)容描述詞一致。準(zhǔn)確選擇關(guān)鍵詞,需要對(duì)查詢內(nèi)容有一定了解,有一個(gè)根據(jù)搜索結(jié)果從模糊到準(zhǔn)確的逐步調(diào)整關(guān)鍵詞的練

9、習(xí)過(guò)程。在使用邏輯運(yùn)算上一頁(yè)返回第二節(jié)常用中文搜索引擎百度概述百度()是由百度公司于1999年底在美國(guó)硅谷成立的,是目前全球最優(yōu)秀的中文信息檢索與傳遞技術(shù)供應(yīng)商。使用百度搜索引擎,其基本檢索頁(yè)面由功能模塊和檢索輸入框及檢索按鈕三部分組成,如圖6-1所示下一頁(yè)返回第二節(jié)常用中文搜索引擎檢索方法和技巧百度支持布爾邏輯檢索,支持通配符的使用支持邏輯“與”,檢索時(shí)不需要使用“AND”或者“+”,只需要在輸入的多個(gè)檢索詞之間以空格加以隔開(kāi),系統(tǒng)會(huì)自動(dòng)在各檢索詞之間添加“+”;支持邏輯“非”,運(yùn)算符為“一”,注意前一個(gè)關(guān)鍵詞和減號(hào)之間必須有空格,否則減號(hào)會(huì)被當(dāng)少戊連字符處理,而失去減號(hào)語(yǔ)法功能。減號(hào)和后一

10、個(gè)關(guān)鍵詞之間,有無(wú)空格均可。下一頁(yè)上一頁(yè)返回第二節(jié)常用中文搜索引擎百度支持搜索位置的限定檢索時(shí),有如下命令:intitle關(guān)鍵詞在網(wǎng)頁(yè)標(biāo)題中,把查詢內(nèi)容范圍限定在網(wǎng)頁(yè)標(biāo)題中,有時(shí)能獲得良好的效果。Fileype對(duì)搜索對(duì)象做格式限制,使用方法是在“Fileype”后跟文件格式。Inurl限定在URL鏈接中搜索,網(wǎng)頁(yè)url中的某些信息,常常有某種有價(jià)值的含義,用戶可通過(guò)對(duì)搜索結(jié)果的url做某種限定來(lái)獲得良好的效果。下一頁(yè)上一頁(yè)返回第二節(jié)常用中文搜索引擎百度支持任意的關(guān)鍵詞檢索,無(wú)論中文、英文、數(shù)字,還是各種形式文字的混合在輸入多個(gè)檢索詞時(shí),應(yīng)用空格隔開(kāi)。要想精確搜索,有兩個(gè)符號(hào)可以用到,雙引號(hào)(“

11、”)和書名號(hào)( )。若輸入的查詢?cè)~很長(zhǎng),百度在經(jīng)過(guò)分析后,給出的搜索結(jié)果中的查詢?cè)~,可能是拆分的。用戶可以給查詢?cè)~加上雙引號(hào)而嘗試讓百度不拆分查詢?cè)~。書名號(hào)是百度獨(dú)有的一個(gè)特殊查詢語(yǔ)法。百度提供相關(guān)檢索如果用戶無(wú)法確定輸入什么詞語(yǔ)能找到滿意資料,可以試用相關(guān)檢索,先輸入一個(gè)簡(jiǎn)單詞語(yǔ),搜索引擎會(huì)在頁(yè)面結(jié)果第一頁(yè)下方提供“相關(guān)搜索”做參考,這時(shí),只擊要單擊其中一個(gè)搜索詞,就能得到那個(gè)相關(guān)搜索詞的搜索結(jié)果。下一頁(yè)上一頁(yè)返回第二節(jié)常用中文搜索引擎依據(jù)檢索需要,用戶可以通過(guò)高級(jí)檢索中提供的各種條件限制來(lái)精確檢索范圍,從而提高檢索的查準(zhǔn)率在百度高級(jí)檢索中,如圖6-3所示,用戶可以限制某一檢索必須包含或者排

12、除某些特定的關(guān)鍵詞或短語(yǔ),也可以定制搜索結(jié)果頁(yè)面所含的條目數(shù)量,還可以限定所搜索網(wǎng)頁(yè)的時(shí)間、地區(qū)、語(yǔ)言、格式及關(guān)鍵詞在結(jié)果中出現(xiàn)位置等。下一頁(yè)上一頁(yè)返回第二節(jié)常用中文搜索引擎其他特色功能目前百度網(wǎng)頁(yè)搜索的特色功能包括百度快照、相關(guān)搜索、拼音提示、錯(cuò)別字提示、英漢互譯詞典、計(jì)算器和度量衡轉(zhuǎn)換、股票、列車時(shí)刻表和飛機(jī)航班查詢、天氣查詢、高級(jí)搜索、地區(qū)搜索和個(gè)性設(shè)置等百度快照每個(gè)被收錄的網(wǎng)頁(yè),在百度上都存有一個(gè)純文本的備份,稱為“百度快照”。相關(guān)搜索搜索結(jié)果不佳,有時(shí)候是因?yàn)檫x擇的檢索詞不是很妥當(dāng)。百度使用相關(guān)檢索詞智能推薦技術(shù),即在用戶第一次檢索后,會(huì)在搜索結(jié)果頁(yè)的下方提示相關(guān)的檢索詞,幫助用戶查

13、找更相關(guān)的結(jié)果,統(tǒng)計(jì)表明其可以促進(jìn)檢索量提升10%20%下一頁(yè)上一頁(yè)返回第二節(jié)常用中文搜索引擎拼音與錯(cuò)別字提示如果只知道某個(gè)詞的發(fā)音,卻不知道怎么寫,或者嫌某個(gè)詞拼寫輸入太麻煩,可通過(guò)百度拼音提小來(lái)解決問(wèn)題。英漢互譯詞典隨便輸入一個(gè)英語(yǔ)單詞,或者輸入一個(gè)漢字詞語(yǔ),留意一下搜索框上方多出來(lái)的詞典提小。如搜索“apple “計(jì)算器和度量衡轉(zhuǎn)換Window系統(tǒng)自帶的計(jì)算器功能過(guò)于簡(jiǎn)陋,尤其是無(wú)法處理一個(gè)復(fù)雜計(jì)算式,很不方便。下一頁(yè)上一頁(yè)返回第二節(jié)常用中文搜索引擎股票、列車時(shí)刻表和飛機(jī)航班查詢?cè)诎俣人阉骺蛑休斎牍善贝a、列車車次或者飛機(jī)航班號(hào),用戶就能直接獲得相關(guān)信息。天氣查詢百度支持全國(guó)多達(dá)400多

14、個(gè)城市和近百個(gè)國(guó)外著名城市的天氣查詢。百度搜霸百度搜霸是一款免費(fèi)的瀏覽器工具條,下載后安裝在IE瀏覽器的工具欄內(nèi)用戶無(wú)需登陸百度搜索引擎,即可以利用該工具條進(jìn)行即時(shí)檢索。下一頁(yè)上一頁(yè)返回第二節(jié)常用中文搜索引擎谷歌概述谷歌是Google中文名。Google(www.G)是一個(gè)搜索引擎,由斯坦福大學(xué)的兩個(gè)博士生Larry Page與Sergey Brin于1998年9月發(fā)明,Google Inc.于1999年創(chuàng)立。基本檢索Google的頁(yè)面十分簡(jiǎn)單,如圖6-4所示,在檢索輸入框下面排列著幾大功能模塊,分別是視頻、圖片、生活、地圖、音樂(lè)、翻譯、265導(dǎo)航。下一頁(yè)上一頁(yè)返回第二節(jié)常用中文搜索引擎高級(jí)檢

15、索Google提供的高級(jí)檢索功能可以為檢索附加多種限制條件,從而使檢索結(jié)果更精確,同時(shí)也在一定程度上避免用戶由于對(duì)檢索式構(gòu)造不夠熟悉而造成的錯(cuò)檢、漏檢等現(xiàn)象。Google高級(jí)搜索提供了輸入項(xiàng)、網(wǎng)頁(yè)語(yǔ)言、網(wǎng)頁(yè)區(qū)域、文件格式、日期、關(guān)鍵詞位置、網(wǎng)域、權(quán)限等自定義搜索結(jié)果,如圖6-6所示。下一頁(yè)上一頁(yè)返回第二節(jié)常用中文搜索引擎檢索方法與技巧空格、OR和減號(hào)(-)用戶輸入的關(guān)鍵詞之間如果不加其他修飾符號(hào)而只留空格的話,Google會(huì)默認(rèn)關(guān)鍵詞之間為“and”的關(guān)系,就會(huì)對(duì)所有的關(guān)鍵詞同時(shí)進(jìn)行搜索并只返回那些符合全部查詢條件的網(wǎng)頁(yè)。雙引號(hào)(“”)和通配符(*)在Google中,可以通過(guò)添加英文雙引號(hào)來(lái)搜索短語(yǔ)。雙引號(hào)中的詞語(yǔ)在查詢到的文檔中將作為一個(gè)整體出現(xiàn)。下一頁(yè)上一頁(yè)返回第二節(jié)常用中文搜索引擎其他功能Google除了上述特點(diǎn)外,還具備相當(dāng)多的功能,包括網(wǎng)頁(yè)快照、類似網(wǎng)頁(yè)、錯(cuò)別字改正、中英文字典、google學(xué)術(shù)搜索,天氣查詢、股票查詢、郵編區(qū)號(hào)、手機(jī)號(hào)碼等。下面介紹其中幾個(gè)。google學(xué)術(shù)搜索Google提供可廣泛搜索學(xué)術(shù)文獻(xiàn)的簡(jiǎn)便方法。google生活搜索切

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論