


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
淺析搜索引擎的工作原理及檢索技巧
一、前言隨著Internet的迅速發(fā)展,網(wǎng)上信息正以爆炸性的速度增長(zhǎng),其資源內(nèi)容幾乎涉及所有領(lǐng)域,已經(jīng)成為知識(shí)、信息的集合體,是人們獲取信息的基本工具。在Internet網(wǎng)上進(jìn)行瀏覽和檢索,就好比進(jìn)入了世界上最大的圖書館,而這個(gè)圖書館里的書刊、雜志、廣告、新聞及各種形式的文獻(xiàn)信息全都沒有規(guī)律地排放著,沒有一個(gè)中心目錄將這些信息組織起來。正是因?yàn)镮nternet資源既豐富又分散且處于無序狀態(tài),使得人們?cè)诰W(wǎng)上查找自己所需的信息并非易事。這時(shí)為滿足人眾信息檢索的需求,搜索引擎便應(yīng)運(yùn)而生。搜索引擎是指使用某些自動(dòng)索引軟件來發(fā)現(xiàn)、收集網(wǎng)絡(luò)上的信息,然后對(duì)收集的網(wǎng)頁進(jìn)行標(biāo)引,建立一個(gè)可供查詢的大型數(shù)據(jù)庫(kù)。二、搜索引擎的工作原理搜索引擎為了以最快的速度得到搜索結(jié)果,它搜索的通常是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫(kù)。搜索引擎,不能真正理解網(wǎng)頁上的內(nèi)容,它只能機(jī)械的匹配網(wǎng)頁上的文字。真正意義上的搜索引擎,通常指的是收集了互聯(lián)網(wǎng)上幾千萬到幾十億個(gè)網(wǎng)頁并對(duì)網(wǎng)頁中的每一個(gè)文字(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫(kù)的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法進(jìn)行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低,依次排列。搜索引擎的工作原理可以看作三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁→建立索引數(shù)據(jù)庫(kù)→在索引數(shù)據(jù)庫(kù)中搜索排序。1.從互聯(lián)網(wǎng)上抓取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁的爬蟲系統(tǒng)程序(或者稱為機(jī)器人程序),自動(dòng)訪問互聯(lián)網(wǎng),沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這一過程,并把爬過的所有網(wǎng)頁收集回來。2.建立索引數(shù)據(jù)庫(kù)由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL,編碼類型,頁面內(nèi)容包含的所有關(guān)鍵詞,關(guān)鍵詞位置,生成時(shí)間,大小,與其它網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對(duì)頁面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫(kù)。3.在索引數(shù)據(jù)庫(kù)中搜索排序當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因?yàn)樗邢嚓P(guān)網(wǎng)頁針對(duì)于該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后,由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁而內(nèi)容摘要等內(nèi)容組織起來返回給用戶。由于Web信息會(huì)頻繁更新,例如,新聞網(wǎng)頁通常每天就要更新,有的網(wǎng)頁更新周期可能是一周或幾個(gè)月,這種頻繁更新,會(huì)導(dǎo)致數(shù)據(jù)庫(kù)內(nèi)信息的過時(shí)。因此,需要更新網(wǎng)頁索引數(shù)據(jù)庫(kù),以反映出網(wǎng)頁文字的更新情況,增加新的網(wǎng)頁信息,去除死鏈接,并根據(jù)網(wǎng)頁文字和鏈接關(guān)系的變化重新排序。這樣,網(wǎng)頁的具體文字變化情況就會(huì)反映到用戶查詢的結(jié)果中。三、檢索技巧1.科學(xué)選擇關(guān)鍵詞。由于搜索引擎智能化程度的影響,它只能在現(xiàn)存的數(shù)據(jù)庫(kù)中查找匹配的關(guān)鍵詞,因此,這種匹配相對(duì)比較盲目,我們?cè)谶x擇關(guān)鍵詞時(shí),要注意兩方面的問題,才有可能得到較好的搜索效果。2.使用雙引號(hào)進(jìn)行精確查詢。如果查找的是一個(gè)詞組或多個(gè)漢字,最好的辦法就是將它們用雙引號(hào)括起來,這樣得到的結(jié)果最少、最精確。3.使用加號(hào)(+)、減號(hào)(-)限定查找。很多搜索引擎都支持在搜索詞前冠以加號(hào)(+)限定搜索結(jié)果中必須包含的詞匯,用減號(hào)(-)限定搜索結(jié)果不能包含的詞匯。4.靈活運(yùn)用使用通配符。很多搜索引擎支持通配符號(hào),如“*”代表一連串字符,“?”代表單個(gè)字符。5.使用邏輯詞輔助查找。比較大的搜索引擎都支持使用邏輯詞進(jìn)行更復(fù)雜的搜索界定,常用的有:AND(和)、OR(或)、NOT(否)及NEAR(兩個(gè)單詞的靠近程度),恰當(dāng)應(yīng)用它們可以使搜索結(jié)果非常精確。另外,也可以使用括號(hào)將搜索詞分別組合,如(新聞OR足球)AND(米盧)NoT(“新聞”O(jiān)R足球)6.有針對(duì)性地選擇搜索引擎。用不同的搜索引擎進(jìn)行查詢得到的結(jié)果常常有很大的差異,這是因?yàn)樗鼈兊脑O(shè)計(jì)目的和發(fā)展走向存在著許多的不同,比如:D是針對(duì)軟件類的搜索引擎,可搜尋大量的自由軟件和共享軟件。驅(qū)動(dòng)之家主要是提供查找驅(qū)動(dòng)程序及硬件廠商信息。7.使用元詞檢索。大多數(shù)搜索引擎都支持“元詞”(metawords)功能,用戶把元詞放在關(guān)鍵詞的前面,就可以告訴搜索引擎你想要檢索的內(nèi)容具有哪些明確的特征。例如,你在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁標(biāo)題中帶有清華大學(xué)的網(wǎng)頁。其他元詞還包括:image,用于檢索圖片;link,用于檢索鏈接到某個(gè)選定網(wǎng)站的頁面;URL,用于檢索地址中帶有某個(gè)關(guān)鍵詞的網(wǎng)頁。8.細(xì)化查詢。許多搜索引擎都提供了對(duì)搜索結(jié)果進(jìn)行細(xì)化與再查詢的功能,如有的搜索引擎在結(jié)果中有”查詢類似網(wǎng)頁”的按鈕,還有一些則可以對(duì)得到的結(jié)果進(jìn)行新一輪的查詢。9.盡可能將搜索范圍限制在特定的領(lǐng)域里。比如在yahoo中文網(wǎng)站中,你要查找的是與電腦相關(guān)的知識(shí),那么你沒有必要讓搜索引擎在休閑與運(yùn)動(dòng)、健康與醫(yī)藥、藝術(shù)與人文等其他分類中查找。你可以進(jìn)入“電腦與因特網(wǎng)”這一類,選中“檢索此目錄下的網(wǎng)站”。然后再開始搜索。四、結(jié)束語參考文獻(xiàn):
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 河南省安陽市文源高級(jí)中學(xué)2024-2025學(xué)年高二下學(xué)期開學(xué)調(diào)研質(zhì)量檢測(cè)考試數(shù)學(xué)試卷
- 2025年高考?xì)v史風(fēng)標(biāo)訓(xùn)練卷1(含解析)
- 交通工程設(shè)施施工方案
- 2025年二手煙試題及答案
- 電影布景設(shè)計(jì)施工方案
- 2025年jvm面試題庫(kù)及答案
- 2025年三基護(hù)理院感試題及答案
- 回廊屋面施工方案范本
- 等比數(shù)列與夾逼定理
- 高空棧道施工方案
- 2024年山西同文職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試歷年參考題庫(kù)含答案解析
- 學(xué)生常見傳染病的預(yù)防
- 2025年青海省建筑安全員B證考試題庫(kù)
- 制種玉米種子質(zhì)量控制培訓(xùn)
- 2024年長(zhǎng)沙民政職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及答案解析
- 《森林資源資產(chǎn)評(píng)估》課件-森林資源經(jīng)營(yíng)
- 管道機(jī)器人研究綜述
- 《媒介社會(huì)學(xué)》課件
- 2024年考研政治真題及答案
- 2024年中國(guó)高軟化點(diǎn)瀝青市場(chǎng)調(diào)查研究報(bào)告
- 成人手術(shù)后疼痛評(píng)估與護(hù)理團(tuán)體標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論