下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
淺析搜索引擎的工作原理及檢索技巧
一、前言隨著Internet的迅速發(fā)展,網上信息正以爆炸性的速度增長,其資源內容幾乎涉及所有領域,已經成為知識、信息的集合體,是人們獲取信息的基本工具。在Internet網上進行瀏覽和檢索,就好比進入了世界上最大的圖書館,而這個圖書館里的書刊、雜志、廣告、新聞及各種形式的文獻信息全都沒有規(guī)律地排放著,沒有一個中心目錄將這些信息組織起來。正是因為Internet資源既豐富又分散且處于無序狀態(tài),使得人們在網上查找自己所需的信息并非易事。這時為滿足人眾信息檢索的需求,搜索引擎便應運而生。搜索引擎是指使用某些自動索引軟件來發(fā)現(xiàn)、收集網絡上的信息,然后對收集的網頁進行標引,建立一個可供查詢的大型數(shù)據(jù)庫。二、搜索引擎的工作原理搜索引擎為了以最快的速度得到搜索結果,它搜索的通常是預先整理好的網頁索引數(shù)據(jù)庫。搜索引擎,不能真正理解網頁上的內容,它只能機械的匹配網頁上的文字。真正意義上的搜索引擎,通常指的是收集了互聯(lián)網上幾千萬到幾十億個網頁并對網頁中的每一個文字(即關鍵詞)進行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。在經過復雜的算法進行排序后,這些結果將按照與搜索關鍵詞的相關度高低,依次排列。搜索引擎的工作原理可以看作三步:從互聯(lián)網上抓取網頁→建立索引數(shù)據(jù)庫→在索引數(shù)據(jù)庫中搜索排序。1.從互聯(lián)網上抓取網頁利用能夠從互聯(lián)網上自動收集網頁的爬蟲系統(tǒng)程序(或者稱為機器人程序),自動訪問互聯(lián)網,沿著任何網頁中的所有URL爬到其它網頁,重復這一過程,并把爬過的所有網頁收集回來。2.建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在URL,編碼類型,頁面內容包含的所有關鍵詞,關鍵詞位置,生成時間,大小,與其它網頁的鏈接關系等),根據(jù)一定的相關度算法進行大量復雜計算,得到每一個網頁針對頁面文字中及超鏈中每一個關鍵詞的相關度(或重要性),然后用這些相關信息建立網頁索引數(shù)據(jù)庫。3.在索引數(shù)據(jù)庫中搜索排序當用戶輸入關鍵詞搜索后,由搜索系統(tǒng)程序從網頁索引數(shù)據(jù)庫中找到符合該關鍵詞的所有相關網頁。因為所有相關網頁針對于該關鍵詞的相關度早已算好,所以只需按照現(xiàn)成的相關度數(shù)值排序,相關度越高,排名越靠前。最后,由頁面生成系統(tǒng)將搜索結果的鏈接地址和頁而內容摘要等內容組織起來返回給用戶。由于Web信息會頻繁更新,例如,新聞網頁通常每天就要更新,有的網頁更新周期可能是一周或幾個月,這種頻繁更新,會導致數(shù)據(jù)庫內信息的過時。因此,需要更新網頁索引數(shù)據(jù)庫,以反映出網頁文字的更新情況,增加新的網頁信息,去除死鏈接,并根據(jù)網頁文字和鏈接關系的變化重新排序。這樣,網頁的具體文字變化情況就會反映到用戶查詢的結果中。三、檢索技巧1.科學選擇關鍵詞。由于搜索引擎智能化程度的影響,它只能在現(xiàn)存的數(shù)據(jù)庫中查找匹配的關鍵詞,因此,這種匹配相對比較盲目,我們在選擇關鍵詞時,要注意兩方面的問題,才有可能得到較好的搜索效果。2.使用雙引號進行精確查詢。如果查找的是一個詞組或多個漢字,最好的辦法就是將它們用雙引號括起來,這樣得到的結果最少、最精確。3.使用加號(+)、減號(-)限定查找。很多搜索引擎都支持在搜索詞前冠以加號(+)限定搜索結果中必須包含的詞匯,用減號(-)限定搜索結果不能包含的詞匯。4.靈活運用使用通配符。很多搜索引擎支持通配符號,如“*”代表一連串字符,“?”代表單個字符。5.使用邏輯詞輔助查找。比較大的搜索引擎都支持使用邏輯詞進行更復雜的搜索界定,常用的有:AND(和)、OR(或)、NOT(否)及NEAR(兩個單詞的靠近程度),恰當應用它們可以使搜索結果非常精確。另外,也可以使用括號將搜索詞分別組合,如(新聞OR足球)AND(米盧)NoT(“新聞”O(jiān)R足球)6.有針對性地選擇搜索引擎。用不同的搜索引擎進行查詢得到的結果常常有很大的差異,這是因為它們的設計目的和發(fā)展走向存在著許多的不同,比如:D是針對軟件類的搜索引擎,可搜尋大量的自由軟件和共享軟件。驅動之家主要是提供查找驅動程序及硬件廠商信息。7.使用元詞檢索。大多數(shù)搜索引擎都支持“元詞”(metawords)功能,用戶把元詞放在關鍵詞的前面,就可以告訴搜索引擎你想要檢索的內容具有哪些明確的特征。例如,你在搜索引擎中輸入“title:清華大學”,就可以查到網頁標題中帶有清華大學的網頁。其他元詞還包括:image,用于檢索圖片;link,用于檢索鏈接到某個選定網站的頁面;URL,用于檢索地址中帶有某個關鍵詞的網頁。8.細化查詢。許多搜索引擎都提供了對搜索結果進行細化與再查詢的功能,如有的搜索引擎在結果中有”查詢類似網頁”的按鈕,還有一些則可以對得到的結果進行新一輪的查詢。9.盡可能將搜索范圍限制在特定的領域里。比如在yahoo中文網站中,你要查找的是與電腦相關的知識,那么你沒有必要讓搜索引擎在休閑與運動、健康與醫(yī)藥、藝術與人文等其他分類中查找。你可以進入“電腦與因特網”這一類,選中“檢索此目錄下的網站”。然后再開始搜索。四、結束語參考文獻:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024至2030年中國新型粉煤灰混凝土數(shù)據(jù)監(jiān)測研究報告
- 2024至2030年中國多功能采暖爐數(shù)據(jù)監(jiān)測研究報告
- 2024年四川省成都市中考語文試題含答案
- 2024至2030年中國SB十二直裙數(shù)據(jù)監(jiān)測研究報告
- 2024年中國偏式掛頭不銹鋼喉箍市場調查研究報告
- 非人力資源經理的人力資源管理講師版
- 倉庫內人員流動管理計劃
- 出國打工合同
- 動漫行業(yè)月度個人工作計劃
- 報停啟用供用電協(xié)議書范本
- 車輛司機安全教育培訓
- ecmo患者撤機后的護理
- 蘇州城市學院招聘考試題庫2024
- 中學生體質健康
- 數(shù)據(jù)安全知識講座
- 《內蒙古歷史文化》課件
- 淘寶客服服務培訓教程課件
- 福特智能網聯(lián)汽車數(shù)據(jù)安全管理
- 骨科疾病的癥狀與體征
- 同城直播分析報告
- 電工復審培訓
評論
0/150
提交評論