搜索引擎的工作原理.ppt_第1頁
搜索引擎的工作原理.ppt_第2頁
搜索引擎的工作原理.ppt_第3頁
搜索引擎的工作原理.ppt_第4頁
搜索引擎的工作原理.ppt_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、搜索引擎的工作原理,韓麗娟,目錄,1、定義 2、爬行和抓取 3、預(yù)處理 4、排名,定義,搜索引擎是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。,爬行和抓取,預(yù)處理,排名,爬行和抓取,一、定義: 搜索引擎蜘蛛通過跟蹤鏈接訪問網(wǎng)頁,獲得頁面HTML代碼存入數(shù)據(jù)庫。 二、工作流程 1、蜘蛛 搜索引擎用來爬行和訪問的頁面的程序成為蜘蛛,也成為機器人。,爬行和抓取,2、跟蹤鏈接 為了抓取網(wǎng)上盡量多的頁面,搜索引擎蜘蛛會跟蹤頁面上的鏈接,從一個頁面爬行到另一個頁面,就像蜘蛛在蜘蛛網(wǎng)上爬行一樣。,爬行和抓取,3

2、、吸引蜘蛛 頁面權(quán)重 質(zhì)量高和資格老的網(wǎng)站被認(rèn)為權(quán)重比較高 頁面更新度 蜘蛛每次爬行都會把頁面數(shù)據(jù)存儲起來。第一次和第二次要讓蜘蛛爬行不同頁面,這樣蜘蛛才會光顧你的網(wǎng)站。 導(dǎo)入鏈接 外鏈、內(nèi)鏈、友請鏈接,爬行和抓取,4、地址庫 為了避免重復(fù)爬行和抓取網(wǎng)址,搜索引擎會建立一個地址庫,記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面,以及已經(jīng)被抓取的頁面。 5、文件庫存 搜索引擎蜘蛛抓取的數(shù)據(jù)存入頁面數(shù)據(jù)庫。其中頁面數(shù)據(jù)和用戶瀏覽器得到的HTML是完全一樣的,每個URL都有一個獨特的文件編號。,預(yù)處理,搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫的頁面數(shù)數(shù)億級別以上,用戶輸入搜索伺候,考排名程序?qū)崟r對這么多頁面分析相關(guān)性,計算量太大,不可能一秒鐘返回排名結(jié)果,因此抓取來的頁面必須經(jīng)過預(yù)處理,為最后查詢排名做好準(zhǔn)備。,預(yù)處理,1、提取文字 2、去停止詞 3、消除噪聲 4、去重,排名,經(jīng)過搜索引擎蜘蛛抓取頁面,索引程序計算得到倒排索引以后,搜索引擎就準(zhǔn)備好可以隨時處理用戶搜索了。用戶在搜索框填入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計算排名顯示給用戶,排名過程是與用戶直接互動的。,排名

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論