搜索引擎的工作原理.ppt

上傳人：q*** IP屬地：河南上傳時間：2020-10-12 格式：PPT 頁數(shù)：12 大?。?34KB 積分：16 舉報 版權(quán)申訴

已閱讀5頁，還剩7頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、搜索引擎的工作原理,韓麗娟,目錄,1、定義 2、爬行和抓取 3、預(yù)處理 4、排名,定義,搜索引擎是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息，在對信息進行組織和處理后，為用戶提供檢索服務(wù)，將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。,爬行和抓取,預(yù)處理,排名,爬行和抓取,一、定義：搜索引擎蜘蛛通過跟蹤鏈接訪問網(wǎng)頁，獲得頁面HTML代碼存入數(shù)據(jù)庫。二、工作流程 1、蜘蛛搜索引擎用來爬行和訪問的頁面的程序成為蜘蛛，也成為機器人。,爬行和抓取,2、跟蹤鏈接為了抓取網(wǎng)上盡量多的頁面，搜索引擎蜘蛛會跟蹤頁面上的鏈接，從一個頁面爬行到另一個頁面，就像蜘蛛在蜘蛛網(wǎng)上爬行一樣。,爬行和抓取,3

2、、吸引蜘蛛頁面權(quán)重質(zhì)量高和資格老的網(wǎng)站被認為權(quán)重比較高頁面更新度蜘蛛每次爬行都會把頁面數(shù)據(jù)存儲起來。第一次和第二次要讓蜘蛛爬行不同頁面，這樣蜘蛛才會光顧你的網(wǎng)站。導(dǎo)入鏈接外鏈、內(nèi)鏈、友請鏈接,爬行和抓取,4、地址庫為了避免重復(fù)爬行和抓取網(wǎng)址，搜索引擎會建立一個地址庫，記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面，以及已經(jīng)被抓取的頁面。 5、文件庫存搜索引擎蜘蛛抓取的數(shù)據(jù)存入頁面數(shù)據(jù)庫。其中頁面數(shù)據(jù)和用戶瀏覽器得到的HTML是完全一樣的，每個URL都有一個獨特的文件編號。,預(yù)處理,搜索引擎蜘蛛抓取的原始頁面，并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫的頁面數(shù)數(shù)億級別以上，用戶輸入搜索伺候，考排名程序?qū)崟r對這么多頁面分析相關(guān)性，計算量太大，不可能一秒鐘返回排名結(jié)果，因此抓取來的頁面必須經(jīng)過預(yù)處理，為最后查詢排名做好準備。,預(yù)處理,1、提取文字 2、去停止詞 3、消除噪聲 4、去重,排名,經(jīng)過搜索引擎蜘蛛抓取頁面，索引程序計算得到倒排索引以后,搜索引擎就準備好可以隨時處理用戶搜索了。用戶在搜索框填入關(guān)鍵詞后，排名程序調(diào)用索引庫數(shù)據(jù)，計算排名顯示給用戶，排名過程是與用戶直接互動的。,排名

人人文庫> 全部分類> 專業(yè)文獻 > IT計算機

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

搜索引擎的工作原理.ppt

文檔簡介

溫馨提示

最新文檔

評論

搜索引擎的工作原理.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔