![搜索引擎簡單工作原理_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/17/814d8913-f844-4094-b6fe-33da72e77bb3/814d8913-f844-4094-b6fe-33da72e77bb31.gif)
![搜索引擎簡單工作原理_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/17/814d8913-f844-4094-b6fe-33da72e77bb3/814d8913-f844-4094-b6fe-33da72e77bb32.gif)
![搜索引擎簡單工作原理_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/17/814d8913-f844-4094-b6fe-33da72e77bb3/814d8913-f844-4094-b6fe-33da72e77bb33.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、搜索引擎簡單工作原理看見網(wǎng)上很多人都在問搜索引擎的工作原理,今天稱有時間就來簡單的說一下,僅適用于初學者,大蝦請繞行! 搜索引擎的工作原理大致可以分為三個階段:爬行和抓取、預(yù)處理、排名 一、爬行和抓取 搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider),也稱為機器人(bot)。搜索引擎蜘蛛訪問網(wǎng)站頁面時類似于普通用戶使用的瀏覽器,蜘蛛程序發(fā)出頁面訪問請求后,服務(wù)器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。為了提高爬行和抓取速度,搜索引擎都是使用多個蜘蛛并發(fā)分布爬行。蜘蛛訪問任何一個網(wǎng)站時都會先訪問網(wǎng)站根目錄下的robots.txt文件,吐過robots.txt文件禁止搜
2、索引擎抓取某些文件或者目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。所以robots.txt文件對一個網(wǎng)站來說是至關(guān)重要的。為了抓取網(wǎng)上盡量多的頁面,搜素引擎蜘蛛會跟蹤頁面上的鏈接,從一個頁面爬行到下一個頁面,就好像蜘蛛在蜘蛛網(wǎng)上爬行一樣,這就是搜素引擎蜘蛛名稱的由來。 最簡單的爬行遍歷策略分為兩種:深度優(yōu)先、廣度優(yōu)先 深度優(yōu)先:蜘蛛沿著發(fā)現(xiàn)的鏈接一直向前爬行,直到前面再也沒有其他鏈接,然后返回到第一個頁面,沿著另一個鏈接再一直往前爬行。 廣度優(yōu)先:蜘蛛在一個頁面上發(fā)現(xiàn)多個鏈接時,不是順著一個鏈接一直向前,而是把頁面上所有第一層鏈接都爬一遍,然后再沿著第二層頁面上發(fā)現(xiàn)的鏈接爬向第三層頁面。 通常這
3、兩種爬行策略時混合使用的。 吸引蜘蛛的方法:提高網(wǎng)站和頁面的權(quán)重,提高頁面更新度,高質(zhì)量的導入鏈接,與首頁點擊距離近 為了避免重復爬行和抓取網(wǎng)址,搜索引擎會建立一個地址庫,記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面和已經(jīng)被抓取的頁面。地址庫來源:人工錄入的種子網(wǎng)站,蜘蛛從抓取頁面獲得的地址庫中沒有的網(wǎng)址,站長通過搜索引擎網(wǎng)頁提交表格提交進來的網(wǎng)址 蜘蛛爬行的時候也會進行簡單的復制內(nèi)容檢測,如果遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時,很可能不再繼續(xù)爬行,這也是很多權(quán)重低的網(wǎng)站頁面更新的很多很快但卻沒有被收錄的原因之一。二、預(yù)處理 提取文字:搜索引擎預(yù)處理首先要做的就是從HTNL文件中去除標簽、程序,提取出
4、可以用于排名處理的網(wǎng)頁文字內(nèi)容(還包括META標簽中的文字、圖片替代文字、FLASH文件替代文字、鏈接錨點文字等)。 中文分詞:這一步在中文搜索引擎中才會用到。中文分詞一般分為兩類:字典匹配、基于統(tǒng)計。 字典匹配:將待分析的一段漢字與一個事先造好的詞典中的詞條進行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切分出一個單詞。 基于統(tǒng)計:分析大量文字樣本,計算出字與字相鄰出現(xiàn)的統(tǒng)計概率,幾個字相鄰出現(xiàn)越多,就越可能形成一個單詞。去停止詞:搜索引擎在索引頁面之前會去掉一些停止詞,如:“的”、“地”、“得”之類的助詞,“啊”、“哈”、“呀”之類的感嘆詞,“從而”、“以”、“卻”之類的
5、副詞或介詞。 消除噪聲:搜索引擎需要識別并消除噪聲,排名時不使用噪聲內(nèi)容,基本方法是根據(jù)HTML標簽對頁面分塊,區(qū)分出頁頭、正文、頁腳、廣告等區(qū)域,在網(wǎng)站上大量重復出現(xiàn)的區(qū)塊往往屬于噪聲,對頁面消噪后剩下的才是頁面的主體內(nèi)容。 去重:同一篇文章經(jīng)常重復出現(xiàn)在不同網(wǎng)站及同一個網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡則好重啊個重復性的內(nèi)容,搜索引擎希望只返回相容文章的一篇,所以在驚醒索引前還需要識別和刪除重復內(nèi)容,這個過程就成為“去重”。 正向索引:搜索引擎索引程序?qū)㈨撁婕瓣P(guān)鍵字形成詞表結(jié)構(gòu)存儲進索引庫,每個文件都對應(yīng)一個文件ID,文件內(nèi)容被表示為一串關(guān)鍵詞的組合。實際上在搜索引擎索引庫中,關(guān)鍵詞也已經(jīng)
6、轉(zhuǎn)換成為關(guān)鍵詞ID,這樣的數(shù)據(jù)結(jié)構(gòu)就稱為正向索引。倒排索引:搜索引擎將正向索引數(shù)據(jù)庫重新構(gòu)造為倒排索引,把文件對應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射。 鏈接關(guān)系計算:主要體現(xiàn)就是Google的PR值,搜狗的SR值等 特殊文件處理:搜索引擎有時也會抓取除HTML文件以外的文件,如:PDF、Word、WPS、XLS、PPT、TXT文件等三、排名搜索詞處理:中文分詞,去停止詞,指令處理(及分詞后的關(guān)鍵詞邏輯關(guān)系,通常是“與”邏輯),拼寫錯誤矯正,整合搜索觸發(fā)(某些搜索詞回觸發(fā)整合搜索,如明星姓名經(jīng)常會觸發(fā)圖片和視頻內(nèi)容)。 文件匹配:搜索詞經(jīng)過處理后,搜索引擎得到的是以詞為基礎(chǔ)的關(guān)鍵詞集合,文件
7、匹配階段就是找出含有所有關(guān)鍵詞的文件。 初始子集的選擇:經(jīng)過匹配后的文件經(jīng)常會有幾十萬幾百萬甚至上千萬,但搜索引擎只需要計算前1000個結(jié)果的相關(guān)性,就能滿足要求,這就依賴與頁面的相關(guān)性和頁面權(quán)重。 相關(guān)性計算:影響相關(guān)性的因素:關(guān)鍵詞常用程度,詞頻及密度,關(guān)鍵詞位置及形式(如標題標簽、黑體、H1等),關(guān)鍵詞距離,鏈接分析及頁面權(quán)重 排名過濾及調(diào)整:一些有作弊嫌疑的頁面,雖然按照正常的權(quán)重和相關(guān)性計算排到前面,但搜索引擎卻可能在最后把這些頁面調(diào)到后面去。 排名顯示:所有排名確定后,排名程序調(diào)用原始頁面的標題標簽、說明標簽、快照日期等數(shù)據(jù)顯示在頁面上。 搜索緩存:搜索引擎把最常見的搜索詞存入緩存,用戶搜索時直接從緩存中調(diào)用,從而不必經(jīng)過文件匹配和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 永磁同步電機復合滑模無位置傳感器控制研究
- 2025年環(huán)氧層壓板行業(yè)深度研究分析報告
- 中國兒童止咳藥市場全面調(diào)研及行業(yè)投資潛力預(yù)測報告
- 學生食品安全知識問答
- 文獻調(diào)研與綜述的方法和技巧
- 【可行性報告】2024年廢棄資源回收加工項目可行性研究分析報告
- 膏體液體灌裝機行業(yè)深度研究報告
- 2025-2030年中國智能微電網(wǎng)行業(yè)市場運營態(tài)勢及發(fā)展前景研判報告
- 中國墨斗行業(yè)市場調(diào)查研究及投資前景展望報告
- EPC工程總承包模式如何控制工程造價
- 教育信息化背景下的學術(shù)研究趨勢
- 人教版小學數(shù)學(2024)一年級下冊第五單元100以內(nèi)的筆算加、減法綜合素養(yǎng)測評 B卷(含答案)
- 2025江蘇常州溧陽市部分機關(guān)事業(yè)單位招聘編外人員78人歷年高頻重點提升(共500題)附帶答案詳解
- 2024年度體育賽事贊助合同:運動員代言與贊助權(quán)益2篇
- 智研咨詢發(fā)布:2024年中國新疫苗行業(yè)市場現(xiàn)狀、發(fā)展概況、未來前景分析報告
- 2025屆西藏林芝一中高三第二次診斷性檢測英語試卷含解析
- 中國傳統(tǒng)文化非遺文化中國剪紙介紹2
- 藥企銷售總經(jīng)理競聘
- 開封市第一屆職業(yè)技能大賽健康照護項目技術(shù)文件(國賽)
- 公路電子收費系統(tǒng)安裝合同范本
- 醫(yī)院培訓課件:《傷口評估與測量》
評論
0/150
提交評論