搜索引擎優(yōu)化技術培訓課件

上傳人：z*** IP屬地：貴州上傳時間：2023-01-01 格式：PPTX 頁數：120 大?。?.63MB 積分：25 舉報 版權申訴

已閱讀5頁，還剩115頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

搜索引擎技術介紹

屈波

2007年8月搜索引擎技術介紹

屈波

2007年8月目錄一、搜索引擎總體介紹二、爬蟲技術介紹三、中文分詞和排序算法介紹四、查詢/存儲技術、CacheServer介紹五、內部、外部監(jiān)控系統(tǒng)介紹六、移動通信運營商搜索引擎獨特優(yōu)勢目錄一、搜索引擎總體介紹一、搜索引擎總體介紹(一)搜索引擎定義

“搜索引擎”技術，完全來源于歷史悠久的全文檢索技術。 “搜索引擎”從字面上可拆分為“搜”、“索”、“引擎”三個含義。

“搜”就是大量信息的抓取，抓取回來后的信息進行智能提取、排重、質量分析等處理。

“索”就是大量處理后信息的存儲、信息排序、快速查詢等。

“引擎”就是指系統(tǒng)不但能存儲億級的數據，而且還能有巨大的并發(fā)處理能力，這樣的系統(tǒng)才有資格被叫著“引擎”。一、搜索引擎總體介紹(一)搜索引擎定義一、搜索引擎總體介紹(二)搜索引擎和移動搜索引擎

搜索引擎也可以看成為“專家系統(tǒng)”，通過把數百億互聯網網頁所提供的信息，作為其龐大的“知識庫”，通過用戶的輸入詞，找到相關信息。

從技術上來講，基于手機的移動搜索引擎，在其技術上和搜索引擎是完全一樣的。用戶查詢信息的媒體，由PC被手機替代，可以隨時隨地提供搜索服務，用戶更方便地進行信息查詢。并且，手機的用戶群體是遠大于PC用戶群體，所以，移動搜索引擎肯定是搜索引擎領域未來發(fā)展的重點和方向。

一、搜索引擎總體介紹(二)搜索引擎和移動搜索引擎一、搜索引擎總體介紹(三)搜索引擎主要核心技術：

搜索引擎主要核心技術為: (1)中英文分詞語言處理； (2)排序算法； (3)網絡爬蟲； (4)查詢/存儲技術

開發(fā)搜索引擎系統(tǒng)主要涉及到的具體技術為： (1)http網絡協(xié)議. (2)多線程技術. (3)socket通信. (4)高效服務端程序開發(fā).一、搜索引擎總體介紹(三)搜索引擎主要核心技術：一、搜索引擎總體介紹(四)系統(tǒng)圖：一、搜索引擎總體介紹(四)系統(tǒng)圖：一、搜索引擎總體介紹(五)全文檢索系統(tǒng)和搜索引擎關系：1、搜索引擎技術來源于全文檢索系統(tǒng),搜索引擎是全文檢索技術最重要的一個運用.2、搜索引擎在數據總量,最大并發(fā)處理能力,單次查詢速度方面,都遠遠強大于全文檢索系統(tǒng).3、搜索引擎為了最求最高的查詢速度，在搜索結果準確性及搜索結果重現方面,都弱于全文檢索系統(tǒng).一、搜索引擎總體介紹(五)全文檢索系統(tǒng)和搜索引擎關系：一、搜索引擎總體介紹(六)全文檢索系統(tǒng)和搜索引擎比較：類別全文檢索搜索引擎信息獲得信息獲得比較容易,被檢索內容基本上都是規(guī)范化信息.信息獲得困難,特別是信息提取的準確率受算法影響很大.信息總量支持的信息總量較少,搜索速度受信息總量增加而遞減.支持幾十億到幾百億的信息總量,搜索速度和信息總量基本無關.分詞技術分詞準確性較高,分詞速度中等,搜索結果比較滿意.詞庫更新慢.分詞速度極快,分詞準確性中等.新詞補充及時.存儲索引索引結果硬盤存儲,系統(tǒng)內存消耗較少,可和其他程序并存.索引結果,以內存存儲為主,硬盤存儲為輔,大多獨占操作系統(tǒng).搜索耗時搜索用時為秒級,只支持小用戶量并發(fā).搜索用時可達到毫秒級,擁有超強并發(fā)處理能力.搜索結果搜索結果準確,結果總數為實際數目,搜索結果能準確重現.結果不夠準確,只提供全部結果的前面部分,搜索結果不保證重現.系統(tǒng)規(guī)模系統(tǒng)簡單,服務器硬件投入較少,硬件管理比較輕松.系統(tǒng)龐大,服務器硬件投入巨大,幾百臺服務器到幾十萬臺服務器.一、搜索引擎總體介紹(六)全文檢索系統(tǒng)和搜索引擎比較：類別全二、爬蟲技術介紹(一)爬蟲技術總體介紹：

網絡爬蟲是一個自動提取網頁的程序，它為搜索引擎從Internet網上下載網頁，是搜索引擎的重要組成。網絡爬蟲使用多線程技術，讓爬蟲具備更強大的抓取能力。通過DNSCache技術，減少爬蟲對DNS的訪問頻率，避免DNS成為網絡瓶頸，提高抓取速度。

網絡爬蟲還要完成信息提取任務，對于抓取回來的網頁提取出來:新聞、電子圖書、行業(yè)信息等。對于MP3、圖片、Flash等各種不同內容，要實現自動識別、自動分類及相關屬性測試（例如：MP3文件要包含的文件大小，下載速度等屬性）。二、爬蟲技術介紹(一)爬蟲技術總體介紹：二、爬蟲技術介紹(二)抓取對象：

1.靜態(tài)網頁：爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。

2.動態(tài)網頁:分析動態(tài)網頁參數，按照一定規(guī)章，“拼”出所有要被抓取內容URL，只抓取這些特定范圍內動態(tài)網頁。 3.特殊內容：比如RSS、XML數據，情況特殊需特殊處理。如新聞的滾動新聞頁面，需要爬蟲不停地監(jiān)控掃描，發(fā)現新內容馬上就進行抓取。

4.文件對象：圖片，MP3、Flash、視頻等文件的抓取，都要特殊處理。比如說：圖片抓取出來后，要知道圖片文件類型、圖片文件的大小、圖片的像素大小，還要轉換出來縮略圖。二、爬蟲技術介紹(二)抓取對象：二、爬蟲技術介紹(三)抓取策略：

1.深度優(yōu)先策略：對于一些大網站及靜態(tài)網頁為主的抓取內容，采取深度策略抓取，便于在最短時間內獲得最大量內容。

2.廣度優(yōu)先策略:對于一些動態(tài)網頁或小網站，采取廣度策略抓取，同時對多個網站進行抓取，減小對各個小網站的壓力，避免造成惡意攻擊。

3.合作抓取策略:由被抓取網站，提供可被抓取內容的sitemap網站地圖，雙方協(xié)議好，只抓取這些特定內容，在抓取速度及時間上雙方前期進行協(xié)商。另外還可以完全由被抓取方，提供詳細內容，抓取過程都可以省略一些步驟。二、爬蟲技術介紹(三)抓取策略：二、爬蟲技術介紹(四)爬蟲程序介紹：1.單線程模型

URL任務列表互聯網DNSCacheDNS內容處理，分析出新的URL,URL檢查二、爬蟲技術介紹(四)爬蟲程序介紹：URL二、爬蟲技術介紹(四)爬蟲程序介紹：2.多線程模型（省略掉DNSCache部分）

URL任務列表互聯網......線程1臨界區(qū)線程2線程N二、爬蟲技術介紹(四)爬蟲程序介紹：URL二、爬蟲技術介紹(四)爬蟲程序介紹：3.爬蟲集群模型

URL任務列表互聯網......Spider管理器Spider1Spider2SpiderN二、爬蟲技術介紹(四)爬蟲程序介紹：URL二、爬蟲技術介紹(五)內容提?。?/p>

內容提取是《模式識別》學科范圍內容，對獲得的信息進行預處理后，按照特征值提前和選擇，最后進行內容的識別。內容提取的準確率受算法影響較大，尤其是新聞、圖片等內容。動態(tài)網頁比較容易的通過網頁比對，整理出其網頁設計模板，按照模板可以準確率較高的完成提取。

網頁內容的正確提取，對排序算法設計，也有非常重要的影響。判斷兩個內容是否相同的排重算法，一般按照貝葉斯決策理論進行處理，判斷兩個內容的相似度，最常用于相同新聞的判斷。信息獲得預處理特征值提取和選擇訓練過程分類器設計分類決策二、爬蟲技術介紹(五)內容提?。盒畔@得預處理特征值提取二、爬蟲技術介紹(五)內容提取：

因為目前WAP網頁數據總量過少，另外WAP網頁包含數據也過少，在基于WAP網頁的搜索引擎中，帶給用戶的信息總量過少，所以基于WAP內容的搜索發(fā)展緩慢。

對Web網頁內容如能進行提取出最關鍵內容，有一套高效的智能內容提取程序。在移動搜索引擎中，搜索內容為智能提取出來的Web網頁內容，這將大大加快移動搜索服務發(fā)展。 Web網頁內容的智能提取，屬于復雜數據類型挖掘，其程序算法難度非常大。

二、爬蟲技術介紹(五)內容提?。喝⒅形姆衷~和排序算法介紹(一)中文分詞：

自然語言理解和處理，是人工智能的重要的研究領域之一，是語言學、邏輯學、生理學、心理學、計算機科學和數學等相關學科發(fā)展和結合而形成的一門交叉學科。

分詞作為搜索引擎的一項核心功能，和存儲和查詢有重大關系。但是不同的研究角度，不同的研究方向，帶來研究重點和研究結果都是不一樣的。語言學方向研究的分詞算法，看重分詞的準確性，不看重運算速度；而搜索引擎的分次算法，特別看重分詞速度，分詞準確性中等。

語言詞匯語法詞熟語詞素詞法句法造句法詞組構造法構形法構詞法三、中文分詞和排序算法介紹(一)中文分詞：語言詞匯語法詞熟三、中文分詞和排序算法介紹(一)中文分詞：

以英文為代表的字母型文字，按照空格和標點符號比較容易實現分詞，而以中文為代表的東亞語系文字，在分詞方面，卻存在巨大的困難。據說百度（也包括北大天網）在早期時，所有的中文文字，全部拆分為一個個的單字，搜索效果比較差。但也有特殊效果，比如說：搜“我為秋香”，能夠搜到唐伯虎的著名藏頭文。

我康宣今年一十八歲，姑蘇人氏，身家清白，素無過犯。只

為家況清貧，鬻身華相府中，充當書僮。身價銀五十兩，自

秋節(jié)起，暫存帳房，俟三年后支取。從此承值書房，每日焚

香掃地，洗硯磨墨等事，聽憑使喚。從頭做起，立契為憑。三、中文分詞和排序算法介紹(一)中文分詞：三、中文分詞和排序算法介紹(一)中文分詞：

搜索引擎的中文分詞，在算法上有兩種，一個用于后臺索引處理，一個用于前端對搜索詞進行分詞處理。比如說：有一條紀錄內容為“中國人民解放軍”。

在構建后臺索引時，可分詞為：“中國人民解放軍”、“中國”、“人民”、“解放軍”、“中”、“國”、“人”、“民”、“解”、“放”、“軍”，對這11個字詞都要建立索引。這樣做的目的是為了，當搜索詞為上面這11種中任何一個時，都能在各自索引庫中找到“中國人民解放軍”這條紀錄。搜索詞為“中國人民解放軍”，在其前端的分詞處理，就只分詞為：“中國人民解放軍”或“中國+人民+解放軍”或“中國+人民解放軍”。

三、中文分詞和排序算法介紹(一)中文分詞：三、中文分詞和排序算法介紹(一)中文分詞：

因為中文本身存在著很大的歧義性，同樣一句話，不同的斷句，表達的意思就不一樣。這對于計算機去做機器分析，就帶來了巨大的困難。下面的中文斷句，來自百度廣告宣傳片: 「我知道你不知道我知道你不知道我知道你不知道」

「我知道，你不知道。我知道，你不知道我知道，你不知道」

「我知道你，不知道我。知道你不知道我，知道你不知道」

「我，知道你不知道我知道。你，不知道我知道你不知道」

三、中文分詞和排序算法介紹(一)中文分詞：三、中文分詞和排序算法介紹(一)中文分詞：

另外中文的具體含義，還必須放在具體的前后語言環(huán)境中去分析。比如說：

「乒乓球拍賣完了」我去學校商店，發(fā)現「乒乓球拍賣完了」在今天的慈善拍賣會上，世界冠軍們奪冠時的「乒乓球拍賣完了」

中文分詞，在具體的算法實現上分為三種： 1.字符串匹配(正序、逆序、最少切分、最大切分等) 2.基于理解（詞法，句法等方式處理） 3.基于統(tǒng)計在中文搜索引擎中，目前基本上是這三種算法混合使用。第二種的算法實現起來過于復雜，所以以第一種和第三種算法為主。三、中文分詞和排序算法介紹(一)中文分詞：三、中文分詞和排序算法介紹(一)中文分詞：

語言本身也是在不停的進化和發(fā)展的，新的詞語層出不窮，一些老的詞語漸漸被棄用。作為中文分詞的基礎詞庫，其新詞補充和老詞刪除就是非常重要的工作。 “超級女聲”、“超女”、“李宇春”、“八榮八恥”、“非典”，當這些新詞的出現時，搜索引擎需要快速捕捉到，并且馬上把其添加到分詞系統(tǒng)中去。

如何判斷那些詞是新詞，這就全部倚靠算法來實現。新詞捕捉主要來源于新聞和網絡BBS論壇，主要機制是依靠統(tǒng)計程序，統(tǒng)計上升速度最高的詞。另外作為搜索引擎公司，對眾多用戶的搜索詞進行“用戶行為”分析，也能提高其“新詞補充”效果。

三、中文分詞和排序算法介紹(一)中文分詞：三、中文分詞和排序算法介紹(二)排序算法：搜索引擎的排序算法（rankingalgorithm），決定了各個網頁、圖片、MP3等數據的重要性排列順序，也決定了最終用戶查詢到的數據排序。搜索引擎的排序算法是人工智能的完滿體現，它是對百億級數據進行重要性分析的數學實現。 “PageRank”是Google公司在排序算法上的專利技術，也是Google能從眾多搜索引擎公司中脫穎而出的最核心技術，作為其搜索服務能夠超過其他競爭對手最有力的武器。

不同搜索引擎公司排序算法的優(yōu)劣，直接決定了廣大搜索引擎用戶對搜索服務的選擇，在互聯網上，一個普通用戶更換搜索服務只需要5秒鐘，所以排序算法就成為了各個搜索引擎公司最核心機密。另外，每個搜索引擎公司也必須不停地改進其排序算法。三、中文分詞和排序算法介紹(二)排序算法：三、中文分詞和排序算法介紹(二)排序算法：

排序算法部分參考指標：指標加分減分網站硬件指標網站網絡好，系統(tǒng)穩(wěn)定網站系統(tǒng)不穩(wěn)定，網絡不好網站包含網頁數總網頁數目多總網頁數目少網頁大小網頁大小適中網頁多大或過小其他網頁鏈到本網頁數目多數目少網頁內URL數數目適中過多或過少網頁相關性URL連接網頁是相關內容URL連接網頁不是相關內容網頁更新/生成日期日期近的日期遠的網頁類型靜態(tài)網頁動態(tài)網頁網頁內樣式網頁設計樣式中等網頁設計樣式過于復雜或簡單網頁具體內容分詞后，各個詞權重總和高分詞后，各個詞權重總和低用戶訪問行為點擊多的網頁點擊少的網頁三、中文分詞和排序算法介紹(二)排序算法：指標加分減分網站硬三、中文分詞和排序算法介紹(二)排序算法：

排序算法雖然解決了網頁排序的問題，但是有時候有些搜索結果還是很難讓用戶滿意。為此，搜索引擎排序算法一項重要改進：“聚類”，就被引進來提高排序效果。 “聚類”方法，是把網頁分類成各種不同類型，比如說：分類為“體育”、“娛樂”、“軍事”、“旅游”、“金融”、“政治”、“汽車”、“房產”等。針對每一種分類，各自有一套專用的排序算法。

當查詢詞為“高爾夫”時，查詢結果為“體育”+“汽車”，排序算法為通用算法；但當查詢詞為“高爾夫伍茲”時，其分類就能確定為“體育”，其排序算法就采用“體育”類別的算法。三、中文分詞和排序算法介紹(二)排序算法：三、中文分詞和排序算法介紹三、中文分詞和排序算法介紹四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術：

存儲技術是搜索引擎在提供搜索服務時的關鍵技術，系統(tǒng)如何去存儲上百億的網頁數據，如何科學高效地提供搜索結果，這些都會影響用戶的“搜索用時”。

搜索引擎之所以能夠給同時給眾多用戶，在豪秒級的范圍內就能提供搜索結果，其技術秘密就是絕大部分查詢結果都是提前完成運算，搜索結果早已存儲在其服務器上。數據的存儲，當然會受硬件條件的影響，不能夠把所有數據都存儲在內存中，部分數據還需存儲在硬盤中，這其中就有個存儲策略。存儲網頁數據時，權值高的網頁數據存儲在內存，權值低的存儲在硬盤。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術：

搜索引擎的數據存儲主要分為兩部分：第一部分：網頁數據，包含：網頁編號、URL、標題、內容摘要、網頁大小等。

第二部分：詞庫索引數據，包含：中文詞庫中的字詞、英文單詞、每個字詞對應網頁編號隊列等。網頁編號是唯一編號，不得重復。查詢時，通過詞庫索引得到網頁編號，然后在網頁數據中，得到各自網頁的相關數據。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術：對于每一個網頁，包含：網頁編號、URL、標題、內容摘要、網頁大小等信息?？捎上旅娼Y構體來描述： (1)網頁編號 char16 (2)URL char256 (3)標題 char56 (4)內容摘要 char256 (5)網頁大小 char8

這樣一來，每個網頁數據的存儲大小為592字節(jié)。網頁數據的網頁編號是連續(xù)的，所以網頁數據的存儲也可以連續(xù)存儲。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術： “網頁數據”的存儲分為內存存儲和硬盤文件存儲兩種方式: (1)內存存儲方式時，因為每個網頁數據都是大小一樣的，再加上數據存儲是連續(xù)的，所以在查詢時，只要知道數據存儲的起始位置，就可直接算出網頁數據的開始及結束位置，從而獲得網頁數據信息。1G內存大概能存儲180萬條網頁信息（每條592字節(jié)）。 (2)硬盤文件方式存儲，把連續(xù)一定數量的網頁數據信息，寫入到一個文件中去，比如說10萬條存儲為一個文件，然后把全部硬盤存儲的網頁數據都存儲到硬盤文件系統(tǒng)中去。這樣一來，基于硬盤文件存儲的網頁數據在讀取時，就要先算出來網頁數據存儲在那個文件，然后打開文件讀去出來該網頁數據信息。硬盤文件方式存儲，也是全文檢索系統(tǒng)中最主要的存儲方式。內存存儲查詢速度快，但信息存儲總量有限；硬盤文件方式存儲查詢速度慢，高并發(fā)查詢時還容易造成硬件快速損耗，但存儲容量巨大。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術：

“詞庫索引數據”的存儲采用內存存儲方式: 對于每一篇網頁內容，采用存儲的分詞算法進行處理，分出來的詞為最多的分法，方便對各個相關字詞都能建立索引。所有的網頁內容都以按照排序算法從大到小的順序排列好，所以，每個字詞的網頁索引隊列也是按照排序算法從大到小的排列。詞庫中所有字詞，都是按照Hash分布來排列，便于查詢詞分詞后能夠快速找個各個詞庫中字詞對于的網頁結果ID隊列。

四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術：

搜索引擎常規(guī)存儲/查詢步驟如下： (1)對搜索詞進行分詞處理，看能分出來多少個字詞；舉例說明：

比如說用戶的搜索詞為“屈波搜索引擎”，系統(tǒng)在接到這個查詢語句后，對其進行查詢詞分詞處理，分詞后為“屈波”+“搜索引擎”。用戶查詢詞屈波搜索引擎屈波+搜索引擎查詢詞分詞后四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術：

搜索引擎常規(guī)存儲/查詢步驟如下： (2)通過Hash查找到步驟(1)中各個字詞的網頁ID隊列；舉例說明：系統(tǒng)得到“屈波”和“搜索引擎”各自的Hash值，比如說Hash值“屈波”為256，“搜索引擎”為1024，然后找到這兩個詞各自的網頁ID隊列，如下圖所示兩個隊列為“網頁ID隊列2”和“網頁ID隊列4”。屈波256256屈原…………屈波網頁ID序列1網頁ID序列2……搜索引擎10241024搜索搜索引擎網頁ID序列3網頁ID序列4…………四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術：

搜索引擎常規(guī)存儲/查詢步驟如下： (3)對步驟(2)中找到個各個網頁ID隊列做“與”、“或”、“非”的邏輯運算； (4)獲得最后的搜索結果網頁ID隊列。舉例說明： “屈波”和“搜索引擎”對應隊列為“網頁ID隊列2”和“網頁ID隊列4”，對這兩個隊列做“與”運算。

屈波網頁ID序列21,3,5,9,11搜索引擎網頁ID序列41,2,5,8,11與運算1,5,11網頁ID序列四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術：

搜索引擎常規(guī)存儲/查詢步驟如下： (5)完成分頁顯示處理，計算出最后要顯示的各個網頁ID隊列(互聯網搜索網頁時一般每頁顯示10條,所以,這個數目最多為10)，通過這些網頁ID，查找到相關的網頁結構體存儲內容，顯示搜索結果給用戶。舉例說明： “屈波”和“搜索引擎”是用戶查詢詞進行分詞出來的兩個詞，在具體的網頁標題和網頁內容摘要中，分別對這兩個詞做紅色醒目標記。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(二)CacheServer：

WebServer在接受到搜索請求后，對搜索結果完成查詢時分詞處理，然后向“索引服務器”發(fā)出查詢請求，

“索引服務器”返回結果；WebServer對結果進行必要處理，然后向“網頁內容”服務器通信，獲得各個網頁內容；最后WebServer給用戶顯示搜索結果。

WebServer索引服務器IndexServer網頁內容服務器PageContentServer用戶四、查詢/存儲技術、CacheServer介紹(二)Ca四、查詢/存儲技術、CacheServer介紹(二)CacheServer：

在對用戶行為進行分析后發(fā)現，非常多的查詢詞經常被用戶查詢，這些詞被稱為“搜索高頻詞”。為此，設計出來CacheServer(CS)用于存儲這些高頻詞的搜索結果，每當后臺系統(tǒng)更新后，這些高頻詞先進行查詢，然后把查詢結果放到CS中，從而減少系統(tǒng)后臺壓力。

WebServer用戶CS索引服務器IndexServer網頁內容服務器PageContentServer四、查詢/存儲技術、CacheServer介紹(二)Ca四、查詢/存儲技術、CacheServer介紹(二)CacheServer：

CS還可以部署在“索引服務器”、“網頁內容服務器”和WebServer之間，提高這兩個后臺服務器的效率。WebServerCSCS索引服務器IndexServer網頁內容服務器PageContentServer四、查詢/存儲技術、CacheServer介紹(二)Ca四、查詢/存儲技術、CacheServer介紹(二)CacheServer：

CS自我定期更新策略: CS在其設計中，重點考慮其攔截率，所以，CS的自我定期更新策略就特別重要。CS在其初始化階段，其存儲數據主要來源于原來的日志統(tǒng)計結果；在CS運行后，CS要實時監(jiān)控當前數據流，并定期進行自我更新，把那些沒有被訪問過或低訪問率的數據刪除，增加新增數據。

CS雖然可以提高數據訪問時的速度，但如果設計出來的CS命中率過低的話，對整個系統(tǒng)效率還反而帶來降低，所以CS不能濫用，要結合系統(tǒng)實際負荷來設計和部署CS系統(tǒng)。

四、查詢/存儲技術、CacheServer介紹(二)Ca五、內部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹：

以數據庫為核心存儲的系統(tǒng)，所有數據存儲任務基本上都由數據庫來承擔，軟件系統(tǒng)的穩(wěn)定性很高，對硬件設備的穩(wěn)定性要求也高，為滿足高用戶并發(fā)量，硬件投入成本驚人。搜索引擎系統(tǒng)的數據存儲，都由自己開發(fā)的存儲技術來存儲，并且很多數據都存儲于內存中，存儲系統(tǒng)相對硬盤存儲為主的數據庫系統(tǒng)而言比較脆弱。正因為如此搜索引擎更多依靠軟件設計來提高系統(tǒng)的穩(wěn)定性，硬件系統(tǒng)多采用穩(wěn)定性較差的相對廉價硬件，通過數量來保證質量，而不是依靠穩(wěn)定性高價格昂貴的硬件設備。

引入了多重的“內部備份系統(tǒng)”，搜索引擎系統(tǒng)就比傳統(tǒng)的其他互聯網、銀行、電信等系統(tǒng)，要龐大和復雜很多，這也帶來了監(jiān)控工作的巨大困難。五、內部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹：

以Google為例，它在全球建立了幾十個數據中心，每個數據中心運行上萬臺服務器，目前它在全球有幾十萬臺服務器，因此它的搜索服務能夠減少地震、火災等自然災害的影響。2006年底，中國因為海底光纖損壞，眾多互聯網服務都受到影響，而Google在中國的服務，沒受到影響，就是因為其遍布全球的數據中心和災難應急處理對策。五、內部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹：

負載平衡一直是搜索引擎系統(tǒng)中最關鍵的技術，通過一整套的“負載平衡”軟、硬件解決方案，來確保整個搜索引擎系統(tǒng)的穩(wěn)定性及可靠性，才能給眾多用戶提供7X24小時的優(yōu)質搜索服務。 WebServer用戶IndexServer1提供服務中…PageContentServer1提供服務中…IndexServer2提供服務中…PageContentServer2提供服務中…IndexServer3準備提供服務中…IndexServer4數據更新過程中……………五、內部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹：W五、內部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹：

搜索引擎系統(tǒng)的監(jiān)控系統(tǒng)，分為內部和外部兩部分。

(1)內部監(jiān)控系統(tǒng)：內部監(jiān)控系統(tǒng)，以監(jiān)控服務器硬件運行狀況、網絡通信設備是否暢通、服務器上各個程序是否運行正常為主，屬于微觀監(jiān)控系統(tǒng)。 (2)外部監(jiān)控系統(tǒng)：外部監(jiān)控系統(tǒng)，監(jiān)控網頁、新聞、圖片、MP3等搜索服務是否運行正常、是否存在大規(guī)模惡意攻擊、各個地區(qū)的總訪問量的變化趨勢等，屬于宏觀監(jiān)控系統(tǒng)。五、內部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：內部監(jiān)控程序管理服務器系統(tǒng)，也可叫為整個搜索引擎的“內部管理系統(tǒng)”，算是整個搜索引擎的中樞神經，它要實現自己管理、自我應急處理、自我災難恢復等多種任務。內部監(jiān)控系統(tǒng)的核心，是一個個運行在每個服務器上的監(jiān)控程序，這些程序常被叫為“心跳程序”或“脈沖程序”。這些程序按照一定周期向設定好的監(jiān)控程序管理服務器程序，發(fā)送該臺服務器及服務器上程序的運行狀況，它們的工作原理和木馬程序有些類似。

監(jiān)控程序管理服務器程序，收集各個服務器上監(jiān)控程序返回數據，了解各個服務器硬件運行情況，了解及各個服務程序的運行情況。當一個程序或服務器硬件出現問題時，監(jiān)控程序管理服務器程序要做出必要的反應，修改搜索引擎各個程序之間的內部通信規(guī)則，換上備用系統(tǒng)或調整負載平衡規(guī)則，從而保證搜索服務不受到影響。

五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：舉例說明內部監(jiān)控系統(tǒng)運行原理：如下圖所示，舉例IndexServer、WebServer、內部監(jiān)控程序Monitor和內部監(jiān)控程序管理服務器程序MonitorServer它們之間處理危機時的流程。 IS：IndexServer，MS:MonitorServer，WS:WebServer。

WSMonitor4IS1Monitor1提供服務中…MSIS2Monitor2提供服務中…IS3Monitor3準備提供服務中…用戶五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：舉例說明內部監(jiān)控系統(tǒng)運行原理： (1)IS2出現問題，不能繼續(xù)提供服務，Monitor2發(fā)現錯誤及時向MS發(fā)出錯誤報告。

WSMonitor4IS1Monitor1提供服務中…

MSIS2

Monitor2提供服務中…IS3Monitor3準備提供服務中…用戶五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：舉例說明內部監(jiān)控系統(tǒng)運行原理： (2)MS接收到Monitor2發(fā)來的錯誤報告后，向WS發(fā)出修改內部通信規(guī)則，刪除WS和IS2的通信，增加WS和IS3的通信。

WSMonitor4IS1Monitor1提供服務中…

MSIS2Monitor2提供服務中…IS3Monitor3準備提供服務中…用戶五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：舉例說明內部監(jiān)控系統(tǒng)運行原理： (3)WS中斷和IS2的通信，增加和IS3的通信。

WSMonitor4IS1Monitor1提供服務中…MSIS2Monitor2停止服務中…IS3Monitor3提供服務中…用戶五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：舉例說明內部監(jiān)控系統(tǒng)運行原理： (4)MS向IS2發(fā)出服務恢復服務，IS2服務自動恢復。 WSMonitor4IS1Monitor1提供服務中…

MSIS2Monitor2程序服務恢復中…IS3Monitor3提供服務中…用戶五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：舉例說明內部監(jiān)控系統(tǒng)運行原理： (5)IS2服務完成恢復，Monitor2向MS匯報服務恢復成功，MS紀錄下IS2的目前狀態(tài)，IS2成為服務備份程序。 WSMonitor4IS1Monitor1提供服務中…

MSIS2Monitor2準備提供服務中…IS3Monitor3提供服務中…用戶五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：舉例說明內部監(jiān)控系統(tǒng)運行原理：總結：在整個的災難處理過程中，完成了負載平衡策略從原來的IS1和IS2同時提供服務，轉變?yōu)镮S1和IS3同時提供服務，對用戶的搜索服務訪問的影響降到最低。 WSMonitor4IS1Monitor1提供服務中…MSIS2Monitor2準備提供服務中…IS3Monitor3提供服務中…用戶五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

(三)外部監(jiān)控系統(tǒng)介紹：內部監(jiān)控系統(tǒng)，可以說成搜索引擎系統(tǒng)的內部管理系統(tǒng)，自動化程度非常高，和搜索服務緊密相關。

作為宏觀監(jiān)控的外部監(jiān)控系統(tǒng)，自動化程度就內有內部監(jiān)控系統(tǒng)那么高，它更多的時候是給值班員提出預警或出現問題時提供找到問題的方便。它會從宏觀層面上分析出用戶的各種群體行為，比如說：那個地區(qū)的用戶最多、各個時段的用戶訪問量、那些是新詞成為搜索熱點、各種廣告的推廣情況反饋等。外部監(jiān)控系統(tǒng)更多的，是和搜索引擎公司的商業(yè)行為有關，和其商業(yè)策略有直接關系。五、內部、外部監(jiān)控系統(tǒng)介紹

(三)外部監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

(三)外部監(jiān)控系統(tǒng)介紹：以右圖Google公布的各種搜索服務訪問量為例，這種數據估計都是其外部監(jiān)控系統(tǒng)完成的統(tǒng)計數據。

Google訪問量最大的還是其網頁搜索服務，那整個的內部軟硬件資源，就應該以網頁搜索服務為主來安排硬件資源及網絡帶寬。外部監(jiān)控系統(tǒng)在發(fā)現其他服務流量有變化趨勢時，也會提出預警，提前通知相關人員做好硬件及網絡準備。

五、內部、外部監(jiān)控系統(tǒng)介紹

(三)外部監(jiān)控系統(tǒng)介紹：六、移動通信運營商搜索引擎獨特優(yōu)勢擁有眾多的用戶和非常高的粘合度擁有地域搜索優(yōu)勢擁有用戶識別優(yōu)勢擁有多種搜索引擎接口優(yōu)勢擁有完善的計費/收費渠道六、移動通信運營商搜索引擎獨特優(yōu)勢擁有眾多的用戶和非常高的粘六、移動通信運營商搜索引擎獨特優(yōu)勢擁有眾多的用戶和非常高的粘合度例如:中國移動目前擁有3億多用戶，夢網“掌上營業(yè)廳”等功能都無其他替代物，擁有非常高的用戶粘合度。

而作為互聯網搜索引擎，用戶更換一個搜索引擎，只需要5秒鐘。六、移動通信運營商搜索引擎獨特優(yōu)勢擁有眾多的用戶和非常高的粘六、移動通信運營商搜索引擎獨特優(yōu)勢擁有地域搜索優(yōu)勢通過手機號段，可以粗略定位用戶所在城市；通過調用手機地圖的位置服務，可以精確定位用戶位置。移動通信運營商在地域搜索方面的優(yōu)勢，是互聯網搜索引擎公司所不能擁有的。結合當地各種商業(yè)、行業(yè)等信息，可以做出很多地域搜索及推展各項電子商務服務。六、移動通信運營商搜索引擎獨特優(yōu)勢擁有地域搜索優(yōu)勢六、移動通信運營商搜索引擎獨特優(yōu)勢擁有用戶識別優(yōu)勢

互聯網搜索引擎只能通過電腦IP及cookie等方式來識別用戶，但是多人共用一臺電腦上網非常多，比如網吧和學校，互聯網搜索引擎很難識別到具體用戶。

移動通信運營商可以通過用戶的手機號作為唯一標識來識別，還能過獲得用戶的話費額度來判斷用戶的消費層次，通過用戶的搜索查詢詞記錄分析來判斷用戶的興趣愛好。

移動通信運營商的搜索引擎能夠做到精確的用戶識別，這比互聯網搜索引擎依靠“聚類”算法，來改進搜索結果的效果要好很多。六、移動通信運營商搜索引擎獨特優(yōu)勢擁有用戶識別優(yōu)勢六、移動通信運營商搜索引擎獨特優(yōu)勢六、移動通信運營商搜索引擎獨特優(yōu)勢六、移動通信運營商搜索引擎獨特優(yōu)勢擁有完善的計費/收費渠道

互聯網搜索引擎公司的收入，目前收入主要依靠廣告收入，除了常規(guī)廣告外，還有固定排名和滾動排名兩種廣告收入模式。而這些廣告收入的來源，也都主要來源于其代理商，收入模式相對單一。而移動通信運營商，無論是對使用搜索服務的用戶計費，還是依靠廣告收入，或者是由移動搜索引擎展開的各種電子商務收入，移動通信運營商都擁有完善的計費/收費渠道。對于移動通信運營商，數據業(yè)務是現在和未來的一個重點發(fā)展方向，通過移動搜索引擎服務的展開，將要大大地推動數據業(yè)務的發(fā)展。六、移動通信運營商搜索引擎獨特優(yōu)勢擁有完善的計費/收費渠道演講完畢，謝謝觀看！演講完畢，謝謝觀看！搜索引擎技術介紹

屈波

2007年8月搜索引擎技術介紹

屈波

“搜索引擎”技術，完全來源于歷史悠久的全文檢索技術。 “搜索引擎”從字面上可拆分為“搜”、“索”、“引擎”三個含義。

“搜”就是大量信息的抓取，抓取回來后的信息進行智能提取、排重、質量分析等處理。

“索”就是大量處理后信息的存儲、信息排序、快速查詢等。

搜索引擎也可以看成為“專家系統(tǒng)”，通過把數百億互聯網網頁所提供的信息，作為其龐大的“知識庫”，通過用戶的輸入詞，找到相關信息。

一、搜索引擎總體介紹(二)搜索引擎和移動搜索引擎一、搜索引擎總體介紹(三)搜索引擎主要核心技術：

搜索引擎主要核心技術為: (1)中英文分詞語言處理； (2)排序算法； (3)網絡爬蟲； (4)查詢/存儲技術

1.深度優(yōu)先策略：對于一些大網站及靜態(tài)網頁為主的抓取內容，采取深度策略抓取，便于在最短時間內獲得最大量內容。

2.廣度優(yōu)先策略:對于一些動態(tài)網頁或小網站，采取廣度策略抓取，同時對多個網站進行抓取，減小對各個小網站的壓力，避免造成惡意攻擊。

URL任務列表互聯網......線程1臨界區(qū)線程2線程N二、爬蟲技術介紹(四)爬蟲程序介紹：URL二、爬蟲技術介紹(四)爬蟲程序介紹：3.爬蟲集群模型

URL任務列表互聯網......Spider管理器Spider1Spider2SpiderN二、爬蟲技術介紹(四)爬蟲程序介紹：URL二、爬蟲技術介紹(五)內容提取：

網頁內容的正確提取，對排序算法設計，也有非常重要的影響。判斷兩個內容是否相同的排重算法，一般按照貝葉斯決策理論進行處理，判斷兩個內容的相似度，最常用于相同新聞的判斷。信息獲得預處理特征值提取和選擇訓練過程分類器設計分類決策二、爬蟲技術介紹(五)內容提取：信息獲得預處理特征值提取二、爬蟲技術介紹(五)內容提取：

二、爬蟲技術介紹(五)內容提?。喝⒅形姆衷~和排序算法介紹(一)中文分詞：

我康宣今年一十八歲，姑蘇人氏，身家清白，素無過犯。只

為家況清貧，鬻身華相府中，充當書僮。身價銀五十兩，自

秋節(jié)起，暫存帳房，俟三年后支取。從此承值書房，每日焚

香掃地，洗硯磨墨等事，聽憑使喚。從頭做起，立契為憑。三、中文分詞和排序算法介紹(一)中文分詞：三、中文分詞和排序算法介紹(一)中文分詞：

三、中文分詞和排序算法介紹(一)中文分詞：三、中文分詞和排序算法介紹(一)中文分詞：

「我知道，你不知道。我知道，你不知道我知道，你不知道」

「我知道你，不知道我。知道你不知道我，知道你不知道」

「我，知道你不知道我知道。你，不知道我知道你不知道」

三、中文分詞和排序算法介紹(一)中文分詞：三、中文分詞和排序算法介紹(一)中文分詞：

另外中文的具體含義，還必須放在具體的前后語言環(huán)境中去分析。比如說：

「乒乓球拍賣完了」我去學校商店，發(fā)現「乒乓球拍賣完了」在今天的慈善拍賣會上，世界冠軍們奪冠時的「乒乓球拍賣完了」

搜索引擎的數據存儲主要分為兩部分：第一部分：網頁數據，包含：網頁編號、URL、標題、內容摘要、網頁大小等。

四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術：

搜索引擎常規(guī)存儲/查詢步驟如下： (1)對搜索詞進行分詞處理，看能分出來多少個字詞；舉例說明：

WebServer在接受到搜索請求后，對搜索結果完成查詢時分詞處理，然后向“索引服務器”發(fā)出查詢請求，

“索引服務器”返回結果；WebServer對結果進行必要處理，然后向“網頁內容”服務器通信，獲得各個網頁內容；最后WebServer給用戶顯示搜索結果。

WebServer索引服務器IndexServer網頁內容服務器PageContentServer用戶四、查詢/存儲技術、CacheServer介紹(二)Ca四、查詢/存儲技術、CacheServer介紹(二)CacheServer：

WebServer用戶CS索引服務器IndexServer網頁內容服務器PageContentServer四、查詢/存儲技術、CacheServer介紹(二)Ca四、查詢/存儲技術、CacheServer介紹(二)CacheServer：

四、查詢/存儲技術、CacheServer介紹(二)Ca五、內部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹：

(一)監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹：

(一)監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹：

(一)監(jiān)控系統(tǒng)介紹：W五、內部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹：

搜索引擎系統(tǒng)的監(jiān)控系統(tǒng)，分為內部和外部兩部分。

(一)監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

WSMonitor4IS1Monitor1提供服務中…MSIS2Monitor2提供服務中…IS3Monitor3準備提供服務中…用戶五、內部、外部監(jiān)控系統(tǒng)介紹

(二)內部監(jiān)控系統(tǒng)介紹：五、內部、外部監(jiān)控系統(tǒng)介紹

WSMonitor

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

搜索引擎優(yōu)化技術培訓課件

文檔簡介

溫馨提示

最新文檔

評論

搜索引擎優(yōu)化技術培訓課件

文檔簡介

溫馨提示

最新文檔

評論

相關文檔