搜索引擎優(yōu)化技術培訓課件_第1頁
搜索引擎優(yōu)化技術培訓課件_第2頁
搜索引擎優(yōu)化技術培訓課件_第3頁
搜索引擎優(yōu)化技術培訓課件_第4頁
搜索引擎優(yōu)化技術培訓課件_第5頁
已閱讀5頁,還剩115頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

搜索引擎技術介紹

屈波

2007年8月搜索引擎技術介紹

屈波

2007年8月目錄一、搜索引擎總體介紹二、爬蟲技術介紹三、中文分詞和排序算法介紹四、查詢/存儲技術、CacheServer介紹五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹六、移動通信運營商搜索引擎獨特優(yōu)勢目錄一、搜索引擎總體介紹一、搜索引擎總體介紹(一)搜索引擎定義

“搜索引擎”技術,完全來源于歷史悠久的全文檢索技術。 “搜索引擎”從字面上可拆分為“搜”、“索”、“引擎”三個含義。

“搜”就是大量信息的抓取,抓取回來后的信息進行智能提取、排重、質(zhì)量分析等處理。

“索”就是大量處理后信息的存儲、信息排序、快速查詢等。

“引擎”就是指系統(tǒng)不但能存儲億級的數(shù)據(jù),而且還能有巨大的并發(fā)處理能力,這樣的系統(tǒng)才有資格被叫著“引擎”。一、搜索引擎總體介紹(一)搜索引擎定義一、搜索引擎總體介紹(二)搜索引擎和移動搜索引擎

搜索引擎也可以看成為“專家系統(tǒng)”,通過把數(shù)百億互聯(lián)網(wǎng)網(wǎng)頁所提供的信息,作為其龐大的“知識庫”,通過用戶的輸入詞,找到相關信息。

從技術上來講,基于手機的移動搜索引擎,在其技術上和搜索引擎是完全一樣的。 用戶查詢信息的媒體,由PC被手機替代,可以隨時隨地提供搜索服務,用戶更方便地進行信息查詢。并且,手機的用戶群體是遠大于PC用戶群體,所以,移動搜索引擎肯定是搜索引擎領域未來發(fā)展的重點和方向。

一、搜索引擎總體介紹(二)搜索引擎和移動搜索引擎一、搜索引擎總體介紹(三)搜索引擎主要核心技術:

搜索引擎主要核心技術為: (1)中英文分詞語言處理; (2)排序算法; (3)網(wǎng)絡爬蟲; (4)查詢/存儲技術

開發(fā)搜索引擎系統(tǒng)主要涉及到的具體技術為: (1)http網(wǎng)絡協(xié)議. (2)多線程技術. (3)socket通信. (4)高效服務端程序開發(fā).一、搜索引擎總體介紹(三)搜索引擎主要核心技術:一、搜索引擎總體介紹(四)系統(tǒng)圖:一、搜索引擎總體介紹(四)系統(tǒng)圖:一、搜索引擎總體介紹(五)全文檢索系統(tǒng)和搜索引擎關系:1、搜索引擎技術來源于全文檢索系統(tǒng),搜索引擎是全文檢索技術最重要的一個運用.2、搜索引擎在數(shù)據(jù)總量,最大并發(fā)處理能力,單次查詢速度方面,都遠遠強大于全文檢索系統(tǒng).3、搜索引擎為了最求最高的查詢速度,在搜索結果準確性及搜索結果重現(xiàn)方面,都弱于全文檢索系統(tǒng).一、搜索引擎總體介紹(五)全文檢索系統(tǒng)和搜索引擎關系:一、搜索引擎總體介紹(六)全文檢索系統(tǒng)和搜索引擎比較:類別全文檢索搜索引擎信息獲得信息獲得比較容易,被檢索內(nèi)容基本上都是規(guī)范化信息.信息獲得困難,特別是信息提取的準確率受算法影響很大.信息總量支持的信息總量較少,搜索速度受信息總量增加而遞減.支持幾十億到幾百億的信息總量,搜索速度和信息總量基本無關.分詞技術分詞準確性較高,分詞速度中等,搜索結果比較滿意.詞庫更新慢.分詞速度極快,分詞準確性中等.新詞補充及時.存儲索引索引結果硬盤存儲,系統(tǒng)內(nèi)存消耗較少,可和其他程序并存.索引結果,以內(nèi)存存儲為主,硬盤存儲為輔,大多獨占操作系統(tǒng).搜索耗時搜索用時為秒級,只支持小用戶量并發(fā).搜索用時可達到毫秒級,擁有超強并發(fā)處理能力.搜索結果搜索結果準確,結果總數(shù)為實際數(shù)目,搜索結果能準確重現(xiàn).結果不夠準確,只提供全部結果的前面部分,搜索結果不保證重現(xiàn).系統(tǒng)規(guī)模系統(tǒng)簡單,服務器硬件投入較少,硬件管理比較輕松.系統(tǒng)龐大,服務器硬件投入巨大,幾百臺服務器到幾十萬臺服務器.一、搜索引擎總體介紹(六)全文檢索系統(tǒng)和搜索引擎比較:類別全二、爬蟲技術介紹(一)爬蟲技術總體介紹:

網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。 網(wǎng)絡爬蟲使用多線程技術,讓爬蟲具備更強大的抓取能力。通過DNSCache技術,減少爬蟲對DNS的訪問頻率,避免DNS成為網(wǎng)絡瓶頸,提高抓取速度。

網(wǎng)絡爬蟲還要完成信息提取任務,對于抓取回來的網(wǎng)頁提取出來:新聞、電子圖書、行業(yè)信息等。對于MP3、圖片、Flash等各種不同內(nèi)容,要實現(xiàn)自動識別、自動分類及相關屬性測試(例如:MP3文件要包含的文件大小,下載速度等屬性)。二、爬蟲技術介紹(一)爬蟲技術總體介紹:二、爬蟲技術介紹(二)抓取對象:

1.靜態(tài)網(wǎng)頁:爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。

2.動態(tài)網(wǎng)頁:分析動態(tài)網(wǎng)頁參數(shù),按照一定規(guī)章,“拼”出所有要被抓取內(nèi)容URL,只抓取這些特定范圍內(nèi)動態(tài)網(wǎng)頁。 3.特殊內(nèi)容:比如RSS、XML數(shù)據(jù),情況特殊需特殊處理。如新聞的滾動新聞頁面,需要爬蟲不停地監(jiān)控掃描,發(fā)現(xiàn)新內(nèi)容馬上就進行抓取。

4.文件對象:圖片,MP3、Flash、視頻等文件的抓取,都要特殊處理。比如說:圖片抓取出來后,要知道圖片文件類型、圖片文件的大小、圖片的像素大小,還要轉換出來縮略圖。二、爬蟲技術介紹(二)抓取對象:二、爬蟲技術介紹(三)抓取策略:

1.深度優(yōu)先策略:對于一些大網(wǎng)站及靜態(tài)網(wǎng)頁為主的抓取內(nèi)容,采取深度策略抓取,便于在最短時間內(nèi)獲得最大量內(nèi)容。

2.廣度優(yōu)先策略:對于一些動態(tài)網(wǎng)頁或小網(wǎng)站,采取廣度策略抓取,同時對多個網(wǎng)站進行抓取,減小對各個小網(wǎng)站的壓力,避免造成惡意攻擊。

3.合作抓取策略:由被抓取網(wǎng)站,提供可被抓取內(nèi)容的sitemap網(wǎng)站地圖,雙方協(xié)議好,只抓取這些特定內(nèi)容,在抓取速度及時間上雙方前期進行協(xié)商。另外還可以完全由被抓取方,提供詳細內(nèi)容,抓取過程都可以省略一些步驟。二、爬蟲技術介紹(三)抓取策略:二、爬蟲技術介紹(四)爬蟲程序介紹:1.單線程模型

URL任務列表互聯(lián)網(wǎng)DNSCacheDNS內(nèi)容處理,分析出新的URL,URL檢查二、爬蟲技術介紹(四)爬蟲程序介紹:URL二、爬蟲技術介紹(四)爬蟲程序介紹:2.多線程模型(省略掉DNSCache部分)

URL任務列表互聯(lián)網(wǎng)......線程1臨界區(qū)線程2線程N二、爬蟲技術介紹(四)爬蟲程序介紹:URL二、爬蟲技術介紹(四)爬蟲程序介紹:3.爬蟲集群模型

URL任務列表互聯(lián)網(wǎng)......Spider管理器Spider1Spider2SpiderN二、爬蟲技術介紹(四)爬蟲程序介紹:URL二、爬蟲技術介紹(五)內(nèi)容提?。?/p>

內(nèi)容提取是《模式識別》學科范圍內(nèi)容,對獲得的信息進行預處理后,按照特征值提前和選擇,最后進行內(nèi)容的識別。內(nèi)容提取的準確率受算法影響較大,尤其是新聞、圖片等內(nèi)容。動態(tài)網(wǎng)頁比較容易的通過網(wǎng)頁比對,整理出其網(wǎng)頁設計模板,按照模板可以準確率較高的完成提取。

網(wǎng)頁內(nèi)容的正確提取,對排序算法設計,也有非常重要的影響。 判斷兩個內(nèi)容是否相同的排重算法,一般按照貝葉斯決策理論進行處理,判斷兩個內(nèi)容的相似度,最常用于相同新聞的判斷。信息獲得預處理特征值提取和選擇訓練過程分類器設計分類決策二、爬蟲技術介紹(五)內(nèi)容提?。盒畔@得預處理特征值提取二、爬蟲技術介紹(五)內(nèi)容提?。?/p>

因為目前WAP網(wǎng)頁數(shù)據(jù)總量過少,另外WAP網(wǎng)頁包含數(shù)據(jù)也過少,在基于WAP網(wǎng)頁的搜索引擎中,帶給用戶的信息總量過少,所以基于WAP內(nèi)容的搜索發(fā)展緩慢。

對Web網(wǎng)頁內(nèi)容如能進行提取出最關鍵內(nèi)容,有一套高效的智能內(nèi)容提取程序。在移動搜索引擎中,搜索內(nèi)容為智能提取出來的Web網(wǎng)頁內(nèi)容,這將大大加快移動搜索服務發(fā)展。 Web網(wǎng)頁內(nèi)容的智能提取,屬于復雜數(shù)據(jù)類型挖掘,其程序算法難度非常大。

二、爬蟲技術介紹(五)內(nèi)容提?。喝?、中文分詞和排序算法介紹(一)中文分詞:

自然語言理解和處理,是人工智能的重要的研究領域之一,是語言學、邏輯學、生理學、心理學、計算機科學和數(shù)學等相關學科發(fā)展和結合而形成的一門交叉學科。

分詞作為搜索引擎的一項核心功能,和存儲和查詢有重大關系。但是不同的研究角度,不同的研究方向,帶來研究重點和研究結果都是不一樣的。 語言學方向研究的分詞算法,看重分詞的準確性,不看重運算速度;而搜索引擎的分次算法,特別看重分詞速度,分詞準確性中等。

語言詞匯語法詞熟語詞素詞法句法造句法詞組構造法構形法構詞法三、中文分詞和排序算法介紹(一)中文分詞:語言詞匯語法詞熟三、中文分詞和排序算法介紹(一)中文分詞:

以英文為代表的字母型文字,按照空格和標點符號比較容易實現(xiàn)分詞,而以中文為代表的東亞語系文字,在分詞方面,卻存在巨大的困難。 據(jù)說百度(也包括北大天網(wǎng))在早期時,所有的中文文字,全部拆分為一個個的單字,搜索效果比較差。但也有特殊效果,比如說:搜“我為秋香”,能夠搜到唐伯虎的著名藏頭文。

我康宣今年一十八歲,姑蘇人氏,身家清白,素無過犯。只

為家況清貧,鬻身華相府中,充當書僮。身價銀五十兩,自

秋節(jié)起,暫存帳房,俟三年后支取。從此承值書房,每日焚

香掃地,洗硯磨墨等事,聽憑使喚。從頭做起,立契為憑。三、中文分詞和排序算法介紹(一)中文分詞:三、中文分詞和排序算法介紹(一)中文分詞:

搜索引擎的中文分詞,在算法上有兩種,一個用于后臺索引處理,一個用于前端對搜索詞進行分詞處理。 比如說:有一條紀錄內(nèi)容為“中國人民解放軍”。

在構建后臺索引時,可分詞為:“中國人民解放軍”、“中國”、“人民”、“解放軍”、“中”、“國”、“人”、“民”、“解”、“放”、“軍”,對這11個字詞都要建立索引。這樣做的目的是為了,當搜索詞為上面這11種中任何一個時,都能在各自索引庫中找到“中國人民解放軍”這條紀錄。 搜索詞為“中國人民解放軍”,在其前端的分詞處理,就只分詞為:“中國人民解放軍”或“中國+人民+解放軍”或“中國+人民解放軍”。

三、中文分詞和排序算法介紹(一)中文分詞:三、中文分詞和排序算法介紹(一)中文分詞:

因為中文本身存在著很大的歧義性,同樣一句話,不同的斷句,表達的意思就不一樣。這對于計算機去做機器分析,就帶來了巨大的困難。 下面的中文斷句,來自百度廣告宣傳片: 「我知道你不知道我知道你不知道我知道你不知道」

「我知道,你不知道。我知道,你不知道我知道,你不知道」

「我知道你,不知道我。知道你不知道我,知道你不知道」

「我,知道你不知道我知道。你,不知道我知道你不知道」

三、中文分詞和排序算法介紹(一)中文分詞:三、中文分詞和排序算法介紹(一)中文分詞:

另外中文的具體含義,還必須放在具體的前后語言環(huán)境中去分析。 比如說:

「乒乓球拍賣完了」 我去學校商店,發(fā)現(xiàn)「乒乓球拍賣完了」 在今天的慈善拍賣會上,世界冠軍們奪冠時的「乒乓球拍賣完了」

中文分詞,在具體的算法實現(xiàn)上分為三種: 1.字符串匹配(正序、逆序、最少切分、最大切分等) 2.基于理解(詞法,句法等方式處理) 3.基于統(tǒng)計 在中文搜索引擎中,目前基本上是這三種算法混合使用。第二種的算法實現(xiàn)起來過于復雜,所以以第一種和第三種算法為主。三、中文分詞和排序算法介紹(一)中文分詞:三、中文分詞和排序算法介紹(一)中文分詞:

語言本身也是在不停的進化和發(fā)展的,新的詞語層出不窮,一些老的詞語漸漸被棄用。作為中文分詞的基礎詞庫,其新詞補充和老詞刪除就是非常重要的工作。 “超級女聲”、“超女”、“李宇春”、“八榮八恥”、“非典”,當這些新詞的出現(xiàn)時,搜索引擎需要快速捕捉到,并且馬上把其添加到分詞系統(tǒng)中去。

如何判斷那些詞是新詞,這就全部倚靠算法來實現(xiàn)。新詞捕捉主要來源于新聞和網(wǎng)絡BBS論壇,主要機制是依靠統(tǒng)計程序,統(tǒng)計上升速度最高的詞。另外作為搜索引擎公司,對眾多用戶的搜索詞進行“用戶行為”分析,也能提高其“新詞補充”效果。

三、中文分詞和排序算法介紹(一)中文分詞:三、中文分詞和排序算法介紹(二)排序算法: 搜索引擎的排序算法(rankingalgorithm),決定了各個網(wǎng)頁、圖片、MP3等數(shù)據(jù)的重要性排列順序,也決定了最終用戶查詢到的數(shù)據(jù)排序。搜索引擎的排序算法是人工智能的完滿體現(xiàn),它是對百億級數(shù)據(jù)進行重要性分析的數(shù)學實現(xiàn)。 “PageRank”是Google公司在排序算法上的專利技術,也是Google能從眾多搜索引擎公司中脫穎而出的最核心技術,作為其搜索服務能夠超過其他競爭對手最有力的武器。

不同搜索引擎公司排序算法的優(yōu)劣,直接決定了廣大搜索引擎用戶對搜索服務的選擇,在互聯(lián)網(wǎng)上,一個普通用戶更換搜索服務只需要5秒鐘,所以排序算法就成為了各個搜索引擎公司最核心機密。另外,每個搜索引擎公司也必須不停地改進其排序算法。三、中文分詞和排序算法介紹(二)排序算法:三、中文分詞和排序算法介紹(二)排序算法:

排序算法部分參考指標:指標加分減分網(wǎng)站硬件指標網(wǎng)站網(wǎng)絡好,系統(tǒng)穩(wěn)定網(wǎng)站系統(tǒng)不穩(wěn)定,網(wǎng)絡不好網(wǎng)站包含網(wǎng)頁數(shù)總網(wǎng)頁數(shù)目多總網(wǎng)頁數(shù)目少網(wǎng)頁大小網(wǎng)頁大小適中網(wǎng)頁多大或過小其他網(wǎng)頁鏈到本網(wǎng)頁數(shù)目多數(shù)目少網(wǎng)頁內(nèi)URL數(shù)數(shù)目適中過多或過少網(wǎng)頁相關性URL連接網(wǎng)頁是相關內(nèi)容URL連接網(wǎng)頁不是相關內(nèi)容網(wǎng)頁更新/生成日期日期近的日期遠的網(wǎng)頁類型靜態(tài)網(wǎng)頁動態(tài)網(wǎng)頁網(wǎng)頁內(nèi)樣式網(wǎng)頁設計樣式中等網(wǎng)頁設計樣式過于復雜或簡單網(wǎng)頁具體內(nèi)容分詞后,各個詞權重總和高分詞后,各個詞權重總和低用戶訪問行為點擊多的網(wǎng)頁點擊少的網(wǎng)頁三、中文分詞和排序算法介紹(二)排序算法:指標加分減分網(wǎng)站硬三、中文分詞和排序算法介紹(二)排序算法:

排序算法雖然解決了網(wǎng)頁排序的問題,但是有時候有些搜索結果還是很難讓用戶滿意。為此,搜索引擎排序算法一項重要改進:“聚類”,就被引進來提高排序效果。 “聚類”方法,是把網(wǎng)頁分類成各種不同類型,比如說:分類為“體育”、“娛樂”、“軍事”、“旅游”、“金融”、“政治”、“汽車”、“房產(chǎn)”等。針對每一種分類,各自有一套專用的排序算法。

當查詢詞為“高爾夫”時,查詢結果為“體育”+“汽車”,排序算法為通用算法;但當查詢詞為“高爾夫伍茲”時,其分類就能確定為“體育”,其排序算法就采用“體育”類別的算法。三、中文分詞和排序算法介紹(二)排序算法:三、中文分詞和排序算法介紹三、中文分詞和排序算法介紹四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術:

存儲技術是搜索引擎在提供搜索服務時的關鍵技術,系統(tǒng)如何去存儲上百億的網(wǎng)頁數(shù)據(jù),如何科學高效地提供搜索結果,這些都會影響用戶的“搜索用時”。

搜索引擎之所以能夠給同時給眾多用戶,在豪秒級的范圍內(nèi)就能提供搜索結果,其技術秘密就是絕大部分查詢結果都是提前完成運算,搜索結果早已存儲在其服務器上。 數(shù)據(jù)的存儲,當然會受硬件條件的影響,不能夠把所有數(shù)據(jù)都存儲在內(nèi)存中,部分數(shù)據(jù)還需存儲在硬盤中,這其中就有個存儲策略。存儲網(wǎng)頁數(shù)據(jù)時,權值高的網(wǎng)頁數(shù)據(jù)存儲在內(nèi)存,權值低的存儲在硬盤。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術:

搜索引擎的數(shù)據(jù)存儲主要分為兩部分: 第一部分:網(wǎng)頁數(shù)據(jù),包含:網(wǎng)頁編號、URL、標題、內(nèi)容摘要、網(wǎng)頁大小等。

第二部分:詞庫索引數(shù)據(jù),包含:中文詞庫中的字詞、英文單詞、每個字詞對應網(wǎng)頁編號隊列等。 網(wǎng)頁編號是唯一編號,不得重復。查詢時,通過詞庫索引得到網(wǎng)頁編號,然后在網(wǎng)頁數(shù)據(jù)中,得到各自網(wǎng)頁的相關數(shù)據(jù)。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術: 對于每一個網(wǎng)頁,包含:網(wǎng)頁編號、URL、標題、內(nèi)容摘要、網(wǎng)頁大小等信息。可由下面結構體來描述: (1)網(wǎng)頁編號 char16 (2)URL char256 (3)標題 char56 (4)內(nèi)容摘要 char256 (5)網(wǎng)頁大小 char8

這樣一來,每個網(wǎng)頁數(shù)據(jù)的存儲大小為592字節(jié)。網(wǎng)頁數(shù)據(jù)的網(wǎng)頁編號是連續(xù)的,所以網(wǎng)頁數(shù)據(jù)的存儲也可以連續(xù)存儲。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術: “網(wǎng)頁數(shù)據(jù)”的存儲分為內(nèi)存存儲和硬盤文件存儲兩種方式: (1)內(nèi)存存儲方式時,因為每個網(wǎng)頁數(shù)據(jù)都是大小一樣的,再加上數(shù)據(jù)存儲是連續(xù)的,所以在查詢時,只要知道數(shù)據(jù)存儲的起始位置,就可直接算出網(wǎng)頁數(shù)據(jù)的開始及結束位置,從而獲得網(wǎng)頁數(shù)據(jù)信息。1G內(nèi)存大概能存儲180萬條網(wǎng)頁信息(每條592字節(jié))。 (2)硬盤文件方式存儲,把連續(xù)一定數(shù)量的網(wǎng)頁數(shù)據(jù)信息,寫入到一個文件中去,比如說10萬條存儲為一個文件,然后把全部硬盤存儲的網(wǎng)頁數(shù)據(jù)都存儲到硬盤文件系統(tǒng)中去。這樣一來,基于硬盤文件存儲的網(wǎng)頁數(shù)據(jù)在讀取時,就要先算出來網(wǎng)頁數(shù)據(jù)存儲在那個文件,然后打開文件讀去出來該網(wǎng)頁數(shù)據(jù)信息。硬盤文件方式存儲,也是全文檢索系統(tǒng)中最主要的存儲方式。 內(nèi)存存儲查詢速度快,但信息存儲總量有限;硬盤文件方式存儲查詢速度慢,高并發(fā)查詢時還容易造成硬件快速損耗,但存儲容量巨大。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術:

“詞庫索引數(shù)據(jù)”的存儲采用內(nèi)存存儲方式: 對于每一篇網(wǎng)頁內(nèi)容,采用存儲的分詞算法進行處理,分出來的詞為最多的分法,方便對各個相關字詞都能建立索引。 所有的網(wǎng)頁內(nèi)容都以按照排序算法從大到小的順序排列好,所以,每個字詞的網(wǎng)頁索引隊列也是按照排序算法從大到小的排列。 詞庫中所有字詞,都是按照Hash分布來排列,便于查詢詞分詞后能夠快速找個各個詞庫中字詞對于的網(wǎng)頁結果ID隊列。

四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術:

搜索引擎常規(guī)存儲/查詢步驟如下: (1)對搜索詞進行分詞處理,看能分出來多少個字詞; 舉例說明:

比如說用戶的搜索詞為“屈波搜索引擎”,系統(tǒng)在接到這個查詢語句后,對其進行查詢詞分詞處理,分詞后為“屈波”+“搜索引擎”。用戶查詢詞屈波搜索引擎屈波+搜索引擎查詢詞分詞后四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術:

搜索引擎常規(guī)存儲/查詢步驟如下: (2)通過Hash查找到步驟(1)中各個字詞的網(wǎng)頁ID隊列; 舉例說明: 系統(tǒng)得到“屈波”和“搜索引擎”各自的Hash值,比如說Hash值“屈波”為256,“搜索引擎”為1024,然后找到這兩個詞各自的網(wǎng)頁ID隊列,如下圖所示兩個隊列為“網(wǎng)頁ID隊列2”和“網(wǎng)頁ID隊列4”。 屈波256256屈原…………屈波網(wǎng)頁ID序列1網(wǎng)頁ID序列2……搜索引擎10241024搜索搜索引擎網(wǎng)頁ID序列3網(wǎng)頁ID序列4…………四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術:

搜索引擎常規(guī)存儲/查詢步驟如下: (3)對步驟(2)中找到個各個網(wǎng)頁ID隊列做“與”、“或”、“非”的邏輯運算; (4)獲得最后的搜索結果網(wǎng)頁ID隊列。 舉例說明: “屈波”和“搜索引擎”對應隊列為“網(wǎng)頁ID隊列2”和“網(wǎng)頁ID隊列4”,對這兩個隊列做“與”運算。

屈波網(wǎng)頁ID序列21,3,5,9,11搜索引擎網(wǎng)頁ID序列41,2,5,8,11與運算1,5,11網(wǎng)頁ID序列四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術:

搜索引擎常規(guī)存儲/查詢步驟如下: (5)完成分頁顯示處理,計算出最后要顯示的各個網(wǎng)頁ID隊列(互聯(lián)網(wǎng)搜索網(wǎng)頁時一般每頁顯示10條,所以,這個數(shù)目最多為10),通過這些網(wǎng)頁ID,查找到相關的網(wǎng)頁結構體存儲內(nèi)容,顯示搜索結果給用戶。 舉例說明: “屈波”和“搜索引擎”是用戶查詢詞進行分詞出來的兩個詞,在具體的網(wǎng)頁標題和網(wǎng)頁內(nèi)容摘要中,分別對這兩個詞做紅色醒目標記。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(二)CacheServer:

WebServer在接受到搜索請求后,對搜索結果完成查詢時分詞處理,然后向“索引服務器”發(fā)出查詢請求,

“索引服務器”返回結果;WebServer對結果進行必要處理,然后向“網(wǎng)頁內(nèi)容”服務器通信,獲得各個網(wǎng)頁內(nèi)容;最后WebServer給用戶顯示搜索結果。

WebServer索引服務器IndexServer網(wǎng)頁內(nèi)容服務器PageContentServer用戶四、查詢/存儲技術、CacheServer介紹(二)Ca四、查詢/存儲技術、CacheServer介紹(二)CacheServer:

在對用戶行為進行分析后發(fā)現(xiàn),非常多的查詢詞經(jīng)常被用戶查詢,這些詞被稱為“搜索高頻詞”。為此,設計出來CacheServer(CS)用于存儲這些高頻詞的搜索結果,每當后臺系統(tǒng)更新后,這些高頻詞先進行查詢,然后把查詢結果放到CS中,從而減少系統(tǒng)后臺壓力。

WebServer用戶CS索引服務器IndexServer網(wǎng)頁內(nèi)容服務器PageContentServer四、查詢/存儲技術、CacheServer介紹(二)Ca四、查詢/存儲技術、CacheServer介紹(二)CacheServer:

CS還可以部署在“索引服務器”、“網(wǎng)頁內(nèi)容服務器”和WebServer之間,提高這兩個后臺服務器的效率。WebServerCSCS索引服務器IndexServer網(wǎng)頁內(nèi)容服務器PageContentServer四、查詢/存儲技術、CacheServer介紹(二)Ca四、查詢/存儲技術、CacheServer介紹(二)CacheServer:

CS自我定期更新策略: CS在其設計中,重點考慮其攔截率,所以,CS的自我定期更新策略就特別重要。CS在其初始化階段,其存儲數(shù)據(jù)主要來源于原來的日志統(tǒng)計結果;在CS運行后,CS要實時監(jiān)控當前數(shù)據(jù)流,并定期進行自我更新,把那些沒有被訪問過或低訪問率的數(shù)據(jù)刪除,增加新增數(shù)據(jù)。

CS雖然可以提高數(shù)據(jù)訪問時的速度,但如果設計出來的CS命中率過低的話,對整個系統(tǒng)效率還反而帶來降低,所以CS不能濫用,要結合系統(tǒng)實際負荷來設計和部署CS系統(tǒng)。

四、查詢/存儲技術、CacheServer介紹(二)Ca五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:

以數(shù)據(jù)庫為核心存儲的系統(tǒng),所有數(shù)據(jù)存儲任務基本上都由數(shù)據(jù)庫來承擔,軟件系統(tǒng)的穩(wěn)定性很高,對硬件設備的穩(wěn)定性要求也高,為滿足高用戶并發(fā)量,硬件投入成本驚人。 搜索引擎系統(tǒng)的數(shù)據(jù)存儲,都由自己開發(fā)的存儲技術來存儲,并且很多數(shù)據(jù)都存儲于內(nèi)存中,存儲系統(tǒng)相對硬盤存儲為主的數(shù)據(jù)庫系統(tǒng)而言比較脆弱。正因為如此搜索引擎更多依靠軟件設計來提高系統(tǒng)的穩(wěn)定性,硬件系統(tǒng)多采用穩(wěn)定性較差的相對廉價硬件,通過數(shù)量來保證質(zhì)量,而不是依靠穩(wěn)定性高價格昂貴的硬件設備。

引入了多重的“內(nèi)部備份系統(tǒng)”,搜索引擎系統(tǒng)就比傳統(tǒng)的其他互聯(lián)網(wǎng)、銀行、電信等系統(tǒng),要龐大和復雜很多,這也帶來了監(jiān)控工作的巨大困難。五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:

以Google為例,它在全球建立了幾十個數(shù)據(jù)中心,每個數(shù)據(jù)中心運行上萬臺服務器,目前它在全球有幾十萬臺服務器,因此它的搜索服務能夠減少地震、火災等自然災害的影響。2006年底,中國因為海底光纖損壞,眾多互聯(lián)網(wǎng)服務都受到影響,而Google在中國的服務,沒受到影響,就是因為其遍布全球的數(shù)據(jù)中心和災難應急處理對策。五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:

負載平衡一直是搜索引擎系統(tǒng)中最關鍵的技術,通過一整套的“負載平衡”軟、硬件解決方案,來確保整個搜索引擎系統(tǒng)的穩(wěn)定性及可靠性,才能給眾多用戶提供7X24小時的優(yōu)質(zhì)搜索服務。 WebServer用戶IndexServer1提供服務中…PageContentServer1提供服務中…IndexServer2提供服務中…PageContentServer2提供服務中…IndexServer3準備提供服務中…IndexServer4數(shù)據(jù)更新過程中……………五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:W五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:

搜索引擎系統(tǒng)的監(jiān)控系統(tǒng),分為內(nèi)部和外部兩部分。

(1)內(nèi)部監(jiān)控系統(tǒng): 內(nèi)部監(jiān)控系統(tǒng),以監(jiān)控服務器硬件運行狀況、網(wǎng)絡通信設備是否暢通、服務器上各個程序是否運行正常為主,屬于微觀監(jiān)控系統(tǒng)。 (2)外部監(jiān)控系統(tǒng): 外部監(jiān)控系統(tǒng),監(jiān)控網(wǎng)頁、新聞、圖片、MP3等搜索服務是否運行正常、是否存在大規(guī)模惡意攻擊、各個地區(qū)的總訪問量的變化趨勢等,屬于宏觀監(jiān)控系統(tǒng)。五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 內(nèi)部監(jiān)控程序管理服務器系統(tǒng),也可叫為整個搜索引擎的“內(nèi)部管理系統(tǒng)”,算是整個搜索引擎的中樞神經(jīng),它要實現(xiàn)自己管理、自我應急處理、自我災難恢復等多種任務。 內(nèi)部監(jiān)控系統(tǒng)的核心,是一個個運行在每個服務器上的監(jiān)控程序,這些程序常被叫為“心跳程序”或“脈沖程序”。這些程序按照一定周期向設定好的監(jiān)控程序管理服務器程序,發(fā)送該臺服務器及服務器上程序的運行狀況,它們的工作原理和木馬程序有些類似。

監(jiān)控程序管理服務器程序,收集各個服務器上監(jiān)控程序返回數(shù)據(jù),了解各個服務器硬件運行情況,了解及各個服務程序的運行情況。當一個程序或服務器硬件出現(xiàn)問題時,監(jiān)控程序管理服務器程序要做出必要的反應,修改搜索引擎各個程序之間的內(nèi)部通信規(guī)則,換上備用系統(tǒng)或調(diào)整負載平衡規(guī)則,從而保證搜索服務不受到影響。

五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運行原理: 如下圖所示,舉例IndexServer、WebServer、內(nèi)部監(jiān)控程序Monitor和內(nèi)部監(jiān)控程序管理服務器程序MonitorServer它們之間處理危機時的流程。 IS:IndexServer,MS:MonitorServer,WS:WebServer。

WSMonitor4IS1Monitor1提供服務中…MSIS2Monitor2提供服務中…IS3Monitor3準備提供服務中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運行原理: (1)IS2出現(xiàn)問題,不能繼續(xù)提供服務,Monitor2發(fā)現(xiàn)錯誤及時向MS發(fā)出錯誤報告。

WSMonitor4IS1Monitor1提供服務中…

MSIS2

Monitor2提供服務中…IS3Monitor3準備提供服務中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運行原理: (2)MS接收到Monitor2發(fā)來的錯誤報告后,向WS發(fā)出修改內(nèi)部通信規(guī)則,刪除WS和IS2的通信,增加WS和IS3的通信。

WSMonitor4IS1Monitor1提供服務中…

MSIS2Monitor2提供服務中…IS3Monitor3準備提供服務中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運行原理: (3)WS中斷和IS2的通信,增加和IS3的通信。

WSMonitor4IS1Monitor1提供服務中…MSIS2Monitor2停止服務中…IS3Monitor3提供服務中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運行原理: (4)MS向IS2發(fā)出服務恢復服務,IS2服務自動恢復。 WSMonitor4IS1Monitor1提供服務中…

MSIS2Monitor2程序服務恢復中…IS3Monitor3提供服務中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運行原理: (5)IS2服務完成恢復,Monitor2向MS匯報服務恢復成功,MS紀錄下IS2的目前狀態(tài),IS2成為服務備份程序。 WSMonitor4IS1Monitor1提供服務中…

MSIS2Monitor2準備提供服務中…IS3Monitor3提供服務中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運行原理: 總結:在整個的災難處理過程中,完成了負載平衡策略從原來的IS1和IS2同時提供服務,轉變?yōu)镮S1和IS3同時提供服務,對用戶的搜索服務訪問的影響降到最低。 WSMonitor4IS1Monitor1提供服務中…MSIS2Monitor2準備提供服務中…IS3Monitor3提供服務中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(三)外部監(jiān)控系統(tǒng)介紹: 內(nèi)部監(jiān)控系統(tǒng),可以說成搜索引擎系統(tǒng)的內(nèi)部管理系統(tǒng),自動化程度非常高,和搜索服務緊密相關。

作為宏觀監(jiān)控的外部監(jiān)控系統(tǒng),自動化程度就內(nèi)有內(nèi)部監(jiān)控系統(tǒng)那么高,它更多的時候是給值班員提出預警或出現(xiàn)問題時提供找到問題的方便。它會從宏觀層面上分析出用戶的各種群體行為,比如說:那個地區(qū)的用戶最多、各個時段的用戶訪問量、那些是新詞成為搜索熱點、各種廣告的推廣情況反饋等。 外部監(jiān)控系統(tǒng)更多的,是和搜索引擎公司的商業(yè)行為有關,和其商業(yè)策略有直接關系。五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(三)外部監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(三)外部監(jiān)控系統(tǒng)介紹: 以右圖Google公布的各種搜索服務訪問量為例,這種數(shù)據(jù)估計都是其外部監(jiān)控系統(tǒng)完成的統(tǒng)計數(shù)據(jù)。

Google訪問量最大的還是其網(wǎng)頁搜索服務,那整個的內(nèi)部軟硬件資源,就應該以網(wǎng)頁搜索服務為主來安排硬件資源及網(wǎng)絡帶寬。 外部監(jiān)控系統(tǒng)在發(fā)現(xiàn)其他服務流量有變化趨勢時,也會提出預警,提前通知相關人員做好硬件及網(wǎng)絡準備。

五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(三)外部監(jiān)控系統(tǒng)介紹:六、移動通信運營商搜索引擎獨特優(yōu)勢擁有眾多的用戶和非常高的粘合度擁有地域搜索優(yōu)勢擁有用戶識別優(yōu)勢擁有多種搜索引擎接口優(yōu)勢擁有完善的計費/收費渠道六、移動通信運營商搜索引擎獨特優(yōu)勢擁有眾多的用戶和非常高的粘六、移動通信運營商搜索引擎獨特優(yōu)勢擁有眾多的用戶和非常高的粘合度例如:中國移動目前擁有3億多用戶,夢網(wǎng)“掌上營業(yè)廳”等功能都無其他替代物,擁有非常高的用戶粘合度。

而作為互聯(lián)網(wǎng)搜索引擎,用戶更換一個搜索引擎,只需要5秒鐘。六、移動通信運營商搜索引擎獨特優(yōu)勢擁有眾多的用戶和非常高的粘六、移動通信運營商搜索引擎獨特優(yōu)勢擁有地域搜索優(yōu)勢通過手機號段,可以粗略定位用戶所在城市;通過調(diào)用手機地圖的位置服務,可以精確定位用戶位置。 移動通信運營商在地域搜索方面的優(yōu)勢,是互聯(lián)網(wǎng)搜索引擎公司所不能擁有的。結合當?shù)馗鞣N商業(yè)、行業(yè)等信息,可以做出很多地域搜索及推展各項電子商務服務。六、移動通信運營商搜索引擎獨特優(yōu)勢擁有地域搜索優(yōu)勢六、移動通信運營商搜索引擎獨特優(yōu)勢擁有用戶識別優(yōu)勢

互聯(lián)網(wǎng)搜索引擎只能通過電腦IP及cookie等方式來識別用戶,但是多人共用一臺電腦上網(wǎng)非常多,比如網(wǎng)吧和學校,互聯(lián)網(wǎng)搜索引擎很難識別到具體用戶。

移動通信運營商可以通過用戶的手機號作為唯一標識來識別,還能過獲得用戶的話費額度來判斷用戶的消費層次,通過用戶的搜索查詢詞記錄分析來判斷用戶的興趣愛好。

移動通信運營商的搜索引擎能夠做到精確的用戶識別,這比互聯(lián)網(wǎng)搜索引擎依靠“聚類”算法,來改進搜索結果的效果要好很多。六、移動通信運營商搜索引擎獨特優(yōu)勢擁有用戶識別優(yōu)勢六、移動通信運營商搜索引擎獨特優(yōu)勢六、移動通信運營商搜索引擎獨特優(yōu)勢六、移動通信運營商搜索引擎獨特優(yōu)勢擁有完善的計費/收費渠道

互聯(lián)網(wǎng)搜索引擎公司的收入,目前收入主要依靠廣告收入,除了常規(guī)廣告外,還有固定排名和滾動排名兩種廣告收入模式。而這些廣告收入的來源,也都主要來源于其代理商,收入模式相對單一。 而移動通信運營商,無論是對使用搜索服務的用戶計費,還是依靠廣告收入,或者是由移動搜索引擎展開的各種電子商務收入,移動通信運營商都擁有完善的計費/收費渠道。 對于移動通信運營商,數(shù)據(jù)業(yè)務是現(xiàn)在和未來的一個重點發(fā)展方向,通過移動搜索引擎服務的展開,將要大大地推動數(shù)據(jù)業(yè)務的發(fā)展。六、移動通信運營商搜索引擎獨特優(yōu)勢擁有完善的計費/收費渠道演講完畢,謝謝觀看!演講完畢,謝謝觀看!搜索引擎技術介紹

屈波

2007年8月搜索引擎技術介紹

屈波

2007年8月目錄一、搜索引擎總體介紹二、爬蟲技術介紹三、中文分詞和排序算法介紹四、查詢/存儲技術、CacheServer介紹五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹六、移動通信運營商搜索引擎獨特優(yōu)勢目錄一、搜索引擎總體介紹一、搜索引擎總體介紹(一)搜索引擎定義

“搜索引擎”技術,完全來源于歷史悠久的全文檢索技術。 “搜索引擎”從字面上可拆分為“搜”、“索”、“引擎”三個含義。

“搜”就是大量信息的抓取,抓取回來后的信息進行智能提取、排重、質(zhì)量分析等處理。

“索”就是大量處理后信息的存儲、信息排序、快速查詢等。

“引擎”就是指系統(tǒng)不但能存儲億級的數(shù)據(jù),而且還能有巨大的并發(fā)處理能力,這樣的系統(tǒng)才有資格被叫著“引擎”。一、搜索引擎總體介紹(一)搜索引擎定義一、搜索引擎總體介紹(二)搜索引擎和移動搜索引擎

搜索引擎也可以看成為“專家系統(tǒng)”,通過把數(shù)百億互聯(lián)網(wǎng)網(wǎng)頁所提供的信息,作為其龐大的“知識庫”,通過用戶的輸入詞,找到相關信息。

從技術上來講,基于手機的移動搜索引擎,在其技術上和搜索引擎是完全一樣的。 用戶查詢信息的媒體,由PC被手機替代,可以隨時隨地提供搜索服務,用戶更方便地進行信息查詢。并且,手機的用戶群體是遠大于PC用戶群體,所以,移動搜索引擎肯定是搜索引擎領域未來發(fā)展的重點和方向。

一、搜索引擎總體介紹(二)搜索引擎和移動搜索引擎一、搜索引擎總體介紹(三)搜索引擎主要核心技術:

搜索引擎主要核心技術為: (1)中英文分詞語言處理; (2)排序算法; (3)網(wǎng)絡爬蟲; (4)查詢/存儲技術

開發(fā)搜索引擎系統(tǒng)主要涉及到的具體技術為: (1)http網(wǎng)絡協(xié)議. (2)多線程技術. (3)socket通信. (4)高效服務端程序開發(fā).一、搜索引擎總體介紹(三)搜索引擎主要核心技術:一、搜索引擎總體介紹(四)系統(tǒng)圖:一、搜索引擎總體介紹(四)系統(tǒng)圖:一、搜索引擎總體介紹(五)全文檢索系統(tǒng)和搜索引擎關系:1、搜索引擎技術來源于全文檢索系統(tǒng),搜索引擎是全文檢索技術最重要的一個運用.2、搜索引擎在數(shù)據(jù)總量,最大并發(fā)處理能力,單次查詢速度方面,都遠遠強大于全文檢索系統(tǒng).3、搜索引擎為了最求最高的查詢速度,在搜索結果準確性及搜索結果重現(xiàn)方面,都弱于全文檢索系統(tǒng).一、搜索引擎總體介紹(五)全文檢索系統(tǒng)和搜索引擎關系:一、搜索引擎總體介紹(六)全文檢索系統(tǒng)和搜索引擎比較:類別全文檢索搜索引擎信息獲得信息獲得比較容易,被檢索內(nèi)容基本上都是規(guī)范化信息.信息獲得困難,特別是信息提取的準確率受算法影響很大.信息總量支持的信息總量較少,搜索速度受信息總量增加而遞減.支持幾十億到幾百億的信息總量,搜索速度和信息總量基本無關.分詞技術分詞準確性較高,分詞速度中等,搜索結果比較滿意.詞庫更新慢.分詞速度極快,分詞準確性中等.新詞補充及時.存儲索引索引結果硬盤存儲,系統(tǒng)內(nèi)存消耗較少,可和其他程序并存.索引結果,以內(nèi)存存儲為主,硬盤存儲為輔,大多獨占操作系統(tǒng).搜索耗時搜索用時為秒級,只支持小用戶量并發(fā).搜索用時可達到毫秒級,擁有超強并發(fā)處理能力.搜索結果搜索結果準確,結果總數(shù)為實際數(shù)目,搜索結果能準確重現(xiàn).結果不夠準確,只提供全部結果的前面部分,搜索結果不保證重現(xiàn).系統(tǒng)規(guī)模系統(tǒng)簡單,服務器硬件投入較少,硬件管理比較輕松.系統(tǒng)龐大,服務器硬件投入巨大,幾百臺服務器到幾十萬臺服務器.一、搜索引擎總體介紹(六)全文檢索系統(tǒng)和搜索引擎比較:類別全二、爬蟲技術介紹(一)爬蟲技術總體介紹:

網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。 網(wǎng)絡爬蟲使用多線程技術,讓爬蟲具備更強大的抓取能力。通過DNSCache技術,減少爬蟲對DNS的訪問頻率,避免DNS成為網(wǎng)絡瓶頸,提高抓取速度。

網(wǎng)絡爬蟲還要完成信息提取任務,對于抓取回來的網(wǎng)頁提取出來:新聞、電子圖書、行業(yè)信息等。對于MP3、圖片、Flash等各種不同內(nèi)容,要實現(xiàn)自動識別、自動分類及相關屬性測試(例如:MP3文件要包含的文件大小,下載速度等屬性)。二、爬蟲技術介紹(一)爬蟲技術總體介紹:二、爬蟲技術介紹(二)抓取對象:

1.靜態(tài)網(wǎng)頁:爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。

2.動態(tài)網(wǎng)頁:分析動態(tài)網(wǎng)頁參數(shù),按照一定規(guī)章,“拼”出所有要被抓取內(nèi)容URL,只抓取這些特定范圍內(nèi)動態(tài)網(wǎng)頁。 3.特殊內(nèi)容:比如RSS、XML數(shù)據(jù),情況特殊需特殊處理。如新聞的滾動新聞頁面,需要爬蟲不停地監(jiān)控掃描,發(fā)現(xiàn)新內(nèi)容馬上就進行抓取。

4.文件對象:圖片,MP3、Flash、視頻等文件的抓取,都要特殊處理。比如說:圖片抓取出來后,要知道圖片文件類型、圖片文件的大小、圖片的像素大小,還要轉換出來縮略圖。二、爬蟲技術介紹(二)抓取對象:二、爬蟲技術介紹(三)抓取策略:

1.深度優(yōu)先策略:對于一些大網(wǎng)站及靜態(tài)網(wǎng)頁為主的抓取內(nèi)容,采取深度策略抓取,便于在最短時間內(nèi)獲得最大量內(nèi)容。

2.廣度優(yōu)先策略:對于一些動態(tài)網(wǎng)頁或小網(wǎng)站,采取廣度策略抓取,同時對多個網(wǎng)站進行抓取,減小對各個小網(wǎng)站的壓力,避免造成惡意攻擊。

3.合作抓取策略:由被抓取網(wǎng)站,提供可被抓取內(nèi)容的sitemap網(wǎng)站地圖,雙方協(xié)議好,只抓取這些特定內(nèi)容,在抓取速度及時間上雙方前期進行協(xié)商。另外還可以完全由被抓取方,提供詳細內(nèi)容,抓取過程都可以省略一些步驟。二、爬蟲技術介紹(三)抓取策略:二、爬蟲技術介紹(四)爬蟲程序介紹:1.單線程模型

URL任務列表互聯(lián)網(wǎng)DNSCacheDNS內(nèi)容處理,分析出新的URL,URL檢查二、爬蟲技術介紹(四)爬蟲程序介紹:URL二、爬蟲技術介紹(四)爬蟲程序介紹:2.多線程模型(省略掉DNSCache部分)

URL任務列表互聯(lián)網(wǎng)......線程1臨界區(qū)線程2線程N二、爬蟲技術介紹(四)爬蟲程序介紹:URL二、爬蟲技術介紹(四)爬蟲程序介紹:3.爬蟲集群模型

URL任務列表互聯(lián)網(wǎng)......Spider管理器Spider1Spider2SpiderN二、爬蟲技術介紹(四)爬蟲程序介紹:URL二、爬蟲技術介紹(五)內(nèi)容提?。?/p>

內(nèi)容提取是《模式識別》學科范圍內(nèi)容,對獲得的信息進行預處理后,按照特征值提前和選擇,最后進行內(nèi)容的識別。內(nèi)容提取的準確率受算法影響較大,尤其是新聞、圖片等內(nèi)容。動態(tài)網(wǎng)頁比較容易的通過網(wǎng)頁比對,整理出其網(wǎng)頁設計模板,按照模板可以準確率較高的完成提取。

網(wǎng)頁內(nèi)容的正確提取,對排序算法設計,也有非常重要的影響。 判斷兩個內(nèi)容是否相同的排重算法,一般按照貝葉斯決策理論進行處理,判斷兩個內(nèi)容的相似度,最常用于相同新聞的判斷。信息獲得預處理特征值提取和選擇訓練過程分類器設計分類決策二、爬蟲技術介紹(五)內(nèi)容提?。盒畔@得預處理特征值提取二、爬蟲技術介紹(五)內(nèi)容提?。?/p>

因為目前WAP網(wǎng)頁數(shù)據(jù)總量過少,另外WAP網(wǎng)頁包含數(shù)據(jù)也過少,在基于WAP網(wǎng)頁的搜索引擎中,帶給用戶的信息總量過少,所以基于WAP內(nèi)容的搜索發(fā)展緩慢。

對Web網(wǎng)頁內(nèi)容如能進行提取出最關鍵內(nèi)容,有一套高效的智能內(nèi)容提取程序。在移動搜索引擎中,搜索內(nèi)容為智能提取出來的Web網(wǎng)頁內(nèi)容,這將大大加快移動搜索服務發(fā)展。 Web網(wǎng)頁內(nèi)容的智能提取,屬于復雜數(shù)據(jù)類型挖掘,其程序算法難度非常大。

二、爬蟲技術介紹(五)內(nèi)容提取:三、中文分詞和排序算法介紹(一)中文分詞:

自然語言理解和處理,是人工智能的重要的研究領域之一,是語言學、邏輯學、生理學、心理學、計算機科學和數(shù)學等相關學科發(fā)展和結合而形成的一門交叉學科。

分詞作為搜索引擎的一項核心功能,和存儲和查詢有重大關系。但是不同的研究角度,不同的研究方向,帶來研究重點和研究結果都是不一樣的。 語言學方向研究的分詞算法,看重分詞的準確性,不看重運算速度;而搜索引擎的分次算法,特別看重分詞速度,分詞準確性中等。

語言詞匯語法詞熟語詞素詞法句法造句法詞組構造法構形法構詞法三、中文分詞和排序算法介紹(一)中文分詞:語言詞匯語法詞熟三、中文分詞和排序算法介紹(一)中文分詞:

以英文為代表的字母型文字,按照空格和標點符號比較容易實現(xiàn)分詞,而以中文為代表的東亞語系文字,在分詞方面,卻存在巨大的困難。 據(jù)說百度(也包括北大天網(wǎng))在早期時,所有的中文文字,全部拆分為一個個的單字,搜索效果比較差。但也有特殊效果,比如說:搜“我為秋香”,能夠搜到唐伯虎的著名藏頭文。

我康宣今年一十八歲,姑蘇人氏,身家清白,素無過犯。只

為家況清貧,鬻身華相府中,充當書僮。身價銀五十兩,自

秋節(jié)起,暫存帳房,俟三年后支取。從此承值書房,每日焚

香掃地,洗硯磨墨等事,聽憑使喚。從頭做起,立契為憑。三、中文分詞和排序算法介紹(一)中文分詞:三、中文分詞和排序算法介紹(一)中文分詞:

搜索引擎的中文分詞,在算法上有兩種,一個用于后臺索引處理,一個用于前端對搜索詞進行分詞處理。 比如說:有一條紀錄內(nèi)容為“中國人民解放軍”。

在構建后臺索引時,可分詞為:“中國人民解放軍”、“中國”、“人民”、“解放軍”、“中”、“國”、“人”、“民”、“解”、“放”、“軍”,對這11個字詞都要建立索引。這樣做的目的是為了,當搜索詞為上面這11種中任何一個時,都能在各自索引庫中找到“中國人民解放軍”這條紀錄。 搜索詞為“中國人民解放軍”,在其前端的分詞處理,就只分詞為:“中國人民解放軍”或“中國+人民+解放軍”或“中國+人民解放軍”。

三、中文分詞和排序算法介紹(一)中文分詞:三、中文分詞和排序算法介紹(一)中文分詞:

因為中文本身存在著很大的歧義性,同樣一句話,不同的斷句,表達的意思就不一樣。這對于計算機去做機器分析,就帶來了巨大的困難。 下面的中文斷句,來自百度廣告宣傳片: 「我知道你不知道我知道你不知道我知道你不知道」

「我知道,你不知道。我知道,你不知道我知道,你不知道」

「我知道你,不知道我。知道你不知道我,知道你不知道」

「我,知道你不知道我知道。你,不知道我知道你不知道」

三、中文分詞和排序算法介紹(一)中文分詞:三、中文分詞和排序算法介紹(一)中文分詞:

另外中文的具體含義,還必須放在具體的前后語言環(huán)境中去分析。 比如說:

「乒乓球拍賣完了」 我去學校商店,發(fā)現(xiàn)「乒乓球拍賣完了」 在今天的慈善拍賣會上,世界冠軍們奪冠時的「乒乓球拍賣完了」

中文分詞,在具體的算法實現(xiàn)上分為三種: 1.字符串匹配(正序、逆序、最少切分、最大切分等) 2.基于理解(詞法,句法等方式處理) 3.基于統(tǒng)計 在中文搜索引擎中,目前基本上是這三種算法混合使用。第二種的算法實現(xiàn)起來過于復雜,所以以第一種和第三種算法為主。三、中文分詞和排序算法介紹(一)中文分詞:三、中文分詞和排序算法介紹(一)中文分詞:

語言本身也是在不停的進化和發(fā)展的,新的詞語層出不窮,一些老的詞語漸漸被棄用。作為中文分詞的基礎詞庫,其新詞補充和老詞刪除就是非常重要的工作。 “超級女聲”、“超女”、“李宇春”、“八榮八恥”、“非典”,當這些新詞的出現(xiàn)時,搜索引擎需要快速捕捉到,并且馬上把其添加到分詞系統(tǒng)中去。

如何判斷那些詞是新詞,這就全部倚靠算法來實現(xiàn)。新詞捕捉主要來源于新聞和網(wǎng)絡BBS論壇,主要機制是依靠統(tǒng)計程序,統(tǒng)計上升速度最高的詞。另外作為搜索引擎公司,對眾多用戶的搜索詞進行“用戶行為”分析,也能提高其“新詞補充”效果。

三、中文分詞和排序算法介紹(一)中文分詞:三、中文分詞和排序算法介紹(二)排序算法: 搜索引擎的排序算法(rankingalgorithm),決定了各個網(wǎng)頁、圖片、MP3等數(shù)據(jù)的重要性排列順序,也決定了最終用戶查詢到的數(shù)據(jù)排序。搜索引擎的排序算法是人工智能的完滿體現(xiàn),它是對百億級數(shù)據(jù)進行重要性分析的數(shù)學實現(xiàn)。 “PageRank”是Google公司在排序算法上的專利技術,也是Google能從眾多搜索引擎公司中脫穎而出的最核心技術,作為其搜索服務能夠超過其他競爭對手最有力的武器。

不同搜索引擎公司排序算法的優(yōu)劣,直接決定了廣大搜索引擎用戶對搜索服務的選擇,在互聯(lián)網(wǎng)上,一個普通用戶更換搜索服務只需要5秒鐘,所以排序算法就成為了各個搜索引擎公司最核心機密。另外,每個搜索引擎公司也必須不停地改進其排序算法。三、中文分詞和排序算法介紹(二)排序算法:三、中文分詞和排序算法介紹(二)排序算法:

排序算法部分參考指標:指標加分減分網(wǎng)站硬件指標網(wǎng)站網(wǎng)絡好,系統(tǒng)穩(wěn)定網(wǎng)站系統(tǒng)不穩(wěn)定,網(wǎng)絡不好網(wǎng)站包含網(wǎng)頁數(shù)總網(wǎng)頁數(shù)目多總網(wǎng)頁數(shù)目少網(wǎng)頁大小網(wǎng)頁大小適中網(wǎng)頁多大或過小其他網(wǎng)頁鏈到本網(wǎng)頁數(shù)目多數(shù)目少網(wǎng)頁內(nèi)URL數(shù)數(shù)目適中過多或過少網(wǎng)頁相關性URL連接網(wǎng)頁是相關內(nèi)容URL連接網(wǎng)頁不是相關內(nèi)容網(wǎng)頁更新/生成日期日期近的日期遠的網(wǎng)頁類型靜態(tài)網(wǎng)頁動態(tài)網(wǎng)頁網(wǎng)頁內(nèi)樣式網(wǎng)頁設計樣式中等網(wǎng)頁設計樣式過于復雜或簡單網(wǎng)頁具體內(nèi)容分詞后,各個詞權重總和高分詞后,各個詞權重總和低用戶訪問行為點擊多的網(wǎng)頁點擊少的網(wǎng)頁三、中文分詞和排序算法介紹(二)排序算法:指標加分減分網(wǎng)站硬三、中文分詞和排序算法介紹(二)排序算法:

排序算法雖然解決了網(wǎng)頁排序的問題,但是有時候有些搜索結果還是很難讓用戶滿意。為此,搜索引擎排序算法一項重要改進:“聚類”,就被引進來提高排序效果。 “聚類”方法,是把網(wǎng)頁分類成各種不同類型,比如說:分類為“體育”、“娛樂”、“軍事”、“旅游”、“金融”、“政治”、“汽車”、“房產(chǎn)”等。針對每一種分類,各自有一套專用的排序算法。

當查詢詞為“高爾夫”時,查詢結果為“體育”+“汽車”,排序算法為通用算法;但當查詢詞為“高爾夫伍茲”時,其分類就能確定為“體育”,其排序算法就采用“體育”類別的算法。三、中文分詞和排序算法介紹(二)排序算法:三、中文分詞和排序算法介紹三、中文分詞和排序算法介紹四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術:

存儲技術是搜索引擎在提供搜索服務時的關鍵技術,系統(tǒng)如何去存儲上百億的網(wǎng)頁數(shù)據(jù),如何科學高效地提供搜索結果,這些都會影響用戶的“搜索用時”。

搜索引擎之所以能夠給同時給眾多用戶,在豪秒級的范圍內(nèi)就能提供搜索結果,其技術秘密就是絕大部分查詢結果都是提前完成運算,搜索結果早已存儲在其服務器上。 數(shù)據(jù)的存儲,當然會受硬件條件的影響,不能夠把所有數(shù)據(jù)都存儲在內(nèi)存中,部分數(shù)據(jù)還需存儲在硬盤中,這其中就有個存儲策略。存儲網(wǎng)頁數(shù)據(jù)時,權值高的網(wǎng)頁數(shù)據(jù)存儲在內(nèi)存,權值低的存儲在硬盤。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術:

搜索引擎的數(shù)據(jù)存儲主要分為兩部分: 第一部分:網(wǎng)頁數(shù)據(jù),包含:網(wǎng)頁編號、URL、標題、內(nèi)容摘要、網(wǎng)頁大小等。

第二部分:詞庫索引數(shù)據(jù),包含:中文詞庫中的字詞、英文單詞、每個字詞對應網(wǎng)頁編號隊列等。 網(wǎng)頁編號是唯一編號,不得重復。查詢時,通過詞庫索引得到網(wǎng)頁編號,然后在網(wǎng)頁數(shù)據(jù)中,得到各自網(wǎng)頁的相關數(shù)據(jù)。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術: 對于每一個網(wǎng)頁,包含:網(wǎng)頁編號、URL、標題、內(nèi)容摘要、網(wǎng)頁大小等信息。可由下面結構體來描述: (1)網(wǎng)頁編號 char16 (2)URL char256 (3)標題 char56 (4)內(nèi)容摘要 char256 (5)網(wǎng)頁大小 char8

這樣一來,每個網(wǎng)頁數(shù)據(jù)的存儲大小為592字節(jié)。網(wǎng)頁數(shù)據(jù)的網(wǎng)頁編號是連續(xù)的,所以網(wǎng)頁數(shù)據(jù)的存儲也可以連續(xù)存儲。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術: “網(wǎng)頁數(shù)據(jù)”的存儲分為內(nèi)存存儲和硬盤文件存儲兩種方式: (1)內(nèi)存存儲方式時,因為每個網(wǎng)頁數(shù)據(jù)都是大小一樣的,再加上數(shù)據(jù)存儲是連續(xù)的,所以在查詢時,只要知道數(shù)據(jù)存儲的起始位置,就可直接算出網(wǎng)頁數(shù)據(jù)的開始及結束位置,從而獲得網(wǎng)頁數(shù)據(jù)信息。1G內(nèi)存大概能存儲180萬條網(wǎng)頁信息(每條592字節(jié))。 (2)硬盤文件方式存儲,把連續(xù)一定數(shù)量的網(wǎng)頁數(shù)據(jù)信息,寫入到一個文件中去,比如說10萬條存儲為一個文件,然后把全部硬盤存儲的網(wǎng)頁數(shù)據(jù)都存儲到硬盤文件系統(tǒng)中去。這樣一來,基于硬盤文件存儲的網(wǎng)頁數(shù)據(jù)在讀取時,就要先算出來網(wǎng)頁數(shù)據(jù)存儲在那個文件,然后打開文件讀去出來該網(wǎng)頁數(shù)據(jù)信息。硬盤文件方式存儲,也是全文檢索系統(tǒng)中最主要的存儲方式。 內(nèi)存存儲查詢速度快,但信息存儲總量有限;硬盤文件方式存儲查詢速度慢,高并發(fā)查詢時還容易造成硬件快速損耗,但存儲容量巨大。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術:

“詞庫索引數(shù)據(jù)”的存儲采用內(nèi)存存儲方式: 對于每一篇網(wǎng)頁內(nèi)容,采用存儲的分詞算法進行處理,分出來的詞為最多的分法,方便對各個相關字詞都能建立索引。 所有的網(wǎng)頁內(nèi)容都以按照排序算法從大到小的順序排列好,所以,每個字詞的網(wǎng)頁索引隊列也是按照排序算法從大到小的排列。 詞庫中所有字詞,都是按照Hash分布來排列,便于查詢詞分詞后能夠快速找個各個詞庫中字詞對于的網(wǎng)頁結果ID隊列。

四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術:

搜索引擎常規(guī)存儲/查詢步驟如下: (1)對搜索詞進行分詞處理,看能分出來多少個字詞; 舉例說明:

比如說用戶的搜索詞為“屈波搜索引擎”,系統(tǒng)在接到這個查詢語句后,對其進行查詢詞分詞處理,分詞后為“屈波”+“搜索引擎”。用戶查詢詞屈波搜索引擎屈波+搜索引擎查詢詞分詞后四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術:

搜索引擎常規(guī)存儲/查詢步驟如下: (2)通過Hash查找到步驟(1)中各個字詞的網(wǎng)頁ID隊列; 舉例說明: 系統(tǒng)得到“屈波”和“搜索引擎”各自的Hash值,比如說Hash值“屈波”為256,“搜索引擎”為1024,然后找到這兩個詞各自的網(wǎng)頁ID隊列,如下圖所示兩個隊列為“網(wǎng)頁ID隊列2”和“網(wǎng)頁ID隊列4”。 屈波256256屈原…………屈波網(wǎng)頁ID序列1網(wǎng)頁ID序列2……搜索引擎10241024搜索搜索引擎網(wǎng)頁ID序列3網(wǎng)頁ID序列4…………四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術:

搜索引擎常規(guī)存儲/查詢步驟如下: (3)對步驟(2)中找到個各個網(wǎng)頁ID隊列做“與”、“或”、“非”的邏輯運算; (4)獲得最后的搜索結果網(wǎng)頁ID隊列。 舉例說明: “屈波”和“搜索引擎”對應隊列為“網(wǎng)頁ID隊列2”和“網(wǎng)頁ID隊列4”,對這兩個隊列做“與”運算。

屈波網(wǎng)頁ID序列21,3,5,9,11搜索引擎網(wǎng)頁ID序列41,2,5,8,11與運算1,5,11網(wǎng)頁ID序列四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(一)查詢/存儲技術:

搜索引擎常規(guī)存儲/查詢步驟如下: (5)完成分頁顯示處理,計算出最后要顯示的各個網(wǎng)頁ID隊列(互聯(lián)網(wǎng)搜索網(wǎng)頁時一般每頁顯示10條,所以,這個數(shù)目最多為10),通過這些網(wǎng)頁ID,查找到相關的網(wǎng)頁結構體存儲內(nèi)容,顯示搜索結果給用戶。 舉例說明: “屈波”和“搜索引擎”是用戶查詢詞進行分詞出來的兩個詞,在具體的網(wǎng)頁標題和網(wǎng)頁內(nèi)容摘要中,分別對這兩個詞做紅色醒目標記。四、查詢/存儲技術、CacheServer介紹(一)查詢四、查詢/存儲技術、CacheServer介紹(二)CacheServer:

WebServer在接受到搜索請求后,對搜索結果完成查詢時分詞處理,然后向“索引服務器”發(fā)出查詢請求,

“索引服務器”返回結果;WebServer對結果進行必要處理,然后向“網(wǎng)頁內(nèi)容”服務器通信,獲得各個網(wǎng)頁內(nèi)容;最后WebServer給用戶顯示搜索結果。

WebServer索引服務器IndexServer網(wǎng)頁內(nèi)容服務器PageContentServer用戶四、查詢/存儲技術、CacheServer介紹(二)Ca四、查詢/存儲技術、CacheServer介紹(二)CacheServer:

在對用戶行為進行分析后發(fā)現(xiàn),非常多的查詢詞經(jīng)常被用戶查詢,這些詞被稱為“搜索高頻詞”。為此,設計出來CacheServer(CS)用于存儲這些高頻詞的搜索結果,每當后臺系統(tǒng)更新后,這些高頻詞先進行查詢,然后把查詢結果放到CS中,從而減少系統(tǒng)后臺壓力。

WebServer用戶CS索引服務器IndexServer網(wǎng)頁內(nèi)容服務器PageContentServer四、查詢/存儲技術、CacheServer介紹(二)Ca四、查詢/存儲技術、CacheServer介紹(二)CacheServer:

CS還可以部署在“索引服務器”、“網(wǎng)頁內(nèi)容服務器”和WebServer之間,提高這兩個后臺服務器的效率。WebServerCSCS索引服務器IndexServer網(wǎng)頁內(nèi)容服務器PageContentServer四、查詢/存儲技術、CacheServer介紹(二)Ca四、查詢/存儲技術、CacheServer介紹(二)CacheServer:

CS自我定期更新策略: CS在其設計中,重點考慮其攔截率,所以,CS的自我定期更新策略就特別重要。CS在其初始化階段,其存儲數(shù)據(jù)主要來源于原來的日志統(tǒng)計結果;在CS運行后,CS要實時監(jiān)控當前數(shù)據(jù)流,并定期進行自我更新,把那些沒有被訪問過或低訪問率的數(shù)據(jù)刪除,增加新增數(shù)據(jù)。

CS雖然可以提高數(shù)據(jù)訪問時的速度,但如果設計出來的CS命中率過低的話,對整個系統(tǒng)效率還反而帶來降低,所以CS不能濫用,要結合系統(tǒng)實際負荷來設計和部署CS系統(tǒng)。

四、查詢/存儲技術、CacheServer介紹(二)Ca五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:

以數(shù)據(jù)庫為核心存儲的系統(tǒng),所有數(shù)據(jù)存儲任務基本上都由數(shù)據(jù)庫來承擔,軟件系統(tǒng)的穩(wěn)定性很高,對硬件設備的穩(wěn)定性要求也高,為滿足高用戶并發(fā)量,硬件投入成本驚人。 搜索引擎系統(tǒng)的數(shù)據(jù)存儲,都由自己開發(fā)的存儲技術來存儲,并且很多數(shù)據(jù)都存儲于內(nèi)存中,存儲系統(tǒng)相對硬盤存儲為主的數(shù)據(jù)庫系統(tǒng)而言比較脆弱。正因為如此搜索引擎更多依靠軟件設計來提高系統(tǒng)的穩(wěn)定性,硬件系統(tǒng)多采用穩(wěn)定性較差的相對廉價硬件,通過數(shù)量來保證質(zhì)量,而不是依靠穩(wěn)定性高價格昂貴的硬件設備。

引入了多重的“內(nèi)部備份系統(tǒng)”,搜索引擎系統(tǒng)就比傳統(tǒng)的其他互聯(lián)網(wǎng)、銀行、電信等系統(tǒng),要龐大和復雜很多,這也帶來了監(jiān)控工作的巨大困難。五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:

以Google為例,它在全球建立了幾十個數(shù)據(jù)中心,每個數(shù)據(jù)中心運行上萬臺服務器,目前它在全球有幾十萬臺服務器,因此它的搜索服務能夠減少地震、火災等自然災害的影響。2006年底,中國因為海底光纖損壞,眾多互聯(lián)網(wǎng)服務都受到影響,而Google在中國的服務,沒受到影響,就是因為其遍布全球的數(shù)據(jù)中心和災難應急處理對策。五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:

負載平衡一直是搜索引擎系統(tǒng)中最關鍵的技術,通過一整套的“負載平衡”軟、硬件解決方案,來確保整個搜索引擎系統(tǒng)的穩(wěn)定性及可靠性,才能給眾多用戶提供7X24小時的優(yōu)質(zhì)搜索服務。 WebServer用戶IndexServer1提供服務中…PageContentServer1提供服務中…IndexServer2提供服務中…PageContentServer2提供服務中…IndexServer3準備提供服務中…IndexServer4數(shù)據(jù)更新過程中……………五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:W五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:

搜索引擎系統(tǒng)的監(jiān)控系統(tǒng),分為內(nèi)部和外部兩部分。

(1)內(nèi)部監(jiān)控系統(tǒng): 內(nèi)部監(jiān)控系統(tǒng),以監(jiān)控服務器硬件運行狀況、網(wǎng)絡通信設備是否暢通、服務器上各個程序是否運行正常為主,屬于微觀監(jiān)控系統(tǒng)。 (2)外部監(jiān)控系統(tǒng): 外部監(jiān)控系統(tǒng),監(jiān)控網(wǎng)頁、新聞、圖片、MP3等搜索服務是否運行正常、是否存在大規(guī)模惡意攻擊、各個地區(qū)的總訪問量的變化趨勢等,屬于宏觀監(jiān)控系統(tǒng)。五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(一)監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 內(nèi)部監(jiān)控程序管理服務器系統(tǒng),也可叫為整個搜索引擎的“內(nèi)部管理系統(tǒng)”,算是整個搜索引擎的中樞神經(jīng),它要實現(xiàn)自己管理、自我應急處理、自我災難恢復等多種任務。 內(nèi)部監(jiān)控系統(tǒng)的核心,是一個個運行在每個服務器上的監(jiān)控程序,這些程序常被叫為“心跳程序”或“脈沖程序”。這些程序按照一定周期向設定好的監(jiān)控程序管理服務器程序,發(fā)送該臺服務器及服務器上程序的運行狀況,它們的工作原理和木馬程序有些類似。

監(jiān)控程序管理服務器程序,收集各個服務器上監(jiān)控程序返回數(shù)據(jù),了解各個服務器硬件運行情況,了解及各個服務程序的運行情況。當一個程序或服務器硬件出現(xiàn)問題時,監(jiān)控程序管理服務器程序要做出必要的反應,修改搜索引擎各個程序之間的內(nèi)部通信規(guī)則,換上備用系統(tǒng)或調(diào)整負載平衡規(guī)則,從而保證搜索服務不受到影響。

五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運行原理: 如下圖所示,舉例IndexServer、WebServer、內(nèi)部監(jiān)控程序Monitor和內(nèi)部監(jiān)控程序管理服務器程序MonitorServer它們之間處理危機時的流程。 IS:IndexServer,MS:MonitorServer,WS:WebServer。

WSMonitor4IS1Monitor1提供服務中…MSIS2Monitor2提供服務中…IS3Monitor3準備提供服務中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹:五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹

(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運行原理: (1)IS2出現(xiàn)問題,不能繼續(xù)提供服務,Monitor2發(fā)現(xiàn)錯誤及時向MS發(fā)出錯誤報告。

WSMonitor

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論