搜索引擎的原理_第1頁
搜索引擎的原理_第2頁
搜索引擎的原理_第3頁
搜索引擎的原理_第4頁
搜索引擎的原理_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

搜索引擎的原理簡述搜索引擎的服務(wù)步驟一、搜索引擎巡視網(wǎng)絡(luò),抓取頁面,建立排序,理解抓取頁面內(nèi)容意思。二、外部環(huán)境:用戶發(fā)起檢索請求,提交給搜索引擎。三、搜索引擎接受請求,分析關(guān)鍵詞,了解用戶搜索意圖。根據(jù)關(guān)鍵詞尋找匹配內(nèi)容,推薦出來并排名展現(xiàn)。搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個網(wǎng)頁并對網(wǎng)頁中的每一個詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個關(guān)鍵詞的時候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法進(jìn)行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低,依次排列1、派出Spider,按照相關(guān)的策略把網(wǎng)頁抓回搜索引擎服務(wù)器。2、對抓回來的網(wǎng)頁進(jìn)行連接抽離、內(nèi)容處理、消除噪音、提取該網(wǎng)頁的主題文本內(nèi)容。3、對網(wǎng)頁的內(nèi)容進(jìn)行中文分詞,去除停止詞。4、分詞后判斷網(wǎng)頁內(nèi)容是否有,刪除重復(fù)也,對剩余頁面進(jìn)行倒排索引,等待檢索。5、對用戶查詢的關(guān)鍵詞進(jìn)行分詞處理,并且根據(jù)用戶的地理位置和歷史搜索特征結(jié)合判斷用戶需求。這樣方便地域性搜索結(jié)果和個性化搜索結(jié)果能展示用戶最需要的內(nèi)容。6、查找緩存中是否有該關(guān)鍵詞的查詢結(jié)果,如果有,確定用戶真實(shí)需求,微調(diào)之后展示給用戶。7、如果緩存沒有信息,那么在索引庫中進(jìn)行調(diào)取,并且將關(guān)鍵詞和對應(yīng)的搜索結(jié)果加入到緩存中去。8、網(wǎng)頁排名是根據(jù)用戶的搜索詞和搜索需求,對索引庫中的網(wǎng)頁進(jìn)行相關(guān)性、重要性(鏈接權(quán)重分析)和用戶體驗(yàn)的高低進(jìn)行分析得到的。爬行和抓取搜索引擎派出一個能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓文件的程序,這個程序通常稱之為蜘蛛(Spider)。搜索引擎從已知的數(shù)據(jù)庫出發(fā),就像正常用戶的瀏覽器一樣訪問這些網(wǎng)頁并抓取文件。搜索引擎通過這些爬蟲去爬互聯(lián)網(wǎng)上的外鏈,從這個網(wǎng)站爬到另一個網(wǎng)站,去跟蹤網(wǎng)頁中的鏈接,訪問更多的網(wǎng)頁,這個過程就叫爬行。這些新的網(wǎng)址會被存入數(shù)據(jù)庫等待搜索。所以跟蹤網(wǎng)頁鏈接是搜索引擎蜘蛛(Spider)發(fā)現(xiàn)新網(wǎng)址的最基本的方法,所以反向鏈接成為搜索引擎優(yōu)化的最基本因素之一。搜索引擎抓取的頁面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入數(shù)據(jù)庫。建立索引蜘蛛抓取的頁面文件分解、分析,并以巨大表格的形式存入數(shù)據(jù)庫,這個過程即是索引(index).在索引數(shù)據(jù)庫中,網(wǎng)頁文字內(nèi)容,關(guān)鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關(guān)信息都有相應(yīng)記錄。搜索詞處理用戶在搜索引擎界面輸入關(guān)鍵詞,單擊“搜索”按鈕后,搜索引擎程序即對搜索詞進(jìn)行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動整合搜索,判斷是否有拼寫錯誤或錯別字等情況。搜索詞的處理必須十分快速。排序?qū)λ阉髟~處理后,搜索引擎程序便開始工作,從索引數(shù)據(jù)庫中找出所有包含搜索詞的網(wǎng)頁,并且根據(jù)排名算法計算出哪些網(wǎng)頁應(yīng)該排在前面,然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也無法與人相比,這就是為什么網(wǎng)站要進(jìn)行搜索引擎優(yōu)化。沒有SEO的幫助,搜索引擎常常并不能正確的返回最相關(guān)、最權(quán)威、最有用的信息。搜索引擎抓取詳解Spider他是搜索引擎最開始的一個功能模塊,同時,只有它抓取回來的頁面或者地址才可以被索引并參與進(jìn)排名里面。只要被Spider抓取的URL地址都可能會參與排名,但是參與排名的網(wǎng)頁不一定被抓取了內(nèi)容。例如現(xiàn)在的天貓商城,只會被抓去地址,但是正文內(nèi)容不會抓取。(他是搜索引擎用來抓取網(wǎng)站頁面的一個程序。他抓取頁面需要有一個入口,這個入口一般先期可以由我們?nèi)斯ぬ峤?。例如搜索引擎提交我們的網(wǎng)站。)Spider的抓取及分類Spider想要抓取到網(wǎng)頁,首先要解決時發(fā)現(xiàn)網(wǎng)頁的入口,沒有入口他就無法進(jìn)入網(wǎng)站,更是無從抓取網(wǎng)頁了。因此這里就涉及到抓取的策略性問題,這個也是我們后續(xù)SEO要解決的第一步。那么抓取的策略是什么呢?其次是,網(wǎng)頁內(nèi)容是有時效性的,有一些網(wǎng)頁內(nèi)容不存在實(shí)時的更新,依然有著重要的意義,有一些需呀實(shí)時更新,那么對于這些信息,Spider采用什么樣的再次抓取和更新策略呢?作為大型的搜索引擎,Spider不可能只有一個,為了節(jié)省資源,保證效率,要保證多個Spider同時作業(yè)而且工作不重復(fù),這樣就會有多個Spider分區(qū)域同時作業(yè),這樣分布式抓取策略又是什么樣的呢?Spider的分類批量型:特點(diǎn):具有明顯的抓取范圍和目標(biāo),時間設(shè)定,抓取數(shù)量有限,或者當(dāng)達(dá)到目標(biāo)就會停止,這樣的例子一般是我們的站長和優(yōu)化人員使用的采集工具中的采集程序。增量型:可以成為搜索引擎的網(wǎng)站或者程序,他們使用的都是增量型,他們的特點(diǎn)是沒有固定目標(biāo)、范圍和時間限制,會無休止的抓取,直到把所有的網(wǎng)站數(shù)據(jù)抓取為止,他們一般不僅僅抓取盡可能全面的頁面,同時還要對已經(jīng)抓取的頁面再次抓取和更新。因?yàn)榫W(wǎng)絡(luò)在變化,信息也在變化。百度、google主要用的就是這種。垂直型:特點(diǎn):只對特定的內(nèi)容或者行業(yè)進(jìn)行抓取,他具有增量型的部分特點(diǎn),但是對于抓取范圍有限制。一般一淘網(wǎng),優(yōu)酷下搜庫,百度和google下的垂直搜索使用的就是垂直型的。Spider抓取1、盡可能多的抓取頁面2、避免重復(fù)的頁面抓取因此在實(shí)際的抓取過程中,Spider會建立兩個列表組,一個是已經(jīng)抓取的URL列表,一個是等待抓取的URL列表。每抓取一個新頁面的時候,提取出來的頁面鏈接,都會去和已經(jīng)抓取的URL列表中的鏈接去一一比對,如果發(fā)現(xiàn)該鏈接已經(jīng)抓取過,就會直接丟棄,如果發(fā)現(xiàn)該鏈接還沒有抓取,就會把它放在等待抓取的列表末尾排隊等候。Spider眼中的網(wǎng)頁分類

1已經(jīng)抓取頁面等待抓取頁面可以抓取頁面暗網(wǎng)頁面Spider的抓取特點(diǎn)Spider對于常規(guī)網(wǎng)頁的抓取,是從一個入口開始抓取的時候,就會獲取這個網(wǎng)頁上的所有導(dǎo)出鏈接,因此當(dāng)Spider隨機(jī)抓取其中的一個鏈接的時候,同樣又會收集到很多新的鏈接。此時Spider面臨一個抓取方式的選擇。1、沿著一條鏈接一層一層的抓取下去,直到這個鏈接的盡頭,然后返回按照這樣的辦法繼續(xù)抓取另一個鏈接。這就叫深度優(yōu)化抓取。2、先把入口處的鏈接全部抓取一遍,把新發(fā)現(xiàn)的URL一次入庫排列,對同一層級的頁面進(jìn)行一次橫向抓取,然后再進(jìn)入下一層,這叫做廣度優(yōu)先抓取。深度抓取和廣度抓取理論上,Spider不管采用深度還是廣度優(yōu)先策略,只要時間足夠,都可以把互聯(lián)網(wǎng)上的內(nèi)容統(tǒng)統(tǒng)抓取一遍,但是很不幸,搜索引擎的Spider時間也非常寶貴,單一方法的抓取時很奢侈的,所以一般搜索引擎都是采用兩種方式相結(jié)合的方式進(jìn)行的。這就涉及到一個有限選擇的問題。一般情況下,

Spider可以在域名級別的網(wǎng)頁使用廣度的優(yōu)先抓取策略,這樣可以盡可能抓取更多的網(wǎng)站。在網(wǎng)站內(nèi)部頁面級別一般會根據(jù)網(wǎng)站權(quán)重綜合使用廣度和深度優(yōu)先抓取,也就是說網(wǎng)站權(quán)重,直接影響到抓取量的大小。剛上線的網(wǎng)站一般被抓去只有一個首頁。從抓取的特點(diǎn)上可以看出,對于重要網(wǎng)站優(yōu)先抓取,重要的網(wǎng)站和網(wǎng)站內(nèi)的重要頁面是優(yōu)先抓取的。大站鏈接也是優(yōu)先抓取的。重要頁面和大站的優(yōu)先抓取詳解1、如何界定頁面的重要性,除了受到自己的主站質(zhì)量和權(quán)重之外,就要看看導(dǎo)入鏈接的數(shù)量和質(zhì)量了。如果界定為重要頁面,一般的抓取策略就會隨之改變,等待抓取的排序依據(jù)就會是:頁面獲得已抓取頁面鏈接的多少和鏈接權(quán)重的高低??倸w就是數(shù)量和質(zhì)量。2、大站一般是有穩(wěn)定服務(wù)器,良好網(wǎng)站結(jié)構(gòu),優(yōu)秀的用戶體驗(yàn),及時的咨詢內(nèi)容,權(quán)威的相關(guān)資料,豐富的內(nèi)容類別和龐大的網(wǎng)頁數(shù)量等特征。一般這樣站點(diǎn)信息會被搜索引擎重點(diǎn)關(guān)注和抓取收錄。Spider的抓取認(rèn)識Spider不會爬,不是根據(jù)鏈接爬到另一個網(wǎng)頁來進(jìn)行抓取的。他是首先抓取一個網(wǎng)頁,提取出來所有URL,同時記錄和計算URL形式,他的位置,錨文本,當(dāng)前頁面的所賦予的權(quán)重等信息,然后將這些地址合并抓取到列表中,并且根據(jù)每個URL的值來進(jìn)行抓取排序,spider就是不斷根據(jù)這個url排序的變化來抓取內(nèi)容頁面的。Spider的訪問時單次訪問,每次訪問一個頁面就會把頁面信息抓取回來,不是說一個小蜘蛛,到網(wǎng)站沿著鏈接爬行大量頁面之后再返回。Spider的再次抓取更新策略Spider抓取一次網(wǎng)頁,被分析索引并且參與排名后,并不是就不會被重新訪問了,因?yàn)樗阉饕孀ト〉男畔⒋鎯υ谧约旱姆?wù)器上,就需要和所訪問的網(wǎng)站保持信息的更新同步,因此Spider會根據(jù)一定策略對已抓取網(wǎng)頁進(jìn)行再次訪問。因?yàn)橘Y源有限,Spider只會有針對性的訪問網(wǎng)站。一般來說:用戶體驗(yàn),歷史更新頻率,網(wǎng)頁類型和網(wǎng)頁權(quán)重,直接影響了再次訪問抓取的頻率。1、何為用戶體驗(yàn)因?yàn)橛脩粢话銥g覽自己搜索內(nèi)容的前三頁結(jié)果,第四頁以后都會很少瀏覽,所以搜素引擎會收集所有用戶的搜索請求,統(tǒng)計所有搜索結(jié)果中,用戶可能看到的網(wǎng)頁,進(jìn)行再次的優(yōu)先抓取和更新。理論上網(wǎng)頁被搜索的次數(shù)越多,再次被抓取的頻率就會越高。歷史更新頻率網(wǎng)站頁面的主體內(nèi)容部分穩(wěn)定的更新頻率,也會帶來搜索的穩(wěn)定關(guān)注。但是更新的區(qū)域主要是內(nèi)容區(qū)域,不是周圍的廣告和導(dǎo)航和推薦模塊。網(wǎng)頁類型一個網(wǎng)站有不同的網(wǎng)頁類型,有著不同的更新頻率,Spider的關(guān)注和抓取的頻率也會有所不同。同一個站點(diǎn)內(nèi):分為:首頁、欄目頁、專題頁和內(nèi)容頁,一般情況下,首頁和欄目頁都是Spider經(jīng)常關(guān)顧的頁面。根據(jù)專題頁面的時效性和特點(diǎn),Spider可能會在一段時間內(nèi)進(jìn)行頻繁抓取,時效性過后就會降低頻率,內(nèi)容頁可能在第一次抓取之后就基本不會再來網(wǎng)頁權(quán)重值除了上述的因素,網(wǎng)頁權(quán)重也會影響到網(wǎng)頁的再次抓取的頻率。因此在SEO工作中,有時候?yàn)榱颂岣吣骋痪W(wǎng)站的抓取頻率,一般會重點(diǎn)為該頁面的鏈接提高權(quán)重,加大該網(wǎng)頁的更新頻率。在用戶體驗(yàn)方面我們可以用標(biāo)題和描述吸引點(diǎn)擊,不僅可以提升排名,也可以間接增加頁面被Spider抓取的頻率。Spider的優(yōu)缺點(diǎn)1,Spider不能很好的讀取JS、Ajax和flash中的內(nèi)容。2,Spider是直接訪問網(wǎng)站的。3,Spider不會主動注冊登錄,不會分析和抓取robots中已經(jīng)屏蔽的內(nèi)容。4,Spider對于多個動態(tài)參數(shù)的網(wǎng)站抓取,可能會陷入死循環(huán)。5,Spider對于列表中前幾頁的新內(nèi)容抓取可能不好。6,Spider暫時還不能判斷文章是不是原創(chuàng)的。搜索引擎的內(nèi)容處理、中文分詞和索引內(nèi)容處理1,判斷頁面類型,是普通網(wǎng)頁還是各種格式的文件。2,提取網(wǎng)頁的文本信息。搜索引擎對于網(wǎng)頁的索引還是以文本為主,還會提取下網(wǎng)頁的Title、Kewords、Description.3,去除頁面噪音,去除廣告、導(dǎo)航、鏈接、圖片、登陸框、網(wǎng)站版權(quán)信息等內(nèi)容。只提取該網(wǎng)頁的主體內(nèi)容。甚至與頁面不相干的鏈接文本也會被保留索引。4、去除內(nèi)容中的停止詞,對正文內(nèi)容的處理,搜索引擎去除諸如:得、的、啊、地、呀、卻之類的停止詞。經(jīng)過這些處理之后,抓取的內(nèi)容就比較干凈了,這樣搜索引擎就會對有價值的內(nèi)容進(jìn)行排序了。中文分詞分詞是中文才有的技術(shù),因?yàn)橹形膯我坏淖质菦]辦法表達(dá)一個完整的意思的。計算機(jī)沒辦法詞把中文分為單個字來理解,所以需要引入分詞技術(shù)。例如:我是一個學(xué)生,就會被切分為:我|是|一個|學(xué)生。1,基于詞典匹配2,基于統(tǒng)計索引搜索引擎使用的是倒排索引,就是以關(guān)鍵詞為核心,進(jìn)行內(nèi)容匹配。倒排索引中不僅僅記錄了相應(yīng)關(guān)鍵詞文件的ID,還會記錄關(guān)鍵詞頻率,每個關(guān)鍵詞對應(yīng)的文件頻率,以及關(guān)鍵詞出現(xiàn)在文件中的位置等信息。這些信息會在排名過程中分別進(jìn)行加權(quán)處理,應(yīng)用到最終的排名中去。網(wǎng)頁去重原理去重就是搜索引擎對于不同站點(diǎn)上的大量的重復(fù)信息進(jìn)行去除,屏蔽處理。搜索引擎一般會對已經(jīng)抓取的重復(fù)頁面進(jìn)行歸類處理。比如:判斷某個網(wǎng)站是否包含大量的重復(fù)頁面,判斷是否為完全采集站點(diǎn),如果判定會予以處罰處理。用戶搜索需求分析搜索詞分析用戶提交搜索請求之后,搜索引擎會判斷搜索詞的類型:普通文本搜索、普通文本帶有高級指令搜索還是純粹的高級指令搜索。純粹高級指令搜索:例如:site:,inurl:和intitle:site:,inurl:要求搜索引擎之匹配網(wǎng)頁地址Intitle:要求只匹配網(wǎng)頁title。如果是純文本搜索,搜索引擎先對搜索詞進(jìn)行分詞,確定搜索意圖,然后進(jìn)行內(nèi)容匹配。搜索詞分析其實(shí)就用來明確搜索意圖的。搜索意圖分析搜索意圖分析是為了明確用戶的目的,為精準(zhǔn)匹配相關(guān)信息提供核心依據(jù)。但是當(dāng)用戶搜索一些比較寬泛的關(guān)鍵詞時候就需要分析用戶的搜索意圖,來進(jìn)行需求判斷,例如搜索范冰冰嗎,就會使用整合搜索,提供關(guān)于范冰冰的所有新,只是根據(jù)歷史統(tǒng)計中的用戶關(guān)注重點(diǎn)比例,來進(jìn)行相應(yīng)的排名調(diào)整如果搜索的是通用詞匯時候,例如搜索KFC,在南京和北京,就會分別顯示的是當(dāng)?shù)匦畔橹?。因?yàn)闀袛啻笾碌腎P所處地址。如果用戶反復(fù)搜索一個寬泛的關(guān)鍵詞,搜索引擎會使用cookie記錄的信息,優(yōu)先顯示用戶頻繁點(diǎn)擊的頁面。如果對于同一關(guān)鍵詞搜索出來結(jié)果的同一網(wǎng)頁,搜索點(diǎn)擊人數(shù)比例過大,也會影響到常規(guī)網(wǎng)頁的排序,因此網(wǎng)頁點(diǎn)擊量,會影響排名。搜索引擎對搜索詞,用戶屬性,歷史記錄分析確定用戶需求,從索引庫中檢索與搜索詞最相關(guān)最重要的頁面,進(jìn)行排序后,再引入用戶搜索意圖對排序結(jié)果進(jìn)行調(diào)整。相關(guān)性計算相關(guān)性指的是:內(nèi)容和關(guān)鍵詞的相關(guān)程度?,F(xiàn)在的搜索引擎其實(shí)沒有真正解決相關(guān)性計算的問題,只有通過關(guān)鍵詞分詞匹配,關(guān)鍵詞在內(nèi)容中的頻率密度,關(guān)鍵詞字體位置和頁面外鏈等外表特征來進(jìn)行內(nèi)容相關(guān)度計算。因?yàn)樗阉饕孢€沒辦法真正理解搜索詞和文章所表達(dá)的含義。為了更加精確,搜索引擎判斷相關(guān)性關(guān)鍵詞匹配和語義分析雙結(jié)合進(jìn)行判斷。關(guān)鍵詞匹配搜索引擎對搜索詞在索引庫中的檢索過程如下:1,采用分詞,把用戶提交的搜索詞分為詞1和詞22,同時使用1、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論