這就是搜索引擎_第1頁
這就是搜索引擎_第2頁
這就是搜索引擎_第3頁
這就是搜索引擎_第4頁
這就是搜索引擎_第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

評論:這就是搜索引擎一本讓你走進(jìn)搜索引擎領(lǐng)域的書推薦三本搜索引擎相關(guān)的書:

1.這就是搜索引擎適合于所有沒有真正從事過搜索引擎行業(yè),并且對搜索引擎有著濃厚興趣的人作為搜索引擎入門書。很淺顯,看的很輕松,但是它卻把各個知識點很好地整合到了一起,形成了一張完整的搜索引擎的脈絡(luò)圖。2.走進(jìn)搜索引擎體系化程度較好3.深入搜索引擎:海量信息的壓縮、索引和查詢非常詳細(xì)地講了關(guān)于搜索引擎的算法知識,加上我在網(wǎng)上看的一些零零散散的搜索引擎資料,倒也能自己折騰折騰出一個非常簡單的搜索引擎來。

前言為什么會有這本書要給團(tuán)隊成員做搜索技術(shù)培訓(xùn),但卻沒有發(fā)現(xiàn)非常合適的搜索技術(shù)入門書籍。所以萌生了寫一本既通俗易懂,適合沒有相關(guān)技術(shù)背景的人員閱讀,義比較全面,且融入最新技術(shù)的搜索引擎書籍。本書的目標(biāo)首先內(nèi)容要全面,即全面覆蓋搜索引擎相關(guān)技術(shù)的主要方面,不僅要包含倒排索引、檢索模型和爬蟲等常見內(nèi)容,也要詳細(xì)講解鏈接分析、網(wǎng)頁反作弊、用戶搜索意圖分析、云存儲及網(wǎng)頁去重,甚至是搜索引擎緩存等內(nèi)容,這些都是一個完整搜索引擎的有機(jī)構(gòu)成部分,但是詳述其原理的書籍并不多,我希望能夠盡可能全面些。

第二個目標(biāo)是通俗易懂。我希望沒有任何相關(guān)技術(shù)背景的人也能夠通過閱讀這本書有所收獲,最好是不懂技術(shù)的同學(xué)也能大致看懂。具體的措施,則包含以下三個方面?!ひ粋€是盡可能減少數(shù)學(xué)公式的出現(xiàn)次數(shù),除非不得已不羅列公式?!ひ粋€是盡可能多舉例子,尤其是一些比較難理解的地方,需要例子來增進(jìn)理解?!み€有一個是多畫圖。把算法轉(zhuǎn)換成形象的圖片。本書包含了超過300幅算法原理講解圖,在講解算法的地方,大量采用了算法原理圖。第三個目標(biāo)是強(qiáng)調(diào)新現(xiàn)象新技術(shù),比如Google的咖啡因系統(tǒng)及Megastore等云存儲系統(tǒng)、Pregel云圖計算模型、暗網(wǎng)爬取技術(shù)、Web2.0網(wǎng)頁作弊、機(jī)器學(xué)習(xí)排序、情境搜索、社會化搜索等在相關(guān)章節(jié)都有講解。第四個目標(biāo)是強(qiáng)調(diào)原理,不糾纏技術(shù)細(xì)節(jié)。這里有個“道術(shù)孰優(yōu)”的問題,《孫子兵法》是道,而《三十六計》則為術(shù)。算法本身的細(xì)節(jié)是“術(shù)”,算法體現(xiàn)的基本思想則是“道”,兩者雖不可偏廢,但是若要選擇優(yōu)先級的話,無疑我會選擇先“道”后“術(shù)”。這本書是寫給誰的如果您是下列人員之一,那么本書就是寫給您的。1.對搜索引擎核心算法有興趣的技術(shù)人員2,對云計算與云存儲有興趣的技術(shù)人員。3.從事搜索引擎優(yōu)化的網(wǎng)絡(luò)營銷人員及中小網(wǎng)站站長第1章搜索引擎的索引常見的索引:書籍的目錄就是一種索引結(jié)構(gòu),hao123導(dǎo)航網(wǎng)站——互聯(lián)網(wǎng)頁面中的索引結(jié)構(gòu)在數(shù)據(jù)庫中,采用B+索引來提升系統(tǒng)效率。搜索引擎中最重要的核心技術(shù)之一:倒排索引1.1索引基礎(chǔ)1.1.1單詞—文檔矩陣1.1.2倒排索引(InvertedIndex)基本概念倒排索引是實現(xiàn)單詞—文檔矩陣的一種具體存儲形式。通過倒排索引,可以根據(jù)單詞快速獲取包含這個單詞的文檔列表。倒排索引主要由兩個部分組成:單詞詞典和倒排文件。單詞詞典(Lexicon):搜索引擎通常的索引單位是單詞,單詞詞典是由文檔集合中出現(xiàn)過的所有單詞構(gòu)成的字符串集合,單詞詞典內(nèi)每條索引項記載單詞本身的一些信息及指向倒排列表的指針。倒排列表(PostingList):倒排列表記載了出現(xiàn)過某個單詞的所有文檔的文檔列表及單詞在該文檔中出現(xiàn)的位置信息,每條記錄稱為一個倒排項(Posting)。根據(jù)倒排列表,即可獲知哪些文檔包含某個單詞。倒排文件(InvertedFile):所有單詞的倒排列表往往順序地存儲在磁盤的某個文件里,這個文件即被稱為倒排文件,倒排文件是存儲倒排索引的物理文件。于這些概念之間的關(guān)系,通過圖1-2可以比較清晰地看出來。1.1.3倒排索引簡單實例圖1-4最簡單的倒排索引圖1-5帶有單詞頻率信息的倒排索引圖1-6帶有單詞頻率、文檔頻率和出現(xiàn)位置信息的倒排索引1.2單詞詞典對于一個規(guī)模很大的文檔集合來說,可能包含幾十萬甚至上百萬的不同單詞,能否快速定位某個單詞,這直接影響搜索時的響應(yīng)速度,所以需要高效的數(shù)據(jù)結(jié)構(gòu)來對單詞詞典進(jìn)行構(gòu)建和查找,常用的數(shù)據(jù)結(jié)構(gòu)包括哈希加鏈表結(jié)構(gòu)和樹形詞典結(jié)構(gòu)。1.2.1哈希加鏈表1.2.2樹形結(jié)構(gòu)1.3倒排列表(PostingList)倒排列表用來記錄有哪些文檔包含了某個單詞。一般在文檔集合里會有很多文檔包含某個單詞,每個文檔會記錄文檔編號(DocID),單詞在這個文檔中出現(xiàn)的次數(shù)(TF)及單詞在文檔中哪些位置出現(xiàn)過等信息,這樣與一個文檔相關(guān)的信息被稱做倒排索引項(Posting),包含這個單詞的一系列倒排索引項形成了列表結(jié)構(gòu),這就是某個單詞對應(yīng)的倒排列表。圖1-9是倒排列表的示意圖,在文檔集合中出現(xiàn)過的所有單詞及其對應(yīng)的倒排列表組成了倒排索引。圖1-9倒排列表示意圖1.4建立索引正如前面章節(jié)所述,索引結(jié)構(gòu)如果建立好了,可以提高搜索的速度,那么給定一個文檔集合,索引是如何建立起來的呢?建立索引的方式有很多種,本節(jié)敘述比較實用的3種建立索引的方法。1.4.1兩遍文檔遍歷法(2-PassIn-MemoryInversion)1.4.2排序法(Sort-basedInversion)1.4.3歸并法(Merge-basedInversion)1.4.1兩遍文檔遍歷法此方法在內(nèi)存里對文檔集合進(jìn)行兩遍掃描,完成索引的創(chuàng)建過程(另外兩種方法則是通過內(nèi)存和磁盤相互配合來完成索引建立任務(wù)的)。圖1-11是這種方法的示意圖。第一遍文檔遍歷第一遍掃描的主要目的是獲得一些統(tǒng)計信息,并根據(jù)統(tǒng)計信息分配內(nèi)存等資源,同時建立好單詞相對應(yīng)倒排列表在內(nèi)存中的位置信息,即主要做些資源準(zhǔn)備工作。第二遍文檔遍歷在第二遍掃描的時候,開始真正建立每個單詞的倒排列表信息,即對某個單詞來說,獲得包含這個單詞的每個文檔的文檔ID,以及這個單詞在文檔中的出現(xiàn)次數(shù)TF,這樣就可以不斷填充第一遍掃描所分配的內(nèi)存空間。當(dāng)?shù)诙閽呙杞Y(jié)束的時候,分配的內(nèi)存空間正好被填充滿,而每個單詞用指針?biāo)赶虻膬?nèi)存區(qū)域“片段”,其起始位置和終止位置之間的數(shù)據(jù)就是這個單詞對應(yīng)的倒排列表。1.4.2排序法(Sort-basedInversion)1.4.3歸并法(Merge-basedInversion)1.5動態(tài)索引1.6索引更新策略1.6.1完全重建策略(CompleteRe-Build)1.6.2再合并策略(Re-Merge)1.6.3原地更新策略(In-Place)1.6.4混合策略(Hybrid)1.6.1完全重建策略1.6.2再合并策略1.6.3原地更新策略1.6.4混合策略混合策略的出發(fā)點是能夠結(jié)合不同索引更新策略的長處,將不同的索引更新策略混合,以形成更高效的方法?;旌喜呗砸话銜卧~根據(jù)其不同性質(zhì)進(jìn)行分類,不同類別的單詞,對其索引采取不同的索引更新策略。常見的做法是:根據(jù)單詞的倒排列表長度進(jìn)行區(qū)分,因為有些單詞經(jīng)常在不同文檔中出現(xiàn),所以其對應(yīng)的倒排列表較長,而有些單詞很少見,則其倒排列表就較短。根據(jù)這一性質(zhì)將單詞劃分為長倒排列表單詞和短倒排列表單詞。長倒排列表單詞采取原地更新策略,而短倒排列表單詞則采取再合并策略。第2章鏈接分析搜搜索引擎在查找能夠滿足用戶請求的網(wǎng)頁時,主要考慮兩方面的因素:一方面是用戶發(fā)出的查詢與網(wǎng)頁內(nèi)容的內(nèi)容相似性得分,即網(wǎng)頁和查詢的相關(guān)性,第5章已經(jīng)就內(nèi)容相似性計算做了介紹;另一方面就是通過鏈接分析方法計算獲得的得分,即網(wǎng)頁的重要性。搜索引擎融合兩者,共同擬合出相似性評分函數(shù),來對搜索結(jié)果進(jìn)行排序。本章主要介紹一些著名的鏈接分析方法。2.1Web圖如果將一個網(wǎng)頁抽象成一個節(jié)點,而將網(wǎng)頁之間的鏈接理解為一條有向邊,則可以把整個互聯(lián)網(wǎng)抽象為一個包含頁面節(jié)點和節(jié)點之間聯(lián)系邊的有向圖,稱之為Web圖。圖2-1給出了Web圖的形象化表示。圖2-2入鏈與出鏈錨文字是某個出鏈附近的一些描述文字2.2兩個概念模型及算法之間的關(guān)系2.2.1隨機(jī)游走模型(RandomSurferModel)隨機(jī)游走模型就是一個對直接跳轉(zhuǎn)和遠(yuǎn)程跳轉(zhuǎn)兩種用戶瀏覽行為進(jìn)行抽象的概念模型。2.2.2子集傳播模型子集傳播模型是從諸多鏈接分析算法中抽象出來的概念模型2.2.1隨機(jī)游走模型2.2.2子集傳播模型2.2.3鏈接分析算法之間的關(guān)系2.3PageRank算法PageRank是Google創(chuàng)始人于1997年構(gòu)建早期的搜索系統(tǒng)原型時提出的鏈接分析算法(參見圖2-8),自從Google在商業(yè)上獲得空前的成功后,該算法也成為其他搜索引擎和學(xué)術(shù)界十分關(guān)注的計算模型。2.3.1從入鏈數(shù)量到PageRank在PageRank提出之前,已經(jīng)有研究者提出利用網(wǎng)頁的入鏈數(shù)量來進(jìn)行鏈接分析計算,這種入鏈方法假設(shè)一個網(wǎng)頁的入鏈越多,則該網(wǎng)頁越重要。早期的很多搜索引擎也采納了入鏈數(shù)量作為鏈接分析方法,對于搜索引擎效果提升也有較明顯的效果。PageRank除了考慮到入鏈數(shù)量的影響,還參考了網(wǎng)頁質(zhì)量因素,兩者相結(jié)合獲得了更好的網(wǎng)頁重要性評價標(biāo)準(zhǔn)。2.3.2PageRank計算2.3.3鏈接陷阱(LinkSink)與遠(yuǎn)程跳轉(zhuǎn)(Teleporting)互聯(lián)網(wǎng)頁面之間的鏈接結(jié)構(gòu)實際上很復(fù)雜,上一小節(jié)介紹了PageRank的計算過程,但是對于某些特殊的鏈接結(jié)構(gòu),按照上述方法計算PageRank會導(dǎo)致問題,一個典型的例子就是“鏈接陷阱”(參見圖2-10)。2.4HITS算法HITS(HypertextInducedTopicSelection)算法也是鏈接分析中非常基礎(chǔ)且重要的算法,目前已被Teoma搜索引擎()作為鏈接分析算法在實際中使用。2.4.1Hub頁面與Authority頁面Hub頁面和Authority頁面是HITS算法最基本的兩個定義。Authority頁面,是指與某個領(lǐng)域或者某個話題相關(guān)的高質(zhì)量網(wǎng)頁。比如搜索引擎領(lǐng)域,Google和百度首頁即該領(lǐng)域的高質(zhì)量網(wǎng)頁;比如視頻領(lǐng)域,優(yōu)酷和土豆首頁即該領(lǐng)域的高質(zhì)量網(wǎng)頁。Hub頁面指的是包含了很多指向高質(zhì)量Authority頁面鏈接的網(wǎng)頁,比如hao123首頁可以認(rèn)為是一個典型的高質(zhì)量Hub網(wǎng)頁。2.4.2相互增強(qiáng)關(guān)系很多算法都是建立在一些假設(shè)之上的,HITS算法也不例外。HITS算法隱含并利用了兩個基本假設(shè):基本假設(shè)1:一個好的Authority頁面會被很多好的Hub頁面指向。基本假設(shè)2:一個好的Hub頁面會指向很多好的Authority頁面。這里兩個修飾語非常重要:“很多”和“好的”,所謂“很多”,即被越多的Hub頁面指向越好,所謂“好的”,意味著指向該頁面的Hub頁面質(zhì)量越高,則頁面越好。這綜合了指向本頁面的所有Hub節(jié)點的數(shù)量和質(zhì)量因素。到目前為止,無論是從Hub頁面或者Authority頁面的定義也好,還是從兩個基本假設(shè)也好,都能看到一個模糊的描述,即“高質(zhì)量”或者“好的”,那么什么是“好的”Hub頁面?什么是“好的”Authority頁面?兩個基本假設(shè)給出了所謂“好”的定義?;炯僭O(shè)1說明了什么是“好的”Authority頁面,即被很多好的Hub頁面指向的頁面是好的Hub頁面和Authority頁面之間的相互增強(qiáng)從以上兩個基本假設(shè)可以推導(dǎo)出圖2-12,即某個網(wǎng)頁的Hub質(zhì)量越高,則其鏈接指向的頁面的Authority質(zhì)量越好;反過來,一個網(wǎng)頁的Authority質(zhì)量越高,則那些有鏈接指向本網(wǎng)頁的頁面Hub質(zhì)量越高。通過這種相互增強(qiáng)關(guān)系不斷迭代計算,即可找出哪些頁面是高質(zhì)量的Hub頁面,哪些頁面是高質(zhì)量的Authority頁面。2.4.3HITS算法PageRank算法是與查詢無關(guān)的全局算法。HITS算法與用戶輸入的查詢請求密切相關(guān),后續(xù)計算步驟都是在接收到用戶查詢后展開的,即是與查詢相關(guān)的鏈接分析算法。HITS算法接收到了用戶查詢之后,將查詢提交給某個現(xiàn)有的搜索引擎(或者是自己構(gòu)造的檢索系統(tǒng)),并在返回的搜索結(jié)果中,提取排名靠前的網(wǎng)頁,得到一組與用戶查詢高度相關(guān)的初始網(wǎng)頁集合,這個集合被稱做根集(RootSet)。在根集的基礎(chǔ)上,HITS算法對網(wǎng)頁集合進(jìn)行擴(kuò)充(參考圖2-13),擴(kuò)充原則是:凡是與根集內(nèi)網(wǎng)頁有直接鏈接指向關(guān)系的網(wǎng)頁都被擴(kuò)充進(jìn)來,無論是有鏈接指向根集內(nèi)頁面也好,或者是根集頁面有鏈接指向的頁面也好,都被擴(kuò)充進(jìn)入擴(kuò)展網(wǎng)頁集合。HITS算法在這個擴(kuò)展網(wǎng)頁集合內(nèi)尋找好的Hub頁面與好的Authority頁面。2.4.4HITS算法存在的問題計算效率較低主題漂移問題易被作弊者操縱結(jié)果結(jié)構(gòu)不穩(wěn)定2.4.5HITS算法與PageRank算法比較HITS算法是與用戶輸入的查詢請求密切相關(guān)的,而PageRank與查詢請求無關(guān)。所以,HITS算法可以單獨作為相似性計算評價標(biāo)準(zhǔn),而PageRank必須結(jié)合內(nèi)容相似性計算才可以用來對網(wǎng)頁相關(guān)性進(jìn)行評價。HITS算法因為與用戶查詢密切相關(guān),所以必須在接收到用戶查詢后進(jìn)行實時計算,計算效率較低;而PageRank則可以在爬蟲抓取完成后離線計算,在線直接使用計算結(jié)果,計算效率較高。HITS算法的計算對象數(shù)量較少,只需計算擴(kuò)展集合內(nèi)網(wǎng)頁之間的鏈接關(guān)系;而PageRank是全局性算法,對所有互聯(lián)網(wǎng)頁面節(jié)點進(jìn)行處理。從兩者的計算效率和處理對象集合大小來比較,PageRank更適合部署在服務(wù)器端,而HITS算法更適合部署在客戶端。HITS算法存在主題泛化問題,所以更適合處理具體的用戶查詢;而PageRank算法在處理寬泛的用戶查詢時更有優(yōu)勢。HITS算法在計算時,對于每個頁面需要計算兩個分值,而PageRank算法只需計算一個分值即可;在搜索引擎領(lǐng)域,更重視HITS算法計算出的Authority權(quán)值,但是在很多應(yīng)用HITS算法的其他領(lǐng)域,Hub分值也有很重要的作用。從鏈接反作弊的角度來說,PageRank從機(jī)制上優(yōu)于HITS算法,而HITS算法更易遭受鏈接作弊的影響。HITS算法結(jié)構(gòu)不穩(wěn)定,當(dāng)對擴(kuò)展網(wǎng)頁集合內(nèi)鏈接關(guān)系做出很小改變,則對最終排名有很大影響;而PageRank算法相對HITS而言表現(xiàn)穩(wěn)定,其根本原因在于PageRank計算時的遠(yuǎn)程跳轉(zhuǎn)。2.5SALSA算法SALSA算法的初衷希望能夠結(jié)PageRank算法和HITS算法的主要特點,既可以利用HITS算法與查詢相關(guān)的特點,也可以采納PageRank的隨機(jī)游走模型,這是SALSA算法提出的背景。由此可見,SALSA算法融合了PageRank和HITS算法的基本思想,從實際效果來說,很多實驗數(shù)據(jù)表明,SALSA的搜索效果也都優(yōu)于前兩個算法,是目前效果最好的鏈接分析算法之一。從整體計算流程來說,可以將SALSA劃分為兩個大的階段:首先是確定計算對象集合的階段,這一階段與HITS算法基本相同;第2個階段是鏈接關(guān)系傳播過程,在這一階段則采納了隨機(jī)游走模型。2.5.1確定計算對象集合2.5.2鏈接關(guān)系傳播2.5.3Authority權(quán)值計算2.6主題敏感PageRank(TopicSensitivePageRank)主題敏感PageRank是PageRank算法的改進(jìn)版本,該算法已被Google使用在個性化搜索服務(wù)中。2.6.1主題敏感PageRank與PageRank的差異2.6.2主題敏感PageRank計算流程2.6.3利用主題敏感PageRank構(gòu)造個性化搜索2.6.1主題敏感PageRank與PageRank的差異PageRank算法基本遵循隨機(jī)游走模型,即用戶在瀏覽某個網(wǎng)頁時,如果希望跳轉(zhuǎn)到其他頁面,則隨機(jī)選擇本網(wǎng)頁中的某鏈接,進(jìn)入另一個頁面。主題敏感PageRank則對該概念模型做出改進(jìn),引入了更符合現(xiàn)實的假設(shè)。即當(dāng)用戶看完當(dāng)前頁面,希望跳轉(zhuǎn)時,更傾向于點擊和當(dāng)前頁面主題類似的鏈接,即主題敏感PageRank是將用戶興趣、頁面主題及鏈接所指向網(wǎng)頁與當(dāng)前網(wǎng)頁主題的相似程度綜合考慮而建立的模型。很明顯,這更符合真實用戶的瀏覽過程。2.6.2主題敏感PageRank計算流程分類主題PageRank計算在線相似度計算2.6.3利用主題敏感PageRank構(gòu)造個性化搜索主題敏感PageRank算法非常適合作為個性化搜索的技術(shù)方案。在如圖2-21所示的例子里,計算相似度使用的只有用戶當(dāng)前輸入的查詢詞“喬丹”,如果能夠?qū)Υ诉M(jìn)行擴(kuò)展,即不僅使用當(dāng)前查詢詞,也考慮利用用戶過去的搜索記錄等個性化信息。比如用戶之前搜索過“耐克”,則可以推斷用戶輸入“喬丹”是想購買運動服飾,而如果之前搜索過“姚明”,則很可能用戶希望獲得體育方面的信息。通過這種方式,可以將用戶的個性化信息和當(dāng)前查詢相融合來構(gòu)造搜索系統(tǒng),以此達(dá)到個性化搜索的目的,更精準(zhǔn)地提供搜索服務(wù)。2.7Hilltop算法Hilltop算法是Torono大學(xué)研發(fā)的鏈接分析算法,在2003年被Google公司收購,而Google在之后的排序算法大改版中引入了Hilltop算法。Hilltop算法融合了HITS和PageRank兩個算法的基本思想。一方面,Hilltop是與用戶查詢請求相關(guān)的鏈接分析算法,吸收了HITS算法根據(jù)用戶查詢獲得高質(zhì)量相關(guān)網(wǎng)頁子集的思想,符合子集傳播模型,是該模型的一個具體實例;同時,在權(quán)值傳播過程中,Hilltop算法也采納了PageRank的基本指導(dǎo)思想,即通過頁面入鏈的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序權(quán)重。2.7.1Hilltop算法的一些基本定義非從屬組織頁面(Non-affiliatedPages)是Hilltop算法的一個很重要的定義。要了解什么是非從屬組織頁面,先要搞明白什么是從屬組織網(wǎng)站,所謂的從屬組織網(wǎng)站,即不同的網(wǎng)站屬于同一機(jī)構(gòu)或者其擁有者有密切關(guān)聯(lián)。具體而言,滿足如下任意一條判斷規(guī)則的網(wǎng)站會被認(rèn)為是從屬網(wǎng)站。條件1:主機(jī)IP地址的前3個子網(wǎng)段相同,比如:IP地址分別為27和34的兩個網(wǎng)站會被認(rèn)為是從屬網(wǎng)站。條件2:如果網(wǎng)站域名中的主域名相同,比如和會被認(rèn)為是從屬組織網(wǎng)站。從屬組織頁面與非從屬組織頁面2.7.2Hilltop算法步驟二:目標(biāo)頁面排序2.8其他改進(jìn)算法上面詳述了5個非常重要的鏈接分析算法,在此基礎(chǔ)上,學(xué)術(shù)界提出了很多改進(jìn)方法,本節(jié)簡述其中幾個相對重要方法的基本思路和本質(zhì)思想。2.8.1智能游走模型(IntelligentSurferModel)2.8.2偏置游走模型(BiasedSurferModel)2.8.3PHITS算法(ProbabilityAnalogyofHITS)2.8.4BFS算法(BackwardForwardStep)第3章網(wǎng)頁反作弊網(wǎng)頁反作弊是目前所有商業(yè)搜索引擎需要解決的重要難點,出于商業(yè)利益驅(qū)使,很多網(wǎng)站站長會針對搜索引擎排名進(jìn)行分析,并采取一些手段來提高網(wǎng)站排名,雖然很多優(yōu)化行為是符合搜索引擎排序規(guī)則的,但是也存在一些惡意的優(yōu)化行為,通過特殊手段將網(wǎng)頁的搜索排名提高到與其網(wǎng)頁質(zhì)量不相稱的位置,而搜索引擎為了保證排名的公正性,也需要對作弊行為進(jìn)行識別和處罰。本章主要講解目前常見的一些互聯(lián)網(wǎng)網(wǎng)頁作弊方法及搜索引擎公司對應(yīng)的反制措施。比較常見的作弊方法包括:內(nèi)容作弊、鏈接作弊、隱藏作弊及最近幾年興起的Web2.0作弊方法。學(xué)術(shù)界和搜索引擎公司也有針對性地提出了各種反作弊算法,本章將介紹比較典型的各類反作弊算法思路,并抽象出了幾種反作弊算法的框架。3.1內(nèi)容作弊3.1.1常見內(nèi)容作弊手段3.1.2內(nèi)容農(nóng)場(ContentFarm)3.1.1常見內(nèi)容作弊手段1.關(guān)鍵詞重復(fù)2.無關(guān)查詢詞作弊3.圖片alt標(biāo)簽文本作弊4.網(wǎng)頁標(biāo)題作弊5.網(wǎng)頁重要標(biāo)簽作弊6.網(wǎng)頁元信息作弊3.1.2內(nèi)容農(nóng)場(ContentFarm)內(nèi)容農(nóng)場通過雇人寫作大量低質(zhì)量內(nèi)容吸引流量,這些寫作有機(jī)地將搜索引擎的熱門搜索詞添加到寫作內(nèi)容中。這樣,普通搜索引擎用戶在搜索時,會被吸引進(jìn)入內(nèi)容農(nóng)場網(wǎng)站,,賺取廣告費用。3.2鏈接作弊所謂鏈接作弊,是網(wǎng)站擁有者考慮到搜索引擎排名中利用了鏈接分析技術(shù),所以通過操縱頁面之間的鏈接關(guān)系,或者操縱頁面之間的鏈接錨文字,以此來增加鏈接排序因子的得分,并影響搜索結(jié)果排名的作弊方法。常見的鏈接作弊方法眾多,此節(jié)簡述幾種比較流行的作弊方法。1.鏈接農(nóng)場(LinkFarm)2.Google轟炸(GoogleBombing)3.交換友情鏈接作弊者通過和其他網(wǎng)站交換鏈接,相互指向?qū)Ψ降木W(wǎng)頁頁面,以此來增加網(wǎng)頁排名。很多作弊者過分地使用此手段,但是并不意味著使用這個手段的都是作弊網(wǎng)站,交換友情鏈接的做法也是正常網(wǎng)站的常規(guī)措施。4.購買鏈接有些作弊者會通過購買鏈接的方法,即花錢讓一些排名較高的網(wǎng)站的鏈接指向自己的網(wǎng)頁,以此來提高網(wǎng)站排名。5.購買過期域名有些作弊者會購買剛剛過期的域名,因為有些過期域名本身的PageRank排名是很高的,通過購買域名可以獲得高價值的外鏈。6.“門頁”作弊(DoorwayPages)“門頁”本身不包含正

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論