搜索引擎反作弊技術(shù)及應(yīng)用解析獲獎科研報告_第1頁
搜索引擎反作弊技術(shù)及應(yīng)用解析獲獎科研報告_第2頁
搜索引擎反作弊技術(shù)及應(yīng)用解析獲獎科研報告_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

搜索引擎反作弊技術(shù)及應(yīng)用解析獲獎科研報告摘

要:互聯(lián)網(wǎng)時代人們檢索信息的主要方式都是利用搜索引擎完成的,不管是通用的全文搜索引擎,還是分類別的垂直搜索引擎,面臨的主要行為就是作弊行為,網(wǎng)頁作弊成為當(dāng)前搜索引擎面臨的一個重大挑戰(zhàn),很多作弊者利用各種作弊技術(shù)來騙取虛假或排名。信息時代的不斷發(fā)展,作弊行為也各種各樣,而搜索引擎需要通過不斷的優(yōu)化和完善內(nèi)部排序算法來有效杜絕作弊行為。

關(guān)鍵詞:搜索引擎;反作弊技術(shù);應(yīng)用研究

優(yōu)化網(wǎng)頁,自然排名才能夠有效地靠前,很多網(wǎng)頁通過騙術(shù)騙過搜索引擎,獲得絕佳排名,但是搜索引擎通過學(xué)會這些騙術(shù),提高自己防騙能力,這就是反作弊算法。網(wǎng)絡(luò)作弊的直接后果就是導(dǎo)致搜索引擎的質(zhì)量直線下降。在當(dāng)前網(wǎng)頁作弊主要分為內(nèi)容作弊,鏈接作弊和隱藏技術(shù)。網(wǎng)絡(luò)網(wǎng)頁作弊的大量泛濫會影響搜索引擎正常工作,也給用戶在獲取信息過程中帶來極大麻煩,因此通過研究各種網(wǎng)頁作弊的技術(shù)和方法。將當(dāng)前反作弊技術(shù)分為三大類,分別是基于網(wǎng)頁特征分析方法,基于網(wǎng)絡(luò)鏈接分析方法和檢測各種隱藏技術(shù)的方法。

一、作弊網(wǎng)頁的危害概述

搜索引擎是通過收取網(wǎng)絡(luò)中主要信息進行索引,構(gòu)建用戶的搜索請求提交給搜索引擎后,搜索引擎會通過搜索系統(tǒng)選出符合條件的網(wǎng)頁。網(wǎng)站的盈利就主要是借助于流量,網(wǎng)站流量越大,網(wǎng)站就可以拉到更多廣告投放,實現(xiàn)大面積的盈利,因此就有很多網(wǎng)站站長為了提高自身網(wǎng)站流量而進行作弊,利用一些非正常的手段提高網(wǎng)站搜索引擎內(nèi)部排名[1]。作弊網(wǎng)頁的存在對搜索引擎的威脅是非常明顯的,它不僅會增加搜索引擎的負擔(dān),而且嚴重降低了用戶對搜索引擎的信任程度。經(jīng)過研究證明網(wǎng)頁作弊同時具備多樣性和復(fù)雜性的特點,這給搜索引擎帶來極大的困難。隨著時代的發(fā)展,網(wǎng)絡(luò)作弊具備多樣性和復(fù)雜性的特征,很多情況下是幾種作弊方式相互結(jié)合的情況,這給搜索引擎工作帶來了極大的困難。所以需要通過反作弊技術(shù)和算法做好一定的作弊檢測,減少作弊網(wǎng)頁的危害。

二、反作弊技術(shù)和算法的基本研究

反作弊技術(shù)主要分為基于網(wǎng)頁特征分析的方法,基于網(wǎng)絡(luò)鏈接分析的方法,以及檢測各種隱藏技術(shù)的方法。

(一)基于網(wǎng)頁特征分析的方法

基于網(wǎng)頁特征分析技術(shù),這種方法就是從大規(guī)模的網(wǎng)頁實驗中提取網(wǎng)頁特征,通過統(tǒng)計的方法對特征進行分析,發(fā)展作弊網(wǎng)頁和正常網(wǎng)頁之間的不同特點,根據(jù)這些特征建立好一個網(wǎng)頁分類器,實現(xiàn)當(dāng)網(wǎng)頁自動分為作弊網(wǎng)頁和正常網(wǎng)頁。這是作為一項非?;A(chǔ)的反作弊技術(shù),通過對網(wǎng)頁主機名組成,主機和IP個數(shù)比例入鏈和出鏈數(shù)站點網(wǎng)頁的平均更新率內(nèi)容等信息進行有效的研究,發(fā)現(xiàn)其中蘊含的特征:有些域名很長,域名中還有一些特殊的字符,同時頻繁更換內(nèi)容,那么這些網(wǎng)頁就極有可能是作弊網(wǎng)頁。通過對這些特征進行有效的識別研究,就能夠?qū)ψ鞅拙W(wǎng)頁和正常網(wǎng)頁進行有效的區(qū)分,但是由于時代的不斷發(fā)展,這些作弊網(wǎng)頁的技術(shù)也在不斷發(fā)展,因此要想利用網(wǎng)頁特征分析的方法,有效的實現(xiàn)反作弊技術(shù)的發(fā)展,那么網(wǎng)頁特征分析的方法也需要與時俱進,不斷更新[2]。搜索引擎在抓取網(wǎng)頁時對網(wǎng)頁正文標題標簽進行分析,如果發(fā)現(xiàn)某個站點內(nèi)存在大量重復(fù)內(nèi)容或者是網(wǎng)頁的出現(xiàn),那么就可以判斷是一個作弊網(wǎng)頁。比如在一個網(wǎng)頁中出現(xiàn)超級和免費電影等詞語,這些詞語出現(xiàn)是單一的那么就不能判定為作弊網(wǎng)頁,但是這些詞語出現(xiàn)的頻率極高,出現(xiàn)多次這樣的詞語,那么就可以判定為作弊網(wǎng)頁,利用這種相關(guān)性的評分方式,能夠?qū)@樣的網(wǎng)頁進行評測

(二)基于網(wǎng)絡(luò)鏈接分析的方法

基于頁面鏈接分析的方法主要有兩種思路,分別是從正面出發(fā)的HillTop算法和TrustRank算法,以及從反面出發(fā)的BadRank算法,HillTop算法是在2001年提出的,這種算法認為主題相關(guān)的網(wǎng)頁之間的鏈接對于權(quán)重計算貢獻應(yīng)該比主題不相關(guān),鏈接的價值更高,所以這種算法就是假設(shè)網(wǎng)絡(luò)中的文檔,所指向的網(wǎng)頁不會是作弊頁面,專家頁面指向排序應(yīng)該更高。但是這種算法存在著一個致命弊端就是,如果找不到數(shù)量足夠的專家,文檔至少有兩個,那么該算法就失效。TrustRank算法是在2004年提出的,利用這種算法衡量網(wǎng)頁的可信度,從中挑出那些可能使用鏈接作弊的網(wǎng)頁,由人工判別是否在排名中降權(quán),這種算法的依據(jù)是好的頁面很少會有鏈接指向作弊頁面。但是需要有反作弊專家挑選網(wǎng)頁中的一個好的集合,根據(jù)這些集合中的鏈接關(guān)系,找到同樣好的網(wǎng)頁,將好的網(wǎng)頁也放在集合中。BadRank算法和提到的以上兩種算法是完全不同的,它是從反面出發(fā),發(fā)現(xiàn)那些肯定是作弊的網(wǎng)頁。主要流程就是維持一個作弊網(wǎng)易的黑名單,這個黑名單是通過用戶舉報或利用技術(shù)獲得的,然后內(nèi)容就是黑名單發(fā)現(xiàn)其他的作弊網(wǎng)頁。

(三)檢測各種隱藏技術(shù)的方法

結(jié)束語:

總結(jié)全文,網(wǎng)頁作弊成為搜索引擎的重大威脅,作弊網(wǎng)頁在搜索引擎檢索中獲得較高排名,獲取流量,利用多種作弊方式欺騙搜索引擎。伴隨著信息化時代的發(fā)展,新的作弊技術(shù)不斷出現(xiàn),甚至互

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論