網(wǎng)站改版帶來404抓取錯誤解決實踐_第1頁
網(wǎng)站改版帶來404抓取錯誤解決實踐_第2頁
網(wǎng)站改版帶來404抓取錯誤解決實踐_第3頁
網(wǎng)站改版帶來404抓取錯誤解決實踐_第4頁
網(wǎng)站改版帶來404抓取錯誤解決實踐_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、網(wǎng)站改版帶來的 404 抓取錯誤解決實踐網(wǎng)站建設(shè)中一項重要的就是改版,每次改版肯定是往好的方面進行,因為每個階段的定位不同,我們要網(wǎng)站所表現(xiàn)的企業(yè)形象也不同,而且一個好看大氣的網(wǎng)站絕對能夠在潛在心里提升我們的地位。但是多數(shù)的改版對于我們網(wǎng)站的 SEO 都會造成一定的影響,這里就需要我們對網(wǎng)站的情況掌握的非常熟悉之后,然后進行有效地控制,減少改版造成的 404 頁面過多情況。最近有一個新網(wǎng)站上線,因為是一年多的域名,0c81f9e 寶運萊 之前網(wǎng)站和新站內(nèi)容完全不同,網(wǎng)站結(jié)構(gòu)也做了很大的調(diào)整,所以帶來了很多的 404 錯誤抓取頁面,當(dāng)時并沒有特別注意這個問題,后來持續(xù)更新了 2個星期左右,發(fā)現(xiàn)快

2、照都沒有更新,發(fā)了一些簡單的外鏈也沒有作用,這個問題就引起了我的注意。下面具體的跟大家分析下自己的一些思路:1、利用日志分析工具找到 404 錯誤抓取頁面日志分析工具利用最常用的光年日志分析工具就可以了,首先利用 FTP 下載好最近幾天的網(wǎng)站LOG 日志,當(dāng)然,想更多的分析,那么多下載一段時間的 LOG 日志也可以,利用日志分析工具新建任務(wù)0c81f9e 寶運萊 分析各個階段的百度蜘蛛抓取情況,這里主要考慮百度抓取情況,因為建立這個分析的前提是快照停滯,收錄為 1。這里建議大家分為三個時間段來分析:A、分析最近一天的 LOG 日志,可以是今天的,但是最好是昨天的,因為昨天的會比較全,今天的你即

3、使是晚上來分析也會有一部分時間沒有統(tǒng)計到。B、分析改版之后的 LOG 日志,因為這涉及到百度蜘蛛對于網(wǎng)站改版的一些判斷,例如我們可以分0c81f9e 寶運萊 析百度蜘蛛什么時候開始判斷網(wǎng)站已經(jīng)改版,或者什么時候已經(jīng)放棄對于舊站 URL 的抓取等等。C、改版前后抓取量的對比,分析改版對于百度蜘蛛的抓取量影響多大。至于日志分析后面的分析都是一鍵式的,具體的分析思路有了之后,我們對照著進行分析,就會找到很多平時我們沒有注意到的問題,例如下面出來改版造成的 404 頁面,還有不少的頁面也是 404錯誤,我并沒有意識到,例如下面的 wp-login.php頁面就是一個最典型的例子:0c81f9e 寶運萊

4、 404 錯誤抓取頁面2、利用百度站長工具中的死鏈提交工具進行死鏈提交百度站長平臺 LEE 團隊說:404 狀態(tài)碼代表NotFound ,spider 更新時會認(rèn)為該頁面已失效,此時呢將在索引庫中刪除,短期內(nèi) spider 再次發(fā)現(xiàn)該 url 不再會抓取。當(dāng)然,百度的說法只能作參考,因為分析網(wǎng)站日志發(fā)現(xiàn),2 個多星期百度蜘蛛還是來抓取這些錯誤頁面,當(dāng)然,百度對于 404 錯誤頁面的指導(dǎo)性操作,還是非常有針對性的。0c81f9e 寶運萊 百度站長平臺對 404 頁面的看法特別是死鏈提交工具中提交死鏈 sitemap,這一條大家可以根據(jù)自身的情況進行死鏈提交,我這邊提交后暫時還沒有大的效果,因為大

5、家都知道百度的效果展現(xiàn)周期一般都比較長。3、利用 robots.txt 和 nofollow 標(biāo)簽引導(dǎo)蜘蛛抓取404 錯誤頁面一個最大的壞處就是給蜘蛛帶來一些錯誤的抓取,浪費了蜘蛛抓取資源,舉個例子,首先我們要達(dá)成這樣的一個共識:任何一個網(wǎng)站的0c81f9e 寶運萊 蜘蛛抓取訪問資源都是有限的,小網(wǎng)站自然要少很多,而大網(wǎng)站就要多很多,要想蜘蛛抓取率更高,抓取的更合理,那么一些錯誤的鏈接造成的 404 錯誤量就要盡可能的減少。所以我這里針對網(wǎng)站的這些資源的浪費進行了適當(dāng)?shù)囊龑?dǎo),讓蜘蛛抓取我想讓他抓的一些頁面,對于/wuchenshi/、 /gaoxiao/等類似的欄目頁面都進行 robots 限制抓取,對于網(wǎng)站中一些不參與排名的鏈接實行 nofollow,引導(dǎo)蜘蛛抓取重要頁面。下面看看蜘蛛 6.3 號抓取的情況,首先目錄抓取中已經(jīng)沒有了網(wǎng)站中不存在的目錄:0c81f9e 寶運萊 蜘蛛對目錄的抓取情況對于蜘蛛訪問的 404 頁面,就只剩下一個的404

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論