有些網站內容用戶可以正常訪問,但百度搜索Baiduspider卻不能正常訪問抓取,導致網站關鍵詞搜索結果大量缺失,這種結果無論是對網站還是搜索引擎都是一種損失,百度搜索對于網站頁面不能正常抓取的情況稱之為“抓取異常”,百度搜索會認為你網站存在用戶體驗上的缺陷,降低你網站的評分,在網站頁面抓取、索引、排序方面都會存在有負面影響,最終影響網站的流量。

下面介紹一些百度蜘蛛抓取異常的常見原因:
1、服務器連接異常
服務器連接異常一般有兩種情況,一般是網站不穩定,百度搜索蜘蛛抓取你網站頁面的時候出現無法抓取的情況,另一種是百度搜索蜘蛛不能正常連接你的網站服務器。
網站服務器不能正常連接的問題一般是網站服務器負載過大,也有可能是你的網站程序問題,首先檢查網站web服務器(IIS或apache)是不是運行正常,并檢查網站主頁是不是可以正常打開,還要需要檢查網站和主機是不是阻止了百度搜索蜘蛛的訪問。
2、網絡運營商異常
網站服務器網絡運營商分為電信和聯通兩種,如果百度搜索蜘蛛無法通過電信或網通網絡訪問你的網站,出現這種情況,就需要與網站服務器運營商溝通,或者重新購買雙線網站服務器空間,也可以購買網站CND服務。
3、DNS異常
當出現百度搜索無法解析網站IP地址的時候,就會同現網門dns異常的情況,這種問題可能是你的域名IP解析錯誤了,也有可能是域名服務商把百度蜘蛛給屏蔽了,這時候我們可以使用whois或者host查詢自己的網站域名IP是不是解析正確了,如果是域名IP解析錯了,重新解析域名就行了,如果無法解析,就需要聯系域名注冊商了。
4、IP封禁
IP封禁,限制了網站服務器出口的IP地址,禁止了某IP段的用戶訪問網站內容,這里主要指的是封禁了百度搜索蜘蛛的IP段,這種情況是你不希望百度搜索蜘蛛訪問你的網站才需要封禁百度搜索蜘蛛的,如果你希望百度搜索蜘蛛訪問你的網站,請需要添加百度搜索蜘蛛IP段,如果你沒有封禁百度搜索蜘蛛IP段,也有可能是網站空間服務商把百度搜索蜘蛛IP段給封禁了,這種問題就需要找網站空間服務商解決了。
5、UA封禁
UA即為用戶代理(User-Agent),網站WEB服務器通過UA識別用戶身份,網站針對指定UA訪問,返回異常狀態碼,例如403、500狀態碼,或者跳轉到其它頁面,這種情況就稱之為UA封禁,這種情況是當你不希望百度搜索蜘蛛訪問你網站的時候,才需要設置這個,如果你希望百度搜索蜘蛛訪問你的網站,就需要檢查網站服務器是否被UA封禁了,如果有就需要及時進行處理。
6、死鏈
頁面已經無法打開,該頁面已經無法對用戶提供任何有價值的信息,這種頁面就稱之為死鏈接,死鏈接包括協議死鏈和內容死鏈兩種形式:
1、協議死鏈,網站頁面的TCP協議和HTTP協議狀態明確表示的死鏈,常見狀態碼有404、403、503;
2、內容死鏈,指的是web服務器狀態碼返回正常,但內容卻已經不在了,已經被刪除或者需要權限才可以訪問內容。
對于死鏈,我們建議站長使用協議死鏈,并通過站長平臺向搜索引擎提交死鏈接地址,可以幫助搜索引擎更快的發現死鏈,減少死鏈對用戶及搜索引擎造成的負面影響。
7、異常跳轉
將用戶網絡訪問請求重新指向其它位置,即表示為跳轉,異常跳轉一般指的是以下幾種情況:
1)當前頁面為無效頁面,內容已刪除或已經成為了死鏈,直接跳轉到了前一級目錄或者首頁,百度搜索建議將死鏈接入口頁面刪除;
2)跳轉到出錯或無效頁面。
注意:對于需要長時間跳轉到其它域名的情況,例如新域名替換成新域名,百度搜索建議使用301永久重定向進行跳轉。
8、其他異常
1)針對百度搜索refer的異常,網頁針對來自百度的refer返回不同于正常內容的行業;
2)針對百度UA的異常,網頁對百度UA返回不同于頁面原內容的行為;
3)JS跳轉異常:網頁代碼中加載了百度無法識別的js跳轉代碼,導致用戶通過搜索進行網站頁面后就發生了跳轉行為;
4)網站抓取壓力過大引起的偶然封禁,百度搜索會根據網站的規劃、流量等情況,給網站設置一個合理的抓取壓力。
如果網站抓取壓力有異常情況,例如網站抓取壓力出現失控的情況,這時web服務器會根據自身負荷能力啟動臨時性的封禁,例如向用戶返回“Service Unavailable”,這里百度搜索會過段時間再來重新抓取網站鏈接,如果此時網站web服務器已恢復正常,則網站頁面就會被成功抓取。
