今天登陸百度資源平臺看看,發(fā)現在“抓取異常”那里有一些錯誤,顯示是“響應代碼”522。
“響應代碼”522
522是什么意思?看解釋,這是“服務器錯誤”的響應代碼。
我試試點擊鏈接,都能正常打開。
我想,這是某一時刻,百度爬蟲抓取網頁時,失敗了,可能原因是當時服務器資源耗盡,到了瓶頸的地步,這個時候,任何外部訪問,都會返回“服務器錯誤”,響應代碼常見的是500。而百度的解釋是,5XX都代表是“服務器錯誤”。
5XX都代表是“服務器錯誤”
抓取異常對網站有哪些影響
百度認為:
對于大量內容無法正常抓取的網站,搜索引擎會認為網站存在用戶體驗上的缺陷,并降低對網站的評價,在抓取、索引、權重上都會受到一定程度的負面影響,最終影響到網站從百度獲取的流量。
如果,對于有幾千幾萬張網頁的網站來說,百度一天抓幾千次,一天只有幾條抓取異常,我想那應該不受影響的,畢竟比例太低。
但是,如果正如百度說的若有“大量內容”無法正常抓取,則很大原因是服務器或機房網絡線路真的出問題了,那種情況就要及時處理了,不然持續(xù)下去,很快網站就被百度降低權重,沒有排名了。
知識擴展
什么是抓取異常
Baiduspider無法正常抓取,就是抓取異常。
抓取異常的原因有哪些
一、網站異常
1、dns異常
當Baiduspider無法解析您網站的IP時,會出現DNS異常??赡苁悄木W站IP地址錯誤,或者域名服務商把Baiduspider封禁。請使用WHOIS或者host查詢自己網站IP地址是否正確且可解析,如果不正確或無法解析,請與域名注冊商聯系,更新您的IP地址。
2、連接超時
抓取請求連接超時,可能原因服務器過載,網絡不穩(wěn)定
3、抓取超時
抓取請求連接建立后,下載頁面速度過慢,導致超時,可能原因服務器過載,帶寬不足
4、連接錯誤
無法連接或者連接建立后對方服務器拒絕
二、鏈接異常
1、訪問被拒絕
爬蟲發(fā)起抓取,httpcode返回碼是403
2、找不到頁面
爬蟲發(fā)起抓取,httpcode返回碼是404
3、服務器錯誤
爬蟲發(fā)起抓取,httpcode返回碼是5XX
4、其他錯誤
爬蟲發(fā)起抓取,httpcode返回碼是4XX,不包括403和404