前段時間發(fā)現流量有點異常,于是查看了訪問明細,發(fā)現某些IP段有異常,例如出現很多123.125.71.*這種IP,而這種IP有個共同的特點,就是都是直接訪問網頁,并且只訪問一頁,地點都是北京市。
訪問明細(點擊上圖放大)
通過日志檢查訪問異常
我后來打開日志檢查,發(fā)現一個比較奇怪的現象,那就是日志里這樣的每個IP只有訪問網頁文件的記錄,而沒有訪問css、js和圖片等其他文件的記錄,這完全不同正常的訪客打開一張網頁的日志。
異常的訪問日志(點擊上圖放大)
123.125.71.106這個IP只訪問了default.html這個文件。
正常的訪客訪問網頁時,日志里不但記錄了網頁的訪問記錄,還記錄了網頁里關聯的圖片、js、css等文件的訪問記錄。
正常的訪問日志(點擊上圖放大)
218.22.69.142這個IP不但訪問了default.html這個文件,還訪問了css、js和圖片文件。
我再看看異常的日志記錄,發(fā)現了“Baiduspider”的字樣,這顯然是百度蜘蛛抓取網頁的記錄。
百度蜘蛛訪問記錄(點擊上圖放大)
我再查詢這個IP的地址,確實顯示是百度蜘蛛的IP。
IP地址查詢
至此,就明白為什么流量異常了,原來是CNZZ把百度蜘蛛的抓取也算入了流量。
網站流量需要減去百度蜘蛛的訪問量
通過跟蹤,發(fā)現百度蜘蛛使用的瀏覽器是火狐瀏覽器。
百度蜘蛛使用的瀏覽器是火狐瀏覽器(點擊圖片放大)
所以,可以在“終端詳情”-“瀏覽器”那里減去一部分火狐瀏覽器的訪問量(只能是大概),從而知道網站的真正訪問量。
火狐瀏覽器的訪問量
CNZZ統(tǒng)計可以過濾百度蜘蛛IP
針對此問題,據官方的意見,是叫用戶在CNZZ設置里過濾百度的蜘蛛IP,這樣就不會把百度蜘蛛的訪問量也統(tǒng)計進來了。不過,百度蜘蛛IP有哪些呢?我想很多人都不知道吧,這個方法貌似不太可行。為此,我搜查了百度的一些蜘蛛IP,以下是常見的百度蜘蛛IP(來自互聯網,僅供參考):
123.125.68.*這個蜘蛛經常來,別的來的少,表示網站可能要進入沙盒了,或被者降權。
220.181.68.*每天這個IP 段只增不減很有可能進沙盒或K站。
220.181.7.*、123.125.66.* 代表百度蜘蛛IP造訪,準備抓取你東西。
121.14.89.*這個ip段作為度過新站考察期。
203.208.60.*這個ip段出現在新站及站點有不正?,F象后。
210.72.225.*這個ip段不間斷巡邏各站。
125.90.88.* 廣東茂名市電信也屬于百度蜘蛛IP 主要造成成分,是新上線站較多,還有使用過站長工具,或SEO綜合檢測造成的。
220.181.108.95這個是百度抓取首頁的專用IP,如是220.181.108段的話,基本來說你的網站會天天隔夜快照,絕對錯不了的,我保證。
220.181.108.92 同上98%抓取首頁,可能還會抓取其他 (不是指內頁)220.181段屬于權重IP段此段爬過的文章或首頁基本24小時放出來。
123.125.71.106 抓取內頁收錄的,權重較低,爬過此段的內頁文章不會很快放出來,因不是原創(chuàng)或采集文章。
220.181.108.91屬于綜合的,主要抓取首頁和內頁或其他,屬于權重IP 段,爬過的文章或首頁基本24小時放出來。
220.181.108.75重點抓取更新文章的內頁達到90%,8%抓取首頁,2%其他。權重IP 段,爬過的文章或首頁基本24小時放出來。
220.181.108.86專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
123.125.71.95 抓取內頁收錄的,權重較低,爬過此段的內頁文章不會很快放出來,因不是原創(chuàng)或采集文章。
123.125.71.97 抓取內頁收錄的,權重較低,爬過此段的內頁文章不會很快放出來,因不是原創(chuàng)或采集文章。
220.181.108.89專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.94專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.97專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.80專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.77 專用抓首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
123.125.71.117 抓取內頁收錄的,權重較低,爬過此段的內頁文章不會很快放出來,因不是原創(chuàng)或采集文章。
220.181.108.83專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
據網友介紹,以上IP尾數還有很多,但段位一樣的123.125.71.*段IP 代表抓取內頁收錄的權重比較低,可能由于你采集文章或拼文章暫時被收錄但不放出來(意思也就是說待定)。
220.181.108.*段IP主要是抓取首頁占80%,內頁占30%,這此爬過的文章或首頁,24小時內放出來和隔夜快照的。
一般成功抓取返回代碼都是 200 0 0返回304 0 0代表網站沒更新,蜘蛛來過,如果是 200 0 64別擔心這不是K站,可能是網站是動態(tài)的,所以返回就是這個代碼。
您可能對如下文章也感興趣
小心!51la統(tǒng)計代碼noscript標簽出現外鏈