前段時間發(fā)現(xiàn)流量有點異常,于是查看了訪問明細,發(fā)現(xiàn)某些IP段有異常,例如出現(xiàn)很多123.125.71.*這種IP,而這種IP有個共同的特點,就是都是直接訪問網(wǎng)頁,并且只訪問一頁,地點都是北京市。
訪問明細(點擊上圖放大)
通過日志檢查訪問異常
我后來打開日志檢查,發(fā)現(xiàn)一個比較奇怪的現(xiàn)象,那就是日志里這樣的每個IP只有訪問網(wǎng)頁文件的記錄,而沒有訪問css、js和圖片等其他文件的記錄,這完全不同正常的訪客打開一張網(wǎng)頁的日志。
異常的訪問日志(點擊上圖放大)
123.125.71.106這個IP只訪問了default.html這個文件。
正常的訪客訪問網(wǎng)頁時,日志里不但記錄了網(wǎng)頁的訪問記錄,還記錄了網(wǎng)頁里關(guān)聯(lián)的圖片、js、css等文件的訪問記錄。
正常的訪問日志(點擊上圖放大)
218.22.69.142這個IP不但訪問了default.html這個文件,還訪問了css、js和圖片文件。
我再看看異常的日志記錄,發(fā)現(xiàn)了“Baiduspider”的字樣,這顯然是百度蜘蛛抓取網(wǎng)頁的記錄。
百度蜘蛛訪問記錄(點擊上圖放大)
我再查詢這個IP的地址,確實顯示是百度蜘蛛的IP。
IP地址查詢
至此,就明白為什么流量異常了,原來是CNZZ把百度蜘蛛的抓取也算入了流量。
網(wǎng)站流量需要減去百度蜘蛛的訪問量
通過跟蹤,發(fā)現(xiàn)百度蜘蛛使用的瀏覽器是火狐瀏覽器。
百度蜘蛛使用的瀏覽器是火狐瀏覽器(點擊圖片放大)
所以,可以在“終端詳情”-“瀏覽器”那里減去一部分火狐瀏覽器的訪問量(只能是大概),從而知道網(wǎng)站的真正訪問量。
火狐瀏覽器的訪問量
CNZZ統(tǒng)計可以過濾百度蜘蛛IP
針對此問題,據(jù)官方的意見,是叫用戶在CNZZ設置里過濾百度的蜘蛛IP,這樣就不會把百度蜘蛛的訪問量也統(tǒng)計進來了。不過,百度蜘蛛IP有哪些呢?我想很多人都不知道吧,這個方法貌似不太可行。為此,我搜查了百度的一些蜘蛛IP,以下是常見的百度蜘蛛IP(來自互聯(lián)網(wǎng),僅供參考):
123.125.68.*這個蜘蛛經(jīng)常來,別的來的少,表示網(wǎng)站可能要進入沙盒了,或被者降權(quán)。
220.181.68.*每天這個IP 段只增不減很有可能進沙盒或K站。
220.181.7.*、123.125.66.* 代表百度蜘蛛IP造訪,準備抓取你東西。
121.14.89.*這個ip段作為度過新站考察期。
203.208.60.*這個ip段出現(xiàn)在新站及站點有不正?,F(xiàn)象后。
210.72.225.*這個ip段不間斷巡邏各站。
125.90.88.* 廣東茂名市電信也屬于百度蜘蛛IP 主要造成成分,是新上線站較多,還有使用過站長工具,或SEO綜合檢測造成的。
220.181.108.95這個是百度抓取首頁的專用IP,如是220.181.108段的話,基本來說你的網(wǎng)站會天天隔夜快照,絕對錯不了的,我保證。
220.181.108.92 同上98%抓取首頁,可能還會抓取其他 (不是指內(nèi)頁)220.181段屬于權(quán)重IP段此段爬過的文章或首頁基本24小時放出來。
123.125.71.106 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會很快放出來,因不是原創(chuàng)或采集文章。
220.181.108.91屬于綜合的,主要抓取首頁和內(nèi)頁或其他,屬于權(quán)重IP 段,爬過的文章或首頁基本24小時放出來。
220.181.108.75重點抓取更新文章的內(nèi)頁達到90%,8%抓取首頁,2%其他。權(quán)重IP 段,爬過的文章或首頁基本24小時放出來。
220.181.108.86專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
123.125.71.95 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會很快放出來,因不是原創(chuàng)或采集文章。
123.125.71.97 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會很快放出來,因不是原創(chuàng)或采集文章。
220.181.108.89專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.94專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.97專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.80專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.77 專用抓首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
123.125.71.117 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會很快放出來,因不是原創(chuàng)或采集文章。
220.181.108.83專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
據(jù)網(wǎng)友介紹,以上IP尾數(shù)還有很多,但段位一樣的123.125.71.*段IP 代表抓取內(nèi)頁收錄的權(quán)重比較低,可能由于你采集文章或拼文章暫時被收錄但不放出來(意思也就是說待定)。
220.181.108.*段IP主要是抓取首頁占80%,內(nèi)頁占30%,這此爬過的文章或首頁,24小時內(nèi)放出來和隔夜快照的。
一般成功抓取返回代碼都是 200 0 0返回304 0 0代表網(wǎng)站沒更新,蜘蛛來過,如果是 200 0 64別擔心這不是K站,可能是網(wǎng)站是動態(tài)的,所以返回就是這個代碼。
您可能對如下文章也感興趣
小心!51la統(tǒng)計代碼noscript標簽出現(xiàn)外鏈