今天早上進入Feedsky管理后臺,從實時統(tǒng)計里,驚訝的發(fā)現(xiàn)有個“Larbin爬蟲”!
從地區(qū)顯示來看,這個少見的爬蟲來自中國Shunyi(順義)。
我從來沒看到過有Larbin爬蟲的記錄,今天還是第一次遇到。為了解除疑問,我查了下有關Larbin爬蟲的資料。
Larbin的簡介
Larbin是一種開源的網(wǎng)絡爬蟲/網(wǎng)絡蜘蛛,由法國的年輕人Sébastien Ailleret 獨立開發(fā)。Larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來源。
Larbin只是一個爬蟲,也就是說Larbin只抓取網(wǎng)頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數(shù)據(jù)庫以及建立索引的事情 Larbin也不提供。
Larbin的作用
1. Larbin獲取單個、確定網(wǎng)站的所有聯(lián)結,甚至可以鏡像一個網(wǎng)站。
2. Larbin建立url 列表群,例如針對所有的網(wǎng)頁進行url retrive后,進行xml的聯(lián)結的獲取 。
3. Larbin定制后可以作為搜索引擎的信息的來源(例如可以將抓取下來的網(wǎng)頁每2000一組存放在一系列的目錄結構里面)。
后記
終于大致了解了Larbin爬蟲,原來Larbin爬蟲是網(wǎng)站管理員安裝的,并不是某個搜索引擎放出來的蜘蛛。Larbin爬蟲爬到的網(wǎng)頁可以放在一個特定的文件夾中,這個文件夾里還可以創(chuàng)建子文件夾,每個子文件夾存放N個網(wǎng)頁,并且文件夾里邊有index索引文件,記錄了爬過的url序列。這樣一來,確實是可以作為搜索引擎的信息來源,是一個非常實用的SEO武器。
Larbin爬蟲目前沒有支持windows版本,只能在Linux下使用,但它是一個用C++編寫的開源的工具。有興趣的人可以研究下,根據(jù)自身情況制定自己的Larbin爬蟲。
Larbin官方地址:http://larbin.sourceforge.net/index-eng.html