記憶盒子

把記憶裝進灰色的盒子,封裝起來,那年那月,重新拾起。

首頁搜索目錄
search
當前主題: 互聯(lián)網(wǎng)絡

Larbin爬蟲驚現(xiàn)Feedsky

作者:Kaka    時間:2010-5-29 21:10:15    瀏覽:    評論:6

      今天早上進入Feedsky管理后臺,從實時統(tǒng)計里,驚訝的發(fā)現(xiàn)有個“Larbin爬蟲”!

 

      從地區(qū)顯示來看,這個少見的爬蟲來自中國Shunyi(順義)。

      我從來沒看到過有Larbin爬蟲的記錄,今天還是第一次遇到。為了解除疑問,我查了下有關(guān)Larbin爬蟲的資料。

      Larbin的簡介

      Larbin是一種開源的網(wǎng)絡爬蟲/網(wǎng)絡蜘蛛,由法國的年輕人Sébastien Ailleret 獨立開發(fā)。Larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來源。

      Larbin只是一個爬蟲,也就是說Larbin只抓取網(wǎng)頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數(shù)據(jù)庫以及建立索引的事情 Larbin也不提供。

      Larbin的作用

      1. Larbin獲取單個、確定網(wǎng)站的所有聯(lián)結(jié),甚至可以鏡像一個網(wǎng)站。
      2. Larbin建立url 列表群,例如針對所有的網(wǎng)頁進行url retrive后,進行xml的聯(lián)結(jié)的獲取 。
      3. Larbin定制后可以作為搜索引擎的信息的來源(例如可以將抓取下來的網(wǎng)頁每2000一組存放在一系列的目錄結(jié)構(gòu)里面)。

      后記

      終于大致了解了Larbin爬蟲,原來Larbin爬蟲是網(wǎng)站管理員安裝的,并不是某個搜索引擎放出來的蜘蛛。Larbin爬蟲爬到的網(wǎng)頁可以放在一個特定的文件夾中,這個文件夾里還可以創(chuàng)建子文件夾,每個子文件夾存放N個網(wǎng)頁,并且文件夾里邊有index索引文件,記錄了爬過的url序列。這樣一來,確實是可以作為搜索引擎的信息來源,是一個非常實用的SEO武器。

      Larbin爬蟲目前沒有支持windows版本,只能在Linux下使用,但它是一個用C++編寫的開源的工具。有興趣的人可以研究下,根據(jù)自身情況制定自己的Larbin爬蟲。

      Larbin官方地址:http://larbin.sourceforge.net/index-eng.html

x

標簽: Internet  

※ 網(wǎng)站速度慢?試試網(wǎng)站自動優(yōu)化工具 ※

上一篇: google adsense估算收入并不是實際收入
下一篇: Google Analytics不支持IE6?

發(fā)表評論:

◎歡迎參與討論,請在這里發(fā)表您的看法、交流您的觀點。

訂閱博客                   QQ交流群(312716741)

  • 通過Google訂閱本站 通過鮮果訂閱本站 通過抓蝦訂閱本站
  • 通過QQ郵箱訂閱本站 通過Yahoo訂閱本站 通過有道訂閱本站

Search

最新評論及回復

最近留言

網(wǎng)站分類

Powered By Z-Blog 1.8 Walle Build 91204 Designed by Han'space

Copyright @2009-2024 All Rights Reserved. 粵ICP備14028160號-1

Powered By Z-Blog 1.8 Walle Build 91204
Copyright @2009-2024 All Rights Reserved.