要阻止某些網(wǎng)頁被搜索引擎抓取收錄,大家首先想到的方法應該是使用 robots.txt 吧。沒錯,幾乎每個網(wǎng)站都有一個 robots.txt 文件,目的是禁止某些目錄被搜索引擎抓取收錄并加入都搜索結果索引中。不過,如果想禁止搜索引擎抓取某些網(wǎng)頁,使用 robots.txt 是不夠的。
robots.txt
請不要將 robots.txt 用作隱藏網(wǎng)頁的方法
robots.txt 文件位于網(wǎng)站的根目錄下,用于表明你不希望搜索引擎抓取工具訪問你網(wǎng)站上的哪些內容。此文件使用的是漫游器排除標準,該標準是一種內含一小組命令的協(xié)議,可依照網(wǎng)站各部分和特定的網(wǎng)頁抓取工具類型(例如移動版抓取工具與桌面版抓取工具),表明可訪問的網(wǎng)站內容。
◆非圖片文件
對于非圖片文件(即網(wǎng)頁),您應僅將 robots.txt 用于控制抓取流量,因為通常情況下你不會希望搜索引擎抓取工具造成你的服務器超負荷,或是將抓取預算浪費在抓取你網(wǎng)站上不重要或相似的網(wǎng)頁上。如果你不想讓自己的網(wǎng)頁顯示在搜索引擎搜索結果中,請不要將 robots.txt 用作隱藏網(wǎng)頁的方法。 這是因為其他網(wǎng)頁可能會指向你的網(wǎng)頁,導致你的網(wǎng)頁被編入索引,而讓 robots.txt 文件失去效用。如果你想從搜索結果中屏蔽自己的網(wǎng)頁,請使用其他方法,例如密碼保護或 noindex 標記或指令。
◆圖片文件
robots.txt 可以阻止圖片文件出現(xiàn)在搜索引擎搜索結果中(不過它不會阻止其他網(wǎng)頁或用戶鏈接到你的圖片)。
◆資源文件
如果你認為加載網(wǎng)頁時跳過不重要的圖片、腳本或樣式文件等資源并不會造成太大影響,那么你可以使用 robots.txt 來屏蔽這些資源文件。不過,如果缺少這些資源會增加抓取工具在分析網(wǎng)頁方面的難度,則建議你不要屏蔽這些資源,否則搜索引擎將無法正確分析需要依賴這些資源的網(wǎng)頁。
了解 robots.txt 的限制
在創(chuàng)建 robots.txt 之前,你應該了解這種網(wǎng)址屏蔽方法的潛在風險。有時候,你可能需要考慮采用其他機制來確保搜索引擎無法在網(wǎng)絡上找到你的網(wǎng)址。
◆Robots.txt 命令僅僅只是指令
robots.txt 文件中的命令并不能強制抓取工具對你的網(wǎng)站采取具體的操作;對于訪問你網(wǎng)站的抓取工具來說,這些命令僅作為指令。正規(guī)的網(wǎng)頁抓取工具都會遵循 robots.txt 文件中的命令,但其他抓取工具未必也會如此。因此,如果你想確保自己網(wǎng)站上的特定信息不會被網(wǎng)頁抓取工具抓取,建議你采用其他屏蔽方法(如為您服務器上的隱私文件提供密碼保護)。
◆不同的抓取工具對語法的解析各不相同
雖然正規(guī)的網(wǎng)頁抓取工具會遵循 robots.txt 文件中的指令,但這些抓取工具可能會以不同的方式來解析這些指令。你應該好好了解一下適用于不同網(wǎng)頁抓取工具的正確語法,因為有些抓取工具可能會無法理解某些命令。
◆如果其他網(wǎng)站上有鏈接指向被 robots.txt 文件屏蔽的網(wǎng)頁,則此網(wǎng)頁仍可能會被編入索引
盡管搜索引擎不會抓取被 robots.txt 屏蔽的內容或將其編入索引,但如果網(wǎng)絡上的其他位置有鏈接指向被禁止訪問的網(wǎng)址,搜索引擎仍可能會找到該網(wǎng)址并將其編入索引。因此,相關網(wǎng)址和其他公開顯示的信息(如相關頁面鏈接中的定位文字)仍可能會出現(xiàn)在搜索結果中。要想正確阻止你的網(wǎng)址出現(xiàn)在搜索結果中,你應該為你服務器上的文件提供密碼保護或使用 noindex 元標記或響應標頭(或者徹底移除相關網(wǎng)頁)。
您可能對以下文章也感興趣
robots.txt Disallow和Allow上下級目錄或文件的寫法
robots.txt 語法詳解:*、$、?等字符的含義及用法