92午夜福利少妇系列,国产乱码日韩一区二区欧美精品

要阻止某些網(wǎng)頁(yè)被搜索引擎抓取收錄，大家首先想到的方法應(yīng)該是使用 robots.txt 吧。沒錯(cuò)，幾乎每個(gè)網(wǎng)站都有一個(gè) robots.txt 文件，目的是禁止某些目錄被搜索引擎抓取收錄并加入都搜索結(jié)果索引中。不過(guò)，如果想禁止搜索引擎抓取某些網(wǎng)頁(yè)，使用 robots.txt 是不夠的。

robots.txt

請(qǐng)不要將 robots.txt 用作隱藏網(wǎng)頁(yè)的方法

robots.txt 文件位于網(wǎng)站的根目錄下，用于表明你不希望搜索引擎抓取工具訪問(wèn)你網(wǎng)站上的哪些內(nèi)容。此文件使用的是漫游器排除標(biāo)準(zhǔn)，該標(biāo)準(zhǔn)是一種內(nèi)含一小組命令的協(xié)議，可依照網(wǎng)站各部分和特定的網(wǎng)頁(yè)抓取工具類型（例如移動(dòng)版抓取工具與桌面版抓取工具），表明可訪問(wèn)的網(wǎng)站內(nèi)容。

◆非圖片文件

對(duì)于非圖片文件（即網(wǎng)頁(yè)），您應(yīng)僅將 robots.txt 用于控制抓取流量，因?yàn)橥ǔＧ闆r下你不會(huì)希望搜索引擎抓取工具造成你的服務(wù)器超負(fù)荷，或是將抓取預(yù)算浪費(fèi)在抓取你網(wǎng)站上不重要或相似的網(wǎng)頁(yè)上。如果你不想讓自己的網(wǎng)頁(yè)顯示在搜索引擎搜索結(jié)果中，請(qǐng)不要將 robots.txt 用作隱藏網(wǎng)頁(yè)的方法。這是因?yàn)槠渌W(wǎng)頁(yè)可能會(huì)指向你的網(wǎng)頁(yè)，導(dǎo)致你的網(wǎng)頁(yè)被編入索引，而讓 robots.txt 文件失去效用。如果你想從搜索結(jié)果中屏蔽自己的網(wǎng)頁(yè)，請(qǐng)使用其他方法，例如密碼保護(hù)或 noindex 標(biāo)記或指令。

◆圖片文件

robots.txt 可以阻止圖片文件出現(xiàn)在搜索引擎搜索結(jié)果中（不過(guò)它不會(huì)阻止其他網(wǎng)頁(yè)或用戶鏈接到你的圖片）。

◆資源文件

如果你認(rèn)為加載網(wǎng)頁(yè)時(shí)跳過(guò)不重要的圖片、腳本或樣式文件等資源并不會(huì)造成太大影響，那么你可以使用 robots.txt 來(lái)屏蔽這些資源文件。不過(guò)，如果缺少這些資源會(huì)增加抓取工具在分析網(wǎng)頁(yè)方面的難度，則建議你不要屏蔽這些資源，否則搜索引擎將無(wú)法正確分析需要依賴這些資源的網(wǎng)頁(yè)。

了解 robots.txt 的限制

在創(chuàng)建 robots.txt 之前，你應(yīng)該了解這種網(wǎng)址屏蔽方法的潛在風(fēng)險(xiǎn)。有時(shí)候，你可能需要考慮采用其他機(jī)制來(lái)確保搜索引擎無(wú)法在網(wǎng)絡(luò)上找到你的網(wǎng)址。

◆Robots.txt 命令僅僅只是指令

robots.txt 文件中的命令并不能強(qiáng)制抓取工具對(duì)你的網(wǎng)站采取具體的操作；對(duì)于訪問(wèn)你網(wǎng)站的抓取工具來(lái)說(shuō)，這些命令僅作為指令。正規(guī)的網(wǎng)頁(yè)抓取工具都會(huì)遵循 robots.txt 文件中的命令，但其他抓取工具未必也會(huì)如此。因此，如果你想確保自己網(wǎng)站上的特定信息不會(huì)被網(wǎng)頁(yè)抓取工具抓取，建議你采用其他屏蔽方法（如為您服務(wù)器上的隱私文件提供密碼保護(hù)）。

◆不同的抓取工具對(duì)語(yǔ)法的解析各不相同

雖然正規(guī)的網(wǎng)頁(yè)抓取工具會(huì)遵循 robots.txt 文件中的指令，但這些抓取工具可能會(huì)以不同的方式來(lái)解析這些指令。你應(yīng)該好好了解一下適用于不同網(wǎng)頁(yè)抓取工具的正確語(yǔ)法，因?yàn)橛行┳ト」ぞ呖赡軙?huì)無(wú)法理解某些命令。

◆如果其他網(wǎng)站上有鏈接指向被 robots.txt 文件屏蔽的網(wǎng)頁(yè)，則此網(wǎng)頁(yè)仍可能會(huì)被編入索引

盡管搜索引擎不會(huì)抓取被 robots.txt 屏蔽的內(nèi)容或?qū)⑵渚幦胨饕?，但如果網(wǎng)絡(luò)上的其他位置有鏈接指向被禁止訪問(wèn)的網(wǎng)址，搜索引擎仍可能會(huì)找到該網(wǎng)址并將其編入索引。因此，相關(guān)網(wǎng)址和其他公開顯示的信息（如相關(guān)頁(yè)面鏈接中的定位文字）仍可能會(huì)出現(xiàn)在搜索結(jié)果中。要想正確阻止你的網(wǎng)址出現(xiàn)在搜索結(jié)果中，你應(yīng)該為你服務(wù)器上的文件提供密碼保護(hù)或使用 noindex 元標(biāo)記或響應(yīng)標(biāo)頭（或者徹底移除相關(guān)網(wǎng)頁(yè)）。

您可能對(duì)以下文章也感興趣

robots.txt Disallow和Allow上下級(jí)目錄或文件的寫法

robots.txt 語(yǔ)法詳解：*、$、?等字符的含義及用法