1. 首页
  2. 新手指南
  3. Google官方robots.txt系列(1):

Google官方robots.txt系列(1):

robots.txt 文件位于您网站的根目录下,用于表明您不希望搜索引擎抓取工具访问您网站上的哪些内容。此文件使用的是漫游器排除标准,该标准是一种内含一小组命令的协议,可依照网站各部分和特定的网页抓取工具类型(例如移动版抓取工具与桌面版抓取工具),表明可访问的网站内容。

robots.txt 的作用是什么?

非图片文件

对于非图片文件(即网页),您应仅将 robots.txt 用于控制抓取流量,因为通常情况下您不会希望 Google 抓取工具造成您的服务器超负荷,或是将抓取预算浪费在抓取您网站上不重要或相似的网页上。如果您不想让自己的网页显示在 Google 搜索结果中,请不要将 robots.txt 用作隐藏网页的方法。 这是因为其他网页可能会指向您的网页,导致我们将您的网页编入索引,而让 robots.txt 文件失去效用。如果您想从搜索结果中屏蔽自己的网页,请使用其他方法,例如密码保护或 noindex 标记或指令

图片文件

robots.txt 可以阻止图片文件出现在 Google 搜索结果中(不过它不会阻止其他网页或用户链接到您的图片)。

资源文件

如果您认为加载网页时跳过不重要的图片、脚本或样式文件等资源并不会造成太大影响,那么您可以使用 robots.txt 来屏蔽这些资源文件。不过,如果缺少这些资源会增加 Google 抓取工具在分析网页方面的难度,则建议您不要屏蔽这些资源,否则 Google 将无法正确分析需要依赖这些资源的网页。

了解 robots.txt 的限制

在创建 robots.txt 之前,您应该了解这种网址屏蔽方法的潜在风险。有时候,您可能需要考虑采用其他机制来确保搜索引擎无法在网络上找到您的网址。

  • Robots.txt 命令仅仅只是指令

    robots.txt 文件中的命令并不能强制抓取工具对您的网站采取具体的操作;对于访问您网站的抓取工具来说,这些命令仅作为指令。Googlebot 和其他正规的网页抓取工具都会遵循 robots.txt 文件中的命令,但其他抓取工具未必也会如此。因此,如果您想确保自己网站上的特定信息不会被网页抓取工具抓取,我们建议您采用其他屏蔽方法(如为您服务器上的隐私文件提供密码保护)。

  • 不同的抓取工具对语法的解析各不相同

    虽然正规的网页抓取工具会遵循 robots.txt 文件中的指令,但这些抓取工具可能会以不同的方式来解析这些指令。您应该好好了解一下适用于不同网页抓取工具的正确语法,因为有些抓取工具可能会无法理解某些命令。

  • 如果其他网站上有链接指向被 robots.txt 文件屏蔽的网页,则此网页仍可能会被编入索引

    尽管 Google 不会抓取被 robots.txt 屏蔽的内容或将其编入索引,但如果网络上的其他位置有链接指向被禁止访问的网址,我们仍可能会找到该网址并将其编入索引。因此,相关网址和其他公开显示的信息(如相关页面链接中的定位文字)仍可能会出现在 Google 搜索结果中。要想正确阻止您的网址出现在 Google 搜索结果中,您应该为您服务器上的文件提供密码保护使用 noindex 元标记或响应标头(或者彻底移除相关网页)。

注意:结合使用多种抓取和索引编制指令可能会导致某些指令与其他指令冲突。请参阅 Google Developers 文档的“结合使用抓取指令和索引编制/内容提供指令”部分,了解如何正确配置这些指令。


相关文章