0

我的网站有一些特定的页面是:

  1. 已经在搜索引擎中编入索引,但我想将它们从索引中删除。
  2. 很多,因为它们是动态的(基于查询字符串)。
  3. 有点“重”。(一个过分热心的机器人会给服务器带来比我想要的更多的压力。)

因为#2,我只是让它们慢慢地自然移除,但我需要制定一个计划。

我开始执行以下操作:

  1. 机器人:在应用程序中使用用户代理检测中止执行,并发送一个基本空白的响应。(我不介意某些机器人会溜过并呈现真实页面,但我只是阻止了一些常见的。)
  2. 机器人:抛出 403(禁止)响应代码。
  3. 所有客户端:发送“X-Robots-Tag: noindex”标头。
  4. 所有客户:添加rel="nofollow"到指向这些页面的链接。
  5. 没有禁止机器人访问 robots.txt 中的这些页面。(我认为只有从一开始就禁止机器人,或者在这些页面从搜索引擎中完全删除之后,禁止机器人才有用;否则,引擎无法抓取/访问这些页面以发现/尊重 noindex 标头,所以他们不会删除它们。我提到这一点是因为我认为 robots.txt 可能通常会被误解,并且可能会被建议为不合适的灵丹妙药。)

然而,从那时起,我认为其中一些步骤要么对我的目标毫无用处,要么实际上存在问题。

  • 我不确定向机器人抛出 403 是否是个好主意。搜索引擎是否看到了这一点并完全无视 X-Robots-Tag?让他们回复 200 会更好吗?
  • 我认为rel="nofollow"只会潜在地影响目标页面排名,而根本不会影响抓取。

计划的其余部分似乎还可以(如果我错了,请纠正我),但我不确定大计划中的上述项目符号。

4

1 回答 1

0

我认为这是一个很好的计划:

  1. 机器人:在应用程序中使用用户代理检测中止执行,并发送一个基本空白的响应。(我不介意某些机器人会溜过并呈现真实页面,但我只是阻止了一些常见的。)
  2. 机器人:发送 410 (Gone) 响应代码。
    “一般来说,有时网站管理员有点过于关注微小的细节,所以如果页面消失了,提供 404 就可以了,如果你知道它真的消失了,提供 410 就可以了,”
    - http://goo.gl/AwJdEz
  3. 所有客户端:发送“X-Robots-Tag: noindex”标头。我认为这对于获得 410 的已知机器人来说是无关紧要的,但它会涵盖未知引擎的机器人。
  4. 所有客户:添加rel="nofollow"到指向这些页面的链接。这可能不是完全必要的,但它不会受到伤害。
  5. 不要禁止机器人访问 robots.txt 中的这些页面。(只有从一开始就禁止机器人,或者在这些页面从搜索引擎中完全删除之后,禁止机器人才有用;否则,引擎无法抓取/访问这些页面以发现/尊重 noindex 标头,因此它们不会'不要删除它们。我提到这一点是因为我认为 robots.txt 可能通常被误解,并且可能被建议为不合适的灵丹妙药。)
于 2015-06-30T23:07:59.010 回答