我想抓取一个网站。它的 robots.txt 文件中有以下内容,但我不确定他们不希望我做什么:
User-agent: *
Disallow: /click
没有点击子目录。或者他们不希望我访问通常需要单击的任何内容(例如通过表单提交数据)?在任何情况下,他们肯定不会让事情变得容易 - 主页的表单获取到设置由第三页读取的 cookie 的站点。
我想抓取一个网站。它的 robots.txt 文件中有以下内容,但我不确定他们不希望我做什么:
User-agent: *
Disallow: /click
没有点击子目录。或者他们不希望我访问通常需要单击的任何内容(例如通过表单提交数据)?在任何情况下,他们肯定不会让事情变得容易 - 主页的表单获取到设置由第三页读取的 cookie 的站点。
这意味着任何机器人都不应该抓取路径以字符串开头的任何URL 。click
例如,应阻止以下 URL:
example.com/clickexample.com/click.htmlexample.com/click/example.com/click/foo/barexample.com/clicker以下 URL 仍将被允许:
example.com/foo/clickexample.com/fooclickexample.com/clic您可以在http://www.robotstxt.org/wc/robots.html找到原始 robots.txt 规范。