robots.txt标准格式 01 December 2009 1:04 Tuesday by 小屋 浏览(1329)

本文告诉你,如何配置robots.txt文件,让你详细了解robots.txt的标准格式。

Google,雅虎,微软合作,共同遵守统一的Sitemaps标准。又同时宣布,共同遵守的robots.txt文件标准。Google,雅虎,微软各自支持的robots.txt文件及Meta标签的标准,以及一些各自特有的标准。下面做一个总结。

 

三家都支持的robots文件记录包括:



Disallow

- 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:

User-agent: *
Disallow: /

Allow

- 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:

User-agent: *
Disallow: /ab/
Allow: /ab/cd

$通配符

- 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:

User-agent: *
Allow: .htm$

阅读全文>>