robots.txt文件的Disallow和Allow行的区别 07 March 2011 0:25 Monday by 小屋 浏览(1749)

robots .txt文件Disallow和Allow设置顺序的不同会产生不一样的效果。

拿个robots .txt语法的例子

(1)搜索引擎可以访问/www/seo的文件夹或者URL
User-agent: *
Allow : /www/seo
Disallow : /www/

(2)顺序改变后
User-agent: *
Disallow : /www/
Allow : /www/seo
这样遵守robots规则的搜索引擎就访问不到/www/seo这个路径了。

robots .txt几个语法 命令 解释

1> User-agent: *【定义搜索引擎。一般情况下,网站里面都是:User-agent: *,这里*的意思是所有,表示定义所有的搜索引擎。比如,我想定义百度,那么就是User-agent: Baiduspider;定义google,User-agent: Googlebot】

2> Disallow 【禁止爬

阅读全文>>

robots.txt标准格式 01 December 2009 1:04 Tuesday by小屋 浏览(1326)

本文告诉你,如何配置robots.txt文件,让你详细了解robots.txt的标准格式。

Google,雅虎,微软合作,共同遵守统一的Sitemaps标准。又同时宣布,共同遵守的robots.txt文件标准。Google,雅虎,微软各自支持的robots.txt文件及Meta标签的标准,以及一些各自特有的标准。下面做一个总结。

 

三家都支持的robots文件记录包括:



Disallow

- 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:

User-agent: *
Disallow: /

Allow

- 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:

User-agent: *
Disallow: /ab/
Allow: /ab/cd

$通配符

- 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:

User-agent: *
Allow: .htm$

阅读全文>>