懂你 2007-1-10 16:41
Robots.txt指南
当搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。这就是大家在网络上常看到的“拒绝Robots访问标准”(Robots Exclusion Standard)。下面我们简称RES。
k
e
]I/I
rrx
Robots.txt文件的格式:
&^z4DYWzzu
R
Robots.txt文件的格式比较特殊,它由记录组成。这些记录通过空行分开。其中每条记录均由两个域组成:
1Tu"\_8^:}5cK7~
1) 一个User-Agent(用户代理)字符串行;
nV/jG&Eowe1[.G9i+n
2) 若干Disallow字符串行。 io5VE(n8lPY1?/c d
记录格式为: “:“ V6?D WN*KA'\#H
下面我们分别对这两个域做进一步说明。!Y7Y4p8H5| r&aO"O
User-agent(用户代理):
k q*p'E#|^|9J
User-agent行(用户代理行) 用于指定搜索引擎robot的名字,以Google的检索程序Googlebot为例,有:User-agent: Googlebot8t'i2F`z
x
一个robots.txt中至少要有一条User-agent记录。如果有多条User-agent记录,则说明有多个robot会受到RES标准的限制。当然了,如果要指定所有的robot,只需用一个通配符“*“就搞定了,即:User-agent: *