如何编写robots.txt文件
用户代理:*这里*代表所有种类的搜索引擎,并且*是通配符
不允许:/admin/此处的定义是禁止对管理目录下的目录进行爬网
不允许:/require/此处的定义是禁止对所需目录下的目录进行爬网
不允许:/require/此处的定义是禁止对所需目录下的目录进行爬网
不允许:/ABC此处的定义是禁止对整个ABC目录进行爬网
不允许:/cgi-bin/*。htm禁止访问/cgi-bin/目录中的所有文件。htm & quot带后缀的URL(包括子目录)。
不允许:/*?*禁止访问网站中的所有动态页面
不允许:。禁止抓取所有图片。网页上的jpg格式
不允许:禁止在adc.html的文件夹下抓取所有文件
用户代理:*这里*代表所有种类的搜索引擎,并且*是通配符
允许:/cgi-bin/这里的定义是允许抓取cgi-bin目录下的目录
允许:/tmp这里的定义是允许对tmp的整个目录进行爬网
允许:。htm$仅允许访问。htm & quot作为后缀的网址。
允许:。gif$允许抓取网页和gif格式的图片
在这个例子中,网站有三个目录限制搜索引擎的访问,即搜索引擎不会访问这三个目录。
需要注意的是,每个目录必须单独声明,不能写成不允许:/CGI-bin//tmp/;。
用户代理:以下*有特殊含义,代表任何机器人。,所以不能有不允许:/tmp/* ;或不允许:*。gif 这样的记录出现了。
用户代理:*
不允许:/cgi-bin/
不允许:/tmp/
不允许:/~joe/
机器人特殊参数:
允许Googlebot:
如果要阻止除Googlebot之外的所有导航器访问您的网页,可以使用以下语法:
用户代理:
不允许:/
用户代理:Googlebot
不允许:
谷歌机器人遵循指向自身的路线,而不是指向所有的漫游者。
本文由网上采集发布,不代表我们立场,转载联系作者并注明出处:http://www.wxztseo.com/seozx/11510.html