当前所在位置:网站首页 > 网络营销 > 网站优化

网站优化

Robots规则常见误区及Google百度Robots工具的使用
作者: 网站优化   来源:北京seo    发布时间: 2012-4-20 17:07:40   大小:  16px  14px  12px
对于robots.txt文件对于网站的作用大家都知道,但是通过观察发现,有些朋友对于robots.txt文件的规则还是有一定的误区。比如有很多人这样写:user-agent:*allow:/disallow:/mulu/不知道大家有没有看出来,这个规则其…

  对于robots.txt文件对于网站的作用大家都知道,但是通过观察发现,有些朋友对于robots.txt文件的规则还是有一定的误区。

  比如有很多人这样写:

  user-agent: *

  allow: /

  disallow: /mulu/

  不知道大家有没有看出来,这个规则其实是不起作用的,第一句allow: / 指的是允许蜘蛛爬行所有内容,第二句disallow: /mulu/指的是禁止/mulu/下面的所有内容。

  表面上看这个规则想达到的目的是:允许蜘蛛爬行除了/mulu/之外的网站所有页面。但是搜索引擎蜘蛛执行的规则是从上到下,这样会造成第二句命令失效。

  正确的规则应该是:

  user-agent: *

  disallow: /mulu/

  allow: /

  也就是先执行禁止命令,再执行允许命令,这样就不会失效了。另外对于百度蜘蛛来说,还有一个容易犯的错误,那就是disallow命令和allow命令之后要以斜杠/开头,所以有些人这样写:disallow: *.html 这样对百度蜘蛛来说是错误的,应该写成:disallow: /*.html 。

  有时候我们写这些规则可能会有一些没有注意到的问题,现在可以通过百度站长工具(zhanzhang.baidu.com)和google站长工具来测试。相对来说百度站长工具robots工具相对简陋一些:

  百度robots工具只能检测每一行命令是否符合语法规则,但是不检测实际效果和抓取逻辑规则。

  在谷歌站长工具里的名称是抓取工具的权限,并报告google抓取网站页面的时候被拦截了多少个网址。

  还可以在线测试robots修改后的效果,当然这里的修改只是测试用,如果没有问题了,可以生成robots.txt文件,或者把命令代码复制到robots.txt文本文档中,上传到网站根目录。

  google的测试跟百度有很大的区别,它可以让你输入某一个或者某些网址,测试google蜘蛛是否抓取这些网址。

  测试结果是这些网址被google蜘蛛抓取的情况,这个测试对于robots文件对某些特定url的规则是否有效。而两个工具结合起来当然更好了,这下应该彻底明白robots应该怎么写了吧。

深圳朵唯时代网络营销事业部是专业的网站建设与互联网信息服务商,目前朵唯时代已成为行业内知名的Seo服务商,深圳seo、北京seo咨询热线:18610866328,北京网站优化在线咨询QQ:1378623600。深圳seo/北京seo官方网站http://www.indexseo.cn。

分享到: 0