很多朋友在做高端谷歌SEO的时候会发现很多大站会有Crawl-delay这个属性在robots协议里面,Crawl-delay可能很多做小站的朋友不了解,如果拥有大站的朋友可能用到过、但是超级牛站、比如新浪、我想就不会去考虑这个问题了。Crawl-delay 是Robots.txt中一个设置“蜘蛛”降低抓取频度的参数,而很多大站可能由于被搜索引擎抓取频繁加上用户访问流量过大,导致页面加载慢(就是我们说的有点卡)。

  而目前对于也只有YAHOO和谷歌公开代表支持这个参数,具体可以参考:如何控制Yahoo! Slurp蜘蛛的抓取频度

  具体设置:

  —————————

  User-agent: *

  Crawl-delay: 10

  案例:http://www.blogbus.com/robots.txt

【杭州SEO分享】Crawl-delay是什么意思 百度是否支持

  而其它搜索引擎、目前还没对这个参数进行表明,不过通过各种数据来解释、百度及谷歌应该不会对这种参考过于说明! 因为他们很早就已经考虑到这个问题。其中”百度站长俱乐部” 就说明:

  问:蜘蛛大量抓取页面导致服务器出现负载问题

  答:会延迟百度对新网页的收录速度。

  正常情况下,Baiduspider的抓取频率大致上和网站新资源产生的速度相符,并不会给网站带来很大的压力。但现在网站结构通常都比较复杂,多种url形式指向的可能是相同的内容,或者会自动产生大量无检索价值的网页。

  我们目前发现的问题,主要来源于此,建议先分析一下spider的抓取日志,看看是否抓取了你不希望搜索引擎收录的形式,如果有,robots掉它们可以节省大量的资源。

  其实我这里说明一个问题用robots可以禁止垃圾页面/无效页面(也就是说、我们可以通过IIS日志去分析、网站中抓取频率最高、而又无用的页面,并进行屏蔽)但是这样做只是为了增大收录想被收录页面的机遇、同样没有解决抓取频率过高问题。 可能我没有这种大站,但是DJ小向知道有效的控制蜘蛛抓取、可以使用网站增大收录量、同样有效的控制蜘蛛返回码、同样可以使网站被K。

  ————————————

  再次补充:

  问:百度是否支持User-agent: Slurp

  回:可以在robots中的crawl-delay中设置,这个参数是baidu spider对网站访问频率的重要参考信息之一,但spider系统会根据网站规模、质量、更新频度等多方面信息综合计算得出最终的执行压力,因此并不保证严格遵守crawl-delay中的设置值。

  运用:

  之前我的博客由于雅虎搜索对于网络抓取采取大量系统,因此,我们的网络服务器会从不同的YST(雅虎搜索技术)抓取程序的客户端IP地址登录请求。不同的抓取程序系统彼此配合,来限制任何来自单一网络服务器的活动。所谓单一网络服务器,是由IP地址判断的。因此,如果我们的服务器主机拥有多个IP,它的活动则会处于更高的级别。

  YST有一个特定的扩展名,在我们的服务器根目录下的robots.txt里可以应用,通过它可以对雅虎搜索的抓取程序设定一个较低的抓取请求频率。可以在robots.txt里加入Crawl-delay:xx的指示,其中,“xx”是指在crawler程序两次进入站点时,以秒为单位的最低延时。如果crawler频率对我们的服务器是一个负担,我们可以将这个延时设定为任何恰当的数字,例如50或200。

  例如:我们想要设定一个5秒的延时,可以在robots.txt里加入以下语句 :

  User-agent: Slurp

  Crawl-delay: 5

  也可以设定更长时间的延时,在此不再赘述。

    版权声明:

     本网站的所有文字、图片资料,未标注转字的均由作者亲自整理创作,如需复制、转载、转贴等方式发布/发表,请以锚链接的方式显示原文出处,请尊重我的劳动成果,侵权必究。本网站转载的文章如有侵权的地方请及时联系本人,核对后会第一时间删除!

阿沐
1625139774@qq.com

发表评论