之前我写过网站收录下降的不同原因中,就提过抓取这个概念(传送:http://www.rrdaj.com/hzseo/seoxin-shou-ru-men-xue-xi/3072.html),不同类型的网站上的内容千差万别的,比如电商网站,如淘宝,就有大量的产品链接;内容输出型如:CMS,会有大量的文章单链接;论坛交互型。如:知乎,它是含有大量的评论回复链接,那么,搜索引擎蜘蛛在抓取时,应该也是区别对待的,怎么抓,抓多少,这就是‘抓取预算’的概念了,这个在国内叫抓取频率,它是由 Google 提出来的,谷歌工程师对此解释更加丰富!并且表示这个因素直接影响PageRank,也就是咱们说的排名…..

 

 

虽然SEO这几年的发展很快,但有些东西是不会大改变的,比如索引,抓取这两个核心。高品质的内容,权威性和相关链接的设计,以及一个良好的网站结构一直是搜索引擎喜欢的,算法也会围绕这些展开,想办法让网站变好是一个搜索引擎优化策略的所有关键,但咱们试想一下,如果搜索引擎无法抓取和索引你你的网站网页,这一切是不是都是白谈了。就像有些朋友说我明明索引很多页面,为啥还是没有好的排名,也许从抓取效率来看,其实很不好,收录了,但是质量不高。

 

 

什么是抓取预算(抓取频次)?

既然是预算,那么顾名思义就是投资,您比如老板给我们一定数额的投资预算,我们去投资项目,这个项目就是蜘蛛的抓取,至于派多少蜘蛛,抓取多少量,就是预算了,这个老板呢,就是谷歌智能了!我们想做的就是花这么多钱,投资效益最大化,抓取也一样,同样的抓取预算,我们追求抓取效率最高!

 

 

搜索引擎蜘蛛(也被称为搜索引擎爬虫和机器人)抓取你的网站内容,然后将其添加到他们的索引数据库中。一旦抓取和索引,你的网站的网址就会给蜘蛛一个印象,印象好就会有几率出现在搜索引擎结果页面(SERP中)。特别是对于大于10000多页的网站,抓取的效率变得更加重要,因为抓取预算一定范围内,抓取时间越长,一般都会有问题,严重的会出现抓取陷阱; 因此,它是非常重要的。

 

 

为什么是重要?

咱们刚才说了这个概念,那么这个预算会不会有所减少呢?当然会了,您想想啊,老板给你的钱,花的很冤枉,老板会不会减少预算,甚至撤资,严重的你还要被炒鱿鱼啊!搜索引擎也是如此,搜索引擎蜘蛛是定量的,它对你网站的投资也是根据它的印象来进行智能加减,咱说个比较严重的假如您的站点很糟糕,搜索引擎蜘蛛完全有可能将停止抓取,因为一旦其抓取的预算用完了,它也就‘撤资’了,SEOer们也许有时候会发现自己的站点抓取频次下降的厉害或者变为0,这个时候也有可能是预算用完了。

 

 

据谷歌工程师称,抓取的两个因素:

1、网址结构清晰,伪静态会更频繁地被抓取和索引
2、网站的内容的新鲜度以及原创性也会大概率增加抓取

 

 

什么情况下可以导致抓取问题?

实际操作中其实有许多能影响搜索引擎抓取你网站的问题,您比如咱们见的比较多的–有很多状态码错误的网站,例如,大量的404和500服务器连接错误,很可能是正在浪费爬行预算。一般情况下,当搜索引擎蜘蛛访问一个网页有错误,它就会移动到下一个URL。尤其是服务器的错误,当它们发现一个接一个的错误之后,就会有大概率离开。另一方面,如果蜘蛛没离开,还在抓取,那么这个时候它已经进入了死循环,咱们有时候会发现抓取频次突然出现峰值,就是这个原因,进入循环的影响是什么–可能会导致网站服务器资源的浪费以及蜘蛛抓取速度也将减慢,所以建议在此多去监控。以下几个情况是很容易导致错误:

 

 

一、过多的查询参数

这个问题是经常出现在应用过滤器时使用的查询参数电子商务网站中,例如,咱们看看亚马逊的一个URL:

 

 

 

【搜索引擎优化原理】SEO 抓取频次 VS 抓取预算的简单介绍!

 

 

 

https://www.amazon.cn/dp/B00BKQT73Y/ref=gwgfloorv1_AGS_nal_2?_encoding=UTF8&ie=UTF8&smid=A2EDK7H33M5FFG&pf_rd_p=8498a6d0-c1f0-4591-b4d3-96d0e6e02047&pf_rd_s=desktop-4&pf_rd_t=36701&pf_rd_i=desktop&pf_rd_m=A1AJ19PSB66TGU&pf_rd_r=V06D5QYF59E3T4H9FK2S&pf_rd_r=V06D5QYF59E3T4H9FK2S&pf_rd_p=8498a6d0-c1f0-4591-b4d3-96d0e6e02047,

 

虽然亚马逊现在已经不会太依赖SEO了,但是便于大家理解就用它了。咱们看看这个页面,我选择了适用人群,颜色等不同参数型号形成的URL,这样的链接每天任何用户都是可以添加过滤器的,每天可能就是上万个,如果你没做好相关优化措施,这样的结果就是会消耗大量的蜘蛛抓取预算。这样的链接建议大家去写robots.txt文件,或者用canonical的规范标签去规范它,减少它们被编入索引,减少它会被抓取的概率。

 

 

二、网站的重复内容

同样,虽然规范标签也是可以用来防止重复的內容被再次索引,但是这并不妨碍它被抓取。这些标签只是告诉你不要索引我,但是我还是可以抓取,消耗抓取预算的。

 

 

当一个网站的多个版本都可以被搜索引擎的蜘蛛访问的话,例如:

http://kkkk.com
http://www.kkkk.com
https://www.kkkk.com/kk
https://www.kkkk.com/kk.html

 

 

这4个链接都可以访问,并且内容一模一样,那么它抓取就消耗了4次,本来一次就可以完成的!怎么办?301重定向,确定好首选网址即可。好了以上就是抓取预算的相关知识,虽然我写的偏简单,但是实际操作是比较复杂的,有的甚至要结合其他操作来解决排查这个问题,目的还是为了最大限度的利用好蜘蛛抓取预算,做好投资。

    版权声明:

     本网站的所有文字、图片资料,未标注转字的均由作者亲自整理创作,如需复制、转载、转贴等方式发布/发表,请以锚链接的方式显示原文出处,请尊重我的劳动成果,侵权必究。本网站转载的文章如有侵权的地方请及时联系本人,核对后会第一时间删除!

阿沐
1625139774@qq.com

发表评论