首先爬行和索引只是让你的页面在搜索结果中有展现的先决条件,尽管这是优化你的网站搜索的两个基本要素,但是还是有许多因素可以让影响你的网站排名,比如日志分析中的蜘蛛爬取。本篇的主题可以帮助你为你的网站又一个新的认识,或者对seo有一个新的感受吧。

爬行是百度/谷歌搜索引擎的首要任务,没有爬行就没用索引,更谈不上排名了。想让你的网站容易爬行,那么首先高质量的内容,也就是原创绝对是有好处的,亲测,当然谷歌还有优化的元数据,链接策略,也会对爬行效率有影响,有兴趣的可以在我网站上搜一搜schema数据去看看。

什么是百度/谷歌蜘蛛的爬行效率?

爬行效率是百度/谷歌机器人如何能够顺畅地爬行你网站上的所有网页,一个优秀的网站结构,稳定的服务器,完好的网站地图和 robots.txt 文件,优化过的网站速度都可以有效提高爬行效率。如果你的网站这些都做好了,你最终也会最大化你的网站的爬行速度和爬取量和索引。

每个网站都有一个爬行预算(Crawl budget)公式,只是我们不知道。比如爬行预算是谷歌(google)想要爬行(爬行需求)的页面数量加上谷歌可以爬行的页面数量(爬行速度)之和,不过这个我是之前看国外大佬写的,可靠性不确定。一旦谷歌搜索引擎”花费”了它的爬行预算,它就会停止爬行一个网站,即使它还没有达到你打算索引的最后一页。

爬行预算的运行机制

我的理解就是百度谷歌搜索引擎每天在你网站上会有个智能算法,已经算出了今天在你网站上的爬行量了,一旦用完了这些预算,就会停止,也就是说你的很多页面可能不会被爬取到,当然真正的智能算法是怎样,我们是不知道的,只有那些搜索引擎工程师知道了。举个栗子,我们看到每天的平均爬行预算是27页。所以从理论上讲,如果平均的爬行预算保持不变,那么你每月的爬行预算将达到27×30=810页。这也就是元标签发挥作用的地方: 它们可以让谷歌机器人在搜索结果中提醒机器人不能在不想被索引的页面上浪费爬行预算。就像你攒钱花在刀刃上一样,你宁愿买贵的鞋或者口红,也不愿意把钱花在买乱七八糟的小东西一样的道理。

如果你的网站是小网站,你的爬行效率往往高于一个百万级别页面的网站,这并不稀奇,因为小网站只有很少的页面可以爬行,爬行预算是足够的,大网站就不一定了。有些小伙伴肯定会庆喜,自己的网站收录了大量的页面,殊不知这些页面对自己蜘蛛来说,是个很大的负担,它根本爬不完!累都累死了!任何被谷歌或者百度搜索过的 URL ー不管它是否是一个经过处理的 URL (例如 AMP,hreflang 页面)、带参数的 URL、嵌入的内容(如 CSS、 JavaScript)ー都会影响你网站的爬行预算,这就是为什么一个干净的网站地图和 robots.txt 文件是必要的,这也是为什么seo需要用心写的缘故。

既然有爬取预算,那么就会有限制,每个网站都有一个爬行速度限制,也就是百度或者谷歌站长后台所说的爬取限额。这个限制是你网站的最大爬取率,代表了可用于爬行站点的最大的数量。爬行速率限制的目的是避免过多消耗你的服务器请求,也是搜索引擎很智能化的表现,这也会减少对你网站的真实用户的影响。一个快速稳定的服务器和快速的页面加载速度可以提高你的爬行速度限制,帮助你的网站更经常地被 google/baidu 爬取搜索,这就需要SEO工程师们和其他部门技术人员配合优化了。

笔者的一个小建议就是将XML站点分割成更小的网站地图。例如,你可以为每个网站部分创建 XML 网站地图,这样可以迅速确定是否有网站的某些其他内容部分。你的 XML 网站地图在 a 部分包含500个链接,480个是索引的,那么你做得就相当不错了。但是,如果你的 b 部分的 XML 网站地图包含500个链接,而且只有120个是索引的,这就需要思考为什么蜘蛛会生气不索引呢,需要你‘哄一哄’了。

    版权声明:

     本网站的所有文字、图片资料,未标注转字的均由作者亲自整理创作,如需复制、转载、转贴等方式发布/发表,请以锚链接的方式显示原文出处,请尊重我的劳动成果,侵权必究。本网站转载的文章如有侵权的地方请及时联系本人,核对后会第一时间删除!

阿沐
1625139774@qq.com

发表评论