谷歌分析(Google analysis)中有一个强大的内置过滤器功能,有助于防止垃圾邮件、机器人和其他破坏数据完整性的垃圾流量。然而,我经常发现那些不使用这些工具的网站,或者他们使用这些工具的网站,任然出现这些垃圾流量,形式奇形怪状,原因有哪些呢?

  为了获得准确的数据,避免浪费你的时间,出现分析错误,今天就简单的说一下如何有效地处理分析中的不同类型的垃圾流量。

  谷歌分析中的垃圾信息可以分为两种类型: ghosts and crawlers

  1、Ghosts

  大多数垃圾邮件都是这种类型的。 他们之所以被称为Ghosts,是因为他们从来没有访问过你的网站。比如这种的,大家肯定是见过的:

  best-deal-hdd.pro巜─━─═━═─━━════━━visit━us

  best-deal-hdd.pro◄══━═══━━━━━═━══visit─us

  看起来是不是很搞笑,因为这种垃圾邮件与你的网站完全没有任何互动,你可能会想,这怎么可能,因为 GA 的主要目的之一不就是跟踪我们网站的访问吗?哈哈,其实更厉害的是,他们倒是可以通过使用Measurement Protocol来实现这一点,该协议允许用户直接将数据发送到 Google Analytics 的服务器上。使用这种方法,它可以随机生成跟踪代码(UA-XXXXX-1) ,垃圾邮件制造者会在不知道对方是谁的情况下,再使用假数据进行”访问”你的网站。

  2、Crawlers

  这种垃圾流量,与垃圾邮件相反,它是确实可以访问你的网站的。这些垃圾流量机器人会顺着你的网页,无视像 robots.txt 那样的规则,爬取阅读你的网站。当它们离开你的网站时,他们会在你的报告上留下类似于正常访问的记录。

  很多人肯定都试过从 Htaccess 文件来阻止 Ghost Spam,或者使用引荐排除列表来阻止垃圾邮件,都没能起到很好的作用,这是因为Htaccess 文件无法阻止没有访问的流量,也就是Ghosts,而引荐排除虽然能阻止一些,但是那些通过其他方法进来的就没辙了。通常拥有大流量的大网站最容易受到垃圾邮件的影响,尽管影响不是致命的,但无效的流量意味着不准确的数据报告。作为一个数据分析师,你应当能够解释细致的报告中发生了什么以及怎么去避免。

  那么怎么办呢?可以换个思维,反过来操作,就是直接只允许你自己设置的hostname来访问,其他的都屏蔽掉,hostname怎么找呢,看下图:

【6.1网站日志分析教程心得】垃圾流量和蜘蛛机器人一直在你的Google analysis中显示?

  对于中小站点来说,当你确定你已经得到了所有这些hostname之后,你就可以创建一个类似于这个的正则表达式:

  example\.com|anotherexample\.com|anotherexample\.com|anotherexample\.com

  里面的域名大家自己去填下就好了,记住你不需要把所有的子域名都放在正则表达式中,因为一个主域将匹配所有这些,所以没必要。

  最后就是创建一个自定义过滤器

  进入“过滤器”,然后点击添加新的过滤器,进入这个界面:

【6.1网站日志分析教程心得】垃圾流量和蜘蛛机器人一直在你的Google analysis中显示?

  创建完之后验证一下看看,点击保存。这个过滤器将屏蔽你设置的无效主机名的垃圾流量, 但重要的是,每次在ga中看到其他有效的主机名时,记得要将其添加到筛选器正则里面去。当然,这些操作都只适合中小网站,一般情况下都够用,大型网站我也在慢慢研究,我到时候出个付费教程,不想折腾的或者有需要的小伙伴可留言。

        版权声明:

  本网站的所有文字、图片和音视频资料,版权均由作者整理创作,任何媒体、网站或个人未经本网协议授权不得复制、转载、链接、转贴或以其他方式复制发布/发表,请尊重我的劳动成果,谢谢,侵权必究。

    版权声明:

     本网站的所有文字、图片资料,未标注转字的均由作者亲自整理创作,如需复制、转载、转贴等方式发布/发表,请以锚链接的方式显示原文出处,请尊重我的劳动成果,侵权必究。本网站转载的文章如有侵权的地方请及时联系本人,核对后会第一时间删除!

阿沐
1625139774@qq.com

发表评论