免责声明: 首先我不是律师,我只是一个碰巧对 SEO 和爬虫技术这个主题感兴趣的普通新人。所以以下文章都是我查看相关资料得出的结论,仅仅代表个人看法,有什么不对的,欢迎指正。篇幅较长,请耐心看!

 

一、什么是网络爬虫?

 

在回答这个问题之前,我们最好还是先简单了解一下爬虫到底是什么,是在地上爬的动物吗?非也…..个人了解,网络爬虫在最近几年是非常火的,特别是 python 语言的诞生,更加推动了这个技术的火热,这个技术呢,一般分为两个层面:

 

1、Web scraping:是指自动下载网页数据并从中提取特定信息的行为,它所提取的信息几乎可以存储在任何地方(比如数据库、文件等)。例如,你可以使用网络爬虫从国家气象局提取天气预报数据,这将允许你进一步分析它。

 

2、Web crawling:自动下载网页数据,提取其中包含的超链接并跟踪它们的行为。下载的数据通常存储在索引或数据库中,以便于搜索,比如咱们 SEOer 们最熟知的 Googlebots,Baiduspider 爬虫。或者你技术够牛,你可以使用网络爬虫从广泛的网站下载数据,并自己建立一个搜索引擎。比如国外著名的 semrush,moz,这些爬虫其实也是一种。

 

二、网络爬虫的某些危害表现!

 

当然,为什么这个问题会被提出来呢?就是因为这几年爬虫被玩坏了,名声不太好,它的用途被某些人用偏了,被用作偷盗的工具。这些爬虫被越来越多地用于商业目的,窃取关键信息,以获得竞争优势。所以这些商家所有者,为了保护自己的信息合法性,就提出这个爬虫合法问题。它到底有没有完全无视版权法和服务条款(ToS),这个还不能完全界定,需要专业律师解答。

 

另一方面,个人站长也难逃爬虫的困扰,例如,网络爬虫每秒钟发送的大量请求可能比普通用户要多得多,如果你的服务器配置很一般,比如虚拟主机,那么大概率会导致网站负载超出预期。这些爬虫也可能选择匿名掩饰,不公开自己的身份,大肆造作。厉害点的爬虫,它们还可能在网站上执行被禁止的操作,比如绕过安全措施来自动下载数据,听起来是不是很可怕!

 

还有那些第三方平台就更不用说了,国内的淘宝,微信公众号,以及国外的社交网络(如 Facebook、 LinkedIn 等,听说 Facebook 对自动数据收集有单独的术语。)和在线电商(如亚马逊),每天每时每秒都遭到这些爬虫的干扰,所以,这些公司也会诞生反爬虫专家组。

 

三、网络爬虫到底是合法的还是非法的呢?

 

首先,经过上面的铺垫,网络爬虫作为一门技术,它既然是技术,所以它本身是不违法的。且在大多数情况下你都可以放心大胆的使用爬虫技术。那么再往深的方向讲,技术是把双刃剑,用的不好,那就是有法律风险!

 

咱们先说说哪些情况下是有法律风险的:

 

1.当采集的站点有声明禁止爬虫采集或者转载商业化时。

 

这个可以拿淘宝来说,淘宝平台是有鲜明的法律说明的,你如果你用爬虫采集数据,触犯了这些条目,用于商业竞争,那么毫无疑问,你是要吃官司的。

 

 

【互联网那些事】Python 网络爬虫合法性的问题探究 !

 

 

再比如国外,在之前的 Linkedin 起诉 Doe 被告一案中,Linkedin 起诉了1-100名匿名删除网站的用户。他们为什么要起诉这些人?让我们看看,在没有得到领英公司官方的同意:

 

他们违反了《计算机欺诈和滥用法》(CFAA)

违反《加州刑法》

非法侵入,违约

挪用公款等行为

 

以上这些行为大部分都是法律层面,非法技术者已经触犯了法律了,那么这些技术就是违法的!案件原地址:http://digitalcommons.law.scu.edu/cgi/viewcontent.cgi?article=2261&context=historical

 

2.当网站声明了 rebots 协议。

 

这个做 SEO 的都知道,当你想看某网站的协议时,可以输入网址/robots.txt,比如:www.rrdaj.com/robots.txt,上面写明了我的限定范围,如果你还是窃取,也是一种不好的行为!比如你用爬虫窃取了我网站我明确指定你不能窃取的文件目录信息,那么我是可以维权的。

 

例如:(摘自知乎)百度公司旗下拥有百度知道、百度贴吧、百度文库以及百度百科等内容页面,百度利用Robots协议自设白名单,谷歌、微软必应、雅虎、搜狗、SOSO等搜索引擎均可以抓取这些内容,但是仅仅360搜索不被允许抓取。2012年8月,奇虎 360 搜索在未获得百度公司允许的情况下,抓取百度旗下百度知道、百度百科、百度贴吧等网站的内容,并直接以快照的形式向网民提供。百度认为该行为严重侵害了百度的合法权益,于2013年10月起诉奇虎360不正当竞争,结果360败诉。

 

3、被窃取的信息是受法律原创保护的。

 

一个网站——包括它的页面、设计、布局和数据库——是可以受到版权保护的(例如在美国,版权保护的作品受到数字版权法案(DMCA)的保护。),因为它被认为是一个创造性的作品。如果你从这些网站上提取数据,那么用你的 web scraper 在内存中复制网页副本的事实是可能被认为是侵犯版权的。但是如果你自己的网站都是别人网站的东西,比如是采集的,伪原创的东西,没有自己的原创保护,那么你拿什么去起诉呢?自己也没底气。

 

 

四、给那些爬虫技术大牛们的的一些建议,减少触碰法律红线的概率:

 

1、如果提供了 API,就尽量使用它,而不是抓取数据

2、比如做 Google 等外国业务的,请遵守 ToS 等法律服务条款

3、Python爬虫人员,SEO 人员尽量遵守 Robots《网站协议条例》

4、尽量使用合理的 crawl rate 爬行速率,减少给别人网站的负载影响

5、最重要的是:在没有验证数据的许可证或者没有得到版权所有者的书面许可的情况下,不要发布你抓取的或者抄袭的数据或者任何衍生数据集来用于商业用途!

 

 

总结,目前国内貌似爬虫领域还是一个擦边球的状态,毕竟法律也不是很完善的东西。法律也是可以有漏洞的,那些在逻辑、常识和技术专长人,他们总会用法律术语和一些法律的灰色地带来做一些骚操作。所以大型公司内部也是有很强的律师团队,也许会花费公司的很多经费,但是也是值得的。所以反爬虫也是一项艰巨的漫长工作,涉及到技术和法律!你需要一些足够专业的技术团队以及法律团队,这样才能尽可能的减少公司的损失,维护自己的权益!

    版权声明:

     本网站的所有文字、图片资料,未标注转字的均由作者亲自整理创作,如需复制、转载、转贴等方式发布/发表,请以锚链接的方式显示原文出处,请尊重我的劳动成果,侵权必究。本网站转载的文章如有侵权的地方请及时联系本人,核对后会第一时间删除!

阿沐
1625139774@qq.com

发表评论