网络爬虫的商业利益用途以及合法性

Share

据不完全统计,目前互联网流量有42.2%是由网络机器人创造的,其中恶意机器(主要为恶意爬虫)流量占到了21.80%。大概的格局如下所示,这种分布也是合理的,因为网络世界并不是都是真人。但是机器爬虫也分好坏的,就像电影终结者里面,也有善意和恶意的机器大战。那么这些恶意机器爬虫的目的是什么,有很多种,比如个人也可以制造爬虫,比如现在流行的python爬虫,Java爬虫,这些程序制造的爬虫,既有个人用途,比如有些爬虫只是做一些简单的自动化,还有些就属于商业性质的了,比如爬虫爬取竞争对手的网站数据,然后进行数据清洗,数据整理,甚至有的还能形成自己的商业项目,这个后面会讲。

网络爬虫的商业利益用途以及合法性
添加图片注释,不超过 140 字(可选)

上图中的正常机器爬虫一般都是大型公司的网络爬虫,比如百度,360,谷歌,华为等这些搜索引擎,以及手机生产商所产生的的爬虫,这些爬虫的工作就是,去网络世界寻找可靠的网站资源信息,然后抓取索引到自己的数据库,再进行重新编排,供用户检索,比如我们使用的百度,谷歌,华为内置浏览器,都是这些爬虫抓取的内容。这些爬虫往往都是那些大集团高级工程师写的,所以它们都是相当智能的,一般不会对用户网站造成过载,并对其产生影响。不像恶意爬虫,它们是没有限制的,只要你不发现,它们就会肆无忌惮的进行抓取,严重的会造成网站崩溃,最常见就是我们放假的时候12306网站抢票,经常崩溃,多刺激啊。

爬虫的商业利用

在出行行业,恶意爬虫的主要目标是12306网站。我们日常使用的很多抢票软件上的票务信息就是由恶意爬虫不断的爬取12306网站的信息而来的。它们对12306网站的票务信息进行暴力爬取,不断的对网站提出刷新请求,于是12306网站时常因负载过大而崩溃,对我们的网络购票造成了严重的影响。还有某些网站APP,爬取各大航空公司的机票价格,然后整合到一起,就成了一项商业业务,具体什么网站APP我就不说了。

在社交行业,恶意爬虫的主要目标是在各类点评App及网站,比如之前流传的马蜂窝,其中2100万条“真实点评”中有1800万条是通过机器人从大众点评和携程等竞争对手抄袭而来。通过语义分析、数据挖掘,发现了7454个抄袭账号,平均每个账号抄袭搬运了数千条点评,合计抄袭572万条餐饮点评和1221万条酒店点评,占官网声称点评数85%。

在电商行业,我们熟知的价格比对平台就是通过爬虫爬取诸如淘宝、京东等大型电商的商品价格数据,之后将数据整合,放在比对网站上供用户对比。

还有个人商业利益用途案件,比如2021年9月,某信息公司员工在网上巡查时发现一款叫“汇易获客”的软件,购买使用后发现软件居然可以“爬取”公司后台数据和直播间用户的相关信息,随即报警。经查,2021年中,被告人丁某从他人处以9800元的价格购进“汇易获客”软件成为代理商,利用软件入侵某些短视频平台的服务器,通过关键词搜索可以快速抓取平台信息,主要包括用户名、UID、签名及评论等,再通过软件把UID转换成二维码,来精准定位客户。丁某对该软件进行了重新包装后销售,违法所得2.4万余元。

爬虫相关法律的制定出台

中共中央网络安全和信息化委员会办公室在2019年5月28日发布的《数据安全管理办法(征求意见稿)》第十六条中首次出现了对网络爬虫规制的法律条文,详情参阅:http://www.cac.gov.cn/2019-06/16/c_1124630015.htm

目前来说,我找的比较权威的就这版本了,其他更加细化的暂时没找到。也不知道那些爬虫工程师们是不是觉得,这些岗位是面向监狱的岗位(摊手)。但是我个人认为,随着现代社会数据的敏感性,以后这些涉及数据安全的爬虫法律法规会变多变得更加细化吧。

最后有个很敏感的命题就是,爬虫是不是违法的?违不违法不是爬虫的错,爬虫本身它是一种技术,它本身是不违法的。就比如匕首它本身是一个工具,但是你带它入手抢劫,那就是违法,爬虫也一样,具体要看你用爬虫来做什么,你如果拿爬虫技术去做违法乱纪的事情,那就是违法,比如你用爬虫去爬人家敏感的数据,那注定是违法的,再比如你拿爬虫去爬取别人的商业机密,用户数据,再打包进行二次转卖,这也是违法的…….

    版权声明:

     本网站的所有文字、图片资料,【未注明转载的】均由作者亲自整理创作,任何媒体、网站或个人未经本人同意和授权不得复制、转载、转贴或以其他方式复制发布/发表,请尊重我的劳动成果,侵权必究,谢谢。