"给你个帐号,你用这个帐号登录进XXX系统,把所有的数据给我爬下来!" “这个是犯法的吧,我不做!”
几年前做过一段时间的爬虫开发,这是跟老板的一段对话。作为一个程序员,就算是奉行技术无罪论但是也应该明白这些事情是犯法的。很可能就会因为一段代码导致踏入牢狱。有时宁愿得罪了领导也不能接触及法律的工作。 (后来怼的多了我就被开了..)
为什么做爬虫?
毕业后的第一份工作是任职在一家网络舆情公司,网络舆情公司大部分是依赖爬虫技术的。利用爬虫技术获取各大论坛、微博、资讯网站等数据。对数据进行分析后发送给客户。
印象深刻的是有一次老板在全体会议上讲到公司的发展、数据的价值。"目前为止我们为客户推送的数据已有XX条,签约客户的总费用为XXX万元。折合每条数据X元"。当时的数据采集的都是开放的数据。论坛、微博、新闻资讯等网站的数据都是开放的数据而公司对于数据的处理可能仅仅是把数据分析、分类后推送个目标客户。(听起来跟今日头条很像,但是走的是不同的路而已。) 从那时开始对于爬虫、数据产生浓厚的兴趣。当时‘大数据’这个词刚刚在国内火起来。
步步陷落,技术无罪!
再后来跳槽到另外一家公司,这次不再是舆情数据公司而变成了企业信息相关公司。企业信息数据的来源同样依赖于爬虫,获取围绕企业相关的数据采集。企业数据的获取难度就大了一些,企业数据的单条数据价格更高。所以很多的爬虫也都瞄准了这个市场。所以要采集的那些网站压力真的非常大,甚至是使用浏览器正常访问网站都没办法打开。
企业信息的采集大部分依赖于政府的开放数据,可能很多做爬虫的同学都了解这个。部分的信息可能来自于其他的网站或者是合作机构提供的数据接口。至于合作机构的数据是如何获得的就不知道了。但是可以知道的是,爬虫对此类的网站服务器带来了非常大的伤害是肯定的。政府类的网站相对运营网站访问速度都非常的慢,但是之前可能会以为这个是开发的问题。之后我就不会了,如果某个政府类的网站访问速度非常慢,就会考虑一下这个网站提供的数据是不是价值很大?
再后来觉得工作没有什么意思,每天都在破解网站的验证码、网站结构的变更、网站新版本的发布。努力的采集更多的数据。努力的兼容真实的用户行为等等。这种工作非常的枯燥,后来就提出辞职了。
第三家公司是作为一个爬虫/大数据工程师入职的。公司是金融征信的,对金融征信有了解的大概也知道要爬虫是做什么。只不过这个不再是做爬虫的工作,转而成为了大数据工程师。因为公司不想自己开发爬虫,而是利用其它公司采集到的数据来进行数据整合。而本人也从一个爬虫开发进而成为一个大数据工程师。征信数据都是通过第三方数据平台获取,包括最近刚刚被上头条数据公司。
当年大数据兴起的时候所有的公司都知道大数据的概念,但是很少有人知道大数据是从何而来。如何在公司的业务上利用到大数据。所以很多的创业公司利用爬虫技术来获取原始的数据积累。大数据也就变成了体量‘大’。但是由于某些数据的敏感性导致可能不知不觉的就触犯到了法律。
直到今天因为某些创业公司没有直接的数据产生场景,依然只能通过爬虫来获取网络公开数据或非公开、甚至是个人征信数据。个人征信数据千万不要试图获取。忠告一句:个人数据保存50条以上即获刑。
大概三年前,彻底脱离了爬虫工程师的头衔转战了大数据开发。后来发现几家上热门的公司我都面试过、或者由于业务关系有过接触。现在看到相关的头条资讯,心里一阵后怕。
何谓爬虫
互联网早期的时候搜索引擎还不存在,只能手工整理录入网站目录。但是后来通过爬虫技术搜索引擎能够更快的获取到网络中的网页信息。通过一个URL获取到整站的网页数据构建索引,以便于用户进行查询。 某些爬虫对网站的压力是很大的。为了规范爬虫的采集,行业内通过robots协议来规范爬虫的采集。告知爬虫是哪些网页可以采集,哪些网页不可以采集。
但是当前的爬虫技术很少会有人提及robots协议,本人面试过的几十家公司均没有提及过robots协议是否了解。可能对于企业来说获取到数据才是正经事。
懵懂中进入爬虫开发只是想真正的开发爬虫系统,类似于百度爬虫、谷歌爬虫那样的爬虫。但是在实际工作中又完全不可能用到这些。可能只有对于搜索引擎来说爬虫还有一定的价值,其他的场景可能已经不没有爬虫生存的土壤了。
爬虫技术是否合法?
技术无罪,从上面得知爬虫技术本身肯定是合法的数据获取的技术手段。爬虫在正常的使用中如果遵守robots协议并且对对方服务器没有造成破坏的话。那么爬虫技术既是合法的技术手段。robots协议能够规定哪些爬虫可以获取网站数据,获取哪些网站的那些页面所以如果遵守robots协议的话,爬虫甚至能够受到网站所有者的欢迎。比如还有一个职位叫做SEO,既是专门为了优化爬虫光临、搜索引擎收录所存在的职位。
如果爬虫不遵守robots协议的话,甚至就完全不考虑robots协议的话。那么就会存在触犯法律的危险。存储、转卖网站禁止收录的内容肯定是会犯法的。个人征信信息就更不用说了。如果采集、存储等。即是犯罪。
最终
技术是为了更好的未来,不能为了当前的利益而放弃未来,触犯法律的事情给再大的利益也不要去做。