清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

01 “闷声赚钱——群雄逐鹿——一地鸡毛”爬虫发家三部曲

要说2019年度“明星行业”,那肯定是大数据了,从开年开始,一个个被关进局子的企业差不多能排到法国了?跟爬虫技术相关的是大数据行业,其实,这个行业也没有那么诡秘、更没有什么十恶不赦。

如果你仔细研究这个行业,无非就是一个技术在金钱的诱惑下成为作恶工具的故事,天下无新鲜事儿。

如果你搜索爬虫技术,知乎上一个“零基础如何学爬虫技术”的问答,浏览达到了120多万的浏览量。

互联网公司需要用到大量的数据分析,那这些数据哪里来?总不能是员工一个指头一个指头敲出来的吧。

这就用到了爬虫技术。最简单的理解就是:利用机器模拟人的行为抓取网络数据。

所以说,爬虫就是一门成熟的技术而已。这个技术是怎么突然一下子火起来又成为如今的害群之马之马的呢?

这就得跟整个互金行业的发展联系起来说了。简单说,这个行业三个关键节点:

2013年 互金爬虫元年,闷声不响

2016年 爬虫蔚然成群,生死大战

2019年 爬虫敢死队,监狱独白

2013年,互联网金融还是当红炸子鸡的时候,行业里冷不丁得出现了一家叫“**力”的公司,爬虫服务开始被业内人所熟知。

当时P2P、消费贷款兴起,用户需要在手机端填写很多个人信息,姓名身份证号家庭住址银行卡号等等,早期整个行业发展也不完善,很多公司的app属于那种一用就卡,一卡就死的水平。

填这么多信息很麻烦,后期处理也是个问题。这个时候,爬虫服务就应运而生了。

你可以简单把互金行业的爬虫服务理解为开发票。吃饭开票每次都手打太费劲了,现在大多数开票服务只要微信扫一扫,或者输入头一两个字给你自动联想出来了,省时省力,当时大概就是这么个作用。

特别要指出得是,这时候的爬虫服务还仅限于运营商数据

就是说甲方把需要查询的客户名单发给**力,**力获得授权后,爬取了客户的通话详单、通讯录、呼入呼出次数等等详细信息。

给大家看一个运营商数据分析的简单截图,注意,这只是一部分乙方反馈给甲方的运营商数据报告。

有人可能会问,爬取一个人的运营商数据干什么呢?这里面用处可大了。对互金行业来说,最直接有效的是:贷后催收。

当你知道了一个人父母、配偶、同事等社会关系联系方式,一旦这个人不还钱,所谓的暴力催收、电话轰炸“呼死你”软件就来了。因为运营商数据在手啊,暴力催收不要太容易。

估计很多提供爬虫服务的公司也没想到,自己最后会死在暴力催收上面,“兴于斯,亡于斯”这是后话了。

这时候行业内提供专业爬虫服务的公司还比较少,基本上属于闷声不响赚钱的阶段。

等到了2016年左右,开始有越来越多人开始觊觎这个市场了。我记得很清楚,那时候行业内一家大数据公司大概琢磨了一年多,也想做爬虫服务,东问问西瞅瞅,算了算账,这个活儿赚钱太辛苦(关于行业模式后面讲),也就搁置下了。

这时候,行业内大概又出现了几家公司,比如有家公司弄了一个叫“葫芦”的产品,大致也是能帮忙提供爬虫服务,我记得当时早期的时候是免费6个月,这一招一下子又给吸引了不少客源。

还有今年刚刚被抓的魔蝎科技也是在这一年成立的。越来越多的公司涌入,一直到大数据公司出事儿之前,这个行业大概的格局就形成了。

注:这里面公司名,全部都是别字哈哈

整个行业就是分为这三个梯队。2013年—2016年进入的那批,大部分已经都是第一梯队了,后面二三梯队都是嗅到金钱来玩的的后来者。

注意这里面的客户量,会直接影响到后面我们分析他们的利润情况。

这三个梯队还有如下特点:

1)都是基本上以爬取运营商数据起家。

2)公司高管相互间很多都有千丝万缕的联系。比如**力公司出来的一位高管创立了另外一家相同的公司。

这张图里,你们也可以看到,今年有两家公司出事:魔蝎数据和公信宝。至于他们出事儿的原因和爬虫的关系,我们后面再讲。

02 爬虫业务:到底能爬什么?

首先,大家要明确一个观点:爬虫是一个很辛苦很累重人力的活儿,不是外界想象的那么光鲜。

除了我们讲的运营商数据,爬虫还能爬啥呢?我截取一个爬虫团队的对外招商文件给大家看看

估计外行的人看完这个图片的第一反应是:我tm还剩下啥?

在前面的文章我们也讲过了,理论上来说,只要是用户授权了的数据,爬虫团队都可以爬取到。

最了解你的人,不是男票或女友,是爬虫。

运营商数据对贷后催收最管用,淘宝、支付宝数据、信用卡详单、邮箱账单这些都代表了你的消费能力。

保险保单这个在互金行业实际业务操作中很少用,社保、公积金这些数据也是帮助放贷机构来衡量的你贷款资质和还款能力。

不同的甲方,对这些数据的需求程度也不尽相同。比如,大家猜一下,714高炮最喜欢谁?

事实上,714高炮并不需要这么多的爬虫数据,它的真爱只有一个,那就是运营商数据,至于原因,很简单,方便催收,方便收取高额的逾期罚息就可以了。

那剩下的爬虫服务是提供给谁的呢?这里面消费金融公司、银行、消费贷款都有。但相对来说,稍微正规的公司,都不会像714高炮那么变态的使用爬虫业务。

前面说了,爬虫是个很累很辛苦的重人力活儿。爬虫团队需要根据这些不同的网站编写爬虫规则爬取数据。这里面最难爬取的是网银。

一般我们银行网站都会建设的比较“简洁大方”,界面也是奇形怪状,充满时尚感,这就是爬虫最痛恨的了,因为他们得单独写规则!

当然了,这么多网站也不是坐等着“白嫖”,你都把我的淘宝、京东数据爬走了,那可是我辛辛苦苦的家底儿啊。凭啥!

这里再给大家个施展才华的机会?猜猜爬虫团队最恨哪家互联网公司?

不可否认,阿里的技术、淘宝的反爬团队在业内是公认的一流。这也是爬虫团队最讨厌的网站,经常爬到一半,爬着爬着就爬不动了。其次,京东的数据也是很难爬的,这里东哥终于可以扬眉吐气了。

监控数据每天盯着,一有风吹草动立马尝试修改爬虫规则,反复调试,这已经是大多数爬虫团队工作的日常。

爬虫团队和反爬团队,基本上就是业内的一对生死冤家。这就好比“天天跪在地上擦地,还要随时盯防有人会给你上来就是一个大脚印子。”

总结下,哪些数据最难爬?

1、淘宝的数据。小数点都费老劲

2、各大公司网银数据。网站设计”简约时尚“到令用户崩溃

3、社保、公积金数据。人机交互验证五花八门,12306登陆页面回想一下?

03 爬虫赚了多少钱?

从最早2013年只有一家公司提供爬虫服务,到成群结队的爬虫敢死队,再到现在行业倒的倒,散的散,一地鸡毛。这个行业到底有多赚钱才能令人这么疯狂?

我以一个第三梯队的爬虫团队为例,一般来说50人左右的爬虫团队,一年的综合成本在1000——2000万左右。

收入上,提供给甲方的爬虫服务是按照查询次数收费的,基本上围绕在0.5——1元/次的行业平均水平。

通常来说,提供给714高炮的爬虫服务是最贵的。按照行话,这叫“卖评分卡”。

这里面有各种奇奇怪怪的评分卡,比如有些评分卡叫用小猪小狗小象的名字命名,你很难想象这么天真可爱的一个名字,却是714高炮最喜欢的评分卡产品。

某个小猪评分卡,查询起来2元/次,查的内容是什么呢,其实就是客户的逾期率。除此之外,还有“大象分”等各种产品。

这里需要给大家再次说明一下的是,比如714高炮这种高利贷,它并不是直接自己和提供爬虫服务的乙方公司对接,而是通过一个“系统中间商”,这个系统中间商负责把甲方和乙方的需求对接好,把技术通道打通。

在714高炮最疯狂的去年,一个很小的中间商,一天调用的次数大概在50万——100万次/天的规模。

两个数字各取一个折衷,按照200万次*0.5元/次=100万。这个数字*365,然后再对比下一年2000万的固定成本,你说这个行业赚不赚钱呢?

这只是爬虫服务,随着爬虫团队积累的数据越来越多,他们逐渐就可以通过机器学习的方式不断数据建模,进而就可以做“征信输出”的生意。

这里就不贴出他们提供的征信报告样本了,实在太长了。看完了只能说,我们真的被爬得一丝不挂,想要的自己加小叶子微信要吧。

这里面其实牵涉到一个用户授权和合理使用的问题,这个以后值得单独写一篇文章。

举个例子,比如某家现金贷公司发现有位借钱的客户没有及时还钱,打电话发现这人手机号码已经换了,家庭住址也是假的。这时候,这个人的信息就是缺失的了。

这时候,就可以专门去找一个“失联修复”的服务,乙方可以通过这个人的其他信息,再次帮你找个这个人的最新手机号,把缺失的数据修复好。

有人可能会问,那乙方是怎么做到的?

因为乙方接的甲方公司太多了。我们在前面给大家画的表格中,第一梯队的爬虫团队,接入客户量在1500家左右。这个客户的信息可能会在多家提供的数据中反复出现,在一个海量的数据库里修复一个手机号并不是难事。

看到这里,聪明的朋友可能会想到另一个问题,这个爬虫的商业模式看起来好像是低成本高收益,并且还可以不断收集沉淀数据,最重要的是行业准入门槛并不高?

是的。数据是甲方的、授权是甲方提供的,爬虫主要付出的是长时间的人力劳动。时间久了,反而成了无本万利的包租婆。

数据全部沉淀在自己这里,用甲方的数据向丁方收钱,然后用丁方的数据再向丙方收钱······

也正是这个原因,提供爬虫团队的不仅仅是乙方,很多消费贷款公司都想做自己的爬虫团队。

数据爬一爬供自己使用,做得好了还可以向外输出提供服务,进而把同行的业务数据都搞到手,岂不是一举三得?

这种想法的结果就是:当然死得很惨。

毕竟商场如战场,谁会相信一个即当裁判又当运动员的人呢?

04 爬虫转型之痛

前面我们讲了整个行业的发家史、行业梯队格局、行业利润情况,这里不可避免要讲到最近疯狂出事的大数据行业了。

看完我们的文章,大家应该也能明白,爬虫本身并不是一种犯罪行为,而是说这种互联网技术正好遇到了疯狂扩展的互金行业,以及它的最爱714高炮。

至于这里面的法律问题,我们在之前的文章也讲过了,不了解的朋友自己加小叶子的微信咯。

技术被滥用的后果就是数据贩卖、大量的隐私泄漏和地下黑产。

这个问题就犹如:你是准备打算只利用技术做做服务,赚赚辛苦钱还是赌一把,铤而走险去做违反犯罪的事儿?

1000万做不做?不做

5000万做不做?不做

一个亿呢?

十个亿?

········

永远不要试探人性的底线。

金融行业最疯狂也最迷人也最危险,不是离钱太近了,而是离赚大钱太近了。

很多锒铛入狱的公司,当初不是没有想过转型,习惯了这种无本万利的生意,会让你很难再去从事辛苦的搬砖行业,宁愿每天游走在违法的边缘地带。这跟很靠做现金贷发了财的人是一样的。

有一种伤害叫捧杀。

仅仅据我所了解的情况,爬虫行业的公司,很多人也在2018年开始寻求转型,他们做了一系列尝试,比如推销自己的征信模型,到最后就是不叫座也不好卖,最后只能草草了事。

很多甲方公司,持牌系、上市巨头,他们愿意花钱买好的产品,好的风控输出,问题是,这些需要高业务能力的产品并不是这些爬虫团队能一蹴而就学会并提供的。

搬砖狗赚不了大钱,起码有个自由吧。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文版权归原作者所有,如有侵权,请联系删除。首图来自图虫创意。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。