水库论坛欧神文集官网 - 欧成效yevon_ou

搜索

什么样的“爬虫”,能卖出53亿美元?

[复制链接]
发表于 2020-9-11 16:00:03 | 显示全部楼层 |阅读模式

水库论坛

水库论坛

什么样的“爬虫”,能卖出53亿美元?



中国爬虫公司在去年经历一场大地震,国外金融科技公司Plaid却以53亿美元的价格被VISA收购,如何更好地利用爬虫技术这把双刃剑成为亟待解决的问题。

今年初,大名鼎鼎的VISA宣布以53亿美元的价格收购一家名为Plaid的金融科技公司。

值得注意的是,Plaid在一年前完成C轮融资时,估值为26.5亿美元,也就是说VISA不惜花两倍的价格也要尽快把Plaid收入囊中。

对此,Visa的CEO表示,自2015年以来,Plaid的年复合增长率一直保持在100%左右,这笔交易将是一步“长远的棋”,会在未来十几年内巩固Visa的地位,它能扩大公司的市场范围,与更多金融公司建立合作。

并且这次收购有可能为公司在2021年带来100个基点的净营收增长率。

那么这个让VISA不惜支付溢价也要得到的Plaid到底是个什么公司?

1
数据的桥梁

Plaid成立于2013年,是一家标准的独角兽公司,该公司与11000多家金融机构建立了合作关系,共拥有超过2亿个帐户 ,目前拥有美国银行帐户的人已经有四分之一使用了Plaid的技术服务。

两个创始人仅仅30岁出头,可谓出尽了风头。

在公司创建之初,两人最初尝试的是构创造一个个人的财务管理产品。但当他们在尝试连接这个产品所需要的银行数据时,一直在缺乏统一的银行API和交易数据质量低下的困境中挣扎。

俩小年轻就这样歪打正着发现了痛点,于是他们决定将其核心业务重点转向统一的银行API上面,干脆自己动手来完善基础设施。

什么是API?API的中文名称是“应用程序编程接口”,比如微博上有个用户是资深小黄文爱好者,优点是他还乐于分享,于是他写了一段代码来搜罗全网的小黄文发到自己微博上。

某一天你发现了这个博主,而你正巧好这一口,就走了一波关注,那么这个博主的账号就是一个“小黄文API”,你关注了就是连上了这个API,也别管他代码是怎么写的,看就完事儿了。

简言之,Plaid就是一个API接口,主要是帮助各种金融科技公司读取用户的银行数据,充当了一个桥梁的角色。

创始人Perret在2013年公司刚创立时对媒体说:“从前,您必须将帐单和收据邮寄给您的会计师,后者会通读一些复杂的数据,才能弄清楚交易的含义。

而使用Plaid,应用程序会允许用户链接他们的银行帐户并获得每笔交易的详细数据,该交易将会被捋清到具体的时间、地点等。”

目前Plaid已经被美国的诸如Venmo(移动支付)和Chime(数字银行)等头部金融科技公司所使用。例如,股票交易应用程序Robinhood使用Plaid的身份验证来验证用户的帐户所有权,检查余额并促进资金转移。

而Plaid读取数据的方法,就是要求用户提供密码,代替用户登录并通过屏幕抓取的方法获得用户信息。

也就是俗称的大数据爬虫。

爬虫作为一门古老的技术简单地说就是一个机器人,它可以模拟真人的行为去各个网站抓取你想要的信息、数据或是执行你设置好的指令,并且爬虫是一次放出成千上万只,成群结队、孜孜不倦地到处完成任务。

Plaid其实就是一家爬虫公司,但其数据获取之路也不是一帆风顺的。在2018年,Plaid就硬刚过全美第五大的零售银行Capital One,彼时Capital One禁止了Plaid的访问权限。

Plaid则奋起反击,在Twitter等社交媒体上号召用户向美国消费者金融保护局(CFPB)投诉。经过反复的博弈,美国的这家爬虫公司最终以53亿美元的价格成功找到金主,混得风生水起。

而反观国内的爬虫同行们,在去年经历了一场大地震,几乎被团灭。

2
爬虫爬得欢,牢底要坐穿

2019年,国内的爬虫公司都纷纷变得风声鹤唳、如履薄冰,有许多知名公司的高层被请去喝茶。

在此次爬虫圈的地震风波中,最先被调查的是一家叫巧达数据的公司。

2019年3月14号,巧达数据全公司上下200号人全被带走,经过排查最后有36人被捕,其中包括公司相关高层和写爬虫代码的程序员。


此后地震波便扩散开来,比如圈内知名的新颜科技,其CEO黄向前几天前还在第二届WAIC世界人工智能大会上侃侃而谈,结果被杀个措手不及,瞬间就进去喝茶了。


虽然始料不及,但黄向前未曾孤独,紧接着摩羯科技的CEO周江翔表示自己也口渴了,需要一杯沁人心脾的凉茶来润润嗓。

重点是周江翔并不是一个人,他还带了一些朋友一起加入茶话会。他进去的次日,中国电信控股的子公司天翼征信因为与摩羯科技有业务往来而导致高层被带走调查。天翼征信的总经理、副经理等共计十几个人被带走。

连锁反应并未结束,知名的区块链公司公信宝也被牵连其中,其CEO黄敏强被带走后公司也被贴上了封条。


就连圈内大数据风控龙头企业同盾科技也被爆出爬虫部门已解散,CEO蒋韬已经跑路出国避风头,并且之前新颜科技和魔戒科技被调查都是因为被同盾科技举报。

但同盾科技立马发出声明表示除了爬虫部门解散以外的其他言论均为谣言。

目睹了这一切的幸存同行直呼:“整个行业快被抓没了。”

有的老铁可能被这雷厉风行的style给震惊了,看得云里雾云,别着急,咱接着捋。

3
他们干了什么?

像“数据玩得溜,牢饭吃个够”这样的业内顺口溜,赤裸裸地暴露出了一些从业者的鸵鸟心态,他们对于自己做了什么只字未提,却气宇轩昂地在网上高喊技术无罪,实属魔幻现实主义网络分义。

例如巧达数据,他们利用爬虫爬取了多达2.2亿份自然人简历、100亿个用户识别ID组合和1000亿的用户综合数据,甚至还有超过10亿份用户通讯录,其中包含了很多用户个人隐私。

巧达数据自称拥有超过8亿自然人的数据,也就是说超过一半的中国人的数据都在巧达的数据库里,包括这些人的社会关系、家庭关系等。

只要有你的手机号,他们就能通过比对数据库反馈出你的姓名、性别、年龄、职业、收入、教育经历和工作经历等信息。再通过这些信息巧达就可以对你进行精准地画像。


再比如公信宝,他们旗下有一款叫做布洛克城的APP(感觉谐音block chain)。

用户可以绑定自己的社保、学历、运营商、芝麻信用还有淘宝和京东的交易记录等来换取在APP里的算力,绑定的信息越多你的算力就越高,而算力可以挖出公信币(GXC),公信币可以提到交易所去变现。

有好事的网友表示,他挖了半年也不过才几十块钱,而你却给了他们那么多个人信息,这种贱卖自己信息的操作,无异于被卖了还帮别人数钱。

公信宝在得到了用户信息后就会将其打包卖给第三方。


根据《中华人民共和国网络安全法》解释:

未经授权爬取用户手机通讯录超过50条记录,最高可获刑3年;
未经授权抓取用户淘宝交易记录超过500条,最高可获刑3年;
未经授权读取用户运营商网站通话记录超过500条,最高可获刑7年;
未经授权读取用户公积金社保记录的超过50000条的,最高可获刑7年。

而作为一家科技公司的CEO,他们必定是知道相关法律的,那为啥还要这样搞?

每到这种时候就得祭出马克思了:“资本如果有百分之五十的利润,它就会铤而走险,如果有百分之百的利润,它就敢践踏人间一切法律,如果有百分之三百的利润,它就敢犯下任何罪行,甚至目着被绞死的危险。”

这些公司的数据大都卖给了各种网贷公司,据知乎老哥“加油小透明”透露,单日光运营商的调用量就达到100多万,每条价格在0.1-0.3毛,粗算下来一天的流水就是30W,爬虫这种毛利高达80%,一天就可以赚24W左右。

如此之高的毛利,也难怪会引得无数CEO竞折腰。

爬虫技术诞生至今已有20多年的历史了,如今作为一项成熟的技术应用在互联网的方方面面。

最常见的搜索引擎就是运用了爬虫技术,搜索引擎放出无数爬虫到各个网站抓取他们的信息,然后将其排序展示给你,就成了你的搜索结果。

据腾讯安全云鼎实验室统计,我国2017年互联网流量有42.2%是由爬虫创造的,其中恶意爬虫流量占到了21.80%。

而恶意爬虫中有20.87%的流量是冲着出行领域去的。

这些出行领域的流量几乎全部都导向了12306,也就是抢票软件。抢票软件放出无数爬虫不停地刷新12306,发现一有票就立马拍下来等你付款,于是12306经常被爬虫搞到崩溃,严重扰乱了正常人的购票流程。

这也是为什么12306会迫于无奈,尽整些阴间验证码的原因。



说到底技术是一把双刃剑,关键看怎么使用。

君子爱财取之有道,希望那些手握利剑的人,能用一套华丽的剑法砍向正确的地方。



水库论坛网址:www.oushenwenji.net
水库论坛微信群统一入口:shuidi021, 备注“水库论坛

水库论坛

水库论坛


回复

使用道具 举报

微信扫一扫,水库论坛微信群等着你,备注“水库论坛”。

手机版|Archiver|水库论坛欧神文集官网 ( 沪ICP备18000679号-1 )

GMT+8, 2024-12-22 02:33 , Processed in 0.081827 second(s), 6 queries , File On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表