什么是第三方大数据 “爬虫”怎么成了“害虫”?
经济网-中国经济周刊
9月以来,大数据行业可谓风声鹤唳。
一时间,魔蝎数据、新颜科技、公信宝、快钱支付、天翼征信等公司先后传来有人被警方带走调查的消息。
这令处于大数据风控服务核心的爬虫技术推上了风口浪尖,大数据行业也迎来了前所未有的“震荡”。消息称,被调查或是因为这些公司利用网络爬虫技术侵犯个人隐私数据,这些隐私数据的泄露,加剧了暴力催收的泛滥,助长了“套路贷”“高利贷”。
而港股上市公司51信用卡(02051.HK)被警方突击调查的消息,则为这场风波炸响了一声“惊雷”。10月21日晚,杭州公安通报称,51信用卡被突击调查原因在于,今年9月以来,其委托的外包催收公司冒充国家机关,采取恐吓、滋扰等软暴力手段催收债务,涉嫌寻衅滋事。
目前,已经有多家大数据风控平台暂停部分服务。大数据行业似乎进入了一个前所未有的“整顿期”。
在近年互联网金融大潮中,大数据风控供应商一直扮演着重要角色。爬虫技术也是大数据风控行业的主打产品。“爬虫”怎么成了“害虫”?在互联网金融风险整治不断深化的大背景下,大数据风控行业又将何去何从?
事起“爬虫”业务
网络爬虫也叫网络蜘蛛(),是一种自动浏览网络的计算机技术,能够自动化、高效率地检索互联网并抓取数据。爬虫技术也是搜索引擎技术的核心元素之一,经历了20多年的发展,已经日趋多样化,在搜索引擎、数据分析、人工智能等领域得到了广泛应用。
此次风波中的公司大多是国内较早从事大数据风控的服务商,主要为银行、保险、消费金融公司、贷款机构等提供风控技术解决方案,而其中就包括了爬虫服务或者基于爬虫技术而形成的产品。
知名大数据风控平台同盾科技卷入了此次风波。其旗下子公司信川科技的数聚魔盒业务已经停止。公开信息显示,数聚魔盒主要涉及数据采集流程,支持爬取数据用作信用评估。
“信川科技是同盾科技下属独立运营的子公司,旗下的数聚魔盒业务已经停止。”同盾科技相关负责人向《中国经济周刊》记者介绍,数聚魔盒业务本身对适用条件与场景有严格的授权要求与限制,为更加严格地保护用户合法权益,并积极响应国家关于个人信息保护的相关政策,去年公司已经开始主动收缩该业务,今年上半年已完全停止。
而背靠中国电信的天翼征信也传来被调查的消息。有媒体报道称,9月12日上午,天翼征信总经理、副经理以下及市场人员,共计十余人被警察带走。
天翼征信相关负责人对《中国经济周刊》记者表示,“我们现在一切都正常,没有什么太大问题。未来可能将对客户进行筛选。我们业务都是合规的,至于行业里的传闻也不太好评价。而关于有无人员被带走调查,对外不做任何回复。”
爬虫作为一种计算机技术具有中立性,在法律上也从未被禁止,为什么这些公司会因为爬虫技术而被调查?
问题的关键在于爬取的行为和爬取获得的数据是否触及监管红线是否经过授权?是否过度爬取数据?获取了哪些数据?是否为获取数据破坏被爬服务器的防护措施?
前述同盾科技负责人直言,“爬虫其实是一个中立的技术,但现在可能会有灰色地带存在。”
插图:《中国经济周刊》美编 刘屹钫
“爬虫”的野蛮生长
在近年来的互联网金融大潮中,大数据风控服务商扮演着重要角色。
随着互联网金融兴起,非银行金融机构如P2P、小贷公司、消费金融公司等都试图掘金传统征信数据缺失人群。而伴随用户金融行为进一步线上化,还产生了除工商财税、水电煤缴费之外的信息,如支付和交易信息、社交大数据信息等等,成为判断用户信用水平的重要数据类型。
然而,对于这些机构而言,自身搭建完整的风控系统成本动辄高达数千万。在此背景下,服务金融机构以及类金融机构的第三方大数据风控公司应运而生。
从这些大数据风控企业的合作体量,就可以看出市场需求的旺盛。公开信息显示,魔蝎科技已与国内银行、保险机构、消费金融、互联网金融等超过2000家客户合作。新颜科技合作机构2500家以上;数聚魔盒在2019年3月份下线前,合作企业超过10000家。
随着行业的“野蛮生长”,竞争日益激烈,一些变异的爬虫产品也随之出现,涉及窃取、泄露、滥用用户数据等。
有业内人士向《中国经济周刊》记者介绍,一些大数据风控服务商为了获取海量数据,许多非授权隐私数据也会成为爬虫的目标,甚至用户手机里的通讯录、通讯记录、电商交易数据、外卖交易记录等等,要是被盯上,“基本上你就没什么秘密了”。
而有些爬虫技术则采用“多线程爬取”,从而导致网站瘫痪或不能访问,这也是大多数网络攻击所使用的方法之一。
“去年就一直存在个人隐私信息不断被泄露,部分金融公司通过各种数据源对用户数据进行打包出售再加工,严重涉及到公民隐私及数据安全的问题。”有业内人士对《中国经济周刊》记者表示,有的金融公司通过各种数据源对用户数据进行打包出售再加工,严重涉及公民隐私及数据安全问题。去年问题爆发得很明显,主要集中在消费金融和现金贷两大业务板块。
部分拓展在线零售业务的中小城商行、农商行,也会选择与第三方大数据风控公司合作,进行数据交叉验证、丰富风控维度。
在上述业内人士看来,大量第三方数据公司为了获得银行业务,会提供大量不同的数据源,很多数据是“非脱敏”数据,“银行业是一个国家的经济命脉, 这些数据提供给银行就会涉及到金融安全问题。”
“即便客户允许你抓取,也是在这一次审批当中可以用,你把这些数据留存用于其他场景肯定是不对的。”一位不愿透露姓名的业内人士对《中国经济周刊》记者分析,从对个人信息保护的严格意义上讲,这些数据应当全部销毁。而部分爬虫公司并不销毁历史上抓取的数据,同时还提供给其他客户、其他场景使用。
这位业内人士举例称,还有一类公司会采用特殊手段规避法律风险,“比如:用户上传身份证号码,征信公司直接显示用户每个月纳税金额,这肯定触犯法律。但他们会规避掉法律风险,用数据标签给用户的纳税金额打分,比如缴税1万元的人就是5分,1万元以下的就是3分。”
剑指爬虫,意在数据
随着强监管信号的不断释放,“野蛮生长”的大数据爬虫时代或将结束。在不少业内人士看来,本次整顿也是一个行业净化、洗牌的过程,有利于整个行业更加健康、规范发展。
今年5月28日,国家互联网信息办公室发布了《数据安全管理办法(征求意见稿)》(下称“《管理办法》”),用部门立法的方式对互联网数据收集、数据处理使用,都做了明确的界定。
《管理办法》第十六条规定,“网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。”
在北京大成律师事务所执业律师、北京网贷协会法律顾问肖飒看来,没有授权的爬虫就一定是违法的,需要重点整治。现在的关键是如何面对这些看似“合法”的爬虫,重中之重就是运营商做到用户授权链的完整,明晰完整的授权链,做到源头控制。总的来说,应当尽快制定完善针对网络爬虫的数据安全法律法规,将网络爬虫引向合法轨道。若是违法进行网络爬虫,就要重拳出击,加大惩罚力度和侦查力度,涉及刑事犯罪的要重点处理。
然而,过去一个多月的行业“震荡”昭示着,针对大数据风控行业的强监管才刚刚开始。
10月24日,有报道称,央行日前发文紧急调研银行与第三方数据公司合作情况。其中,银行需排查的内容主要涉及数据采集、信用欺诈、信用评分、风控建模等方面。央行还要求各企业征信机构排查自身业务中是否存在违规爬虫行为。央行表示,如存在上述情况,请立即上报,对于存在违规爬虫业务的要立即整改。如不存在上述情况的,请出具加盖公章的书面承诺函,并于10月24日前送至央行征信管理处。