2017年,国内大数据行业开始大洗牌,一些公司黯然退场,一些公司却稳步前行。2018年,结束了野蛮时代的大数据行业,在整顿和洗牌中逐渐走向规范,对于安全合规数据的需求却愈发强烈。在此背景下,大数据交易平台再次受到关注。
从大数据概念诞生起,数据资源的流通就一直面临严峻的问题,因数据泄露、数据黑产衍生爆发的全球恶性事件数不胜数。
近日,暗网突现一条售卖信息,出售两个日流量超百万的知名站点的Shell及内网权限,其中一个站点以40万的价格打包出售近千万用户数据,包括用户ID、昵称、“加密存储”的密码等信息。
更早些时候,暗网上甚至出现了一个高达41GB的数据文件,涉及Gmail、Hotmail、Sina、QQ、163等共14亿个邮箱地址,堪称“暗网史上最大的数据库”。弹幕网站AcFun、摩拜、优酷、前程无忧等国内知名互联网企业,相继被传有上千万用户数据在暗网上被兜售。
在信息即商机的今天,围绕着网络用户数据,早已形成一个完整的、极其成熟的网络黑色产业链(简称“黑产”)。根据2017年的测算,中国网络黑产从业人员已超过150万,市场规模达千亿级别。
令人吃惊的是,在暗网上收购用户数据的,不仅有黑客、黄牛、诈骗犯以及政商竞争对手,也有正规的网络安全公司、大数据公司和互联网企业。网络安全公司主要是购买漏洞技术,为客户提供补漏服务,而大数据公司和互联网企业则是争夺原始数据,想更快占领大数据赛道。
正所谓“得数据者得天下”,数据黑产和数据争夺战的背后是巨大的商业利益。作为人类未来的巨大动能,大数据不仅改变着现有的商业模式,更上升到国家战略层面,无论是企业还是政府,都希望通过大数据抢占未来社会的先机。
然而,猖獗的地下数据交易却折射出一个令人尴尬的现实:市场对于数据有强烈的需求,但数据流通的正规渠道极为稀少,没有完善的法律法规对数据共享和交易行为进行约束,也就谈不上对数据安全和用户隐私的保护。
数据开放和共享成为趋势
值得庆幸的是,这种乱象正在被规范。去年6月1日,国内《网络安全法》开始施行,非法获取、出售公民个人信息最低五十条以上即可认定为“情节严重”,达到入刑标准。监管部门开展数据清理行动,数据堂等15家大数据公司被警方列入调查名单,这一度让数据行业风声鹤唳。
在这样的背景下,很多非正规经营的公司被洗牌出局。大数据行业在整顿中逐渐走向规范的同时,新的需求随之浮出水面:如何解决日益增大的数据缺口?
事实上,大数据的真正核心价值并不在于数据本身,而在于大量数据连接整合后挖掘出的价值。例如:单独的天气数据,如果与位置数据整合,可以给用户提供其当前所在街区的天气预报;如果再与交通数据整合,可以根据天气情况疏导交通、指导车辆绕行因下雨即将堵车的路段。
而很多企业自有的数据,其实都是“小数据”,价值非常有限,需要与其他来源和维度的数据打通才能产生大数据的价值。对此,走在产业前列的英美日等国,整个产业界自发达成共识:数据共享是常态,不共享是例外,已经慢慢地形成了数据脱敏后的公开和共享模式。
随着大数据应用场景逐渐丰富,大数据交易成为热门的大数据应用服务,大数据交易平台的兴起也促进了数据的开放与流通。从2008年开始,全球大数据交易市场初见端倪,欧盟、美国、日本均有开展数据交易,如:政府数据开放网站data.gov、data.gov.uk,金融数据平台Duandl,位置数据平台Aggdata、Factual,实时数据交易平台BDEX等。
虽然数据共享对于大数据商业化有着重大意义,然而在中国,企业之间仍不愿意数据共享,出于安全和竞争方面的考虑,谁也不愿轻易公开自己的数据。对于刚刚结束草莽时代的国内大数据行业来说,培育数据共享的观念和机制仍需时日。
2016年,国务院《促进大数据发展行动纲要》提出,将培育大数据交易市场作为健全市场发展机制的重要组成部分,体现出我国对于这一新兴交易形式的鼓励、支持、引导与规范的态度。
在经历行业洗牌之后,目前国内大数据交易平台正在逐步形成中,各地政府和企业陆续成立并开展大数据交易业务,互联网巨头和大数据独角兽企业的进场,加速了国内大数据交易产业迅猛发展。
国内大数据交易平台崛起
从国内大数据交易平台的主体来看,主要分为两类:
一类是由政府主导的大数据交易中心,大多为政府或国企独资,或国企与民企合资,如贵阳大数据交易所、上海数据交易中心、中关村数海大数据交易平台、长江大数据交易所等。
这类平台可以说是国内政府大数据行业的先驱者,但目前我国政府数据开放共享的水平与主要发达国家相比仍然较低。根据Data.gov网站的《全球开放数据深度报告》,中国得分为11.8分,而美国得分为93.4分,差距极大。
由于数据交易技术未完善,相关标准和法律法规缺失,大数据应用场景挖掘不够充分,平台定位不清等原因,导致目前这类数据交易所呈现交易规模小、交易频次低等特点,还没有真正实现平台化、规模化、产业化发展,无法有效发挥数据交易平台的功能优势。
另一类是以企业为主导的大数据交易平台,这些交易平台多为互联网巨头、大型IT厂商以及头部的大数据企业发起,以阿里、京东、百度、浪潮、TalkingData为代表,是目前数据交易市场的主导力量。
国内互联网巨头BATJ坐拥数据金矿,早已将大数据升级为集团级战略,凭借其拥有的数据规模优势和技术优势,在大数据领域占有一席之地。其中,阿里云天池市场和京东万象属于最早推出的大数据交易平台,两者各有特色。
阿里云天池市场
阿里云天池市场是阿里一站式大数据解决方案中的数据服务环节,以提供数据服务接口为主,卖方入驻发布数据,买方购买调用数据,完成数据的交易。数据产品主要覆盖人工智能、生活服务、金融理财、交通地理等领域。
同时,阿里通过开放海量数据(阿里数据及第三方数据)和分布式计算资源,以天池大数据竞赛的形式,让企业和学界充分参与其中,帮助有大数据需求的企业与大数据创业团队更快对接,落地移动电商、互联网金融、大数据营销等真实业务场景,发挥数据价值。
阿里云天池的特点在于,一是数据产品包括可视化、人脸识别、图像识别、智能语音、NLP、OCR、日志搜索与分析、数据可视化等多个方向;二是定制服务涉及工业、金融、交通、医疗、零售在内的多个行业的需求,在智慧城市、智慧医疗、电商等多个行业已有落地解决方案,形成了较为完整的产学研生态闭环,这与天池起步较早有关。
京东万象
京东万象是京东云旗下的大数据交易平台,以实现供应方数据的接入、需求的发布以及交易流程的完成,主要针对数据的交易和定制。数据产品主要包括交通地理、金融征信、经济贸易、企业管理、人工智能、生活服务、移动通讯、应用开发、数据营销等领域,以服务商提供数据为主,自营的相对较少。
京东万象的特点是,全国最大的数据交易平台之一,也是国内首先使用区块链技术的数据平台。目前京东万象已有300 个数据提供商,1,000 个数据源,100 个数据子类目,数据产品较为丰富。未来,京东万象还会引入各类政府开放的数据,与政府、企事业单位、创客团体共建数据生态。
相比之下,百度和腾讯在大数据交易平台上的策略有所不同。百度大数据之前主要应用在其擅长的搜索和营销领域,而最近推出的点石大数据众智开放平台,其发展思路类似于阿里云天池市场,包含数据开发工具、数据竞赛、数据交易市场和数据集,希望以众智大赛、合作项目等方式赋能行业客户。腾讯大数据则主要供集团内部使用,在数据交易平台上暂未有所动作。
从大数据公司看,大多数企业还集中在提供数据工具和咨询服务上,尤其在行业整顿洗牌之后,能提供安全合规的数据交易服务的大数据公司数量锐减,目前大数据独角兽企业TalkingData推出全新数据交易市场,表现瞩目。
TalkingData数据智能市场(Smart Data Market)
数据智能市场是TalkingData继SmartDP(数据智能平台)之后推出的数据交易市场,一方面接入各渠道数据源,打破各企业间的数据孤岛;另一方面基于平台能力,聚集大量的数据服务和算法模型,为各方开放提供面向业务场景的数据智能应用。
目前TalkingData已覆盖金融、房产、零售、营销、互联网等相关行业的数据提供方、数据需求方以及数据服务,并与电信、联通、京东、银联等企业都建立了战略合作,进行数据深度关联。
TalkingData 数据智能市场有两大特点:一是面向不同行业的业务场景,用一个平台打通数据源-数据服务-解决问题的过程。企业可以获取标准化的数据服务,也可以根据具体业务需求定制数据服务。数据服务方可以基于数据集进行数据探索和建模、形成数据服务,帮助其他企业解决数据应用方面的问题。
二是用前沿技术保障数据的安全合规,TalkingData参与研发并在数据智能市场中应用了麻省理工学院提出的创新性技术框架——OPAL(Open Algorithms,开放算法库),以不流动数据、只流动算法的形式,在对数据进行加密保护的前提下将各方数据与业务需求关联,针对具体需求输出数据探索、分析的结果,安全合规的从数据中挖掘价值。
从综合性IT厂商来看,大多数在大数据方向上已有布局,国外企业如微软、IBM、Google等,以打造基于自家产品的大数据工具为主,在数据开放方面走在全球前列,提供多个行业数据集供各界开展研究。国内企业如华为、浪潮、华三等,以建设私有云和大数据平台为主,目前仅有浪潮推出了大数据交易平台。
浪潮天元数据
浪潮天元数据是浪潮集团下的大数据交易平台,持续整合浪潮自有数据、政府公开数据以及天元数盟合作伙伴数据,以自有数据为主,提供大数据商品的流通和交易。数据商品涵盖了线上零售、生活服务、企业数据、农业、资源能化等10大类,其数据商品较其他平台更少。
天元数据的特点在于“公司 创客”模式,以天元大数据网和天元大数据库为依托,在全国招募大数据A创客(数据应用者)、B创客(数据生产者),免费提供数据资源、采集工具、项目包装及技术培训等,打造大数据产业生态圈。
大数据交易平台的发展趋势
面对巨大的市场需求,我国数据开放共享也只是走出了试水的一步,从全球发展趋势和国内数据交易平台的发展现状,我们可以窥见一些未来发展方向,具体而言:
一是数据开放和共享力度将加大。正如TalkingData创始人崔晓波所说,未来数据合作的核心是“连接”而不是“拥有”,多方数据合作必然是未来趋势。大数据交易平台作为中介层,在整个大数据流通和交易中地位会越来越突出。同时,产业界在达成数据开放的共识后,数据共享将达到新的高度。
二是数据安全合规水平将提升。大数据交易仍然属于新兴行业,除了个人信息保护法律法规的出台,数据交易规范和行业约定的建立,用领先的技术手段保障数据安全合规也将成为新的趋势,如京东万象以区块链、TalkingData以OPAL开放算法库,对安全合规的数据交易进行前瞻性技术探索,真正做到事前技术预防,事后追责制度保障。
三是数据交易充分考虑用户需求,不再以追求“综合性”为主要策略,更注重在各个应用领域产生典型应用、针对性解决企业具体业务问题。例如:阿里云大数据将目光聚焦在电商和物流、智慧交通、制造、房地产等行业,阿里云天池大赛中研发的个性化推荐算法,直接应用于淘宝、支付宝等“双11”真实的商业场景。
四是交易平台将更加注重生态的搭建,联动政府、运营商、企业和学界之间的合作,充分发挥数据的价值。目前,阿里云天池、百度点石等都在致力成为一个数据众智众创平台,吸引更多政府、公司开放数据资源,创新数据商业模式。
总体而言,在安全合规的前提下,数据开放和共享是大趋势。在基础设施、数据资源、数据应用等关键环节形成产业合力,打造全国性的大数据流通、开发、应用产业链,这是行业领军企业都在致力于带头搭建的行业生态。
数据共享是大数据产业发展必须跨越的门槛。不过,数据共享应该在法规或行业标准的约束下发挥作用。在未来的大数据交易发展中,仍然需要各大平台及从业者共同促进及制定相应的标准规范,才能形成多方共赢的局面。
【科技云报道原创】
转载请注明“科技云报道”并附本文链接