“俗话说巧妇难为无米之炊,要在数据里找出有价值的东西,首先必须面对让数据产生价值的大米——数据源。数据源把控得不好,再先进的算法模型也发挥不了奇效。”
此次科技云报道分别采访了业界知名的第三方大数据服务公司相关负责人——TalkingData合伙人兼执行副总裁林逸飞,亚信数据政务大数据业务部资深大数据专家杜岩,请他们介绍关于数据源的方法论,并分享对大数据行业发展的看法。
目前使用的数据来源有哪些?
TalkingData的数据来源主要有三种:
第一种形态是合作,跟互联网的运营商或者移动APP,通过提供服务跟合作的形式来获取数据。
第二种形态是交换,我们的合作伙伴往往在某一个维度里拥有庞大但较为垂直的数据,但是他们也需要像我们这样有宽度的数据,所以我们会做一些数据增强的交换。
第三类是交易,跟合规持有数据的拥有者做商务上的合作。
亚信数据目前主要是通过与政府和运营商的项目合作,合规应用政府和运营商的数据,当然数据的所有权归政府和运营商所有。
以政务数据为例,主要依托政府部门、公共事业服务单位及经政府授权提供公共服务的企业等提供。除此之外,如果需要互联网的数据,会在国家政策允许的范围内采取购买的方式。
数据来源多样化,如何保证数据的真实性?
我们会分别从内部的数据质量和数据管控,以及外部的价值导向来评估数据。
第一,数据的质量,更多是从技术的角度来评估数据采集的质量,它的浓度、稀疏度、偏差度等,我们有多达20套的评估样本,从数据本身的事实性描述等各种衡量指标,去检查数据质量。
第二,在数据管控的逻辑上,会看它的持续性,包括刷新的频率,数据的覆盖度等。
但是,以上只解决了原始数据的质量问题,当我们走到外部,需要面对的是这个数据准备解决什么问题,这种时候衡量所谓数据的真实性才有意义。
举个简单的例子,比如在广告的投放业态下,和金融的风控业态下,它对于真实性的要求强度差距是非常巨大的,就因为它们的业态不一样。
再比如交通导航类,基于位置信息数据的要求,和一个基于城市规划或者基于省际高速的人流预测,对于数据所要求的真实性密度,要求相差也非常巨大。
所以,从我们角度来看,内部必须要评估,但同时我们已经延伸到第二步,通过实际的问题,来衡量数据的真实性、有效性,到底是什么样。
亚信数据主要是提供技术的手段和方法,做数据质量的检查和多方数据的比对。
以政府数据为例,政府提供的数据有时存在着一些偏差或者不完整的情况。
针对这个问题,亚信按照 “一数一源”的规则,即确保一个数据一个源头,其基础根据是国家对各级业务部门的三定职责,按照政府部门的工作边界和职责来确定数据源。
因此,履职部门在工作过程当中能够产生的数据,就形成了一本数据“台帐”,我们管这个叫政府的信息资源目录。
经过多年的经验,在数据的处理和质量检测方面亚信具有一套完整的信息模型和规则方法,通过规则引擎和规则库,能够对采集的原始数据做自动的清洗、转换、处理,最终形成准确性相对较高的数据。
当然,技术也不是万能的,至于说这一条数据传递的信息,如果是政府部门在数据生成过程中有错误,我觉得从技术上是很难判断出来的。
面对海量原始数据,如何进行数据处理?
当机器把原始数据采集上来后,下一步是数据标签的梳理。
我们的标签分成两类:一类是即时标签,它只白描数据采集和事实上的情况反馈;另一类是
产出行业场景下的“数据标签”。不同的行业,看到同一个数据,它加工的数据标签是不一样的,这里我们就提供大规模计算的框架,包括边缘计算的一些框架,来辅助做这样一些标签上的处理。
所以做“标签”梳理的时候,第一轮我们会有专家智慧,对这些数据做第一次的标准标签描述。但这个标签本身并不具备直接对业务使用的价值,它只能作为一个开始的点。
之后我们会提供一个类似于“标签工厂”或者说“用户管家”的软件平台,采用闭环的形式,通过一次一次的业务迭代,然后加上机器学习的技术,把这些标签做一轮一轮的优化,最后出来的标签,才是真正在行业里面具有场景特色的标签。
数据打完标签,就进入到计算数据之间的关联性,乃至数据的预测性环节,都已引入到我们完整的数据处理系统里。
在技术的整个处理过程上,亚信的大数据平台还是比较先进的,这里面分几个层面:
第一个层面,是数据的采集,能够将分散在不同部门或不同平台系统上的海量的、异构的、结构化与非结构化的数据取过来,技术基本上能够满足目前所有的场景。
第二个层面,是数据的存储,采用混搭的数据存储架构,对于原始数据采用基于Hadoop的分布式存储技术,包括结构化与非结构化文件存储,海量数据存储、流数据存储等,而对于经过大数据计算后的结果数据,采用关系型数据库进行存储,方便应用访问。
第三个层面,是数据的处理,平台内置了大量的数据清洗、转换、标签化、分析挖掘等规则算法和计算引擎,通过按需、定时或者实时启动后台数据处理任务,由机器自动完成整个数据的加工处理过程。而需要人工参与的工作,主要是规则设置、任务配置、数据结果检查和任务监控等。
如何在海量数据中判断数据的价值?
有一段时间,大家都迷信标签数量这个事,你家有800个,我家有5000个。其实对我们来讲,做标签可能只是处理数据中的第一步。当它不跟具体业务结合的时候,定出来的标签种类再多,能不能产生价值不好衡量。
当有了基础标签以后,我们关注的主要是这几块:
第一,识别强关联“因组”,它是通过专家机器学习的手段。无论你800个还是5000个标签,最终跟这个业务相关的,也许只是100个。这个过程是一个需要花时间,通过机器学习和人的智慧叠加的一个部分。
第二,识别模型,当我们要解决一个问题的时候,始终要有一个模型来识别关联的数据。
第三,闭环,基于以上一系列工作出来的结果,到底在业务里面的价值是怎样的,这个数据是否能够与业务产生互动,形成一个闭环。
数据有没有价值不是数据本身来决定的,所谓的没有价值的数据是因为我们还不知道该如何用,数据的价值实际上主要看应用。
在大量的数据中,判断哪些数据可能会对我们有用,现在主要有两种模式:
一种模式是自下而上的,我们叫做应用驱动。比如政府要做什么应用,这个应用需要哪些数据,能够比较准确的定位到为这个应用服务的数据内容。
另一种模式,是自下而上的,我们叫做数据驱动,在海量数据中通过发现数据之间潜在的关联关系,分析挖掘数据价值,最终形成数据应用。我觉得数据驱动是未来的一个方向,只有这样才能真正体现大数据平台的价值。
但是当前,纵观国内,真正用到海量数据,尤其是在跨行业的海量数据中通过关联、整合、计算和成熟的数据挖掘分析模型驱动出来的应用案例还是比较少的,更多还是应用驱动。
与政府、金融等数据环境要求严格的行业
如何进行合作?
第一,我们合作的比较具有代表性的实体包括一些大型银行,股份制行等拥有资质的、合规的实体。
第二,从数据的使用和部署的环境来讲,都是在银行的私有化环境里,即合规的环境。如果有三方的数据需要打通,也仍然是在客户的环境里面去做相应的交叉验证跟质量评估。
第三,我们需要有客户的强授权,才能对客户去做相应的征信等等,这个强授权的过程是要在金融机构的合规场所去完成。
从数据的所有权和使用权来说,拿政府举例,数据的所有权是归政府所有,但对于不涉及到机密和个人隐私的数据,国家政策是支持政府对外开放使用的。
现在国内很多城市已经建设了政务数据的开放门户,把能够开放给社会使用的数据,甚至是API接口等都开放在门户网站上。政府鼓励企业,尤其是一些小微企业、个人创新创业团队,用这些数据开发出来能够为政府、为老百姓服务的一些应用。
从数据的合作来说,亚信数据除了帮助政府做数据的管理治理,在某些特定的一些领域比如医疗、交通等,跟政府也有一些相关的战略合作。
如何看待大数据行业的现状和未来?
我们认为从去年开始,大数据的攻防战已经进入第二轮。
当有了技术,有了一定量级的数据,更重要的还是这些数据到底能够帮助客户解决什么问题,体现什么样的价值。
一个大数据公司拥有什么技术、算法或者数据,其实都是一个侧面。虽然技术发展的步子很快,但在这个过程里面,经验的积累,包括对数据这方面的一些认知,我觉得是有一定的时间要花。
我个人认为,目前国内市场上真的能够给客户直接带来价值的公司,少于三分之一。
从目前来看,大数据技术和产业链相对比较成熟和完整,各行各业的大数据已经进入到真正的实际落地阶段。
比起做单一垂直行业的大数据公司来说,跨行业、做平台的公司优势要大很多,能够基于海量数据,结合政企客户和社会的痛点问题,创造出一些有价值的应用,从而开展数据运营服务,我觉得这一类才是将来大数据领域的领军企业。
但是当前,纵观国内,真正用到海量数据,尤其是在跨行业的海量数据中通过关联、整合、计算和成熟的数据挖掘分析模型驱动出来的应用案例还是比较少的,更多还是应用驱动。
About TalkingData
国内领先的的独立第三方移动数据服务平台,从数据的采集、处理到数据的分析、应用与咨询,目前为超过12万款移动应用以及10万应用开发者提供服务,覆盖的客户主要为互联网、金融、地产、快消、零售等行业。
About 亚信数据
亚信集团专注大数据业务的子公司,结合以应用为导向的大数据产品、AI驱动的智能算法和以价值为引导的专业服务,聚焦政务、医疗、交通、通信等行业,致力于成为“关键行业和城市大数据的运营者”。
(排名不分先后)
科技云报道将陆续邀请大数据领域知名企业相关负责人,就大家关心的话题内容进行访谈。欢迎业界各大企业与我们联系报道,与大家分享宝贵的行业观点,共同促进行业的交流与发展。
【科技云报道原创】
转载请注明“科技云报道”并附本文链接