京东副总裁郑宇:城市数据属于时空数据,拥有独特的处理方法论 | IJCAI 2019

2019-08-21 15:39:59 浏览数 (1)

何谓时空数据?

文 | 黄善清

8 月 10 日至 16 日,IJCAI 2019 在中国澳门隆重召开,其中 14 日至 16 日为 Industry Day 环节,是大会专为业界思想碰撞与交流而设的重磅环节,邀请了众多来自国内外的 AI 企业与机构代表前来做大会报告。

当中,京东集团副总裁、京东数字科技首席数据科学家、京东城市总裁郑宇做了场题为《Building Intelligent Cities with Big Data and AI》的大会报告,在本次报告中,他强调了智能城市领域数据的特殊性,他表示,时空数据拥有不一样的结构与属性,意味着需要使用不一样的数据管理与人工智能算法来进行应对,而不能单纯直接套用已有针对语音、图像和文本的算法。

大会报告结束后,我们对郑宇进行了专访,请其解读针对大会报告中的最新研究成果,并趁机聊了聊京东智能城市研究院的最新近况。以下为采访全文。

郑宇独家解读《Building Intelligent Cities with Big Data and AI》大会报告

简单来说,城市的数据种类很多,所以让大家感觉有点纷繁复杂,按以前的方法,大家就会来一个数据建一个表格,并未对数据的结构与规律进行分析。

所以我们准备做这么一个统筹的事情。

首先,我们针对数据的结构以及关联的时空属性,做了一个分类方法上的设计。

按照结构区分,可分为:

  • 点数据
  • 网络数据

按照关联的时空属性区分,可分为三种:

  • 空间静态时间静态
  • 空间静态时间动态
  • 时空动态

将这三种时空属性乘以两种结构,我们就会获得六种数据的分类方式。

  • 什么是时空静态的点数据?我们会说像个车站或宾馆,它的位置是不变的;宾馆的属性,比如有多少层楼,房间有多大,同样也是固定的。所以它既是时空静态数据,也是点数据。
  • 什么是空间静态时间动态数据?传感器,比如我们把一个空气质量监测站点建在一个地方,建好后它的位置是不变的,但它的读数却每个小时都在变化着。
  • 什么是时空动态的数据?比如你给滴滴发请求时,可能 13:10 也同样有个人在给滴滴发请求,然后 13:20 又有另一个人在同个地方给滴滴发请求,这也意味着它的时间和空间是一直在变化的,甚至包括还有人使用摩拜扫码。这些都属于时空变化的点数据。

除此之外,这三类时空属性的数据还有对应的网络数据。

  • 路网其实是一个静态结构,路一旦修好后,它的结构是不变的,它属于空间静态时间静态的网络结构。
  • 可一旦我们往马路上叠加交通流量,它立马就变成一个空间静态时间动态的网络结构。
  • 那什么属于时空都动态的网络数据呢?比如固定轨迹,即是一系列点的结合,它同样也是一个网络结构。

换而言之,这六种数据结构覆盖了一座城市涉及的所有数据类型,我们可以用这 6 种结构来表示所有数据,或者用它的组合来表达所有类型。

那么数据的类型不一样,从时空属性上来说又存在哪些差异?

在时间和空间方面,它们都拥有专属的距离与空间层次。从距离上说,比如两个点之间的距离、两边之和大于第三边三角不等式以及地理学第一定律;从空间上说,包括一个城市、不同区域、不同街道、不同小区。处在不同的层次,它所代表的含义是不一样的,那么你在不同层次上的表达,对于运算的体现与帮助也是有差别的。

从时间上分析的话,它的属性包括临近性、周期性以及趋势性三大块。

所谓邻近性,即是相邻的两个时间点,它的读数可能会比较接近,比如离得不远的两个身体,所感受到的气温都会比较接近;另外我们也看到时空数据存在着周期性,比如今早8点的交通流量很可能与昨天早上8点的交通流量是很相似的,而今早 8 点的交通流量则与今天中午 12 点的交通流量特别不一样,这就打破了之前我们所说的邻近规律,这个时候我们就可以看下一个属性;趋势性,这其实是一种预判,比如可能随着气温变得越来越冷,我们起床起得越来越晚,然后出门的时间也就越来越晚,因此早高峰也就出现得越来越晚。

所以说周期性并非恒定不变的,而是拥有一个趋势性的上扬或下降,我想表达的就是这个意思。

在明确好数据模型后,考虑到数据的结构与属性不一样,因此我们得有专门的管理方法。

演讲中我主要谈三点,分别是效率问题、版权保护问题和安全问题。

先说效率问题,我们现在有一个大系统,可以用更少的资源,以更快的速度来处理数据,特别是轨迹数据管理这一块。同时它已兼容已有的云计算平台,这一点其实很重要,说明我们无需从头建立平台,只要改变一下存储格式,就能有效提升轨迹数据的查询效率至一百倍,索引和数据和存储的大小也减少了七倍。这些都是跟最好的方法进行对比。

过去我们并不重视时空数据的版权保护问题,比如你把时空数据拷贝一份拿出来卖,然后别人再拷贝一份拿去卖,你也无从得知,因为运转单都一样。高阶一点的,会随意帮你做点修改,然后告诉你这个数据是属于我的。一旦缺乏这种保护机制,未来就很难形成一个数据融合共享机制。

解决方案方面,我们的一个具体想法是让数据带有密钥,首先将空间化成区域,再把轨迹放到空间里,利用空间将轨迹切成几段,然后每一段里面再按照另外一个密钥参数切成很多时间小段,接着每一小段里会隐藏一个亿比特的信息。隐藏的方式是什么?我们的方法是算这一段轨迹的质心,而这个质心有个地理学的计算定律。当我怀疑别人在出售我的数据时,我就把它拿来并用算法进行提取,如果连续好几个提取出来都是我的信息,那就基本可以肯定是我的秘钥做的。原理有点像数字水印,但却是符合轨迹数据的。

国内业界有几个正在思考这件事情的人,至于学界思考这件事情的人基本上等于零。业界有这个需求,却不知道应该怎么做;学界的人并不怎么在乎这件事情,因为数据分享对他们而言就是一件免费的事情。现在我们经常说要推数据交易,搞大数据交易平台,可你缺乏这一块技术的话,你说谁敢卖,对吧?

第三点是安全性,因为有些数据的机密性太强,是不允许进行分享的,比如说结婚登记数据、社保信息、犯罪记录等等。我们的解决方案是通过数字网关技术将各个平台的内部联到一起,在不泄漏信息的情况下,把不可逆的中间结果拿来互换一番,最终解决各自的问题。

关于深度学习应该怎么与时空数据相结合,我这里总结了三大挑战:

第一个,怎么做数据变换。城市的好多数据拿来后,我们都是没法直接使用的,毕竟它们不是简单的图片,不然可以直接放在CNN 或者 RNN上搞定。在这种情况下,我们应该怎么做数据变换?

第二,怎么将时空属性给 encode 进去?如果完全不encode,只把它当成一个数据来做的话,周期性、趋势性就会反映不出来,你的结果就不会十分准确。

第三,数据融合。怎么把不尽相同的数据融合在一起做决策?

基于这三者挑战,我们把现在可以使用深度学习能力进行解决的城市应用场景,变成了多种不同的时空应用场景。

比如说城市里有些稀疏的站点,在这之前我们预测这些站点的读数应该是多少,这是一类问题。

第二类问题,我把城市转换变成均匀的格子,希望每个格子都能进行预测。

第三点就是它可能并非均匀的网格,而是由不规则的网格所组成,在这种前提下应该怎么做预测?

第四点是做区域与区域之间的转移预测,这是相对于单点预测而言的,就是从A到B有多少人,从B到C又有多少人。

第五个就是我定义一个路线,然后想预测路线的时间、油耗等属于动态预测层面的东西。

AI 开发者:通过今日的分享,您想传达的核心观点是什么?

郑宇:我今日的分享核心紧紧围绕时空数据,从数据表达、数据管理、数据分析到数据挖掘,提出了一整套不一样的方法论,有别于过去针对文本与图像的处理方案。其实任何一套数据,都应该拥有专属的一套方法理论,从建模、表达、管理、存储管理到挖掘分析一整套流程下来。

问:城市数据整体来说可以分为几种类型?

郑宇:大概可以分为三大类。一类是以图像为代表的非结构化数据,它的存储与挖掘方法都是比较传统的;第二类是以表格为存储形式的政务数据,比如一个人的姓、收入等等,都属于表格结构化的数据;第三类就是我强调的时空数据,这一类会比较特别,既不属于前面两类,也没有太多人去关注。我们相信在 5G 时代来临以后,第三类数据的数量会越来越大,这是未来毫无疑问的发展方向,所以我们就想重点去解决这部分问题。

问:所以从您的角度来看,这部分问题的难点体现在什么地方?

郑宇:如果是时空数据问题,我相信方法论总会推陈出新,再结合实际的问题,加上研究时间的投入,最终都会一个接一个被解决掉。

现在最重要的事情,是如何将大数据与人工智能领域的知识与行业背景、行业知识相结合,这其实是两个不同的领域,一个是 domain work, 一个是 data science。你也许懂得很多工具模型、算法、K 平台,但你可能不懂交通、不懂环境,那你的方法就很难落地。如何将理论与各个行业的业务知识进行结合,并形成真正的落地方案,这也是我觉得目前国内许多AI企业特别是研究院,都会遇到很多难点的环节。

问:要组成一支既懂技术又懂业务的团队,其实还挺有挑战性的,京东智能城市研究院在这块有哪些经验可以分享的吗?

郑宇:我们的团队跟事业部是一种深度绑定、深度融合的关系,很多人在两边都同时兼有岗位。比如我们的成员有可能既是一个部门的经理,也可能是研究院的一个 CV 研究员。当然,也有真正有个别少量的,不是特别多,这部分人就会纯粹做研究,因为我们毕竟还是会需要一些基础理论层面的东西,只不过是说我们会提前把问题进行拆解,再告诉他我们大概需要的是一个什么属性、什么功能的东西,然后交由他们去解决算法本源的问题。然后我们还有一部分人负责做衔接作用、偏应用型的研究。

问:京东智能城市研究院的人员结构组成是什么样的?

郑宇:一大半人都是做的应用型研究,一小半人做基础型研究,大概是六四开的比例。人员数量方面,光 AI 部分目前已有三十几个人,然后加上大数据团队的话,大概是一百来人的规模。

问:您认为一名 AI 开发者要想涉及智能城市领域,他必须具备哪些能力?

郑宇:从技术层面来说,他起码得具备数据挖掘的基础知识。但要说真正去设计一个特别复杂的模型,那倒不一定,因为我们的平台都已经将这些组件开放出来了,比如说交通流量预测、人员预测、空气质量预测、选址模块等,你只要直接进行调用,就可以快速构建出自己的模型。

所以你只需要拥有基本的数据挖掘与人工智能基础知识,但不用特别高深;第二是要懂应用,且对行业背景有所了解,否则可供调用的模块很多,但对于该使用哪个工具、业务需求是什么,这到底是一个预测问题,还是一个优化问题,还是一个分类问题,还是一个回归问题,在此基础上从业务出发,把它关联回来。

问:目前京东智能城市研究院有哪些招人的需求?

郑宇:商业项目交付、解决方案产品经理、行业专家,这些都是我们需要的人才。我们目前这一块业务的增长非常快,需要更多人一起加入进来。

问:您在这个领域深耕也有一段时日了,结合这些年的经历,您会怎么去定义“智能城市”这个概念?

郑宇:在安全、稳定的情况下去做数据互通,做到万物互连、数据互通,这是第一层;第二层是大数据与智能技术,利用大数据、人工智能技术去改变交通、金融等领域;第三层,它一定是个生态城市,包括宜居绿色的生态,包括不同机构与产业之间形成的技术合作,等于一个生态,因为我不可能什么问题都自己解决。就是这样一个概念。

0 人点赞