把脉城市功能 | 基于LBS大数据量化城市尺度动态功能

2021-02-22 12:03:42 浏览数 (1)

1.研究背景

城市尺度动态功能的准确识别可以为区域协调发展和城市体系规划提供更多更加精准有效的服务。在过去几十年里,已经有大量关于中国城市功能划分的研究,研究人员根据城市的多源属性或者主要属性之一对城市进行划分。例如余建辉等人将262个中国的资源型城市分为四类:成长型,成熟型,衰落型和再生型城市。然而以往的研究主要基于统计数据集,问卷调查结果和其他相关数据来定性或定量的定义城市的功能,但是,最新的统计数据并不总是容易获得。而且实际上,城市功能是动态变化的,这可能无法从明显滞后的统计数据中准确推断出来。

最近蓬勃发展的多源地理空间大数据使人们有可能在较大的空间范围内观察到细粒度的人类活动动态,进而为研究城市功能和空间使用情况打开了新的大门。越来越多的研究者借助手机、出租车等多源地理大数据来推断交通小区、网格或者建筑物等城市内部尺度的功能。而在城市尺度,则更多侧重于构建城市体检或宜居性评估的基本指标体系,而关于系统深入评估城市尺度动态功能的研究依然缺乏。

基于此,本研究提出了一种融合多源地理大数据的框架来从人类活动这一新的视角量化城市尺度的动态功能。

创新点

本文基于LBS大数据,首次在城市尺度量化城市动态功能,并对比了全国不同城市动态功能的异同点。

2.研究框架

2.1

研究数据

核心数据集包括收集自2018年10月15日至11月28日共32个工作日的腾讯定位请求数据以及高德地图开放平台2018年的POIs数据,其中,腾讯定位请求数据的时间分辨率为小时,空间分辨率为1km。

除此之外,本文还使用了空间分辨率为30m的2017年全国不透水面数据来提取城市建成区;根据《中国城市规模标准》使用2017年《中国统计年鉴》城镇人口数据确定城市规模;使用中国基本城市土地利用类别数据集和2018 WorldPop数据集验证实验结果,数据集的分辨率为3弧秒(赤道约100米)。

2.2

研究方法

研究框架包含以下步骤:研究区域提取、基本功能划分、统计建模、模型验证以及分析与制图。流程图如图1所示。

图1 研究框架

具体而言,首先,本文提出了一种数据驱动的方法来识别人类活动稳定的城市区域,区域范围主要通过三重约束得到。一、基于腾讯定位请求数据的信号强度约束。二、基于不透水面数据的城市建成区约束。三、基于腾讯定位请求数据的人类活动节律稳定约束。通过三重约束得到城市范围的交集作为最后每个城市的研究区域。研究范围如图2所示。

图2 中国(a),京津冀城市群(b),长三角城市群(c),珠江三角洲城市群(d)和成渝城市群(e)的人类活动稳定城市区域。

然后,将poi数据重分类为6类以代表城市可以为居民提供的6大基本功能(商业、工作教育、居住、交通、文化娱乐和户外休闲),并借助TF-IDF方法缓解因poi不同类型数量之间巨大差异所带来的问题。

最后,以每个城市的所有稳定格网为样本单元,构建随机森林模型,其中自变量包括3类共14个变量,分别是格网各功能的TF-IDF值(6个)、考虑邻域影响的格网各功能TF-IDF值(6个)、经纬度(2个),因变量为格网腾讯定位请求量。由于不同时间尺度/时间段(天尺度、时段尺度(凌晨,早高峰,中午,晚高峰,夜间)),腾讯定位请求量在城市中的分布存在明显差异,通过随机森林模型分解得到的城市功能比例结构也会随时间发生变化。所以对6个时间维度的腾讯定位请求量分别构建随机森林模型,从而得到天尺度城市功能比例和不同时段的城市动态功能比例。

3.结果与分析

3.1

模型评估

本文首先探索了不同邻域大小对实验精度和结果的影响,结果发现当邻域大小从4个格网增加到16个格网时,模型R2从0.82略微增加到0.84,这表明,扩大邻域大小不会提高模型的准确性。而邻域大小的增加对功能比例的变化也没有显着影响(图3a)。而我们研究中的一些小城市由于样本数量有限,过多的自变量可能会使模型无效。因此,在本研究中,我们仅在模型中考虑了四邻域大小。

然后本文对模型进行了80次训练,在每次训练后计算各功能比例的累计平均值,各功能的累计平均值标准化序列如图4b所示。发现,各功能的累积平均值的Z得分在经过40次训练(图3b)后均趋于稳定,没有明显的波动(图3c),故在后续训练中每个城市均进行40次训练,模型精度和功能比例均取40次的平均值。不同时段模型的最终精度分布如图4d所示。R2值在五个时段内构建的模型中均表现良好,( 0.76、0.79、0.83、0.82、0.78)(图3d)。

图3 模型评估结果

除此之外,本文还验证了我们的建模结果。我们的假设之一是在特定的城市和特定的时间段内,从事各功能的人口数量是一定的。我们首先利用腾讯数据计算了与每个城市功能相关的居民数量(POPTLR),即城市总定位请求数量与城市特定功能比例的乘积。然后,我们统计每个城市EULUC数据集中定义的不同功能区域内的总Worldpop人口(POPEULUC)。最后,我们在200个城市的POPTLR和POPEULUC之间进行了对数线性相关性分析。

结果发现POPTLR和POPEULUC之间的平均对数线性相关系数为0.53(p <0.001)(图4),其中,居住,商业和工作/教育功能的相关系数分别为0.81、0.74、0.74(p <0.001)。

图4 POPTLR和POPEULUC之间与六个功能相关的对数线性关系

3.2

天尺度城市功能量化

本文首先对通过随机森林模型得到的200个城市天尺度的功能比例进行了层次聚类。

结果发现,当城市被分为两个集群时(图5a,b-c),第一类城市(占总城市的39.8%)工作/教育和商业功能比例最高,这些城市主要位于省会城市和长江三角洲、珠江三角洲等发达的城市群(图5h)。第二类城市则主要是居住功能为主,分别位于河北,河南,湖北和安徽。

而当城市被分为四个集群时,200个城市的功能结构则可以被分为商业功能为主,工作教育为主,居住功能为主和功能均衡的城市。

图5 (a)城市聚类树状图。 (b-c)第一和第二集群的六个城市功能的比例(扩展到0-1范围)。(d-g)1a,1b,2a和2b子类的六个城市功能的比例。 (h)一张地图,显示不同子集群中的城市及其层次结构(1:小城市;2:中间城市;3:大城市;4:特大城市;5:超级城市)。

进一步,为了探究城市功能结构和分布特征的规律和差异,本文构建了城市功能均衡指数(每个城市在同一时段6大功能结构比例的标准差)。

结果发现,在天尺度,200个城市的功能均衡指数的位序分布呈双指数下降分布规律(图7a)。排名靠后的城市具有更均衡的功能,均衡指数也更低。例如,上海(排名:200,指数:0.024),广州(排名:199,指数:0.039)和北京(排名:193,指数:0.041)等城市都位居榜首(图6b)。这表明,大城市的居民更加均衡地参与到与六项城市功能有关的活动。相比之下,低等级城市往往具有一个或多个突出功能,因此平衡指数更高。例如,金华(排名:5,指数:0.161)的商业功能所占比例很高,为0.443(图7c)。这意味着该城市的居民全天更多地从事商业活动,这可能和该城市小商品的快速发展相关。

图6(a)城市功能均衡指数位序分布 (b)城市功能均衡指数的空间分布(1:小城市;2:中城市;3:大城市;4:特大城市;5:超大城市) (c)城市功能均衡指数排名前五的城市的功能结构比例。

3.3

单时段多功能量化

为了探究特定时段下不同城市的功能结构差异和分布规律。本文首先统计了每个时段所有城市功能结构的平均比例,结果发现,在这五个时间段内,商业(22.9%-25.3%),工作/教育(16.0%-20.8%),居住(21.6%-26.4%),文化娱乐(16.8%-18.0%)中的功能比例较高,表明这些功能是城市中主要的人类活动类型。

六个城市功能占比之间的差异在五个时间段内差异很大(图7b)。黎明时分,居住地(26.4%)与工作/教育职能的比例(16.4%)之间存在显着差异。但是,这种差异在中午变得可以忽略不计(21.6%,20.8%)。白天(早高峰:11.0%,中午:12.3%,晚高峰:11.8%)的交通功能比重略高于晚上(黎明:9.9%,夜间:10.0%)。显然,城市功能随时间的变化与人类活动的节律相匹配。

进一步,对每个时段200个城市的功能结构进行层次聚类,发现在同一时间段内,不同城市显示出不同的城市功能结构。例如,在夜晚,47%的城市被归为第一类,这些城市表现出突出的商业和居住功能,工作/教育功能仅占11.9%。第三类城市中包含36个城市,都具有较高的居住功能(29.9%),这表明大多数城市已切换到更宽松的生活模式并准备好休息。但反观第2类城市,其商业(26.7%)和工作/教育(23.1%)功能的比例最高,从空间分布上可以看出,这些城市主要位于东南沿海地区(图8d,补充图5),这表明经济发达的东南沿海地区的城市居民往往工作或娱乐到更晚。

图7 不同时段200个城市的功能结构聚类和分布特征。(a)不同时段所有城市的城市功能结构平均比例。(b)不同时段不同集群的城市功能结构平均比例。(c-d)在凌晨和夜晚,不同集群城市的空间分布(1:小城市;2:中城市;3:大城市;4:特大城市;5:超大城市)

图8说明了五个时段所有城市功能均衡指数的特征。结果发现,不同时段200个城市均衡指数的位序分布均呈双指数下降分布规律(图8a)。同一位序水平,均衡指数值在夜间最高,中午最低,这表明城市间的功能结构在夜间变化较大,在中午变化较小。均衡程度可能与城市规模有关,例如:北京,上海和广州不同时段的功能均衡指数均较低,表明这些城市的居民参与到了第三产业部门提供的更加多样化的活动。

此外,不同时段的均衡指数之间存在显著的正Spearman相关性(图8b),比如,在中午和晚高峰之间相关系数高达0.81,这可能是因为特定类型的人类活动一般从正午开始,直到傍晚结束,因此,这两个时期往往具有相似的城市功能。

图8 (a)城市功能均衡指数位序分布 (b)不同时期均衡指标之间Spearman等级相关系数(c)综合均衡指数异常(EIA)空间分布。

3.4

多时段单功能量化

为了探究了特定功能的时间变化模式和分布规律,本文首先统计了200个城市在每个功能上的平均时间变化模式并进行归一化,结果发现(图9a),文化娱乐,居住和商业功能的时间模式呈现先降低,中午最低,后增加的模式。而工作/教育和交通功能的比例则恰恰相反,呈现先增加,中午最高,后降低的模式。在正午和晚高峰时段,交通功能所占的比例保持相对较高的水平。而娱乐功能则是呈现从黎明到夜晚持续上升的趋势。这与城市居民生活作息模式基本一致。

进而本文根据不同城市各功能的时间模式差异,对城市聚类(图9b)。结果发现,对于每种功能,大多数城市都被分到第一类(工作/教育:72.5%,文化娱乐:59.5%),这表明这些城市中与特定功能相关的人类活动比例在不同时间段内的变化相对较小。也有部分城市被划分到其他集群中,比如,在工作教育功能中,第二类城市的时间模式相较于第一类城市而言,凌晨和夜晚的比例低,而中午则较高,这类城市主要位于京沪铁路走廊沿线。而城市规模与集群之间则没有显著的关联(图9c-d)。

图9 不同城市特定功能的时间模式和分布特征。(a)所有城市在特定功能的平均时间模式。(b)不同集群在特定功能的平均时间模式。(c-d)在凌晨和夜晚,不同集群城市的空间分布(1:小城市;2:中城市;3:大城市;4:特大城市;5:超大城市)。

为了进一步探究不同城市在特定功能下时间模式的特征,本文构建了同一功能在不同时段的均衡指数(一个城市同一功能在不同时段的标准差)。结果发现,不同时段200个城市均衡指数的位序分布均呈幂律分布规律(图10a)。同一位序水平,不同功能的均衡指数差异很大,其中,户外休闲和商务功能分别显示最大和最小变化,表明前者功能随时间的变化较大,而后者则较小。

不同功能的均衡指数排名之间的Spearman相关性较弱(图10b)。商业和娱乐功能之间的相关性最高(0.386),而商业和交通功能之间的相关系数最低(0.050)。这些结果表明,商业功能随时间的变化与娱乐功能非常相似,而与交通功能的变化却截然不同。

图10(a)城市功能均衡指数位序分布 (b)不同时期均衡指标之间Spearman等级相关系数(c)综合均衡指数异常(EIA)空间分布。

4.结论与讨论

在这项研究中,本文提出了一个新颖的框架来从人类活动的角度量化中国200个城市的城市级动态功能。通过使用随机森林模型量化兴趣点(POI)与腾讯定位请求(TLR)数据之间的关系,得到不同时段的城市功能结构。进而对中国200个城市在不同时间尺度上的动态城市功能结构和分布模式进行层次聚类和分析。最后,根据城市功能比例计算了城市功能均衡指数,并绘制了各指标的空间分布格局。

结果表明,在将城市划分为两个集群时,城市或以工作/教育为主,或以商业或居住功能为主。工作/教育功能为主的城市主要分布在省会和主要的城市群内。当城市分为四个集群时,这些集群分别以商业,工作,居住或均衡功能为主。对于200个城市中的每个城市而言,从人类活动的角度来看,其城市功能从黎明到夜晚都随时间动态变化。此外,功能均衡指数的位序分布呈现幂律关系。我们的研究表明,可以通过使用社交媒体大数据从人类活动的角度来量化城市尺度的动态功能,而传统城市功能的研究则无法实现这些功能。而我们的研究结果在一定程度上也可以为动态评估当前中国城市群的经济发展状况提供一种新的手段。

当然本文的研究也存在一定不足。首先,由于缺乏与腾讯定位请求数据相关的必要主题属性,导致人类活动变化的因素尚不清楚。其次,不同类型POIs的数量差异悬殊,尽管我们采用TF-IDF去缓解这种差异,但依然无法消除。

5.参考文献

Jiale Qian, Zhang Liu, Yunyan Du, Fuyuan Liang, Jiawei Yi, Ting Ma, Tao Pei. Quantify city-level dynamic functions across China using social media and POIs data[J]. Computers, Environment and Urban Systems, 85: 101552. https://doi.org/10.1016/j.compenvurbsys.2020.101552

0 人点赞