Urban space and the behavior of human activities constantly interact with each other. Investigation on distribution of aggregated human activities and spatio-temporal change benefits data-driven policy-making in urban planning and urban governing. In the era of big data, with the development of information and communication technologies, it is possible to collect city-scale data with high resolution in space and time by various location-aware devices and sensors. Exploration of spatial-temporal activities attracts a lot of attention. By taking about 10 million one-day tracking data of mobile phone users in Shenzhen, China as an example, this paper firstly identified their stay locations according to spatial and temporal rules to generate stay trajectory for each individual and recovered activity semantic information by labelling activity types for each stay locations. Then, the significant differences in patterns of distributions of stay locations and their activities were analyzed. Spatial and temporal distributions of different human activities were explored, respectively. The study shows that the distribution of stay locations and activities is obviously heterogeneous. The average number of stay locations of an individual per day is 2.1, while the average number of activities an individual engaged in per day is 3.4. This study furthermore suggests that different types of activities have temporal variance and spatial heterogeneity. The temporal distribution fluctuates significantly over 24 hours, which is in accordance with daily routine. The spatial distribution overall obeys “space power law”, and the spatial distribution of social activity, which has a faster-down tail, shows a more obvious pattern of spatial segregation than the other two activities. The study revealed the diversity and heterogeneity of spatial and temporal distribution of human aggregated activities in urban space, which is meaningful in analyzing human activities research and facilitating urban traffic optimization and urban planning.
随着信息通信技术(Information Communication Technology,ICT)和泛在感知技术(Ubiquitous Sensing Technology)的飞速发展,使实时、高效记录人类时空位置信息成为可能,产生了海量、多源的人类时空活动数据[8-9]。这些海量数据弥补了传统方式的不足,具有高精度、高频次、高效率、低成本等特点[10]。由于智能手机的广泛使用,移动运营商通过通讯信号将基站尺度的时空位置记录下来,基于智能手机的移动定位数据为群体时空间活动特征研究提供了新的解决途径[11]。
本文选择深圳作为研究区。深圳位于广东省南部,南临香港,北接东莞、惠州,总面积1996 km2。如图1所示,深圳市下辖8个行政区,其中罗湖、福田、南山原属经济特区,2010年之后特区范围扩大到整个辖区。截止2015年末常住人口约137.891万人,人口密度每平方公里达到10 000人,位列全国第一,流动人口总数在全国最多[20-21]。因为历史发展的原因,深圳的南北区域经济社会发展差异大,人口分布不均匀,原特区部分(罗湖、福田、南山)在科技、金融、教育等领域高度发达,人口分布集中,旧称为“关内”,而其他行政区被称为“关外”,其制造业较为发达,人口分布较少。随着深圳城市化加速和人口的持续扩张,关内关外差异在逐渐缩小,跨区域群体出行逐渐增多,人群活动变得更为复杂。
本文采用2012年3月某一工作日约1000万用户的移动手机定位数据,移动运营商以1 h左右的采样间隔通过移动基站记录手机用户通信的基站编号,获取用户所在位置。数据由移动运营商进行了匿名化处理,以保护用户隐私。通过对每一条数据记录的时间进行小时整数化处理,得到包含用户id、小时数、所在基站id、基站位置经度、基站位置纬度等属性的数据序列,如表1所示。
表1 移动手机定位数据示例
Tab. 1 Examples of mobile phone location records
用户id | 小时数 | 基站id | 基站经度 | 基站纬度 |
536**** | 0 | 19** | 114.14** | 22.60** |
536**** | 1 | 19** | 114.14** | 22.60** |
536**** | 2 | 54** | 114.12** | 22.58** |
… | … | … | … | … |
536**** | 23 | 14** | 114.14** | 22.60** |
为了研究群体活动的时空分布模式,探讨群体活动模式的多样分布特征,以及在时空上的分异,本文首先通过对原始数据的预处理和停留轨迹提取,通过构建一定的时空规则实现对人类时空活动精确识别,标记活动语义信息;随后对不同类型的活动的时空特征进行分析。具体处理流程(图2)主要包括:① 基于手机基站尺度的时空轨迹生成;② 时空停留轨迹提取;③ 家庭-工作-社会活动识别;④ 群体活动时空特征分析。
图2 基于大规模手机定位数据的群体活动时空特征分析流程图
Fig. 2 Framework of spatio-temporal analysis of aggregated human activities using cellphone location data
为了从海量的手机定位数据中生成完整的时空轨迹序列,首先需要对原始数据进行预处理,过滤掉不符合需求的数据,主要步骤包括:① 去除重复数据;② 去除缺少属性的数据;③ 去除时间和空间尺度不在研究范围的数据;④ 根据每个用户的原始数据分布,剔除用户出现时间少于18 h(即数据点序列小于18个)的用户记录。
对于候选停留点轨迹中的所有停留点,若该点的开始时间与结束时间的差值小于设定阈值(本研究设为1 h),则认为该点不是真正停留点,将其从候选停留点轨迹中移除,最后得到完整的停留点轨迹。
需要注意的是,考虑到基站空间分布的不均匀性和服务范围的差异以及邻近基站之间信号跳跃的因素,本文利用ArcGIS软件生成手机基站的Voronoi 多边形,并计算任意相邻基站距离的分布。如图3所示,约93%的基站距离小于500 m(如图3中红点位置),因此选择500 m作为空间距离阈值,能最大限度满足不同基站间的差异性。
图3 任意相邻基站距离累计分布
Fig. 3 Cumulative distribution of the distance between any adjacent base tower stations
图4 从停留点轨迹中识别家庭-工作-社会活动方法
Fig. 4 Identification of home, work and social activities from stay points trajectory
图7 5种类型的居家和工作位置识别结果的人口比例
Fig. 7 Percentage of population by five types of detection of home and work locations
图8 街道级别居家位置人口分布与2010人口普查分布比例相关性分析
Fig. 8 Correlation between the spatial distributions of population based on home locations at street level and the population distribution from 2010 census data
分别进行家庭、工作、社会活动的时空间统计,分析不同活动类型在数量强度、空间分布、一天内时间波动上的差异。整体上看,在一天24 h内,群体活动强度存在明显的随时间变化的规律(图9),与人的作息规律基本一致,其中家庭和工作两类活在24 h变化上呈现“凹凸”现象。其中,0-7时是睡眠时间,此时家庭活动占总活动的比例很高,平均约有87%;从7时开始,人们逐渐离开居家位置,进行其他日常活动,大部分人开始出行,因为出行不构成停留,总活动强度开始减少,并在出行高峰(7-9时、11-14时和17-19时)形成3个明显的低谷;在7时开始,工作活动开始逐步增强,家庭活动开始逐步减弱,并在10时形成第一个交叉,之后工作活动数量开始高于家庭活动。在18时,大部分人下班返回家中,又形成第二个交叉,之后家庭活动数量又高于工作活动,并且差距逐渐变大。在10-18时,平均约有35%的人进行家庭活动,49%的人进行工作活动。相较于家庭和工作活动,社会活动在一天中处于缓慢波动状态,变化相对不明显;从7时开始缓慢增加,并在22时左右达到高峰,说明活动类型(购物、餐饮、休闲娱乐等)变得丰富,活动越加频繁。
图9 总活动量和工作、社会、家庭活动量不同时间段变化分布
Fig. 9 Daily temporal distribution of the volume of total activity, work activity, social activity and home activity
图10展示了总体活动的空间分布。由图10 可知,不同行政区的活动密度存在较大差异,原“关内”地区活动密度明显高于原“关外”地区,呈现“南强北弱”的特征。其中,密度最大的是福田区,其次是罗湖区;福田区是深圳的中心商务区,罗湖是深圳最早开发的城区,是深圳人口的主要集聚地,大规模人口的集聚必然会导致活动的集聚和活动类型的丰富。龙岗和宝安由于聚集了大量规模较大的工厂,就业人口较多,因而活动强度也相对较强。
图11 家庭、工作、社会活动密度空间分布
Fig. 11 Spatial distributions of densities of home, work and social activities
图12 不同类别活动密度排名的互补累积分布
Fig. 12 Complementary CDF of ranks of activity densities normalized by the mean in different categories
图13 不同行政区活动量分布统计
Fig. 13 The statistics of distribution of activity volumes in different administrative districts
图14 不同行政区活动密度分布统计
Fig. 14 The statistics of distribution of activity densities in different administrative districts
