不可不知的大数据在交通行为分析中的应用基础

2019-03-14 09:53:06 来源：城市数据派作者：拉格菲尔的数评论：人

分享到：

1. 什么是交通大数据？

在大数据出现以前，交通分析数据来源主要依靠出行调查，就是我们常做的问卷调查，或者征集志愿者让其随身携带GPS设备记录出行等。这种传统的出行调查需要大量人的配合，实施难度大，人工成本高，所以采集的样本量普遍比较小，数据更新速度慢。国内大城市比如北京、上海的综合交通调查基本是每4、5年一次，从调查组织实施、数据分析到成果汇总，至少要1年时间，工作量是非常大的。

随着网络和电子技术的发展，手机、车载导航等设备成了我们的日常出行必备品，它们在给我们的出行提供方便的同时，也记录了海量的数据，这些数据中包含了许多时间和空间信息，可以作为交通数据的重要补充，即交通大数据。交通大数据大样本（甚至全样本）、长时间连续记录的特点是传统小样本调查数据不具备的，这给交通分析带来了前所未有的视角。

交通大数据之“大”到底是一个怎样的概念呢？以交通一卡通数据为例，上海日均刷卡量约460万，刷卡次数约1130万次。这些数据一天天累计存储在系统中，根据分析的需要，可以调用一周、一个月甚至更长时间周期的数据。然而，传统出行调查大多是让出行者回忆一天的行程，配合难度大不说，回忆准确度就是一大问题，普通研究的样本人数一般在几百到几千不等，大规模的调查如北京第五次综合交通调查的样本人数也仅4万。

2. 常见交通大数据有那些？

1）移动通信数据

移动通信数据最初是运营商为了运营维护、计费等目的采集的，采集移动用户在发生通信事件（包括收发短信、主被叫、开关机、小区切换以及位置更新事件）时的移动信令记录。什么是“信令”呢？根据百度百科的解释：在移动通信系统中，区别于通信用的有用信号，把话音信号以外的信号统称为“信令”。是不是有点晕？没事，我们来看看数据，或许明朗许多。

移动通信数据主要包括两张数据表：移动信令数据表以及移动基站信息表。移动信令数据表用于存储移动用户的信令记录，移动基站信息表则是由移动运营商提供，包括基站编码以及相应基站的经纬度坐标。

移动信令数据结构表（示例）

移动基站位置信息表（示例）

为了将这些数据应用于交通分析，我们需要做的是提取其中的时间和空间信息。根据数据结构，TIME、LON、LAT这几个字段属性分别存储于两张表中。于是，以基站编码（蓝底字段）为匹配字段，在数据库中做简单的连接运算，便可得到便于交通分析的时空轨迹数据。

由于现代人出行几乎手机不离身，移动通信数据便可较为全面、真实地反映用户个体在时间空间维度上的移动轨迹，这也使它成为了目前应用最多的交通大数据之一。在第3节中将会以移动通信数据为例介绍交通大数据的处理步骤和一些常用方法。

2）交通卡数据

随着公共交通系统的日益完善，越来越多的人选择公共交通出行，几乎人手一张交通卡。每张卡都有一个独立的ID，每一次乘车刷卡都会在电子闸机上留下记录。这些记录中包含了大量的出行信息，如出行方式、刷卡时间、费用、乘车线路等。

交通卡数据结构表（示例）

交通卡数据准确记录了的公共交通的乘车行为，在公共交通行为分析方面有广泛的用途，如客流预测、通勤特征分析等。下图为根据一天的交通一卡通刷卡数据制作的地铁进站分布图。

3）车载GPS导航数据

大多数的机动车都装载了车载导航设备，从车辆发动到熄火，车载导航设备每间隔一定时间（一般5s-20s）在系统中记录车辆的行驶数据，如时间、经纬度、速度等。

原始车载GPS导航数据结构表

根据后台的这些数据，可以很容易地还原出这辆车的行驶轨迹，识别停留地点，研究机动车驾驶员的出行特征。比如下面这个图就是利用车载GPS导航数据还原的一位车主一天的出行活动。

4）社交数据（social media data）

在社交网络上如朋友圈、微博等上发布各种状态渐渐成为了许多人的习惯，在发状态秀美食、秀风景的同时留下位置信息。前面三种交通大数据主要应用于人的空间移动性分析，很少涉及社交和娱乐，社交数据是对这方面的补充。

3. 大数据处理步骤与方法

以下将以移动通信数据这为例，介绍交通大数据的基本处理步骤与方法。

1）预处理

大数据的特点之一就是低价值密度，原始数据中往往含有噪声，如错误或异常值（偏离期望值）。预处理的目的就是清洗这些数据，去掉噪声和无关数据。

交通分析中，一个基本的假设是，通信基站所在的位置，就是信令产生是移动台（移动用户的终端设备）的位置，即用户的位置。根据基站的覆盖半径，大约有500~800米的误差。相较于现有的交通小区的分析尺度而言，误差是可以接受的。

在基站密度较大的地方，如市区内，移动设备可能同时处于几个基站的服务范围内。当这几个基站的信号强弱恰好接近时，有可能出现用户位置不变，但接收信号的基站跳跃的情况。这在数据上的反映是，用户在短时间内进行了长距离跳跃性的移动，这显然是与实际不符的。

修正这种数据振荡最常用的方法是基于速度的修正法：如果一连串基站B的信令记录中，出现了一个是基站A的记录，并且基站A和基站B之间的切换速度超过阈值，便识别这天基站A的记录为信号振荡，将A改为B。这种方法的难点是如何设定这个速度阈值，即判断多大的速度是正常，多大是不正常。

2）由轨迹到活动停留点

手机信令数据显示的是一连串轨迹，并不知道哪些是移动轨迹，哪些是活停留点。需要对这些轨迹点进行处理，识别处活动停留点。

像下图这样，将轨迹点放在以时间、经度、维度做成的三维直角空间坐标系中，是很容易通过肉眼识别出活动停留点和移动轨迹点。但在大数据处理过程中，人为感官识别是远远不够的，需要将这种人为感官识别转化成数学算法，通过机器自动快速识别。

、

总的来说，有两种识别方法。第一种是标记轨迹点的频次，这种方法仅适用于一个区域的基站数量有限的情况。比如将晚间（如9:00 pm到5:00 am）信号累计频次比例超过阈值的（如70%）的位置判断为家。第二种方法是聚类，将轨迹数据输入到统计模型中，输出停留点。

3）判断出行目的

许多大数据都会遇到一个问题，即轨迹数据富足但活动信息贫乏。聚类的方法可以判断处活动停留点，但无法得知他们的类型（是家？公司？还是其他？）。目前研究中常用的方法有频次法，即白天累计频次次数最多的停留点为公司，晚上最多的是家，还有建模预测的方法。此外，土地利用信息也常常作为辅助信息判断出行目的。与欧美发达国家情况不同的是，中国的土地利用信息往往比较粗略，准确度不高，信息更新不及时，难以进行辅助判断。

4）识别出行方式和出行路径

目前研究中，应用移动通信数据分析出行方式和出行路径选择行为的课题非常少，这与识别难度较大、准确度较低有关。

根据移动信令数据识别出行路径基本方法是：a)确定O点和D点；b)将OD点之间的轨迹点与道路网对应，从而确定最有可能的出行路线。

根据移动信令数据分析出行方式选择行为的研究就更少了，大致识别办法与出行路线识别类似，将OD之间的轨迹点与路网和轨道网匹配，同时辅以速度判断出行方式。