移动通信关键词:移动通信数据;数据分析模型;出行方式分类
一、概述
城市交通信息化以及智慧城市建设不断深入,各种城市交通运行管理直接产生的数据、相关行业和领域的数据以及公众互动提供的数据都对城市交通的管理和运行产生着直接作用或间接影响。这些数据汇聚在一起,形成了城市交通大数据的基础。城市交通大数据的产生是在大数据技术促进下城市交通信息化发展到一定阶段的必然结果。可以预见,城市交通大数据将在城市交通规划决策、交通组织管理和社会公众服务等方面体现出重要作用。
本文以移动通信数据为对象,研究大数据分析挖掘算法,以实际应用需求为导向,寻找数据内部以及数据之间潜藏的交通运行规律和特征,对交通大数据应用挖掘技术进行深入研究,展示其对城市交通分析的重要价值。
二、移动通信数据简介
将手机作为信息采集的手段,具有样本量大、覆盖范围广、数据稳定可靠、信息采集成本低等优点,使得手机成为新型的交通数据采集工具。以手机作为交通信息采集手段,采集到的数据是手机信令数据。手机信令数据包括信令所属用户的标示号、信令产生的时间戳、信令事件、基站信息等。依靠基站定位技术对手机用户进行定位。
移动通信网络覆盖逻辑上被设计成由若干正六边形的基站小区相互邻接而构成的面状服务区,如图1的蜂窝状小区[]。移动用户总是会定期或不定期地,主动或被动地和其中一个基站小区保持联系。如图所示,正方形方框为交通小区示意,方框之间的区域即道路网络。可看到,交通网络中的道路和交通小区与移动蜂窝网络中的基站小区,在空间分布上有规则地对应着。因此,只要建立特定的匹配规则,处理好一对多、多对多、多对一的关系,就能根据移动用户在移动蜂窝网络中的出行情况,推断出移动用户在交通网络(道路、交通小区)中的出行情况。
图1移动网络覆盖与交通网络(道路、交通小区)匹配示意
三、数据分析算法模型
数据挖掘的算法模型有很多,按照功能作为划分,常用的数据挖掘模型主要包括:分类模型、聚类模型、关联分析模型等。
3.1分类模型
分类模型经常用于事物的识别,因为事物的识别就是分类的过程。分类模型会将新样本按照经过训练样本集训练过的模型的分类规则,对新样本进行分类。本次出行方式识别研究,使用了分类数据挖掘方法,构建具有较高识别能力的手机用户出行方式识别模型。
分类包括两个过程。第一,学习过程:用分类算法分析训练数据,学习的模型或分类器以分类规则形式提供;第二,分类过程:检验数据用于评估分类规则的准确率,如果准确率是可以接受的,则规则用于新的数据元组分类。
3.2聚类分析
聚类分析(clusteranalysis)简称聚类,是把一个数据对象(或观测)划分成子集的过程。每个子集是一个簇(cluster),使得簇中的对象彼此相似,但与其他簇中的对象不相似。有聚类分析产生的簇的集合称作一个聚类[]。
作为一种数据挖掘功能,聚类分析可以作为一种独立的工具,用来洞察数据的分布,观察每个簇的特征,将进一步分析集中在特定的簇集合上。另外,聚类分析可以作为其他算法(如特征化、属性子集选择和分类)的预处理步骤,这些算法将在检测到簇和选择的属性或特征上进行操作。聚类分析计算方法主要有:划分法、层次法、密度算法、图论聚类法、网格算法等。
3.3关联分析
关联分析就是通过大样本数据,发现事物之间的联系。通过关联分析,人们可以更好地理解事物之间的关系,发现事物的规律,提高对事物的认知能力。
关联分析是大数据分析的重要技术之一。从狭义上讲,关联分析是特指数据挖掘方法中的关联规则。从广义上讲,关联分析包括一切用于发现事物间联系的数据分析方法。关联规则(associationrules)是一种广泛使用的模式识别方法。它从频繁出现的记录中,发现事物之间的关联。而现在关联规则分析已经在多个领域中应用,以交通行业为例,关联规则在交通事故分析、交通状态分析中都有着广泛应用。关联规则挖掘的分析结果一般是以很清晰的规则显示,形式为:X→Y,表示发生或出现X事件时,Y事件很可能伴随发生或出现。
四、城市交通出行特征分析应用
4.1分析思路
在城市交通规划领域,城市交通出行特征数据具有重要的价值。传统方法大多通过大规模的问卷调查获得城市交通出行方式比例数据,但一直存在获得难度大、代价高与精度不可靠等问题。在大数据环境下,可以探索基于移动通信数据,应用交通大数据分析分类挖掘算法,研究手机用户的交通出行行为分类。应用数据分析算法可以识别手机用户出行选择的交通方式,区分快速和慢速客流、地面和地下出行、小客车出行和公共交通出行。
将手机用户的信令数据根据时间排序,可以得到手机用户的出行轨迹序列。轨迹序列数据记录了手机用户在出行过程中的起终点以及所有轨迹点的生发时间、地理位置、位移距离,以及该手机信令是否在地下轨道内发生的。
根据这些用户出行轨迹序列数据,可以提取多种特征指标。将每一次出行作为数据一个样本。在每一条样本中,包含了该次出行中的出行特征,包括:出发时间、到达时间、出行时长、起终点直线距离、轨迹点累积距离、平均出行速度、是否检测到地铁内轨迹点、乘坐地铁的距离、乘坐地铁的时长、地铁距离占总出行距离比例、乘坐地铁时间占总出行时间比例等。其中,地铁基站信息是依据到达地铁内进行实地检测而获得的基站信息。而如果地铁距离占总出行距离比例、乘坐地铁时间占总出行时间比例较小,则该手机用户很可能在出行过程中使用了不止一种交通工具,例如乘坐地铁后转乘公交车等。因此,地铁距离占总出行距离比例、乘坐地铁时间占总出行时间比例,这两个出行特征能够提高采用混合出行方式的手机用户的识别能力。
4.2分析方法与结果
本次研究使用了神经网络算法、支持向量机算法、C5.0决策树算法,分别建立了三个面向手机用户出行方式识别的数据挖掘模型,最后评价不同算法的适用性。
C5.0决策树的最早形式是ID3决策树算法,后来经过多次改良后成了C4.5决策树算法。C4.5决策树算法被誉为十大经典数据挖掘算法之一。相比起其他决策树算法,C4.5具有多种优点。C4.5决策树模型能够很好地适应多种输入数据的数据类型,简化了数据处理的过程,并且对数据缺失值与异常值有较好的宽容性,并且在树的生长与剪枝的策略上的智能性有了很大的提高。
支持向量机(SupportVectorMachine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(或称泛化能力)。
人工神经网络(ArtificialNeuralNetworks,简写为ANN)通常简称为神经网络NN(Neuralnetwork),是利用工程技术手段来模拟人脑神经系统的结构和功能。由于是模拟人脑神经系统,因此神经网络也具备了人脑神经系统的分布式信息存储、并行信息处理、自适应非线性的特点,故神经网络在进行交通信息的非线性预测也起到了非常重要的作用。
以上算法均是数据挖掘中用于分类识别的经典算法,已经不同领域得到了广泛的应用,本文将以手机数据为研究对象,分析比较以上三种不同模型在手机用户出行方式分类应用中的优劣。
要对手机用户的出行方式进行识别,首先要通过一定的输入样本,从样本数据中发现不同出行方式的手机用户的轨迹信令特点。本次研究募集了一批志愿者。通过读取志愿者的手机卡信息后,经过数据的筛选过滤算法,从海量的手机数据当中,将志愿者的手机信令数据挑选出来。与此同时,设计了调查问卷。通过收回的问卷获取了志愿者的真实出行记录,包括时间记录与交通方式。将采集到的出行样本记录分成两个样本集,随机地将70%的样本作为训练样本集,将剩余的30%样本作为测试样本集。通过已知的、准确的调查问卷数据,进行模型的训练。并且用另外30%的志愿者数据对训练后的模型进行检验,评价模型的识别能力。
以下是不同模型的分类准确性比较:
表1各出行方式识别模型的准确率
模型 | 训练样本集准确率 | 检验样本集准确率 |
神经网络 | 73.27% | 70.90% |
支持向量机 | 57.66% | 62.69% |
C5.0决策树 | 80.18% | 82.09% |
决策树在本次研究中,除了识别准确度由于另外两种模型外,决策树还有以下优点:①能够生成可以理解的规则;②计算效率高;③能够处理连续型与分类型变量;④能够了解各特征属性对模型识别的重要程度。
通过进一步分析,虽然决策树模型的平均识别率相对较高,但是目前建立的识别模型对私家车与出租车的识别能力较低。原因有两点:①由于募集的志愿者中,使用私家车与出租车的样本太少,样本不平衡,导致私家车与车租车的识别能力较低;②开小汽车出行的过程中,如果遇到拥堵状况,出现较长时间的停驻行为,计算出的平均速度会降低。模型会因此而容易将小汽车类型的出行,识别为助动车类型的出行。因此,在后续的研究中,将会招募更多以私家车与出租车的志愿者,通过更多的样本,提高模型的识别能力。
五、结论
移动通信数据具有样本量大、覆盖范围广、数据稳定可靠、信息采集成本低等优点,是一种具有非常大应用潜力的数据源,对于城市交通分析具有重要价值。本文分析了移动通信数据的特点,并且研究了数据挖掘应用中常用的分类模型、聚类模型、关联分析模型等方法,根据城市交通分析应用需求选取手机用户出行方式分类研究应用为案例,分别使用了神经网络算法、支持向量机算法、C5.0决策树算法等三种分类模型,结果表明C5.0决策树算法的精度具有优势。鉴于移动通信数据的广泛应用价值,本文的研究仅仅是初步的探索,将来通过构筑多源数据融合的城市交通大数据平台,能够挖掘分析更多有价值的成果,为城市交通管理科学决策与市民公众出行便利服务。
参考文献
[]胡显标.基于手机数据源的行程时间采集研究.[硕士学位论文].同济大学,2009年.
[]JiaweiHan,MichelineKamber,JianPei.DataMingConceptsandTechniques3rdEdition.ChinaMachinePress,2013.
作者简介
孟华:上海美慧软件有限公司
摘要:移动通信数据是典型的大数据源,在城市交通分析应用方面将会产生重要价值。本文首先分析了移动通信数据的特征,归纳了主要的数据分析算法模型,最后针对城市交通出行特征分析需求,应用数据分类算法模型,展示了移动通信大数据分析的实用价值。
本文为智能交通世界网原创,转载请注明出处,更多内容请访问智能交通世界网(www.ladysslipper.com)