文/ITSAmericaResearch译/董海龙
大数据这个名字源于提供的原始数据的绝对数量和复杂性。其潜在价值已在智能交通系统行业开始显现。随着最前沿数据挖掘技术的应用,捕捉这种价值出现热潮。从广义上理解,数据挖掘是一个过程,在数据中识别有用的数据模式。软件工具从解决模式到创建模型,此种在程序可以用来复制当前的条件和预测分析未来的趋势和行为,从而被称为预测分析。道路运营方,交通工程师,规划师,应急管理人员等ITS从业人员,在交通运输领域可以很容易地意识到数据挖掘的好处。数据挖掘也可以增加ITS规划和建设效率。例如,公路运营商通常会根据交通流量、通行速度以及员工的眼睛来确定经常性和突发性的拥堵,从而优化交通信配时。然而,交通流量优化是高度依赖于经验模型,导致理论模型与实际观测到的流量相差较大。
数据仓库
通过数据挖掘可以了解车速变化、意外事故、学校和上下班时间表以及天气变化等与交通相关联的事件与车流量和拥堵之间的实际关系。数据挖掘将比传统理论模型发现更多与之相关联的变量,从而了解造成经常性拥堵造成原因的更多可能性。从这一点来说,通过分析预测可以支持改进更为前瞻的交通管理,如自适应信号控制、可变限速、交通诱导、动态拥堵收费等这些可用来减少拥堵的措施。但是,要确保数据挖掘是有用的,管理部门必须加入更多的新的、非传统的数据源,需要收集和挖掘更多车辆探测器和遥测数据以及其他由用户产生的数据。这是一个金矿,如果数据挖掘是一个从数据集、数据仓库提取有用信息并汇总和托管的过程,那么数据仓库就是包含各种多源的、已被标准化定义的数据库,这个数据仓库里,任何语义的差异将通过多源系统被解决,历史数据将被保存、注释和归档。
交通管理操作人员、规划人员和研究人员可以申请数据挖掘软件工具来验证自己的架设,并找到与之相关联的数学模式,为决策提供更有价值的战略支持。这些数据仓库的建立很困难,数据来自多个数据源,它们在被存储之前,必须被整理归类和集成。此外,重要的是,数据仓库应包括各种标准接口,以便不同设备和系统的应用程序可以追加数据种类、查询和更新数据。这对道路运营的好处是什么呢?总而言之,数据仓库能够聚合和规范某些数据类型的能力,超出了典型的先进交通管理系统(ATMS)。例如,超出道路经营者所需要的乘用车统计、卡车货运、中转、停车甚至天气信息等传统数据。
即使是非结构化,甚至更为标新立异的数据源也可被收录查询,例如社交网络用户生成的"众包"数据及事件报告。所有这一切都将给道路经营方提供更全面的视野,以使他们的交通网络能够更有效的分配资源,对交通管理手段进行微调。当然,不同的数据仓库在规模和目的等方面千差万别,较大的国家级交通数据仓库倾向于研究整个社会的交通出行,而区域层面的交通数据仓库更适合研究城市和城际之间的交通出行。
举个例子,智慧城市的分析工具就要试图给城市交通管理者一个有关城市出行流动性的报告,这些数据只能来自城市内部以及与之相邻的地区。然而,一个更大的数据仓库,包括来自不同地区的不同类型的数据可能会引起更多的兴趣,因为从这个数据仓库中可能获得跨领域甚至跨国界的学术成果。
这里有一个区域数据仓库突出的例子,如美国的亚利桑那州运输部的全州资产管理仓库和德克萨斯州A&M交通研究所的区域交通数据仓库。设在德克萨斯州埃尔帕索德尔北地区的A&M交通研究所数据库,其数据所涵盖的地区包括德克萨斯、墨西哥、华雷斯。在欧洲,自然和地理涵盖的区域数据库是不同的,其整个国家所包含的道路只相当于美国或者中国的的一个州/省,所有交通运输从业人员被聚集管理,加上数据库处于国家级水平时,其交通信息才可能变得有价值。类似重大气象事件以及较为严重的一个拥堵,就很可能会影响全国路网通行,造成全国性事件。在荷兰,有在运维一个国家级的交通数据仓库,旨在数据收集和标准化,提供路网数据给研究人员和公路网络应用开发商。
黄金时代
私营企业已经在积极开发相关产品,以帮助运输决策者意识到建立数据仓库,进行数据挖掘的好处。交通信息服务商INRIX早已建立了基于GPS设备、道路传感器等其他来源的事件历史数据、实时数据分析,并实现智能交通的数据归档。IBM是在最近在荷兰埃因霍温宣布其第一个智慧交通的成果:车辆制动、加速和位置信息被手机并用于估算交通模式,事故和道路条件,停车和收费的相关数据库也在行程中。
类似美国施乐、ParkMe等公司已经在积极进行数据分析,寻找交通与停车位的供求关系。施乐在洛杉矶部署了基于平均车速的电子收费动态定价系统,付出更多费用后,允许私家车使用七座以上客运车辆通行通道。这个定价模型被精炼,通过挖掘实时交通数据以适应不可预见的道路事件。
ParkMe数据仓库有数千停车位的历史数据,以向用户展示提前两个星期,在一个划定的区域里,在哪可以找到可用的停车位。ParkMe收集实时停车数据,以反映历史变化。当发生重大突发事件时,为救援单位寻找空的停车位,
对交通数据的淘金,对于城市规划和管理是特别真实有益的事情。
城市当局开始创建数据仓库,以及挖掘数据,并利用这些成果。通过完善智能基础设施,目标在于收集每一类别的交通数据,以及交通违法事件。这些分析将帮助管理者如何部署执勤警察,为减少酒后驾车,应将注意力放在哪些路段,提供安全性,或如何对停车价格进行定价等等。
引人注目的成就
智能汽车本身产生的数据以TB为单位,如果将范围扩展至交通环境,产生的数据将以PB为单位。潜在的数据挖掘比比皆是,举个例子,挖掘雨刷器和其他车辆数据将可以被用来改进分析道路天气预报。此外,还有汽车防撞功能,onstar正在使用的辅助驾驶功能以帮助驾驶员提升驾驶水平等Telematics服务。从长远来看,通过分析大型数据集将改善道路安全,比如自动驾驶、车车通信、车路协同等。未来的车联网将可避免碰撞事故,车辆状态数据将在车辆和交通控制设备之间不超过1秒实现迅速连通。美国运输部车辆连接计划是一次重要的机会,研究人员在各种测试平台上分析研究海量数据集,梳理出可能有助于开发新的先进的安全、移动技术的新观点。各国政府,尤其是学校等科研院所走在了前例。美国运输部已经在实施研究数据交换,一个在线的有关全国各区域交通运输数据的在线存储库,从而促进交通安全和流动效率的相关研究。尽管没有明确的数据仓库,但能够在国家和地区层面都能主动提供未归类集成数据的跨领域和模式的研究分析支撑。