李欣:在乱花渐欲迷人眼的交通大数据时代,我们何去何从
2016-04-26 10:44:37 来源:www.ladysslipper.com 作者: 评论:0
李欣
美国威斯康辛大学密尔沃基分校交通工程博士毕业,现任美国威斯康辛州立大学密尔沃基分校城市交通中心博士后研究员,主要研究方向:公共交通效率考评,交通模型与公交系统优化,数据挖掘,尤其是人工智能语言在交通大数据中的应用。硕士毕业于英国南安普顿大学交通规划与工程专业,曾经供职于英国PBA工程咨询集团,重庆市城市交通规划研究院。
写在前面的话
首先,很高兴能在创刊的时候,受南京城交院的邀请成为第一批撰稿人,也很乐意通过这个平台和大家交流关于交通,关于交通行业,关于交通事业的点点滴滴和心得体会。我深知我资历和见识都尚浅,更多是抱着一颗交流学习的心态向大家讨教。
大数据现在已然不再是一个新鲜的词汇,从金融到医疗,从城市管理到治污减排,大数据多带来的巨大影响已经越来越深刻的影响着我们的社会形态甚至思想意识形态。
2010年,美国总统科学技术顾问委员会在《规划数字化的未来》中建议:“联邦政府的每一个机构和部门,都需要制定一个应对‘大数据’的战略”,这标志着大数据进入政府管理的时代已经正式到来。
2012年,奥巴马政府颁布了《大数据的研究和发展计划》,通过提高从大型复杂的数字数据集中提取知识和观点的能力,进而加快美国在科学与工程中的步伐,加强国家安全,并改变教学研究。这是一个数额高达2亿美元的投资计划,涉及多个联邦部门和机构,包括白宫科学技术政策办公室、美国国家自然基金会、美国国立卫生研究院、美国国防部、美国能源部、美国卫生与公众服务部、美国地质调查局等机构。这个投资项目的主要目的是提高大数据核心技术的发展水平,加速科学和工程开发,加强国家安全,转换大数据教育和学习方式,扩展开发和使用大数据技术的工作力量。
在中国,虽然我们尚没有见到国家层面的关于大数据的一揽子实在的项目和计划,但是衣食住行中的“行”,交通,已然热烈甚至是激烈的投入到了大数据的浪潮中,从去年上海将首次开放十大领域、总容量达上千GB的交通大数据,包括城市道路交通指数、地铁运行数据、一卡通乘客刷卡数据、浦东公交车实时数据、强生出租车行车数据、空气质量状况、气象数据、道路事故数据等,面向全球征集改善城市交通、便利市民出行、创新商业模式的应用程序和解决方案。再到越来越多的高校以及传统交通规划、工程设计单位开始尝试设立专门应对大数据的专业机构和部门,这一切无不热火朝天的为交通人描绘了一幅美好的蓝图,但是在我们展开这幅美好画卷的时候问问自己以下个问题,我们了解么?我们有把握应对么?大数据,数据不是越大越好
要了解任何事情,你需要跟踪它。这是因为你知道你在做什么,不管我们在讨论利用公交IC卡追踪出行,还是研究共享经济UBER或者滴滴的出行形态,了解,是能做的更好的第一步。但是,很不幸,简单的跟踪数据不会让你走的更远,而要让数据变的有价值,我们必须从中挖掘我们所需要的信息。
我现在看到业内大量的单位,大量的从业人员比拼的是数据容量,数据种类,这是误区,我们要知道收集数据是很容易的,但是当你面临更大量的数据来临的时候,也同时以为着你花费在切除数据噪声和甄别数据质量上的精力远大于你投入到收集数据上的精力,因为除噪和降维才是挑战。这也是为什么,很多时候我看到交通数据并没有让我们的事业更蓬勃或者提高我们的生产力,相反的时候,很多情况下,数据实际上只是创造了更多清理工作。我们永远要知道数据的时效性有多重要,尤其是在我们面临着发展如此迅猛的中国城市交通系统,日新月异的交通行为让这些数据很快就变成了硬盘垃圾,问问自己,那些磁盘矩阵中夸张的代表数据体量的数字中,我们真正挖掘和应用了有多少?有10%么?所以更多的时候,数据不是越大越好,交通数据人要有一双甄别和结合自己实际需求的眼睛。
分布式数据库时代下的危机
不得不承认,无论是Hadoop还是Spark,分布式数据出库出现让我们有了应对交通大数据的利器,也正是这些分布式数据库让我们有了应对无序数据或者无结构数据或者说实现多源数据融合的可能。相较于传统SQL形态结构化查询语言数据库,新型的分布式数据库似乎更能应对当前无结构数据类型的冲击和挑战,但是,相较已经发展的相当成熟的SQL数据库形态,分布式数据库的路,尤其是应用在企业或者成熟形态数据挖掘中的路依然是很充满了挑战和危险的:
·选择,其实架构分布式数据库对传统交通背景的从业人员来说并不是轻松的事情,想想让一些从本科就开始面对道路,轨道,公交这些实体模式的人需要重新去适应Linux,和那么多看不见的各类通信协议打交道,这着实不是一件容易的事情,可是我们还是得选择,目前主流的分布式数据主要有Hadoop和Spark两家主导,尽管Spark已经有足够强大的APIs可以兼容所有的Hadoop的数据格式和形式,但是对于基础框架的选择,我们依然要做好判断,高度概括的说Spark有着卓越的内存数据处理能力,所以在Spark内还兼顾机器语言学习和图像处理插件;而Hadoop就更为显的是为大数据而生一些,已经衍生了包括Hive,Hbase等在内的的多项支撑项目和云服务功能;
·如何适应企业或者单位的应用模式,实际上最初分布式计算的出现并不是为了应对企业级的应用,更多的是为了储存开放和公共数据,例如Google一直是Hadoop的忠实用户,显然现在各个城市,各个单位的大数据应用机构和部门都有自己的应用范围和目的,也并不都是公共开放数据,所以如何设计自身适用的分布式系统尤其重要;
·保护数据,传统的数据库保护模式并不能针对现在分布式计算的cluster或者nodes的模式,事实上,也正是因为大量的节点计算机的加入,分布式系统才有了威力,可是不幸的是,无论是现有的备份,还是应急恢复,再到数据保护系统都没有很好的针对分布式系统有任何突破,所以数据的保护和维护显得至关重要;
·预算,没错,该怎么去预估分布式系统的预算颇为挑战,土豪单位自动忽略;
引智,联众
其实我一直的观点是,术业有专攻,我们作为交通的从业单位,我们不应该也不需要去做专业IT人员的工作,我们做不好,也会有很多风险。交通人就应该做和交通有关的事情,即使是在大数据的环境下,我们要做的也更多是思考在交通中的应用。构建和管理数据系统需要专业的团队,人员,作为职能管理机构很难具有较强的专业性和技术性团队管理多数据源的大数据系统,在这种情况下,应该采用众包的模式,通过引智,进入市场,控制需求的方式打造包括政府机构,高校科研机构,市场IT公司在内三方共同体,政府机构作为顶层管理者,在自身管理职能需求内,也充分听取高校科研机构的应用建议,将需求建议传递给负责建库的技术执行单位,在建库过程中,要充分遵循以下几点原则:1.可持续,可拓展;即能适应现有数据体系的增量的同时,要具备容纳将来会进库的数据体系系统;2.定向开发管理系统;即面向政府部门使用人员定向开发易于理解,容易上手的管理系统;3.重安全,防后门;数据管理最重要的是安全可靠,防止网络系统的后门侵入程序;4.备份系统与垃圾清理系统并重;5.合法化;在使用大数据时,政府必须解决相关的法律、安全和许可要求等问题。在搜集和使用大数据用于预测分析与保障公民隐私权之间,应该有一条清晰的界限。
我们该做什么,我们能做什么?
接下来最重要的就是前景,要找到一条适合的发展道路,大数据在交通业的发展不是共享经济依靠烧钱运营手段所能持续的,大数据要落地,而且必须落地,才能让大数据在交通行业可持续的发展,否则很快大数据和从事大数据的人就会落到尴尬的境地。
告诉大家一个残酷的现实,3年前的美国TRB会议上有专门的手机数据研讨的session,但是到了今年,连像样的文章都没有几篇了,这个话题凋谢了。交通行业是应用科学,落不了地的产品最终就是昙花一现。当然要做到产品落地,不仅要有众多智力单位努力,政府也需要敞开自己的怀抱,来拥抱新的概念和新的理念,要做到挖掘,应用:在政府各个部门内充分挖掘数据的潜在意义,充分应用大数据于日常行政管理中,精细化管理手段
2014年年末,2015年新年,上海外滩广场踩踏事件,深深的刺激着每一个城市管理者的神经,在事件之后,百度大数据研究中心的众多研究者利用当时外滩即周边的地铁,道路系统的手机和热点数据做了深入的分析,得出的结构是,如果政府能早点意识到大数据在城市危机管理中的应用,这次惨剧或许就可以被避免。而实时大数据的基本分析就可以预警群体集聚事件的潜在踩踏或者拥挤危险。
让我们根据现在国内外关于交通大数据的研究,总结一下近期,或者短期内交通行业可以落地的大数据应用方向:
运用大数据进行城市危机管理:我国人口众多,重大文体活动、节假日集会等活动中,容易出现因人群过度拥挤而引发的危险乃至事故。那么是否可以提前预测,做到事前预警呢?答案是肯定的,运用包括手机信令数据,地图搜索数据等多源数据就可以提前几十分钟预测时间影响区域内的人流高峰和最密集区域,管理者们可以据此发出相应警示,做好应急预案,不至于事件发生时束手无策;
运用大数据指导城市交通基础设施选址和建设时序规划:大数据在交通设施选址中的应用将有助于我们将传统的“规划在哪儿”变成“往哪儿规划”,变被动规划为主动迎合市民出行需求的主动规划,有助于提高交通设施的利用率,避免规划决策失败;同样在编制基础设施修建时序时,也可以充分借助城市居民出行产生的大量数据,分析需求,找出交通系统的薄弱环节,做到有的放矢,蓄力而为;
运用大数据精细化城市规划编制手段:城市的无序扩张和人口的无序增长都对城市的可持续性带来了负面的冲击,包括能源的损耗,公共资源的过度利用等,越来越的大数据被应用于城市定界和人口蔓延的研究中,其产生的多项成果已经具备被政府利用的基本条件,包括定制城市边界,人口分布方案测试,各类用地比例的确定,以及包括变电站,污水处理厂布局等专项规划方案的应用,这些都将让我们的规划更准确,更规之以本,划之为民;
运用大数据精细化交通管理措施手段,引导民众出现,降低拥堵成本:充分利用交通大数据分析,向出民众发布出行诱导信息,例如拥堵指数,拥堵路段,建议出行时间,建议绕行距离等,以均衡和引导交通量;
基于大数据和开源地图数据的公共交通设计:传统的公交设计都是基于需求未知和感官设计的,对需求的未知性往往使得既有公交系统的效率低下,但是在大数据的帮助下,优化公交设计将会有机会使得现有公交体系更为亲民和便民;
当然以上都是非常提纲挈领的例举了部分内容,让我们根据发展区域也列举几个在未来中期内的大数据交通应用畅想:
人工智能语言在交通安全大数据中的模式识别应用:出行时间可以预测,拥堵可以预测,近期沪蓉高速的连环相撞再一次把交通安全的预警提上了一个高度,那么对全路网,多数据源的模式识别事故预警判断,将是人工智能在交通安全,尤其是分类模型在事故预警中应用的重要应用内容,而人工智能语言对数据体量的快速反应,对相关关系的迅速判断,和完整的验证与矫正环节,使得事故预警,尤其是针对实时数据的快速处理预警变得有了可能;
车路协同技术对全路网出行状态监控的应用:其实在美国交通部FHWA的一份比较新的报告里,已经明确了利用公众车辆中部分已经较为成熟的车路协同技术实现对路网的运行状态的监控和预判,成功实施后可大幅降低包括线圈,摄像头,RFID等在内的既有道路状态采集系统的投入,且样本量和覆盖率远远高于既有设备;
个体出行者在互联网+状态下的信息提供实现定制出行服务的应用:定制服务不是新的概念,定制公交,包括共享经济都或多或少的占有定制的概念,可是这远远不够,相信不久的将来,定制多模式联乘,涵盖海陆空的多维度定制服务都会在大众中普及,而这样的定制服务也将在海量数据的帮助下,实现全方面和全方式的模式识别和追踪,并进一步实现全网络的平衡服务,比如根据网络内容量状态,定制出行模式等;
总结的话
无论是大数据还是互联网+都是概念化的产物,真正找到适合自身的发展出路,注重产品,找到一条生态平衡发展道路才是对交通行业的负责,对待任何的新事物,都不能操之过急,Google默默做了十几年的无人驾驶之后,才逐步开始对外开放一些测试信息,而我们更是要有一颗理性和包容的心态对待大数据时代下的人,事和发展。
分享到:
收藏
评论排行
- ·各省份卫星定位平台备案运营商的名单(...(4)
- ·访深圳市锐明视讯技术有限公司 市场总...(3)
- ·高速公路迈向大数据存储应用(3)
- ·关于征集“工信部V2X技术应用与频率需求...(3)
- ·立宇泰车载驾培终端定制服务(3)
- ·深圳泰首智能推出“车载移动电子警察”系统(3)
- ·访苏州科达科技股份有限公司智能交通方...(3)
- ·大同市区道路交通监控系统试运行(2)
- ·第七届中国国际道路交通安全产品博览会(2)
- ·2015中国智能车未来挑战赛全纪录(2)
- ·gps道路与交通日常巡查管理系统设计方案(2)
- ·车货匹配APP的坑——一位物流人的吐槽(2)
- ·2016中国车联网大会暨第十一届中国卫星...(2)
- ·大隐隐于市——盘点“最严交规”下的交...(2)
- ·三河市交警大队大气重度污染交通限行提...(2)
- ·十年探索路,一朝翔迅飞——访西安翔迅...(2)
- ·东莞长安镇“绿波带”智能控制交通信号...(2)
- ·iData智能停车收费管理系统解决方案浅析(1)
- ·阜阳明年将实现出租车信息化管理 对服...(1)
- ·天泽信息入股南京宜流旗下网站运策网(1)