首页 > 调查与观点 > 正文

何承:上海交通大数据的研究成果与展望
2016-12-21 18:00:37   来源:中国智能交通协会   作者:    评论:0

   

  上海市城乡建设和发展研究院交通信息中心主任何承

  近几年,大数据是很热门的话题,但我认为它本身还有一些核心并没有突破,大部分的行业参与者都在喊口号,而不是具体的去实际应用。下面我就谈一些自己的体会。

  现在综合交通行业真的迫切地需要大数据吗?

  下面我举两个例子来说明

  第一,是关于发改委发布的一个创新领域国家重点工程实验室指南,这个会议我参加过,并且还做了答辩。这个工程实验室,主要是针对我国综合交通跨行业、跨地域管理服务不足等问题,采取一些数据进行处理和分析。我看了指南之后,感觉是行政管理系统的问题,而不是通过大数据的信息化或科技化的手段能解决的问题。

  如今许多领域在对待一些体制上解决不了的问题,通常就会寄希望于技术的工具来化解,但是效果并不理想。

  第二,自2011年底起,截至目前,大数据在交通领域的应用中突出成果非常少,而在一些有突破的领域更是极其罕见的。所以由这两个问题,我们再来看一下大数据的定义。

  “定义”,我比较认同两个定义,一个是上海科委的定义,另一个是在香山会议上的数据科学与大数据研究科学的会议上获得的一个定义。香山会议上定义的是一个难点,就是难以在期望的时间内处理和分析的数据集。而上海科委在制定三年行动计划的时候,也做了一个定义,其中也讲了难以用现有数据库的管理数据集运用在相关领域上,且目前都没有突破。

  如何看待大数据,可以从三个方面来看

  第一个叫全体。大数据的特点就是量大,所以对全体的概念抱有很大的希望,如果不是抽样数据的话,可以确保大数据分析的准确性或者偏差性,但是大家可以体会一下,即使在交通领域的运用当中,我们也做到了全体化,但对全体数据资源的收集其实是远远不够的。

  第二个叫混杂。大数据不像原来结构化的数据,并没有规范化的整理,处理起来也不容易。我们原来想通过这些混杂的数据获得高质量的,或者是微观层面上更精确的数据,但到目前为止也没能达到这种程度。

  第三个是相关关系。相关关系指数据库中数据的关系由因果关系转向相关关系。相关关系又称联想关系、类缘关系,指各数据项目之间存在的除等级关系、因果关系等关系以外的,具有相关性的其他关系。这一特点帮助人们更加全面、准确地发现和认识数据所反映的客观事实,让人们开始重视为什么,而不仅仅是关注什么。

  既然我们在技术上没有突破,在很多应用上也没有建树,那么就应该提高对数据的思维能力,应该有数据科学家的概念。之前在做课题研究的时候,曾跟复旦的计算机专家也提出过,我们能不能培养出数据科学家,但数据科学家的要求特别严,同时对某一个行业的业务也需要相当深入的了解和认识,不然是做不到某一行业的数据科学家的。

  还有一点,就是数据财政。如果还是按照传统的数据分析来做的话,那么大数据的突破还是有很大难度的。据我了解,现在有很多的数据教育中心,但它们的教育量是比较单薄的,因为它们仅仅只拥有一个平台而已,因此如果我们不能解决数据财政的问题,那么将来的数据教育可能就是一句空话。

  交通大数据基础理论与探索,主要从三个方面分析

  第一个是对交通大数据的定义和类型。如果从交通大数据的定义分析,可以分为四类。第一类是交通运行管理当中直接产生的数据;第二类是城市交通相关行业和领域导入的数据;第三类是来自公众互动提供的数据;第四类是重大社会经济活动关联数据。如果按照数据类型划分,城市交通大数据又可以分为三类:即结构化数据、非结构化数据和半结构化数据。

  第二个是想用“本体”的概念来对大数据做核心处理。在研究当中,计算机怎么处理一直是最困扰我们的问题,是自动的还是半自动的来处理这些数据,比如,做交通领域的大数据时,我们想和复旦计算机联合起来做一些突破,所以引入了“本体”的概念。“本体”就是事物的本身,这个定义对确定数据的概念,包括它的分类和关联关系都比较有利。我们通过所谓的“本体”找到一个处理的方法,并用“本体”的概念跟复旦的计算机系一起做了66个交通管理本体和93个交通信息本体。

  第三个是介绍国内外大数据应用的研究。之前我查找过国内外在交通大数据的研究情况,其中美国和日本在交通领域的大数据进展情况与中国相当,也是处于瓶颈期。美国交通部下面设有交通数据的统计中心,现在也有很多数据,但是查不到它集中的应用领域。虽然美国有很多大学都获得很多的数据,然后对一些各类数据进行分析,还有一些美国公司,也在做这类的研发,但都没有突出的应用成果。

  通过总结,大数据的应用主要分为以下六类

  第一,是交通数据与跨行业数据关联挖掘研究。整合环境、气象、土地、人口等其他行业领域信息,采用数据挖掘及机器学习等数据分析处理技术,找出环境、气象、土地、人口等对交通状态之间的关系,可以为交通政策制定、城市规划、环境治理等提供决策依据。

  第二,是城市交通流预测。综合考虑各种交通数据、气象数据、手机数据、节假日及特殊突发事件等因素,更精确的对城市交通状况进行短时预测,更好的指导城市居民的出行。

  第三,是城市旅游线路推荐及交通诱导。根据城市的实时道路交通状况,提供给旅行者最佳的旅行线路,预估旅行时间,提供良好的交通诱导服务,为外地居民提供更加个性化的服务。

  第四,是车辆识别系统、交通事故预警及安全监控。通过在各典型交通路段的车辆徽标或车牌号码的模式识别,分析城市的车辆拥有量以及实际使用量,有助于交警部门对城市车辆的管理与监督。同时,对车辆信息的采集,可以管理监控车辆运行,对交通事故的分析及预警、犯罪等行为进行监控分析。

  第五,是城市交通布局的评价及城市交通系统规划。从长期历史海量数据中,通过对地铁、出租车信息数据的采集,获得不同细分人群的出行特征,如出行时间、出行距离、出行目的地、出行频率等,挖掘城市居民公交通出行行为模式挖掘,对整个城市的交通布局进行评价,为城市交通的管理者提供更好的决策支持。

  第六,是交通大数据挖掘的可视化。社会公众对交通信息的需求包括实时的道路路况信息,轨道公交的线路、班次、时刻、票价信息,公共交通换乘信息,社会公共停车场的停车诱导信息,铁路、民航、水运的对外线路、班次、票务信息等。信息获取的渠道包括路边的可变信息板、电视、广播、互联网、报纸、移动终端、电子站牌等。公众可以通过了解实时路况制定合理的出行方案,如出行时间、出行方式和出行路线等,实现数据挖掘结果的可视化。

  在交通大数据的应用示范方面,主要分为五点:(1)交通出行方式识别;(2)交通指数与气象、客流;(3)交通大数据示范平台;(4)大数据可视化分析系统;(5)客流密度云图分析系统。

  在大数据的应用示范技能方面,我们做了大数据交通出行的辨识、交通指数和气象的关联等。如雨量和交通指数的增加或减少是相关的,另外,通过辨识,我们还发现这些指数还跟客流、人的行为和车的行为是有密切相关的,因此我们就想通过客流指数来判断对应的交通指数,对此我们对徐家汇地区的做了分析,如图1,两条曲线温度还是非常好的,这一点可以利用客流的指数来推导和弥补交通指数的不足。

 

  图1徐家汇区域交通指数与客流关联分析

  关于手机大数据的客流密度云图分析和展示系统,现在的方式比较多,例如,微信有定位信息功能,可以知道你是在室内还是室外,大数据还可以预警人的指数,人多就一定会出事吗?不会。那么上海外滩为什么会出现踩踏事件呢,用活跃度可以看到是不是对冲的人在动,动的话危险就高,但这不是预警的唯一指标。

  最后是展望,当核心的东西没有突破,体制也没有改变时,那么我们该做什么?在上海有个综合交通信息平台,里面绝大部分数据都是开放的,但是它有地域性的限制,因此,我们利用了卫星把全国的数据在上海集中起来,计划将在年底发布目录。

 

分享到: 收藏

相关热词搜索:何承 交通大数据

上一篇:共享经济下的交通变革:过去、现在与未来
下一篇:合肥拥堵指数已赶超深圳 专家:适时推出限号措施