博康智能副总裁虞正华
2013年7月25日,由国家道路交通管理工程技术研究中心及武汉理工大学智能交通系统研究中心的支持举办、南京市智能交通产业协会和智能交通管理杂志社联合主办的首届中国城市智能交通管理暨科技创新论坛在南京成功召开,本次论坛以“提升科技应用水平,助力交通安全管理”为主题,来自管理部门、科研院所、企事业单位的近30位代表进行了精彩的演讲。
博康智能副总裁虞正华进行了名为《大数据时代背景下的智慧交通》的主题发言,以下是发言实录。
虞正华:各位专家,各位领导,下午好,非常高兴这个机会,跟大家汇报一下交通管理方面的一些设想和进展。博康一直在智能交通行业做一些贡献,到今天,我们更多从过去的视频监控为主,已经慢慢走向数据管理方面的工作。说到大数据,大家也知道是最近比较热门一个词了,今天也有专家讲到大数据方面,其实从奥巴马在将大数据定位为美国的重要战略以后,全世界都开始关注大数据,为什么?这是必然性的。IT行业全球的数据量大概每两年会翻一番,这个数据量非常巨大,大数据为什么能兴起,有这样一个必然,我们数据的累计已经到了这样一个程度。在这样一种数据量增长之下,如何充分利用这些数据在各种各样行业应用,这么大一个数据量,必然带来一个技术上的革新,就是说我们理解传统的数据管理模式,像大家比较熟悉的,过去说到数据,说到数据库,必然是一个关系云的数据库,比如有些厂家现在用的很多的一些情况,传统的数据库对于我们处理关系云的数据是非常有效,然后存储。在我们这个大数据时代,慢慢显现出这个有些困难,技术上有些瓶颈,我们可以来分析一下,一方面传统的这种模式,可能就不太适合承载实时海量数据,而且这种数据可以看到,除了结构化数据以外,更多的是非结构化,或者半结构化,这些例子大家比较熟悉的,图片、视频、音频很多的数据其实是非结构化的数据,在传统模式下慢慢显现出一个瓶颈。
另外一点,过去这种模式,因为是集中数据处理,在数据处理这个角度更多依赖单排服务器处理能力,虽然可以做多台数据库集群,比如到了两台三台,再往上扩展基本上很少做了,过去往单台纵向扩展多,比如功能更好的小型机处理,但是这样的方式也面临一个新的瓶颈,在这种情况下,就用到大数据了,用大数据分布式计算机群,里面有几个关键点,是一个分布式计算式平台,把计算分布开来,大家熟悉互联网,知道这种,像谷歌也基本上都是这样一条技术路线,由很多很多成连接的处理器完成计算,第二个分步式存储。
第三在数据库层面,也有更多的数据要处理,就是数据的结构,是一个异构的,所以在数据库基础之上,有一个变革,那就是一个非关系云的数据库,进行一个相应的处理,这个大数据带来的技术变革,就是在一个分步式计算机群,管理多样化的非结构化数据,实现弹性的一个扩展。所以大家,我前面说了很多大数据,可能跟我们今天主题,跟智慧交通有什么关系,其实从智慧交通这个角度,随着城市建设发展,交通数据也跨入大数据时代,这里有一个国内某一个一线城市数据量,每天的数据量2千万条,存储量一年73亿条,从过车图片的数据,要存储量一天6TB,一个季度540T,这个数据量,三年的数据量是5.5亿,我们还有流量信息,这个流量包括各种各样流量采集手段,从信号等都可以采集,流量一年36亿,这么庞大数据量,给我们带来挑战,我们的系统扩展就比较困难,就是如何存好它,第二数据,前面看到图片、视频,带来结构化,带来数据管理的问题,如何管好,第三这么大数据是否能把这里面信息充分挖掘出来,是否能用好,这是第三个数据应用问题。
所以存、管、用,这是我们大数据在交通管理面临的挑战。在交通管理行业,在大数据时代,需要解决的一些业务需求,就是包括我们基于大数据及时查询,及时分析,我们希望我们的统计分析至少不隔天,现在而言有很多统计是没办法做到不隔天,因为这个数据量太大了,比如做一些关联性分析的时候,或者做一些统计查询的时候,经常会面临这样的问题,没办法产生及时的报告,所以及时分析,这个是一个业务的需求。第二个,我们存储的角度,如何来实现云存储和云计算,这是第二个业务需求。第三数据关联分析。第四基于大数据自动关联和感兴趣内容推送,功能更加智能。第五,基于大数据实现交通预测、预警,提前制定各种管理策略,部署交通警力,在大数据有前面说的五大业务需求,跟这个对应的有业务上的、技术上的一些需求。首先要解决一个更广泛的数据采集,采集更丰富的信息来源,获取大数据信息;第二信息的处理,包括数据的接入能力和数据的筛选处理能力;第三数据的存储,我们希望这个存储是可以平衡扩展,比如业务量上来以后,存贮扩容更容易;第四数据挖掘上希望速度非常快,这确实我们要实现的目标。第五,我们信息的呈现手段,我们希望呈现手段更丰富,如何有效把我们这么大数据信息能够展现给大家。
我们看一下,我们理解的交通管理的一个大数据平台架构是什么?这里面其实我们可以简单地理解分成三成,就是说一个是数据接入层,第二个处理层,第三个应用层。在接入这层,数据包括两方面,一个交通方面的数据,另一方面各种各样信息采集手段,采集的数据,在这两个工作流和采集流的数据,进入大数据处理平台,刚才也提到大数据平台可能适合处理一些异构一些数据、海量的数据,所以我们在处理层做一个分流,适合传统的这些关系云数据库处理,可以进行定向存储和处理,在这个处理的基础上,我们有一些业务应用及实现这个业务应用,最基础的还是要构建一个支撑的服务器,把这些最低层处理可以进行一个封装,跟这个处理的方式,或者平台,屏蔽掉,对上层应用来说是一个透明的,同时这里面对于大数据挖掘,有很多在后台运行一些工作要做,产生各种大数据预警,或者预测信息,在处理的基础上,我们的应用了。这里理解的可能更多跟公安,交警相关一些应用,包括的交通信息的发布,指挥调度,然后稽查、事故分析等等,在座各位都是专家可以想像这样一套基础架构可以支撑更多更丰富的智能交通的应用。所以我们就汇报一下,博康在大数据交通管理方面,其实我们今天会讲到三部分创新,一部分针对我们前面提到的,图象视频的,智能分析方面的大数据的创新,第二个是在卡口上,稽查布控上,这方面一些创新,第二肇事逃逸等情况,这些在统一大数据平台下,目标构建统一的交通信息平台,提供大数据视频综合应用的支撑和管理能力。
第一个创新,就是基于智能图像交通大数据的采集,大家也理解,从人类事件感知角度,还是从公安角度,图像视频提供最丰富的信息源,我们可以采集的信息很多,包括交通事件,肇事逃逸等等情况,所以我们是在图像视频里面有巨大的价值,我们要做的把这个价值挖掘出来。所以我们在信息的挖掘上面,一方面基于前段的信息采集,是一个综合的感知一个手段,过去我们常说的高清卡口也好,电子警察也好,这些都是前端感知的手段及从这里面可以感知的信息,包括从道路监控角度,了解道路的运行状况,可以自动进行交通事件检测,了解道路上发生一些异常的事件,今天教授也提到了,交通事件的处理,这些信息很多情况之下,可以通过视频分析,另外从高清卡口,自动识别车辆的信息,通过车牌数据就可以产生,包括电子警察,交通违法的一些检测,或者取证,包括对一些公交运行车辆一些监控,都是可
以通过前段智能感知的手段获取,这是我们在前段感知方面,做的一些事情。在后端的感知上面,因为有很多时候,其实大家也理解,说我们监控系统建立很多,很多视频,包括卡口也有很多视频传回中心,如何在这些中心尽可能挖掘更多信息,涉及到对后端交通信息的感知,这里面提取什么呢?提取前段没有感受到的,缺失的信息,包括车牌、车标,两轮车,摩托车识别,这些很多信息可以自动提取、识别,来支持多特征整合的应用。
这里面,有一个例子,我们基于两轮车特征的识别,以图搜图,从肇事逃逸、交通事件角度来说,无论是摩托车、电瓶车是一个事故的来源,过去没办法描述,摩托车套牌看不清,现在通过智能分析的手段,可以依据摩托车一个特征进行以图搜图的搜图识别,这是一个例子,假如这是肇事逃逸的两轮车,以这个车辆为特征,在卡口或者视频里面搜索,获取这个车在另外一个点位出现的情况,就可以把这个轨迹获取,从而为我们业务应用提供帮助。这是另外一个案例,这个一辆车,这个车前排是遮挡的,是光盘遮挡的,这时候没有办法知道这个车的车牌,但是这个车特征明显,这个车的挡风玻璃后面一些特定的装饰物,可以依据这个特征搜索,获取它在其他时间点的车辆的一个图片,因为套牌车不一定随时随地都在这。这个例子是一个高速,高速的时候,过收费站的号牌不挡,过的就挡了,然后超速,这时候电子警察抓到了,因为看不清车牌,没有办法处理的。其实作为高速公路管理也好,作为交警事故逃逸查询一些,很多方面都可以利用,这样的特征,来识别,以图搜图的识别手段,这个是视频智能方面,大数据处理技术可以起到的作用。其实我们这个算法也可以不断地丰富,我们可以面对这种道路拥堵,环境污染各种各样的应用,不断拓展这个性能。刚才说到视频和大数据的关联,就是因为视频源很多,没有大数据是没有办法完成海量的信息处理。
第二个,基于大数据的交通稽查布控。我们如果在这个数据集里面如何实现秒及的一些相应要依赖大数据,如果做精确查询,可以做到毫秒的相应,精准查询大家理解,模糊查询相对比较难,这里面关键的,如果我们想做小时的分析,区域关联性分析,都可以做到秒级相应,如果做套牌车查询,也可以做到分钟级相应,这样的技术支撑手段,对我们的应用,就方便了很多。这样一个面向大数据,稽查布控这样的平台,我们实现了一个架构呢,我们目前来说,是基于这个传统的架构,大家可能也理解这个技术的来源,谷歌发表了若干篇这方面论文,然后全世界一帮非常聪明的人开源化,然后做,我们在这上面进一步做了很多工作,所以我们现在的一个架构,就是我们卡口的这个大数据,无论是结构化,非结构化,半结构化都可以放在这个平台上,然后例如分步式数据库,分步式处理架构实现我们前面说的,基于大数据稽查布控一个数据管理,实现的功能,或者性能就包括弹性扩展,然后高速的计算能力,同时维护性标志又很高,本身这是一个分步式处理架构,我们这个系统里面,没有任何的单一的故障节点,因为是分步式的,设计的时候,所有的数据都有备份,同时从经济性角度来说,扩容维护方便,如果需要数据量大的,只需要买很多很便宜服务器就可以了,这是基于大数据后台系统的架构,前段有很多视频、图像,信息采集源,然后我们对这些特征提取的信息,传回大数据处理集群,如果前段没有采集,在后台也可以进行二次识别分析,在这个基础上,对我们收集到大数据的信息,进行相应的筛选、处理,从而支撑我们各种各样的应用,这样一说的话,我们有一个很强的大数据处理,同时应用的服务器。
从稽查布控来说,很多地方有相应的系统,如果从我们交管角度来说,这是一个三级、四级的架构,我们有省厅、市局、县局,我们如何实现全
省联网,从业务实战角度来说,可能有很多分中心,这个分中心包括市局有自己的中心,我们现在的技术,可以构建一个虚拟代表,虽然数据存在各个分中心,在数据库里面,可以制成一个虚拟大表,如果需要跨中心检索、查询的时候,这个表是统一的,不会感觉到跨了很多市区、县区,过去基本上都是条块化管理,要跨区域检索是非常麻烦,但是从各个区,数据管理还是本地化,写入和存储还是本地化,所以本地的管理功能同样存在,本地的处理同样非常高效,所以这样的大数据架构,实现全省市一个联网。
第三个,基于大数据一个交通情报研判,这里面包括肇事逃逸等等,肇事逃逸这里面也有很多数据要处理,一方面用大数据处理架构,实现全文检索这样的应用,因为这里面文字信息也是这里面非常多一个信息来源,那我们在这个基础上,实现全文检索,这也是非常高效。另一方面线索排查,面临了很多信息的碰撞,比如说综合应用各种各样的信息,因为肇事逃逸,既然是逃逸了,这个信息肯定不完整,所以我们需要综合利用各种信息,通过信息碰撞的手段,获取最终来锁定这些肇事车辆,所以这个线索排查也可以利用大数据的计算架构,比如这里面说的案件排查,这个奥迪车里面有很多信息,片断的信息通过大数据的逃逸分析,最终来获取相应的线索,锁定嫌疑的车辆。前面提到很多大数据,大家理解,但我们到底这个支撑的硬件,或者软件是个什么样的东西,其实这里面,我们就是说,很简单,就是说从硬件上来说,我们就是一个一体化的大数据,就是计算和存储在一起。这里面分成两种节点,一个管理节点,一个数据节点,管理节点完成数据的汇总,管理节点不需要配很多,通常两个就可以大量的任务计算、处理,数据挖掘都是在数据节点上。而数据的节点理论上来说,可以无限地扩展,扩容,从我们实际的应用上来说,对大多数的交管应用可能有几百节点已经不少了,数据节点的扩展是非常方便的事,这样一个大数据一体化的处理设备,就可以支撑我们前面说的各种各样的应用,同时这个是非常高价的,有非常多的优点,我就不展开讲了。所以我们看一下,我们这样子一个大数据处理架构,有技术优势,首先是低成本,因为我们用的一个连接的DPS服务群,高效率,因为我们是一个并行计算,大部分的应用都可以做到秒级响应。这个方案解决的是,传统方案无法管理好的这种非结构,或者异构的数据一些管理和计算和处理。最后我们一点展望,基于大数据的,刚才提了一些例子,大家可以想象,可以预见到,在应用大数据的这种智慧交通的管理,将来的应用会越来越丰富。我的汇报到这,谢谢大家!