首页 > 调查与观点 > 正文

高文院士:多媒体大数据分析的三大挑战及解决
2016-05-23 15:38:03   来源:www.ladysslipper.com   作者:    评论:0

  

  在这个信息爆炸的时代,社会的各个领域产生了大量数据,把数据挖掘出来,把 大数据用好,可以对城市生活带来很多变化。然而,在 智慧城市建设中,关于 多媒体的大数据存在许多挑战。

  中国工程院院士、北京大学教授高文在2016中国云计算大会上表示,在智慧城市建设中,多媒体大数据分析有三个比较大的挑战,分别可以通过三种对应的技术来解决。

  使用多媒体大数据的三大挑战

  现在为了城市的安全和交通管理, 监控视频已被大量使用,国内很多城市都安装了大量的摄像头,随着时间的推移,可能还会增加。有一种说法认为,一个智慧城市里安装摄像头的个数应该是人口的二十分之一到五分之一,一千万人口的城市,就应该有五十万到两百万个摄像头。

  然而,监控视频虽然可以给我们提供大量的信息,但要想把这个大数据用好,还存在几个挑战,主要体现在以下三个方面:

  1、存不下。众多的摄像头产生了大量的数据,因为数据量太多,我们的编码算法又做不到有效压缩,目前只能通过往返覆盖的方式覆盖掉,造成很大的浪费。我们希望找到更好的压缩算法使得数据被有效压缩,尽量保存下来。然而,现在技术的增长已经跟不上数据的增长速度,要想满足存储数据的需求,只能多投钱扩带宽、做海量的储存器。所以,我们需要考虑提供一个方案,在技术上减小花钱的压力。

  2、看不清。计算机能看到什么需要靠识别, 模式识别算法要求高清晰度。然而,现在的摄像头难以保证清晰度,人脸等数据难以识别。

  3、找不到。在几十万个摄像头中,每一个摄像头的物理参数都不一样。可能A摄像头和B摄像头拍摄相同的东西,用计算机识别出来会不一样。产生的问题是,同一个人在A摄像头被拍到后,再来到B摄像头的拍摄范围,就无法再找到,导致无法完成跨摄像头搜索。

  解决问题的三种对应技术

  高文表示,压缩问题可以通过AVS2去应对;模式识别问题可以通过支持感兴趣区域、面向监控的AVS2解决;视频搜索、跨摄像头的搜索问题可以用CDVS标准去解决。

  1、针对存不下的问题,技术上要从提高压缩能力,用更新的编码技术去解决。高效视频编码就是解决存不问题的直接技术手段。为什么视频是可以压缩的?实际上,数字视频是一个数字图像序列,数字图象表现数字信号,数字信号是可以被处理的。分析发现,在数字图象序列里,有时间冗余、空间冗余、感知冗余、知识冗余和编码冗余等,把这些冗余挤掉,就能有效的压缩视频。

  我们可以针对不同的冗余采用不同的方法来处理。我们可以通过矩阵运算或矩阵分析找到视频编码的上界,即其可被最大压缩的程度。对于一个2000×2000尺寸的图像,能压缩2000倍,这是很大的压缩能力。但实际上,现在的技术对于2000×2000的图像,能做到600:1的压缩,在技术上还有很大的压缩空间。怎么做?这需要采取各种不同的技术。

  从1993年到2013年,先后出现了三代编码技术,每一代的性能都会比之前提升一倍,按照这样的预测,到2023应该有第四代编码技术,能力是压缩六百分之一。我们可以把这个技术上的走向规律,称为编码领域的摩尔定律,十年性能翻一番。

  编码技术从第一代、第二代到第三代,一直在使用同样的编码框架结构,主要采用正向变换、预测、商编码这三种数学工具,这三种工具混合在一起就使得编码效率不停地提高。

  哪种工具贡献大一点?高文表示,分析发现,预测工具可以得到更高的编码效率,为了寻找更高的编码效率,就应该把重点放在预测工具上。

  对于视频监控,他们提出了一个背景 建模技术,用背景建波来把背景的模型算出来,以后做预测时,用这个模型做计算可以极大提高效率。从性能上来说,刚刚完成的AVS2比上一代提高了1倍,对于监控视频来说,AVS2已经跨入下一代了。

  2、识别不准的问题。产生的编码和识别完全平行,导致互不通气。我们通过背景建模技术,可以在编码时把前景测出来,可以进行分析、识别、提取,编码识别就可以做到。

  监控视频码流由背景和前景两个码流构造成。背景码流,就是一个背景针,前景是动的,是要处理、识别、跟踪、分析的东西,只要对前景做好表达,任务就可以做好。基于这样的想法,AVS2支持对感兴趣的区域提取、对于对象的表达、对动作和行为的检测。基于这样的构建,可以很好的识别编码模型,根据对象之间的关联,以及失去关系可以构造时间。这样就可以在编码的同时做很多运动的分析、目标的检测、对象的行为分析等。用这种工具,我们可以在序列里轻松测出前景。

  3、找不到的问题。尽管有了视频,可以做一些识别,但跨摄像头还有一些问题。高文表示,为解决问题,他们使用了CDVS,做到描述能力较强、紧凑、检索较快、整个特征较规范化。CDVC有特征点的检测、特征的选择、描述值的压缩和聚合、最后未知点的压缩,最后构造成基于描述的视频检索,里面最核心的就是兴趣点提取和表述。

  经过改进后,高文团队把这特征分成局部和全局。在一千万幅图像库上面,CDVS只需要500毫秒就能完成搜索,在英特尔 CPU上面就可以做到。所以如果面向智慧城市做这样的任务,实际上并没有太高的标准。

 

分享到: 收藏

相关热词搜索:高文 大数据分析

上一篇:关积珍:城市停车问题需要综合治理
下一篇:国内的BRT为啥跑起来不像国外那么快?