首页 > 调查与观点 > 正文

公安大数据变革!你准备好了吗?
2014-01-10 15:23:08   来源:博康   作者:    评论:0

  1、“扑面而来,只争朝夕”记大数据时代背景


  “这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”


  ———哈佛大学社会学教授加里·金


  “忽如一夜春风来,千树万树梨花开。”2012年是“大数据”概念热议的一年,就如一股春风,大数据的讯息从各行各业扑面而来。大数据有多大,让我们看看“互联网上的一天”。互联网上的一天究竟会发生些什么?一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量)。


  如果说一天太长,我们只争朝夕,那么看看一分钟内又会发生些什么。一分钟内,微博Twitter上新发的数据量超过10万;社交网络Facebook的浏览量超过600万。


  wps_clip_image-21474.png


  思科对全球移动数据流量的预测(EB/月)


  注:EB等于1024PB,如下图所示,数据量的计算按1024为进制,从Byte、KB、MB可以一直推算到YB,那是我们无法想象的超级大数据概念。



  根据国际数据公司

  

  大数据的“4V”特性


  公安大数据也是“大数据”的一种,它也具备着大数据的通用特性。


  1、公安数据体量大、增长快,如高清视频录像,1路1个月就将占用2.5TB的磁盘空间,500个探头将轻易突破PB级存储需求;又如卡口数据,几百路卡口1年将产生几十亿条记录,几千路卡口1年将产生几百亿条数据;


  2、公安数据来源非常丰富,种类繁多,结构不一,而其中70%~85%的数据都是图片、视频等非结构化数据,数据检索和关联比对非常困难;


  3、公安大数据成规模存储,其价值密度较低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,急迫需要快速发现价值、提取知识的大数据工具;


  4、警务工作对时间相当敏感,传统的数据挖掘技术在如此大的数据量下无法快速发现数据规律和破案线索,必须要求采用大数据的“1秒定律”,海量数据挖掘分析尽可能的秒级响应。


  “人无远虑必有近忧”,越来越多的公安科技部门发现,基于新的大数据形态,传统的数据库技术已经开始出现疲态,技术瓶颈逐步显现,相关情报研判和案件侦破的响应速度越来越慢,有些应用场景已经完全不能支撑。传统技术就像一艘老旧的航船,无法在大数据的海洋中高效挖掘捕捞有价值的物产,并随时都有倾覆的危险。因此,未来公安科技强警的工作,不仅仅是进一步丰富我们的信息采集手段,也不仅仅是加快我们警务信息应用系统或平台的建设,还需要更加看重公安大数据的整体规划和布局,以主动的心态来迎接公安大数据时代的到来。


  具体来说,公安大数据究竟在哪些方面会遇到挑战呢?


  传统的数据存储和计算体系依靠的仅仅是一套数据库管理系统,以及若干网络存储设备,其存储能力和计算能力在设计建造之初就已经确定,而且极难扩展。这种方式在当今数据急速增长、甚至称为“信息爆炸”的时代,其数据容量、网络吞吐和计算能力的弹性扩展能力上都存在天生的不足,这也是为什么我们听到最多的公安抱怨往往不是数据丢失或者损坏,而是数据增长带来的查询速度变慢的问题,以及数据增长带来的高昂扩容成本和改造复杂性等困扰和困惑。


  大数据的存储计算难,难就难在如何应对高速增长的海量数据,以及如何始终保持高效的计算能力。前文提到,“全世界可获取的数据量每两年就会翻一番”,公安大数据也是如此,我们既不愿意每两年更换一次系统,我们也不可能在系统的建设初期就投入巨大的前期成本来为将来买单,我们需要的是一种能够弹性扩展的存储和计算能力。


 


  2、大数据结构多样化问题


  智慧公安是智慧城市的一个有机组成部分,智慧城市中遇到的各类结构化、非结构化数据,如视频、图片、测量、日志等数据,在智慧公安中也比比皆是,而传统的关系型数据库对非结构化数据的管理能力非常的薄弱,甚至就是不支持,这为公安大数据中的结构化数据、非结构化数据的统一管理带来了困扰。例如,我们把结构化数据放在数据库中心,把非结构化数据以文件的方式放在磁盘阵列中,而当磁盘阵列的IP地址或存储路径发生变更时,数据库和磁盘阵列的数据对应关系就轻易的被破坏了。


  3、大数据整合共享难问题


  公安信息化建设力度逐年加大,其相关信息系统日益丰富,但每个子系统都需要自下而上完成采集、存储、交换、管理和应用模块的建设,数据系统的构建者往往是应用系统的构建者,当数据完成统一存储和管理后,也仅仅由该应用系统的集成商进行使用。在传统方案下,当应用和应用之间需要相互调用数据时,应用系统需要彼此开放数据接口,建立横向的数据交换通道。目前各地公安在本地都有相应的存储设备、数据库,存储各种非结构化(图片、视频)和结构化(特征、属性)数据,如果需要交换这些数据,大量的数据接口维护起来非常复杂,这也将带来非常大的工作量和网络交换压力。


  另外,由于公安机关建立的是部、省、市、县的四级组织机构,各层级需要进行横向的数据交换以外,层级与层级自下而上也需要进行纵向的数据交换。在传统方案下,建设省一级的数据整合应用系统时,往往是将各地市的海量数据汇总到省厅数据中心,并为此进行相应的骨干网链路扩容、机房软硬件扩容。在大数据时代,数据增长是无限的,而链路扩容和机房扩容是有限的,数据全部向上汇聚后再进行应用显然也非长久之计。


  1、“数据在手,决胜千里”记公安大数据的思考和方向


  在美国,“计算机统计”现在已经演变成一个专业名词,特指一种警务管理模式。


  1970年,杰克·梅普尔加入纽约市交通警察局成为一名地铁线上的警察。当时,地铁线上的抢劫案非常频繁,地铁警察被认为是纽约最危险的工作之一。在十几年的街头警察的经历中,他开始研究地铁抢劫案的发生规律。梅普尔在办公室的墙上挂上了几百幅地图,用不同颜色的大头针来跟踪地铁抢劫案发生的时间和地点,分析其中的原因和规律。预测第二天可能发生抢劫的时间和地点,进行伏击。梅普尔后来晋升为派出所所长,他就采用这种方法来部署和调配他所管辖的警力。他的办公室挂满了地图,他的同事戏称为“地图墙”,他却称之为“预测未来的图表”。这种方法在全市警察局进行了推广。


  第二年,纽约市的地铁抢劫案下降了27%。


  之后这项技术在纽约警察局各个业务领域推广,1995年纽约的犯罪率应声而降,凶杀案由1994年的95420宗下降到72679宗,到2009年,凶杀案更是下降到466宗,创下了50年的新低。这个指标,已经使纽约跻身全美最安全的大城市行列。


  纽约的巨大成功,很快引起了其他地方政府和联邦司法部的注意。90年代,全美国三分之一的地区引进了这种管理模式。


  “运筹帷幄之中,决胜千里之外。”如何才能解决公安大数据的问题,这是我们需要面对的问题。而要突破公安大数据的问题,就必然要考虑前文提及的“大数据存储计算难问题”、“大数据结构多样化问题”和“大数据整合共享难问题”。


  目前,大数据的解决方案包括很多,比如Hadoop、NoSQL、Redis、MangoDB……等等,但是综合各种大数据的解决方案,我们认为Hadoop是目前业内最好的技术。2012年12月,中国北京“Hadoop与大数据技术大会”的胜利召开,也意味着大数据和Hadoop技术已经紧密的结合在一起(往年都是分别召开“大数据”和“Hadoop”两项IT界的技术盛会)。



  沿着Hadoop的技术架构往下思考大数据的解决之道,可以有以下启示:


  第一,大数据存储难题的解决之道


  “我们怎么从如此多的数据中高效提取有用的信息?”,“当数据增长了,我们如何以最小的代价、平滑的、快速的扩展系统的承载能力?”,面对这两项大数据的基础应用问题,Hadoop给出了她的答案:


  1、高效率:


  Hadoop集群可以在多台PC服务器上分布存储、并行计算,相比传统的单一数据库服务器,能够更高效的帮助我们在海量数据中找到有用的信息,而且并行的PC服务器越多,处理速度越快。


  2、成本低:


  Hadoop可以通过普通PC服务器组成的集群来分发以及处理数据,每台设备的硬件成本都是相当低廉的,而且每个节点都是运行在免费的开源操作系统上面,这比传统的高端小型机和大型网络存储设备具有更高的成本优势。


  3、弹性扩展:


  Hadoop从设计之初就是为了利用新节点的优势进行透明扩展,当系统能力不足时,简单的添加新的PC服务器,即可完成精确的系统扩容。每一台PC服务器的添加,都会同步的提升整个系统的存储能力和计算能力,因此我们可以按需以最小的代价,平滑的、快速的扩展系统的承载能力。


  4、高可靠:


  Hadoop集群能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务;众所周知,网络化的整体可靠性将远远高于单机可靠性,支撑Hadoop集群可靠性的PC服务器可多达几十上百台,我们再也不会遇到双机备份的核心设备整体宕机的可怕后果。


  相比于Hadoop的向外扩展(随着负载的增加将数据库分不到多个不同的主机上),多年来关系型数据库(比较典型的如Oracle、Mysql、DB2等等)还一直依赖于向上扩展(随着数据库负载的增加购买更大的数据库服务器)。因此当数据系统的存储或计算资源不足时,只能换设备,而无法做到加设备;无论是高昂的成本,还是升级换代所需的停机时间,对高速增长中的大数据系统来说都是非常不利的。不断的不停机叠加设备可以是常态,但不断的停机更换设备谁又能忍受呢?


  第二,大数据结构多样化的解决之道


  与关系型数据库相比,Hadoop在数据模型的限制这一点上要宽松得多,或者完全不存在。Hadoop分布式数据库的“键/值”存储与文档数据库允许应用在一个数据单元中存入它想要的任何结构,并且本身就是一类支持版本跟踪和列聚类的高维数据库,通常也允许创建新的字段而不致带来麻烦。在大量的生产环境数据库中,变更管理是一个非常棘手的问题。哪怕是对数据模型做很小的变更,在关系型数据库中也需要进行小心的管理,甚至还需要停机或降低服务级别;而Hadoop的数据字段动态扩展能力就使得这一个过程非常灵活和容易。由于是列式数据管理,Hadoop从超宽表中提取数据和访问数据的效率也更高。


  另外,传统数据库或数据文件存储模式,对非结构化数据的高速处理也有相当大的瓶颈。例如,在海量的公安视频图像中“以图搜图”定位某类嫌疑目标,由于需要通过大量的二进制数据扫描和极其复杂的特征相似度度量计算;在传统的架构中,大数据的1秒定律几乎不能实现。而使用hadoop架构,只需编写一个并行计算程序,然后把数据丢进hadoop集群,让hadoop启动并行计算即可。hadoop计算框架会自动的高效的使用集群中的多台服务器的计算能力,完成并行搜索。由于Hadoop集群的计算能力是基于集群节点数量呈线性增长的,只要集群规模足够大,秒级响应完全可以实现。


  由此可见,公安数据面临的结构多样化问题在Hadoop这里也找到了满意的答案。无论从非结构数据的可管理性、可变更性和高效计算能力上,Hadoop都比传统的关系型数据库和文件索引机制更加优越,也更加适合。


  

  

  第三,大数据整合共享的解决之道


  面向公安大数据横向交换和纵向汇聚的困难,我们可以引入Hadoop的分布式数据管理技术,让数据分散开来存储和计算,但在逻辑上进行统一管理和调度。各种符合大数据定义的海量数据统一进入Hadoop公安大数据平台,通过Hadoop的并行计算架构和弹性扩容能力予以支撑,并对外提供统一的大数据访问服务。由于在大数据平台内部,数据天然就是融合的,自然消除了海量数据的跨部门、跨应用交换问题;并且借助Hadoop的分区虚拟大表技术,省厅用户甚至本地不存储数据也可以进行全省跨地市的统一数据查询和应用,无需各地单独规划、制作接口,提升了标准化程度,简化了维护工作。


  综上,无论是横向的数据整合,还是纵向的数据整合,都可以围绕多层级的Hadoop大数据平台展开,运用Hadoop自身的分布式存储和并行计算能力,从一个面上来支撑公安机关众多的信息系统建设和数据融合共享,大大减低了公安大数据的整合难度,提高了建设效率。

 


 

 

 

分享到: 收藏

相关热词搜索:公安大数据

上一篇:盘点2013重庆:交通这些收获……
下一篇:仇保兴:“智慧城市”只是营销概念