11月23日,由中国智能交通协会、国家智能交通产业技术创新战略联盟主办的2017第十二届中国智能交通年会“人工智能+交通”创新发展论坛上,银江股份研究院总工李建元博士发表《打通数据通道,释放数据智能》的演讲,本文为速记整理,未经演讲者本人审核。
银江股份研究院总工 李建元 博士
当前是大数据时代,但我认为社会不缺乏大数据分析的团队,高校和科研院所在做深度学习技术各种神经网络、机器学习研究非常多,同样不缺乏人工智能的团队,更不缺乏应用的场景。到头来我认为最缺乏的还是数据,尤其是高品质的数据。有人说政府手里是拥有大数据的,甚至有一种说法,北京政府的大数据是阿里巴巴数据的十倍,其实这个讲法我表示怀疑。还有一个窘境是大多数的政府部门并不清楚自己有什么数据,更不清楚如何深度分析和挖掘数据,所以企业需要和政府一同承担起使命。今天分享的有两点,第一点是如何打通信息孤岛,生产高质量的大数据。第二点是,如何做好开发政府大数据的应用,助其成功落地。
所谓成功落地呢,我不认为把大量的数据聚集在一起,做了很多的可视化和展现,就是落地了,这仅是一个初步价值,并没有获得成功落地。
大数据一词源于20世纪80年代美国的未来学家阿尔温托夫勒在《第三次浪潮》中盛赞“大数据是第三次浪潮的华彩乐章”,国家政府的信息化主要的时间段也经历了二三十年的时间。华彩乐章指音乐当中最为华丽和亮丽的部分,其言外之意就是大数据是信息化发展过程的一个非常高级的阶段。反观我们政府部门拥有的数据,整个信息化建设的情况,我们不难发现称不上是什么华彩乐章,也谈不上美妙,相反见到的是信息孤岛丛生,数据烟囱林立,部门壁垒深厚数据流通不畅,管理制度不健全等复杂问题。这样的现状值得我们数据人深思,帮助政府改变现状,是我们的使命。
大数据至今为止没有一个确切的定义,人们更加关注大数据驱动的应用是否带来显著的业务进步,也就是价值论。从数据获得的难易程度来讲,我个人把大数据理解为这样三类,以多著称的大数据是纵向大数据,这是相对容易获得的,稍微难一点的称为横向大数据,就是以全著称的,虽然每一样数据不是很多,但是比较比较全面,比如说在公安侦察大数据里面可以用来做侦察,这个是数据之间的关联性非常好。体量又大,种类又全,数据之间又相关,数据有规范的数据,就叫高品质的大数据。我们打通数据通道的目标要靠沉淀高品质的大数据。
传统的信息化秩序,往往都是面向单一的业务应用建设很多的感知系统、业务系统等等,常见的业务缺乏标准,目前很多的业务标准在慢慢地建立起来,数据也缺乏标准信息系统的原数据缺乏严格的管理,信息的流通采用点对点的方式,会引起很多语义不一致的现象。
政府大数据基本上从2014、2015年开始到现在,1.0版的消除信息孤岛的观点是做一个大数据分析平台,把各个信息系统的数据能够抽取、整合到大数据分析平台上,进行分析决策,其实这是远远不够的,目前正在落地的是2.0版的双向数据通道的打通解决方案,要让信息系统连接成一个大数据系统,而不是做一个大数据平台把它们装进去,信息系统连接成大数据系统,让数据在大数据系统当中能够有序、自由的流动。不仅可以从左向右流,也可以从右向左流,包括数据加工以后的分析的结果,包括数据应用当中的反馈全部都应整合至该平台。我们研发了一个大数据治理的解决方案,就嵌在了1.0的政府大数据的解决方案上面,现在嵌在中间,首先提供一个数据动态的整合平台,随时使得所有的信息系统的数据保持一致。针对各个行业梳理或者是继承或扩展梳理行业数据标准,然后基于动态整合平台,打造完善的数据的资源库,把数据整合成分门别类的人员、机构、事件,分析结果等信息,将其规范成公共数据资源库,公共数据资源库上面的数据,既来源于信息系统,又把原来的信息系统没有的数据共享于它,即取之于民,用之于民。公共资源的数据库可以挂在信息服务平台上,采取了信息交换枢纽平台,每一个政府部门都应该有信息交换枢纽平台作为信息统一的出入口。另外就是基于资源库做一个数据资产管理系统,帮助政府部门理清数据家底。这也是打通双向通道重构信息化秩序技术上的方法。
从管理机制上也会有配套的方式,目前已经初见成效,双向数据通道打通,数据可以自由的在这里面流动。
政府大数据应用绝不会做了可视化的图表就落地,这些只是初步的价值,正因为政府大数据落地面临着两个挑战,第一个就是客户和用户的认知的过程和水平是需要不断演进,需求是不断升级和变革的,所以要采取渐进式引导的方式去做。第二,大数据形成的初步价值,不一定就可直接使用,需在应用当中追踪评估,最后反馈给大系统进行优化,并且持续迭代,因此释放政府数据价值,使得它真正落地。应采用精益思维的管理方法,采用较小的投入聚焦于小而重要的目标,采用小步快跑,协同迭代。
光有方法论是不够的,除了有方法论,还要有技术,我们研发的大数据应用开发平台,目的主要是降低门槛,2017年大数据人才的缺口依然有100万,我们要做的就是少量的大数据人才把技术封装掉,让普通的人员也可以用,这个时候我们就拥有了强大的大数据开发团队,降低了门槛,快速的响应客户的需求迭代。
此外,还开发了大量交通数据的模型和算法,其中确实还有很多的实际应用,比如说通过卡口采集的交通数据,车辆数据的分析,可以发现卡口点位实际上是有故障的。但这完全是两码事,采集是车辆数据,发现的是设备故障。套牌车问题其实并不简单,它面临这样的问题,就是从错误的数据里面找对的信息,尽管整个城市车牌平均识别率是97%,但是3%就可能让我们遭遇几百万的识别错误,若通过简单的车牌比对,发现假牌、套牌会有很多问题,故可以采用不确定的概率算法从错误的信息当中抽取正确的信息。通过多元信息,进行交通异常的主动识别、主动检测,能够把视频巡查这些交警的常态化的工作给它革新成为视频核查,大大的减少工作量。当然很多模型也是缺乏验证反馈和优化的条件,所以还需要进一步的求证和落地。比如说我们基于数据的关联性、流量流速的关联性可以发现有机会利用关联性,这个需要进一步的求证。
很多研发的模型看似有用,但实际未必,需要该领域专家选择性地进行甄别,或者进一步的参与迭代,最后实现人机汇智,智能增强,人工智能智能时代已经到来,人工智能离不开大数据,更离不开这种高品质的大数据,如果利用质量不高的大数据也做很难做出精准分析与判断,人工智能需要的高品质的大数据,作为数据领域的工作者,我们愿意在这个领域继续研究钻研,做释放数据智能的清道夫,我们相信对于数据人而言这其实就是使命。