杨东援大数据系列:重视大数据的可信度验证
2016-04-25 18:06:56 来源:www.ladysslipper.com 作者: 评论:0
大数据分析的成果是建立在对数据进行相关统计分析、聚类分析等工作的基础之上,数据质量自然成为研究者不得不关注的问题。由于从相关系统中提取数据过程中存在多方面的干扰因素,因此数据质量并非一般想象的那样可以得到保障。在没有验证数据可信度的情况下仅凭直觉判断分析结果的可信度,很难经得起严谨的技术推敲。
例如,基于移动通信数据推算居民的居住地,从原理上说非常简单,即寻找居民晚上出现频率最高的空间位置。但是在图1所示的数据分析结果中(随机抽取上海市1496人的1个月移动通信信令数据),如果简单设定在同一区域内1日晚间停留时间大于某个阈值(本分析中阈值分别设定为5、5.5、6、6.5、7、7.5小时)的天数(图中横坐标所显示的数值)作为居住地的识别标准,可以看到识别率并不像我们所想象的那样高。
图1上海市移动通信信令抽样数据居住地识别情况
对于有些研究报告依据3-5天(甚至更短)的移动通信数据,宣称提取了居民的居住地和工作地的结论,在没有看到详细分析结果的情况下,我本人是深表怀疑的。大数据分析中一件非常令人头疼的事情,就是许多看来在逻辑上完全合理的条件,在实际数据中却呈现出完全不同的情况。
因此,对于大数据分析的成果,如果不能提出有效的证据说明其可信度,将会制约其在重大决策分析中的应用。这是由于非直接定制数据会存在多种因素的干扰造成数据失真。因此,进行数据的可信度验证是一项非常重要的基础性工作。
在数据验证中的一种方法,使采用相互独立的数据源数据进行校正检验。例如为了研究居民活动空间与作为城市交通骨架的轨道交通系统之间的关系,利用移动通信轨道交通基站中留下的电子脚印,提取了居民使用轨道交通系统的信息,问题在于如此提取的信息如何证实其可信度。
在图2中显示了上海市部分轨道车站基站所检测到的用户数量分布情况,很自然产生的质疑是检测率问题。为了回答这种质疑,通过城市轨道自动售检票系统(AutomaticFareCollection,AFC)对移动通信数据中提取信息的可信度进行验证,以检验据此产生证据的真实性。
注:红色表示检测到的人数较少,最小值为0;绿色表示检测到的人数较多横坐标为日期,纵坐标为相应站点基站编号
图2上海市部分轨道车站基站检测用户人数情况
采用上海市移动通信2011年9月数据和相应的AFC数据,对于上海道路内环线以内第一象限中的19座轨道车站进行技术检验,其中普通中间站15个,换乘站4个(参见表1)。
表1进行技术验证的轨道车站情况
从检验结果来看,虽然存在一定的误差,但是仍然可以获得满意的检测效果。在图3中,显示了周边以居住用地为主的鞍山路站、工作地集聚的新闸路站、毗邻七浦路市场的天潼路站,以及地处商业街的南京东路站的数据检测情况。图中上侧的曲线是移动通信数据检测的进入车站人数随时间变化情况,下侧曲线为AFC数据检测的进站人数变化情况,阴影部分为两者之间的误差(偏向数值大的一方)。
在上述几个车站中,天潼路站由于出入口直接与地下商业设施连接,因此表现出移动通信数据所检测的人数明显偏大的特点。
通过上述技术验证,证实了移动通信数据检测用户使用轨道信息的可信度,从而消除了使用该类数据进行居民活动空间分析的疑虑。
交通大数据应用主要是政府决策,大数据分析中重视各类数据的可信度检验方法,将保证大数据分析健康推进。
评论排行
- ·各省份卫星定位平台备案运营商的名单(...(4)
- ·访深圳市锐明视讯技术有限公司 市场总...(3)
- ·高速公路迈向大数据存储应用(3)
- ·关于征集“工信部V2X技术应用与频率需求...(3)
- ·立宇泰车载驾培终端定制服务(3)
- ·深圳泰首智能推出“车载移动电子警察”系统(3)
- ·访苏州科达科技股份有限公司智能交通方...(3)
- ·大同市区道路交通监控系统试运行(2)
- ·第七届中国国际道路交通安全产品博览会(2)
- ·2015中国智能车未来挑战赛全纪录(2)
- ·gps道路与交通日常巡查管理系统设计方案(2)
- ·车货匹配APP的坑——一位物流人的吐槽(2)
- ·2016中国车联网大会暨第十一届中国卫星...(2)
- ·大隐隐于市——盘点“最严交规”下的交...(2)
- ·三河市交警大队大气重度污染交通限行提...(2)
- ·十年探索路,一朝翔迅飞——访西安翔迅...(2)
- ·东莞长安镇“绿波带”智能控制交通信号...(2)
- ·iData智能停车收费管理系统解决方案浅析(1)
- ·阜阳明年将实现出租车信息化管理 对服...(1)
- ·天泽信息入股南京宜流旗下网站运策网(1)