首页 > 调查与观点 > 正文

杨东援大数据系列:重视大数据的可信度验证
2016-04-25 18:06:56   来源:www.ladysslipper.com   作者:    评论:0

  大数据分析的成果是建立在对数据进行相关统计分析、聚类分析等工作的基础之上,数据质量自然成为研究者不得不关注的问题。由于从相关系统中提取数据过程中存在多方面的干扰因素,因此数据质量并非一般想象的那样可以得到保障。在没有验证数据可信度的情况下仅凭直觉判断分析结果的可信度,很难经得起严谨的技术推敲。

  例如,基于移动通信数据推算居民的居住地,从原理上说非常简单,即寻找居民晚上出现频率最高的空间位置。但是在图1所示的数据分析结果中(随机抽取上海市1496人的1个月移动通信信令数据),如果简单设定在同一区域内1日晚间停留时间大于某个阈值(本分析中阈值分别设定为5、5.5、6、6.5、7、7.5小时)的天数(图中横坐标所显示的数值)作为居住地的识别标准,可以看到识别率并不像我们所想象的那样高。

  

图1上海市移动通信信令抽样数据居住地识别情况

  对于有些研究报告依据3-5天(甚至更短)的移动通信数据,宣称提取了居民的居住地和工作地的结论,在没有看到详细分析结果的情况下,我本人是深表怀疑的。大数据分析中一件非常令人头疼的事情,就是许多看来在逻辑上完全合理的条件,在实际数据中却呈现出完全不同的情况。

  因此,对于大数据分析的成果,如果不能提出有效的证据说明其可信度,将会制约其在重大决策分析中的应用。这是由于非直接定制数据会存在多种因素的干扰造成数据失真。因此,进行数据的可信度验证是一项非常重要的基础性工作。

  在数据验证中的一种方法,使采用相互独立的数据源数据进行校正检验。例如为了研究居民活动空间与作为城市交通骨架的轨道交通系统之间的关系,利用移动通信轨道交通基站中留下的电子脚印,提取了居民使用轨道交通系统的信息,问题在于如此提取的信息如何证实其可信度。

  在图2中显示了上海市部分轨道车站基站所检测到的用户数量分布情况,很自然产生的质疑是检测率问题。为了回答这种质疑,通过城市轨道自动售检票系统(AutomaticFareCollection,AFC)对移动通信数据中提取信息的可信度进行验证,以检验据此产生证据的真实性。

 
 

       注:红色表示检测到的人数较少,最小值为0;绿色表示检测到的人数较多横坐标为日期,纵坐标为相应站点基站编号

 图2上海市部分轨道车站基站检测用户人数情况
 

  采用上海市移动通信2011年9月数据和相应的AFC数据,对于上海道路内环线以内第一象限中的19座轨道车站进行技术检验,其中普通中间站15个,换乘站4个(参见表1)。

表1进行技术验证的轨道车站情况

  









 

       从检验结果来看,虽然存在一定的误差,但是仍然可以获得满意的检测效果。在图3中,显示了周边以居住用地为主的鞍山路站、工作地集聚的新闸路站、毗邻七浦路市场的天潼路站,以及地处商业街的南京东路站的数据检测情况。图中上侧的曲线是移动通信数据检测的进入车站人数随时间变化情况,下侧曲线为AFC数据检测的进站人数变化情况,阴影部分为两者之间的误差(偏向数值大的一方)。

  在上述几个车站中,天潼路站由于出入口直接与地下商业设施连接,因此表现出移动通信数据所检测的人数明显偏大的特点。

  通过上述技术验证,证实了移动通信数据检测用户使用轨道信息的可信度,从而消除了使用该类数据进行居民活动空间分析的疑虑。

  交通大数据应用主要是政府决策,大数据分析中重视各类数据的可信度检验方法,将保证大数据分析健康推进。

 

分享到: 收藏

相关热词搜索:可信度 大数据

上一篇:美研究表明:公路最高限速会导致更高死亡率
下一篇:李欣:在乱花渐欲迷人眼的交通大数据时代,我们何去何从