关于《我为什么要强烈反对:对着数据做数据的研究》的讨论 - 调查与观点 - 智慧交通网 ITS114.COM|中国智能交通领先的门户网站
  • 关于《我为什么要强烈反对:对着数据做数据的研究》的讨论

    2018-07-05 10:20:06 来源:悠闲老头看交通 作者:杨东援 评论:
    分享到:

    前两天公众号所发出的推文《我为什么要强烈反对:对着数据做数据的研究》,引发了很多有益的讨论。交通大数据分析研究的水面过于平静,激起点波澜是好事情。看了大家的观点,感到有必要谈一下自己的想法。

    首先,作者所提出的讨论问题的框架(“定义-> 数据源->计算方法-> 扩样方法-> 数据校核”)是数据分析的讨论模式。这并非是说大数据分析不需要这方面的工作,由于大数据分析是建立在基于数据的统计分析基础之上,必要的数据质量评估和数据修复是前提和基础,但远非全部。在大数据分析中采用“是否获得确切的结论”,而不是采用“是否获得有价值信息”的方式讨论一些局部研究工作是不恰当的。

    同时需要注意的是大数据分析要尽可能避免“扩样”,这一方面是大样本分析与小样本分析具有本质性的差异。小样本方法也称为“精确方法”,因为它往往是基于有关统计量的精确分布,小样本方法的统计特性,如显著性水平、置信系数等,往往是精确而非近似的。大样本方法则被称为“渐近方法”或“近似方法”,因为它是基于统计量的渐近分布,且有关的统计特性只是近似而非精确的,因而产生了近似程度如何的问题。更为重要的是,大数据具有很强的“盖然性”特征(盖然性在《现代汉语词典》中的解释是:有可能但又不是必然的性质)。由于大数据分析所使用的数据资源并非针对分析目的的“定制数据”(就如移动通信信令数据并非专为空间活动检测的数据),其中的属性判断涉及“否定-模糊-肯定”三个值域,相当部分个体的属性判断是落在“模糊”区域的。在职住空间联系结构的判断中,就涉及对于是否就业者的判断。缺乏个体社会属性信息情况下,仅仅根据用户空间活动特征必然存在相当部分难以判断,而试图获取个体社会经济属性则是一条不能逾越的红线。采用传统数据分析方法进行扩样,强行区分将中间难以判断部分人归入是或者否的范畴,反而会造成可信度(大数据分析中应该采用可信度而非精度)方面的问题。因此,交通大数据分析一般应该仅使用“否定”和“肯定”部分所提供的信息。当然这种信息是不完整的,这就是为什么我一直强调大数据分析所获得的单项证据绝大多数为“间接证据”的原因。认为这种不完备证据不具有分析价值是严重偏离了大数据分析的初衷,大数据分析中恰恰非常强调低信息密度数据。大数据分析最为重要的一点,是充分利用各种有价值信息,多层次、多角度、连续地观察研究对象,对具体数据分析的任务应定位于“是否可以获取有价值的信息”,而非“获取完备信息”(直接证据)。交通大数据分析研究并非不知道信息缺陷,而是不放弃不完备信息(间接证据),力图通过“证据链”,采用基于证据的“证-析”方法解决问题。作者所批评的“职住空间联系结构”研究工作,纠结于400万确定个体以外部分占有很大份额,是误解了相关的研究目的,自认为该方面的研究是力图通过移动通信信令数据来确切了解城市中的各种职住分布与职住空间联系,但是该项研究主要目的是识别“职住的空间联系结构”包括哪些类型(至于作者所提出的推文中没有讨论数据具体处理的质量分析问题,我已经建议作者应该去看该硕士论文,而不是公众号的短文)。事实上,对于交通角度的研究工作来说,如果为了研究当前通勤交通流量是完全没有必要绕道“职住”关系这个圈子。采用移动通信信令数据研究“职住空间联系结构”特征的工作,并非识别每一个具体“职住社区”的空间位置和范围,主要是希望通过移动通信信令数据判断城市中的职住“社区”(此社区并非城市规划中的“社区”,而是复杂网络中所定义的社区)结构,以及识别城市中具有广泛意义的职住的空间联系关系究竟有几种类型,以完成宏观层面的问题结构判断,为相关案例剖析和深入调研方案打基础。作者混淆了大样本分析与小样本分析的差异,也没有真正理解“大数据分析”与“数据分析”的不同,也不知道这部分工作是在“宏微观嵌套分析框架”下进行的,因此文中的这部分结论我是完全不赞同的。

    面对大数据,传统统计意义上的数据校核往往是难以实现的,这正是李国杰院士提出在大数据科学中需要研究相关统计学新问题的原因。仍然以职住空间联系结构研究为例,移动通信信令数据的基础是移动通信基站服务范围,在市域范围内基站服务范围差异很大,中心城区内是2-300米的半径,而外围地区则达到数公里乃至10公里左右,也就是说其空间坐标参照系是非均匀的,这意味着相当部分定位数据横向是不可比的。即使采用质量更好的数据,所确定的个体位置也是具有很大不确定性。想要通过尽力提升数据质量,获取理想数据来完成数据分析工作,仍然没有摆脱传统数据分析的思维方式,有可能遇到难以克服的障碍。如果把视野扩展到交通大数据分析中的“舆情分析”,通过语义分析技术从网络中提取的舆情信息,更加不是传统数据检验能够完成可信度评估的任务。交通大数据分析探索的是完全不同的另外一条研究路线:挖掘不完备数据资源的价值,通过将间接证据组合成为证据链来,基于证据链通过群决策完成问题识别与判断。

    作者的题目强调批判“对着数据做数据的研究”,有可能混淆了技术应用研究与探索性科学研究的界限。城市交通已经进入“物理-信息-社会”三元空间的时代,感知网、物联网等技术发展使得数据绕过“人”而直接产生信息,信息空间有很强的独立性。在此背景下交通大数据分析的任务并非是“利用更多的数据资源去对已有经验外延”(这应该是交通数据分析的任务),而是充分利用各种信息,尽力发现我们所不知道的问题,以更好地应对具有复杂适应性特征的城市交通演化。为此,必须展开大量的探索性研究工作,从并不完备的海量数据中提取有价值信息的方法,就是其中的一部分。缺少了这部分工作,根本谈不上在大量“间接证据”的基础上构建“证据链”,进而完成城市交通的“情报决策”。但是要注意“对着数据做数据的研究”与“仅根据不完备数据分析下结论”是两个完全不同的概念,作者似乎没有对此加以区分。前者是科学和技术发展需要的(再次强调由于技术的发展,信息已经成为一个相对独立的空间),后者是错误的。就像不能认为采用传统数据分析方法进行规划等方面的问题研究是错误路径一样,也不能认为在一定需求背景下展开针对数据本身的特征提取和情报决策研究是钻牛角尖。前者是采用数据分析技术的应用研究,后者是构建交通大数据分析的理论与方法的研究,任务不同。

    交通大数据分析技术研究必然会有波折起伏,在这个过程中更多观点的讨论是非常必要,只有这样才能够真正完成科学和技术的升华。对于一个远谈不上成熟的领域,在学术上还是很有必要区分“数据分析”与“大数据分析”的差异,以避免引起混乱。


  • 关键字: 交通大数据
  •    责任编辑:梁兰春
  • 每周新闻精选

  • 关于我们
  • 联系我们
  • 广告赞助