• 快捷搜索
  • 全站搜索

人类的有限理性与大数据分析

2015-11-24 17:38:46作者:中国邮储银行天津分行副行长 朱大鹏编辑:金融咨询网
大数据分析是人类社会进步的代表之一,但就像任何好的工具一样,它有它所擅长的地方,也会其局限的地方。作者认为,以人类有限理性为前提,客观看待大数据的作用,能够更好地发挥大数据的作用。

大数据分析就是利用计算机技术对数据的整体进行分析,主要是通过数据挖掘实现描述和预测两大目标;即在人们可能不知道“为什么”的前提下,了解到事物的“是什么”。一般认为,大数据有三个特点:全数据模式而不是抽样样本;效果比绝对精确更重要;强调相关关系而不是因果关系。

  对于大数据的应用范围,出现了两种方向的判断。一种判断可称作“技术左派”,认为大数据分析是无所不能的,“万物皆数据”,只要有数据,从商业、体育,到医疗、军事领域,都可以分析并诊断问题和解决问题。另一种判断可称作“大数据怀疑派”,认为大数据只是人类基本的分析、判断工具之一,最终还是要依赖于人类的决策,而且感性决策依旧发挥着重要作用。作者认为,以人类有限理性为前提,客观看待大数据的作用,能够更好地发挥大数据的作用。

  有限理性(bounded rationality)指的是人类认知能力并非无限这个明显的事实。“有限知识这一问题依然是人类存在的核心苦恼和稀缺的构造性原因”。诺贝尔经济学奖获得者西蒙认为,人的理性要受到以下三方面的限制“每一备选方案所导致的后果的不确定性,不完全了解备选方案,以及必要计算无法进行的复杂性”。大数据技术若能有效解决这三个问题,则无疑能够突破人类有限理性这已障碍了。我们逐个来分析一下。

  首先,备选方案所导致后果的不确定性这一限制可否解决。这与大数据中强调相关关系而不是因果关系密切相关。因果联系是事物的普遍联系之一,也是科学研究的重要内容。只有高置信区间且重复发生因果联系,能够有效推测未来的因果联系。在同样环境下,相同原因,会造成相同的结果。虽然相关关系与因果关系有着密切的联系,但相关性本身并不是因果关系。如果现象A与B有着高度的相关性,就如同大数据应用案例中所说的,“超市中某个日期的婴儿尿布(A)与啤酒的销售量(B)密切相关”(类似的还有蛋挞与飓风用品等),如果要再进一步的应用好这种相关关系,一定离不开深入的归因分析——什么原因造成了这两个因素密切相关呢?如果不解决了这个问题,还只是在浅层次应用这大数据分析的结果——在超市中把尿布和啤酒放在一起。这就没有做到深入分析“年轻爸爸”的周末购物习惯,也难以做到真正做到以客户的需求为中心。所以,仅仅有相关性,而没有获得因果关系,人类有限理性这个事实仍不能改变。但获得了足够的相关性,的确为进一步的因果关系研究提供了线索,从这个意义上,是有利于提高人类理性的。

  第二,不完全了解备选方案这一限制可否解决。这又与大数据中强调的全数据模式而不是抽样样本密切相关。全数据模式是否就是涵盖所有的数据呢?一般而言,只是指一定范围内的全数据。以FACEBOOK公司为例,2014年7月,其用户数达到了22亿,占全球人口的三分之一。假设对这22亿用户数都用大数据技术进行分析,仍只分析了全球人口的三分之一,并不是全部。从最基础的数据源来看,大数据并不能绝对实现全数据模式,在此基础上分析的结果,仍只是客观现实的一部分可能性,而非全部可能性;也意味着只能提出一部分的备选方案,而不是全部。但大数据技术的确在数据量上有了重大突破,能够涵盖更广泛的客观事实,有利于增强人类的理性。

  第三,必要计算无法进行的复杂性这一限制可否解决。这个问题似乎是大数据所擅长的。但实际上,尽管大数据对于非结构化数据也能计算处理,但仍有着难以克服的“短板”。例如,无法对“情感”和“社会关系”等进行定性分析,原始数据和分析结果会受到人类主观意识影响等。比如,大数据不擅长社会关系分析。计算机主导的数据分析, 擅长于分析社会关系的数量而非质量。我们通过社交网络分析,你一天中有一半以上的时间在和六个人交流,这六个人是你的同事,而不是你最亲近的大学好友,因为你们无需频繁联系。人的定性分析则能很容易就能够感知到对方的情绪,分辨出不友好的行为,以及根据感情进行价值评估。再比如,大数据还不擅长上下文的情景分析。人类的决策并不是仅仅基于离散的事件,是基于前后关联的情景的。人类的大脑擅长联想,能够很好地结合情景进行分析。而数据分析则很难分析清楚定性化的场景和前后联系。所以,大数据虽然在计算、分析方面有了巨大的进展,但但仍不能计算所有问题,因此在这个方面也是不能解决人类有限理性的问题。大数据还难以处理真正的“巨型问题”,比如当希腊面临债务危机的时候,决策者都没有大数据作为决策的支撑。

  人的有限理性的基本特征,会深刻影响着大数据。任何科技都是由人掌握应用,并直接或间接为人类的需求服务的。大数据分析仍是人类分析解决问题的一种工具,难以违背人类心理和思维的基本规律。人类的有限理性还会体现在认知偏见和归因错误等方面,这些偏见和错误会在大数据应用的各个过程中都会出现。比如,“原始”数据很可能也并不原始, 它总是按照某设计者的要求来进行组织的;数据分析的结论往往基于大众偏好。2002年诺贝尔经济学奖得主卡尼曼和特维尔斯基认为,人们通常没有能力对环境做出经济学和概率推断的总体严格分析,人们的判断往往靠的是某种顿悟或经验,经常会利用“心理捷径”,所以会导致一系列的偏差,形成了偏差或偏见。这种偏差或偏见多大十几种,也都或多或少地对大数据产生影响。

  比如“小数法则偏差”,是指人们将小样本中某事件的概率分布看成是总体分布。其实这违反了概率理论中的大数定理。这在大数据分析中也会存在的,因为大数据分析的是一定范围内的大数据,比如某个银行分析的是其所有客户的数据,但这些客户是不是就代表全国、全球的客户特征呢,显然不是的。

  比如“过度自信偏差”,是指人们通常对自己的判断过于自信,主要表现在两个方面,一是在估计可能性时不够精确,当人们说肯定某件事会发生时,实际上只有80%的可能性,而当人们说肯定某件事不会发生时,实际上还有20%发生的可能性;二是置信区间过于狭窄,98%的置信区间实际上只有60%的置信度。这在大数据分析中表现得会更加明显,即使在原始数据没有缺陷的条件下,依据大数据做出的推测,也不一定会在未来肯定发生。

  比如“证实偏见”,是指人们会在获取相应信息的基础上,形成对他人的期望或判断,并以这种期望来预测他人的行为。也就是“先入为主”对认知的影响。在正常情况下,人们并不意识到他们的“证实偏见”,相反,还以为他们的期望判断是正确的。只有当被证实的原因与归因者的判断明显冲突时,归因者才会修正已有的判断。在利用大数据分析过程中,当分析结果与事先预测结果接近是,一定要注意是否出现了偏差。

  人类的归因分析的心理特点,也会影响着大数据。因果联系是事物的普遍联系之一。在人的心理方面,因果关系体现为归因分析过程。归因分析就是指个体根据有关信息、线索对行为原因进行分析与判断的过程。在应用大数据的归因分析过程中,也会出现偏差。

  比如,归因会受社会视角的影响,行动者与观察者的归因会有显著差异。由于人们在归因上的社会视角不同,行动者较注意周围的环境,而观察者更注意行动者,就使得观察者倾向于做内部归因,而行动者倾向于做外部归因。这就是所谓的“行为者-观察者效应”。 当大数据分析应用于零售消费等场景时,一定不能忽略消费者本身的感受。

        比如,归因会出现基本归因错误,是指人们倾向于把他人的行为解释成个体的本人因素的结果,而不是情境因素导致的结果。就是有时为了解释他人行为的原因,人们会求助于人格为基础的归因。不同的文化价值观念会促成基本的归因错误,提倡个人主义的西方文化和提倡集体主义的东方文化在归因方面差异显著。大数据分析是不擅长做情景联系的,容易在应用过程中出现这类错误。

  实际上,显而易见,大数据分析是人类社会进步的代表之一,但就像任何好的工具一样,它有它所擅长的地方,也会其局限的地方。而世界正因为不能单从一个方面解释而显得有趣。在大数据时代,即便是小公司也可能轻易拥有海量的数据。然而,在进行大数据分析时,如果忽略人类的心理、情感和社会关系,以及忘却了大数据的根本目标仍是人类幸福,就很容易陷入大数据带来的认知陷阱,甚至是价值的迷失。

(文章来源:《新金融世界》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章