相信大数据还是相信逻辑?

  李迅雷/文

  “大数据”是指以多元形式,通过许多来源搜集而来的庞大数据组,往往具有实时性。大约从2009年开始,“大数据”成为互联网信息技术行业的流行词汇。如美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。

  此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。

  有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”,价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据成为赢得竞争的关键。

  例如,2011年诺贝尔经济学奖获得者托马斯·萨金特(Thomas J. Sargent)近期在中国公开演讲时就认为,人工智能实质上就是统计学。我觉得他说的有一定道理,但过于简单粗暴了。其实,他想表达的是人工智能中运用的不少方法就是过去的统计方法。

  又有人认为大数据就是全样本统计,这样理解大数据未免有点浅薄了,全样本统计只是大数据的一种形式而已。因此,大数据的涵义要比传统意义上的统计数据广泛,但确实又具有统计数据的很多属性,因此大数据需要通过合适的方法才能发挥其作用。

  相信个案还是大数据

  举例来说,两年半前,我曾经从蚂蚁金服公布的居民网络消费数据中,发现天津在网络消费上的怪异现象:作为直辖市的天津,人均网消水平上明显低于上海、北京、浙江、江苏、海南、福建、广东,而且由于这前七个省市占比较大,天津甚至低于全国平均水平。

  由于天津的人均GDP水平在2016年及之前一直为全国省市自治区中排名第一,为何网购数据那么弱呢?我当时就认为天津有夸大GDP的可能。因为查阅《统计年鉴》,发现天津的人均可支配收入与人均GDP水平不匹配。即人均可支配收入不仅低于北京和上海,而且还低于浙江、江苏。

  如2015年浙江城镇居民可支配收入占GDP之比为56.3%,上海为51.3%,但天津只有31.9%,与前者竟然相差20%左右。如果说人均可支配收入偏低与通过大数据获得的人均网购额还是比较匹配的话,那么,人均GDP或GDP总额就大大偏离正常水平了。

  2018年年初,天津重新调整了其滨海新区2016年GDP的数据,从过去公布的10002.31亿元调整为6654亿元,缩水3348亿元,缩水幅度达三分之一。可见,如果把从支付宝获得的网购大数据与统计部门公布的数据进行相互比对,就可以及早发现问题所在。这可以说是运用好大数据的意义所在。

  “文革”期间,有一句口号叫“工业学大庆,农业学大寨”,但为何学了那么久,经济增速仍然那么低,工业品和粮食那么短缺呢?因为大庆和大寨都属于少数“成功”的个案,难以复制。而且,计划经济模式所隐含的逻辑存在明显缺陷。

  笔者曾经举过一个例子:让1000只猴子掷硬币,每次出现正面的概率为50%,如果让所有的猴子连续掷硬币10次,那么,连续10次均为正面的概率就是50%的10次方,约等于千分之一,即1000只猴子中应该有一只猴子会连掷硬币10次均为正面。难道我们需要把这只猴子作为典型案例,号召所有猴子向它学习,将其“成功”掷币的经验进行推广吗?

  因此,步入信息化社会,大数据概念的流行对于习惯于形象思维的国人是一个很好的开阔眼界的机会,从古到今,相信奇迹的人为数不少,而相信常识或相信概率的却不那么多。例如,为何澳门博彩业会如此繁荣,规模是拉斯维加斯的四五倍呢?就是因为“相信一夜暴富奇迹”的国人太多了。在国内,你会发现类似“成功学”的书特别畅销,但就“成功”本身而言,其比例一般都很低,否则就不叫成功了。也就是说,成功只能是个案,但大部分人只对成功的个案有兴趣,对成功率却茫然无知。

  盲目相信大数据并不可取

  上一部分的核心观点是大数据比个案更有说服力,但是,过度迷信大数据也有问题。以股市为例,目前,A股市场的上市公司数量已超过3000家,所有上市公司的盈利等财务数据累加起来也构成了大数据。

  从2016年开始,上市公司的整体ROE都在上升,但为何股市的估值水平却在下移呢?为何商品房销量屡创新高,房企的盈利也出现了高增长,但房地产股却大幅下跌?说明借助大数据来预测未来,必须搞清楚数据与预测对象之间的逻辑关系。其实,股价应该是领先指标,或称晴雨表,大数据则是滞后指标。房地产股的下跌,或是反映了股市投资者对国内楼市未来下跌的担忧。

  同样,2017-2018年,上市企业盈利整体增速超过两位数,但不意味着2019年盈利增速不下降,当投资者看到经济增速下行的长期趋势,就会对企业未来的盈利前景感到担忧。

  此外,大数据总量数据固然重要,但“内部结构”还需要分析:为何这两年股市中的“中小创”跌幅较大?是因为其历史的估值水平较高,尽管其盈利增速并不低,但却面临市场趋向理性之后的估值水平下移压力。

  所以,盲目偏信大数据反而容易产生误判,只有运用合适逻辑分析方法,才能把大数据的结构和特征描述清楚。例如,由于A股中大市值公司的估值水平比较低,如银行股的利润总额加起来要占到所有上市公司总利润的一半左右,且大部分银行的PE只有5-7倍;所有上市公司PE加权平均之后,就很低了,但从PE的中位数看,估值水平仍然不低,目前在23倍左右。

  中国的成语中也有类似对大数据“滞后”特性的描述,如盛极而衰,表示数据虽然非常好看,但可能意味着衰退。而且,正是由于人们偏爱“用数据说话”,因此,数据作假现象也屡见不鲜,从而导致总量数据与实际相背离,或者数据之间的勾稽关系出现矛盾。

  黑天鹅事件:还是要相信逻辑

  17世纪之前,欧洲人都认为天鹅都是白的,因为他们所见到的各大洲(欧洲、亚洲、非洲)及各个地方的天鹅,无一例外地都是白色的——这就是用归纳法对大数据处理所得出的结论。一直到人们在澳洲发现第一只黑天鹅之后,天鹅都是白色的结论就被推翻。

  从此之后,人们就把意想不到事件的发生称之为“黑天鹅事件”,这说明大数据的缺陷所在——样本不能被穷尽。因此,大数据可以用来“证伪”,却不能用来证明。

  例如,外星球究竟有没有生命的问题,大部分科学家都认为肯定有生命,其逻辑就是概率分布,因为茫茫宇宙中的星球不计其数,难道只有唯一一个地球上有生命?但概率只是代表可能性,观察的样本数量再大,也无法找到一个例证来证明外星球上确有生命。

  而大数据的运用,大部分采用归纳法——人类思维中90%以上的几率都在使用归纳法,因为归纳法不需要运用太多的知识;不像演绎法,它先要掌握不少知识或定理,然后再据此去推理。

  例如,前段时间英国皇家学会前主席阿提亚爵士宣称证明了“黎曼猜想”,是否真的证明了姑且不论,但证明过程所需要的深奥的专业知识,肯定不是一般人所能触及的。

  事实上,西方在基础研究领域的巨大成就,大部分都是在17世纪之后取得的,远没有跨入大数据时代,且大部分没有采取实验室研究的方式,但至今大部分成果都被广泛应用到社会经济、科技生产的各个领域。

  也就是说,17世纪之后,西方抽象思维得到极大发展,建立了数学、物理的科学体系,进而又推动了科技进步,从而拉大了中西方在科技领域的差距。

  相比之下,从中国历史上所取得的科学成果看,能体现抽象思维的东西比较少,形式逻辑在中国没有充分发展,春秋战国时代,形式逻辑也曾有过发展,但最终却演变成了“诡辩术”,如公孙龙(前320年-前250年)就提出了“白马非马”之说,因此,中国历朝历代的思维还是见长于归纳法和辩证法。

  举个例子:南宋数学家杨辉在1261年所著的《详解九章算法》一书中,展现了二项式系数在三角形中的一种几何排列,因此,“杨辉三角”实质上是把二项式系数图形化,把组合数内在的一些代数直观地从图形中体现出来。

  但杨辉并没有在其著作给出具体推导过程,所以,我们只能认为“杨辉三角”是通过归纳总结发现的,未能把它进一步抽象为“二项式定理”,而牛顿就给出了二项式定理的一般公式和推导过程。

  由于形式逻辑、演绎法在中国五千年的漫长历史中没有得到充分发展,这才是导致中国近代科技发展迟缓的根本原因,而不是所谓的制度因素。为什么哲学、宗教、文化乃至医学等都有中西方之分,但数理化就没有“中国数理化”而是照搬西方的呢?因为这些学科都不能通过经验(或称大数据归纳)、传承或辩证法来创设的。

  在大数据面前,更要相信逻辑,虽然大数据比个案更有说服力,但大数据同样存在失真、变异、滞后甚至被操纵的可能性。例如,2017年以来公布的统计数据显示,企业的盈利增速大幅提高,但为何企业的投资增速却大幅下降呢?大数据不能解释,但逻辑却可以做合理解释:供给侧改革、环保标准提高等导致供给端被压缩,进而导致上游商品价格上涨,大企业盈利增速上升。

  社会经济的发展看似千姿百态,但也有其共性。比如,二战之后的今天,市场经济最终成为全球几乎所有国家的共同体制,说明这个体制合乎经济可持续增长的逻辑。这正如价值投资成为全球绝大部分资本市场的共同理念一样,唯有如此才能获得较大的回报。

  纵观全球各国经济走势,都会发生波动,尽管波动剧烈时政府部门会采取逆周期的政策,试图通过干预市场来避免发生危机,但事实上却很难避免。也有些国家尽管没有爆发危机,但其代价往往是经济停滞和债务高企。因此,就像价值投资理念对资本市场的影响一样,逻辑产生作用可能会迟到,但不会缺席。

  李迅雷为中泰证券首席经济学家

相关推荐
新闻聚焦
猜你喜欢
热门推荐
返回列表
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。