知识至于人类进步的作用不言而喻。英国著名哲学家培根有一句名言:“知识就是力量”。事实证明,人类社会前进的力量就来自于不断累积和变化的知识,其发展轨迹就是不断发现知识、不断更新替代知识的过程。正如《未来简史》所言“知识如果不能改变行为,就没有用处;但是知识一旦改变了行为,知识本身就立刻失去意义”,所以人类需要不断更新知识。知识本身存在的这种悖论,就是知识力量的体现。
然而什么是知识?迄今为止并无定论。罗伯特⋅格兰特指出,尽管“什么是知识”这个问题激发了世界上众多伟大思想家的兴趣,但至今也没有一个统一而明确的界定。柏拉图曾经指出,能称得上知识的必须满足三个条件,被验证过的、正确的和被人们相信的。在哲学中,关于知识的研究叫做认识论,知识的获取过程就是认识的过程。所以,我认为关于知识的最通俗的理解就是已知的认识。也就是说,知识是人类对客观世界(包括人类自身)进行认识的成果,是那些在实践中从各个途径发现的、经过提炼总结的系统性认识,包括事实展示、信息描述、规律发现、经验总结和技能概括等等。
毫无疑问,要想发现和获取知识,就必须对客观事物进行客观系统的认识,就需要掌握科学的认识方法。显然,发现知识的认识过程不是停留于对事物表皮特征的描述上,也不是满足于对事实材料的堆积上,更不是局限于凭空的主观臆造上,而是要经过调查观察、实验实践、消化吸收、交流论证、逻辑推理、系统总结、凝练提升和科学概括等一系列环节。培根本人极力倡导“实验观察+归纳分析”的认识方法论,他把经验观察、事实依据和实践效果引入认识论,提倡通过实验得出科学结论。由此,我很自然就联想到了统计认识方法论。培根认为,人类认识世界、科学研究应该学蜜蜂而不能学蚂蚁和蜘蛛。因为,蚂蚁是个经验主义者,只知道收集材料来使用;蜘蛛是个独断主义者,从自身把网子造出来;而蜜蜂则兼有蚂蚁与蜘蛛的特长,它们从花园和田野的花朵中采集材料,然后依靠自己的力量来消化和改变这些材料,最后酿造出芬芳的蜂蜜。
蜜蜂的这种把花粉变成蜂蜜的过程,不正如同把数据变成结论的统计认识过程?蜜蜂所采取的采集材料、消化加工、造出蜂蜜的方法,不正类似于统计的收集数据、加工分析数据、形成结论的方法?统计学之所以能成为一门独立的学科,统计方法之所以能在所有领域得到应用,就是因为它在众多认识世界的方法论中具有不可替代的地位和作用——拥有科学理性的定量分析的方法,具有独特的定量认识能力。
那么统计认识的与众不同体现在哪些方面呢?
第一,统计认识以数据说话。认识世界的方式粗略地可以分为两类,定性认识和定量认识,统计认识属于定量认识。定量认识的具体途径有很多,包括抽象的数学认识、微观的会计认识、基于实验的物理认识与化学认识等等,但统计的定量认识有所不同,它必须以现实问题为导向,以具体存在的真实数据为材料,以能给出有意义的综合性定量结论为目标。概言之,统计认识就是以数据说明问题,让数据说话。从人类社会之初的结绳计数(串珠计数),到奴隶社会的土地与人口统计,到资本主义社会以后的行业统计、财产收入统计、国民核算、生物统计、天文统计...,到如今统计无所不在并且步入了大数据时代,统计认识都遵循了以数据说话这一特点。为什么不把先提出统计学名称的德国国势学、而是把英国的政治算术作为统计学的起源?原因就在于前者只是定性的归纳概述而后者是定量的数据表述。统计认识从头到尾都离不开数据,从数据收集到数据消化处理到数据结论形成,每一环节都在与数据打交道,只不过开始的数据是零散的、不系统的,最后的数据是综合的、结论性的。无疑,从零散数据到综合数据的过程就是一个统计认识过程,如果最后的结论性数据能体现事物本质特征和说明问题,那么这个认识就是一个正确的认识。如果这个认识是首创的,那么它就是一个新的知识。当然,确保每一环节的数据真实可靠是统计认识的基本前提。
第二,统计认识是以统计规律去解释真实规律,或者说用推理真理去说明事实真理。规律是事物本身所固有的、本质的、必然的、稳定的联系,是发展的必然趋势;而真理是客观事物及其规律在人的意识中的正确反映。有一种观点认为,发现知识就是发现规律、发现真理,尽管学界对此存有争议,但人类确实是通过不断发现知识而向前发展的。鉴于客观世界构成的复杂性和奥妙的无穷性,规律和真理是难以被轻易发现的,我们只能无限地去接近规律、迫近真理。德国哲学家、微积分的发明者之一莱布尼茨曾经指出,世界上有两种真理——推理的真理和事实的真理。或许我们永远都达不到事实的真理,但我们不能因此就停止前进的步伐,唯一能做的就是尽量让推理的真理去接近事实的真理。可以说,迄今为止人类所认为的真理都是推理的真理。统计认识正是这样一种能不断用统计规律去接近真实规律、从而有可能充分接近于事实真理的认识,因为它具有极大的定量归纳推理能力。例如,生物遗传的回归现象、观测误差分布的钟型分布、国民核算账户平衡原理、事物之间的数量依存关系、抽样分布特征等等,都是基于严密的定量归纳推理而被发现或构建的。运用这样的归纳推理统计方法,我们就可以在各个领域结合具体问题用数量去发现事物的本质特征和发展规律,从而帮助人类去发现更多的知识、接近更多的真理。正因为如此,美籍印裔统计学家C.R.劳的一本小册子就定名为《统计与真理》。
第三,统计认识强调定量与定性相统一。统计认识虽然是一种定量认识,但又不是纯定量的,而是紧密地与定性认识结合在一起。统计认识以问题为导向,以数据为核心,以方法为关键,是问题导向决定着该用什么数据和该用什么方法,而不是撇开问题搞抽象的定量研究。所以,统计的认识过程是“初步的定性认识——科学的定量认识——理性的定性认识”。当然,理性的定性认识是基于科学的定量分析之上的。我们必须明白,并不是所有的定量结论都能成为知识,关键要看其是否与实际相符,是否能说明问题,是否充分接近真实规律。最基本的一条,就是统计认识过程是否经得起检验与还原。如果定量结论建立在虚假的数据、经不起推敲的假设和错误的方法(模型)之上,那么它是毫无意义的,这样的结论不仅不能成为知识和真理,反而会成为谬误和祸害。大数据时代,尽管数据的概念、数据的来源与构成、数据分析的方式方法都发生了变化,但数据挖掘的最终目的还是要基于定量发现去探求蕴含其中的规律与关系,形成定性的结论。可以说,统计认识是定性(哲学)的认识论与定量(数学)的方法论相结合的产物。
第四,统计认识是一种辩证的认识。客观世界是复杂、多维、变化的,要从中发现知识就必须掌握和运用唯物辩证法。唯物辩证法是一种研究自然、社会、历史和思维的哲学方法,它有三条基本规律和五对基本范畴。统计认识正是在现象与本质、内容与形式、原因与结果、可能性与现实性、偶然性与必然性这五对基本范畴,以及整体与局部、个性与共性、绝对与相对等其他范畴的辩证统一中去探求客观世界的对立统一规律、量变质变规律和否定之否定规律的。在统计认识过程中,任何一个客观真实的数据,都是根据认识的目的和出发点,在科学界定总体与个体(样本)的基础上,基于总体的共性(同质性)去观察个体的差异性并运用各种绝对数和相对数(平均数)分析方法而得出来的,都是在综合现象数量特征基础上所体现的本质特征,都是基于分析事物的内在构成而反映的根本内容,都是根据事物之间的联系关系由因而得的结果,都是在众多可能的结果中最接近实际的那一个,都是透过了各种不确定性因素而获得的必然性。具体所用的方法包括大量观察法、统计分组法、综合指标法、归纳推断法、统计模型法和数据挖掘法等。可见,我们把统计认识理解为定量的哲学认识一点也不为过。
谁能更好地掌握统计认识思维和方法,谁就能更好地发现知识,更有可能接近于真实的规律与事实的真理,大数据时代更是如此。
(已刊登于《中国统计》2020年第3期)