×

什么是数据科学

hqy hqy 发表于2025-04-25 20:51:25 浏览4 评论0百度已收录

抢沙发发表评论

Data science is an interdisciplinary field that uses scientific methods, processes, algorithms and systems to extract knowledge and insights from noisy, structured and unstructured data,and apply knowledge and actionable insights from data across a broad range of application domains. Data science is related to data mining, machine learning and big data.

“一个跨学科领域,它结合了统计学、信息科学和计算机科学的科学方法、系统和过程,通过结构化或非结构化数据提供对现象的洞察,并将数据中的知识和可操作的见解应用于广泛的应用领域。数据科学与数据挖掘、机器学习和大数据密切相关。”——这是维基百科给出的数据科学定义,强调的是利用科学方法、先进技术手段对数据进行“解耦”,以此对数据背后的现象进行洞察,对萃取的知识与见解进行应用。

自19世纪初期现代统计学诞生以来,统计学者们所进行的数据统计分析,其实就是数据科学的前身,只不过基于当时小数据量的时代背景,数据的搜集、整理、分析、输出结论环节更紧密,借助外部方法论和工具更少,不具备成为一套系统科学的客观条件。纸、笔、尺,成了那时支撑数据采集到应用的全链路生产力工具,统计学理论足以支持完成整个因果推断过程。

1946年冯·诺依曼发明计算机后,人类社会生产生活所产生的数据,开始第一次真正被大量记录。怎样合理存储采集和产生的数据、如何长期有效地管理数据、怎么借助计算机强大的性能实现复杂的数据分析过程,开始被关注、被研究,“数据科学”这一今日看似清晰曾经却无比模糊的词语,逐渐有了明确概念,“数据技术”开始被逐渐与理论相融合。

1974 年,著名计算机科学家、图灵奖获得者Peter Naur在其著作《计算机方法的简明调研》中首次明确数据科学的概念,“数据科学是一门基于数据处理的科学”。

1996 年,国际分类学会联合会成为第一个专门将数据科学作为主题的会议。

1998年,Hayashi Chikio 认为数据科学是一个新的、跨学科的概念,包括三个方面:数据设计、收集和分析。

2001年,William S. Cleveland的一篇论文中,他主张将统计学从理论扩展到技术领域。

2002年,科学技术数据委员会推出了数据科学期刊。(现由人民大学主办)

至此,我们现在所说的数据科学的思想共识基本形成即在统计学的工作模式框架下,引入针对数据的专业技术,从专注理论到数据理论与数据技术相结合,涵盖计算机技术与统计学理论等多个领域。

从20世纪初到现在,数据科学所包含的范围不断延伸,大数据、机器学习、云计算、AI等新技术不断涌现,但是其核心本质仍然是不断收集、处理数据,加以分析然后应用。如今我们所见到、听到的“数据科学家”、“数据工程师”、“数据分析师”、“数据架构师”等等,他们所做的,实质上是数据科学在商业化落地时的细分,如:数据工程师专注于数据采集技术、处理技术,搭建数据仓库;数据分析师专注于利用数学模型和算法得出数据分析结论等等。

笔者认为,随着计算机技术在未来的进一步发展,数据科学这一概念可能会进一步拆解。以统计学等理论为主导,数据技术进行配合的“先知理,后致用”这一发展模式,会被逐渐打破,技术极有可能会替代理论,主导未来数据学科的演进方向。我们将从“借助技术,根据认知观察数据,推断结果”这一过程,变革为“技术主导,不断测试验证结果,不解释因果逻辑”。

作为数据从业者,我们需要清楚的是,数据科学与其他科学最大的差异在于,数据科学的发展更新速度非常快,20年前,人们还在质疑究竟数据有没有必要成为一套科学体系,20年后,五花八门的数据科学相关的概念、技术层出不穷,联合国、各国政府都将数字化和数据战略列入了各自的战略规划中。数据科学也展现了极大的包容性,无论是对理论、技术、应用还是数据背后的业务感兴趣,都可以投身其中,感受数据的魅力。