一年伊始,又是企业级数据平台应用选型的高峰期;在对数据平台应用进行选型的时候,往往会看到这几个概念,数据仓库、数据湖、数据中台,那么这三个概念有什么区别?又怎么看企业需要的是什么?本文一篇给你说清楚
1、1句话说清楚核心差异
数据湖:存储没有经过任何处理的原始数据数据仓库:储存经过了数据抽取、转换和加载的结构化数据数据中台:数据管理系统,可以整合和调度数据,连接数据湖和数据仓库,同时支持多种数据处理和分析可以这么理解,数据湖就是什么数据都能丢进去;数据仓库则是储存精心整理过的数据;数据中台则是管理中心,数据湖和数据仓库里的数据,都可以取进来,并进行标准化的治理,方便所有人分析、制作多维报表,快速响应工作需求

2、6大维度对比
从更全面的维度来看,数据湖、数据仓库、数据中台主要有以下6个方面的不同
对比维度
数据仓库
数据湖
数据中台
数据形态
结构化数据为主
原始数据(结构/半结构/非结构化)
标准化数据资产
存储逻辑
Schema-on-Write(先设计后写入)
Schema-on-Read(读取时解析)
动态数据模型(可配置化)
技术架构
关系型数据库(Teradata/Oracle)
分布式存储(HDFS/S3)
微服务架构+API网关
使用场景
固定报表/BI分析
机器学习/数据探索
业务快速创新/数据产品孵化
建设成本
每TB存储成本$2,300
每TB存储成本$23
综合成本最高(含组织变革)
举例
沃尔玛销售分析系统
特斯拉自动驾驶数据池
阿里双11作战指挥系统
3、3个问题搞定企业选型
对于企业而言,需要哪个架构,只需要想清楚3个问题、1个公式即可
是否需要对原始数据进行探索?是否需要标准报表?是否需要快速支撑多个业务创新?而在目前,数据湖仓一体化、中台轻量化以成为趋势,头部企业一般会使用【数据湖+中台】的混合架构,以便保存原始数据,又能快速赋能业务;而对于中小企业来说,直接使用面向业务赋能的轻量化数据中台无疑是更好的选择
降低技术门槛,快速上线:数据中台本身是一个面向业务的解决方案,已经把数据管理、分析和应用集成在一起,极大地降低了技术部署难度。聚焦核心业务,赋能决策:数据中台专注于业务赋能。通过数据中台,中小企业能够从实际业务场景出发,快速做出反应,而无需过多担心底层技术架构的复杂性。快速反馈和迭代:数据中台能够通过集成和自动化的方式提供实时的数据分析和反馈,通过简化的数据模型和流程,快速识别业务痛点,进行数据驱动的决策,并实现快速迭代。4、1个公式计算中台价值
那么企业到底要不要上数据中台呢?上数据中台是自己开发,还是购买云平台呢?我们使用1个公式,即可算清楚这笔帐
中台价值 = (需求响应速度提升率 × 业务线数量) - (建设成本 + 组织变革成本)
分子端揭示中台带来的价值,分母端则揭示中台价值损耗
需求响应速度提升率:即使用中台,可以带来多大的销率的提升,一般通过:【(传统开发周期 - 中台调用周期)/传统开发周期】来量化衡量业务线数量:即多少业务可以通过中台提升销率,中台价值随复用次数呈指数级增长;一般来说当使用业务线≥3时,中台规模效应开始显现建设成本:即构建数据中台带来的投入,包含平台开发、数据治理、 系统集成以及、历史系统改造成本;组织变革成本:即部门墙打破成本(KPI重构/利益重组)、人员能力升级成本(培训投入/招聘替换)等除次之外,也可以将数据资产复用度、技术债系数、变革阻力系数加入到公式之中,
中台价值= [(响应速度提升率 × 业务线数量)× 数据资产复用度] - [建设成本 × 技术债系数 + 组织成本 × 变革阻力系数]
数据资产复用度(API调用次数/数据服务使用量)
技术债系数(1.2-2.0,旧系统越多系数越高)
变革阻力系数(1.0-3.0,取决于组织文化)
而购买云平台和自研数据中台,成本差异则主要在建设成本上
自研数据中台总成本 = 基础设施建设成本 + 软件与开发成本 + 数据治理成本 + 运维与人力成本 + 组织变革成本 + 隐性风险成本使用云数据中台总成本 = 订阅服务费 + 数据存储与计算费 + 隐性机会成本因此更加建议中小企业首选云平台,一方面可以快速上线,快速响应业务;另一方面则可以小成本快速试错,不至于开发花了几百万,最后用不起来。以国内最大的BI厂商帆软旗下的在线数据中台九数云BI为例,首年购置费5888元,即可快速尝试数字化精细运营方法
总而言之,其实上不上数据中台,是自研还是购买云平台,归根结底即是计算投入产出比:
不为了做「为技术而技术」的中台;更注重业务实际是否能够使用而不是其功能完备性;将组织是否准备好了纳入考虑因素才能最终完成这个【大项目】的落地