用现实案例详细解答数据仓库、数据集市、数据湖、数据中台

1


一、数据库 本质上是一个二维关系存储系统,存储结构化数据,比如某学校的学生信息表、某年级的学生成绩表等。 包含操作性数据库和分析型数据库两类。 所谓操作型数据库,主要是针对一个“事务”型操作而言,用于支持日常业务,比如购买商品、点外卖、打滴滴等。 所谓分析型数据库,主要是对历史数据进行分析,比如分析某商品的销售量、某店的订单量、某师傅的车订单量等。 操作型数据库写多查少、数据动态变化、存储时间要求不高。 分析型数据库写少查多、数据基本稳定、存储时间长。 二、数据仓库: 数据仓库就相当于一个贮存数据的仓库。 在这里,数据按照特定的模型组织起来,这种模型对数据管理员来说相对友好,因为它按照一种更加集约化的规则将数据管理起来了,存放集中、规整,提取数据不用跨库寻找,查找的效率更加高。 本质上是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,是比数据库范围更大的库。 所谓面向主题,它指的是数据仓库内的信息按照某个主题进行聚合,比如地区、成本、商品、收入、利润等等; 所谓集成的,它指的是可以把不同数据库中的数据都汇聚在一起; 所谓相对稳定的,它指的是数据仓库的数据不会像操作型数据库那样经常变化; 所谓反映历史变化,它指的是数据仓库内的信息不只是反映企业当前情况,还可以记录分析从过去某一个时间点到现在的变化。 三、数据集市 按照不同部门进行分类。 举个例子。前文我们说了,数据仓库是对数据管理员相对友好。但是,那种模型对业务人员来说不友好。比如顾客不能直接去超市逛仓库吧。顾客的需求,是按照物品的种类分门别类,按照生活习惯的不同,组合在一起展示的。比如超市中会按照蔬菜、水果、肉类、生活用品等分类,将不同的物品组合在一起进行摆放,有的超市会在扶梯口放一些日常用品等。 虽然,像沃尔玛、华润万家等大型超市也被吐槽,但总的来说,比让顾客直接逛仓库好得多。 数据集市就像超市摆放物品,正如其名字“集市”一样,是一个面向最终用户(顾客)的数据市场,在这里,数据(物品)以一种更加容易被业务人员(顾客)接受的方式组合在一起,这些组合方式可能是多变,因为业务人员(顾客)的需求是多变的,因此我们需要定期调整集市的计算口径(物品的组合方式),经常会创建新的数据集市(新的物品组合)。 只关注某一个主题,比如只关注成本,那么它就会只收录成本相关的数据,数据来源可以是自己的源数据库,也可以从数据仓库中获取某一主题的数据; 四、数据湖 举个例子,我们要做一顿丰盛的午餐,首先需要去超市购买各种原材料(米、面、油、肉、蔬菜、水果等),其次需要厨师做饭,最后,需要对没有用完的物品进行保鲜存储,不能浪费么。 数据湖是存储了企业所有原始数据的存储,同时原始数据对数据管理能力依赖性很强,(不同原材料组合,厨师会做出不同口味的饭菜),此外,加工后数据的存储也很复杂(做好的饭菜如果没有保存好,会坏掉)。 在数据湖中,存储的数据没有经过任何的处理,是直接从源系统导入的数据,它包含结构化数据、非结构化数据、半结构化数据,范围非常广,也是数据仓库的数据来源。 此外,它还用于机器学习、预测分析、信息追踪等场景,提供海量的数据供科学家们进行模型训练、在某个领域做推荐引擎。 五、数据中台 一个饭店要开店营业,首先需要有原材料供应与存储,其次需要有厨师对原材料进行处理(厨师做饭),最后需要把成果展示给顾客(饭菜),同时也需要有各种服务辅助(菜单、点餐系统、付款系统、音乐等),提升顾客的就餐体验。 我们可以将其分为狭义的数据中台和广义的数据中台。 狭义的数据中台(原材料+厨师+饭菜),指的是一套数据应用和工具,包括分布式ETL、数据资产管理、数据标签管理、数据沙箱、自助分析平台、元数据管理、数据质量管理、数据全生命周期管理等等,底层则以现有的数仓、大数据平台等为数据源,为企业提供数据资产管理的能力,并持续挖掘数据价值,持续提供数据智能服务。 广义的数据中台(原材料+厨师+饭菜+就餐服务),则在狭义的数据中台基础之上,包含了顶层数据战略,数据治理体系以及数据管理及运营、数据文化培养和组织架构支撑,是一套可持续管理和运营的体系。 总得来说,数据中台是为了提高数据服务能力,更贴近用户。以用户为中心也是数字化转型的核心理念,同时也是DT时代的趋势。 整个数据中台产品就是一个闭环的解决方案,不再是业务过程中的一环,它包含数据埋点、数据接入标准化、数据仓库抽象化、数据治理、数据服务五大模块。打通了人、物、场多个维度,更好的为前台去服务。