手机版 欢迎访问人人都是自媒体网站

当前位置:主页 > 体验 >

十问十答,带你了解数据仓库

时间:2021-02-26 09:29|来源:网络整理|编辑:|点击:

此篇内容主要以数据仓库的介绍说明为主,并展开了10个基础问题与关键问题的问答分析。

 十问十答,带你了解数据仓库

写此篇的原因是因为关于数据仓库这方面的单个书籍翻译不够友好,书写结构不够清晰以及当前现实环境的数据仓库搭建并非仅来自某个架构思想。

同时单单看一本书很难对数据仓库方面的知识进行全面的理解吸收。因此我想通过主动提问的方式从多本书籍结合自身经验以及与数仓专业人员的咨询请教中获取的知识进行理解、思考,最终得出结论来,并且一一回答数据仓库方面的知识内容。

此篇内容主要以数据仓库的介绍说明为主。也可以理解为语文中的说明文,几乎不涉及具体数据仓库搭建的方法论和技术细节。并且本篇文章为数据仓库方面知识的一个开始,后续遵循循序渐进,由浅入深的原则,对数据仓库进行深入了解和掌握。

此篇文章的撰写视角定位在对数据仓库客观的描述和说明,不涉及面向特定群体的说服而展开。

问题一: 数据仓库是什么?

数据仓库是对业务系统的数据进行同步接入、历史存储、清洗加工、关联打通、有效管理、分层建设、贴合需求;最终以提供满足业务场景数据使用需求的一种数据库。

参见数据仓库整个作业图便可进一步理解:

 十问十答,带你了解数据仓库

数据仓库作业流程图

以下为每个环节的概述:

1. 同步接入

同步接入是指从各个业务系统抽取数据存入数仓。

一般分为离线抽取和实时抽取。抽取的数据来自多个业务系统和多种数据类型,关系型数据用sqoop来抽取,非关系型用kafka来抽取。

比如:一家金融公司的业务流程有 用户注册、贷款申请、风控审核、放款、贷后还款、催收等,这些业务环节的事务会在不同的系统完成;催收有催收系统,贷款申请有CRM系统等;这些围绕业务主线,涉及用户,内部员工,三方机构从而产生的业务数据,行为数据等都会通过每天定时或者实时存入数仓系统。

2. 历史存储

历史存储是指数仓会存储公司内所有保存的历史数据(前提是数据有接入数仓且之前有保存历史),可方便商业分析应用和其他业务诉求对历史数据的洞察。

比如:电商的物流数据,从下单到收货期间的运输状态可能每天都会不一样,那么数仓就会保存该订单物流每天的状态数据。

3. 清洗加工

清洗加工是指数仓会通过ETL(抽取、转换、加载)操作对业务系统的原始数据进行清洗,根据数据使用的便捷,干净,和业务诉求通过去重乱码,填补空值,维度拆分,行列转换等一系列操作。

比如:“地址”这个字段的值可能会拆分出多个维度来,国家、省、市、区、路、小区等等。 “身份证号”可以拆分出 出生年、月、日、性别等。

4. 关联打通

关联打通是指围绕业务主线及用户唯一识别,将不同业务系统的数据进行打通关联,将业务数据和行为数据进行关联打通;最终可形成完整的用户生命周期数据链路追踪。

5. 有效管理

有效管理是指对数据的在整个数仓内作业生命周期内的管理,包括对元数据的管理,对数据本身的作业管理,对数据关联角色人员的管理等。

比如:元数据管理这块,因为业务开发的人员流动,就会存在某些字段没有注释,没有明确的释义,当人员离开又加上需要了解该数据时就会遇到无人可问的情况,需要耗费较大的精力去想办法了解。

6. 分层建设

分层建设是指对进入数仓的数据进行层次划分(ODS 操作数据层、DWD明细数据层、DWS汇总数据层、ADS应用数据层),以满足数据使用便捷,高效,不耦合、符合业务需求等问题。(此处关于各个层次的细节介绍先不做说明,因为不在这个问题的讨论范围内)

7. 贴合需求

贴合需求是指所有的最终都需要业务化,为业务的分析决策,事务应用提供支持,而并非仅仅数据资产化;那么这就需要了解业务的数据需求来进行数据的加工开发,最终实现数据价值最大化。

问题二:数据仓库解决什么问题? 1. 数据打通提升数据价值

试想,现在某一电商产品做了一个版本迭代后,发现成交额有所下滑;目前知道成交额这种业务数据下滑,也知道都改了什么一系列功能,但并不清楚用户是在哪个环节流失的,他们操作了什么?停留了多少时间? 是产品Bug还是用户不会用?在这种场景下如果没有行为数据做支撑,则很难定位到原因进行精准优化。

Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP