手机版 欢迎访问人人都是自媒体网站

当前位置:主页 > 体验 >

从技术和业务视角,认识数据平台

时间:2021-08-11 09:26|来源:网络整理|编辑:|点击:

本文主要面向读者为互联网行业相关从业人员,期望对企业数据平台有所了解的人群;因篇幅有限,文中所述的主题及相关概念点到为止。

 从技术和业务视角,认识数据平台

一、什么是数据平台?

数据平台字面的意思是“数据+平台”:

数据:源于业务又作用于业务;

平台:基于数据也服务于数据。

整体看数据平台是由「数据流程」和「业务流程」两大运转主体共同构成的解决方案,两大主体相辅相成、互相依赖、密不可分。

从数据流程的视角看:不同业务类型企业的解决方案大同小异,目标都是为了保证数据整体的完整性、准确性、时效性;

从业务流程的视角看:不同业务类型企业的解决方案各有不同,本文中业务类型偏电商类。

二、数据的技术视角

数据从生产到应用的整体流程是任何一个数据从业者都绕不开的主题,即便是非数据领域的产品和运营同学,同样也应该对业务中数据的流向有个初步的认识。要展开描述,我们必须从数据的技术视角思考两个问题:

需要解决的问题是什么?

如何保证数据流中不同阶段的最优解?

1. 需要解决的问题是什么?

数据供给:提供便捷的数据生产方案,以数据产生为起点,规范数据整个主体的供给,为夯实数据平台的基础提供保障;

数据产出:保证数据在产出层面的普遍适用性。该阶段包括分析报表,自动化分析工具,查询入口等的建设;

过程管理:保证数据的完整性、准确性、时效性,实现数据从产生到应用全流程的高效管理。

2. 数据流的不同阶段如何保证最优解?

「立足现状,具体问题具体分析」,不同企业所处的业务发展阶段不同,所面对的问题会不一样。同样,业务本身特性及企业对数据建设的资源倾斜程度不同,也会直接影响数据全流程处理的差异。最重要的还是立足于现状,站在更高的战略视角去思考整体的解决方案。下面从技术视角以“数据流”为骨架展开讲解数据产生至应用各环节中我们分别需要做什么:

 2.1 数据产生

数据产生,这个阶段是最适合向业务方宣灌数据生产应用流程的阶段,因为该阶段的优劣将会直接影响之后的各环节。该阶段的关键字是「规范输入」,需要给数据上游的业务方提供可行的数据埋点规范(业务团队自身业务库除外):

数据接入流程:需要对业务数据的接入流程做全面了解,重点从数据认知层面规避“不合理的输入”;

数据上报地址及API应用方法:确定API应用规范,保证数据上报位置准确,上报信息不被丢弃;

埋点规范及内容 :在遵循数据接入埋点规范的前提下,保证各业务中具有差异性部分数据的完整性,通常会基于事件模型中的“who when how where what”几个关键要素设计埋点;

数据测试方法:数据测试方法也会依据埋点形式的不同而不同,一般分为前端和后端数据测试。前端常见测试抓包工具如“Fiddler”,后端通常将数据上报至测试服务器,捞取日志观察其完整性、实时性。

2.2 数据采集

数据采集,这个阶段是一个既主动又被动的环节。我们偶尔会收到xx业务方的疑问“为什么业务上线了,没有看到数据”,排查后才发现是因为模块日志并没有被采集。那该环节关键字便是「让日志被正确的采集」

针对现有业务:数据部门会提供给业务方不同场景下的模块日志采集方案清单,业务方只需按照现有清单选择模块上报,数据部门会自动收集;

针对新业务:数据部门会提供模块日志注册系统,形成良性注册机制,让数据部门提前感知,自动化收集模块数据。

 2.3 数据处理

数据处理、清洗是数据输入到仓库的前置阶段,该阶段关键字是「清洗规则」,目的是建立符合业务需要的数据清洗方案。比如什么格式的数据该被过滤;比如在广告投放中,用户符合哪种规则算是作弊用户;比如在用户行为数据中,符合哪种特征的行为算是爬虫用户等等。

2.4 数据仓库

数据仓库面向应用而生,该阶段的关键字是「分层、建模」。为了保证数据的普遍适用性及拓展性,会对仓库进行分层,通常分为:源数据层、数据仓库层、数据集市层、数据应用层。常见数据仓库模型为“星型模型”,星型模型就是一种典型的维度模型。我们在进行维度建模的时候会建一张事实表,这个事实表就是星型模型的中心,然后会有一堆维度表,这些维度表就是向外发散的星星。

 2.5 数据计算

Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP