淘系数据模型治理最佳实践

编程入门行业动态更新时间:2024-10-17 05:32:42

淘<a href=https://www.elefans.com/category/jswz/34/1759237.html style= 系数据模型治理最佳实践"/>

导读：本次分享题目为淘系数据模型治理，主要介绍过去一年淘系数据治理工作的一些总结。

具体将围绕以下4部分展开

首先介绍一下淘系的整体数据背景。

淘系的数据中台成立至今已有7年左右，一直未作数据治理，整体数据生成构成比为：人工创建（22%）+机器生成78%。其中活跃数据占比：9%，不规范数据占比：21%。

数据活跃以倒三角形状分布，整体分布比例为ads:dws:dwd:dim=8:2:1:1，分布还算合理。

上图中下半部分是模型的生命周期，增长和留存情况。淘系的业务还属于快速变化中，模型变化比较快。模型生命周期为25个月，模型年增长比例30%，模型留存44%。

公共层两大核心问题为：

首先，公共层表复用性不高。在2014年的时候公共层还比较规范，但可持续性不强。随着时间流逝，业务增长和变化，复用性就逐年降低。因为大部分的数据是应用层做的，他们会开发自己的公共层，复用性降低，大部分都是无效表。
另外，公共数据表在各个团队分布不合理。这是由于数据团队多，为了满足业务开发效率，每个团队都有自己的公共表，容易出现公共表复用占比低，重复建设的场景。其中淘宝数据团队负责最多的公共数据表。

应用层的主要问题包括：

第一，公共层建设不足或公共层透出不足。随着时间增长，公共层的指标不能满足ads层的业务需要，ads复用指标逻辑没有下层，引用cdm层的ads表占比逐年降低，引用ads的ads表占比逐年增高。
第二，较多的ads表共性逻辑未下沉，统计显示超过17.63%ads表被下游ads复用。
第三，跨集市依赖严重，统计显示，整体跨集市依赖占比为30%，特别是大进口和淘宝数据跨集市依赖达到了40%，影响模型的稳定性，影响了模型的下线、修改。