淘系数据模型治理最佳实践

编程入门 行业动态 更新时间:2024-10-17 05:32:42

淘<a href=https://www.elefans.com/category/jswz/34/1759237.html style=系数据模型治理最佳实践"/>

淘系数据模型治理最佳实践

导读:本次分享题目为淘系数据模型治理,主要介绍过去一年淘系数据治理工作的一些总结。

具体将围绕以下4部分展开

  • 模型背景&问题
  • 2问题分析
  • 3治理方案
  • 4未来规划

模型背景&问题

1.整体情况

首先介绍一下淘系的整体数据背景。

淘系的数据中台成立至今已有7年左右,一直未作数据治理,整体数据生成构成比为:人工创建(22%)+机器生成78%。其中活跃数据占比:9%,不规范数据占比:21%。

数据活跃以倒三角形状分布,整体分布比例为ads:dws:dwd:dim=8:2:1:1,分布还算合理。

上图中下半部分是模型的生命周期,增长和留存情况。淘系的业务还属于快速变化中,模型变化比较快。模型生命周期为25个月,模型年增长比例30%,模型留存44%。

2.公共层

公共层两大核心问题为:

  • 首先,公共层表复用性不高。在2014年的时候公共层还比较规范,但可持续性不强。随着时间流逝,业务增长和变化,复用性就逐年降低。因为大部分的数据是应用层做的,他们会开发自己的公共层,复用性降低,大部分都是无效表。
  • 另外,公共数据表在各个团队分布不合理。这是由于数据团队多,为了满足业务开发效率,每个团队都有自己的公共表,容易出现公共表复用占比低,重复建设的场景。其中淘宝数据团队负责最多的公共数据表。

3.应用层分析

应用层的主要问题包括:

  • 第一,公共层建设不足或公共层透出不足。随着时间增长,公共层的指标不能满足ads层的业务需要,ads复用指标逻辑没有下层,引用cdm层的ads表占比逐年降低,引用ads的ads表占比逐年增高。
  • 第二,较多的ads表共性逻辑未下沉,统计显示超过17.63%ads表被下游ads复用。
  • 第三,跨集市依赖严重,统计显示,整体跨集市依赖占比为30%,特别是大进口和淘宝数据跨集市依赖达到了40%,影响模型的稳定性,影响了模型的下线、修改。

问题分析

1.问题汇总

以上这副图是简化后的数据模型,我们可以发现存在很多不规范问题影响了模型的稳定性。业务在快速发展的情况下,为了快速响应业务需求,产生模型问题是必然的。日常工作中&#

更多推荐

淘系数据模型治理最佳实践

本文发布于:2024-02-26 19:19:22,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1703599.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:系数   模型

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!