逻辑"/>
拉链表通用逻辑
在网上可以找到很多拉链表的文章,都讲述了拉链表是怎么回事儿,但是其实拉链表的逻辑是可以通用的,这个点却很少有人将,那我就为百度搜索贡献一篇文章吧。
按照正常的逻辑,数仓的ods层表应该跟源系统保持一致,根据ods表中的create_time和modify_time来获取每日新增或更新的数据,把这部分数据放入一个中间表【dm.dwd_user_his_upsert】中,通过这些有变化的数据即可实现拉链表逻辑。但是因为有的系统建设得很早,所以不是所有的ods表都有create_time和modify_time这两个字段,当没有这两个字段的时候,我们可以通过比对全量表两天之间的变化来确定出新增和更新的数据行,因为此分为了【增量拉链】逻辑和【全量拉链】逻辑,全量逻辑只是在增量逻辑之前增加了一个比对步骤。以下步骤基于MySQL,可应用于支持update的数仓存储系统。
增量拉链
关注点
- 需要从ods表中提取出每日新增或者更细的数据
- 可从某特定日期开始重跑(从该日期断链,然后重新按天增量数据拉链)
实现过程
1、创建表
CREATE DATABASE IF NOT EXISTS dm DEFAULT CHARSET utf8 COLLATE utf8_general_ci;CREATE TABLE `dm`.`dwd_user_his_upsert` (`user_id` bigint(20) NOT NULL COMMENT '主键', `phone_num` varchar(11) DEFAULT NULL COMMENT '数据库连接', `register_date` varchar(10) DEFAULT NULL COMMENT '用户名', `dt` varchar(8) DEFAULT NULL COMMENT '数据入ods日期'
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='用户表-存放每日增量数据';CREATE TABLE `dm`.`dwd_user_his` (`user_id` bigint(20) NOT NULL COMMENT '主键', `phone_num`
更多推荐
拉链表通用逻辑
发布评论