框架"/>
数仓面经大框架
1.计算机及编程基础:
操作系统:进程、线程等
数据结构:算法题
计算机网络:分层等
Linux:常用的指令
MySQL(重点)
Java/Python基础
排序算法(快排、归并等)
2.大数据组件
Hadoop: HDFS (重点),MapReduce (重点), Yarn
Spark
Hive
从功能,原理,组成,运行流程
调优(重点) ,Hive调优(参数、sql),Spark调优(资源、开发算子、数据倾斜、参数)
3.数据仓库
数据仓库及数据建模理论(重点)
数仓搭建流程、数仓分层(优势、内容)、维度建模等
4.项目
项目板块主要包括项目的背景介绍、面向业务需求及方案、个人负责工作内容、数仓建设情况介绍等。
业务
业务背景,数仓面向的业务需求(模型数据、后端数据、用户画像、项目用户流量概况、项目内部建设概况、项目营收概况报表展示)。
技术及方案
技术栈 (数据抽取(增量,全量)、数仓模型开发、业务需求指标开发、BI 报表开发..);
数仓的数据域设计与建设,分层建设,包括的关键表,关键指标;
开发流程(需求分析、口径确认),核心指标;
实际开发过程中遇到的困难,解决思路。
数据质量及数据治理: (补充)
对其的理解及应用情况的了解。
数据质量DQC关注方面(每一层重点关注方面不同):完整性、准确性、一致性、唯一性、时效性。
数据质量监控对象:业务核心表、字典型基础数据、外部数据接口表。
DQC配置方案,定时,依赖。...
数据治理:时效、质量、可用、安全、成本。
稳定性与质量治理:及时性和准确性问题。
规范治理:数据口径一致性问题。
安全治理:数据权限控制数据共享交换问题。
成本治理:解决数据计算和存储成本高昂问题。
数据治理的痛点。文件形式流转、缺少量化评估,推动缓慢、缺少灵活友好管理工具支持治理工作等。
5.SQL场景题
熟悉SQL执行流程:
from- >on- >join- >where- >group by->聚合函数- >having- >select- >distinct- >order by- >limit.
经典题目
1. 排序
2. 留存率
3. 行转列,列转行
4.连续登录
左右连接 left/right join;
where 过滤主表,on过滤副表及表间连接;
中间表witht1 as(),嵌套子表from () t1
Case when .. then .. else .. end
操作函数 substring, concat, round
聚合函数 sum、count. avg
窗口函数 (重点) sum、rank、 dense. rank、rank、 partition by 、 order by
6.反问
1.部门业务了解,对于工作业务背景及需求提前了解;
2.离线实时采用的技术组件;
3.部门人数,大致了解数仓同事人数,可以大致判断hc;
4.部门氛围,部门上下班时间;
5.之前回答不好的问题(开放类型)。
# 面经源于网络收集整理,供大家学习分享。
更多推荐
数仓面经大框架
发布评论