（49） Cube 存储原理

编程入门行业动态更新时间:2024-10-24 11:12:24

（49） Cube 存储<a href=https://www.elefans.com/category/jswz/34/1770123.html style= 原理"/>

（49） Cube 存储原理

1.cube存储原理

2.cube构建算法

1）逐层构建算法（layer）

我们知道，一个 N 维的 Cube ，是由 1 个 N 维子立方体、 N 个 (N-1) 维子立方体、 N*(N- 1)/2 个 (N-2) 维子立方体、 ...... 、 N 个 1 维子立方体和 1 个 0 维子立方体构成，总共有 2^N 个子立方体组成，在逐层算法中，按维度数逐层减少来计算，每个层级的计算（除了第一层，它是从原始数据聚合而来），是基于它上一层级的结果来计算的。比如， [Group by A, B] 的结果，可以基于 [Group by A, B, C] 的结果，通过去掉 C 后聚合得来的；这样可以减少重复计算；当 0 维度 Cuboid 计算出来的时候，整个 Cube 的计算也就完成了。每一轮的计算都是一个 MapReduce 任务，且串行执行；一个 N 维的 Cube ，至少需要 N 次 MapReduce Job 。

算法优点： 1 ）此算法充分利用了 MapReduce 的优点，处理了中间复杂的排序和 shuffle 工作，故而算法代码清晰简单，易于维护； 2 ）受益于 Hadoop 的日趋成熟，此算法非常稳定，即便是集群资源紧张时，也能保证最终能够完成。 1 ）当 Cube 有比较多维度的时候，所需要的 MapReduce 任务也相应增加；由于 Hadoop 的任务调度需要耗费额外资源，特别是集群较庞大的时候，反复递交任务造成的额外开销会相当可观； 2 ）由于 Mapper 逻辑中并未进行聚合操作，所以每轮 MR 的 shuffle 工作量都很大，导致效率低下。 3 ）对 HDFS 的读写操作较多：由于每一层计算的输出会用做下一层计算的输入，这些 Key-Value 需要写到 HDFS 上；当所有计算都完成后， Kylin 还需要额外的一轮任务将这些文件转成 HBase 的 HFile 格式，以导入到 HBase 中去；总体而言，该算法的效率较低，尤其是当 Cube 维度数较大的时候。 2 ）快速构建算法（ inmem ）

也被称作 “ 逐段 ”(By Segment) 或 “ 逐块 ”(By Split) 算法，从 1.5.x 开始引入该算法，该算法的主要思想是，每个 Mapper 将其所分配到的数据块，计算成一个完整的小 Cube 段（包含所有 Cuboid ）。每个 Mapper 将计算完的 Cube 段输出给 Reducer 做合并，生成大 Cube ，也就是最终结果。如图所示解释了此流程。

与旧算法相比，快速算法主要有两点不同： 1 ） Mapper 会利用内存做预聚合，算出所有组合； Mapper 输出的每个 Key 都是不同的，这样会减少输出到 Hadoop MapReduce 的数据量， Combiner 也不再需要； 2 ）一轮 MapReduce 便会完成所有层次的计算，减少 Hadoop 任务的调配。

更多推荐

（49） Cube 存储原理

本文发布于:2024-02-11 03:36:45，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1678925.html