(49) Cube 存储原理

编程入门 行业动态 更新时间:2024-10-24 11:12:24

(49) Cube 存储<a href=https://www.elefans.com/category/jswz/34/1770123.html style=原理"/>

(49) Cube 存储原理

1.cube存储原理

 

2.cube构建算法

 1)逐层构建算法(layer

我们知道,一个 N 维的 Cube ,是由 1 个 N 维子立方体、 N 个 (N-1) 维子立方体、 N*(N- 1)/2 个 (N-2) 维子立方体、 ...... 、 N 个 1 维子立方体和 1 个 0 维子立方体构成,总共有 2^N 个 子立方体组成,在逐层算法中,按维度数逐层减少来计算, 每个层级的计算 (除了第一层, 它是从原始数据聚合而来), 是基于它上一层级的结果来计算的。 比如, [Group by A, B] 的 结果,可以基于 [Group by A, B, C] 的结果,通过去掉 C 后聚合得来的;这样可以减少重复计 算;当 0 维度 Cuboid 计算出来的时候,整个 Cube 的计算也就完成了。 每一轮的计算都是一个 MapReduce 任务,且串行执行;一个 N 维的 Cube ,至少需要 N 次 MapReduce Job 。

算法优点: 1 )此算法充分利用了 MapReduce 的优点,处理了中间复杂的排序和 shuffle 工作,故而 算法代码清晰简单,易于维护; 2 )受益于 Hadoop 的日趋成熟,此算法非常稳定,即便是集群资源紧张时,也能保证最 终能够完成。 1 )当 Cube 有比较多维度的时候,所需要的 MapReduce 任务也相应增加;由于 Hadoop 的任务调度需要耗费额外资源,特别是集群较庞大的时候,反复递交任务造成的额外开销会 相当可观; 2 )由于 Mapper 逻辑中并未进行聚合操作,所以每轮 MR 的 shuffle 工作量都很大,导 致效率低下。 3 )对 HDFS 的读写操作较多:由于每一层计算的输出会用做下一层计算的输入,这些 Key-Value 需要写到 HDFS 上;当所有计算都完成后, Kylin 还需要额外的一轮任务将这些 文件转成 HBase 的 HFile 格式,以导入到 HBase 中去; 总体而言,该算法的效率较低,尤其是当 Cube 维度数较大的时候。 2 )快速构建算法( inmem

也被称作 “ 逐段 ”(By Segment) 或 “ 逐块 ”(By Split) 算法,从 1.5.x 开始引入该算法,该算 法的主要思想是,每个 Mapper 将其所分配到的数据块,计算成一个完整的小 Cube 段(包 含所有 Cuboid )。每个 Mapper 将计算完的 Cube 段输出给 Reducer 做合并,生成大 Cube , 也就是最终结果。如图所示解释了此流程。

与旧算法相比,快速算法主要有两点不同: 1 ) Mapper 会利用内存做预聚合,算出所有组合; Mapper 输出的每个 Key 都是不同的, 这样会减少输出到 Hadoop MapReduce 的数据量, Combiner 也不再需要; 2 )一轮 MapReduce 便会完成所有层次的计算,减少 Hadoop 任务的调配。

更多推荐

(49) Cube 存储原理

本文发布于:2024-02-11 03:36:45,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1678925.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:原理   Cube

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!