hadoop与第三方(CDH等)的比较

编程入门 行业动态 更新时间:2024-10-07 18:30:44

hadoop与<a href=https://www.elefans.com/category/jswz/34/1770258.html style=第三方(CDH等)的比较"/>

hadoop与第三方(CDH等)的比较

文章目录

      • 1.CDH 1、CDH简介
      • 2.社区版与第三方发行版的比较
        • 1.1 Apache社区版
        • 1.2 第三方发行版(CDH)
      • 3.第三方发行版的比较
      • 4.版本选择

1.CDH 1、CDH简介

CDH:全称Cloudera’s Distribution Including Apache Hadoop

CDH版本衍化

hadoop是一个开源项目,所以很多公司在这个基础进行商业化,Cloudera对hadoop做了相应的改变。

Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution
Hadoop)。截至目前为止,CDH共有5个版本,其中,前两个已经不再更新,最近的两个,分别是CDH4,在Apache Hadoop
2.0.0版本基础上演化而来的,CDH5,它们每隔一段时间便会更新一次。

1、Apache Hadoop 不足之处• 版本管理混乱• 部署过程繁琐、升级过程复杂• 兼容性差• 安全性低2、Hadoop 发行版• Apache Hadoop• Cloudera’s Distribution Including Apache Hadoop(CDH)• Hortonworks Data Platform (HDP)• MapR• EMR• …3、CDH能解决哪些问题• 1000台服务器的集群,最少要花费多长时间来搭建好Hadoop集群,包括Hive、Hbase、Flume、Kafka、Spark等等• 只给你一天时间,完成以上工作?• 对于以上集群进行hadoop版本升级,你会选择什么升级方案,最少要花费多长时间?• 新版本的Hadoop,与Hive、Hbase、Flume、Kafka、Spark等等兼容?4、CDH简介 • Cloudera's Distribution, including Apache Hadoop• 是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建• 提供了Hadoop的核心– 可扩展存储– 分布式计算• 基于Web的用户界面

5、CDH的优点  • 版本划分清晰• 版本更新速度快• 支持Kerberos安全认证• 文档清晰• 支持多种安装方式(Cloudera Manager方式)6、CDH安装方式• Cloudera Manager• Yum• Rpm• Tarball7、CDH下载地址• CDH5.4/•Cloudera Manager5.4.3:.html

2.社区版与第三方发行版的比较

1.1 Apache社区版

优点:

 完全开源免费社区活跃文档、资料详实

缺点:

1. 版本管理比较混乱,各种版本层出不穷,很难选择,选择其他生态组件时,比如Hive,Sqoop,Flume,Spark等,需要考虑         兼容性问题、版本匹配问题、组件冲突问题、编译问题等。2. 集群安装部署复杂,需要编写大量配置文件,分发到每台节点,容易出错,效率低。3. 集群运维复杂,需要安装第三方软件辅助。

1.2 第三方发行版(CDH)

优点:

 1. 版本管理清晰。CDH只有两个版本,cdh3和cdh4,分别对应Hadoop 1.0和Hadoop 2.0。2. 版本更新快。通常情况,比如CDH每个季度会有一个update,每一年会有一个release。3. 集群安装部署简单。提供了部署、安装、配置工具,大大提高了集群部署的效率4. 运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。

缺点:

涉及到厂商锁定的问题。

3.第三方发行版的比较

  • Cloudera:最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。
  • Hortonworks:不拥有任何私有(非开源)修改地使用了100%开源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且,它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行。
  • MapR:与竞争者相比,它使用了一些不同的概念,特别是为了获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS(使用非开源的组件)。可以使用本地Unix命令来代替Hadoop命令。除此之外,MapR还凭借诸如快照、镜像或有状态的故障恢复之类的高可用性特性来与其他竞争者相区别。该公司也领导着Apache Drill项目,本项目是Google的Dremel的开源项目的重新实现,目的是在Hadoop数据上执行类似SQL的查询以提供实时处理。

4.版本选择

当我们选择是否采用某个软件用于开源环境时,通常需要考虑:

(1)是否为开源软件,即是否免费。

(2) 是否有稳定版,这个一般软件官方网站会给出说明。

(3) 是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道。

(4) 是否有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法

更多推荐

hadoop与第三方(CDH等)的比较

本文发布于:2023-07-28 19:16:41,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1284876.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:第三方   hadoop   CDH

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!