admin管理员组

文章数量:1607679

作者:禅与计算机程序设计艺术

1.简介

随着互联网和大数据的普及以及处理器性能的提升,当时的技术已经远远超过了当时能够想象的范围。这段时间MapReduce计算框架已经成为一个主流的开源计算框架,包括Hadoop、Pig、Hive、Mahout、Storm等。
2010年Apache Spark横空出世,基于内存计算框架,是当前最火的大数据分析引擎之一,基于Scala语言实现,是Hadoop MapReduce的替代者。Spark支持Java、Python、R等多种编程语言,其快速的计算速度让其广受欢迎。
2014年Facebook开发Hive,支持HQL(Hive Query Language)语法查询大数据,成为目前最流行的大数据分析工具。Hive自带数据倾斜解决方案、复杂SQL语句自动优化和分区表支持等功能均十分强大。
2017年谷歌开发了Google Cloud Dataproc,为用户提供云端运行Hadoop、Spark和Hive集群的能力,解决由于Hadoop单点故障导致业务无法正常运行的问题。
2018年,微软发布了Azure HDInsight,作为服务于企业的Hadoop、Spark、Hive集群管理平台,帮助客户轻松创建、删除和配置计算资源,提升大数据工作负载的效率。此外,还有更多的平台提供大数据服务,例如Cloudera、Databricks、Amazon EMR等。
20

本文标签: 原理HadoopSparkHive