数据处理平台"/>
第2章 Hadoop大数据处理平台
第2章 Hadoop大数据处理平台
- 一、Hadoop平台概述
- 1.1 Hadoop简介
- 1.2 Hadoop特性
- 二、Hadoop生态系统
- 2.1 Hadoop存储系统(HDFS&HBase)
- 2.2 Hadoop计算框架(MapReduce&YARN)
- 2.3 Hadoop 数据仓库(Hive)
- 2.4 Hadoop 数据转换与日志处理(Sqoop&Flume)
- 2.5 Hadoop 应用协调与工作流(ZooKeeper&Oozie)
- 2.6 大数据安全技术(Kerberos&LDAP)
- 2.7 大数据即时查询和搜索(Impala&Solr)
- 2.8 大数据消息订阅(Kafka)
一、Hadoop平台概述
1.1 Hadoop简介
- Apache基金会所开发的分布式计算平台。
- 旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。
- 基于java开发。
- 两个核心组件hdfs和MapReduce。
1.2 Hadoop特性
- 高可靠性
- 高拓展性
- 高效性
- 低成本
二、Hadoop生态系统
2.1 Hadoop存储系统(HDFS&HBase)
- 分布式文件系统(HDFS)
- java实现、分布式、可横向拓展。
- 可储存超大文件、采用流式数据访问模式,运行于通用x86服务器上
- 在某个节点发生故障时可以及时有其他正常节点继续向用户提供服务。
- 分布式数据库HBase
- 高可靠性、高性能、面向列、可伸缩的分布式存储系统
- 非关系型数据库
- 基于列而不是基于行的模式
2.2 Hadoop计算框架(MapReduce&YARN)
-
离线计算框架(MapReduce)
- MapReduce是一种编程模型,他将一个复杂的问题分解成处理子集的子问题,并将操作分为Map和Reduce两个过程。
- Map是对子问题分别进行处理,得出中间结果。
- Reduce是中间结果进行汇总处理,得出最终结果。
-
资源管理系统(YARN)
- 为上层应用提供统一的资源管理和调度。
- 可以统一管理多种计算框架,MapReduce,spark、storm等。
2.3 Hadoop 数据仓库(Hive)
- 将结构化的数据文件映射为数据库表,并提供类SQL查询功能。
- 组件包括:Hcatalog和WebHCat.
- Hcatalog用于管理Hadoop的表和源数据。,用户可以使用不同的数据处理工具轻松地在网格上读取和写入数据。
- WebHCat是Hcatalog的REST接口,使用户能通过安全的https协议执行操作。
2.4 Hadoop 数据转换与日志处理(Sqoop&Flume)
- 数据转换工具(Sqoop)
- 高效传输批量数据的工具。
- 日志处理系统(Flume)
- 用于高效收集、聚合和移动大量日志数据的系统。
2.5 Hadoop 应用协调与工作流(ZooKeeper&Oozie)
- 分布式协调服务(ZooKeeper)
- 为分布式应用程序提供配置维护、域名服务、分布式同步等服务。
- 工作流调度程序(Oozie)
- 是一种java Web的应用程序,用于管理Apache Hadoop作业的工作流调度系统。
2.6 大数据安全技术(Kerberos&LDAP)
- 网络认证协议(Kerberos)
- 采用c/s结构与DES和AES等加密技术提供认证服务。
- 轻量目录访问协议(LDAP)
- 提供被称为目录服务的信息服务。
- 为应用程序提供访问、认证和授权的集中管理。
2.7 大数据即时查询和搜索(Impala&Solr)
- 查询系统(Impala)
- 新型查询系统,提供sql语义。
- 使用高并发的MPP查询引擎。
- 搜索系统(Solr)
- 企业搜索平台。
- 为世界上许多大型的互联网站点提供搜索和导航功能。
2.8 大数据消息订阅(Kafka)
- 高吞吐量的分布式发布-订阅消息系统。
更多推荐
第2章 Hadoop大数据处理平台
发布评论