Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集

编程入门行业动态更新时间:2024-10-14 06:20:04

Hadoop、Pig、Hive、Storm、NOSQL 学习<a href=https://www.elefans.com/category/jswz/34/1770980.html style= 资源收集"/>

Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集

（一）hadoop 相关安装部署
（二）hive
（三）pig
（四）hadoop原理与编码
（五）数据仓库与挖掘
（六）Oozie工作流
（七）HBase
（八）flume
（九）sqoop
（十）ZooKeeper
（十一）NOSQL
（十二）Hadoop 监控与管理
（十三）Storm
（十四）YARN & Hadoop 2.0
（十五）hadoop 数据平台架构
附：

（一）hadoop 相关安装部署

1、hadoop在windows cygwin下的部署：

2、hadoop 伪分布式安装：

3、hadoop全分布式安装教程：

4、实战 windows7 下 eclipse 远程调试 linux hadoop

5、单台服务器上安装Hadoop和Hive十五分钟教程

ssh-keygen -t dsa -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

=wb

注意：

在centos下，仅仅上述操作是不行的，还需要如下步骤：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 sudo vi /etc/ssh/sshd_config RSAAuthentication yes PubkeyAuthentication yes AuthorizedKeysFile . ssh /authorized_keys service sshd restart 注： ssh 可同时支持publickey和password两种授权方式，publickey默认不开启，需要配置为 yes 。 如果客户端不存在. ssh /id_rsa ，则使用password授权；存在则使用publickey授权； 如果publickey授权失败，依然会继续使用password授权。不要设置 PasswordAuthentication no ，它的意思是禁止密码登录，这样就只能本机登录了！ 但是此时依然会报错， Permission denied (publickey,gssapi-keyex,gssapi-with-mic). 然后： vi /etc/selinux/config SELINUX=disabled chmod 700 ~/. ssh chmod 600 ~/. ssh /authorized_keys 最后重启你的 linux 执行 ssh localhost

参考：

.htm

.shtml

.php?topic_id=33048

8、hadoop集群搭建总结

.html

9、Hadoop For Windows

10、Build and Install Hadoop 2.2 or newer on Windows

11、Build, Install, Configure and Run Apache Hadoop 2.2.0 in Microsoft Windows OS

.2.0-microsoft-windows-os

（二）hive

1、基于hive的日志统计实战：

2、Hive实例：CSDN十大常用密码

.html

（安装步骤）

3、hive官方教程：

4、Hive 随谈（四）– Hive QL

# JOIN

.html

5、写好Hive 程序的五个提示

#排序

6、Hadoop数据仓库工具--hive介绍（百度）

.html

7、hive 分享（淘宝网）

.html

8、hive简介（美丽说）

.html

9、Hive学习笔记（阿里巴巴）

.html

10、Hive - 运用于hadoop的拍字节范围数据仓库（论文）

.html

11、Hive: SQL for Hadoop（An Essential Tool for Hadoop-based Data Warehouses）

.pdf

12、Programming Hive

.html

13、Hive 随谈（六）– Hive 的扩展特性:

File Format、SerDe、Map/Reduce 脚本（Transform）、UDF、UDAF

14、hive 数据倾斜总结

15、用hive查询json格式的复杂数据

16、同事总结的hive sql 优化

17、通过 thrift 接口实现 python 查询 hive 数据仓库

18、通过 thrift 接口实现 php 查询 hive 数据仓库（以及phpHiveAdmin简介）

.html

19、Hive SQL使用和数据加载的一点总结

20、hive优化之——控制hive任务中的map数和reduce数

21、hive中一些实用的小技巧

22、数据仓库数据模型之：极限存储--历史拉链表

23、Programing Hive读书笔记

.html

24、数据开发技术概览（一淘数据部）

/%E6%95%B0%E6%8D%AE%E5%BC%80%E5%8F%91%E6%8A%80%E6%9C%AF-%E5%86%B7%E5%B7%9D.pdf

25、Hive r0.9.0中文文档（二）之联表查询Join

26、基于Hadoop的内部海量数据服务平台（淘宝网）

27、hive 配置参数说明

.html

28、hive 调优（Hortonworks）

29、Hive 基础之：分区、桶、Sort Merge Bucket Join（桶 join）

30、深入学习《Programing Hive》：Tuning

31、利用SemanticAnalyzerHook来过滤不加分区条件的Hive查询

（三）pig

1、pig 实战

.html

2、pig官方教程

3、Apache Pig中文教程集合

/?p=4550

4、Programming Pig

.html

=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ved=0CCcQFjAA&url=http%3A%2F%2Fbigdata.googlecode%2Ffiles%2FOreilly.Programming.Pig.Sep.2011.pdf&ei=DLGDUNbcI4aTiQfus4HADQ&usg=AFQjCNGzTHIYcc2GuU6ko0TgIKm3UN9T5Q&sig2=2DZtn3yP4KVqro7xt_qAOA

5、PigFly：hadoop 统一数据分析平台设计（淘宝）

.html

6、用 Apache Pig 处理百万歌曲数据（cloudera）

7、Pig Latin: A Not-So-Foreign Language for Data Processing（斯坦福大学论文）

.pdf

8、Lecture 09: Parallel Databases, Big Data, Map/Reduce, Pig-Latin

.pdf

9、Pig Queries Parsing JSON on Amazons Elastic Map Reduce Using S3 Data

10、pig cookbook：性能调优

.7.0/cookbook.html

.10.0/perf.html#Replicated-Joins

11、pig stream 用法：

12、Analyzing Big Data with Twitter

UC Berkeley Course Lectures: Analyzing Big Data With Twitter

/ 在线观看，自备梯子

.htm 金山快盘下载

13、Apache Pig 性能优化

.pdf

.html

14、Hadoop pig进阶语法

.html

15、在java中嵌入pig：Embedding Pig In Java Programs

16、Pig 邮件组用户精华问题汇总

（四）hadoop原理与编码

1、hadoop使用中的几个小细节

2、hadoop中map-reduce相关过程与概念的理解：更多请浏览目录

4、IBM developerworks：用 Hadoop 进行分布式并行编程系列, 第 1 ～3 部分

.html

5、分布式计算开源框架Hadoop介绍

6、Hadoop基本流程与应用开发( Java )

7、hadoop 源码分析

/?page=2

8、hadoop数据流、作业提交分析

.html

9、Hadoop管理员的十个最佳实践

10、hadoop、hive源码分析及使用分享

/?cat=7#

11、Hadoop计算能力调度器应用和配置（区别于默认的FIFO队列调度）

.html

12、浅析Hadoop 中的调度策略

.html

Hadoop-0.20.2公平调度器算法解析

Hadoop计算能力调度器算法解析

Hadoop Capacity Scheduler配置使用记录

.html

hadoop mapred-queue-acls 多队列调度配置

Hadoop资源感知调度器简介

13、hadoop作业调优参数整理及原理

.html

14、比较全的hadoop源码分析

15、如何在Hadoop上编写MapReduce程序

16、Hadoop学习笔记（二）：从map到reduce的数据流

.html

17、通过Hadoop的API管理Job

18、揭秘InputFormat：掌控Map Reduce任务执行的利器

19、Hadoop MapReduce开发最佳实践（上篇）

20、Hadoop实例：二度人脉与好友推荐

21、探索大数据分析和 Hadoop

.html

22、Hadoop关于处理大量小文件的问题和解决方法

23、下一代 Hadoop YARN 简介：相比于MRv1，YARN的优势

24、HDFS基本知识整理

.html

25、海量小文件的存储和检索：facebook 图片存储架构

.html

26、Hadoop -- MapReduce过程

.html

27、MapReduce: 详解 Shuffle 过程

Shuffle过程剖析及性能优化

混洗和排序

.html 部分执行流程

Hadoop/MapReduce/Reducer wiki

28、Hadoop MapReduce Job性能调优——修改Map和Reduce个数

hive执行作业时reduce任务个数设置为多少合适

29、Hadoop分布式文件系统(HDFS)可靠性的研究与优化（硕士论文）

.html

30、Apache Avro 与 Thrift 比较

31、Hadoop Job Tuning（hadoop作业调优）

.html

32、mapreduce的二次排序 SecondarySort

.html

33、Hadoop学习总结Map-Reduce的过程解析

34、Hadoop平台优化综述（一）

Hadoop平台优化综述（二）

35、hadoop 0.20.2版本升级到1.0.3 记录

.html

36、MapReduce – 用户编程接口简介

.html

Hadoop入门教程(四):MR作业的提交监控、输入输出控制及特性使用

.html

37、Quick Introduction To Apache Hadoop MapReduce Java API

38、中小规模Hadoop集群优化

39、namenode 内部关键数据结构简介

=wb

40、Mapreduce/Hadoop 在淘宝测试中的应用

应用MapReduce制作压测利器

HDFS性能压测工具浅析

用云存储实现对云计算的监控

41、Enable Multiple threads in a mapper aka MultithreadedMapper

.html

（五）数据仓库与挖掘

1、数据仓库基础培训

.html

数据仓库层次结构规范

.html

2、数据仓库ods基础学习

.html

3、HBDW-PM-数据仓库基础

.html

4、mahout in action

/%5BMahout.in.Action(2011)%5D.Sean.Owen.pdf

5、数据仓库之 ETL漫谈

6、数据分析和数据挖掘的区别

（六）Oozie工作流

1、Oozie简介

2、跟着示例学Oozie

3、扩展Oozie

4、oozie相关安装配置与问题解决例子

5、oozie总结

.html

6、双十一后台数据分析利器 —— Apache Oozie 工作流调度系统介绍与 Tips

.html

7、大数据处理工作流调度系统——oozie及相关产品介绍

（七）HBase

1、hbase官方指南及其性能调优

.html

HBase性能优化方法总结

.htm HBase性能优化的四个要点

HBase性能参数调优

2、HBase技术介绍

.html

3、HBase入门篇2-Java操作HBase例子

.html

4、hbase基本概念和hbase shell常用命令用法

.html

5、 HBase简介

6、HBase 官方文档（中文版）

.html （0.90）

.html （0.95）

8、hbase系统架构及数据结构

9、[翻译] HBase存储架构

/%E7%BF%BB%E8%AF%91-hbase%E5%AD%98%E5%82%A8%E6%9E%B6%E6%9E%84/

10、HBase存储文件格式概述

11、Hbase, Hive and Pig 介绍（肯特大学）

.pptx

12、python 调用HBase 实例

13、hbase在淘宝的应用和优化小结

.pdf

14、hbase伪分布式安装指南：

15、HBase上关于CMS、GC碎片、大缓存的一种解决方案：Bucket Cache

注：作者来自阿里，据称读性能能提升一个数量级，该patch已被hbase社区接受。

16、HBase 一些 tip

.html

.html 应用设计tip

17、阿里巴巴测试团队总结的一些 Hbase 问题：

（1）HBase 线上问题分析小记

（2）HBase Bug 知多少

（3）HBase使用中几个容易犯的小错误

18、为Hbase建立高可用性多主节点

.html

19、HBase二级索引与Join

20、HBase二级索引方案总结

.html

21、Hbase存储架构（整理）

22、HBase框架简介(整理)

23、HBase列族高级配置

.html

24、HBase Administration, Performance Tuning

25、阿里hbase业务设计实践

.htm?topicId=89

26、HBase业务实践（淘宝）

/?p=457

27、HBase Architecture(译)

/ 上

/ 中

/ 下

28、HBase性能深度分析

29、HBase in 2013：HBase 新特性介绍

/?p=434

30、HBase写数据过程

31、使用 HBase coprocessor 进行 Region Server 端的聚合计算

（1）使用HBase EndPoint（coprocessor）进行计算 .html

（2）HBase 利用Coprocessor实现聚合函数

（3）HBase coprocessor使用 .html

（4）玩转HBase: Coprocessor Endpoint (2)：coprocessorProxy和coprocessorExec的合理运用

（八）flume

1、Flume日志收集原理与实践

flume 真正分布式配置方法

Flume——安装与配置

.html

flume总体集群建设方案

.html

2、官方文档：

.html

3、Flume NG 配置

4、flume概念

.html

5、flume-ng如何根据源文件名输出到HDFS文件名

.html

6、Hadoop的ETL任务—Flume使用及其优化（品友互动）

.html

7、基于Flume的美团日志收集系统(一)架构和设计

.html

8、基于Flume的美团日志收集系统(二)改进和优化

.html

（九）sqoop

1、sqoop的安装、配置及使用简介

=weibolife

2、Sqoop示例

3、使用Sqoop在HDFS和RDBMS之间导数据

.htm

4、Sqoop User Guide (v1.4.2)

.4.2/SqoopUserGuide.html?utm_source=weibolife#_introduction

5、用sqoop进行mysql和hdfs系统间的数据互导

.html

6、Mysql<->sqoop<->HDFS 数据交换实验

7、MapReduce直接连接Mysql获取数据

（十）ZooKeeper

1、ZooKeeper Administrator's Guide

.4.3/zookeeperAdmin.html

2、ZooKeeper快速搭建

3、ZooKeeper管理员指南——部署与管理ZooKeeper

=sinat

4、Zookeeper工作原理

=sa

5、分布式服务框架 Zookeeper -- 管理分布式环境中的数据

6、分布式服务框架：Zookeeper

.html

（十一）NOSQL

1、Redis资料汇总专题

.html

2、MongoDB资料汇总专题

.html

3、NoSQL数据库笔谈

.html

4、redis入门系列

.html

5、Redis经验谈

6、三英战SQL：解析NoSQL的可靠性及扩展操作

7、分布式缓存-Memcached

.html

8、Redis 设计与实现

9、SQL to MongoDB Mapping Chart

10、redis 常识

11、NoSQL反模式 - 文档数据库篇

12、SQL到NOSQL的思维转变

=wb

13、一致性hash算法 - consistent hashing

.html

（十二）Hadoop 监控与管理

1、云计算平台管理的三大利器Nagios、Ganglia和Splunk

2、不一样的HBase监控系统

/?p=140

3、Hadoop和HBase集群的JMX监控

4、hadoop 补丁升级

给hadoop 0.20.2打patch补丁

hadoop升级

5、Analyzing Data with Hue and Hive

6、Using Hue to Access Hive Data Through Pig

（十三）Storm

1、storm 简介及单机版安装指南

2、storm入门教程

3、Storm应用小结

4、分布式流式处理框架：Storm

.html

（十四）YARN & Hadoop 2.0

1、Hadoop 1.0与Hadoop 2.0资源管理方案对比

2、更快、更强——解析Hadoop新一代MapReduce框架Yarn

（十五）hadoop 数据平台架构

1、大众点评的大数据实践

2、从数据收集到海量处理和实时处理（唯品会）

更多推荐

Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集

本文发布于:2024-02-27 17:26:15，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1707538.html

上一篇： c语言最佳适应算法结构体,操作系统——首次适应算法和最佳适应算法实现（C++)...
下一篇： Hadoop集群总结

发布评论取消回复

评论列表（有 0 条评论）

Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集