Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集

编程入门 行业动态 更新时间:2024-10-14 06:20:04

Hadoop、Pig、Hive、Storm、NOSQL 学习<a href=https://www.elefans.com/category/jswz/34/1770980.html style=资源收集"/>

Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集

  • (一)hadoop 相关安装部署
  • (二)hive
  • (三)pig
  • (四)hadoop原理与编码
  • (五)数据仓库与挖掘
  • (六)Oozie工作流
  • (七)HBase
  • (八)flume
  • (九)sqoop
  • (十)ZooKeeper
  • (十一)NOSQL
  • (十二)Hadoop 监控与管理
  • (十三)Storm
  • (十四)YARN & Hadoop 2.0
  • (十五)hadoop 数据平台架构
  • 附:

(一)hadoop 相关安装部署

1、hadoop在windows cygwin下的部署:

 

2、hadoop 伪分布式安装:

/

3、hadoop全分布式安装教程:

4、实战 windows7 下 eclipse 远程调试 linux hadoop

5、单台服务器上安装Hadoop和Hive十五分钟教程

/

ssh-keygen -t dsa -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

=wb

注意:

在centos下,仅仅上述操作是不行的,还需要如下步骤:

?
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 sudo vi /etc/ssh/sshd_config RSAAuthentication yes  PubkeyAuthentication yes  AuthorizedKeysFile     . ssh /authorized_keys service sshd restart 注: ssh 可同时支持publickey和password两种授权方式,publickey默认不开启,需要配置为 yes 如果客户端不存在. ssh /id_rsa ,则使用password授权;存在则使用publickey授权; 如果publickey授权失败,依然会继续使用password授权。不要设置 PasswordAuthentication no ,它的意思是禁止密码登录,这样就只能本机登录了! 但是此时依然会报错, Permission denied (publickey,gssapi-keyex,gssapi-with-mic). 然后: vi /etc/selinux/config  SELINUX=disabled  chmod 700 ~/. ssh chmod 600 ~/. ssh /authorized_keys 最后重启你的 linux 执行 ssh localhost
参考:

.htm

.shtml

.php?topic_id=33048

8、hadoop集群搭建总结

.html

9、Hadoop For Windows

/

10、Build and Install Hadoop 2.2 or newer on Windows

11、Build, Install, Configure and Run Apache Hadoop 2.2.0 in Microsoft Windows OS

.2.0-microsoft-windows-os


(二)hive

1、基于hive的日志统计实战:

2、Hive实例:CSDN十大常用密码

.html

 (安装步骤)

3、hive官方教程:

4、Hive 随谈(四)– Hive QL

   # JOIN

.html

5、写好Hive 程序的五个提示

  #排序

6、Hadoop数据仓库工具--hive介绍(百度)

.html

7、hive 分享(淘宝网)

.html

8、hive简介(美丽说)

.html

9、Hive学习笔记(阿里巴巴)

.html

10、Hive - 运用于hadoop的拍字节范围数据仓库(论文)

.html

11、Hive: SQL for Hadoop(An Essential Tool for Hadoop-based Data Warehouses)

.pdf

12、Programming Hive

.html

13、Hive 随谈(六)– Hive 的扩展特性: 

File Format、SerDe、Map/Reduce 脚本(Transform)、UDF、UDAF

14、hive 数据倾斜总结

15、用hive查询json格式的复杂数据

/

16、同事总结的hive sql 优化

 

17、通过 thrift 接口实现 python 查询 hive 数据仓库

18、通过 thrift 接口实现 php 查询 hive 数据仓库(以及phpHiveAdmin简介)

.html

.html

19、Hive SQL使用和数据加载的一点总结

20、hive优化之——控制hive任务中的map数和reduce数

21、hive中一些实用的小技巧

22、数据仓库数据模型之:极限存储--历史拉链表

23、Programing Hive读书笔记

.html

24、数据开发技术概览(一淘数据部)

/%E6%95%B0%E6%8D%AE%E5%BC%80%E5%8F%91%E6%8A%80%E6%9C%AF-%E5%86%B7%E5%B7%9D.pdf

25、Hive r0.9.0中文文档(二)之联表查询Join

26、基于Hadoop的内部海量数据服务平台(淘宝网)

27、hive 配置参数说明

.html

.html

28、hive 调优(Hortonworks)

29、Hive 基础之:分区、桶、Sort Merge Bucket Join(桶 join)

30、深入学习《Programing Hive》:Tuning

31、利用SemanticAnalyzerHook来过滤不加分区条件的Hive查询


(三)pig

1、pig 实战

.html

2、pig官方教程

/

3、Apache Pig中文教程集合

/?p=4550

4、Programming Pig

.html

=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ved=0CCcQFjAA&url=http%3A%2F%2Fbigdata.googlecode%2Ffiles%2FOreilly.Programming.Pig.Sep.2011.pdf&ei=DLGDUNbcI4aTiQfus4HADQ&usg=AFQjCNGzTHIYcc2GuU6ko0TgIKm3UN9T5Q&sig2=2DZtn3yP4KVqro7xt_qAOA

5、PigFly:hadoop 统一数据分析平台设计(淘宝)

.html

6、用 Apache Pig 处理百万歌曲数据(cloudera)

/

7、Pig Latin: A Not-So-Foreign Language for Data Processing(斯坦福大学论文)

.pdf

8、Lecture 09: Parallel Databases, Big Data, Map/Reduce, Pig-Latin

.pdf

9、Pig Queries Parsing JSON on Amazons Elastic Map Reduce Using S3 Data

/

10、pig cookbook:性能调优

.7.0/cookbook.html

.10.0/perf.html#Replicated-Joins

11、pig stream 用法:

12、Analyzing Big Data with Twitter

UC Berkeley Course Lectures: Analyzing Big Data With Twitter

/   在线观看,自备梯子

.htm  金山快盘下载

13、Apache Pig 性能优化

.pdf

.html

14、Hadoop pig进阶语法

.html

15、在java中嵌入pig:Embedding Pig In Java Programs

16、Pig 邮件组用户精华问题汇总

/



(四)hadoop原理与编码

1、hadoop使用中的几个小细节

2、hadoop中map-reduce相关过程与概念的理解:更多请浏览目录

4、IBM developerworks:用 Hadoop 进行分布式并行编程系列, 第 1 ~3 部分

/

.html

/

5、分布式计算开源框架Hadoop介绍

6、Hadoop基本流程与应用开发( Java )

 

7、hadoop 源码分析

/?page=2

8、hadoop数据流、作业提交分析

.html

9、Hadoop管理员的十个最佳实践

10、hadoop、hive源码分析及使用分享

/?cat=7#

11、Hadoop计算能力调度器应用和配置(区别于默认的FIFO队列调度)

.html

12、浅析Hadoop 中的调度策略

.html

/

Hadoop-0.20.2公平调度器算法解析

/

Hadoop计算能力调度器算法解析

/

Hadoop Capacity Scheduler配置使用记录

.html

hadoop mapred-queue-acls 多队列调度配置

Hadoop资源感知调度器简介

13、hadoop作业调优参数整理及原理

.html

14、比较全的hadoop源码分析

15、如何在Hadoop上编写MapReduce程序

/

16、Hadoop学习笔记(二):从map到reduce的数据流

.html

17、通过Hadoop的API管理Job

18、揭秘InputFormat:掌控Map Reduce任务执行的利器

19、Hadoop MapReduce开发最佳实践(上篇)

20、Hadoop实例:二度人脉与好友推荐

21、探索大数据分析和 Hadoop

.html

22、Hadoop关于处理大量小文件的问题和解决方法

23、下一代 Hadoop YARN 简介:相比于MRv1,YARN的优势

24、HDFS基本知识整理

.html

.html

25、海量小文件的存储和检索:facebook 图片存储架构

.html

26、Hadoop -- MapReduce过程

.html

27、MapReduce: 详解 Shuffle 过程

     Shuffle过程剖析及性能优化

 混洗和排序

.html   部分执行流程

     Hadoop/MapReduce/Reducer wiki

28、Hadoop MapReduce Job性能调优——修改Map和Reduce个数

hive执行作业时reduce任务个数设置为多少合适

29、Hadoop分布式文件系统(HDFS)可靠性的研究与优化(硕士论文)

.html

30、Apache Avro 与 Thrift 比较

31、Hadoop Job Tuning(hadoop作业调优)

.html

32、mapreduce的二次排序 SecondarySort

.html

33、Hadoop学习总结Map-Reduce的过程解析

34、Hadoop平台优化综述(一)

/

      Hadoop平台优化综述(二)

/

35、hadoop 0.20.2版本升级到1.0.3 记录

.html

36、MapReduce – 用户编程接口简介

.html

Hadoop入门教程(四):MR作业的提交监控、输入输出控制及特性使用 

.html

37、Quick Introduction To Apache Hadoop MapReduce Java API

38、中小规模Hadoop集群优化

39、namenode 内部关键数据结构简介

=wb

40、Mapreduce/Hadoop 在淘宝测试中的应用

      应用MapReduce制作压测利器

      HDFS性能压测工具浅析

      用云存储实现对云计算的监控

41、Enable Multiple threads in a mapper aka MultithreadedMapper

.html



(五)数据仓库与挖掘

1、数据仓库基础培训

.html

.html

数据仓库层次结构规范

.html

2、数据仓库ods基础学习

.html

3、HBDW-PM-数据仓库基础

.html

4、mahout in action

/%5BMahout.in.Action(2011)%5D.Sean.Owen.pdf

5、数据仓库之 ETL漫谈

6、数据分析和数据挖掘的区别


(六)Oozie工作流

1、Oozie简介

 

2、跟着示例学Oozie

3、扩展Oozie

4、oozie相关安装配置与问题解决例子

5、oozie总结

.html

6、双十一后台数据分析利器 —— Apache Oozie 工作流调度系统介绍与 Tips

.html

7、大数据处理工作流调度系统——oozie及相关产品介绍


(七)HBase

1、hbase官方指南及其性能调优

.html

  HBase性能优化方法总结

.htm   HBase性能优化的四个要点

    HBase性能参数调优

2、HBase技术介绍

.html

3、HBase入门篇2-Java操作HBase例子

.html

4、hbase基本概念和hbase shell常用命令用法

.html

5、 HBase简介

6、HBase 官方文档(中文版)

.html  (0.90)

.html                            (0.95)

8、hbase系统架构及数据结构

9、[翻译] HBase存储架构

/%E7%BF%BB%E8%AF%91-hbase%E5%AD%98%E5%82%A8%E6%9E%B6%E6%9E%84/

10、HBase存储文件格式概述

11、Hbase, Hive and Pig 介绍(肯特大学)

.pptx

12、python 调用HBase 实例

13、hbase在淘宝的应用和优化小结

.pdf

14、hbase伪分布式安装指南:

15、HBase上关于CMS、GC碎片、大缓存的一种解决方案:Bucket Cache

   

注:作者来自阿里,据称读性能能提升一个数量级,该patch已被hbase社区接受。

16、HBase 一些 tip

.html

.html  应用设计tip

17、阿里巴巴测试团队总结的一些 Hbase 问题:

(1)HBase 线上问题分析小记 

(2)HBase Bug 知多少 

(3)HBase使用中几个容易犯的小错误 

18、为Hbase建立高可用性多主节点

.html

19、HBase二级索引与Join

20、HBase二级索引方案总结

.html

21、Hbase存储架构(整理)

22、HBase框架简介(整理)

23、HBase列族高级配置

.html

24、HBase Administration, Performance Tuning

25、阿里hbase业务设计实践

.htm?topicId=89

26、HBase业务实践(淘宝)

/?p=457

27、HBase Architecture(译)

/    上

/  中

/  下

28、HBase性能深度分析

/

29、HBase in 2013:HBase 新特性介绍

/?p=434

30、HBase写数据过程

31、使用 HBase coprocessor 进行 Region Server 端的聚合计算

(1)使用HBase EndPoint(coprocessor)进行计算  .html

(2)HBase 利用Coprocessor实现聚合函数  

(3)HBase coprocessor使用  .html

(4)玩转HBase: Coprocessor Endpoint (2):coprocessorProxy和coprocessorExec的合理运用

        



(八)flume

1、Flume日志收集 原理与实践

flume 真正分布式配置方法

Flume——安装与配置 

.html

/

.html

flume总体集群建设方案

.html

2、官方文档:

.html

3、Flume NG 配置

4、flume概念

.html

5、flume-ng如何根据源文件名输出到HDFS文件名

.html

6、Hadoop的ETL任务—Flume使用及其优化(品友互动)

.html

7、基于Flume的美团日志收集系统(一)架构和设计

.html

8、基于Flume的美团日志收集系统(二)改进和优化

.html



(九)sqoop

1、sqoop的安装、配置及使用简介

=weibolife

2、Sqoop示例

3、使用Sqoop在HDFS和RDBMS之间导数据

.htm

4、Sqoop User Guide (v1.4.2)

.4.2/SqoopUserGuide.html?utm_source=weibolife#_introduction

5、用sqoop进行mysql和hdfs系统间的数据互导

.html

6、Mysql<->sqoop<->HDFS 数据交换实验

7、MapReduce直接连接Mysql获取数据


(十)ZooKeeper

1、ZooKeeper Administrator's Guide

.4.3/zookeeperAdmin.html

2、ZooKeeper快速搭建

3、ZooKeeper管理员指南——部署与管理ZooKeeper

=sinat

4、Zookeeper工作原理

=sa

5、分布式服务框架 Zookeeper -- 管理分布式环境中的数据

/

6、分布式服务框架:Zookeeper

.html


(十一)NOSQL

1、Redis资料汇总专题

.html

2、MongoDB资料汇总专题

.html

3、NoSQL数据库笔谈

.html

4、redis入门系列

.html

5、Redis经验谈

/

6、三英战SQL:解析NoSQL的可靠性及扩展操作

7、分布式缓存-Memcached

.html

8、Redis 设计与实现

/

9、SQL to MongoDB Mapping Chart

/

10、redis 常识

11、NoSQL反模式 - 文档数据库篇

/

12、SQL到NOSQL的思维转变

=wb

13、一致性hash算法 - consistent hashing

.html




(十二)Hadoop 监控与管理

1、云计算平台管理的三大利器Nagios、Ganglia和Splunk

/

2、不一样的HBase监控系统

/?p=140

3、Hadoop和HBase集群的JMX监控

4、hadoop 补丁升级

   给hadoop 0.20.2打patch补丁

   hadoop升级

5、Analyzing Data with Hue and Hive

/

6、Using Hue to Access Hive Data Through Pig

/



(十三)Storm

1、storm 简介及单机版安装指南

2、storm入门教程


3、Storm应用小结

/

4、分布式流式处理框架:Storm

.html


(十四)YARN & Hadoop 2.0

1、Hadoop 1.0与Hadoop 2.0资源管理方案对比

/

2、更快、更强——解析Hadoop新一代MapReduce框架Yarn


(十五)hadoop 数据平台架构

1、大众点评的大数据实践

2、从数据收集到海量处理和实时处理(唯品会)


更多推荐

Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集

本文发布于:2024-02-27 17:26:15,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1707538.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:资源   Pig   Hadoop   Hive   NOSQL

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!