admin管理员组

文章数量:1566979

数据局部性是指确保大数据集存储在执行分析任务的计算资源附近。对于Hadoop来说,这就意味着管理数据节点(DataNode),而数据节点为MapReduce拥有足够好的性能提供了存储资源。
20世纪90年代,每台应用服务器往往都拥有直接连接存储(DAS)。创建存储区域网络(SAN),是为了提供共享的存储池,以获得更大的规模和更高的效率。Hadoop逆转了这股潮流,让DAS重新流行起来。每个Hadoop集群都有自己的、横向扩展直接连接存储。它有助于Hadoop管理数据局部性,但是牺牲了共享存储的规模和效率。因此,如果你有Hadoop发行版的多个实例,就会有多个这种横向扩展的存储孤岛。

Hedvig公司的首席执行官兼创始人阿维纳什·拉克希曼(Avinash Lakshman)说:“我们遇到的最大挑战就是,兼顾数据局部性与规模和效率。”

数据局部性是指确保大数据集存储在执行分析任务的计算资源附近。对于Hadoop来说,这就意味着管理数据节点(DataNode),而数据节点为MapReduce拥有足够好的性能提供了存储资源。它可以高效地工作,但是导致了另一个操作问题:大数据存储孤岛。本文介绍的这些要点有助于管理Hadoop环境中的大数据存储。

1. 分散式存储

集中式存储作为传统架构已有一段时间。但是大数据其实并不适合集中存储架构。Infogix的金融服务行业(FSI)战略和运营经理森希尔·拉贾曼尼坎(Senthil Rajamanickam)表示,Hadoop旨在让计算资源更接近数据,同时充分利用HDFS文件系统的大规模横向扩展功能。

然而,解决Hadoop管理自有数据的低效问题的常见方法,一向是将Hadoop数据存储在SAN上。而这带来了性能和规模方面的一系列瓶颈。现在,你的所有数据都通过集中式SAN控制器来处理,而控制器破坏了Hadoop的分布式、并行化的特性。你需要为多个数据节点管

本文标签: 十大要点数据存储Hadoop