Hadoop从2.3.0版本开始支持HDFS缓存机制,HDFS允许用户将一部分目录或文件缓存在HDFS当中,NameNode会通知拥有对应块的DataNodes将其缓存在DataNode的内存当中
对于maven工程来说,默认的integration test是作为构建周期的一个phase进行的,这对一般的工程进行集成测试来说是很方便的,但是对于Hadoop(或HBase)项目来说是不太适合的,主要是因为一方面它们的应用都是在集群环境下运行的,...
snappy是google的一个开源的压缩库,在合理的压缩率的前提下提供了提供了一个很高的压缩/解压的速度,利用单颗Intel Corei7处理器内核处理达到每秒处理250MB~500MB的数据流。snappy压缩在Hadoop中不是自带的,本文介绍在ha...
lzo压缩格式有很快的压缩/解压速度和合理的压缩率,并且支持分块(split),所以lzo是目前在Hadoop中最流行的压缩格式。hadoop中的lzo不是自带的,如果要支持lzo,需要另外安装。本文介绍了在hadoop2.0上安装和配置lzo,同样也适...
最近处理的数据越来越复杂,互联网上很火的Hadoop久闻盛名,想去学习一下。按照网上的例子配置了一番,老是出错误。但是正因为这个错误,才引发出对Hadoop集群管理的话题。...
其中,hadoop1是master机器,hadoop2和hadoop3是两台slave机器。
2、将file1的key、value颠倒 ;file1和file2的key相同,file1的value做key,file2的value做value ,输出。
功能上划分为namespace和block storage service 两部分。
XMonitor监控系统( svn目录 svn.d.xiaonei.com/Hadoop/Xmonitor)
2.在second namenode 上执行./Hadoop-daemon.sh start namenode -checkpoint