这篇 http://www.linuxidc.com/Linux/2013-11/93077.htm 对细节部分介绍的很好,但我站在一个才接触hodoop的新手的角度来看,有些东西讲的有点杂乱,不好理解。
我的意思并不是说前面的Blog写的不好 ,我还是非常感谢作者的分享。我只是在其基础上,将其重要的需要注意的地方总结一下,方便大家,也方便自己以后查阅。
1. 集群的安装当然需要使用到多台电脑,我使用的是三台CentOS的虚拟机。网络上很多blog中都有提到,重新新建账户和群组,其实这个步骤是可有可无的。之所以这样干,我自己思考有两个方面的原因:一个是为了方便管理,账户专用,也更加安全; 另外一个方面,是在实际的集群安装中会有很多台的电脑需要配置环境,使用相同的账户和路径更加方便脚本批处理。 (这纯属个人猜测,如有错误还请大侠指正。)
2. 安装JDK 环境,这个属于基础步骤,网络上资料太多,就不多说,上面的blog中也有相关介绍。
3. 配置ssh 环境。 在我最初看网络上一些文章的时候,我还是有点迷糊的。这个主要是需要了解ssh 公钥实现无密码登录的原理,之后就非常明了了。 说白一点,就是如果电脑A 需要无密码登录电脑B ,则需要在电脑A的authorized_keys中保存B的公钥信息。而如果需要多台电脑之间互相实现无码登录,则需要相互之间共享各自的公钥。
4. 说到ssh环境,提两个需要注意的地方:一个是需要配置"/etc/ssh/sshd_config",PubkeyAuthentication yes #启用公钥私钥配对认证方式。另外一个是authorized_keys 的属性需要修改为644.
5. 配置/etc/hosts中计算机名称与IP的对应。
其实这个只是为了方面在后面的配置文件中使用计算机名代替IP地址而已,便于管理,也便于修改。当然如果你不怕麻烦,所有的地方都使用IP地址也没有问题的。
6.剩下的就是配置Hadoop自己的环境了。这个部分在前面的blog中都有详细的步骤,我就不多说了。 我只想说一句,如果发现配置完了启动不了,记得看Log中的原因,一般都很容易定位到问题,修改相关配置后再尝试。
http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/ClusterSetup.html
官网上对于几个重要的配置文件的各个参数都有说明,都参考说明文档。
关于静态IP的问题,大家只要能实现就好了,我在网上找到的大部分资料都是修改/etc/sysconfig/network 下面的配置文件来实现,我虚拟机安装出来后的eth0 不存在,所以改起来蛮麻烦的。 我就直接使用系统提供的网络管理器修改,同样可以达到效果。