Mahout0.9 打patch使其支持 Hadoop2.2.0

2022-07-03 11:16:42 浏览数 (1)

引言

Mahout0.9之前的版本默认不支持Hadoop2.2.0以上版本,但很多情况下,由于集群环境的Hadoop已经是2.2.0以上版本,又必须使用Mahout,此时就需要编译源码,使得Mahout支持Hadoop2了。

Hadoop2.2 Mahout0.9实战  http://www.linuxidc.com/Linux/2014-04/99856.htm

造好的车轮

让Mahout在Hadoop2.2.0上运行是需求十分广泛的,所以必定有前人已经栽好树了,我们可以在https://issues.apache.org/jira/browse/MAHOUT-1354

里看到4个升级patch,及patch的作者们的详细讨论过程。

千万注意的是,不是4个升级patch按顺序依次用,而是用一个即可!

通过详细阅读了patch作者们的讨论,认为其中的两个patch最靠谱:

1329-3.patch

1329-3-additional.patch

经笔者实测,对于Mahout0.9,1329-3-additional.patch是无法成功应用的,而1329-3.patch可以成功应用。

步骤一:为Mahout源码打patch

到 http://archive.apache.org/dist/mahout/   或者 https://github.com/apache/mahout/releases  去下载源码,解压到服务器上。

到 https://issues.apache.org/jira/browse/MAHOUT-1354 下载1329-3.patch,拷贝到服务器上。

到源码根目录下执行以下命令打patch:

yarn@singletest:~/Mahout/mahout-distribution-0.9$ patch -p0 < ../mahout0.9-patch-for-hadoop2/1329-3.patch

patching file core/pom.xml

patching file integration/pom.xml

patching file pom.xml

没有报错即升级成功。

步骤二:针对Hadoop2.2.0编译源码

到源码根目录下执行以下命令针对Hadoop2.2.0编译源码

yarn@singletest:~/Mahout/mahout-distribution-0.9$mvn clean package -Dhadoop2.version=2.2.0

。。。。。。漫长等待。。。。。。

注意:我没有加上-DskipTests参数,是为了了解打patch后的测试效果,结果显示,全部测试都通过,没有任何问题!

验证 由于在patch页面中,patch的作者有这样一句对话:

Sergey Svinarchuk added a comment - 21/Feb/14 09:46

I tested unit tests and examples with hadoop1 and hadoop2. All tests and examples passed.

相信大牛的人品和诚信,所以就不test all examples了,仅测试了一下贝叶斯文本分类器,参见

http://www.linuxidc.com/Linux/2014-09/106287.htm

全过程正常执行!

0 人点赞