1、配置环境变量
请查看上一篇博客有详细教程
2、进入到hadoop解压出来的根目录下
输入dir将你可以查看到根目录下所有的文件
bin:存放的是我们用来实现管理脚本和使用的脚本的目录,我们对hadoop文件系统操作的时候用的就是这个目录下的脚本
etc:存放我们的核心的配置文件
sbin : 存放的是我们管理脚本的所在目录,重要是对hdfs和yarn的各种开启和关闭和单线程开启和守护
lib:该目录下存放的是Hadoop运行时依赖的jar包,Hadoop在执行时会把lib目录下面的jar全部加到classpath中。
libexec:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C 定义的,通常用于C 程序访问HDFS 或者编写MapReduce程序
share:Hadoop各个模块编译后的jar包所在的目录
include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C 定义的,通常用于C 程序访问HDFS或者编写MapReduce程序
3、创建input文件夹(命令:mkdir input)
4、输入dir命令查看有没有input文件夹
5、将etc目录下hadoop文件夹中所有的xml文件复制到input目录下(命令:cp etc/hadoop/*.xml input)
6、进入到input目录下进行查看问价是否复制过来(进入input文件夹命令:cd input 查看文件 dir)
7、返回上一级也就是我们的根目录下(命令 cd ../)
8、输入命令 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar grep input output 'dfs[a-z.] '
bin/hadoop jar:执行一个jar文件
share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar :文件所在的目录 examples因为加s了肯定是多个案例
grep :因为examples是多个案例我们这里执行的是grep 案例
input:输入文件夹
output:输出文件夹
注意:这里的output文件夹不能存在,如果存在将会报错,在执行命令时会自动创建output文件夹
‘dfs[a-z.] ’:正则表达式 以dfs开头后面跟a-z任意字母 点的意思过滤rn 加号表示a-z任意多个
9、出现下图即开始执行
10、进入output文件夹查看文件(命令:cd output)
11、查看output文件夹中文件(命令:dir),里面会出现两个文件
-SUCCESS:是个空文件代表你已经成功
12、查看part-r-00000文件中的内容(命令:cat part-r-00000)
箭头所指代表一共有一个dfs开头后面是a-z 这里是和正则对应的