hadoop-3.2.0------>入门二 本地模式 grep实例

2020-12-07 14:41:39 浏览数 (1)

1、配置环境变量

请查看上一篇博客有详细教程

2、进入到hadoop解压出来的根目录下

输入dir将你可以查看到根目录下所有的文件

bin:存放的是我们用来实现管理脚本和使用的脚本的目录,我们对hadoop文件系统操作的时候用的就是这个目录下的脚本

etc:存放我们的核心的配置文件

sbin : 存放的是我们管理脚本的所在目录,重要是对hdfs和yarn的各种开启和关闭和单线程开启和守护

lib:该目录下存放的是Hadoop运行时依赖的jar包,Hadoop在执行时会把lib目录下面的jar全部加到classpath中。

libexec:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C 定义的,通常用于C 程序访问HDFS 或者编写MapReduce程序

share:Hadoop各个模块编译后的jar包所在的目录

include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C 定义的,通常用于C 程序访问HDFS或者编写MapReduce程序

3、创建input文件夹(命令:mkdir input)

4、输入dir命令查看有没有input文件夹

5、将etc目录下hadoop文件夹中所有的xml文件复制到input目录下(命令:cp etc/hadoop/*.xml input)

6、进入到input目录下进行查看问价是否复制过来(进入input文件夹命令:cd input 查看文件 dir)

7、返回上一级也就是我们的根目录下(命令 cd ../)

8、输入命令 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar grep input output 'dfs[a-z.] '

bin/hadoop jar:执行一个jar文件

share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar :文件所在的目录 examples因为加s了肯定是多个案例

grep :因为examples是多个案例我们这里执行的是grep 案例

input:输入文件夹

output:输出文件夹

注意:这里的output文件夹不能存在,如果存在将会报错,在执行命令时会自动创建output文件夹

‘dfs[a-z.] ’:正则表达式 以dfs开头后面跟a-z任意字母 点的意思过滤rn 加号表示a-z任意多个

9、出现下图即开始执行

10、进入output文件夹查看文件(命令:cd output)

11、查看output文件夹中文件(命令:dir),里面会出现两个文件

-SUCCESS:是个空文件代表你已经成功

12、查看part-r-00000文件中的内容(命令:cat part-r-00000)

箭头所指代表一共有一个dfs开头后面是a-z 这里是和正则对应的

0 人点赞