最新 最热

【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)

Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的...

2022-11-17
1

Ambari部署及hdp部署的疑难问题解答汇总

以下,都是收集于网友、群友安装 ambari 或部署 hdp 集群时出现的问题,挤时间写了个疑难问题解答汇总,希望能够快速帮小伙伴们定位解决问题。觉得文章靠谱的小伙伴,希望能转发、点赞、在看三连走一波~...

2022-11-17
1

Hadoop实战_hadoop 项目实战

百度采集了用户点击访问的日志(后台回复【baidu】可获得实验数据哦!),现在需要分析日志数据。进行一个轻量级的数据汇总,数据形式如下图所示:...

2022-11-15
1

HDFS常用命令的学习

2、格式化名称节点(慎用,一般只在初次搭建集群,使用一次;格式化成功后,不要再使用)

2022-11-15
1

跨内外网远程操作Spark

我们知道通过反向ssh可以借助有固定IP的外网服务器登陆没有外网IP的内网主机,但是我们在真正使用的时候可能不仅仅需要远程登陆,可能还会需要内网机器中其他端口提供的服务。比如现在我需要在远处利用Spark程序去操作内...

2022-11-14
1

Eclipse下Spark+ScalaIDE开发环境部署

刚开始学Spark,之前一直都是在服务器里用Spark-shell进行简单学习的,后来觉得这样实在是很不方便,于是就决定利用Eclipse ide来进行开发,不过这当中遇到了很多问题,搞了半天总算搞得差不多了,下面就记录下环境搭建的步骤方...

2022-11-14
1

大数据环境部署之分发脚本

安装依赖yum install -y rsync创建脚本创建脚本mkdir /data/tools/bigdata/mysh/vi /data/tools/bigdata/mysh/distribution.sh内容如下#!/bin/bash#集群节点间文件或文件夹分发脚本USAGE="使用方法:s......

2022-11-14
1

大数据环境部署之集群启动脚本

创建脚本集群进程查看脚本创建脚本mkdir /data/tools/bigdata/mysh/vi /data/tools/bigdata/mysh/ha-call.sh内容如下#!/bin/bash#集群所有进程查看脚本USAGE="使用方法:sh ha-call.sh jps or sh ha-......

2022-11-14
1

sqoop命令参数参考说明及案例示例

3.全量导入(将数据从mysql导入到hive,hive表不存在,导入时自动创建hive表)

2022-11-13
1

【踩坑实录】hive修改存储格式-orc格式修改为text

Error while compiling statement: FAILED: Execution Error, return code 40000 from org.apache.hadoop.hive.ql.ddl.DDLTask. Changing file format (from ORC) is not s...

2022-11-13
1