最新 最热

sqoop之旅2-基本使用

sqoop 基本使用sqoop的主要功能是导入和导出导入 读数据(row-by-row)并行化执行导入的结果可以是文本文件或者二进制序列化文件导出 并行化读取HDFS文件基本操作sqoop实质上是一个工具箱,使用的时候需要指定哪个工具和控...

2021-03-02
1

hive(3)——使用mapreduce

当查询数据复杂时,hive就会调用hadoop里的mapreduce,前提:开启hdfs和yarn服务。

2020-11-11
1

CDH快速入门系列(3) | CM集群监控状态及集群的使用

一. CM集群监控状态 1.初始状态,有很多有问题的 2. 遇到红色只需重启就好了 3. 因为各种原因,再次就先把问题都抑制了 4. 抑制完成后 5.把所有的服务都重启...

2020-10-28
1

javaAPI操作hadoop hdfs

写在之前在开始操作之前请确保已经正确安装启动hadoop并且能够连接到依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version......

2020-09-29
1

pyspark之从HDFS上读取文件、从本地读取文件

hdfs上的路径:path="hdfs:///主机名:端口号/地址"本地上的路径:path"file:///本地地址"读取文件:rdd=sc.textFile(path)

2020-08-26
1

003.CM大数据平台实践之HDFS升级为高可用

1. 安装Zookeeper2. HDFS升级为高可用

2020-06-16
1

分布式存储系统性能对比

Here’s how Gaia stacks up against other decentralized storage systems. Features that are common to all storage systems are omitted for brevity.

2020-03-20
1

神器!awk 在工作中的应用案例

当然可以使用你最熟悉的开发语言去写代码实现,本文用awk来实现,相比之下,性能极高。

2020-03-19
1

大数据-WordCount在一堆给定的文本文件中统计输出每一个单词出现的总次数

3. WordCount 需求: 在一堆给定的文本文件中统计输出每一个单词出现的总次数 Step 1. 数据格式准备1.1 创建一个新的文件cd /export/servers vim wordcount.txt1.2 向其中放入以下内容并保存hello,world,hadoop hive...

2019-12-25
1

大数据-HDFS文件读取过程

1.7. HDFS 文件读取过程Client向NameNode发起RPC请求,来确定请求文件block所在的位置;NameNode会视情况返回文件的部分或者全部block列表,对于每个block,

2019-12-25
3