HDFS_字节宝

sqoop之旅2-基本使用

sqoop 基本使用sqoop的主要功能是导入和导出导入读数据（row-by-row）并行化执行导入的结果可以是文本文件或者二进制序列化文件导出并行化读取HDFS文件基本操作sqoop实质上是一个工具箱，使用的时候需要指定哪个工具和控...

hdfs import row sqoop 序列化

2021-03-02

hive（3）——使用mapreduce

当查询数据复杂时，hive就会调用hadoop里的mapreduce，前提：开启hdfs和yarn服务。

mapreduce yarn hadoop hive hdfs

2020-11-11

CDH快速入门系列(3) | CM集群监控状态及集群的使用

一. CM集群监控状态 1.初始状态，有很多有问题的 2. 遇到红色只需重启就好了 3. 因为各种原因，再次就先把问题都抑制了 4. 抑制完成后 5.把所有的服务都重启...

parcel hdfs ui web 集群

2020-10-28

javaAPI操作hadoop hdfs

写在之前在开始操作之前请确保已经正确安装启动hadoop并且能够连接到依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version......

hadoop hdfs 递归

2020-09-29

pyspark之从HDFS上读取文件、从本地读取文件

hdfs上的路径：path="hdfs:///主机名:端口号/地址"本地上的路径：path"file:///本地地址"读取文件：rdd=sc.textFile(path)

hdfs

2020-08-26

003.CM大数据平台实践之HDFS升级为高可用

1. 安装Zookeeper2. HDFS升级为高可用

zookeeper hdfs 高可用

2020-06-16

分布式存储系统性能对比

Here’s how Gaia stacks up against other decentralized storage systems. Features that are common to all storage systems are omitted for brevity.

data hdfs ipfs storage web

2020-03-20

神器！awk 在工作中的应用案例

当然可以使用你最熟悉的开发语言去写代码实现，本文用awk来实现，相比之下，性能极高。

awk hdfs 统计

2020-03-19

大数据-WordCount在一堆给定的文本文件中统计输出每一个单词出现的总次数

3. WordCount 需求: 在一堆给定的文本文件中统计输出每一个单词出现的总次数 Step 1. 数据格式准备1.1 创建一个新的文件cd /export/servers vim wordcount.txt1.2 向其中放入以下内容并保存hello,world,hadoop hive...

hdfs word

2019-12-25

大数据-HDFS文件读取过程

1.7. HDFS 文件读取过程Client向NameNode发起RPC请求，来确定请求文件block所在的位置；NameNode会视情况返回文件的部分或者全部block列表，对于每个block，

block checksum hdfs socket stream