最新 最热

HDFS Shell CLI客户端2

HDFS是存取数据的分布式文件系统,那么对HDFS的操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的shell对文件的操作,如ls、mkdir、rm等...

2021-07-15
1

HDFS Shell CLI客户端

命令行界面(英语:command-line interface,缩写:CLI)是指用户通过键盘输入指令,计算机接收到指令后,予以执行一种人际交互方式。

2021-07-15
1

hive学习笔记之十一:UDTF

如果您不想自己搭建kubernetes环境,推荐使用腾讯云容器服务TKE:无需自建,即可在腾讯云上使用稳定, 安全,高效,灵活扩展的 Kubernetes 容器平台;

2021-07-15
1

大数据开发:Hadoop数据写入和数据读取流程

基于Hadoop开发自己的企业大数据平台,这是现如今很多企业刚开始做大数据的选择,而在Hadoop系统框架当中,Hadoop实现数据处理的原理和技术,更是很多同学在学习上的难点。今天,我们就基于Hadoop生成数据、写入数据和读取数据...

2021-07-14
1

hive学习笔记之十:用户自定义聚合函数(UDAF)

执行结果如下,可见guangdong的guangzhou和shenzhen总长度为17,jiangsu的nanjing为7,shanxi的xian和hanzhong总长度12,符合预期:

2021-07-14
1

[1015]spark-submit提交任务及参数说明

spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。

2021-07-14
1

大数据开发:Hadoop Hive和Spark的对比

在大数据处理框架不断更新和优化的过程中,Hadoop和Spark之间既有竞争关系,也有相互协同的需求。比方说Hive和Spark,在一段时间内,很多人认为Spark会代替Hive,作为Hadoop的数据仓库,Hive真的已经落后了吗?...

2021-07-13
1

滴滴出行大数据数仓实战

作为技术人,我是不怎么八卦的,奈何这次国家重拳整理的是“大数据乱象”,manor作为大数据专业的学生,不得不关注此次的滴滴事件。

2021-07-13
1

Flume HDFS Sink写数据到S3

Flume目前为止没有提供官方的S3 Sink。但是有一个可行的选项HDFS Sink。HDFS Sink 可以使用hadoop-aws.jar来完成S3的写入工作。

2021-07-13
1

【硬刚Kylin】Kylin入门/原理/调优/OLAP解决方案和行业典型应用

现今,大数据行业发展得如火如荼,新技术层出不穷,整个生态欣欣向荣。作为大数据领域最重要的技术的 Apache Hadoop 最初致力于简单的分布式存储,然后在此基础之上实现大规模并行计算,到如今在实时分析、多维分析、交互式分...

2021-07-12
1