最新 最热

2021年大数据Flink(三十八):​​​​​​​Table与SQL ​​​​​​案例五 FlinkSQL整合Hive

使用Hive构建数据仓库已经成为了比较普遍的一种解决方案。目前,一些比较常见的大数据处理引擎,都无一例外兼容Hive。Flink从1.9开始支持集成Hive,不过1.9版本为beta版,不推荐在生产环境中使用。在Flink1.10版本中,标志着对...

2021-10-11
1

2021年大数据常用语言Scala(十四):基础语法学习 数组  重点掌握

scala中数组的概念是和Java类似,可以用数组来存放一组数据。scala中,有两种数组,一种是定长数组,另一种是变长数组

2021-10-11
1

2021年大数据Spark(十):环境搭建集群模式 Spark on YARN

Spark运行在YARN上是有2个模式的, 1个叫 Client模式 一个叫Cluster模式

2021-10-09
1

Spark 系列教程(2)运行模式介绍

Apache Spark 是用于大规模数据处理的统一分析引擎,它提供了 Java、Scala、Python 和 R 语言的高级 API,以及一个支持通用的执行图计算的优化引擎。

2021-10-09
0

深入浅出学大数据(四)MapReduce快速入门及其编程实践

此系列主要为我的学弟学妹们所创作,在某些方面可能偏基础。如果读者感觉较为简单,还望见谅!如果文中出现错误,欢迎指正~

2021-10-09
1

2021年大数据环境命令(一):常用命令汇总

----汇总Hadoop Hive ZooKeeper HBase Kafka等常见命令Hadoop命令# Hadoop一键启动命令# 启动HDFSstart-dfs.sh# 启动Yarnstart-yarn.sh# 启动历史任务服务进程mr-jobhistory-daemon.sh start hi......

2021-10-09
1

2021年大数据Spark(二):四大特点

Spark 使用Scala语言进行实现,它是一种面向对、函数式编程语言,能够像操作本地集合一样轻松的操作分布式数据集。Spark具有运行速度快、易用性好、通用性强和随处运行等特点。...

2021-10-09
1

2021年大数据Spark(四):三种常见的运行模式

Spark 框架编写的应用程序可以运行在本地模式(Local Mode)、集群模式(Cluster Mode)和云服务(Cloud),方便开发测试和生产部署。

2021-10-09
1

基于Sentry的大数据权限解决方案

Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成,未...

2021-10-08
1

深入浅出学大数据(三)分布式文件系统HDFS及HDFS的编程实践

此系列主要为我的学弟学妹们所创作,在某些方面可能偏基础。如果读者感觉较为简单,还望见谅!如果文中出现错误,欢迎指正~

2021-09-29
0