最新 最热

Spark SQL 快速入门系列(8) | | Hive与Spark SQL的读写操作

包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF (用户自定义函数)以及 Hive 查询语言(HiveQL/HQL)等。需要强调的一点是,如果要在 Spark SQL 中包含Hive 的库,并不需要事先安装 Hive。一般来说,最好还是在编译Sp...

2020-10-28
0

Spark SQL 项目实战 | 计算各区域热门商品 Top3

计算各个区域前三大热门商品,并备注上每个商品在主要城市中的分布比例,超过两个城市用其他显示。

2020-10-28
0

Spark SQL 快速入门系列(2) | SparkSession与DataFrame的简单介绍

在老的版本中,SparkSQL 提供两种 SQL 查询起始点:一个叫SQLContext,用于Spark 自己提供的 SQL 查询;一个叫 HiveContext,用于连接 Hive 的查询。

2020-10-28
0

Spark SQL 快速入门系列(1) | Spark SQL 的简单介绍!

Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块.

2020-10-28
0

HBase快速入门系列(8) | 一文教你HBase与Hive如何集成

Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。

2020-10-28
1

Sqoop快速入门系列(3) | Sqoop常用命令及参数解析(建议收藏!!!)

这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。

2020-10-28
0

Azkaban快速入门系列(1) | Azkaban的简单介绍

例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:

2020-10-28
1

Kylin快速入门系列(1) | Kylin的简单介绍及安装部署

Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。...

2020-10-28
0

Kylin快速入门系列(2) | Kylin的快速入门

此篇为大家带来的是Kylin的快速入门。一. 数据准备 在Hive中创建数据,分别创建部门和员工外部表,并向表中导入数据。 1. 用到的元素数据 2. 建表// 1.创建部门表cr...

2020-10-28
0

Hive快速入门系列(1) | Hive的基本概念(超详细,入门推荐!)

经过前面的学习之后,我们总算是来到了Hive阶段。本篇博客博主将为大家带来Hadoop组件之——Hive的介绍!

2020-10-28
1