最新 最热

无外网环境下docker安装kong、postgresql、konga (二)

您需要创建一个自定义网络,以允许容器相互发现和通信。在此示例中kong-net是网络名称,您可以使用任何名称。

2023-02-25
1

SpringBoot2.x自动创建表并初始化数据库

1、使用springboot jdbc初始化数据库项目结构:

2023-02-25
0

Mongodb的安装

准备机器操作系统:centos 7机器:192.168.1.1端口:27017安装下载MongoDB(64位)安装MongoDB// 解压tar –zxf mongodb-linux-x86_64-2.4.9.tgz// 重命名mv mongodb-linux-x86_64-2.4.9 mo......

2023-02-25
1

Apache Shiro 简介

基本上涉及到用户参与的系统都要进行权限管理,权限管理属于系统安全的范畴,权限管理实现对用户访问系统的控制,按照安全规则或者安全策略控制用户可以访问而且只能访问自己被授权的资源。...

2023-02-25
0

Spark Streaming大数据实时计算介绍

Spark Streaming,其实就是一种Spark提供的,对于大数据,进行实时计算的一种框架。它的底层,其实,也是基于我们之前讲解的Spark Core的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,它的底层的组件,其实还是最核心...

2023-02-25
1

JDBC数据源

Spark SQL支持使用JDBC从关系型数据库(比如MySQL)中读取数据。读取的数据,依然由DataFrame表示,可以很方便地使用Spark sql提供的各种算子进行处理。 这里有一个经验之谈,实际上用Spark SQL处理JDBC中的数据是非常有用的。...

2023-02-25
1

Hive数据源实战

Spark SQL支持对Hive中存储的数据进行读写。操作Hive中的数据时,必须创建HiveContext,而不是SQLContext。HiveContext继承自SQLContext,但是增加了在Hive元数据库中查找表,以及用HiveQL语法编写SQL的功能。除了sql()方法,H...

2023-02-25
1

合并元数据

如同ProtocolBuffer,Avro,Thrift一样,Parquet也是支持元数据合并的。用户可以在一开始就定义一个简单的元数据,然后随着业务需要,逐渐往元数据中添加更多的列。在这种情况下,用户可能会创建多个Parquet文件,有着多个不同的但...

2023-02-25
1

自动分区推断

表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性。在一个分区表中,不同分区的数据通常存储在不同的目录中,分区列的值通常就包含在了分区目录的目录名中。Spark SQL中的Parquet数据源,支持自动根据目录名推断...

2023-02-25
1

Save Mode

Spark SQL对于save操作,提供了不同的save mode。主要用来处理,当目标位置,已经有数据时,应该如何处理。而且save操作并不会执行锁操作,并且不是原子的,因此是有一定风险出现脏数据的。...

2023-02-25
1