最新 最热

0878-1.6.2-如何在CDP7.1.7中安装SSB

1.文档编写目的 SQL Stream Builder(SSB)是Cloudera提供的基于Flink-SQL的实时流计算Web开发平台,它提供了一个交互式的Flink SQL编辑器,让用户可以方便的使用SQL访问一个source比如Kafka中的数据写入到一个sink比如Hiv...

2022-04-18
1

hive 三种join实现

众所周知,hive 提供了三种join方式,common join/map join/ smb join,那么如何选择最合适的join 类型?

2022-04-18
1

Hive深入浅出

Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on the data, and the ca...

2022-04-15
1

PHP通过Thrift操作Hbase

HBase是一个开源的NoSQL产品,它是实现了Google BigTable论文的一个开源产品,和Hadoop和HDFS一起,可用来存储和处理海量column family的数据。官方网址是:http://hbase.apache.org...

2022-04-14
1

Hadoop Hive与Hbase整合+thrift

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统...

2022-04-14
1

Hadoop Hive sql语法详解

Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构

2022-04-14
1

数据中台怎么选型?终于有人讲明白了

数据仓库选型是整个数据中台项目的重中之重,是一切开发和应用的基础。而数据仓库的选型,其实就是Hive数仓和非Hive数仓的较量。Hive数仓以Hive为核心,搭建数据ETL流程,配合Kylin、Presto、HAWQ、Spark、ClickHouse等查询...

2022-04-13
1

今日指数项目之项目介绍和数据采集【四】

基于flink实时流计算的,金融证券项目,实时大屏展示,预警模块和离线模块的处理。

2022-04-11
1

0874-7.1.7-如何在CDP集群为Spark3集成Iceberg

1.文档编写目的 Iceberg是一种开放的数据湖表格式,您可以借助Iceberg快速地在HDFS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。本篇文章主要介绍如何...

2022-04-08
1