hive_字节宝

Hive优化的21种方案

Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。...

linux mapreduce hadoop hive jvm

2021-04-13

速度！Apache Hudi又双叕被国内顶级云服务提供商集成了！

Apache Hudi 在 HDFS 的数据集上提供了插入更新和增量拉取的流原语。

spark emr 文件存储 hive apache

2021-04-13

实战 | 将Kafka流式数据摄取至Hudi

使用Hudi自带的DeltaStreamer工具写数据到Hudi，开启--enable-hive-sync 即可同步数据到hive表。

spark hive Kafka 文件存储

2021-04-13

生态 | Apache Hudi集成Apache Zeppelin

Apache Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown...

hive jar spark apache 文件存储

2021-04-13

最强指南！数据湖Apache Hudi、Iceberg、Delta环境搭建

作为依赖Spark的三个数据湖开源框架Delta，Hudi和Iceberg，本篇文章为这三个框架准备环境，并从Apache Spark、Hive和Presto的查询角度进行比较。主要分为三部分...

hive spark xml hadoop bash

2021-04-13

Apache Hudi入门指南（含代码示例）

hudi详细介绍见hudi官网 http://hudi.apache.org/cn/docs/0.5.0-quick-start-guide.html

spark hadoop hive jar Python

2021-04-13

ApacheHudi Archive（归档）实现分析

Timline（时间轴）由很多 instant构成，按照时间由小到大排列。当不断写入Hudi数据集时，Timeline上的 Instant会不断增加，为减小 Timeline的操作压力，会在 commit时按照配置对 instant进行归档，并从 Timeline上将已归档的 insta...

linux hive

2021-04-13

ApacheHudi使用问题汇总（二）

Hudi Cleaner（清理程序）通常在 commit和 deltacommit之后立即运行，删除不再需要的旧文件。如果在使用增量拉取功能，请确保配置了清理项来保留足够数量的commit(提交)，以便可以回退，另一个考虑因素是为长时间运行的作业提供...

文件存储 hive spark

2021-04-13

ApacheHudi使用问题汇总（一）

通常，你会从源获取部分更新/插入，然后对Hudi数据集执行写入操作。如果从其他标准来源（如Kafka或tailf DFS）中提取数据，那么DeltaStreamer将会非常有用，其提供了一种简单的自我管理解决方案，可将数据写入Hudi。你还可以自己编...

spark hive hbase TDSQLMySQL版 api

2021-04-13

ApacheHudi常见问题汇总

如果你希望将数据快速提取到HDFS或云存储中，Hudi可以提供帮助。另外，如果你的ETL /hive/spark作业很慢或占用大量资源，那么Hudi可以通过提供一种增量式读取和写入数据的方法来提供帮助。...

数据库 SQL apache hive hadoop

2021-04-13

102 103 104 105 106

Hive优化的21种方案

速度！Apache Hudi又双叕被国内顶级云服务提供商集成了！

实战 | 将Kafka流式数据摄取至Hudi

生态 | Apache Hudi集成Apache Zeppelin

最强指南！数据湖Apache Hudi、Iceberg、Delta环境搭建

Apache Hudi入门指南（含代码示例）

ApacheHudi Archive（归档）实现分析

ApacheHudi使用问题汇总（二）

ApacheHudi使用问题汇总（一）

ApacheHudi常见问题汇总

热门文章

热门手册