spark_字节宝

Spark Streaming快速入门系列（7）

一般的大型集群和平台, 都需要对其进行监控的需求。要针对各种数据库, 包括 MySQL, HBase 等进行监控要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘等...

spark api Kafka 数据库 SQL

2021-04-13

ApacheHudi使用问题汇总（二）

Hudi Cleaner（清理程序）通常在 commit和 deltacommit之后立即运行，删除不再需要的旧文件。如果在使用增量拉取功能，请确保配置了清理项来保留足够数量的commit(提交)，以便可以回退，另一个考虑因素是为长时间运行的作业提供...

文件存储 hive spark

2021-04-13

spark-yarn-cluster任务提交方式Logs出现Fails且无法访问

A1 原因提交方式：注意用yarn-cluster提交方式的命令日志没有收集 A2 解决用yarn-cluster提交方式的命令命令：./spark-submit --master yarn

spark yarn xml Node.js Java

2021-04-13

ApacheHudi使用问题汇总（一）

通常，你会从源获取部分更新/插入，然后对Hudi数据集执行写入操作。如果从其他标准来源（如Kafka或tailf DFS）中提取数据，那么DeltaStreamer将会非常有用，其提供了一种简单的自我管理解决方案，可将数据写入Hudi。你还可以自己编...

spark hive hbase TDSQLMySQL版 api

2021-04-13

为什么textFile用string去接收

因为spark中textFile读文件的函数沿用的MR，MR读文件是行读取器，一行一行读出来，只能string去接收。

spark string 函数源码

2021-04-13

ApacheHudi与其他类似系统的比较

Apache Hudi填补了在DFS上处理数据的巨大空白，并可以和一些大数据技术很好地共存。然而，将Hudi与一些相关系统进行对比，来了解Hudi如何适应当前的大数据生态系统，并知晓这些系统在设计中做的不同权衡仍将非常有用。...

hive hbase spark TDSQLMySQL版 windows

2021-04-13

spark处理速度为什么比MapReduce快？

官网的这张图下边有一行字：Logistic regression in Hadoop and Spark

hadoop spark

2021-04-13

带你认识Apache的顶级项目Flink！

Apache Flink 是由 Apache 软件基金会开发的开源流处理框架，其核心是用 Java 和 Scala 编写的分布式流数据流引擎。Flink 以数据并行和流水线方式执行任意流数据程序，Flink 的流水线运行时系统可以执行批处理和流处理...

spark api 云计算 flink apache

2021-04-13

Hudi的管理与运维

一旦构建了hudi，就可以通过cd hudi-cli && ./hudi-cli.sh启动shell。一个hudi数据集位于DFS上的basePath位置，我们需要该位置才能连接到Hudi数据集。Hudi库使用.hoodie子文件夹跟踪所有元数据，从而有效地在内部管理该数...

文件存储 spark

2021-04-13

hudi性能测试

在本节中，我们将介绍一些有关Hudi插入更新、增量提取的实际性能数据，并将其与实现这些任务的其它传统工具进行比较。

spark hive 分布式 unix 数据库

2021-04-13

108 109 110 111 112

Spark Streaming快速入门系列（7）

ApacheHudi使用问题汇总（二）

spark-yarn-cluster任务提交方式Logs出现Fails且无法访问

ApacheHudi使用问题汇总（一）

为什么textFile用string去接收

ApacheHudi与其他类似系统的比较

spark处理速度为什么比MapReduce快？

带你认识Apache的顶级项目Flink！

Hudi的管理与运维

hudi性能测试

热门文章

热门手册