spark_字节宝

hudi 异步clustering

在之前的一篇文章中，我们引入了一种新的名为clustering的表服务，它可以重组数据，从而在不影响写入速度的情况下提高查询性能。我们学习了如何设置inline clustering。在这篇文章中，我们将讨论自那以后发生的变化，并看看...

spark actionscript

2022-01-19

hudi 模式演化

模式演化是数据管理的一个非常重要的方面。 Hudi支持常见的模式演变场景，比如添加一个空字段或提升一个字段的数据类型，开箱即用。此外，该模式可以跨引擎查询，如Presto、Hive和Spark SQL。下表总结了与不同Hudi表类型兼...

spark

2022-01-19

Zeppelin Interpreter全面解析

在本节中，我们将解释解释器（Interpreter）、解释器组和解释器设置在 Zeppelin 中的作用。 Zeppelin 解释器的概念允许将任何语言或数据处理后端插入 Zeppelin。目前，Zeppelin 支持 Scala、Python、Flink、Spark SQL、Hiv...

spark Python jdbc flink 编程算法

2022-01-18

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day30】——Spakr数据调优(文末附完整文档)

一个CPU core同一时间只能执行一个线程。而每个Executor进程上分配到的多个task，都是以每个task一条线程的方式，多线程并发运行的。

linux spark 大数据

2022-01-18

AWS培训：Web server log analysis与服务体验

可让您轻松收集、处理和分析实时流数据，以便您及时获得见解并对新信息快速做出响应。Amazon Kinesis 提供多种核心功能，可以经济高效地处理任意规模的流数据，同时具有很高的灵活性，让您可以选择最符合应用程序需求的工具...

spark 数据湖 https 网络安全存储

2022-01-17

docker原理与架构[docker中文手册]

大家好，我是架构君，一个会写代码吟诗的架构师。今天说一说docker原理与架构[docker中文手册],希望能够帮助大家进步!!!

容器镜像服务 spark mesos types 框架

2022-01-17

干货|Spark优化之高性能Range Join

Carmel是eBay内部基于Apache Spark打造的一款SQL-on-Hadoop查询引擎。通过对Apache Spark的改进，我们为用户提供了一套高可用高性能的服务，以满足eBay内部大量分析型的查询需求（如今单日查询量已超过30万）。...

数据库 SQL spark nest Node.js

2022-01-13

Apache Spark 内存管理(堆内/堆外)详解

本文旨在梳理出Spark内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。...

spark 文件存储存储 jvm 缓存

2022-01-13

PySpark on hpc 续：合理分区处理及合并输出单一文件

在HPC上启动任务以local模式运行自定义spark，可以自由选择spark、python版本组合来处理数据；起多个任务并行处理独立分区数据，只要处理资源足够，限制速度的只是磁盘io。本地集群处理需要2周的数据，2个小时就处理好了。HPC...

spark 大数据 Python

2022-01-12

吐血整理！这可能是最全的机器学习工具手册

工欲善其事必先利其器！之前我也断断续续给大家发文整理过一些关于数据科学，尤其是机器学习、深度学方面的速查手册！但是，每次分享的都比较是针对某一块的内容，相对来说，还是不够全面。而且，零散的资料也不便于快速收藏和整理...

SQL tcpip Python https spark