最新 最热

Spark重点难点 | 万字详解Spark 性能调优

有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。...

2022-02-17
1

Firestorm 0.2.0发布:首个支持混合存储的开源Remote Shuffle Service

01 背景 Firestorm自2021年11月上线开源 0.1.0 版本后,该项目受到了业界的广泛关注。 Firestorm是为了加速分布式计算引擎能上云的重要组件,同时也能解决在大Shuffle场景下,计算任务由于Shuffle过程异常而导致的任务失...

2022-02-15
1

前沿综述 | 如何从空间转录组数据中分析空间变异基因?

空间转录组研究中的一项关键任务是识别跨空间位置具有不同空间表达模式的空间变异基因(SVG)。识别SVG为系统分析特定位置的细胞状态、推断细胞间的通讯以及确定生物体中重要的表型和功能提供了机会。此前《Molecular Th...

2022-02-15
1

初识 Spark - 7000字+15张图解,学习 Spark 入门基础知识

Spark 是 UC Berkeley AMP Lab 开源的通用分布式并行计算框架,目前已成为 Apache 软件基金会的顶级开源项目。

2022-02-14
1

重磅!Vertica集成Apache Hudi指南

本文演示了使用外部表集成 Vertica 和 Apache Hudi。在演示中我们使用 Spark 上的 Apache Hudi 将数据摄取到 S3 中,并使用 Vertica 外部表访问这些数据。

2022-02-08
1

2021年最后一个月,VR圈又发生了哪些热点大事呢?

(VRPinea1月5日讯)一转眼2021年已经结束了,回首这一年,VR圈也发生了不少大事。字节跳动收购Pico、脸书改名为Meta……不管是硬件还是软件,各类新品不断涌现,相关企业纷纷进入元宇宙赛道。当然,2021年最后一个月也不例外,软件...

2022-01-29
1

Flink与Spark读写parquet文件全解析

Parquet 是一种开源文件格式,用于处理扁平列式存储数据格式,可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它以其高性能的数据压缩和处理各种编码类型的能力而闻名。与基于行的文件(如 ...

2022-01-27
1

「机器学习」DVC:面向机器学习项目的开源版本控制系统

DVC的建立是为了使ML模型具有可共享性和可复制性。它设计用于处理大型文件、数据集、机器学习模型、度量以及代码。

2022-01-25
1

PySpark on HPC 续:批量处理的框架的工程实现

PySpark on HPC系列记录了我独自探索在HPC利用PySpark处理大数据业务数据的过程,由于这方面资料少或者搜索能力不足,没有找到需求匹配的框架,不得不手搓一个工具链,容我虚荣点,叫“框架”。框架的实现功能如下:...

2022-01-21
1

一文带你了解 Spark 架构设计与原理思想

卷友们,大家好 ~ 我是 Alex 。之前已经陆续输出了 Hadoop三大核心组件 的 架构思想和原理 和 Hive架构设计和原理 ,每篇都受到了读者小伙伴们的一致好评 ~ 感谢大家的支持。大家可能已经猜到了,按照发展趋势,本篇将为大家...

2022-01-21
1