spark_字节宝

大数据框架发展史

这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有 Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多...

spark flink 大数据 mapreduce SQL

2021-10-21

Apache Hudi在华米科技的应用-湖仓一体化改造

华米科技是一家基于云的健康服务提供商，拥有全球领先的智能可穿戴技术。在华米科技，数据建设主要围绕两类数据：设备数据和APP数据，这些数据存在延迟上传、更新频率高且广、可删除等特性，基于这些特性，前期数仓ETL主要采取历...

数据湖大数据存储 spark

2021-10-21

干货 | 携程国际业务动态实时标签处理平台实践

Weiyi，携程资深数据开发，关注大数据相关技术，对大数据实时计算、流批一体等方面有浓厚兴趣；

大数据 SQL ide spark 数据库

2021-10-20

搭建Hadoop2.7.2和Hive2.3.3以及Spark3.1.2

Hadoop是一个用Java编写的Apache开源框架，允许使用简单的编程模型跨计算机集群分布式处理大型数据集。Hadoop框架工作的应用程序在跨计算机集群提供分布式存储和计算的环境中工作。Hadoop旨在从单个服务器扩展到数千个...

大数据大数据 spark hadoop linux hive

2021-10-20

闲话 Spark 的一个重要改变

最近看到了 Apache Spark 发布了 3.2 版本的预告 Pandas API on Upcoming Apache Spark™ 3.2，文章写得很简单，但是体现了 Spark 的一个很重要的发展趋势，就是拥抱 Python 的数据科学社区。...

api apache spark Python

2021-10-19

昨天的一个问题及答案(关键字Gzip、MapReduce、Spark)

OK，我们知道gzip不可分割了。那么一个10G的gzip文件在HDFS是怎么存储的呢？

JavaScript vr视频解决方案 spark 大数据存储

2021-10-13

基于Apache Hudi 的CDC数据入湖

首先我们介绍什么是CDC？CDC的全称是Change data Capture，即变更数据捕获，它是数据库领域非常常见的技术，主要用于捕获数据库的一些变更，然后可以把变更数据发送到下游。它的应用比较广，可以做一些数据同步、数据分发和数据...

数据库 spark flink 大数据数据湖

2021-10-13

Spark源码分析之分区器的作用--编程学习网

数据倾斜是指Spark中的RDD在计算的时候，每个RDD内部的分区包含的数据不平均。比如一共有5个分区，其中一个占有了90%的数据，这就导致本来5个分区可以5个人一起并行干活，结果四个人不怎么干活，工作全都压到一个人身上了。...

spark 编程算法

2021-10-13

Spark 源码（1） - 通信基石之 Spark Rpc 的发展历程

又开始更文了，前面一个多月忙了点别的事情，也给自己放了小假，修整修整，大家应该还没取关我吧，谢谢哈！

spark scala rpc

2021-10-12

Spark 源码（2） - Spark Rpc 三剑客的理解

谈到 Spark Rpc ，不得不提到 Spark Rpc 的三剑客：RpcEnv，RpcEndpoint，RpcEndpointRef。

rpc spark Java bash bash指令

2021-10-12

79 80 81 82 83

大数据框架发展史

Apache Hudi在华米科技的应用-湖仓一体化改造

干货 | 携程国际业务动态实时标签处理平台实践

搭建Hadoop2.7.2和Hive2.3.3以及Spark3.1.2

闲话 Spark 的一个重要改变

昨天的一个问题及答案(关键字Gzip、MapReduce、Spark)

基于Apache Hudi 的CDC数据入湖

Spark源码分析之分区器的作用--编程学习网

Spark 源码（1） - 通信基石之 Spark Rpc 的发展历程

Spark 源码（2） - Spark Rpc 三剑客的理解

热门文章

热门手册