最新 最热

用通俗的语言解释下:Spark 中的 RDD 是什么

RDD,学名可伸缩的分布式数据集(Resilient Distributed Dataset)。初次听闻,感觉很高深莫测。待理解其本质,却发现异常简洁优雅。本文试图对其进行一个快速侧写,试图将这种大数据处理中化繁为简的美感呈现给你。...

2022-12-07
1

优步使用压缩日志处理器 (CLP) 将日志记录成本降低了 169 倍

Uber最近发布了如何使用压缩日志处理器(CLP)大幅降低日志记录成本的发布。CLP 是一种能够无损压缩文本日志并在不解压缩的情况下搜索它们的工具。它实现了 Uber 日志数据 169 倍的压缩率,节省了存储、内存和磁盘/网络带...

2022-12-04
0

CDP运营数据库 (COD) 中的事务支持

CDP 运营数据库使开发人员能够快速构建面向未来的应用程序,这些应用程序的架构旨在处理数据演变。它通过自动缩放等功能帮助开发人员自动化和简化数据库管理,并与Cloudera Data Platform (CDP) 完全集成。有关更多信息...

2022-12-02
1

Hudi、Iceberg 和 Delta Lake:数据湖表格式比较

在构建数据湖时,可能没有比存储数据格式更重要的决定了。结果将直接影响其性能、可用性和兼容性。

2022-12-02
1

如何在 CDP 的湖仓一体中使用Iceberg

2022 年 6 月,Cloudera宣布在 Cloudera 数据平台 (CDP) 中全面推出 Apache Iceberg。Iceberg 是一种 100% 开放表格式,由Apache Software Foundation开发,可帮助用户避免供应商锁定并实现开放式 Lakehouse。...

2022-12-02
1

实时湖仓一体规模化实践:腾讯广告日志平台

本文为从大数据到人工智能博主「bajiebajie2333」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

2022-12-02
1

Spark运行standalone集群模式

standalone模式,是spark自己实现的,它是一个资源调度框架。这里我们要关注这个框架的三个节点:

2022-12-01
1

Spark入门-了解Spark核心概念

Spark 特有资源调度系统的 Leader。掌管着整个集群的资源信息,类似于 Yarn 框架中的 ResourceManager,主要功能:

2022-12-01
1

Spark入门- Spark运行Local本地模式

Spark-shell 是 Spark 给我们提供的交互式命令窗口(类似于 Scala 的 REPL)

2022-12-01
1

Spark初识-弹性分布式数据集RDD

RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。

2022-12-01
1