RDD,学名可伸缩的分布式数据集(Resilient Distributed Dataset)。初次听闻,感觉很高深莫测。待理解其本质,却发现异常简洁优雅。本文试图对其进行一个快速侧写,试图将这种大数据处理中化繁为简的美感呈现给你。...
Uber最近发布了如何使用压缩日志处理器(CLP)大幅降低日志记录成本的发布。CLP 是一种能够无损压缩文本日志并在不解压缩的情况下搜索它们的工具。它实现了 Uber 日志数据 169 倍的压缩率,节省了存储、内存和磁盘/网络带...
CDP 运营数据库使开发人员能够快速构建面向未来的应用程序,这些应用程序的架构旨在处理数据演变。它通过自动缩放等功能帮助开发人员自动化和简化数据库管理,并与Cloudera Data Platform (CDP) 完全集成。有关更多信息...
在构建数据湖时,可能没有比存储数据格式更重要的决定了。结果将直接影响其性能、可用性和兼容性。
2022 年 6 月,Cloudera宣布在 Cloudera 数据平台 (CDP) 中全面推出 Apache Iceberg。Iceberg 是一种 100% 开放表格式,由Apache Software Foundation开发,可帮助用户避免供应商锁定并实现开放式 Lakehouse。...
本文为从大数据到人工智能博主「bajiebajie2333」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
standalone模式,是spark自己实现的,它是一个资源调度框架。这里我们要关注这个框架的三个节点:
Spark 特有资源调度系统的 Leader。掌管着整个集群的资源信息,类似于 Yarn 框架中的 ResourceManager,主要功能:
Spark-shell 是 Spark 给我们提供的交互式命令窗口(类似于 Scala 的 REPL)
RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。