最新 最热

Apache Kylin 历险记

Apache Kylin(麒麟)是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。...

2022-09-20
1

Hadoop 超燃之路

以前的存储手段跟分析方法现在行不通了!Hadoop 就是用来解决海量数据的 存储 跟海量数据的 分析计算 问题的,创始人 Doug Cutting 在创建 Hadoop 时主要思想源头是 Google 三辆马车...

2022-09-20
1

大数据实时项目(采集部分)[通俗易懂]

离线需求,一般是根据前一日的数据生成报表,虽然统计指标、报表繁多,但是对时效性不敏感。

2022-09-20
1

Ambari HDP集群搭建全攻略「建议收藏」

Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。

2022-09-20
1

Hadoop Spark太重,esProc SPL很轻

LogiKM(改名KnowStreaming) 是滴滴开源的Kafka运维管控平台, 有兴趣一起参与参与开发的同学,但是怕自己能力不够的同学,可以联系我,当你导师带你参与开源! 。...

2022-09-20
1

Hadoop Spark太重,esProc SPL很轻

LogiKM(改名KnowStreaming) 是滴滴开源的Kafka运维管控平台, 有兴趣一起参与参与开发的同学,但是怕自己能力不够的同学,可以联系我,当你导师带你参与开源! 。...

2022-09-20
1

袋鼠云思枢:数驹DTengine,助力企业构建高效的流批一体数据湖计算平台

7月28日,以“数智进化,现在即未来”为主题的袋鼠云2022产品发布会于线上正式开幕。发布会上,袋鼠云宣布将集团进行全新升级:从“数字化基础设施供应商”,升级为“全链路数字化技术与服务提供商”,并由袋鼠云产研负责人思枢...

2022-09-19
1

mysql8安装

docker run -p 3307:3306 --name mysql -e MYSQL_ROOT_PASSWORD=hadoop -d mysql:8.0.21

2022-09-19
1

spark笔记

本页面记录spark相关知识点# 1.spark介绍Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spa...

2022-09-19
1

大规模 Hadoop 升级在 Pinterest 的实践

Monarch 是 Pinterest 的批处理平台,由30多个 Hadoop YARN 集群组成,其中17k+节点完全建立在 AWS EC2 之上。2021年初,Monarch 还在使用五年前的 Hadoop 2.7.1。由于同步社区分支(特性和bug修复)的复杂性不断增加,我们决定...

2022-09-16
1