最新 最热

干货|流批一体Hudi近实时数仓实践

传统意义上的数据集市主要处理T+1的数据。随着互联网的发展,当前越来越多的业务场景对于数据时效性提出了更高的要求,以便及时快速地进行数据分析和业务决策,比如依托实时数据情况开展实时推荐、实时风控、实时营销等。...

2021-08-25
0

让MergeTree也具备ReplicatedMergeTree的数据去重能力

我曾在书中介绍过,ReplicatedMergeTree 支持根据 block_id 防止重复的数据写入。ClickHouse 在写入一个 Block 块的时候,会按照当前 Block 的数据顺序、数据行和数据大小等指标,计算 Hash 并生成 block_id。...

2021-08-25
1

spark任务中的时钟的处理方法

日志的时间戳来自不同的rs,spark在处理这些日志的时候需要找到某个访问者的起始时间戳。 访问者的第一个访问可能来自任何一个rs, 这意味这spark在处理日志的时候,可能收到时钟比当前时钟(自身时钟)大或者小的情况。这时候...

2021-08-24
0

大数据技术之Hadoop3.x笔记

3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers

2021-08-23
1

开源大数据与鲲鹏多核结构渊源

在数据和经济时代,业务和数据的多样性需要新的计算架构,海量的数据增长也带来了更高的计算需求。那么在这个过程中,鲲鹏计算产业也正在成为更多计算场景的新一代 IP 基座。基于华为鲲鹏处理器构建的鲲鹏全栈 IT 技术实施...

2021-08-23
0

CDP的HWC授权

您配置 Hive 仓库连接器 (HWC) 的方式会影响查询授权过程和您的安全性。有多种方法可以通过 HWC 访问 Hive,并不是所有操作都通过 HiveServer (HS2)。一些操作,例如 Spark Direct Reader 和 Hive Streaming,通过 HMS 直...

2021-08-20
1

CDP的Hive Metastore简介

Hive Metastore (HMS) 是一种服务,用于在后端 RDBMS(例如 MySQL 或 PostgreSQL)中存储与 Apache Hive 和其他服务相关的元数据。Impala、Spark、Hive 和其他服务共享元存储。与 HMS 的连接包括 HiveServer、Ranger 和代...

2021-08-20
1

分布式计算引擎 Flink/Spark on k8s 的实现对比以及实践

以 Flink 和 Spark 为代表的分布式流批计算框架的下层资源管理平台逐渐从 Hadoop 生态的 YARN 转向 Kubernetes 生态的 k8s 原生 scheduler 以及周边资源调度器,比如 Volcano 和 Yunikorn 等。这篇文章简单比较一下两...

2021-08-20
1

如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?

Hadoop只是一套工具的总称,它包含三部分:HDFS,Yarn,MapReduce,功能分别是分布式文件存储、资源调度和计算。

2021-08-20
1

Spark Doris Connector试错

(1)官网文档 http://doris.apache.org/master/zh-CN/extending-doris/spark-doris-connector.html#%E7%89%88%E6%9C%AC%E5%85%BC%E5%AE%B9 (2)将doris-spark-1.0.0-SNAPSHOT.ja...

2021-08-18
0