最新 最热

腾讯云大数据 Elasticsearch 在日志领域的系统性优化

日志领域是 ES 最重要也是规模最大的应用场景之一。这得益于 ES 有高性能倒排索引、灵活的 schema、易用的分布式架构,支持高吞吐写入、高性能查询,同时有强大的数据治理生态、端到端的完整解决方案。但原生 ES 在高吞...

2023-04-23
1

基于AIGC写作尝试:深入理解 Apache Hudi

本文的目的是为读者提供全面了解Apache Hudi的知识。具体而言,读者可以了解到Apache Hudi是什么、它的架构如何工作、常见的使用案例以及与之配合工作的最佳实践。此外,读者还将获得有关如何设置和配置Apache Hudi,以及...

2023-04-18
1

大数据对数字化虚拟世界的挑战

大数据进入我们的视线中,成为我们生活的主宰,那大数据对数字化虚拟世界的意义在哪呢?会带来怎样的挑战呢?从人类文明诞生起,人类就在构造一个虚拟世界。文明,就是人类用可沟通、可理解的方式构造了一个与现实...

2023-04-06
1

大数据NiFi(七):NiFi集群页面管理节点操作

用户可以手动断开节点与集群的连接,节点也可能由于其他原因而断开连接,例如由于缺乏心跳。节点断开之后用户不能修改节点上的数据流,另外,有可能由于网络问题导致节点无法与集群协调器通信导致页面上显示节点断开连接,并不...

2023-01-09
1

客快物流大数据项目(一百零二):业务和指数开发

业务和指数开发一、​​​​​​​业务开发实现步骤:在logistics-etl模块cn.it.logistics.etl.realtime程序包下创建CKStreamApp单例对象,继承自StreamApp编写main入口函数,初始化spark的运行环境实现StreamApp基类的两...

2022-12-29
1

客快物流大数据项目(九十九):Clickhouse中update/delete的使用

从使用场景来说,Clickhouse是个分析型数据库。这种场景下,数据一般是不变的,因此Clickhouse对update、delete的支持是比较弱的,实际上并不支持标准的update、delete操作。...

2022-12-28
1

大数据Kudu(三):Kudu读写数据过程

当 Client 请求写数据时,先根据主键从 Mater Server 中获取要访问的目标 Tablets,然后到对应的 Tablet 获取数据。因为 KUDU 表存在主键约束,所以需要进行主键是否已经存在的判断。一个 Tablet 中存在很多个 RowSets,为了...

2022-12-07
1

大数据ClickHouse(十八):Spark 写入 ClickHouse API

SparkCore写入ClickHouse,可以直接采用写入方式。下面案例是使用SparkSQL将结果存入ClickHouse对应的表中。在ClickHouse中需要预先创建好对应的结果表。

2022-09-03
1

(1)sparkstreaming结合sparksql读取socket实时数据流

Spark Streaming是构建在Spark Core的RDD基础之上的,与此同时Spark Streaming引入了一个新的概念:DStream(Discretized Stream,离散化数据流),表示连续不断的数据流。DStream抽象是Spark Streaming的流处理模型,在内部实现...

2022-08-31
1

大数据ClickHouse(十):MergeTree系列表引擎之SummingMergeTree

该引擎继承了MergeTree引擎,当合并 SummingMergeTree 表的数据片段时,ClickHouse 会把所有具有相同主键的行合并为一行,该行包含了被合并的行中具有数值数据类型的列的汇总值,即如果存在重复的数据,会对对这些重复的数据进...

2022-08-26
1