大数据大数据

腾讯云大数据 Elasticsearch 在日志领域的系统性优化

日志领域是 ES 最重要也是规模最大的应用场景之一。这得益于 ES 有高性能倒排索引、灵活的 schema、易用的分布式架构，支持高吞吐写入、高性能查询，同时有强大的数据治理生态、端到端的完整解决方案。但原生 ES 在高吞...

ElasticsearchService elasticsearch 日志服务日志大数据大数据 es

2023-04-23

基于AIGC写作尝试：深入理解 Apache Hudi

本文的目的是为读者提供全面了解Apache Hudi的知识。具体而言，读者可以了解到Apache Hudi是什么、它的架构如何工作、常见的使用案例以及与之配合工作的最佳实践。此外，读者还将获得有关如何设置和配置Apache Hudi，以及...

大数据大数据存储 ApacheHudi LakeHouse

2023-04-18

大数据对数字化虚拟世界的挑战

大数据进入我们的视线中，成为我们生活的主宰，那大数据对数字化虚拟世界的意义在哪呢?会带来怎样的挑战呢?从人类文明诞生起，人类就在构造一个虚拟世界。文明，就是人类用可沟通、可理解的方式构造了一个与现实...

大数据大数据数字化

2023-04-06

大数据NiFi（七）：NiFi集群页面管理节点操作

用户可以手动断开节点与集群的连接，节点也可能由于其他原因而断开连接，例如由于缺乏心跳。节点断开之后用户不能修改节点上的数据流，另外，有可能由于网络问题导致节点无法与集群协调器通信导致页面上显示节点断开连接，并不...

大数据处理套件TBDS 大数据大数据

2023-01-09

客快物流大数据项目（一百零二）：业务和指数开发

业务和指数开发一、业务开发实现步骤：在logistics-etl模块cn.it.logistics.etl.realtime程序包下创建CKStreamApp单例对象，继承自StreamApp编写main入口函数，初始化spark的运行环境实现StreamApp基类的两...

spark 大数据处理套件TBDS 大数据大数据

2022-12-29

客快物流大数据项目（九十九）：Clickhouse中update/delete的使用

从使用场景来说，Clickhouse是个分析型数据库。这种场景下，数据一般是不变的，因此Clickhouse对update、delete的支持是比较弱的，实际上并不支持标准的update、delete操作。...

大数据处理套件TBDS 大数据大数据

2022-12-28

大数据Kudu（三）：Kudu读写数据过程

当 Client 请求写数据时，先根据主键从 Mater Server 中获取要访问的目标 Tablets，然后到对应的 Tablet 获取数据。因为 KUDU 表存在主键约束，所以需要进行主键是否已经存在的判断。一个 Tablet 中存在很多个 RowSets，为了...

大数据处理套件TBDS 大数据大数据 Kudu

2022-12-07

大数据ClickHouse（十八）：Spark 写入 ClickHouse API

SparkCore写入ClickHouse，可以直接采用写入方式。下面案例是使用SparkSQL将结果存入ClickHouse对应的表中。在ClickHouse中需要预先创建好对应的结果表。

云数据仓库ClickHouse 大数据处理套件TBDS 大数据大数据 clickhouse

2022-09-03

（1）sparkstreaming结合sparksql读取socket实时数据流

Spark Streaming是构建在Spark Core的RDD基础之上的，与此同时Spark Streaming引入了一个新的概念：DStream（Discretized Stream，离散化数据流)，表示连续不断的数据流。DStream抽象是Spark Streaming的流处理模型，在内部实现...

spark hadoop 大数据处理套件TBDS 大数据大数据 sparksql sparkstreaming

2022-08-31