最新 最热

助力降本增效,腾讯云大数据DLC推出智能洞察功能

腾讯云数据湖计算 DLC 提供敏捷高效的 Serverless 数据湖分析与计算服务,作为分布式计算平台,其查询性能受到多项内外部因素影响,例如:引擎 CU 规模、同时提交排队的任务数量、SQL 编写形式、Spark引擎参数设置等。因此,在...

2024-08-19
1

【赵渝强老师】基于RBF的HDFS联邦架构

在最新的Hadoop版本中又实现了基于Router的联盟架构,并且在这个架构之上还实现了许多增强集群管理能力的特性。Router将挂载表从客户端中抽离了出来,解决了ViewFS存在的问题。...

2024-08-18
3

【赵渝强老师】Spark Streaming中的DStream

要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streaming中最核心的对象。DStream的全称是Discretized Stream,翻译成中文是离散流。它是Spark Streaming对流式数据...

2024-08-17
2

【赵渝强老师】Spark SQL的数据模型:DataFrame

通过SQL语句处理数据的前提是需要创建一张表,在Spark SQL中表被定义DataFrame,它由两部分组成:表结构的Schema和数据集合RDD,下图说明了DataFrame的组成。...

2024-08-15
2

大数据时代的利器:无限住宅代理助力大规模数据抓取

大数据时代带来了前所未有的机会。通过对大量数据的分析,企业可以获得市场趋势、用户偏好、竞争对手动态等宝贵信息,从而制定更精准的商业策略。数据驱动的决策已经成为提高业务效率、降低成本、增加收入的重要手段。...

2024-08-13
1

【赵渝强老师】Kafka分区的副本机制

在Kafka中每个主题可以有多个分区,每个分区又可以有多个副本。在这多个副本中,只有一个副本的角色是Leader,而其他副本的角色都是Follower。仅有Leader副本所在的Kafka Broker可以对外提供服务。Follower副本通常不会存...

2024-08-13
1

【赵渝强老师】Kafka的主题与分区

Kafka中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题,而消费者负责订阅主题进行消费。主题可以分为多个分区,一个分区只属于某一个主题。下面为列举了主题和分区的关系:...

2024-08-13
1

【赵渝强老师】Hive的体系架构

在Hadoop体系中提供数据分析引擎Hive。它允许使用SQL语句来分析处理数据,而不需要编程复杂的Java程序。同时Hive提供了丰富的数据模型来创建各种表结构,帮助数据分析人员建立数据模型。视频讲解如下:...

2024-08-12
1

【赵渝强老师】Kafka的体系架构

Kafka消息系统是一个典型的分布式系统,其组成部分包括:消息生产者(Producer)、消息消费者(Consumer)、消息服务器(Broker)以及分布式协调服务ZooKeeper。一个典型的Kafka消息系统的集群架构如下图所示。...

2024-08-12
1

【赵渝强老师】基于Flink的流批一体架构

由于Flink集成了批计算和流计算,因此可以使用Flink构建流批一体的系统架构,主要包含数据集成的流批一体架构、数仓架构的流批一体架构和数据湖的流批一体。...

2024-08-12
4