最新 最热

客快物流大数据项目(八十):用户标签开发

​用户标签开发一、​​​​​​​​​​​​​​用户首单时间SELECT t1.cid, t1.cdt, t2.nameFROM (SELECT tcsi.ciid AS cid, MIN(tcsi.cdt) AS cdt FROM tbl_consumer_sender_info tcsi ......

2022-12-19
2

大数据Kudu(三):Kudu读写数据过程

当 Client 请求写数据时,先根据主键从 Mater Server 中获取要访问的目标 Tablets,然后到对应的 Tablet 获取数据。因为 KUDU 表存在主键约束,所以需要进行主键是否已经存在的判断。一个 Tablet 中存在很多个 RowSets,为了...

2022-12-07
3

【腾讯云ES】Elasticsearch 分布式架构剖析及扩展性优化

Elasticsearch 是一个实时的分布式搜索分析引擎,简称 ES。一个集群由多个节点组成,节点的角色可以根据用户的使用场景自由配置,集群可以以节点为单位自由扩缩容,数据以索引、分片的形式散列在各个节点上。本文介绍 ES 分...

2022-11-29
2

大数据调度平台Airflow(八):Airflow分布式集群搭建及测试

默认Airflow安装在$ANCONDA_HOME/envs/python37/lib/python3.7/site-packages/airflow目录下。配置了AIRFLOW_HOME,Airflow安装后文件存储目录在AIRFLOW_HOME目录下。可以每台节点查看安装Airflow版本信息:...

2022-09-25
2

kafka事务:入门篇

Kafka 的消息传输保障机制非常直观。当生产者向 Kafka 发送消息时,一旦消息被成功提交到日志文件,由于多副本机制的存在,这条消息就不会丢失。

2022-09-07
1

个推TechDay直播回顾 | 分享基于Flink的实时数仓搭建秘诀 附课件下载

近日,个推TechDay“治数训练营”系列直播课第二期举办。来自每日互动(个推)的资深数据研发工程师为大家详细解读了实时数仓架构演进,分享了实时数仓的技术选型要点,并结合实战案例详细剖析实时数仓搭建秘诀。...

2022-09-05
1

(2)sparkstreaming滚动窗口和滑动窗口演示

一、滚动窗口(Tumbling Windows) 滚动窗口有固定的大小,是一种对数据进行均匀切片的划分方式。窗口之间没有重叠,也不会有间隔,是“首尾相接”的状态。滚动窗口可以基于时间定义,也可以基于数据个数定义;需要的参数只有一个,...

2022-09-05
2

大数据ClickHouse(十八):Spark 写入 ClickHouse API

SparkCore写入ClickHouse,可以直接采用写入方式。下面案例是使用SparkSQL将结果存入ClickHouse对应的表中。在ClickHouse中需要预先创建好对应的结果表。

2022-09-03
2

(1)sparkstreaming结合sparksql读取socket实时数据流

Spark Streaming是构建在Spark Core的RDD基础之上的,与此同时Spark Streaming引入了一个新的概念:DStream(Discretized Stream,离散化数据流),表示连续不断的数据流。DStream抽象是Spark Streaming的流处理模型,在内部实现...

2022-08-31
3