最新 最热

Calcite系列(八):执行流程-计划树构建

计划树构建是SQL处理的第三步,构建出可关系代数优化的逻辑计划树RelNode,是优化器执行优化的前提。

2024-05-04
2

Calcite系列(四):核心概念-Adapter

Calcite作为SQL中间件,为提供扩展性并适配不同数据源,设计了Adapter适配器方式对接异构数据源,允许Calcite连接到不同类型的数据源。Adapter会根据数据源特性进行查询优化,并负责将Calcite的逻辑查询转换为可以在特定数据...

2024-05-04
2

大数据平台:计算资源优化技术&作业诊断

大数据平台的资源管理组件主要针对存储资源与计算资源进行分析优化。前文《大数据平台:资源管理及存储优化技术》主要介绍了存储资源优化,本文主要介绍大数据平台构建过程中,计算资源相关的优化技术。...

2024-05-03
1

Calcite系列(十一):物化视图

物化视图(Materialized View):是一种特殊的物理表,本质是预计算,是多个计算过程之间的联系建立。从数据组织层面优化数据访问效率,即把某些耗时的操作(例如JOIN、AGGREGATE)的结果保存到物理存储上,可以像表一样被访问,以便在...

2024-04-24
2

Beautifulsoup解析库使用实际案例

爬虫,是学习Python的一个有用的分支,互联网时代,信息浩瀚如海,如果能够便捷的获取有用的信息,我们便有可能领先一步,而爬虫正是这样的一个工具。之前的的文章中讲到了很多有关爬虫基础知识的使用,我们已经能够使用各种库对目...

2023-07-03
1

​拓客必备神器:采集工具让你的数据采集更快更准

企业拓客是指企业通过各种手段,寻找并获取新客户的过程。对于企业来说,拓客是非常重要的一环,可以帮助企业扩大市场份额、提高销售额、增加利润等。但是,拓客过程中存在着一些难点和挑战,例如如何精准定位目标客户、如何获...

2023-04-07
1

大数据Flink进阶(七):Flink批和流案例总结

在Flink批处理过程中不需要执行execute触发执行,在流式处理过程中需要执行env.execute触发程序执行。

2023-03-27
1

大数据NiFi(七):NiFi集群页面管理节点操作

用户可以手动断开节点与集群的连接,节点也可能由于其他原因而断开连接,例如由于缺乏心跳。节点断开之后用户不能修改节点上的数据流,另外,有可能由于网络问题导致节点无法与集群协调器通信导致页面上显示节点断开连接,并不...

2023-01-09
2

客快物流大数据项目(一百零二):业务和指数开发

业务和指数开发一、​​​​​​​业务开发实现步骤:在logistics-etl模块cn.it.logistics.etl.realtime程序包下创建CKStreamApp单例对象,继承自StreamApp编写main入口函数,初始化spark的运行环境实现StreamApp基类的两...

2022-12-29
2

客快物流大数据项目(九十九):Clickhouse中update/delete的使用

从使用场景来说,Clickhouse是个分析型数据库。这种场景下,数据一般是不变的,因此Clickhouse对update、delete的支持是比较弱的,实际上并不支持标准的update、delete操作。...

2022-12-28
2