最新 最热

大数据架构系列:如何理解湖仓一体

这十多年大数据技术蓬勃发展,从市场的表现来看基于大数据的数据存储和计算是非常有价值的,其中以云数据仓库为主打业务的公司Snowflake市值最高(截止当前449亿美元),另一家以湖仓一体为方向公司Databricks估值或达380亿美...

2022-10-17
1

陈胡:Apache SeaTunnel实现非CDC数据抽取实践

导读:随着全球数据量的不断增长,越来越多的业务需要支撑高并发、高可用、可扩展、以及海量的数据存储,在这种情况下,适应各种场景的数据存储技术也不断的产生和发展。与此同时,各种数据库之间的同步与转化的需求也不断增多...

2022-05-19
1

使用Elasticsearch、Spark构建推荐系统 #1:概述及环境构建

推荐系统是机器学习当前最著名、最广泛使用,且已经证明价值的落地案例。尽管有许多资源可用作训练推荐模型的基础,但解释如何实际部署这些模型来创建大型推荐系统的资源仍然相对较少。...

2022-03-18
1

数仓数据处理DB基本概念解析与理解 OLAP OLTP HATP 异同 MPP架构

学习数仓的时候,可能一开始总是被一些英文缩写名字迷惑,OLAP MPP架构 KAPPA架构 ODS等等,这篇文章就来梳理一下这些基本概念。

2021-08-17
1

PostgreSQL-wal日志

wal全称是write ahead log,是postgresql中的online redo log,是为了保证数据库中数据的一致性和事务的完整性。而在PostgreSQL 7中引入的技术。它的中心思想是“先写日志后写数据”,即要保证对数据库文件的修改应放生在...

2021-03-18
1

从Snowflake看数据仓库演进方向:计算存储分离、弹性计算、统一存储和Serverless化

2020 年 9 月,主打云数据仓库产品的硅谷独角兽 Snowflake 正式登陆纳斯达克,首日 IPO 筹资高达 33.6 亿美元,是有记录以来金额最大的软件 IPO,突破了 Uber 2019 年 5 月上市创下的最大规模纪录。 如今,大数据技术早已进入...

2021-01-08
1

Greenplum性能优化之路 --(三)ANALYZE

基于规则的优化器,就是优化器在优化查询计划的时候,是根据预先设置好的规则进行的,这些规则无法灵活改变。举个例子,索引优先于扫描,这是一个规则,优化器在遇到所有可以利用索引的地方,都不会选择扫描。这在多数情况下是正确...

2021-01-07
1

Spark RDD / Dataset 相关操作及对比汇总笔记

本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。

2020-10-29
1

Greenplum性能分析

http://tapd.oa.com/Greenplum/markdown_wikis/view/#1010134541008425443

2020-10-22
1

Spark源码阅读的正确打开方式

Spark发展至今,应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面,吊打其他的大数据处理框架。...

2020-03-13
0