最新 最热

「数据战略」数据驱动企业和DataOps :数据仓库与数据湖:入门

第1章和第2章介绍了数据驱动组织的概念,并在大数据计划的背景下定义了数据操作的概念。现在,是时候退一步,探索一些其他基本但重要的概念了。在这一点上,我们最重要的任务之一是清楚地描述数据仓库和数据湖之间的区别。...

2020-07-20
0

Hadoop Ozone如何巧妙利用Multi-Raft机制优化数据节点吞吐量

背景 作为近期Hadoop社区的明星项目,Hadoop Ozone吸引了社区广泛的关注。它脱胎于HDFS,不仅同时支持文件系统和对象语义,能原生对接HDFS和S3两种访问模式,也将集群的读写性能和吞吐量视为重中之重。2019年年中,腾讯大数据...

2020-07-14
1

DataOps:数据中台的必备底座

数据中台的崛起代表了企业数字化转型从流程驱动走向数据驱动,从数字化走向智能化。而DataOps则是数据中台区别于传统企业数据架构的核心差异,是建设数据中台的必备底座能力。...

2020-07-09
0

使用Apache Hudi构建大规模、事务性数据湖

一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk

2020-07-02
0

数据湖vs数据仓库vs数据集市

数据湖里存放了公司来自各个业务系统的数据,包括结构化数据、非结构化数据(比如日志、邮件、音频等),这些数据完全没有经过清洗,原始系统什么样,在数据湖中就怎样存储。...

2020-05-25
0

一文了解数据湖引擎

数据湖引擎是一种开源软件解决方案或云服务,它通过一组统一的api和数据模型为分析工作负载的各种数据源提供关键功能。数据湖引擎解决了快捷访问、加速分析处理、保护和屏蔽数据、管理数据集以及提供跨所有数据源的统...

2020-05-21
0

0767-Hive ACID vs. Delta Lake

Qubole现在支持对存储在Cloud数据湖中的数据进行高效的Update和Delete。用户可以对开启了事务的Hive表进行insert,update和delete,并通过Apache Spark或Presto进行查询。使用Apache Spark或Presto操作Hive的事务表功能,...

2020-05-20
0

然而并没什么卵用的Apache CarbonData发布功能强劲的2.0版

5月的大数据圈子,波澜不兴之余,华为主导的开源项目Apache CarbonData发布2.0 RC2版本。这是CarbonData这个项目的一次巨大升级。

2020-05-20
0

​引入一项新技术前,我们该想清楚什么?

很多小伙伴在工作遇到一定瓶颈的时候,都希望引入一些新技术来解决问题,比如最近经常在群里看到大家聊:

2020-05-07
0

下一个风口-基于数据湖架构下的数据治理

随着大数据、人工智能、云计算、物联网等数字化技术的普及和广泛应用,传统的数据仓库模式,在快速发展的企业面前已然显的力不从心。数据湖,是可以容纳大量的原始数据的存储库和处理系统,已经成为企业应用大数据的重要工具...

2020-05-07
1