最新 最热

数据开发治理平台Wedata之数仓建设实践

本案例基于腾讯云一站式开发治理平台Wedata、私有网络VPC、云数据库Mysql和弹性Mapreduce构建了全流程的离线数仓建设流程。通过模拟业务数据的导入,分层ETL和数据应用全过程,演示了如何在Wedata上进行高效的数据开发与...

2022-05-09
1

大数据计算加速论坛

背景介绍 4月23日09:00-12:45,在DataFunSummit2022:大数据计算架构峰会上,由腾讯云大数据资深高级工程师熊训德出品的大数据计算加速论坛,将邀请来自腾讯、阿里巴巴、矩阵起源、喜马拉雅的5位技术专家,就相关主题进行深度...

2022-04-22
1

基于EMR离线数据分析

数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,应对未来不断变化的需求。海量离线数据分析可以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析、科研行业的海量离线计算...

emr
2022-03-09
1

实时数仓:基于 Flink CDC 实现 Oracle 数据实时更新到 Kudu

作者:于乐,腾讯 CSIG 工程师 解决方案描述 概述 Flink CDC 于 2021 年 11 月 15 日发布了最新版本 2.1,该版本通过引入内置 Debezium 组件,增加了对 Oracle 的支持。本方案主要对 flink-connector-oracle-cdc进行试用。首...

2022-02-17
1

AWS 15 年(1):从 Serverful 到 Serverless

2006年,AWS发布了其第一个Serverless存储服务S3和第一个Serverful计算服务EC2,这也是AWS正式发布的前两个服务,开启了云计算波澜壮阔的旅程。2014年,AWS发布了业界第一个Serverless计算服务AWS Lambda。在今年(2021年)的AWS...

2022-01-04
1

基于腾讯云EMR中的Hbase开发对接流程应用概述

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase设计目标是用来解决关系型数据库在处理海量数据时的局限性。

2021-12-10
1

如何构建智能湖仓架构?亚马逊工程师的代码实践来了 | Q推荐

数据仓库的数据体系严格、治理容易,业务规模越大,ROI 越高;数据湖的数据种类丰富,治理困难,业务规模越大,ROI 越低,但胜在灵活。

2021-12-02
1

Hadoop伪分布式如何配置Namenode集群?

1、配置配置文件(一): vi etc/hadoop/core-site.xml

2021-11-09
1

在腾讯云 EMR 上使用 GooseFS 加速大数据计算服务

GooseFS 是腾讯云对象存储团队最新推出的高性能、高可用以及可弹性伸缩的分布式缓存系统,依靠对象存储(Cloud Object Storage,COS)作为数据湖存储底座的成本优势,为数据湖生态中的计算应用提供统一的数据湖入口,可加速基于...

2021-08-27
1

GooseFS助力大数据业务数倍提升计算能力

GooseFS是由腾讯云推出的一款分布式缓存方案,主要针对包括需要缓存加速的数据湖业务场景,提供基于对象存储COS服务的近计算端数据加速层。

2021-08-25
1