最新 最热

namenode进程缺失说明及处理方案

1、在EMR控制台首页,选择“集群服务>HDFS>角色管理”,尝试重启该namenode进程。

emr
2022-08-10
1

HiveCatalog 介绍与使用

作者:苏文鹏,腾讯 CSIG 工程师一、背景Apache Hive 已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和 ETL 场景的 SQL 引擎,同样它也是一个数据管理平台,可用于发现、定义和演化数据。Flink 与 Hive ...

2022-07-20
2

工作流系统的设计

几年前曾经写过一点点对于缓存框架设计的体会,这大半年和工作流系统打交道颇为丰富,因此想总结一点关于工作流系统的设计。

2022-07-19
1

Notes: Spark metrics

Below are some notes taken for future reference based on the brainstorm meeting last week, with company confidential information removed.

2022-07-19
1

一种工作流心跳机制的设计

最近工作中一直和 SWF(Amazon 的 Simple Work Flow)打交道,在一个基于 SWF 的工作流框架上面开发和修 bug。SWF 的 activity 超时时间是 5 分钟,在 activity task 开始执行以后,activity worker 需要主动发送心跳请求告知 ...

emr
2022-07-19
1

从构建和测试的效率说起

最近的工作总是在 EMR 上跑 Spark 的 job,从代码完毕到测试完毕的过程是这样的:

2022-07-19
1

大数据产品双月刊 | 5-6月

本期热点产品弹性 MapReduce本期腾讯云EMR于作业诊断能力重磅增强,通过控制台提供用户泛hadoop组件中应用层原生明细信息、作业及Hive查询的日志现场,简化了用户应用层异常排查的操作过程。同时推出配置对比、扩容指定...

2022-07-12
1

开源大数据OLAP引擎最佳实践

一、开源OLAP综述二、开源数仓解决方案三、ClickHouse介绍四、StarRocks介绍五、Trino介绍六、客户案例

2022-05-22
1

Bioinfo01-孟德尔随机化

这是我之前关于孟德尔随机化相关课题的一个简单笔记。其中包括了关于孟德尔随机化的简单介绍,以及一些one-sample MR 的R 语言实战。

2022-05-19
2

主流云平台介绍之-AWS

目前云平台逐渐火热起来,国内如:阿里云、腾讯云、华为云等平台,国外如:AWS、Azure、Google GCP等平台,都有不少用户,并在持续的增加中。

2022-05-11
1