最新 最热

没看过这篇文章,别说你会用Airflow

Airflow 作为一款开源分布式任务调度框架,已经在业内广泛应用。本文总结了 Freewheel Transformer 团队近两年使用 Airflow 作为调度器,编排各种批处理场景下 ETL Data Pipelines 的经验,希望能为正在探索 Airflow 的技...

2021-06-08
1

听说,难于上青天的云原生数据湖能开箱即用了?

导语 | 云原生数据湖架构以低成本优势推动客户上云,同时云上客户得以低成本撬动更多结构化和非结构化数据的价值,是一场云厂商的自我革命。本文由腾讯大数据专家工程师于华丽在 Techo TVP开发者峰会「数据的冰与火之...

2021-05-26
1

速度!Apache Hudi又双叕被国内顶级云服务提供商集成了!

Apache Hudi 在 HDFS 的数据集上提供了插入更新和增量拉取的流原语。

2021-04-13
1

EMR Remote Shuffle Service

ESS(EMR Remote Shuffle Service)是EMR在优化计算引擎的Shuffle操作上,推出的扩展组件。

2021-03-03
1

CellPress | 人工智能在临床试验中的应用

本文介绍如何利用人工智能(AI)最新的进展重塑临床试验设计的关键步骤,以提高临床试验成功率。

2021-01-29
1

Spark 3.0新特性在FreeWheel核心业务数据团队的应用与实战

相信作为 Spark 的粉丝或者平时工作与 Spark 相关的同学大多知道,Spark 3.0 在 2020 年 6 月官方重磅发布,并于 9 月发布稳定线上版本,这是 Spark 有史以来最大的一次 release,共包含了 3400 多个 patches,而且恰逢 Spark ...

2021-01-20
1

在TPC-DS基准测试中CDP数据仓库的性能比EMR快3倍

在先前有关CDW性能的博客文章中,我们将Azure HDInsight与CDW进行了比较。在此博客文章中,我们使用TPC-DS 2.9基准测试比较了使用Cloudera数据平台(CDP )上的Cloudera数据仓库(CDW)的Apache Hive-LLAP与Amazon上的EMR 6.0(也...

2021-01-08
1

腾讯云基于Alluxio优化计算存储分离架构的最佳实践

|导语  随着企业大数据规模和应用的增长和发展,计算与存储分离的架构渐渐成为主流,它解决了计算量和存储量不匹配问题, 实现了算力的按需使用,但也引来了一些新的问题。腾讯云EMR团队与Alluxio社区合作,探索出了开箱即用...

2021-01-04
1

R语言实现孟德尔随机化研究

孟德尔随机化(Mendelian Randomization, MR)是近几年流行起来的用来进行因果推断的有效方法,它以遗传变异为工具变量来推导结局和暴露的因果关系,能有效避免传统流行病学研究的混杂偏...

2020-11-16
1

节约60%成本!虎牙直播云端大数据是怎么做到的?

引言 虎牙是中国第一家上市的游戏直播公司,旗下产品包括知名游戏直播平台虎牙直播、风靡东南亚和南美的游戏直播平台NimoTV等,产品覆盖PC、Web、移动三端。其中,游戏直播平台虎牙直播月活达1.5亿。 如何借助于海量业务数...

2020-07-24
1