最新 最热

利用VisualVM监控Spark Driver/Executor

VisualVM是我们平时最常用的Java应用监控和性能分析工具,功能很丰富。我们有时会利用它来监控Spark作业,主要是Driver和Executor的运行情况。VisualVM支持jstatd和JMX两种方式连接远程JVM,本文简单叙述一下方法。...

2020-11-30
0

40亿条/秒!Flink流批一体在阿里双11首次落地的背后

阿里妹导读:今年的双11,实时计算处理的流量洪峰创纪录地达到了每秒40亿条的记录,数据体量也达到了惊人的每秒7TB,基于Flink的流批一体数据应用开始在阿里巴巴最核心的数据业务场景崭露头角,并在稳定性、性能和效率方面都经...

2020-11-30
1

基于云原生的大数据实时分析方案实践

徐蓓,腾讯云容器专家工程师,10年研发经验,7年云计算领域经验。负责腾讯云 TKE 大数据云原生、离在线混部、Serverless 架构与研发。 1 方案介绍 大数据处理技术现今已广泛应用于各个行业,为业务解决海量存储和海量分析的...

2020-11-30
0

大数据入门:Scala大数据黄金语言

在大数据的学习当中,关于编程语言选择的部分,是很多人在学习初期非常关注的。在企业大数据平台开发场景下,Java语言是主流选择,其次涉及到Spark部分,就不得不提到Scala语言。今天的大数据入门分享,我们就具体来讲一讲大数据...

2020-11-27
1

HANA 2.0 SPS00 SDA(Smart Data Access)连接Hadoop

介绍一下SAP HANA 2.0 SPS 00版本中新的智能数据访问Smart Data Access(SDA)

2020-11-27
1

SAP Vora(SAP HANA和Hadoop)简析

此处声明一点,很多乱七八糟的网站或者人转载文章的时候不注明出处,也不通知本人。该当何罪。

2020-11-27
0

用java程序完成从kafka队列读取消息到sparkstreaming再从sparkstreaming里把数据导入mysql中

有一段时间没好好写博客了,因为一直在做一个比较小型的工程项目,也常常用在企业里,就是将流式数据处理收集,再将这些流式数据进行一些计算以后再保存在mysql上,这是一套比较完整的流程,并且可以从数据库中的数据再导入到had...

2020-11-26
0

自适应查询执行:在运行时提升Spark SQL执行性能

Catalyst是Spark SQL核心优化器,早期主要基于规则的优化器RBO,后期又引入基于代价进行优化的CBO。但是在这些版本中,Spark SQL执行计划一旦确定就不会改变。由于缺乏或者不准确的数据统计信息(如行数、不同值的数量、NULL...

2020-11-26
0

Kafka集群消息积压问题及处理策略

通常情况下,企业中会采取轮询或者随机的方式,通过Kafka的producer向Kafka集群生产数据,来尽可能保证Kafk分区之间的数据是均匀分布的。

2020-11-26
0

Apache Kylin的实践与优化

从2016年开始,美团到店餐饮技术团队就开始使用Apache Kylin作为OLAP引擎,但是随着业务的高速发展,在构建和查询层面都出现了效率问题。于是,技术团队从原理解读开始,然后对过程进行层层拆解,并制定了由点及面的实施路线。本...

2020-11-26
0