最新 最热

Spark任务日志

SparkListenerLogStart SparkListenerBlockManagerAdded SparkListenerEnvironmentUpdate SparkListenerApplicationStart //N个 SparkListenerExecutorAdded //N个 Sp...

2021-01-13
1

【CheatSheets】AI速查表集合 一图胜千言

机器学习和深度学习工程师必备-速查表 机器学习很复杂。对于新手来说,如果他们没有合适的学习资源,则开始学习机器学习会很痛苦。大多数机器学习库很难理解,学习曲线可能会令人沮丧。...

2021-01-13
1

0827-7.1.4-如何在CDP中使用Spark SQL CLI

而我们在产品开发过程中,可能需要用到spark-sql来进行数据加工,本文就采用脚本的方式,调用spark-shell来进行数据的处理,执行需要的sql语句。

2021-01-12
1

Nebula Exchange 工具 Hive 数据导入的踩坑之旅

摘要:本文由社区用户 xrfinbj 贡献,主要介绍 Exchange 工具从 Hive 数仓导入数据到 Nebula Graph 的流程及相关的注意事项。

2021-01-11
1

干货,主流大数据技术总结

互联网技术的发展让大多数企业能够积累大量的数据,而企业需要灵活快速地从这些数据中提取出有价值的信息来服务用户或帮助企业自身决策。然而处理器的主频和散热遇到了瓶颈,CPU难以通过纵向优化来提升性能,所以多核这种...

2021-01-08
1

Spark 3.0如何提高SQL工作负载的性能

在几乎所有处理复杂数据的部门中,Spark很快已成为跨数据和分析生命周期的团队的事实上的分布式计算框架。 新的Adaptive Query Execution框架(AQE)是Spark 3.0最令人期待的功能之一,它可以解决困扰许多Spark SQL工作负载...

2021-01-08
1

CDP PVC基础版的新功能

如果您是CDH或HDP用户,则除了从CDH和HDP版本转移到CDP的功能之外,还可以查看CDP私有云基础版中可用的新功能。

2021-01-08
1

Hive Schema Tool元数据运维

较早的Hive版本,不会在MetaStore中写入版本号。所以升级到新版本之后,会报错:

2021-01-07
1

英雄惜英雄-当Spark遇上Zeppelin之实战案例

我们在之前的文章《大数据可视化从未如此简单 - Apache Zepplien全面介绍》中提到过一文中介绍了 Zeppelin 的主要功能和特点,并且最后还用一个案例介绍了这个框架的使用。这节课我们用两个直观的小案例来介绍 Zepplin...

2021-01-06
1

关于较大规模hadoop集群的小文件问题

上一遍记录了当时集群资源死锁的问题,后来想了想其实小文件较多也会让集群变慢,小文件较多在执行作业时rpc时间就会增加,从而拖垮了job的执行速度。...

2021-01-06
1