最新 最热

如何避免Spark SQL做数据导入时产生大量小文件

我们之前的文章《蚂蚁绊倒大象...》介绍过,海量小文件是大数据领域中公认的难题,对时间和性能都可能造成毁灭性打击。本文将继续针对小文件,讲解小文件产生的原因和一些解决办法,希望对大家能有所启发。...

2021-03-24
0

干货分享 | 史上最全Spark高级RDD函数讲解

本篇文章主要介绍高级RDD操作,重点介绍键值RDD,这是操作数据的一种强大的抽象形式。我们还涉及一些更高级的主题,如自定义分区,这是你可能最想要使用RDD的原因。使用自定义分区函数,你可以精确控制数据在集群上的分布,并相...

2021-03-23
0

Z投稿|12000nvps下Zabbix性能维护—某支付平台经验分享

前言:公司(某银行旗下第三方支付平台)最近在做运维大数据项目,需要将各个监控系统的实时采集数据汇总到大数据平台进行智能告警和根因定位,Zabbix作为整个公司数据量最大的监控系统,超过12000的nvps,每周约产生400G左右的监...

2021-03-23
1

spark计算操作整理

其中, 通过多次处理, 生成多个中间数据, 最后对结果进行操作获得数据. 本文不涉及任何原理, 仅总结spark在处理的时候支持的所有操作, 方便后面使用的时候, 可以参照本文进行数据的处理....

2021-03-23
1

Iceberg 实践 | B 站通过数据组织加速大规模数据分析

交互式分析是大数据分析的一个重要方向,基于TB甚至PB量级的数据数据为用户提供秒级甚至亚秒级的交互式分析体验,能够大大提升数据分析人员的工作效率和使用体验。限于机器的物理资源限制,对于超大规模的数据的全表扫描以...

2021-03-23
0

2021年最新鲜的面试题整理:亿信华辰

我们VIP成员很多在2021年春节年前、后,拿到了offer。而且不止一个,有的两个,有的四个,有的六个。这里给我们分享其中一位成员,整理的一家公司的面试题,后续将会陆续发布。...

2021-03-22
1

pyspark 特征工程

曾经在15、16年那会儿使用Spark做机器学习,那时候pyspark并不成熟,做特征工程主要还是写scala。后来进入阿里工作,特征处理基本上使用PAI 可视化特征工程组件+ODPS SQL,复杂的话才会自己写python处理。最近重新学习了下py...

2021-03-20
1

pyspark做movielens推荐模型特征工程

这篇文章我们来讲讲,如何使用pyspark为推荐模型做特征工程。同样的,我们将使用movielens数据集,我们需要进行Sample Label、Movie Features生成以及User Features的生成、最后再split Train&Test Samples。...

2021-03-20
1

Spark Connector Writer 原理与实践

在《Spark Connector Reader 原理与实践》中我们提过 Spark Connector 是一个 Spark 的数据连接器,可以通过该连接器进行外部数据系统的读写操作,Spark Connector 包含两部分,分别是 Reader 和 Writer,而本文主要讲述如何...

2021-03-19
0

生产集群spark报错问题

shuffle write的分区数由上一阶段的RDD分区数控制,shuffle read的分区数则是由Spark提供的一些参数控制。

2021-03-17
0