最新 最热

Spark SQL在雪球的实践

因为业务需要,雪球数据团队基于HDP 3.1.5(Hadoop 3.1.1+Hive 3.1.0+Tez 0.9.1)搭建了一个新的集群,HDP 3.1.5默认使用Hive3 on Tez作为ETL计算引擎,但是在使用Hive3 on Tez中,我们遇到很多问题:...

2022-05-03
1

Spark初步认识与安装

Spark官方文档:https://spark.apache.org/docs/2.3.0/rdd-programming-guide.html

2022-04-29
1

RDD依赖关系

其中有一个就是 - A list of dependencies on other RDDs(依赖关系)

2022-04-28
1

0879-7.1.7-如何在CDP安装NVIDIA Tesla T4并使用RAPIDS加速

本文作者:BYD信息中心-数据中心管理部-董睿 进入正文之前先打一个小广告,手动狗头 比亚迪西安研发中心(与深圳协同办公),base西安,招聘大数据平台运维、架构方向的工程师,实时计算方向工程师,感兴趣的小伙伴请投递简历至dong....

2022-04-28
1

大数据开发-Spark编程

https://www.psvmc.cn/article/2022-04-21-bigdata-spark-idea.html

2022-04-28
1

MapReduce与Spark 对比

研究了一段时间,简单对比了二者不同点,也是Spark计算更有MapReduce的原因所在。

2022-04-27
1

Transformation转换算子之Key-Value类型

依样画葫芦娃 我们也许不知道怎么自定义一个分区,那么可以看看spark 自带的是怎么写的;如HashPartitioner

2022-04-27
1

大数据技术学习带来的思考

最基本的存储技术。日常应用把通过各种渠道得到的数据,如关系数据库、日志、埋点、爬虫数据都存储到HDFS,供后续使用。

2022-04-27
1

[离线计算-Spark|Hive] HDFS小文件处理

HDFS 小文件过多会对hadoop 扩展性以及稳定性造成影响, 因为要在namenode 上存储维护大量元信息.

2022-04-27
1

[离线计算-Spark|Hive] 数据近实时同步数仓方案设计

最近阅读了大量关于hudi相关文章, 下面结合对Hudi的调研, 设计一套技术方案用于支持 MySQL数据CDC同步至数仓中,避免繁琐的ETL流程,借助Hudi的upsert, delete 能力,来缩短数据的交付时间....

2022-04-27
1