Spark_字节宝

Spark SQL在雪球的实践

因为业务需要，雪球数据团队基于HDP 3.1.5(Hadoop 3.1.1+Hive 3.1.0+Tez 0.9.1)搭建了一个新的集群，HDP 3.1.5默认使用Hive3 on Tez作为ETL计算引擎，但是在使用Hive3 on Tez中，我们遇到很多问题：...

hive SQL spark

2022-05-03

Spark初步认识与安装

Spark官方文档：https://spark.apache.org/docs/2.3.0/rdd-programming-guide.html

spark

2022-04-29

RDD依赖关系

其中有一个就是 - A list of dependencies on other RDDs(依赖关系)

spark 编程算法 JavaScript

2022-04-28

0879-7.1.7-如何在CDP安装NVIDIA Tesla T4并使用RAPIDS加速

本文作者：BYD信息中心-数据中心管理部-董睿进入正文之前先打一个小广告，手动狗头比亚迪西安研发中心（与深圳协同办公），base西安，招聘大数据平台运维、架构方向的工程师，实时计算方向工程师，感兴趣的小伙伴请投递简历至dong....

spark yarn Node.js api 机器学习

2022-04-28

大数据开发-Spark编程

https://www.psvmc.cn/article/2022-04-21-bigdata-spark-idea.html

编程算法 spark hadoop 文件存储

2022-04-28

MapReduce与Spark 对比

研究了一段时间，简单对比了二者不同点，也是Spark计算更有MapReduce的原因所在。

spark 缓存 mapreduce Node.js 大数据

2022-04-27

Transformation转换算子之Key-Value类型

依样画葫芦娃我们也许不知道怎么自定义一个分区，那么可以看看spark 自带的是怎么写的；如HashPartitioner

mapreduce 文件存储 spark

2022-04-27

大数据技术学习带来的思考

最基本的存储技术。日常应用把通过各种渠道得到的数据，如关系数据库、日志、埋点、爬虫数据都存储到HDFS，供后续使用。

spark mapreduce hbase yarn TDSQLMySQL版

2022-04-27

[离线计算-Spark|Hive] HDFS小文件处理

HDFS 小文件过多会对hadoop 扩展性以及稳定性造成影响, 因为要在namenode 上存储维护大量元信息.

spark SQL

2022-04-27

[离线计算-Spark|Hive] 数据近实时同步数仓方案设计

最近阅读了大量关于hudi相关文章, 下面结合对Hudi的调研, 设计一套技术方案用于支持 MySQL数据CDC同步至数仓中，避免繁琐的ETL流程，借助Hudi的upsert, delete 能力，来缩短数据的交付时间....

https 网络安全 spark hive 数据库

2022-04-27

51 52 53 54 55

Spark SQL在雪球的实践

Spark初步认识与安装

RDD依赖关系

0879-7.1.7-如何在CDP安装NVIDIA Tesla T4并使用RAPIDS加速

大数据开发-Spark编程

MapReduce与Spark 对比

Transformation转换算子之Key-Value类型

大数据技术学习带来的思考

[离线计算-Spark|Hive] HDFS小文件处理

[离线计算-Spark|Hive] 数据近实时同步数仓方案设计

热门文章

热门手册