最新 最热

Spark 频繁模式挖掘

官方文档:https://spark.apache.org/docs/2.2.0/ml-frequent-pattern-mining.html

2020-10-10
0

Spark 模型选择和调参

官方文档:https://spark.apache.org/docs/2.2.0/ml-tuning.html

2020-10-10
0

百亿级图数据JanusGraph迁移之旅

目前我们的图数据库数据量为 顶点 20 亿,边 200 亿的规模。在迁移之前我们使用的 AgensGraph 数据库一个主库四个备库,机器的配置都比较高,256G 内存 SSD 的磁盘,单机数据量为 3T左右。在数据量比较小的情况下 AgensGraph...

2020-10-10
1

收藏|Flink比Spark好在哪?

Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台。和 Spark 类似,两者都希望提供一个统一功能的计算平台给用户,都在尝试建立一个统一的平台以运行批量,流式,交互式,图处理,机器学习等应用。...

2020-10-09
1

大数据ETL实践探索 ---- 笔试面试考点

1、Spark的中间数据放到内存中,对于迭代运算效率更高 2、Spark比Hadoop更通用 3、Spark提供了统一的编程接口 4、容错性– 在分布式数据集计算时通过checkpoint来实现容错 5、可用性– Spark通过提供丰富的Scala, Java...

2020-10-09
1

0812-5.16.2-如何获取CDSW上提交Spark作业的真实用户

在一个CDSW环境中,由于其中一个租户经常提交大型Spark作业将YARN上租户所在的资源池资源用到95%以上,从而影响到同一租户下其他用户提交作业的运行。这种情况下我们没办法直接找到这些大型作业的实际提交人,是因为我们在...

2020-09-30
1

大数据平台架构:分布式技术架构简介

不可否认,大数据在这些年的发展当中,实现大数据处理的核心技术,始终是分布式。基于分布式技术架构,有分布式存储、分布式计算等相应的技术框架组件,形成了完善的技术生态,为大数据处理需求任务提供相应的解决方案。今天我们...

2020-09-29
1

大数据与云计算技术周报(第161期)

本文主要从以下四个方面介绍:Spark SQL 在字节跳动的应用;什么是分桶;Spark 分桶的限制;字节跳动在分桶方面的优化。

2020-09-29
1

大数据快速入门(02):选择大数据,我该往哪个方向发展

大数据的方向有很多的,即使没有真正经历过,平时也会耳濡目染,在各大杂志公众号新闻上听说过,什么大数据人工智能,大数据分析挖掘,大数据架构师等职位。...

2020-09-29
1

Swift正式登录Windows:苹果跨平台语言值几钱?

近日,Swift 官方博客宣布将 Swift 正式引入 Windows,并附上了镜像包的下载链接。Swift 是苹果新推出的编程语言,专门针对 OS X 和 iOS 的应用开发。由于之前仅支持 MacOS 和 Ubuntu,所以使用 Windows 电脑的开发者如果想...

2020-09-28
0