最新 最热

k8s安装spark

这段时间已经基本实现了产品应用层从原生的springboot微服务架构迁移到k8s上,过程可谓是瞎子过河一步一个坑,但是好在系统总体能跑起来了;今天研究了下产品计算层(spark集群)如何基于k8s部署操作,过程有些取巧了,但总的来说...

2022-10-27
1

一文读懂:开源大数据调度系统Taier1.2版本新增的「工作流」到底是什么?

普通任务本身他只会有自己的 dag 图,依赖视图是无边界的,不可控的,而工作流则是把整个工作流都展示出来,是有边界的,可控的,这是工作流的优势。下面为大家介绍工作流的相关功能:...

2022-10-18
1

Superset sqllab连接hive无法显示表信息的问题

使用superset,连接hive时(hive的引擎是spark),表名和表信息无法加载,加载出来了一堆表的数据库名

2022-10-17
1

K8s部署docker镜像 Superset,无法查看配置的Hive连接信息

1、连接hive不是真正的hive,而是由kyuubi+spark并接入hive元数据库搭建的,用来替代运行效率慢的hive且也可以提供jdbc连接

2022-10-13
1

Spark任务写数据到s3,执行时间特别长

目前使用s3替代hdfs作为hive表数据存储,使用spark sql insert数据到hive表,发现一个简单的查询+插入任务,查询+insert的动作显示已经执行完,任务还在跑,直到跑了两个小时后才执行结束。...

2022-10-11
1

Facebook的新开源项目Velox,有点命运多舛啊。。。

本文首发微信公众号:飞总聊ITVelox是Facebook(Meta)开源的一个新的大数据项目。今年VLDB的会议上,Velox团队也发了论文。我每年都有阅读论文的习惯,一般就是看看SIGMOD/VLDB,之前也去开会,疫情以后这方面都懈怠了。今年的VL...

2022-10-09
1

浅谈Spark在大数据开发中的一些最佳实践

eBay 智能营销部门致力于打造数据驱动的业务智能中台,以支持业务部门快速开展营销活动。目前在我们正在构建一个基于eBay站外营销的业务全渠道漏斗分析指标,涉及近十个营销渠道、数十张数据源表,每天处理的数据达到上百T...

2022-10-05
1

Hive、SparkSQL是如何决定写文件的数量的?

Hive自身和Spark都提供了对Hive的SQL支持,用SQL的交互方式操作Hive底层的HDFS文件,两种方式在写文件的时候有一些区别:

2022-10-05
1

Spark数据倾斜解决

Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。

2022-10-05
1

深度学习库 SynapseML for .NET 发布0.1 版本

2021年11月 微软开源一款简单的、多语言的、大规模并行的机器学习库 SynapseML(以前称为 MMLSpark),以帮助开发人员简化机器学习管道的创建。具体参见[1]微软深度学习库 SynapseML:可直接在系统中嵌入 45 种不同机器学习...

2022-10-04
1