spark_字节宝

k8s安装spark

这段时间已经基本实现了产品应用层从原生的springboot微服务架构迁移到k8s上，过程可谓是瞎子过河一步一个坑，但是好在系统总体能跑起来了；今天研究了下产品计算层（spark集群）如何基于k8s部署操作，过程有些取巧了，但总的来说...

jar kubernetes spark client driver

2022-10-27

一文读懂：开源大数据调度系统Taier1.2版本新增的「工作流」到底是什么？

普通任务本身他只会有自己的 dag 图，依赖视图是无边界的，不可控的，而工作流则是把整个工作流都展示出来，是有边界的，可控的，这是工作流的优势。下面为大家介绍工作流的相关功能：...

编程算法 spark Node.js

2022-10-18

Superset sqllab连接hive无法显示表信息的问题

使用superset，连接hive时(hive的引擎是spark)，表名和表信息无法加载，加载出来了一堆表的数据库名

spark hive sqlhive sparksql Superset hivesql

2022-10-17

K8s部署docker镜像 Superset，无法查看配置的Hive连接信息

1、连接hive不是真正的hive，而是由kyuubi+spark并接入hive元数据库搭建的，用来替代运行效率慢的hive且也可以提供jdbc连接

hive spark json jdbc pythonk8s Docker Superset kyuubi

2022-10-13

Spark任务写数据到s3，执行时间特别长

目前使用s3替代hdfs作为hive表数据存储，使用spark sql insert数据到hive表，发现一个简单的查询+插入任务，查询+insert的动作显示已经执行完，任务还在跑，直到跑了两个小时后才执行结束。...

spark 编程算法 hive Node.js 大数据spark s3 commit

2022-10-11

Facebook的新开源项目Velox，有点命运多舛啊。。。

本文首发微信公众号：飞总聊ITVelox是Facebook（Meta)开源的一个新的大数据项目。今年VLDB的会议上，Velox团队也发了论文。我每年都有阅读论文的习惯，一般就是看看SIGMOD/VLDB，之前也去开会，疫情以后这方面都懈怠了。今年的VL...

开源 spark 大数据 C++

2022-10-09

浅谈Spark在大数据开发中的一些最佳实践

eBay 智能营销部门致力于打造数据驱动的业务智能中台，以支持业务部门快速开展营销活动。目前在我们正在构建一个基于eBay站外营销的业务全渠道漏斗分析指标，涉及近十个营销渠道、数十张数据源表，每天处理的数据达到上百T...

spark 缓存 Python SQL 文件存储

2022-10-05

Hive、SparkSQL是如何决定写文件的数量的？

Hive自身和Spark都提供了对Hive的SQL支持，用SQL的交互方式操作Hive底层的HDFS文件，两种方式在写文件的时候有一些区别：

hive SQL spark mapreduce 编程算法

2022-10-05

Spark数据倾斜解决

Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题，是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。

mapreduce spark hive

2022-10-05

深度学习库 SynapseML for .NET 发布0.1 版本

2021年11月微软开源一款简单的、多语言的、大规模并行的机器学习库 SynapseML（以前称为 MMLSpark），以帮助开发人员简化机器学习管道的创建。具体参见[1]微软深度学习库 SynapseML：可直接在系统中嵌入 45 种不同机器学习...

https 网络安全 spark 机器学习 apache

2022-10-04

21 22 23 24 25

k8s安装spark

一文读懂：开源大数据调度系统Taier1.2版本新增的「工作流」到底是什么？

Superset sqllab连接hive无法显示表信息的问题

K8s部署docker镜像 Superset，无法查看配置的Hive连接信息

Spark任务写数据到s3，执行时间特别长

Facebook的新开源项目Velox，有点命运多舛啊。。。

浅谈Spark在大数据开发中的一些最佳实践

Hive、SparkSQL是如何决定写文件的数量的？

Spark数据倾斜解决

深度学习库 SynapseML for .NET 发布0.1 版本

热门文章

热门手册