spark_字节宝

单机运行Spark Shell遇到的一个低级错误

下载spark-2.1.0-bin-hadoop2.7.tgz，解压缩直接进入spark根目录，然后运行bin/spark-shell即可进入。但是今天遇到了一个低级错误： java.net.BindException: Cannot assign requested address: Service ‘sp......

spark shell tcpip

2022-05-06

如何快速同步hdfs数据到ck

ClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中，当前日数据量达到了300亿。...

大数据 spark Kafka 数据处理 hive

2022-05-06

试用最强Spark IDE--IDEA

IDEA 全称 IntelliJ IDEA，是java语言开发的集成环境，IntelliJ在业界被公认为最好的java开发工具之一，尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、创新的GUI设计等方面的功能可...

ide scala spark 打包

2022-05-06

键值对RDD数据分区

所以主要了解HashPartitioner分区器，RangePartitioner分区器及自定义分区器。

文件存储 spark

2022-05-06

RDD序列化

此时运行：会有问题吗？结果没有：其原因是因为x属于局部变量，可以直接进行序列化。而放到外部，那么就需要与SerializableRDD关联，序列化x变量前肯定要序列化SerializableRDD，否则就会报错。...

文件存储 spark Java

2022-05-06

Spark-Core核心RDD基础02

首先由SparkContext对象sc调用textFile()函数，然后进行collect()操作，也就是做一个reduce操作，即可显示读取的结果

spark

2022-05-06

使用了零拷贝技术的Kafka，当然很快

有这样一个场景，有两台服务器A，B。你在A服务器上写了一个程序，这个程序功能是将服务器A的数据拷贝到服务器B上。这个功能会经历下面几步。

汇编语言 spark linux 数据分析缓存

2022-05-05

Spark-Core核心RDD基础

spark中的RDD是一个核心概念，RDD是一种弹性分布式数据集，spark计算操作都是基于RDD进行的，本文介绍RDD的基本操作。

spark 文件存储分布式

2022-05-05

聊聊DatabricksSQL和Apache Kyuubi

新粉请关注我的公众号昨天写了一篇文章Apache Kyuubi：一个有趣的大数据开源项目，介绍了网易开源的Apache Kyuubi，是如何把Spark变成为一个数仓的。有一些人联系我，有问我是不是不知道有个产品叫Databricks SQL的，也有问我D...

开源 SQL apache 大数据 spark

2022-05-05

Apache Kyuubi：一个有趣的大数据开源项目

新粉请关注我的公众号我很久没写大数据的东西了，最主要的原因是因为我不知道写啥。这个领域里面还在发生着很多事情，但是有深度的，有意义的事情不多，有趣的事情也不多。最近看到了Apache Kyuubi这个项目，应该严格的说是Apa...

spark hive SQL apache jdbc

2022-05-05

50 51 52 53 54

单机运行Spark Shell遇到的一个低级错误

如何快速同步hdfs数据到ck

试用最强Spark IDE--IDEA

键值对RDD数据分区

RDD序列化

Spark-Core核心RDD基础02

使用了零拷贝技术的Kafka，当然很快

Spark-Core核心RDD基础

聊聊DatabricksSQL和Apache Kyuubi

Apache Kyuubi：一个有趣的大数据开源项目

热门文章

热门手册