最新 最热

Spark 3.1 Standalone集群搭建

https://www.apache.org/dyn/closer.lua/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

2021-08-13
1

Spark Streaming的背压机制(类比Storm雪崩)

默认情况下,SparkStremaing根据Receiver以生产者生产数据的速度来接收数据,但是在工作状态下, 实际计算一个批次数据的时间一般要大于Streaming应用设置的批处理间隔。这就意味着Spark Streaming处理数据的速度要小于数...

2021-08-12
1

Spark Streaming连接Flume的两种方式

Spark提供了两种不同的接收器来接受Flume端发送的数据。 推式接收器该接收器以 Avro 数据池的方式工作,由 Flume 向其中推数据。设置起来非常简单,我们只需要将Fluem简单配置下,将数据发送到Avro数据池中,然后scala提供的...

2021-08-12
1

Kylin2.5.2完全分布式安装部署

Kylin介绍:      关于Kylin的简介网上资料有很多,就不做过多的赘述了,这里给一个中文链接: http://kylin.apache.org/cn/ 搭建步骤:

2021-08-12
1

有向无环图(DAG)的温故知新

当我们学习数据结构的时候,总是觉得很枯燥,而当我们解决实际问题的时候,又往往因为对数据结构了解的匮乏而束手无策。从问题中来,到问题中去,在某一点上的深入思考并且不断的实践积累,或许是个笨办法,但笨办法总是比没办法好...

2021-08-06
1

用Spark-Scala训练LightGBM模型

Spark-scala 可以使用LightGBM模型,既可以进行分布式训练,也可以进行分布式预测,支持各种参数设置。

2021-08-06
1

本周优秀UI作品赏析(品牌Logo专题)-No.41

静电说:今天我们来一起品牌Logo专题,各位小伙伴,辛苦做的UI页面,做好了可变忘记为应用设计一个Logo啊,不少小伙伴不重视Logo设计,把应用名字随便打几个字就放设计稿上了,这是非常掉分的。Logo是图形加文字的组合,不管是哪一块...

2021-08-06
1

记录spark-yarn模式下提交自己写的java程序

因为公司要完成统计任务,每天都有一些任务要在spark上跑,任务定时调度使用的是azkaban3版本,在提交代码的时候要注意一些问题: 首先是如下代码后面不要加setMaster,否则会报错:...

2021-08-05
1

大数据开发:Spark SQL数据处理模块

Spark SQL作为Spark当中的结构化数据处理模块,在数据价值挖掘的环节上,备受重用。自Spark SQL出现之后,坊间甚至时有传言,Spark SQL将取代Hive,足见业内对其的推崇。今天的大数据开发学习分享,我们就来讲讲Spark SQL数据处...

2021-08-03
1

大数据开发:Spark MLlib组件学习入门

在Spark生态圈当中,MLlib组件,作为机器学习库而存在,在大数据分析、数据挖掘等数据处理操作上,提供重要的支持。学习Spark,对于MLlib组件的学习,也可以有相应程度的掌握。今天的大数据开发学习分享,我们就来讲讲Spark MLlib...

2021-08-02
1