最新 最热

推荐算法|矩阵分解模型

导读:在《推荐算法概述》一文中,我们介绍了推荐算法分为基于用户、基于物品、基于模型的协同过滤方法,矩阵分解模型是典型的基于模型的方法之一,本文将从基本概念、原理、实践几个角度进行介绍。...

2021-06-21
1

科技少年召集令,大神请进!

腾讯星火计划2021 暨科技少年挑战周启动招募 五大战场                 真剑胜负 也许 在学科竞赛的“战场”上 你敲出的代码拿下了一座座“城池” 在科技项目的“战场”上 你de的bug抵抗住了一次次“进攻”...

2021-06-21
1

Spark 查看某个正在执行的或已结束的任务中executor与driver日志

如果运行在 YARN 模式,可以在 ResourceManager 节点的 WEB UI 页面根据 任务状态、用户名 或者 applicationId Search 到应用。

2021-06-16
1

Spark Structrued Streaming 及 DStreaming 调优笔记

项目中用的是Spark Structrued Streaming ,也就是Spark 2.0的新版Streaming,看官方文档也说过性能及实时性会比之前的Dstreaming好点,但是相关的资料相比Dstreaming实在是少很多,现在调优阶段很多都要参考Dstreaming的文...

2021-06-16
1

Spark RDD / Dataset 相关操作及对比汇总笔记

本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。

2021-06-16
0

Spark Structured Streaming + Kafka使用笔记

这篇博客将会记录Structured Streaming + Kafka的一些基本使用(Java 版)

2021-06-16
1

通过扩展 Spark SQL ,打造自己的大数据分析引擎

Spark SQL 的 Catalyst ,这部分真的很有意思,值得去仔细研究一番,今天先来说说Spark的一些扩展机制吧,上一次写Spark,对其SQL的解析进行了一定的魔改,今天我们按套路来,使用砖厂为我们提供的机制,来扩展Spark......

2021-06-15
0

Spark中RDD 持久化操作 cache与persist区别

在进行RDD操作的时候,我们需要在接下来多个行动中重用同一个RDD,这个时候我们就可以将RDD缓存起来,可以很大程度的节省计算和程序运行时间。

2021-06-15
1

Spark报错:Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo

原因: 因为在之前的项目中,在hadoop中的core-site.xml 和mapred-site.xml文件配置了lzo格式的压缩,这就导致上传到hdfs 的文件自动被压缩为lzo了。所以当使用提交spark-submit任务时,需要访问HDFS上的文件,而spark自身没有...

2021-06-11
0

[新星计划]导师嫌我Sql写的太low?要求我重写还加了三个需求?——二战Spark电影评分数据分析

这是我的上篇博文,当时仅是做了一个实现案例(demo级别 ),没想到居然让我押中了题,还让我稳稳的及格了(这次测试试卷难度极大,考60分都能在班上排进前10) 不过我在复盘的时候,发现自己的致命弱点:写sql的能力太菜了。。...

2021-06-11
0