最新 最热

Spark1.5.1源码(Scala 2.11.7)的编译步骤

在编写spark程序的过程中,如果以master=local的方式是可以正常搞定的,然而如果将master设置为spark集群的方式则总是报各种错,通过源码查看,主要是AKKA通信与序列化之间的问题,而其核心原因是scala版本不匹配的问题。默认...

2022-05-07
1

SparkR的第一个测试例子Spark Pi计算

安装SparkR颇费周折,网上看到的各种安装方法,其实最终测试都很不好用。可能是国内有些网站被屏蔽的关系吧。

2022-05-07
1

Zeppelin 安装部署实验

一、实验目的 1. 使用Zeppelin运行SparkSQL访问Hive表 2. 动态表单SQL 二、实验环境: 12个节点的Spark集群,以standalone方式部署,各个节点运行的进程如表1所示。...

2022-05-07
1

Spark on YARN 部署实验

以前的Spark部署都是使用的standalone方式,集群中的每台机器都安装部署Spark,然后启动Master和Worker进程运行Spark。今天尝试一下Spark on YARN的部署方式。 一、实验目的 1. 只在一台机器上安装Spark,基于已有的Had...

2022-05-07
1

Pentaho Work with Big Data(二)—— Kettle提交Spark作业

实验目的: 配置Kettle向Spark集群提交作业。 实验环境: 4台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是......

2022-05-07
1

用beeline连接SparkSQL

1. 在$SPARK_HOME/conf/hive-site.xml文件中添加下面的属性

2022-05-07
1

Spark 安装配置实验

http://blog.csdn.net/wzy0623/article/details/50681554

2022-05-07
0

用scala语言实现并行堆排序(top k)

因为项目需要对大量数据进行排序计算top k,开始了解并行计算框架,接触了spark,spark都是用scala写的,所以为了了解spark,恶补了一阵scala语言。 这是一种非常简练的函数式语言,最让我感觉兴趣的就是它天然支持并行计算,并且...

2022-05-07
1

spark-shell --master yarn-client(异常已经解决)

可能是spark-shell --master yarn-client过时了,但是换成spark-shell --master yarn --deploy-mode client,依然报错。

2022-05-06
1

单机运行Spark Shell

1 下载Spark-2.1.0-bin-hadoop2.7.tgzhttp://spark.apache.org/downloads.html

2022-05-06
1