spark

2019-05-25 09:26:53 浏览数 (1)

搭建spark集群

https://www.cnblogs.com/freeweb/p/5773619.html

idea 创建maven项目

配置scala环境: https://www.cnblogs.com/luguoyuanf/p/19c1e4d88a094c07331e912f40ed46c7.html 然后右键,run 'xx'即可运行(要保证有main函数): https://www.cnblogs.com/kevinlogs/p/9175602.html maven导入spark、hadoop组件 https://blog.csdn.net/yu0_zhang0/article/details/80112846 另外参考: https://www.cnblogs.com/wangjianwei/articles/9722234.html cannot resolve symbol: https://blog.csdn.net/qq_23876393/article/details/78851061 确认spark与scala对应版本关系: https://mvnrepository.com/artifact/org.apache.spark/spark-core

此处有2.12和2.11标签,如果是spark2.4且scala2.11,要点进2.11标签

试图运行wordcount

NoClassDefFoundError: scala/Product$class

Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error

https://stackoverflow.com/questions/53260980/java-sparksql-2-4-0-arrayindexoutofboundsexception-error

读取文件时连接错误java.net.ConnectException

url本来是

代码语言:javascript复制
val textFile=sc.textFile("hdfs://127.0.0.1:9000/wc/temp")

改成以下后就好了,其中hadoop01会被映射到192.168.xx.xx(本地的私有ip)

代码语言:javascript复制
val textFile=sc.textFile("hdfs://hadoop01:9000/wc/temp")

版本问题

scala与spark版本要对应,maven导入的sdk也要版本对应

运行方式

在本地测试则master设为本地运行 在集群测试则master设为集群运行

参考资源

  1. 《Spark快速大数据分析》
  2. 《Spark和核心技术与高级应用》
  3. 北风网相关视频

0 人点赞