搭建spark集群
https://www.cnblogs.com/freeweb/p/5773619.html
idea 创建maven项目
配置scala环境: https://www.cnblogs.com/luguoyuanf/p/19c1e4d88a094c07331e912f40ed46c7.html 然后右键,run 'xx'即可运行(要保证有main函数): https://www.cnblogs.com/kevinlogs/p/9175602.html maven导入spark、hadoop组件 https://blog.csdn.net/yu0_zhang0/article/details/80112846 另外参考: https://www.cnblogs.com/wangjianwei/articles/9722234.html cannot resolve symbol: https://blog.csdn.net/qq_23876393/article/details/78851061 确认spark与scala对应版本关系: https://mvnrepository.com/artifact/org.apache.spark/spark-core
此处有2.12和2.11标签,如果是spark2.4且scala2.11,要点进2.11标签
试图运行wordcount
NoClassDefFoundError: scala/Product$class
Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error
https://stackoverflow.com/questions/53260980/java-sparksql-2-4-0-arrayindexoutofboundsexception-error
读取文件时连接错误java.net.ConnectException
url本来是
代码语言:javascript复制val textFile=sc.textFile("hdfs://127.0.0.1:9000/wc/temp")
改成以下后就好了,其中hadoop01会被映射到192.168.xx.xx(本地的私有ip)
代码语言:javascript复制val textFile=sc.textFile("hdfs://hadoop01:9000/wc/temp")
版本问题
scala与spark版本要对应,maven导入的sdk也要版本对应
运行方式
在本地测试则master设为本地运行 在集群测试则master设为集群运行
参考资源
- 《Spark快速大数据分析》
- 《Spark和核心技术与高级应用》
- 北风网相关视频