spark_ 字节宝

搭建spark集群

https://www.cnblogs.com/freeweb/p/5773619.html

idea 创建maven项目

配置scala环境： https://www.cnblogs.com/luguoyuanf/p/19c1e4d88a094c07331e912f40ed46c7.html 然后右键，run 'xx'即可运行(要保证有main函数): https://www.cnblogs.com/kevinlogs/p/9175602.html maven导入spark、hadoop组件 https://blog.csdn.net/yu0_zhang0/article/details/80112846 另外参考： https://www.cnblogs.com/wangjianwei/articles/9722234.html cannot resolve symbol: https://blog.csdn.net/qq_23876393/article/details/78851061 确认spark与scala对应版本关系： https://mvnrepository.com/artifact/org.apache.spark/spark-core

此处有2.12和2.11标签，如果是spark2.4且scala2.11，要点进2.11标签

试图运行wordcount

NoClassDefFoundError: scala/Product$class

Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error

https://stackoverflow.com/questions/53260980/java-sparksql-2-4-0-arrayindexoutofboundsexception-error

读取文件时连接错误java.net.ConnectException

url本来是

代码语言：javascript复制

val textFile=sc.textFile("hdfs://127.0.0.1:9000/wc/temp")

改成以下后就好了，其中hadoop01会被映射到192.168.xx.xx(本地的私有ip)

代码语言：javascript复制

val textFile=sc.textFile("hdfs://hadoop01:9000/wc/temp")

版本问题

scala与spark版本要对应，maven导入的sdk也要版本对应

运行方式

在本地测试则master设为本地运行在集群测试则master设为集群运行

参考资源

《Spark快速大数据分析》
《Spark和核心技术与高级应用》
北风网相关视频

网络安全 https scala html

0 人点赞