大数据必知必会系列——面试官问能不能手写一个spark程序？[新星计划]

引言

学习大数据差不多一年了，笔者最近在整理大数据学习的笔记资料，这个系列是整理的一些大数据必知必会的知识。

面试官问：看你简历上写spark一项是熟练程度，能不能给我手写一个spark程序？

我：当然能（不行）

当初写简历时为了不留出那么多空造的，哪会写什么spark程序？？

有没有办法拯救？有

写最简单的一个spark案例：wordcount

代码语言：javascript复制

// TODO: 创建SparkContext实例对象，首先构建SparkConf实例，设置应用基本信息
		val sc: SparkContext = {
			// 其一、构建SparkConf对象，设置应用名称和master
			val sparkConf: SparkConf = new SparkConf()
    			.setAppName("SparkWordCount")
    			.setMaster("local[2]")
			// 其二、创建SparkContext实例，传递sparkConf对象
			new SparkContext(sparkConf)
		}
		
		// TODO: 第一步、从HDFS读取文件数据，sc.textFile方法，将数据封装到RDD中
		val inputRDD: RDD[String] = sc.textFile("datas/wordcount.data")
		
		// TODO: 第二步、调用RDD中高阶函数，进行处理转换处理，函数：flapMap、map和reduceByKey
		val resultRDD: RDD[(String, Int)] = inputRDD
			// 按照分隔符分割单词
			.flatMap(line => line.split("\s "))
			// 转换单词为二元组，表示每个单词出现一次
			.map(word => word -> 1)
			// 按照单词分组，对组内执进行聚合reduce操作，求和
			.reduceByKey((tmp, item) => tmp   item)
		
		// TODO: 第三步、将最终处理结果RDD保存到HDFS或打印控制台
		resultRDD.saveAsTextFile("datas/spark-wordcount")
		
		// 为了查看应用监控，可以让进程休眠
		Thread.sleep(100000)
		
		// 应用结束，关闭资源
		sc.stop()

短短12行代码。

足矣。

总结

以上便是spark最经典的程序，也是大数据领域最经典的程序，地位相当于java语言的System.out.println("Hello World");

spark 大数据

0 人点赞