sparkcontext相当于我们和spark集群出创建好了连接,可以通过sparkcontext这样的上下文环境来创建RDD,在shell命令行中,spark已经将上下文环境创建好了,当我们输入sc时:
可见已经用了local模式,没有使用集群,这样可以验证一些基本的代码appName是我们当前启动的spark作业,名称为PySparkShell,我么也可以通过4040端口来查看:
我们可以通过sc的parallelize方法来传入一些可迭代的对象:
ps:数字5表示给他设定partition的数量,进行reduce计算累加函数,得到结果为13 可以通过可视化界面查看得到:
任务执行成功