spark1.6学习（二）——独立的python程序运行pyspark

2021-05-14 17:02:00 浏览数 (1)

本篇文章主要介绍如何使用独立的python程序运行pyspark。

一般，我们在测试的时候可以使用pyspark进行简单的交互，但是在线上具体使用的程序，我们需要使用一个完整的pyspark程序的。

主要参考：http://spark.apache.org/docs/1.6.0/quick-start.html

好，下面上货。

首先是完整的程序，从hdfs中读取文件并且缓存下来，同时算出包含a和包含b 的行数，并且打印出来。

代码语言：javascript复制

from pyspark import SparkContext, SparkConf


def main():
    logFile = "/user/root/data.txt"
    master = 'yarn-client'
    appName = 'Simple App spark study01'
    conf = SparkConf().setAppName(appName).setMaster(master)
    sc = SparkContext(conf=conf)
    logData = sc.textFile(logFile).cache()
    numAs = logData.filter(lambda s: 'a' in s).count()
    numBs = logData.filter(lambda s: 'b' in s).count()
    print("Lines with a: %i, lines with b: %i" % (numAs, numBs))


if __name__ == '__main__':
    main()

运行命令：

代码语言：javascript复制

spark-submit --master yarn-client sparkstudy01.py

spark python

0 人点赞