由于 Spark 的懒执行, 在驱动程序调用一个action之前, Spark 应用不会做任何事情. 针对每个 action, Spark 调度器就创建一个执行图(execution graph)和启动一个 Spark job 每个 job 由多个stages 组成, 这些...
从文件中读取数据是创建 RDD 的一种方式. 把数据保存的文件中的操作是一种 Action. Spark 的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。 文件格式分为:Text文件、Json文件、csv文件...