sparksql（1）——Dataframe

2020-11-11 17:05:12 浏览数 (5)

sparksql类似于hive，但它基于内存，而hive基于mapreduce，而mapreduce又基于磁盘，所以spark处理数据快得多。 sparksql不止有sql语句，现在他还有Dataframe的API，Dataframe比写RDD要快。dataframe将非结构化数据schema化。 sparksql类比于hive可以发现，hive在mapreduce上做了一个框架，而sparksql是在spark core里的rdd里面多出来的一个框架，并且还多了dataframe这样的简便框架，dataframe最终也是转换为RDD的操作前提：打开spark—master和spark—slave（前面有讲过，我们用的是standalone模式，由master和worker去操作driver和executer）（1）首先打开jupyter