sparksql类似于hive,但它基于内存,而hive基于mapreduce,而mapreduce又基于磁盘,所以spark处理数据快得多。 sparksql不止有sql语句,现在他还有Dataframe的API,Dataframe比写RDD要快。dataframe将非结构化数据schema化。 sparksql类比于hive可以发现,hive在mapreduce上做了一个框架,而sparksql是在spark core里的rdd里面多出来的一个框架,并且还多了dataframe这样的简便框架,dataframe最终也是转换为RDD的操作 前提:打开spark—master和spark—slave(前面有讲过,我们用的是standalone模式,由master和worker去操作driver和executer) (1)首先打开jupyter
(2)创建session对象
(3)查看任务 通过8088端口查看
(4)创建dataframe
(5)查看结果
可以见到dataframe可以将数据结构化,方便以后对数据的操作