sparksql(1)——Dataframe

2020-11-11 17:05:12 浏览数 (1)

sparksql类似于hive,但它基于内存,而hive基于mapreduce,而mapreduce又基于磁盘,所以spark处理数据快得多。 sparksql不止有sql语句,现在他还有Dataframe的API,Dataframe比写RDD要快。dataframe将非结构化数据schema化。 sparksql类比于hive可以发现,hive在mapreduce上做了一个框架,而sparksql是在spark core里的rdd里面多出来的一个框架,并且还多了dataframe这样的简便框架,dataframe最终也是转换为RDD的操作 前提:打开spark—master和spark—slave(前面有讲过,我们用的是standalone模式,由master和worker去操作driver和executer) (1)首先打开jupyter

(2)创建session对象

(3)查看任务 通过8088端口查看

(4)创建dataframe

(5)查看结果

可以见到dataframe可以将数据结构化,方便以后对数据的操作

0 人点赞