最新 最热

Flink 实时流Wordcount案例

Scala版本import org.apache.flink.api.java.utils.ParameterToolimport org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentimport org.apache.flink.stre...

2023-02-25
1

Scala基础知识

scala区分大小写 类名第一个字母要大写 方法名称第一个字母小写 程序入口定义def main(args:Array[String]) scala注释 // /* */ Scala第一行 package 包名 scala导入包 import 包名...

2023-02-25
1

WordCount案例

1、安装nc工具:yum install nc 2、开发实时wordcount程序

2023-02-25
2

JDBC数据源实战

测试: Use testdb; Show tables; Select * from good_student_infos;

2023-02-25
2

JSON综合性复杂案例

查询成绩为80分以上的学生的基本信息与成绩信息 Student.json {"name":"Leo", "score":85} {"name":"Marry", "score":99} {"name":"Jack", "score":74}...

2023-02-25
2

手动指定数据源类型

也可以手动指定用来操作的数据源类型。数据源通常需要使用其全限定名来指定,比如parquet是org.apache.spark.sql.parquet。但是Spark SQL内置了一些数据源类型,比如json,parquet,jdbc等等。实际上,通过这个功能,就可以在不...

2023-02-25
1

通用的load和save操作

对于Spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作。load操作主要用于加载数据,创建出DataFrame;save操作,主要用于将DataFrame中的数据保存到文件中。...

2023-02-25
1

RDD转换为DataFrame

为什么要将RDD转换为DataFrame?因为这样的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使用Spark SQL进行SQL查询了。这个功能是无比强大的。想象一下,针对HDFS中的数据,直接就可以使用SQL进行查询。...

2023-02-25
1

DataFrame的常用操作

Java版本​//打印DataFrame中所有的数据(select * from ...)​​df.show();​​//打印DataFrame的元数据(schema)​​df.printSchema();//查询某列所有数据​​df.select("name").show();//查询某几个列所有......

2023-02-25
1

创建DataFrame

SQLContext sqlContext = new SQLContext(sc);

2023-02-25
1