本文主要介绍 spark SQL 读写 ES,参数的配置以及问题总结。
ES官方提供了对spark的支持,可以直接通过spark读写es,具体可以参考ES Spark Support文档(https://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.html#spark)
以下是pom依赖,具体版本可以根据自己的es和spark版本进行选择:
代码语言:javascript复制 <dependency>
<groupId>org.elasticsearch</groupId>
<artifactId>elasticsearch-spark-20_2.11</artifactId>
<version>7.3.1</version>
</dependency>
Spark SQL to ES
主要提供了两种读写方式:
- 一种是通过DataFrameReader/Writer传入ES Source实现
- 另一种是直接读写DataFrame实现
在实现前,还要列一些相关的配置:
列了一些常用的配置,更多配置查看ES Spark Configuration文档(https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html)
DataFrameReader 读 ES
代码语言:javascript复制import org.elasticsearch.spark.sql._
val options = Map(
"es.nodes.wan.only" -> "true",
"es.nodes" -> "29.29.29.29:10008,29.29.29.29:10009",
"es.port" -> "9200",
"es.read.field.as.array.include" -> "arr1, arr2"
)
val df = spark
.read
.format("es")
.options(options)
.load("index1/info")
df.show()
DataFrameWriter 写 ES
代码语言:javascript复制import org.elasticsearch.spark.sql._
val options = Map(
"es.index.auto.create" -> "true",
"es.nodes.wan.only" -> "true",
"es.nodes" -> "29.29.29.29:10008,29.29.29.29:10009",
"es.port" -> "9200",
"es.mapping.id" -> "id"
)
val sourceDF = spark.table("hive_table")
sourceDF
.write
.format("org.elasticsearch.spark.sql")
.options(options)
.mode(SaveMode.Append)
.save("hive_table/docs")
读DataFrame
jar包中提供了 esDF() 方法可以直接读es数据为DataFrame,以下是源码截图。
参数说明:
- resource:资源路径,例如index和tpye: hive_table/docs
- cfg:一些es的配置,和上面代码中的options差不多
- query:指定DSL查询语句来过滤要读的数据,例如"?q=user_group_id:3"表示读user_group_id为3的数据
val options = Map(
"pushdown" -> "true",
"es.nodes.wan.only" -> "true",
"es.nodes" -> "29.29.29.29:10008,29.29.29.29:10009",
"es.port" -> "9200"
)
val df = spark.esDF("hive_table/docs", "?q=user_group_id:3", options)
df.show()
写 DataFrame
jar包中提供了 saveToEs() 方法可以将DataFrame写入ES,以下是源码截图。
resource:资源路径,例如index和tpye: hive_table/docs cfg:一些es的配置,和上面代码中的options差不多
示例:
代码语言:javascript复制val brandDF = sparkSession.sql(""" SELECT
| categoryname AS id
| , concat_ws(',', collect_set(targetword)) AS targetWords
| , get_utc_time() as `@timestamp`
| FROM t1
| GROUP BY
| categoryname
""".stripMargin)
// 手动指定ES _id值
val map = Map("es.mapping.id" -> "id")
EsSparkSQL.saveToEs(brandDF, "mkt_noresult_brand/mkt_noresult_brand", map)
Spark RDD to ES
SparkRDD方式写 ES,以下是源码截图。
示例:
代码语言:javascript复制 val numbers = Map("one" -> 1, "two" -> 2, "three" -> 3)
val airports = Map("OTP" -> "Otopeni", "SFO" -> "San Fran")
val rdd = sparkSession.sparkContext.makeRDD(Seq(numbers, airports))
EsSpark.saveToEs(rdd, "mkt_noresult_brand/mkt_noresult_brand", map)
问题总结
手动指定ES _ id值
EsSparkSQL.saveToEs 报错org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: [DataFrameFieldExtractor for field [[...]]] cannot extract value from entity
原因:"es.mapping.id"参数指定文档的id,这个参数必须配置成DataFrame中已有的字段,不能随意指定。配置成 val map = Map("es.mapping.id" -> "id"), 数据导入成功。
版权声明:
本文为《大数据真好玩》整理,原作者独家授权。未经原作者允许转载追究侵权责任。
编辑|冷眼丶
微信公众号|大数据真好玩