最新 最热

基于Spark的用户行为分析系统

本项目主要用于互联网电商企业中使用Spark技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为、购物行为、广告点击行为等)进行复杂的分析。用统计分析出来的数据辅助公司中的PM(产品经理)、数据分析师以及...

2021-04-13
0

Spark全面性能调优详解

如果在Task执行期间发生大量的Full GC,那么说明年轻代的Eden区域给的空间不够大,可以通过一下方式进行调优:

2021-04-13
1

真香!PySpark整合Apache Hudi实战

Hudi支持Spark-2.x版本,你可以点击如下链接安装Spark,并使用pyspark启动

2021-04-13
0

SparkCore快速入门系列(5)

铁铁们,博主前段时间在做一些项目加上找工作所以到现在才更新,(__) 嘻嘻…… 博主现在已经工作啦,后期会给你们更新一些关于数据库以及报表开发的文章哦! 接下来言归正传!!!!!!...

2021-04-13
0

速度!Apache Hudi又双叕被国内顶级云服务提供商集成了!

Apache Hudi 在 HDFS 的数据集上提供了插入更新和增量拉取的流原语。

2021-04-13
1

实战 | 将Kafka流式数据摄取至Hudi

使用Hudi自带的DeltaStreamer工具写数据到Hudi,开启--enable-hive-sync 即可同步数据到hive表。

2021-04-13
1

生态 | Apache Hudi集成Apache Zeppelin

Apache Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown...

2021-04-13
1

实战|使用Spark Streaming写入Hudi

传统数仓的组织架构是针对离线数据的OLAP(联机事务分析)需求设计的,常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高,按小时、甚至分钟级的数据同步越来越普...

2021-04-13
0

Structured Streaming快速入门详解(8)

接着上一篇《Spark Streaming快速入门系列(7)》,这算是Spark的终结篇了,从Spark的入门到现在的Structured Streaming,相信很多人学完之后,应该对Spark摸索的差不多了,Spark是一个很重要的技术点,希望我的文章能给大家带来帮助...

2021-04-13
0

终于!Apache Hudi 0.5.2版本正式发布

经历2个月的开发迭代,发版阶段两轮修改投票,Apache Hudi社区发布了0.5.2版本,该版本解决了所有Apache合规性问题,为Apache Hudi后续毕业做好了准备。当然除解决合规性问题外,还有一些其他注意事项。...

2021-04-13
0