最新 最热

Spark读写XML文件及注意事项

最近有粉丝问浪尖spark 如何读写xml格式的文件,尤其是嵌套型的,spark本身是不支持xml格式文件读取的,但是databricks开源了一个jar,支持xml文件的读写,浪尖这里给大家介绍一下用法。...

2021-03-05
1

人人都在用的Spakr调优指南

原文 | https://www.cnblogs.com/liangjf/p/8322410.html

2021-03-05
1

如何管理Spark的分区

当我们使用Spark加载数据源并进行一些列转换时,Spark会将数据拆分为多个分区Partition,并在分区上并行执行计算。所以理解Spark是如何对数据进行分区的以及何时需要手动调整Spark的分区,可以帮助我们提升Spark程序的运行...

2021-03-05
1

分布式计算—MapReduce、Spark、Storm、Flink分别适用什么场景

链接:https://www.zhihu.com/question/403840013/answer/1317631316

2021-03-05
1

Flink 资源分配和并行度深度剖析

TaskManager 执行具体的 Task。TaskManager 为了对资源进行隔离和增加允许的task数,引入了 slot 的概念,这个 slot 对资源的隔离仅仅是对内存进行隔离,策略是均分,比如 taskmanager 的管理内存是 3 GB,假如有两个 slot,那么...

2021-03-05
1

Spark 在金融领域的应用之日内走势预测

2014年后半年开始,国内 A 股市场可谓是热火朝天啊,路上的人谈的都是股票。小弟虽然就职金融互联网公司,但之前从来没有买过股票,但每天听着别人又赚了几套房几辆车,那叫一个心痒痒啊,那感觉,就跟一个出浴美女和你共处一室,但...

2021-03-05
1

SQL on Hadoop性能对比-Hive、Spark SQL、Impala

Apache Hive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理,它本身是建立在Apache Hadoop之上。Hive SQL代表的是以传统基于Mapreduce为核心的SQL语言。...

2021-03-05
1

【唯实践】基于Alluxio优化电商平台热点数据访问性能

在互联网电商平台上,广告是提升成交总额(Gross Merchandise Volume)和拉取新客的常见途经。在广告系统或广告运营中都需要基于人群数据分析进行定向的用户广告投放。在第三方平台进行广告投放,同样需要使用人群数据分析计...

2021-03-05
1

Delta实践 | Delta Lake在Soul的应用实践

(一)业务场景传统离线数仓模式下,日志入库前首要阶段便是ETL,Soul的埋点日志数据量庞大且需动态分区入库,在按day分区的基础上,每天的动态分区1200+,分区数据量大小不均,数万条到数十亿条不等。下图为我们之前的ETL过程,埋点日...

2021-03-05
1

蚂蚁绊倒大象?不起眼的小文件竟拖了Hadoop大佬的后腿

在使用Hadoop过程中,小文件是一种比较常见的挑战,如果不小心处理,可能会带来一系列的问题。HDFS是为了存储和处理大数据集(M以上)而开发的,大量小文件会导致Namenode内存利用率和RPC调用效率低下,block扫描吞吐量下降,应用层...

2021-03-05
1