最新 最热

有比Pandas 更好的替代吗?对比Vaex, Dask, PySpark, Modin 和Julia

表格是存储数据的最典型方式,在Python环境中没有比Pandas更好的工具来操作数据表了。尽管Pandas具有广泛的能力,但它还是有局限性的。比如,如果数据集超过了内存的大小,就必须选择一种替代方法。但是,如果在内存合适的情况...

2021-02-12
1

Flink集成数据湖之实时数据写入iceberg

随着大数据处理结果的实时性要求越来越高,越来越多的大数据处理从离线转到了实时,其中以flink为主的实时计算在大数据处理中占有重要地位。

2021-02-07
1

使用CDSW和运营数据库构建ML应用1:设置和基础

Python在数据工程师和数据科学家中被广泛使用,以解决从ETL / ELT管道到构建机器学习模型的各种问题。Apache HBase是用于许多工作流程的有效数据存储系统,但是专门通过Python访问此数据可能会很困难。对于想要利用存储...

2021-02-07
1

正面超越Spark | 几大特性垫定Flink1.12流计算领域真正大规模生产可用(下)

我们书接上文,我们在之前的文章《正面超越Spark | 几大特性垫定Flink1.12流计算领域真正大规模生产可用(上)》详细描述了Flink的生产级别Flink on K8s高可用方案和DataStream API 对批执行模式的支持。...

2021-02-05
1

MapReduce编程初体验(idea):统计一个文档里的单词个数

注意: map的输出是一个 “key value的” list reduce输入是 key “value的list”

2021-02-05
1

实时数仓|架构设计与技术选型

当我们做一个项目时往往都需要选择该用什么技术。这一部分不是我们普通员工想的,而是架构师会根据客户的需求选择出合适的技术。当选择合适的技术会让我们的开发事半功倍。下面我就来讲解下我做的项目(实时数仓)是如何...

2021-02-04
1

2020年最新Spark企业级面试题【下】

上篇文章给大家分享了前10个spark的企业面试题2020年最新Spark企业级面试题【上】,今天后续来了,来分享剩下的那个几个面试题。也祝大家找到自己喜欢的工作,一起加油,编写不易 请给老哥一个一键三连吧。...

2021-02-04
0

2020年最新Spark企业级面试题【上】

现在距离2021年还有不到一个月的时间了,是不是有的小伙明年不知该怎么复习spark,以及不知道该备战企业中会问到那些问题。好今天他来了总结了20个企业中经常被问到的面题以及会附带一些笔试题哦,编写不易建议收藏。...

2021-02-04
1

终于,为了大数据分析我还是开启了Scala学习之路

要问当下最热门的IT技术,大数据可占一席之地;要问当下最网红的IT岗位,数据分析师也必将榜上有名。二者结合,自然就是大数据分析师。所谓大数据分析,个人理解就是在传统数据分析思维和技能的基础上,加持大数据工具,而Spark作...

2021-02-03
0

Neo4j 导入 Nebula Graph 的实践总结

摘要: 主要介绍如何通过官方 ETL 工具 Exchange 将业务线上数据从 Neo4j 直接导入到 Nebula Graph 以及在导入过程中遇到的问题和优化方法。

2021-02-02
0