最新 最热

hudi HMS Catalog尝鲜指南

功能亮点:当flink和spark同时接入hive metastore时,用hive metastore对hudi的元数据进行管理,无论是使用flink还是spark引擎建表,另外一种引擎或者hive都可以直接查询。...

2022-09-02
1

上新啦!腾讯云云原生数据湖产品DLC 2.2.5版本发布,来看特性详解!

为了满足企业大数据对联邦查询、高性能交互式查询、成本优化的需求,DLC团队正式发布数据湖计算DLC2.2.5版本!该版本推出联邦查询增强、网络配置模块、日志信息、原生函数等重磅特性~全方位提升产品能力,助力企业数据资产...

2022-09-02
1

大数据开发工程师面试题以及答案整理(二)

Redis性能优化,单机增加CPU核数是否会提高性能 1、根据业务需要选择合适的数据类型,并为不同的应用场景设置相应的紧凑存储参数。 2、当业务场景不需要数据持久化时,关闭所有的持久化方式可以获得最佳的性能以及最大的内...

2022-09-02
1

Kafuka面试(整合Kafka两种模式区别)

开发中我们经常会利用SparkStreaming实时地读取kafka中的数据然后进行处理,在spark1.3版本后,kafkaUtils里面提供了两种创建DStream的方法:

2022-09-02
1

大数据学习内容有哪些?大数据学习路线图

很多人想学习大数据,但是都不清楚大数据学习应该怎么下手。大数据开发工程师简单整理了一下大数据学习路线图,希望对于学习大数据的朋友,有一定的帮助。...

2022-09-01
1

Java大数据学习01–大数据的本质及学习顺序介绍

随着互联网的使用人数越来越多,产生的数据也越来越多。根据数据我们可以分析出很多有用的信息。这也就是当前为什么大数据这么火的行为。

2022-09-01
1

史上最新最全面的java大数据学习路线(新手小白必看版本)

2.1.1 VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程

2022-09-01
1

ETL的开发过程[通俗易懂]

1.定义一个etl函数, 里面传入json行数据, 用json.loads加载行数据,并对行数据进行判断,如果没有行数据,或data字段没有在行数据里, 就直接返回空的结果, 否则就继续往下执行...

2022-08-31
1

PySpark-prophet预测

Prophet是facebook开源的时间序列预测工具,使用时间序列分解与机器学习拟合的方法进行建模预测,关于prophet模型优点本文不再累述,网络上的文章也比较多了,各种可视化,参数的解释与demo演示,但是真正用到工业上大规模的可...

2022-08-31
1

hadoop生态圈各个组件简介

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。

2022-08-31
1