spark_字节宝

hudi HMS Catalog尝鲜指南

功能亮点：当flink和spark同时接入hive metastore时，用hive metastore对hudi的元数据进行管理，无论是使用flink还是spark引擎建表，另外一种引擎或者hive都可以直接查询。...

hive spark HTML 文件存储 flink

2022-09-02

上新啦！腾讯云云原生数据湖产品DLC 2.2.5版本发布，来看特性详解！

为了满足企业大数据对联邦查询、高性能交互式查询、成本优化的需求，DLC团队正式发布数据湖计算DLC2.2.5版本！该版本推出联邦查询增强、网络配置模块、日志信息、原生函数等重磅特性～全方位提升产品能力，助力企业数据资产...

spark emr

2022-09-02

大数据开发工程师面试题以及答案整理（二）

Redis性能优化，单机增加CPU核数是否会提高性能 1、根据业务需要选择合适的数据类型，并为不同的应用场景设置相应的紧凑存储参数。 2、当业务场景不需要数据持久化时，关闭所有的持久化方式可以获得最佳的性能以及最大的内...

spark Kafka https mapreduce 网络安全

2022-09-02

Kafuka面试（整合Kafka两种模式区别）

开发中我们经常会利用SparkStreaming实时地读取kafka中的数据然后进行处理，在spark1.3版本后，kafkaUtils里面提供了两种创建DStream的方法:

Node.js Kafka spark https api

2022-09-02

大数据学习内容有哪些？大数据学习路线图

很多人想学习大数据，但是都不清楚大数据学习应该怎么下手。大数据开发工程师简单整理了一下大数据学习路线图，希望对于学习大数据的朋友，有一定的帮助。...

spark hive 大数据数据挖掘数据分析

2022-09-01

Java大数据学习01–大数据的本质及学习顺序介绍

随着互联网的使用人数越来越多，产生的数据也越来越多。根据数据我们可以分析出很多有用的信息。这也就是当前为什么大数据这么火的行为。

spark hadoop 分布式 nosql Java

2022-09-01

史上最新最全面的java大数据学习路线（新手小白必看版本）

2.1.1 VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程

spark Java JavaScript 推荐系统

2022-09-01

ETL的开发过程[通俗易懂]

1.定义一个etl函数, 里面传入json行数据, 用json.loads加载行数据,并对行数据进行判断,如果没有行数据,或data字段没有在行数据里, 就直接返回空的结果, 否则就继续往下执行...

https hive Java spark 网络安全

2022-08-31

PySpark-prophet预测

Prophet是facebook开源的时间序列预测工具,使用时间序列分解与机器学习拟合的方法进行建模预测,关于prophet模型优点本文不再累述，网络上的文章也比较多了，各种可视化，参数的解释与demo演示，但是真正用到工业上大规模的可...

hive spark Python https

2022-08-31

hadoop生态圈各个组件简介

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。

分布式大数据 spark mapreduce 开源

2022-08-31

27 28 29 30 31

hudi HMS Catalog尝鲜指南

上新啦！腾讯云云原生数据湖产品DLC 2.2.5版本发布，来看特性详解！

大数据开发工程师面试题以及答案整理（二）

Kafuka面试（整合Kafka两种模式区别）

大数据学习内容有哪些？大数据学习路线图

Java大数据学习01–大数据的本质及学习顺序介绍

史上最新最全面的java大数据学习路线（新手小白必看版本）

ETL的开发过程[通俗易懂]

PySpark-prophet预测

hadoop生态圈各个组件简介

热门文章

热门手册