Spark_字节宝

首页 / 技术

SparkStreaming的介绍及原理

1）离线处理是针对一个批次，这个批次一般情况下都比较大流处理对应的数据是连续不断产生，处理时间间隔非常短的数据

spark 批量计算编程算法数据处理

2022-08-31

6

Hadoop生态系统简介

Hadoop生态系统主要包括：Hive、HBase、Pig、Sqoop、Flume、ZooKeeper、Mahout、Spark、Storm、Shark、Phoenix、Tez、Ambari。

hadoop hive TDSQLMySQL版 hbase spark

2022-08-31

11

hadoop生态圈详解

学习和使用hadoop有一年了，这里主要分享一下对hadoop整体上的理解，分门别类的介绍一下相关组件，最后提供了建议的学习路线，希望对hadoop的初学者有参考作用。...

spark Node.js zookeeper hive hbase

2022-08-31

10

HADOOP生态圈知识概述

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。...

hadoop spark 分布式 hive apache

2022-08-31

8

（1）sparkstreaming结合sparksql读取socket实时数据流

Spark Streaming是构建在Spark Core的RDD基础之上的，与此同时Spark Streaming引入了一个新的概念：DStream（Discretized Stream，离散化数据流)，表示连续不断的数据流。DStream抽象是Spark Streaming的流处理模型，在内部实现...

spark hadoop 大数据处理套件TBDS 大数据大数据 sparksql sparkstreaming

2022-08-31

21

Hadoop生态圈各种组件介绍

好多初入学习大数据的人不是很清楚，今天分享一个图，并介绍一下大致的组件，其他还有一些组件是没有包含在其中的，但是大部分这个图片是有了的。...

spark hadoop 云数据库SQLServer 分布式 hive

2022-08-31

6

Lamda架构研究「建议收藏」

Lambda架构整合离线计算和实时计算，融合不可变性（Immutability），读写分离和复杂性隔离等一系列架构原则，可集成Hadoop，Kafka，Storm，Spark，HBase等各类大数据组件。...

windows Serverless spark https

2022-08-31

7

大数据Hadoop生态圈各个组件介绍（详情）

-coordination and management（协调与管理） -query（查询） -data piping（数据管道） -core hadoop（核心hadoop） -machine learning（机器学习） -nosql database（nosql数据库）...

hadoop spark 分布式 nosql hive

2022-08-31

11

Hadoop的生态系统介绍

Hadoop分布式文件系统是Hadoop项目的两大核心之一，是针对谷歌文件系统（GoogleFileSystem,GFS)的开源实现。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运...

hadoop mapreduce 分布式 spark hive

2022-08-31

9

Apache Seatunnel - 架构解析

Seatunnel 是一个非常易用，高性能、支持实时流式和离线批处理的海量数据处理产品，架构于Apache Spark 和 Apache Flink之上，开源项目地址：https://github.com/apache/incubator-seatunnel...

spark flink apache windows api

2022-08-30

7

28 29 30 31 32