初识Hadoop：大数据与Hadoop概述

2022-12-01 08:46:56 浏览数 (14)

1、大数据概述

大数据（big data），IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的主要特点（4V）是：

数据量大（Volume）
数据类别复杂（Variety）
数据处理速度快（Velocity）
和数据真实性高（Veracity）

还有的将大数据特点定义为6V模型，即增加了Valence（连接）、Value（价值）2V。

大数据相关的技术、框架：

计算框架 离线计算：Hadoop MapReduce、Spark 实时计算：Storm、Spark Streaming、Flink
存储框架 文件存储：Hadoop HDFS、Tachyon、KFS NOSQL数据库：HBase、MongoDB、Redis 全文检索：ES、Solr
资源管理 YARN、Mesos
日志收集 Flume、Logstash
消息系统 Kafka、StormMQ、ZeroMQ、RabbitMQ
查询分析 Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid

2、Hadoop

Hadoop 在大数据技术体系中的地位至关重要，Hadoop 是大数据技术的基础，对Hadoop基础知识的掌握的扎实程度，会决定在大数据技术道路上走多远。

hadoop是什么？

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
主要解决数据存储和海量数据的分析计算问题。
广义上说，Hadoop通常指一个广泛的概念——Hadoop生态圈。

Hadoop的优势！

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。

hadoop的组成！

HDFS: Hadoop Distributed File System 分布式文件系统
YARN: Yet Another Resource Negotiator 资源管理调度系统
Mapreduce：分布式运算框架

hadoop 存储大数据 yarn spark

0 人点赞