最新 最热

Spark初识-Spark与Hadoop的比较

Hadoop一个作业称为一个Job,Job里面分为Map Task和Reduce Task阶段,每个Task都在自己的进程中运行,当Task结束时,进程也会随之结束;

2022-12-01
1

Spark初识-什么是Spark

Spark,是一种“One Stack to rule them all”的大数据计算框架,是一种基于内存计算的框架,是一种通用的大数据快速处理引擎。

2022-12-01
1

可扩展的编程语言——Scala

Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。...

2022-12-01
0

Hive-简介入门

它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

2022-12-01
1

HDFS-配置项

core-default.xml与core-site.xml的功能是一样的,如果在core-site.xml里没有配置的属性,则会自动会获取core-default.xml里的相同属性的值

2022-12-01
0

HDFS-简介

HDFS采用主/从体系结构,整个HDFS集群由一个Namenode和多个Datanode构成master-worker(主从)模式。Namenode负责构建命名空间,管理文件的元数据等,Datanode负责实际存储数据和处理来自系统客户端的读写请求。...

2022-12-01
0

国产自研、安全、高可用——袋鼠云大数据基础平台EasyMR筑基企业数字化转型

近年来,国际形势的风云变幻,中美双边关系的恶化,自 2013 年 “棱镜门” 事件之后,又一次警示国人,对于科技领域,只有自己掌握核心关键技术,实现自主可控,才能摆脱越来越频繁的 “卡脖子事件”,保证企业和国家信息安全。...

2022-12-01
0

大数据技术入门:MapReduce(分布式计算框架)

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并...

2022-12-01
1

大数据技术入门:hdfs(分布式文件存储系统)

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很...

2022-12-01
0

大数据技术入门:impala查询引擎

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满...

2022-12-01
0