最新 最热

Spark初识-什么是Spark

Spark,是一种“One Stack to rule them all”的大数据计算框架,是一种基于内存计算的框架,是一种通用的大数据快速处理引擎。

2022-12-01
1

Spark-大规模数据处理计算引擎

Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。...

2022-12-01
1

Flume简单介绍

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。...

2022-12-01
1

Hive-分区分桶操作

将数据按照指定的字段进行分成多个桶中去,说白了就是将数据按照字段进行划分,可以将数据按照字段划分到多个文件当中去

2022-12-01
1

Hive-分区分桶概述

分区是表的部分列的集合,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助。

2022-12-01
1

Hive-常用操作

create EXTERNAL table tableName(字段名称 字段类型,字段名称 字段类型) 建外部表需要指定数据的存储路径。通过LOCATION进行指定。

2022-12-01
0

Hive-简介入门

它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

2022-12-01
1

HDFS-常用命令

1. -help:显示帮助信息hadoop fs -help rmshel2. -ls:显示目录信息hadoop fs -ls /3. -mkdir:在HDFS上创建目录hadoop fs -mkdir -p /user/ha4. -moveFromLocal:从本地剪切粘贴到HDFShadoop fs......

2022-12-01
0

HDFS-配置项

core-default.xml与core-site.xml的功能是一样的,如果在core-site.xml里没有配置的属性,则会自动会获取core-default.xml里的相同属性的值

2022-12-01
1

HDFS-简介

HDFS采用主/从体系结构,整个HDFS集群由一个Namenode和多个Datanode构成master-worker(主从)模式。Namenode负责构建命名空间,管理文件的元数据等,Datanode负责实际存储数据和处理来自系统客户端的读写请求。...

2022-12-01
1