最新 最热

HDFS相关基本概念

随着数据量越来越大, 在一个操作系统存不下所有的数据, 那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统...

2022-06-05
1

大数据环境搭建-Hadoop与Spark

https://www.psvmc.cn/article/2022-03-31-bigdata-environment.html

2022-06-04
1

hadoop集群知识小结

1 )Hadoop 集群启停脚本(包含 HDFS ,Yarn ,Historyserver ):

2022-06-03
1

关于大数据的完整讲解

ELT的过程是,在抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者外部计算框架,如Spark来完成转换

2022-06-02
1

Postgres by BigSQL and Hadoop_fdw

由于Postgres by BigSQL上有编译好的hadoop_fdw,只需用其pgc命令直接安装,否则要去编译hadoop_fdw源代码,这个编译过程中缺少各种依赖就放弃了,编译参考bulid。...

2022-06-01
1

社交用户画像之集群搭建【二】

得出结论, 如果计算 260G 的数据, 可能和计算 60G 的数据, 所需要的内存一样, Spark 会逐个取数据, 逐个计算, 计算完成后抛弃, 再取下一条

2022-05-31
1

Hive环境搭建 | 数据仓库工具搭建详细过程

hive是基于Hadoop的一个数据仓库的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。...

2022-05-31
1

Zookeeper集群搭建详细过程 | 附带详细过程截图

ZooKeeper 顾名思义 动物园管理员,他是拿来管大象(Hadoop) 、 蜜蜂(Hive)等等一些大数据组件。

2022-05-31
1

Sqoop集群环境搭建 | MySQL数据导出HDFS测试

Apache Sqoop是在Hadoop生态体系和*RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。,主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可...

2022-05-31
1

flink-sql 流计算可视化 UI 平台

朋友多年自主研发的flink-sql 流计算可视化 UI 平台,细细品味一番确实很好用,做到真正的MSP(混合云场景)多数据多复用的情况实现,下面是这个产品的使用说明看看大家有没有使用场景。...

2022-05-29
1