最新 最热

PySpark从hdfs获取词向量文件并进行word2vec

背景:需要在pyspark上例行化word2vec,但是加载预训练的词向量是一个大问题,因此需要先上传到HDFS,然后通过代码再获取。调研后发现pyspark虽然有自己的word2vec方法,但是好像无法加载预训练txt词向量。...

2023-04-20
2

常用spark优化参数

常用spark优化参数强制使用spark engineset tqs.query.engine.type = sparkCli;set spark.yarn.priority = 4;双写HDFS开启:set spark.shuffle.hdfs.enable=true;set spark.shuffle....

2023-03-31
1

8 张图高可用 Hadoop 在 K8S 中部署完全指南

非高可用 k8s 环境,可参考我这篇文章:入门 Hadoop 在 K8S 环境中部署

2023-03-19
1

hadoop 常用操作命令

hadoop fs ,hadoop dfs 和 hdfs dfs的区别1、hadoop fs:该命令可以作用于hadoop的所有子系统2、hadoop dfs:专门针对HDFS分布式文件系统3、hdfs dfs:专门针对HDFS分布式文件系统,使用hadoopdfs时内部会被转为hdfs dfs命令...

2023-03-15
1

HA

3、修改hdfs-site.xml(配置这个nameservice中有几个namenode)

2023-02-25
1

通过Zookeeper获取激活的HDFS节点

前言public static void main(String[] args) throws IOException, InterruptedException, KeeperException { String hadoopZkNode = "/hadoop-ha/hacluster/ActiveStandb...

2023-01-13
1

日常问题——pdsh localhost Connection refused

原因是pdsh默认采用的是rsh登录,修改成ssh登录即可,在环境变量/etc/profile里加入:

2022-12-01
1

Python 删除HDFS过期文件

一、清理本地文件import datetimefrom utils import confUtils, hadoopimport osimport shutilimport timeimport sysdef cleandir(path, duration): time_now = time...

2022-11-26
1

Hbase的基本操作

要想明白为什么产生 HBase,就需要先了解一下 Hadoop 存在的限制?Hadoop 可以通过 HDFS 来存储结构化、半结构甚至非结构化的数据,它是传统数据库的补充,是海量数据存储的最佳方法,它针对大文件的存储,批量访问和流式访问都...

2022-10-27
1

Hadoop分布式文件系统HDFS

HDFS中的三种角色:namenode(核心节点),datanode(数据节点),客户端

2022-10-27
2