HDFS_字节宝

PySpark从hdfs获取词向量文件并进行word2vec

背景：需要在pyspark上例行化word2vec，但是加载预训练的词向量是一个大问题，因此需要先上传到HDFS，然后通过代码再获取。调研后发现pyspark虽然有自己的word2vec方法，但是好像无法加载预训练txt词向量。...

2023-04-20

常用spark优化参数

常用spark优化参数强制使用spark engineset tqs.query.engine.type = sparkCli;set spark.yarn.priority = 4;双写HDFS开启：set spark.shuffle.hdfs.enable=true;set spark.shuffle....

spark hdfs join partition 优化

2023-03-31

8 张图高可用 Hadoop 在 K8S 中部署完全指南

非高可用 k8s 环境，可参考我这篇文章：入门 Hadoop 在 K8S 环境中部署

HTML git hadoop hdfs web

2023-03-19

hadoop 常用操作命令

hadoop fs ，hadoop dfs 和 hdfs dfs的区别1、hadoop fs：该命令可以作用于hadoop的所有子系统2、hadoop dfs：专门针对HDFS分布式文件系统3、hdfs dfs：专门针对HDFS分布式文件系统，使用hadoopdfs时内部会被转为hdfs dfs命令...

hadoop dfs fs hdfs merge

2023-03-15

HA

3、修改hdfs-site.xml（配置这个nameservice中有几个namenode）

xml hdfs 配置

2023-02-25

通过Zookeeper获取激活的HDFS节点

前言public static void main(String[] args) throws IOException, InterruptedException, KeeperException { String hadoopZkNode = "/hadoop-ha/hacluster/ActiveStandb...

zookeeper hdfs

2023-01-13