最新 最热

项目一 环境准备

window上先装好python环境(anacanda)和集成开发环境(pycharm)以及虚拟机(VMware)和centos7系统和远程连接工具(xshell)

2024-09-21
1

Hadoop2.6.5 start-dfs.sh 启动流程

执行脚本链路: start-dfs.sh -> hdfs-config.sh -> hadoop-config.sh -> hadoop-daemons.sh -> slave.sh -> hadoop-daemon.sh -> hadoop-env.sh -> hdfs

2024-05-04
2

Shell遍历HDFS路径统计层级目录大小

腾讯云开发者社区是腾讯云官方开发者社区,致力于打造开发者的技术分享型社区。提供专栏,问答,沙龙等产品和服务,汇聚海量精品云计算使用和开发经验,致力于帮助开发者快速成长与发展,营造开放的云计算技术生态圈。...

2024-01-10
2

Apache Arrow - 大数据在数据湖后的下一个风向标

Arrow本身不是一个存储、执行引擎,它只是一个交互数据的基础库。比如可以用于以下组件

2021-11-18
1

Spark resampling

对时间序列的index进行resample是很常见的操作。比如,按日、周、月、季度统计用户新增、活跃、累计等,就需要对用户表进行resample操作。 pandas 的resample函数可以轻松地对时间序列数据进行重采样,并按照一定的频率聚...

2021-09-18
1

Python如何将函数值赋给变量

本博文的知识点一个是模块的调用和一个自定义函数返回值赋值给变量编写一个简单的函数模块:[root@bigdata zw]# more d.py#!/usr/bin/python# -*- coding:utf-8 -*-def run(name): list1 = 'hello ' + n...

2020-11-02
1

Hadoop小文件&冷文件分析

版权声明:本文为大数据技术与架构整理,原作者独家授权。未经原作者允许转载追究侵权责任。编辑|冷眼丶微信公众号|import_bigdata

2020-10-28
1