最新 最热

记一次python清洗疫情历史数据

数据的来源是用了GitHub上这个我收藏了很久的项目:https://lab.isaaclin.cn/nCoV/ 数据仓库链接:https://github.com/BlankerL/DXY-COVID-19-Data/releases

2022-09-26
0

大作业——新冠肺炎疫情的数据采集和可视化分析系统

这次大作业的主要流程是: 首先要采集数据,采用脚本定时采集的那种,采集的数据来源这篇博文:https://www.dzyong.com/#/ViewArticle/123,里面有几个数据接口,返回的数据是json格式,用java程序,先转化为用tab键分割的文本数据,...

2022-09-26
1

一面数据: Hadoop 迁移云上架构设计与实践

李阳良,一面数据大数据部门负责人,九年互联网工作经验,对后台开发、大数据技术接触比较多。

2022-09-26
0

数据仓库——hive的相关配置和操作

点击下载 链接:https://pan.baidu.com/s/1Z4VG7mPBpmW6mWpR_WcyPQ 提取码:7afc

2022-09-24
0

Nexus:搭建私人Maven仓库

访问 Oracle 官网来获取 Java 8/11/17/latest 版本,Windows 平台可通过 x64 Compressed Archive 安装、Linux 用户可通过 Arm 64 Compressed Archive 获得压缩包。 安装 Java 需要将 Java 环境写入运行环境中,windows ....

2022-09-23
0

开源项目丨一文详解一站式大数据平台运维管家 ChengYing 如何部署 Hadoop 集群

ChengYing 开源项目地址:github 丨 gitee 喜欢我们的项目给我们点个__ STAR!STAR!!STAR!!!(重要的事情说三遍)__

2022-09-21
0

大数据调度平台Airflow(六):Airflow Operators及案例

Airflow中最重要的还是各种Operator,其允许生成特定类型的任务,这个任务在实例化时称为DAG中的任务节点,所有的Operator均派生自BaseOparator,并且继承了许多属性和方法。关于BaseOperator的参数可以参照:...

2022-09-21
1

OLAP数据库

ClickHouse 是基于 MPP 架构的分布式 ROLAP分析引擎,真正的列式数据库管理系统。让查询变得更快,最简单且有效的方法是减少数据扫描范围和数据传输时的大小, 而clickhouse的数据始终是按列存储的,同时使用了数据压缩,和日...

2022-09-20
0

Hive 高频考点讲解

Hive 是 FaceBook 开源的一款基于 Hadoop 数据仓库工具,它可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。

2022-09-20
0

Presto实战

Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。

2022-09-20
0