最新 最热

Spark SQL 快速入门系列(1) | Spark SQL 的简单介绍!

Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块.

2020-10-28
1

Yarn快速系列入门(1) | 基本架构与四大组件

Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。 它的引入为集群在利用率、资源统一...

2020-10-28
1

大数据应用导论 Chapter04 | 大数据分析

假如我们现在要借助用户手机的通信数据对用户价值进行分析,原始通信数据包括:入网时间、套餐价格、每月话费、每月流量、每月通话时长、欠费金额、欠费月数等7个特征,但它的“内在维度”可能只有3个:用户忠诚度、消费能力...

2020-10-28
1

分布式机器学习:如何快速从Python栈过渡到Scala栈

我之前的技术栈主要是Java、Python,机器学习方面主要用到是pandas、numpy、sklearn、scipy、matplotlib等等,因为工作需要使用spark,所以理所应当的开始学习pyspark;...

2020-10-28
1

大数据Spark框架:Spark生态圈入门

在大数据计算引擎当中,Spark不能忽视的一个重要技术框架,Spark继承了Hadoop MapReduce的优势,同时实现了计算效率的提升,满足更加实时性的数据处理需求。今天我们就来讲讲Spark生态圈入门。...

2020-10-27
1

源码编译搭建Spark3.x环境

首先安装好JDK、Scala和Maven,由于安装都比较简单,本文就不演示了,我这里使用的JDK、Scala和Maven版本如下:

2020-10-27
1

大数据进阶之Spark运行流程

在大数据的诸多技术框架当中,Spark发展至今,已经得到了广泛的认可。Hadoop与Spark可以说是企业级数据平台的主流选择,基于不同的应用场景,来搭建符合需求的大数据系统平台。今天我们就来讲讲其中的Spark,Spark核心运行流程...

2020-10-23
1

机器学习:如何快速从Python栈过渡到Scala栈

我之前的技术栈主要是Java、Python,机器学习方面主要用到是pandas、numpy、sklearn、scipy、matplotlib等等,因为工作需要使用spark,所以理所应当的开始学习pyspark;...

2020-10-20
1

用于ETL的Python数据转换工具详解

做 数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒 还真的不少。但是那些工作基本上是一次性工作或者很小数据量,使用access、...

2020-10-20
1

centOS7下Spark安装配置教程详解

操作系统: centos7 64位 3台 centos7-1 192.168.190.130 master centos7-2 192.168.190.129 slave1 centos7-3 192.168.190.131 slave2

2020-10-19
1