mapreduce_字节宝

spark——RDD常见的转化和行动操作

我们前文说道在spark当中RDD的操作可以分为两种，一种是转化操作(transformation），另一种是行动操作(action)。在转化操作当中，spark不会为我们计算结果，而是会生成一个新的RDD节点，记录下这个操作。只有在行动操作执行的时...

spark mapreduce 缓存

2020-04-21

8个超好用的Python内置函数，提升效率必备！

python中有许多内置函数，不像print那么广为人知，但它们却异常的强大，用好了可以大大提高代码效率。

mapreduce Java 编程算法 Python linux

2020-04-21

数据仓库开发人员怎么避免成为取数机器？

从事互联网数据仓库工作好多年了，其中最大的感触就是数据仓库开发人员每天做的最多的工作就是为业务方取数。简单重复的取数工作，一方面很难让大家在技能上有提高，另一方面也慢慢的消磨了大家的积极性和意志，也让大家极没...

hive SQL 文件存储 mapreduce

2020-04-18

Hive源码系列（五）编译模块之整体介绍

Driver:提供执行接口，负责接收查询请求并建立session，创建一系列环境参数等

hive 打包 SQL mapreduce 编程算法

2020-04-18

[大数据架构 ]Apache大数据项目目录

在使用BigData大约8年以上之后，我遇到了大量的项目。Esp Apache的运动对于BigData域非常强大。每个人都会提出一个针对特定解决方案的项目。但是，由于有这么多项目出现，我找不到一个可以查看它们的地方。所以，这就是这个...

apache hadoop Java api mapreduce

2020-04-14

大数据技术栈详解

相信很多学Java的同学都有想转大数据或者学大数据的想法，但是一看到网上那些大数据的技术栈，就一脸懵逼，什么Hadoop、HDFS、MapReduce、Hive、Kafka、Zookeeper、HBase、Sqoop、Flume、Spark、Storm、Flink等等技术。...

hadoop mapreduce spark Java flink

2020-04-13

零基础入门Python：基本命令、函数、数据结构

导读：本文对Python的基本使用做一个简单的介绍。限于篇幅，本文不可能详细讲解Python的使用，只是针对本书涉及的数据挖掘案例所用到的代码进行基本讲解。如果读者是初步接触Python，并且使用Python的目的就是数据挖掘，那么相...

Python mapreduce Serverless

2020-04-12

大数据工作流Oozie

因为工作需要用到oozie，但是网上的资料越看越迷茫，经过很大的努力，终于折腾清楚了，这里，做一个总结，帮助后来者更好地进行入门，当然，粗鄙之言，难免疏漏，欢迎交流指正。...

hadoop hive mapreduce ios

2020-04-11

Hive原理实践

Driver组件：核心组件，整个Hive的核心，该组件包括Complier（编译器）、Optimizer（优化器）和Executor（执行器），它们的作用是对Hive SQL语句进行解析、编译优化，生成执行计划，然后调用底层的MapReduce计算框架。...

SQL hive jdbc mapreduce 大数据

2020-04-11

企业级大数据技术体系

Sqoop/Canal：关系型数据收集和导入工具，是连接关系型数据库和Hadoop的桥梁，Sqoop可将关系型数据库的数据全量导入Hadoop，反之亦然。而Canal可用于实时数据的增量导入...

分布式 mapreduce hadoop api TDSQLMySQL版

2020-04-11

135 136 137 138 139

spark——RDD常见的转化和行动操作

8个超好用的Python内置函数，提升效率必备！

数据仓库开发人员怎么避免成为取数机器？

Hive源码系列（五）编译模块之整体介绍

[大数据架构 ]Apache大数据项目目录

大数据技术栈详解

零基础入门Python：基本命令、函数、数据结构

大数据工作流Oozie

Hive原理实践

企业级大数据技术体系

热门文章

热门手册