最新 最热

大数据技术原理与应用之【大数据处理架构Hadoop】习题

答: Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。

2021-01-26
0

把本地的文件数据导入到Hive分区表--系列①Java代码

本篇博客,小菌为大家带来关于如何将本地的多个文件导入到Hive分区表中对应的分区上的方法。一共有四种方法,本篇将介绍第一种—Java代码。 首先编写代码,通过MapReduce将处理好的数据写入到HDFS的目录下。下...

2021-01-26
0

Sqoop入门介绍及安装

Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。

2021-01-26
0

大数据技术原理与应用之【Spark】习题

①Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活;

2021-01-26
1

impala入门,从基础到架构!!!

impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具。...

2021-01-26
0

Apache Hue 介绍

Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。

2021-01-26
0

数据分析工具篇——MapReduce结构

前面我们介绍了HDFS,作为HDFS的第一代上层架构,我们必须讲解一下hadoop的MapReduce结构,可以说这一结构促进了大数据的兴起。

2021-01-25
0

数据分析工具篇——HQL原理及优化

HQL是数据分析过程中的必备技能,随着数据量增加,这一技能越来越重要,熟练应用的同时会带来效率的问题,动辄十几亿的数据量如果处理不完善的话有可能导致一个作业运行几个小时,更严重的还有可能因占用过多资源而引发生产问...

2021-01-25
0

大数据开发:MapReduce排序问题详解

Hadoop MapReduce,作为分布式计算的第一代引擎,其经典的地位是不容动摇的,而越是经典越是有代表性的东西,也就越需要去深入理解其中的原理和运行机制。今天的大数据开发分享,我们主要来讲讲MapReduce排序的相关问题。...

2021-01-22
1

Hive性能优化之推测执行(6)

在分布式集群环境下,因为程序Bug(包括Hadoop本身的bug),负载不均衡或者资源分布不均等原因,会造成同一个作业的多个任务之间运行速度不一致,有些任务的运行速度可能明显慢于其他任务(比如一个作业的某个任务进度只有50%,而其...

2021-01-22
0