导入依赖导入关键的依赖包 compile("org.scala-lang:scala-library:$scalaVersion") compile("org.scala-lang:scala-reflect:$scalaVersion") compile("org.scala-lang:sc......
本文主要是告诉大家一个省内存的方法,将整个文件夹的内容作为一个压缩包输出,但是实际上没有申请那么多的内存,也不需要升级创建一个压缩包文件。原理是通过逐个读文件然后按照压缩包格式输出...
在阐述Hive Join具体的优化方法之前,首先看一下Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化:
Hive为Hadoop提供了一个SQL接口。Hive可以被认为是一种编译器,它将SQL(严格来说,Hive查询语言 - HQL,SQL的一种变体)转换为一组Mapreduce / Tez / Spark作业。因此,Hive非常有助于非程序员使用Hadoop基础架构。原来,Hive只有...
Airflow Console: https://github.com/Ryan-Miao/airflow-console
在日常使用中你的Kudu 集群版本非常低或者部署在其他非CDH集群中,迁移起来非常麻烦。本文主要介绍如何通过Hive 进行跨集群迁移Kudu 表
日常工作中,经常会遇到数据质量问题(完整性、准确性、一致性和及时性等)。该平台将整个数据质量处理过程形成一个闭环,从最初的规则库配置,到执行过程中质量异常告警,再到问题处理流程跟踪,到最后的解决方案沉淀等一系列的操...
OLAP的标准概念叫作“联机分析处理系统”,与之对应的是OLTP“联机事务处理系统”。OLTP对于事务性的要求非常高,常用于银行、证券等系统,但运行速度相对有限。有感于此,关系数据库之父Codd便在1993年提出了OLAP的概念,认为...
# hadoop-env.sh 配置 export JAVA_HOME=`absolute path` # core-site.xml 配置 <configuration> <!-- 指定HDFS老大(namenode)的通信地址 --> <property> <name>......
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。