最新 最热

大数据计算引擎:impala对比hive

Hive: 依赖于MapReduce执行框架,执行计划分成map->shuffle->reduce->map->shuffle->reduce…的模型。如果一个Query会被编译成多轮MapReduce,则会有更多的写中间结果。由于MapReduce执行框架本身的特点,过多的中间过程会...

2022-07-29
1

hive函数大全:11大类、109个函数

语法:A=B 操作类型:所有基本类型 描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: hive>select 1 from lxw_dual where 1=1; 1

2022-07-29
0

SparkSql之编程方式

SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext的组合,所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。

2022-07-26
1

教程(一)官网下载Java JDK安装包「建议收藏」

从今天开始我们一起来学习一Java程序设计。这个教程适合零基础的朋友学习,不适合高手。不当之处还请指教。

2022-07-25
0

Zeppelin0.7.2结合hive解释器进行报表展示

前提:服务器已经安装好了Hadoop_client端即hadoop的环境hbase,hive等相关组件

2022-07-24
0

大数据开发的工具有哪些?

作为一个大数据开发人员,每天要与使用大量的大数据工具来完成日常的工作,那么目前主流的大数据开发工具有哪些呢?

2022-07-23
1

当我们在聊「开源大数据调度系统Taier」的数据开发功能时,到底在讨论什么?

原文链接:当我们在聊「开源大数据调度系统 Taier」的数据开发功能时,到底在讨论什么?

2022-07-22
1

电商数据应用体系建设总结(三)—— 离线数据兜底方案

目前我们使用 Lambda 架构来处理数据,Flink 处理实时数据,Spark 处理离线数据。Spark 离线任务在每天凌晨的 0-8 点调度执行,在这段时间内,用户是看不到昨日未产出的离线数据的,数据应用对这些未产出的指标进行了特殊处理,...

2022-07-21
1

MLSQL Stack 1.5.0 版本发布

1.5.0好像是MLSQL历时最长的一个版本。从九月初份到一月初,四个多月时间。这四个月搞出了很多大事情。这个版本,经过很多的用户实际的使用反馈(包括一些金融公司也有在使用),已经很稳定了,可以进入生产环境中使用。...

2022-07-21
1

Delta Lake为什么不存在Hive覆盖写的问题

当你使用Spark对hive表进行Overwrite的时候,基本流程是删除metastore的表信息,删除数据,写_temp目录,移动_temp目录数据,最后写入表信息(我描述的这个流程不一定完全对,熟悉hive的大大欢迎指正)。这个过程可能很漫长,比如我们...

2022-07-21
1