最新 最热

2021年大数据Spark(三十一):Spark On Hive

Spark SQL模块从发展来说,从Apache Hive框架而来,发展历程:Hive(MapReduce)-> Shark (Hive on Spark) -> Spark SQL(SchemaRDD -> DataFrame -> Dataset),所以SparkSQL天然无缝集成Hive,可以加载Hive表数据进......

2021-10-09
0

2021年大数据Spark(三十三):SparkSQL分布式SQL引擎

SparkSQL模块从Hive框架衍生发展而来,所以Hive提供的所有功能(数据分析交互式方式)都支持,文档:http://spark.apache.org/docs/2.4.5/sql-distributed-sql-engine.html。...

2021-10-09
1

2021年大数据环境命令(一):常用命令汇总

----汇总Hadoop Hive ZooKeeper HBase Kafka等常见命令Hadoop命令# Hadoop一键启动命令# 启动HDFSstart-dfs.sh# 启动Yarnstart-yarn.sh# 启动历史任务服务进程mr-jobhistory-daemon.sh start hi......

2021-10-09
1

将Hive数据迁移到CDP

使用Replication Manager 将 Hive 数据迁移到 CDP 后,您可能需要执行其他任务。您需要了解 Hive 3.x 和更早版本之间的语义差异。其中一些差异要求您更改 Hive 脚本或工作流程。此外,您需要将使用 CDP 不支持的 Hive CL...

2021-10-09
0

使用 Replication Manager 迁移到CDP 私有云基础

这是CDH/HDP/Apache Hadoop迁移到CDP系列的第一篇博客,如对迁移感兴趣,请关注该系列博客。

2021-10-09
1

基于Sentry的大数据权限解决方案

Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成,未...

2021-10-08
1

面试官问:为什么SpringBoot的 jar 可以直接运行?

SpringBoot提供了一个插件spring-boot-maven-plugin用于把程序打包成一个可执行的jar包。在pom文件里加入这个插件即可:

2021-10-08
0

MRS Flink使用SQL-Client对接Hive

2.将sql-client-defaults.yaml放入/opt/client/Flink/flink/conf中

2021-09-30
0

滴滴 x StarRocks:极速多维分析创造更大的业务价值

滴滴集团作为生活服务领域的头部企业,正在全面测试和上线StarRocks,其中橙心优选经过一年多的数据体系建设,我们逐渐将一部分需要实时交互查询、即席查询的多维数据分析需求由ClickHouse迁移到了StarRocks中,StarRocks在...

2021-09-29
1

一起揭开 Hive 编程的神秘面纱

Hadoop实现了一个特别的计算模型,就是MapReduce,可以将我们的计算任务分拆成多个小的计算单元,然后分配到家用或者服务器级别的硬件机器上,从而达到降低成本以及可扩展的问题,在这个MapReduce计算模型底下,有一个分布式文件...

2021-09-29
1