最新 最热

Sqoop集群环境搭建 | MySQL数据导出HDFS测试

Apache Sqoop是在Hadoop生态体系和*RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。,主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可...

2022-05-31
1

数据湖(五):Hudi与Hive集成

Hudi与Hive集成原理是通过代码方式将数据写入到HDFS目录中,那么同时映射Hive表,让Hive表映射的数据对应到此路径上,这时Hudi需要通过JDBC方式连接Hive进行元数据操作,这时需要配置HiveServer2。...

2022-05-31
1

Spark如何启动Spark Thrift Server服务

将hive的hive-site.xml文件拷贝到spark/conf文件夹中,默认情况下其端口使用的是和hive的thriftserver2端口一样的,所以可以在hive-site.xml中修改使用的thrift端口。...

2022-05-26
0

Apache Kyuubi + Hudi在 T3 出行的深度实践

T3出行是一家基于车联网驱动的智慧出行平台,拥有海量且丰富的数据源。因为车联网数据的多样性,T3出行构建了以 Apache Hudi 为基础的企业级数据湖,提供强有力的业务支撑。而对于负责数据价值挖掘的终端用户而言,平台的技...

2022-05-26
1

大数据技术周报第 001 期

1、TDengineTDengine是一个开源的专为物联网、车联网、工业互联网、IT运维等设计和优化的大数据平台。除核心的快10倍以上的时序数据库功能外,还提供缓存、数据订阅、流式计算等功能,最大程度减少研发和运维的工作量。...

2022-05-26
1

选择适合你的开源 OLAP 引擎

摘要:本文主要介绍了主流开源的OLAP引擎:Hive、Sparksql、Presto、Kylin、Impala、Druid、Clickhouse 等,逐一介绍了每一款开源 OLAP 引擎,包含架构、优缺点、使用场景等,希望可以给大家有所启发。...

2022-05-26
1

为什么要用conda来安装一个R包

比如最近有小伙伴问到了popsicleR这个包,它还在GitHub上面,官网是:https://github.com/bicciatolab/popsicleR

2022-05-23
0

Spark SQL底层执行流程详解(好文收藏)

一、Apache Spark二、Spark SQL发展历程三、Spark SQL底层执行原理四、Catalyst 的两大优化

2022-05-22
1

大数据平台核心架构图鉴,建议收藏!

点击关注公众号,Java干货及时送达我们先来看看这张图,这是某公司使用的大数据平台架构图,大部分公司应该都差不多:从这张大数据的整体架构图上看来,大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应...

2022-05-20
1

问题排查--Impala查询Decimal数据为NULL,Hive查询正常

目前,线上反馈一个问题:同一张表,使用Hive查询正常,但是使用Impala查询,返回的数据中,部分字段值为NULL。 我们使用impala执行了invalidate metadata xxx,排查了元数据不一致的问题,同时查看源文件,也排除了数据本身的问题。最...

2022-05-20
0