最新 最热

完美解决Hadoop集群无法正常关闭的问题!

相信对于大部分的大数据初学者来说,一定遇见过hadoop集群无法正常关闭的情况。有时候当我们更改了hadoop内组件的配置文件后,必须要通过重启集群来使配置文件生效。 但往往一stop-all.sh,集群下方总会出现下面...

2021-01-27
0

什么是Avro?Hadoop首选串行化系统——Avro简介及详细使用

本篇博客,Alice为大家介绍的是Hadoop中作为首选串行化系统的Avro。

2021-01-27
0

Apache拯救世界之数据质量监控工具 - Apache Griffin

最近我发现,Apache已经成了解决问题的解决我们日常问题的首选宝藏之地。这几天在调研数据质量监控的东西时,无意中发现了Apache Griffin。

2021-01-26
0

代达罗斯之殇-大数据领域小文件问题解决攻略

海量小文件问题是工业界和学术界公认的难题,大数据领域中的小文件问题,也是一个非常棘手的问题,仅次于数据倾斜问题,对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案,给大家还原一...

2021-01-26
1

多套Kylin集群共享Hbase和Hadoop计算集群关键配置最佳实践

由于Kylin的本身架构(广播特性)和业务特点通常不适用于单套Kylin集群的节点过多,通常大家采用拆分Kylin集群但是共用底层的Hbase集群和计算集群的方式进行部署。本文主要根据目前咱们的实践经验对于此种场景集群配置进行...

2021-01-26
1

Spark SQL读写 ES7.x 及问题总结

ES官方提供了对spark的支持,可以直接通过spark读写es,具体可以参考ES Spark Support文档(https://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.html#spark)

2021-01-26
1

TiDB4.0生态里的TiCDC是何方神物?揭秘!

TiCDC 是一个通过拉取 TiKV 日志实现的 TiDB 增量数据同步工具,具有还原数据到与上游任意 TSO 一致状态的能力,同时提供开放数据协议,支持其他系统订阅数据变更。TiCDC 运行时是无状态的,借助 PD 内部的 etcd 实现高可用...

2021-01-26
1

scala快速入门系列【数组】

本篇作为scala快速入门系列的第十一篇博客,小菌为大家带来的是关于数组的相关内容。

2021-01-26
1

Job Submission failed with exception 'java.net.ConnectException(Call From ....to node01:8032 fa

今天在hive上,执行一个命令,通过从一个表中查询出的数据导入到另一个表的时候,出现了下面的结果。

2021-01-26
1

大数据技术原理与应用之【大数据处理架构Hadoop】习题

答: Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。

2021-01-26
1