最近刚完成了一份关于大数据的毕设项目,其中使用到的框架就包括Springboot。因为做的是一个离线的数据分析,所以在组件的选用上面也是选择了Hive(如果是做实时的可能就要用到Spark或者HBase了…)。本篇博客,为大家带来的...
今天在将springboot项目中运行时,调用集群hive服务器端的时候,报了这个异常!
海量小文件问题是工业界和学术界公认的难题,大数据领域中的小文件问题,也是一个非常棘手的问题,仅次于数据倾斜问题,对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案,给大家还原一...
为什么CDH甚至最新的CDP中对于Spark SQL CLI或者JDBC/ODBC没有提供基于Spark Thrift Server的支持,参考Fayson之前的文章《0827-7.1.4-如何在CDP中使用Spark SQL CLI》,在CDP中,Cloudera给出了新的解决方案Livy Thrift S...
翻译过来大致就是hbase中有11个字段,而hive中只有10个字段,很明显需要同步数据的两个表的字段数不一致!
今天在建hive表的时候,建表语句检查了无数次,可最后创建返回的结果永远都是下面这个异常。
今天在hive上,执行一个命令,通过从一个表中查询出的数据导入到另一个表的时候,出现了下面的结果。
本篇博客,小菌为大家带来关于如何将本地的多个文件导入到Hive分区表中对应的分区上的方法。一共有四种方法,本篇将介绍第一种—Java代码。 首先编写代码,通过MapReduce将处理好的数据写入到HDFS的目录下。下...
继《impala入门,从基础到架构!!!》之后,本篇博客,小菌为大家带来impala 的安装部署!
impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具。...