最新 最热

0764-HDP Spark 2.3.2访问外部Hive 2的配置及验证

数据质量平台基于定义好的数据稽核和数据质量规则,生成Spark SQL并提交运行到HDP 3.1.5集群的Spark 2.3.2上。Spark 通过以下方式之一获取某Hadoop集群上Hive表的数据:...

2020-04-26
0

EMR数据导入Snova云数仓

在数据仓库的建设中,通常我们使用Hive处理原始数据(PB级别),进行耗时较长的ETL工作,再将结果数据(TB级别)交由准实时的计算引擎(如Snova)对接BI工具,保证报表的准实时展现。...

2020-04-25
1

0762-5.16.2-Impala查询HBase表字段顺序不正确异常分析

按照官方文档在Hive中建表关联HBase,然后在Hue中用Impala查询,查询结果中字段的顺序与在Hive中的建表顺序不一致,Hue中使用Impala查询出来的字段顺序是按照字母排序的。...

2020-04-24
1

今年面试通关太难,程序员怎么高效提升竞争力?

在各大互联网公司高价抢夺数据人才的环境下,为谋求长期发展、获得高薪,很多人转行到了大数据领域。这条路人才虽缺,但要成为优秀大数据工程师并不轻松:别的不说,光学习新技术,巩固旧知识,就需要耗费大量时间精力,实属不易。...

2020-04-24
0

Hive的常用优化

数据量大尽量避免使用 count(distinct) ,这会导致所有数据在一个 reduce 内去重,导致运行缓慢,使用 group by 来代替

2020-04-24
1

为什么SpringBoot的 jar 可以直接运行?

SpringBoot提供了一个插件spring-boot-maven-plugin用于把程序打包成一个可执行的jar包。在pom文件里加入这个插件即可:

2020-04-23
0

数据分析师还是算法工程师|用数据多角度解读如何选择

疫情即将散去,又到了求职季。学习Python的各位该如何选择自己的职业方向,算法工程师还是数据分析师?跟随本文一起看看吧!

2020-04-22
0

运营数据库系列之可访问性

这篇博客文章是CDP中Cloudera的运营数据库(OpDB)系列文章的一部分。每篇文章都会详细介绍新功能。从该系列的开头开始,请参阅CDP 中的 Operational Database 。...

2020-04-21
1

数据百问系列:数据库和数据仓库的区别是什么?

最近群里很多小伙伴都问了数据库和数据仓库的区别是什么,因此将之前写过的文章给大家再分享一遍。

2020-04-21
0

推荐系统实践系列 | 一、推荐系统流程设计

推荐系统主要解决的是信息过载问题,目标是从海量物品筛选出不同用户各自喜欢的物品,从而为每个用户提供个性化的推荐。推荐系统往往架设在大规模的业务系统之上,不仅面临着用户的不断增长,物品的不断变化,而且有着全面的推...

2020-04-20
1