最新 最热

基于LDAP认证的大数据权限解决方案

LDAP是开放的Internet标准,支持跨平台的Internet协议,在业界中得到广泛认可的,并且市场上或者开源社区上的大多产品都加入了对LDAP的支持,因此对于这类系统,不需单独定制,只需要通过LDAP做简单的配置就可以与服务器做认证交...

2021-10-22
1

用户画像 | 标签数据存储之MySQL真实应用

上一篇文章已经为大家介绍了 Hive 在用户画像的标签数据存储中的具体应用场景,本篇我们来谈谈MySQL的使用!

2021-10-22
0

用户画像 | 标签数据存储之Hive真实应用

小伙伴们大家好呀,趁着年假的几天时间,我写了一篇 Elacticsearch 从0到1的“长篇大作”,现在还在排版,相信很快就会与大家见面了!关于系统学习用户画像,之前已经分享过2篇文章了,分别是《超硬核 | 一文带你入门用户画像》和...

2021-10-22
1

用户画像 | 开发性能调优

马上就快过年了,祝福小伙伴们牛年大吉,牛气冲天。本期文章分享的是赵老师在《方法论与工程化解决解决方案》一书中提到的关于如何在用户画像项目开发中进行性能调优的例子,希望大家耐心看完后有所收获!...

2021-10-22
0

将 Impala 数据迁移到 CDP

在将 Impala 工作负载从 CDH 平台迁移到 CDP 之前,您必须了解 CDH 和 CDP Impala 之间的语义和行为差异以及需要在数据迁移之前执行的活动。

2021-10-20
1

搭建Hadoop2.7.2和Hive2.3.3以及Spark3.1.2

Hadoop是一个用Java编写的Apache开源框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。Hadoop框架工作的应用程序在跨计算机集群提供分布式存储和计算的环境中工作。Hadoop旨在从单个服务器扩展到数千个...

2021-10-20
0

windows系统wsl/wsl2 更换虚拟硬盘位置(导出,导入)

windows wsl子系统默认硬盘存放位置在c盘,c盘一般分区都不会太大,就需要迁移虚拟硬盘来解决,网上有较多建软链的方式,这里不再记录,只叙述打包导出导入的方式...

2021-10-13
0

一文读懂Hive底层数据存储格式(好文收藏)

本文讲解 Hive 的数据存储,是 Hive 操作数据的基础。选择一个合适的底层数据存储文件格式,即使在不改变当前 Hive SQL 的情况下,性能也能得到数量级的提升。这种优化方式对学过 MySQL 等关系型数据库的小伙伴并不陌生,选...

2021-10-13
0

Hadoop 生态里,为什么 Hive 活下来了?

Apache Hive 在 2010 年作为 Hadoop 生态系统的一部分崭露头角,当时 Hadoop 是一种新颖而创新的大数据分析方法。Hive 的功能就是实现 Hadoop 的 SQL 接口。它的架构包括两个主要服务:一是查询引擎:负责执行 SQL 语句;二...

2021-10-13
0

2021年大数据Hadoop(十三):HDFS意想不到的其他功能

在我们实际工作当中,极有可能会遇到将测试集群的数据拷贝到生产环境集群,或者将生产环境集群的数据拷贝到测试集群,那么就需要我们在多个集群之间进行数据的远程拷贝,hadoop自带也有命令可以帮我们实现这个功能。...

2021-10-11
0