最新 最热

Cloudera访问授权概述

授权是任何计算环境的基本安全要求之一。其目标是确保只有适当的人员或流程才能访问,查看,使用,控制或更改特定的资源,服务或数据。在使用各种CDH组件(Hive,HDFS,Impala等)部署来满足特定工作负载的任何集群中,不同的授权机制...

2020-02-11
0

使用Ansible快速部署CDH集群

ansible是一种自动化运维工具,基于paramiko开发的,并且基于模块化工作,Ansible是一种集成IT系统的配置管理、应用部署、执行特定任务的开源平台,它是基于python语言,由Paramiko和PyYAML两个关键模块构建。集合了众多运维...

2020-02-11
0

大数据个人画像存哪儿去了?

上一篇文章,我们将用户的购物数据用Hive进行了非实时的大数据分析,并为他们打上了标签,某些同学喜欢衣服,某些同喜欢汽车。那这些标签数据究竟存到了哪里,标签数据是否永远保存,这些标签数据是否能够不断更新?...

2020-02-11
0

学习笔记--Hbase

后面做的项目估计要使用到Hbase,因此做知识储备。个人学习路线为参考慕课网相关教学视频,然后翻看Hbase权威指南,并未做很深的原理剖析。本次学习还有一些其他收获:...

2020-02-10
0

五种常见云数据库的真实应用场景

随着客户上云的加快,客户越来越希望直接采用云上的数据库系统支撑业务发展,作为服务商来讲,了解云上的数据库的应用场景及常见特性成为必然。否则,将出现与客户交流困难,影响项目成效的麻烦事。今天我们讲五种常见的云数据...

2020-01-16
0

我们常说的海量小文件的根源是什么?

为了解决小文件问题,我们也是八仙过海各显神通,一般而言可能都是写个MR/Spark程序读取特定目录的数据,然后将数据重新生成N个文件。但是在以前,这种模式会有比较致命的问题,因为在生成的新文件要替换原来的文件,而替换的过...

2020-01-14
0

大数据实用组件Hudi--实现管理大型分析数据集在HDFS上的存储

问题导读1.什么是Hudi?2.Hudi对HDFS可以实现哪些操作?3.Hudi与其它组件对比有哪些特点?前两天我们About云群大佬公司想了解Hudi ,并上线使用。Hudi 或许大家了解的比较少,这里给大家介绍下Hudi这个非常实用和有潜力的组件...

2020-01-14
0

基于Flink SQL构建实时数据仓库

根据目前大数据这一块的发展,已经不局限于离线的分析,挖掘数据潜在的价值,数据的时效性最近几年变得刚需,实时处理的框架有storm,spark-streaming,flink等。想要做到实时数据这个方案可行,需要考虑以下几点:1、状态机制 2、精...

2020-01-13
0

python3数据库分类和比较(入门)

目录:一、关系型数据库(一)常用关系型数据库:二、非关系型数据库 (一)常用非关系型数据库: (二)分类: 文档型 key-value型 列式数据库 图形数据库一、关系型数据库(一)常用关系型数据库:MySQL、SQL-Server、SQLit...

2020-01-12
0

hbase+python安装部署及操作

安装流程可借鉴此处,同理spark安装也可借鉴此处 具体参考:http://dblab.xmu.edu.cn/blog/install-hbase/

2020-01-09
0