1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。 2,大数据平台涉及的元数据——由大数据作业的业务逻辑直接读写处理的业务...
数据仓库分为离线数仓和实时数仓,但是企业在招聘时大多要求两者都会,进入公司之后可能会专注于离线或实时其中之一。
在数据仓库的建设过程中,根据事实表与维表的关系,经常将数据模型分为星型模型、雪花模型及星座模型,那么,这几种数据模型有什么区别呢?在前期规划设计时,又应该选择星型模型,雪花模型还是星座模型呢?下面,咱们就来一探究竟。...
Hadoop是一个用Java编写的Apache开源框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。Hadoop框架工作的应用程序在跨计算机集群提供分布式存储和计算的环境中工作。Hadoop旨在从单个服务器扩展到数千个...
大白话,Hadoop是个存储数据,计算数据的分布式框架。核心组件是HDFS、MapReduce、Yarn。
https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/FileSystemShell.html
Hadoop中将数据切分成块存在HDFS不同的DataNode中,如果想汇总,按照常规想法就是,移动数据到统计程序:先把数据读取到一个程序中,再进行汇总。
Hive将HiveQL(类sql语言)转为MapReduce,完成数据的查询与分析,减少了编写MapReduce的复杂度。它有以下优点:
Hbase是一种NoSql模式的数据库,采用了列式存储。而采用了列存储天然具备以下优势:
分析:也就是说,我们想要知道,在某一个人的消费时间里,他有没有连续两天的消费记录。