最新 最热

100PB级数据分钟级延迟:Uber大数据平台(下)

到2017年初,我们的大数据平台被整个公司的工程和运营团队使用,使他们能够在同一个地方访问新数据和历史数据。用户可以通过同一个UI门户轻松访问不同大数据平台的数据。我们的计算集群中有超过100PB的数据和100000个vco...

2022-03-30
0

Kylin 是什么?

Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。...

2022-03-28
1

金融+大数据解决方案:银行业

银行业是一个数据驱动的行业,数据也一直是银行信息化的主题词。 随着大数据技术的飞速发展,银行信息化也进入了新的阶段:大数据时代。 银行在大数据技术应用方面具有天然优势:一方面,在业务开展过程中积累了大量有价值的数...

2022-03-28
1

【首页推荐】详解 HBase 安装及部署配置

由于 HBase 是以 HDFS 作为底层存储文件系统的,因此部署好 Hadoop 并启动服务是 HBase 部署的先决条件。我们将在《第三篇:Hadoop部署配置及运行调试(下) - HA完全分布式》中部署的 Hadoop 上,以完全分布式模式来安装部...

2022-03-28
1

Elasticsearch 写入优化记录,从3000到8000/s

点击上方“芋道源码”,选择“设为星标” 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~ 中文详细注释的开源项目 RPC 框架 Dubbo 源码解...

2022-03-28
1

Hadoop - HDFS操作

wget https://www.python.org/ftp/python/3.6.8/Python-3.6.8.tar.xz

2022-03-27
0

【性能分析】大数据分析工具

大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据...

2022-03-25
1

【大数据技术】Hadoop体系框架详细解析

Mapreduce是一种模式,一种什么模式呢?一种云计算的核心计算模式,一种分布式运算技术,也是简化的分布式编程模式,它主要用于解决问题的程序开发模型,也是开发人员拆解问题的方法。 如下图所示,ma...

2022-03-25
1

Hadoop - 企业级大数据管理平台CDH(介绍和准备工作)

哈喽大家好呀,仅经过了一段时间大数据相关的博文又和大家见面了,笔者之前有写过一套Hadoop大数据相关的博客,为什么今天又要开坑呢?当然是有原因,随着不断的学习了解,慢慢意识到之前做法存在很多缺陷,最...

2022-03-24
1

Azkaban 任务调度系统(使用和小技巧)

上节主要介绍了安装搭建和简单的运行一个job,但是真正使用到实际场景还是需要了解更多的知识,比如任务怎么互相依赖,可以选择指定的节点来执行吗等等一些相关的操作会在本节中进行介绍...

2022-03-24
0