最新 最热

关于数据仓库的一些观点

2021年有两条主线,一个是生态系统和商业模式的成熟,比如早在2020年就上市的云数据仓库公司 Snowflake 公司站稳了在资本市场的脚跟、Databricks、Dataiku、Datarobot 等公司估值更高了并且募集了大量的资金,甚至正在追求...

2021-10-19
1

IoTDB在四维智联公司的应用

博客断更了好久了,今天提笔分享一下将IoTDB真正应用到生产环境当中的故事。如果你也正在研究或对相关技术感兴趣,欢迎一起讨论学习,联系方式见文章末尾。...

2021-10-19
1

HDFS伪分布式环境搭建

HDFS是主/从式的架构。一个HDFS集群会有一个NameNode(简称NN),也就是命名节点,该节点作为主服务器存在(master server).

2021-10-18
0

Yarn源码之ApplicationClientProtocol

ApplicationClientProtocol协议负责的就是Client和ResourceManager的交互逻辑。主要功能是submit/abort jobs(提交/终止任务)和get information from applications(获取应用信息)以及get cluster metrics(获取集群指......

2021-10-17
1

大数据之Hadoop企业级生产调优手册(下)

注:演示纠删码和异构存储需要一共 5台虚拟机。尽量拿另外一套集群。提前准备 5台服务器的集群。

2021-10-13
1

Hadoop 生态里,为什么 Hive 活下来了?

Apache Hive 在 2010 年作为 Hadoop 生态系统的一部分崭露头角,当时 Hadoop 是一种新颖而创新的大数据分析方法。Hive 的功能就是实现 Hadoop 的 SQL 接口。它的架构包括两个主要服务:一是查询引擎:负责执行 SQL 语句;二...

2021-10-13
1

后Hadoop时代,爱奇艺如何有效整合大数据和AI平台?

大数据是人工智能的基础。从大数据到数据分析再到 AI 应用的转变,这也是一个很自然的发展过程。但是只有在数据、算法、企业的场景应用三者紧密配合的前提下,才可以有效地提升整个 AI 业务的流程。因此,爱奇艺在原来的数...

2021-10-13
0

大数据之Hadoop企业级生产调优手册(上)

每个文件块大概占用 150byte,一台服务器 128G内存为例,能存储多少文件块呢?128 * 128 * 1024 * 1024 / 150Byte ≈ 9.1亿

2021-10-12
0

Hadoop重点难点:Hadoop IO/压缩/序列化

序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构化对象的逆过程。

2021-10-12
0

2021年大数据HBase(八):Apache Phoenix的基本介绍

Apache Phoenix主要是基于HBase一款软件, 提供了一种全新(SQL)的方式来操作HBase中数据, 从而降低了使用HBase的门槛, 并且 Phoenix提供了各种优化措施

2021-10-11
1