最新 最热

腾讯大数据团队主导Apache社区新一代分布式存储系统Ozone 1.0.0发布

近日,由腾讯大数据团队主导的Ozone 1.0.0版本在Apache Hadoop社区正式发布。经过2年多的社区持续开发和腾讯内部1000+节点的实际落地验证,Ozone 1.0.0已经具备了在大规模生产环境下实际部署的能力。 Ozone 是Apache Ha...

2020-09-27
0

大数据的列式存储格式:Parquet

之前简单介绍了一下列式存储: 和谐号为啥快?因为铁轨是列式存储! 今天介绍一种大数据时代有名的列式存储文件格式:Parquet,被广泛用于 Spark、Hadoop 数据存储。Parquet 的中文是镶木地板,意思是结构紧凑,空间占用率高。注...

2020-09-27
0

ModelarDB:Modular + Model

长文预警,今天介绍一个时间序列管理系统的论文:《ModelarDB: Modular Model-Based Time Series Management with Spark and Cassandra》,三个作者都来自丹麦奥尔堡大学,这三个人在 2017 年 TKDE 有一篇很全面的时序数据库...

2020-09-27
1

Apache IoTDB 0.8.1 发布啦!

我又回来啦!这段时间 IoTDB 发布了两个版本,0.8.0 和 0.8.1,其中 0.8.1 是一个bug修复版。今天主要带大家上手使用 IoTDB,清华自研物联网时序数据库。

2020-09-27
0

Apache IoTDB “硬实力”——从 PLC 采集到 Spark 分析实物展示台

Apache IoTDB 已经在很多物联网系统中得到了应用。为了让大家理解工业物联网的时序数据是如何采集、存储、查询分析,并进行可视化。我们做了一个IoTDB展示台,这是一个 IoTDB 在实际应用中功能的缩小版,展示了 IoTDB 管理...

2020-09-27
0

BigData--大数据分析引擎Spark

(1)zeroValue:给每一个分区中的每一个key一个初始值; (2)seqOp:函数用于在每一个分区中用初始值逐步迭代value; (3)combOp:函数用于合并每个分区中的结果。...

2020-09-24
1

BigData--大数据技术之SparkSQL

一、Spark SQL概述1、DataFrame 与RDD类似,DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema。同时,与Hive类似,DataFrame也支持嵌套数据类型(struct、...

2020-09-24
1

BigData--大数据技术之SparkStreaming

所有基于窗口的操作都需要两个参数,分别为窗口时长以及滑动步长,两者都必须是 StreamContext 的批次间隔的整数倍。

2020-09-24
1

Spark计算引擎:Spark数据处理模式详解

Spark作为大数据领域受到广泛青睐的一代框架,一方面是相比前代框架Hadoop在计算性能上有了明显的提升,另一方面则是来自于Spark在数据处理上,同时支持批处理与流处理,能够满足更多场景下的需求。今天我们就来具体讲一讲Sp...

2020-09-24
1

深入浅出 Spark:内存计算的由来

专题介绍 2009 年,Spark 诞生于加州大学伯克利分校的 AMP 实验室(the Algorithms, Machines and People lab),并于 2010 年开源。2013 年,Spark 捐献给阿帕奇软件基金会(Apache Software Foundation),并于 2014 年成为 Ap......

2020-09-23
0