近日,由腾讯大数据团队主导的Ozone 1.0.0版本在Apache Hadoop社区正式发布。经过2年多的社区持续开发和腾讯内部1000+节点的实际落地验证,Ozone 1.0.0已经具备了在大规模生产环境下实际部署的能力。 Ozone 是Apache Ha...
之前简单介绍了一下列式存储: 和谐号为啥快?因为铁轨是列式存储! 今天介绍一种大数据时代有名的列式存储文件格式:Parquet,被广泛用于 Spark、Hadoop 数据存储。Parquet 的中文是镶木地板,意思是结构紧凑,空间占用率高。注...
长文预警,今天介绍一个时间序列管理系统的论文:《ModelarDB: Modular Model-Based Time Series Management with Spark and Cassandra》,三个作者都来自丹麦奥尔堡大学,这三个人在 2017 年 TKDE 有一篇很全面的时序数据库...
我又回来啦!这段时间 IoTDB 发布了两个版本,0.8.0 和 0.8.1,其中 0.8.1 是一个bug修复版。今天主要带大家上手使用 IoTDB,清华自研物联网时序数据库。
Apache IoTDB 已经在很多物联网系统中得到了应用。为了让大家理解工业物联网的时序数据是如何采集、存储、查询分析,并进行可视化。我们做了一个IoTDB展示台,这是一个 IoTDB 在实际应用中功能的缩小版,展示了 IoTDB 管理...
(1)zeroValue:给每一个分区中的每一个key一个初始值; (2)seqOp:函数用于在每一个分区中用初始值逐步迭代value; (3)combOp:函数用于合并每个分区中的结果。...
一、Spark SQL概述1、DataFrame 与RDD类似,DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema。同时,与Hive类似,DataFrame也支持嵌套数据类型(struct、...
所有基于窗口的操作都需要两个参数,分别为窗口时长以及滑动步长,两者都必须是 StreamContext 的批次间隔的整数倍。
Spark作为大数据领域受到广泛青睐的一代框架,一方面是相比前代框架Hadoop在计算性能上有了明显的提升,另一方面则是来自于Spark在数据处理上,同时支持批处理与流处理,能够满足更多场景下的需求。今天我们就来具体讲一讲Sp...
专题介绍 2009 年,Spark 诞生于加州大学伯克利分校的 AMP 实验室(the Algorithms, Machines and People lab),并于 2010 年开源。2013 年,Spark 捐献给阿帕奇软件基金会(Apache Software Foundation),并于 2014 年成为 Ap......