最新 最热

实时标签开发——从零开始搭建实时用户画像(五)

数据的接入可以通过将数据实时写入Kafka进行接入,不管是直接的写入还是通过oracle和mysql的实时接入方式,比如oracle的ogg,mysql的binlog

2020-06-15
0

Hive存储格式简单介绍

Hive支持的存储格式有: textfile、sequencefile、orc和parquet这几种格式。Hive 的存储方式有列式存储和行式存储。 textfile和sequencefile的存储格式是给予行存储的;而orc和parquet是基于列存储的(实质上也不是完全...

2020-06-15
0

程序员瞎长类动物,这个视频肯定笑死你,但是安全不能瞎

http://mpvideo.qpic.cn/tjg_3081972243_50000_e5e57902e8ad407f90be3cafafe5328b.f10002.mp4?dis_k=f63945

2020-06-12
1

Spark 生态系统组件

Spark 生态系统以Spark Core 为核心,能够读取传统文件(如文本文件)、HDFS、Amazon S3、Alluxio 和NoSQL 等数据源,利用Standalone、YARN 和Mesos 等资源调度管理,完成应用程序分析与处理。这些应用程序来自Spark 的不同组...

2020-06-12
0

Presto?还是 Hive? 你们知道大数据查询性能谁更强吗?

经过对 Presto 和 Hive 的性能做了大量的对比测试,最终结果表明: Presto 的平均查询性能是 Hive 的 10 倍!

2020-06-12
0

盘点:SQL on Hadoop中用到的主要技术

自打Hive出现之后,经过几年的发展,SQL on Hadoop相关的系统已经百花齐放,速度越来越快,功能也越来越齐全。本文并不是要去比较所谓“交互式查询哪家强”,而是试图梳理出一个统一的视角,来看看各家系统有哪些技术上相通之处...

2020-06-11
0

【DB笔试面试815】在Oracle中,什么是闪回数据归档(Flashback Data Archive)?

【DB笔试面试815】在Oracle中,什么是闪回数据归档(Flashback Data Archive)?

2020-06-10
1

数据分析知识点速查表

Python 被称为万能胶水语言,适用性强,能轻松实现很多数据科学应用,还能使数据分析工作自动化。

2020-06-07
0

Apache Calcite原理极简入门

Apache Calcite 是独立于存储与执行的SQL解析、优化引擎,广泛应用于各种离线、搜索、实时查询引擎,如Drill、Hive、Kylin、Solr、flink、Samza等。本文结合hive中基于代价的优化,解析calcite优化引擎的实现原理。...

2020-06-07
1

硬核艿艿,新鲜出炉,直接带你弄懂 Spring Boot Jar 启动原理!

Spring Boot 提供了 Maven 插件 spring-boot-maven-plugin,可以方便的将 Spring Boot 项目打成 jar 包或者 war 包。

2020-06-05
0