最新 最热

Sqoop使用和简介

Sqoop 工具是Hadoop环境下连接关系数据库,和hadoop存储系统的桥梁,支持多种关系数据源和hive,hdfs,hbase的相互导入。一般情况下,关系数据表存在于线上环境的备份环境,需要每天进行数据导入,根据每天的数据量而言,sqoop可以...

2022-06-29
0

Sqoop:容错

Sqoop本身的容错依赖于Hadoop,这里我们focus在Sqoop传输任务失败的处理,确切的说,focus在Sqoop如何解决传输任务失败引发的数据一致性问题

2022-06-29
1

Presto+yanagishima部署

Presto下载页面 https://prestodb.io/docs/current/installation/deployment.html

2022-06-29
0

hive基本使用

由于最近项目需要和大数据对接,需要了解一下数仓的基本知识,所以记录一下hive的基础原理和使用

2022-06-28
0

Hadoop上时实类SQL查询系统对比

以前只用过Hive与impala两个类SQL查询系统,最近又将Hortonworks开源的Stinger与Apache的Drill做了些调研。累死累活搞了一天的资料,头都大了。为了纪念我那逝去的脑细胞,特将这些信息整理出来。...

2022-06-28
1

干货 | 百亿节点,毫秒级延迟,携程金融基于nebula的大规模图应用实践

作者简介霖雾,携程数据开发工程师,关注图数据库等领域。背景2017年9月携程金融成立,在金融和风控业务中,有多种场景需要对图关系网络进行分析和实时查询,传统关系型数据库难以保证此类场景下的关联性能,且实现复杂性高,离线...

2022-06-27
0

Cloudera一己之力证明的火炕,网易却毫不犹豫跳进来。。。

新粉请关注我的公众号最近网易数帆宣布自己要发布一个Hadoop的发行版,准备进军Hadoop发行商的市场。Hadoop三大发行商Cloudera,Hortonworks和MapR,现在都已经是过去时了。当年Cloudera有多风光,现在就有多惨烈。Cloudera...

2022-06-24
0

Flink 1.10 升级 Flink 1.12 预期收益评估

Flink 1.12 版本在 20 年 12 月已经正式 Release,目前我们的 Flink SQL 作业的 Flink 引擎版本还是 1.10,本文主要用以评估 Flink 1.10 升级到 1.12 整体所能带来的预期收益,同时结合所需投入的成本,决定是否需要升级 Fli...

2022-06-23
0

[LakeHouse] 数据湖之Iceberg一种开放的表格式

Iceberg项目2017年由Netflix发起, 它是在2018年被Netflix捐赠给Apache基金会的项目。在2021年Iceberg的作者Ryan Blue创建Tabular公司,发起以Apache Iceberg为核心构建一种新型数据平台。...

2022-06-19
1

基于Seatunnel连通Hive和ClickHouse实战

官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11

2022-06-17
1