Sqoop 工具是Hadoop环境下连接关系数据库,和hadoop存储系统的桥梁,支持多种关系数据源和hive,hdfs,hbase的相互导入。一般情况下,关系数据表存在于线上环境的备份环境,需要每天进行数据导入,根据每天的数据量而言,sqoop可以...
Sqoop本身的容错依赖于Hadoop,这里我们focus在Sqoop传输任务失败的处理,确切的说,focus在Sqoop如何解决传输任务失败引发的数据一致性问题
Presto下载页面 https://prestodb.io/docs/current/installation/deployment.html
由于最近项目需要和大数据对接,需要了解一下数仓的基本知识,所以记录一下hive的基础原理和使用
以前只用过Hive与impala两个类SQL查询系统,最近又将Hortonworks开源的Stinger与Apache的Drill做了些调研。累死累活搞了一天的资料,头都大了。为了纪念我那逝去的脑细胞,特将这些信息整理出来。...
作者简介霖雾,携程数据开发工程师,关注图数据库等领域。背景2017年9月携程金融成立,在金融和风控业务中,有多种场景需要对图关系网络进行分析和实时查询,传统关系型数据库难以保证此类场景下的关联性能,且实现复杂性高,离线...
新粉请关注我的公众号最近网易数帆宣布自己要发布一个Hadoop的发行版,准备进军Hadoop发行商的市场。Hadoop三大发行商Cloudera,Hortonworks和MapR,现在都已经是过去时了。当年Cloudera有多风光,现在就有多惨烈。Cloudera...
Flink 1.12 版本在 20 年 12 月已经正式 Release,目前我们的 Flink SQL 作业的 Flink 引擎版本还是 1.10,本文主要用以评估 Flink 1.10 升级到 1.12 整体所能带来的预期收益,同时结合所需投入的成本,决定是否需要升级 Fli...
Iceberg项目2017年由Netflix发起, 它是在2018年被Netflix捐赠给Apache基金会的项目。在2021年Iceberg的作者Ryan Blue创建Tabular公司,发起以Apache Iceberg为核心构建一种新型数据平台。...
官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11