最新 最热

大数据入门:Spark RDD基础概念

在Spark框架的核心部分,SparkCore作为平台基础通用执行引擎,重要性自是不必多说。而在SparkCore当中,RDD作为SparkCore的核心抽象,是需要重点搞懂的概念。今天的大数据入门分享,我们就来讲讲Spark RDD入门基础。...

2020-12-09
0

大数据入门:ZooKeeper工作原理

在大数据生态当中,分布式集群当中的一个重要组件,就是Zookeeper,作为集群运行的重要管理者,正如其名字“动物园管理员”所示,负责集群运行的诸多事宜。今天的大数据入门分享,我们就来具体讲讲,ZooKeeper工作原理。...

2020-12-08
0

使用mirrormaker工具同步CDH-kafka数据到TBDS-kafka

把CDH集群的kafka数据同步到TBDS的kafka集群做测试,可以使用自带的mirrormaker工具同步

2020-12-07
0

datax工具在TBDS上同步数据方法

因为datax工具本身无法传入认证参数,所以若想在TBDS上使用datax同步数据则需要关闭相应的服务认证。

2020-12-07
0

大数据入门:Hive应用场景

在大数据的发展当中,大数据技术生态的组件,也在不断地拓展开来,而其中的Hive组件,作为Hadoop的数据仓库工具,可以实现对Hadoop集群当中的大规模数据进行相应的数据处理。今天我们的大数据入门分享,就主要来讲讲,Hive应用场景...

2020-12-07
0

大数据入门:Hbase存储原理解析

在大数据储存任务当中,针对于具备“5V”特征的大规模数据集,数据存储从传统的关系型数据库开始转向非关系型数据库(NOSQL),而NOSQL数据库当中,Hbase无疑是非常经典的一个作品。今天的大数据入门分享,我们就来讲讲Hbase存储原...

2020-12-03
0

大数据入门:Flink核心概念详解

在流式计算越来越受到主流青睐的市场状况下,流式计算框架技术的掌握,正在成为大数据学习当中的重要部分。以Flink框架来说,作为新一代的流计算框架,越来越多地出现在大数据开发者们的技能树当中。今天的大数据入门分享,我...

2020-12-02
1

大数据入门:HDFS数据读写机制

作为Hadoop的分布式文件系统的HDFS,是Hadoop框架学习当中的重点内容,HDFS的设计初衷,是致力于存储超大文件,能够通过构建在普通PC设备上的集群环境,以较低成本完成大规模数据存储任务。今天的大数据入门分享,我们就主要来讲...

2020-12-01
0

大数据入门:Spark Streaming实际应用

作为Spark负责流计算的核心组件,Spark Streaming是整个Spark学习流程当中非常重要的一块。对于Spark Streaming,作为Spark流计算的实际承载组件,我们也需要更全面的掌握。今天的大数据入门分享,我们就来讲讲Spark Streami...

2020-11-30
0

10万级etl作业批量调度工具Taskctl之轻量级Web应用版

批量处理是银行业整个信息后台最为重要的技术形态,也是银行核心信息资产数据的分享、传输、演化的重要技术手段。有调查指出,全球70%的数据是经过批量处理得以再次使用,可见批量处理在整个信息生态中的技术占比与重要性...

2020-11-30
1