最新 最热

踩坑实录Hive中select * 没有数据,而select count(*)有数据

hdfs文件有数据,Hive中select * 没有数据,而select count(*)有数据

2022-11-13
1

【踩坑实录】-hive参数产生2个文件问题

set hive.exec.stagingdir=/tmp/hive-staging/.hive-staging;

2022-11-13
1

数据仓库建设之数仓架构

大家好,不管是离线数仓与实时数仓,建设的时候都少不了架构设计,今天来学习一下常见的架构及发展演变过程。

2022-11-13
1

MQ简单介绍

MQ(message queue),从字面意思上看,本质是个队列,FIFO先入先出,只不过队列中存放的内容是message而已,还是一种跨进程的通信机制,用于上下游传递消息。在互联网架构中,MQ是一种非常常见的上下游“逻辑解耦+物理解耦”的消息...

2022-11-13
1

2-网站日志分析案例-日志采集:Flume-Kafka-Flume-HDFS

参考:https://blog.csdn.net/m0_38139250/article/details/121155903

2022-11-12
1

7-点击流数据分析项目-数据预处理

数据集介绍见https://blog.csdn.net/m0_38139250/article/details/122181337 数据集下载地址: https://download.csdn.net/download/m0_38139250/72088781

2022-11-12
1

07-PDI(Kettle)源码编译8.2.0.0.R版本

博客上有很多关于PDI源码编译的文章,但大多版本较早,或是有些文件已经找不多,本博客基于2021年10月的PDI源码编译过程制作而成,并在编译过程中解决了对应的问题,解决方案放在博客最后。...

2022-11-12
1

06-PDI(Kettle)读取Hive写入HDFS,读取HDFS写入HBase中

本文主要通过Kettle完成对Hive和HBase中数据的读写工作,为了便于按照文档即可实现Kettle的读写Hive和HBase,文本前面也介绍下Hive的安装过程,如何Hive已经完成安装,可跳过前面即可。 实验环境: cetnos7.4...

2022-11-12
1

04-PDI(Kettle)job案例

本实验是kettle的作业设计,区别与步骤的并行执行,作业的各作业项具有先后执行顺序,这在处理某些问题的时候具有很大优势。 一个作业包含一个或多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳(Hop)和...

2022-11-12
0

05-PDI(Kettle)脚本执行

作业和转换可以在图形化界面里执行,但这只是在开发、测试和调试阶段。在开发完成后,需要部署到实际运行环境,在部署阶段,Spoon就很少用到了。

2022-11-12
1