介绍
Flume 是一个用于收集和传输大量日志数据的开源工具,特别适合处理大规模的流式数据。通俗来说,Flume 就像一个“数据收集器”,负责把不同地方产生的数据集中到一个地方,方便后续处理和分析。
例子:
想象一下一个大型的学校活动,比如运动会。
数据收集:在运动会中,各个班级的老师负责记录每个学生的比赛成绩。这就像 Flume 从不同的来源收集数据。
数据传输:每个班级的老师将成绩单收集后,定期把这些成绩送到学校的总成绩记录处。这就类似于 Flume 将数据传输到一个集中存储的地方。
数据聚合:在成绩记录处,工作人员会把所有班级的成绩汇总,形成一个完整的成绩单,方便后续的分析和发布。这就像 Flume 对收集到的数据进行聚合,确保信息的整合和高效处理。
前提工作
我们采用kafka1.10.1版本(apache-flume-1.10.1-bin.tar.gz)
hadoop102下解压缩
代码语言:shell复制cd /opt/module
# 解压
tar -zxf /opt/software/apache-flume-1.10.1-bin.tar.gz
# 重命名
mv /opt/module/apache-flume-1.10.1-bin flume
搭建
代码语言:shell复制cd /opt/module/flume/conf
# 配置这两个地方
vim log4j2.xml
<Property name="LOG_DIR">/opt/module/flume/log</Property>
# 引入控制台输出,方便学习查看日志
<Root level="INFO">
<AppenderRef ref="LogFile" />
<AppenderRef ref="Console" />
</Root>
各项参数参考以下文章
https://blog.csdn.net/Aying_seeyou/article/details/107936836