数据集介绍见https://blog.csdn.net/m0_38139250/article/details/122181337 数据集下载地址: https://download.csdn.net/download/m0_38139250/72088781
参考: https://www.kancloud.cn/java-jdxia/big-data/606445 https://www.cnblogs.com/rmxd/p/11455810.html
HIVE 为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/project/te...
Linux环境 Windows环境 均做了调试 本文代码是基于window开发,因为数据量较大时,相比虚拟机,本地运行更顺畅些,还不是没钱买服务器。。。
一、消息队列概述 消息队列中间件是分布式系统中重要的组件,主要解决应用解耦,异步消息,流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构。目前使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ...
Kafka 是 linkedin 使用 Scala 编写具有高水平扩展和高吞吐量的分布式消息系统。
一、消息队列概述消息队列中间件是分布式系统中重要的组件,主要解决应用解耦,异步消息,流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构。目前使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ...
随着业务的发展,IT系统逐渐呈现海量化和异构化的趋势。日志管理与分析在信息记录、操作审计、问题排查等场景中有重要的管理价值。现如今各中大型企业都会建设一套全公司上下统一的日志平台,以满足企业IT运维上的管理和...
第三届阿里云磐久智维算法大赛:本次比赛要求选手基于故障工单与系统日志数据构建多分类模型,要求能够快速高效的定位出故障类型。