真香!Grafana开源的Loki日志系统取代ELK?

2023-03-17 09:57:21 浏览数 (3)

一、Loki是什么?

Loki是由Grafana Labs开源的一个水平可扩展、高可用性,多租户的日志聚合系统的日志聚合系统。它的设计初衷是为了解决在大规模分布式系统中,处理海量日志的问题。Loki采用了分布式的架构,并且与Prometheus、Grafana密切集成,可以快速地处理大规模的日志数据。该项目受 Prometheus 启发,官方的介绍是:Like Prometheus,But For Logs.

与其他日志聚合系统相比, Loki 具有下面的一些特性:

  • 不对日志进行全文索引。通过存储压缩非结构化日志和仅索引元数据,Loki的存储更加轻量,操作更加简单,更加节省成本。
  • 通过使用与 Prometheus 相同的标签记录流对日志进行索引和分组,这使得日志的扩展和操作效率更高。
  • 天然适合存储Kubernetes Pod 日志,Pod 标签之类的元数据会被自动处理,特点适合云云原生场景的应用日志处理。
  • Grafana Labs出品,Grafana原生对Loki的支持就非常好。

二、Loki架构和功能

Loki 的架构非常简单,主要由以下 3 个部分组成:

  • Loki:负责存储日志和处理查询。
  • Promtail:日志收集的代理,负责在各端收集日志并将其发送给 Loki 。
  • Grafana:用于日志搜索的UI 展示。

Loki 使用与 Prometheus 相同的服务发现和标签重新标记库,编写了 Pormtail,在 Kubernetes 中 Promtail 以 DaemonSet 方式运行在每个节点中,通过 Kubernetes API 得到日志的正确元数据,并将它们发送到 Loki。

也正是因为这个原因,通过这些标签,既可以查询日志的内容,也可以查询到监控的内容,这两种查询被很好的兼容,节省了分别存储相关日志和监控数据的成本,也减少了查询的切换成本。

整体来说可以把Loki的功能总结如下:

  • 日志收集:Loki可以接收来自不同应用程序、主机和容器的日志数据。
  • 日志存储:Loki使用可扩展的分布式存储后端存储日志数据,包括本地存储和云存储。
  • 日志查询:Loki提供了一个高效的查询语言,可以快速地搜索和过滤日志数据。
  • 日志索引:Loki使用标签索引和压缩算法对日志数据进行索引,可以大大减少存储空间和查询时间。
  • 日志警报:Loki可以根据日志数据中的条件触发警报,并将警报发送到警报通道。

可以看到,作为一个日志处理系统,从收集、存储、查询、告警支持都是比较全面的,配合Grafana也能够比较好实现可视化,相关组件也比较简单。

三、Loki与ELK的优劣势对比?

ELK是大规模日志解决方案中的佼佼者,所以说到Loki,免不了要拿来跟ELK做个对比。两者都是日志解决方案,有相似之处,也有诸多不同。

  • 架构

ELK(Elasticsearch、Logstash、Kibana)架构中Logstash用于日志收集和处理,Elasticsearch用于存储和索引,Kibana用于可视化和查询。而Loki则采用了分布式架构,将日志数据存储在多个节点上,Promtail进行日志收集,可视化依赖于Grafana。

  • 存储

ELK使用Elasticsearch作为存储和索引引擎,Elasticsearch需要使用大量的硬盘空间和内存。而Loki使用了紧凑的索引和压缩算法,可以大大减少存储空间。

  • 查询

ELK使用Lucene作为查询引擎,可以快速地搜索和过滤大规模的日志数据。但是在数据量过大和查询复杂度高一些的情况下,查询速度会变慢。Loki使用自己的查询语言,查询的场景一般也比较简单,可以快速地搜索和过滤日志数据。

  • 部署

ELK的部署比较复杂,需要安装和配置多个组件。而Loki则采用了单一二进制文件的方式,部署比较简单。

3.1、Loki的优劣势
3.1.1、Loki优势
  1. 轻量级:相比ELK,Loki更加轻量级,因为它不需要一个单独的Elasticsearch集群来存储和索引日志数据。Loki具有较低的硬件要求,可以在较小的硬件上运行,例如使用少量内存和CPU。
  2. 高度可扩展性:Loki可以通过添加更多的Loki实例来实现水平扩展,这使得它更容易处理大量的日志数据。
  3. 简化的存储架构:Loki将日志数据存储在一个单一的列式存储引擎中,这使得它更容易维护和管理。
  4. 支持日志标签:Loki可以使用标签来过滤和查询日志数据,这使得它更加灵活。
  5. 直接支持Prometheus:Loki与Prometheus深度集成,这使得在Prometheus查询中使用Loki日志数据更加容易。
  6. 可伸缩性:Loki具有更好的可伸缩性,可以轻松地添加和删除节点以适应数据量的变化,而ELK需要更多的配置和管理工作来保持可伸缩性。
3.1.2、Loki的劣势
  1. 较少的可视化选项:Loki的可视化选项相对较少,因为它是一个相对较新的日志管理和分析工具。
  2. 学习曲线较陡峭:Loki使用的是自己的查询语言LokiQL,这需要一定的学习曲线。
  3. 需要额外的组件:虽然Loki本身是一个相对较小的组件,但它需要配合Promtail等其他组件来实现完整的日志管理和分析解决方案。
3.2、ELK的优劣势
3.2.1、ELK优势
  1. 成熟的生态系统:ELK已经有了一个成熟的生态系统,并且已经被广泛地使用和测试。
  2. 多样化的可视化选项:ELK提供了各种各样的可视化选项,包括基于时间序列的图表、热力图、地图等等。
  3. 丰富的插件库:ELK有丰富的插件库,可以方便地扩展其功能。
  4. 易于学习:ELK使用的是标准的查询语言,如Lucene查询语法和Elasticsearch查询DSL,这使得它相对容易学习。
3.2.2、ELK的劣势
  1. 相对重量级:ELK需要一个单独的Elasticsearch集群来存储和索引日志数据,这使得它相对较重。
  2. 复杂的存储架构:ELK使用的是分布式存储引擎,这使得它的存储架构相对复杂。
  3. 相对复杂的部相对复杂的部署和管理:ELK需要安装和配置多个组件,例如Elasticsearch、Logstash和Kibana,这使得它的部署和管理相对复杂。
  4. 较高的硬件要求:由于ELK需要处理大量的日志数据,因此需要大量的存储和处理能力,这可能需要更高的硬件要求和更大的部署成本。

总体而言,Loki和ELK都是优秀的日志解决方案,适合不同的使用场景。Loki相对轻量级,具有较高的可扩展性和简化的存储架构,但需要额外的组件和有一定的学习曲线。ELK则具有丰富的可视化选项和插件库,易于学习,但相对重量级,需要复杂的存储架构和较高的硬件要求,部署和管理也比较复杂。

具体如何选择取决于具体场景,若是数据量适中,数据属于时序类,如应用程序日志和基础设施指标,并且应用使用kubernetes Pod形式部署,则选择Loki比较合适;而ELK则适合更大的数据集和更复杂的数据处理需求,以及更多其他组件的日志收集场景。

四、Loki安装部署

要从0到1部署Loki,需要完成以下步骤:

  1. 安装Docker和Docker Compose。
  2. 创建一个Loki的Docker Compose文件。
  3. 配置Loki,包括日志收集和存储。
  4. 启动Loki服务,测试
4.1、Docker和Docker Compose安装
4.1.1、安装 Docker:

更新系统软件包:

代码语言:javascript复制
sudo yum update

安装所需的软件包:

代码语言:javascript复制
sudo yum install -y yum-utils device-mapper-persistent-data lvm2

添加 Docker 的 yum 软件源:

代码语言:javascript复制
sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo

安装 Docker:

代码语言:javascript复制
sudo yum install docker-ce docker-ce-cli containerd.io

启动 Docker 服务:

代码语言:javascript复制
sudo systemctl start docker

验证 Docker 是否安装成功:

代码语言:javascript复制
sudo docker run hello-world

如果看到 "Hello from Docker!" 的输出,则说明 Docker 安装成功。

4.1.2、安装 Docker Compose:

安装依赖软件包:

代码语言:javascript复制
sqlCopy codesudo yum install -y epel-release
sudo yum install -y python-pip
sudo pip install --upgrade pip

安装 Docker Compose:

代码语言:javascript复制
Copy code
sudo pip install docker-compose

验证 Docker Compose 是否安装成功:

代码语言:javascript复制
cssCopy code
docker-compose --version

如果看到 Docker Compose 的版本信息,则说明安装成功。

注意:在安装 Docker 和 Docker Compose 之前,建议先确保系统已经安装了最新版本的软件包和依赖。如果之前已经安装了旧版本的 Docker 或 Docker Compose,需要先将其卸载。

4.2、创建一个Loki的Docker Compose文件。

可以通过以下命令创建一个Loki的Docker Compose文件:

代码语言:javascript复制
$ mkdir loki
$ cd loki
$ touch docker-compose.yml

编辑docker-compose.yml文件,添加以下内容:

代码语言:javascript复制
version: '3.7'

services:
  loki:
    image: grafana/loki:latest
    ports:
      - "3100:3100"
    volumes:
      - ./config:/etc/loki
      - ./data:/data/loki

这个Docker Compose文件定义了一个Loki服务,使用最新的grafana/loki镜像,将3100端口映射到主机,同时将配置和数据目录挂载到主机上。

4.3、配置Loki,包括日志收集和存储。

在配置目录下创建一个local-config.yaml文件,用于配置Loki的日志收集和存储。这个文件可以定义多个日志收集器,每个收集器都有一个唯一的名称。

以下是一个简单的local-config.yaml文件示例:

代码语言:javascript复制
auth_enabled: false
server:
  http_listen_port: 3100
  grpc_listen_port: 9095

schema_config:
  configs:
    - from: 2018-04-15
      store: boltdb
      object_store: filesystem
      schema: v11
      index:
        prefix: index_
        period: 24h

storage_config:
  boltdb:
    directory: /data/loki/index
  filesystem:
    directory: /data/loki/chunks

ingester:
  lifecycler:
    address: 127.0.0.1
    ring:
      kvstore:
        store: inmemory
      replication_factor: 1
      heartbeat_timeout: 1m
    final_sleep: 0s
  chunk_idle_period: 5m
  chunk_retain_period: 30s

schema_config:
  configs:
    - from: 2019-05-24
      store: boltdb
      object_store: filesystem
      schema: v11
      index:
        prefix: index_
        period: 24h

该配置文件包括了以下几个配置项:

  • auth_enabled:是否开启认证。
  • server:HTTP和gRPC服务监听地址。
  • schema_config:配置日志索引和存储。
  • storage_config:配置日志存储后端。
  • ingester:配置日志收集。
4.4、启动Loki服务,测试

运行以下命令启动Loki服务:

代码语言:javascript复制
$ docker-compose up -d

等待几秒钟后,可以通过以下命令查看服务是否正常启动:

代码语言:javascript复制
$ docker ps

如果Loki服务正在运行,应该能够看到一个名为“loki_loki_1”的Docker容器。

此时,可以使用Loki的API或者Promtail将日志数据发送到Loki,然后通过Loki的查询语言查询日志数据。

在浏览器中访问http://localhost:3100/,进入Loki的Web UI。

Loki的Web UI提供了一个交互式的查询界面,可以输入查询语言和过滤条件,查询日志数据。

例如,可以输入以下查询语句:

代码语言:javascript复制
{job="example-job"}

这将返回所有标签job值为“example-job”的日志条目。

还可以使用聚合函数和表达式来对日志数据进行处理和分析。例如,以下查询语句将计算每个标签instance的平均值,并返回结果:

代码语言:javascript复制
avg_over_time({job="example-job"}[5m]) by (instance)

此外,Loki还提供了许多其他有用的功能,如警报、日志流水线和故障排除等。这些功能可以帮助用户更方便地管理和分析日志数据。

0 人点赞