基于go语言的声明式流式ETL,高性能和弹性流处理器

2022-12-28 14:46:28 浏览数 (1)

简要介绍Benthos,并给出若干示例,指导如何安装和运行。

Benthos

Benthos 是一个开源的、高性能和弹性的数据流处理器,能够以各种代理模式连接各种源和汇,可以帮助用户在不同的消息流之间进行路由,转换和聚合数据,并对有效载荷执行水合、富集、转换和过滤。

它使用 Go 语言编写,并且可以通过配置文件进行配置,使得它可以轻松地集成到各种系统中。它带有强大的映射语言,易于部署和监控,并可以作为静态二进制文件、docker 映像或无服务器函数放入管道中,使其成为云原生的。

Benthos 的功能包括:

  • 从多种消息流输入数据,包括 HTTP,Kafka,AMQP 等
  • 将数据转换为各种格式,包括 JSON,XML,CSV 等
  • 将数据聚合为单个消息
  • 将数据路由到多个输出流,包括 HTTP,Kafka,AMQP 等

Benthos 的主要优点在于它可以轻松集成到现有的系统中,并且可以使用配置文件进行定制。这使得它非常适合用于数据流处理和转换的场景。

如果你想了解更多关于 Benthos 的信息,可以访问它的官方文档:https://www.benthos.dev/docs/getting_started/overview

完全声明性

Benthos 是完全声明性的,在单个配置文件中定义了流管道,允许您指定连接器和处理阶段列表:

代码语言:javascript复制
input:
  kafka:
    brokers:
      - localhost:9092
    topics:
      - my_topic

pipeline:
  processors:
    - json:
        target: payload

output:
  http:
    url: http://localhost:8080/

Benthos 还提供了许多其他功能,例如:

  • 支持多种消息流协议,包括 HTTP,Kafka,AMQP 等
  • 支持许多不同的数据格式,包括 JSON,XML,CSV 等
  • 支持许多不同的聚合器,包括按时间聚合,按字段聚合等
  • 支持自定义转换器,可以使用 Go 代码编写转换器

交货保证

Benthos 提供了交货保证功能,可以帮助用户确保数据不会丢失。Benthos 通过背压实现基于事务的弹性。当连接到至少一次源和接收器时,它保证至少一次传递,而无需在传输过程中保留消息。

交货保证可以通过在 Benthos 的配置文件中设置以下选项来实现:

  • batch: 在批量模式下工作。在批量模式下,Benthos 将等待一定数量的消息到达后再将这些消息发送到输出流。这可以帮助确保消息不会丢失,因为 Benthos 会在输出流失败时缓存消息。
  • buffer: 在缓冲模式下工作。在缓冲模式下,Benthos 会将消息缓存在内存中,直到可以将其发送到输出流。这可以帮助确保消息不会丢失,因为 Benthos 会在输出流失败时缓存消息。
  • queue: 在队列模式下工作。在队列模式下,Benthos 会将消息放入一个持久化队列中,直到可以将其发送到输出流。这可以帮助确保消息不会丢失,因为即使 Benthos 关闭,消息也会保留在队列中。

这些选项可以结合使用,例如,你可以使用缓冲模式和队列模式来确保消息不会丢失:

代码语言:javascript复制
input:
  kafka:
    brokers:
      - localhost:9092
    topics:
      - my_topic

pipeline:
  buffer:
    count: 100
    period: 1s

output:
  file:
    path: /tmp/messages
    delivery_guarantee: at_least_once
  queue:
    type: file
    file:
      path: /tmp/queue
      delivery_guarantee: at_least_once

在这个配置文件中,Benthos 会从 Kafka 中读取消息,然后将消息缓存在内存中。每当 Benthos 收到 100 条消息或者超过 1 秒钟后,它会将消息发送到两个输出流:文件输出流和文件队列输出流。

对于文件输出流,Benthos 会在输出流失败时缓存消息。对于文件队列输出流,Benthos 会将消息放入一个持久化队列中,直到可以将其发送到文件输出流。这样,即使 Benthos 关闭,消息也会保留在队列中。

通过使用缓冲模式和队列模式,你可以确保消息不会丢失,并在输出流失败时缓存消息。你也可以根据你的需要自定义配置文件,以便更好地管理数据流并确保数据不会丢失。

在这个文档中,你可以找到有关交货保证的概述,以及如何在 Benthos 中使用交货保证的详细信息。你还可以了解有关 Benthos 中的交货保证级别(如至少一次、最多一次和严格一次)的信息: https://benthos.dev/docs/guides/delivery_guarantee

去重

Benthos 的交货保证功能可以帮助用户确保数据不会丢失,但是也要注意,它并不能保证数据不会被重复发送。如果你希望避免重复发送,可以使用 Benthos 的去重功能。

去重功能可以通过在 Benthos 的配置文件中添加以下选项来实现:

代码语言:javascript复制
pipeline:
  processors:
    - dedupe:
        field: my_field
        cache_size: 1000

在上面的配置中,Benthos 会将数据流中的每条消息的 my_field 字段的值作为唯一标识符,并将这些标识符存储在缓存中。如果 Benthos 收到的消息的 my_field 字段的值在缓存中已经存在,则 Benthos 会丢弃这条消息。

你也可以使用以下选项来自定义去重功能的行为:

  • field: 指定用于去重的字段。
  • cache_size: 指定缓存的大小。
  • ttl: 指定缓存中条目的生存期。

通过使用 Benthos 的交货保证和去重功能,你可以更方便地管理数据流,并确保数据不会丢失或重复发送。

在这个文档中,你可以找到有关去重处理器的概述,以及如何在 Benthos 中使用去重处理器的详细信息。你还可以了解有关去重处理器的配置选项,包括如何指定去重窗口大小、如何通过使用键提取器来定义要去重的消息和如何通过使用消息分组来控制去重处理器的行为: https://benthos.dev/docs/components/processors/dedup

支持自定义转换器

Benthos 提供了很多功能,可以帮助用户更方便地处理数据流。其中一个功能是支持自定义转换器。

自定义转换器允许用户使用 Go 代码编写转换器,以便在 Benthos 的数据流管道中进行转换。这使得用户可以使用 Benthos 的配置文件来定义一个自定义转换器,并将其指向 Go 代码文件。

例如,假设你有一个 Go 代码文件,其中包含了一个转换器函数,可以将输入数据转换为大写:

代码语言:javascript复制
package main

import (
    "github.com/Jeffail/benthos/v3/lib/processor"
    "github.com/Jeffail/benthos/v3/lib/types"
    "strings"
)

func main() {}

func ToUpper(input *types.Message) (*types.Message, error) {
    input.Iter(func(i int, p types.Part) error {
        p.Set(strings.ToUpper(p.Get()))
        return nil
    })
    return input, nil
}

你可以使用以下配置文件来将这个转换器包含到 Benthos 的数据流管道中:

代码语言:javascript复制
input:
  kafka:
    brokers:
      - localhost:9092
    topics:
      - my_topic

pipeline:
  processors:
    - custom:
        path: /path/to/my/converter.go
        function: ToUpper

output:
  http:
    url: http://localhost:8080/

这样,当 Benthos 从 Kafka 中读取数据时,它会使用函数转换器插件将消息转换为大写。函数转换器插件会读取 Go 代码文件 /path/to/my_converter.go,并将数据传递给自定义转换器函数 ToUpper,该函数会将输入数据转换为大写。

你可以在 Benthos 的文档中了解有关函数转换器插件的更多信息:https://benthos.dev/docs/components/processors/function

安装


Benthos 是一个开源的数据流管理工具,可以在 Linux、macOS 和 Windows 系统上运行。要安装 Benthos,你可以使用以下方法之一:

  • 使用包管理器安装:Benthos 提供了在许多平台上使用包管理器安装的选项。例如,你可以在 Ubuntu 系统上使用 apt 安装 Benthos,或者在 CentOS 系统上使用 yum 安装 Benthos。
代码语言:javascript复制
# 在 Ubuntu 系统上使用 apt 安装 Benthos:
sudo apt update
sudo apt install benthos

# 在 CentOS 系统上使用 yum 安装 Benthos: 
sudo yum update
sudo yum install benthos
  • 使用二进制文件安装:Benthos 提供了预编译的二进制文件,可以在任何支持的平台上使用这些文件安装 Benthos。
代码语言:javascript复制
curl -Lsf https://sh.benthos.dev | bash
  • 使用源代码安装:如果你想从 Benthos 的源代码安装,你可以从 GitHub 上下载 Benthos 的源代码,然后在本地编译它。
代码语言:javascript复制
# 1. 从 GitHub 上下载 Benthos 的源代码
git clone https://github.com/Jeffail/benthos.git
cd benthos

# 2. 安装 Benthos 所需的依赖项:
make deps

# 3. 编译 Benthos:
make build

# 4. 安装 Benthos:
make install
  • 使用 Docker 安装:Benthos 提供了一个 Docker 镜像,你可以使用 Docker 安装 Benthos。这是一种快速、简单的安装方法,适用于在各种平台上使用 Benthos 的场景。
代码语言:javascript复制
# 1. 从 Docker Hub 上下载 Benthos 的镜像:
docker pull jeffail/benthos:latest

# 2. 运行 Benthos 容器:
docker run -d --name benthos jeffail/benthos:latest
  • 使用 Helm 安装:如果你使用 Kubernetes 管理应用程序,你可以使用 Helm 安装 Benthos。Helm 是一个用于在 Kubernetes 中部署应用程序的工具,可以让你快速、简单地将 Benthos 部署到 Kubernetes 集群中。
代码语言:javascript复制
# 1. 安装 Helm(如果你的系统上尚未安装 Helm)。
# 2. 为 Benthos 创建一个新的 Helm 配置文件,例如 benthos-values.yaml。
# 3. 在 Helm 配置文件中指定 Benthos 的配置选项(包括输入、输出和处理器的配置)。
# 4. 在 Kubernetes 集群中部署 Benthos:
helm install benthos . -f benthos-values.yaml

运行


运行 Benthos 有许多方法,具体取决于你如何安装 Benthos。

二进制文件或源代码

如果你使用二进制文件或源代码安装 Benthos,你可以使用以下方法之一运行 Benthos:

  • 在命令行中运行 Benthos:

在安装 Benthos 后,你可以在命令行中使用 benthos 命令运行 Benthos。例如,你可以运行以下命令:

代码语言:javascript复制
benthos -c /path/to/config.yaml

在这个命令中,/path/to/config.yaml 是 Benthos 的配置文件的路径。你可以在 Benthos 的文档中了解有关配置文件的更多信息:https://benthos.dev/docs/configuration

  • 在后台运行 Benthos: 如果你希望 Benthos 在后台运行,你可以使用 benthos -d 命令启动 Benthos。例如:
代码语言:javascript复制
benthos -d -c /path/to/config.yaml

这样,Benthos 就会在后台运行,你就可以继续使用命令行进行其他操作了。你也可以使用 benthos -h 命令查看有关 Benthos 命令行选项的更多信息。

Docker

如果你使用 Docker 安装 Benthos,你可以使用以下方法之一运行 Benthos:

  • 在命令行中运行 Benthos: 你可以使用 docker run 命令在命令行中运行 Benthos。例如,你可以运行以下命令:
代码语言:javascript复制
docker run -d --name benthos jeffail/benthos:latest -c /path/to/config.yaml
  • 使用 Docker Compose 运行 Benthos: 如果你使用 Docker Compose 运行 Benthos,你可以在 docker-compose.yml 文件中指定 Benthos 的配置选项。例如,你可以在 docker-compose.yml 文件中指定 Benthos 的输入、输出和处理器,然后使用 docker-compose up 命令启动 Benthos。

例如,你可以在 docker-compose.yml 文件中使用以下内容启动 Benthos:

代码语言:javascript复制
version: "3"

services:
  benthos:
    image: jeffail/benthos:latest
    environment:
      BENTHOS_CONFIG: |
        inputs:
          - type: stdin
        outputs:
          - type: stdout
        processors:
          - type: json_parser
            parse_json_fields: []
            output_fields: []
            remove_on_fail: true
            remove_keys: []

然后,你可以使用以下命令启动 Benthos:

代码语言:javascript复制
docker-compose up

0 人点赞