pulsar-6：生产环境解决pulsar-flink-connector导致磁盘满的问题

(1).pulsar生产集群规模

(2).集群磁盘爆炸原因与解决

1.磁盘爆炸原因

2.恢复集群

3.解决方式

(1).pulsar生产集群规模

生产环境集群（为了省钱是一个最小集群）：

在aws上部署了3台8c16g的pulsar集群。选择的是1:2的c系列机型：c5a.2xlarge。

每台节点放3个进程：zk, broker, bookie。

磁盘是400G/node，一共是1.2T，但是副本数是2，所以可以存放600G的消息。

(2).集群磁盘爆炸原因与解决

1.磁盘爆炸原因

在进行全链路压测时出现磁盘爆炸的情况，3个node的磁盘使用率都超过了95%。

经过调查是因为实时计算flink中的pulsar-flink-connect使用的topic的订阅者出现了2、3亿条的消息堆积（一共12个分区，每个分区的backlog都是2、3千万）。

原因：

是pulsar-flink所创建/使用/管理的订阅者（reader）的markDeletePosition和readPosition不相等，value(markDeletePosition) << value(readPosition)，每个都差2、3千万。查看官方issue这里存在这种情况，貌似后续版本会解决。

2.恢复集群

通过设置过期时间1s（单位是秒），让pulsar自动删除过期ledgers。

注意这里我设置1秒是因为业务是内测阶段所以可以，生产这么设你可以跑路了！！！

bin/pulsar-admin namespaces set-message-ttl xxx/public --messageTTL 1

重启每个bookie。

bin/pulsar-daemon stop bookie

bin/pulsar-daemon start bookie