PostgreSQL pg_resetwal处理机制

2021-06-25 17:19:46 浏览数 (3)

pg_resetwal的参数

ControlFile结构及pg_resetwal参数影响的字段

代码语言:javascript复制
static struct option long_options[] = {
    {"commit-timestamp-ids", required_argument, NULL, 'c'},
    {"pgdata", required_argument, NULL, 'D'},
    {"epoch", required_argument, NULL, 'e'},
    {"force", no_argument, NULL, 'f'},
    {"next-wal-file", required_argument, NULL, 'l'},
    {"multixact-ids", required_argument, NULL, 'm'},
    {"dry-run", no_argument, NULL, 'n'},
    {"next-oid", required_argument, NULL, 'o'},
    {"multixact-offset", required_argument, NULL, 'O'},
    {"next-transaction-id", required_argument, NULL, 'x'},
    {"wal-segsize", required_argument, NULL, 1},
    {NULL, 0, NULL, 0}
  };

介绍

PG11允许用户在线修改WAL段文件大小。以往版本需要重新编译,并且不同--wal-segsize设置的PG相互不兼容。这个值范围1—1024,为2的平方且单位M。当改变大小时建议和-l参数一起使用,设置下一个WAL文件名,防止重复使用之前的名字。下一个段文件名要比当前已存在的都要大,

该工具会将WAL目录下日志全部删除,并生成一个新WAL段文件。该文件名起名规则:

1、-l指定的段文件名解析出段号minXlogSegNo

2、FindEndOfXLOG扫描WAL目录下所有文件得到最大的文件号:

1)newXlogSegNo为pg_control文件中记录的ckp所属段号

2)若目录下由比这个号大的,则更新newXlogSegNo为该段号

3)该段号转换成WAL长度后,除以新段文件大小得到新段文件段号newXlogSegNo,将之 1作为新段文件的段号

3、原pg_control文件中的ckp作为CHECKPOINT记录写入新段文件里面。该段文件仅写这一个WAL,后面的大小全部清0。

4、新pg_control文件的checkpoint位置为该文件中CHECKPOINT记录位置。

5、这个工具比较危险,慎用。

6、在主备环境中,备机启动不起来,且日志损坏时,主机数据量非常大,全量重新拷贝又耗费时间特别长,此时可以尝试使用这个工具:

1)比较备机和主机的pg_control文件的checkpoint位置,若备机和主机记录的checkpoint位置相等,则可以执行pg_resetwal,这样重新启动后可以正常构建流复制,数据也不会丢

2)若备机的checkpoint小,使用这个pg_control文件进行pg_resetwal可能重启后构建不起来流复制。使用主机的pg_control文件进行pg_resetwal,重启后可构建流复制,但丢数据

3)若备机的checkpoint大,使用这个pg_control文件进行pg_resetwal,可能重启后构建不起来流复制,即使构建起来也丢数据。使用主机的pg_control文件进行pg_resetwal,应该也可以正常。

4)备机的时间线文件需要清理

流程

pg_control文件的更新,然后调用KillExistingXLOG删除pg_wal目录下的所有WAL文件:

代码语言:javascript复制
       while(errno = 0, (xlde = readdir(xldir)) != NULL){
              if(IsXLogFileName(xlde->d_name) || IsPartialXLogFileName(xlde->d_name)){
                     snprintf(path,sizeof(path), "%s/%s", XLOGDIR, xlde->d_name);
                     if(unlink(path) < 0){
                            pg_log_error("couldnot delete file "%s": %m", path);
                            exit(1);
                     }
              }
       }

调用函数KillExistingArchiveStatus删除archive_status目录下.ready,.done和.partial.ready、.partial.done文件:

代码语言:javascript复制
       while(errno = 0, (xlde = readdir(xldir)) != NULL){
              if(strspn(xlde->d_name, "0123456789ABCDEF") == XLOG_FNAME_LEN&&
                     (strcmp(xlde->d_name  XLOG_FNAME_LEN, ".ready") == 0 ||
                      strcmp(xlde->d_name   XLOG_FNAME_LEN,".done") == 0 ||
                     strcmp(xlde->d_name   XLOG_FNAME_LEN,".partial.ready") == 0 ||
                      strcmp(xlde->d_name   XLOG_FNAME_LEN,".partial.done") == 0))
              {
                     snprintf(path,sizeof(path), "%s/%s", ARCHSTATDIR, xlde->d_name);
                     if(unlink(path) < 0){
                            pg_log_error("couldnot delete file "%s": %m", path);
                            exit(1);
                     }
              }
       }

最后调用函数WriteEmptyXLOG创建一个新WAL段文件,并仅写入一个checkpoint记录,其中checkpoint记录来自ControlFile结构

0 人点赞