PostgreSQL 最大的问题就是vacuum,只要PG的实现多版本和UNDO的方式不改变,那么这个话题就会一直继续,到永远。
前面四期讲了autovacuum 的触发条件,源代码,怎么调整参数,优化,今天最后一章,的说说怎么进行监控,并且评定你的autovacuum 的工作是合格的。下面的内容主要是基于几点来围绕的
监控表的dead tumple ,下面的语句可以展示每个表中的dead_tuple的数量,以及占整体表中的行的百分比,以及最近一次表进行autovacuum的时间。通过下图可以看到有些表并没有进行 autovacuum 的操作,哪怕是一次,但已经有88万行的dead tuple ,定期通过语句和匹配的条件可以对一些表长期没有autovacuum 进行关注,或者在自定义的监控系统中增加 dead tuple 预警,达到一定的阀值就需要进行 warning 了。
SELECT schemaname,
relname,
n_live_tup,
n_dead_tup,
n_dead_tup::float/(n_dead_tup::float n_live_tup::float 100)*100 as percent_of_dead_tuples,
last_autovacuum
FROM pg_stat_user_tables;
同时可以在监控系统中比对大表,通过获取数据存储容量最大的表的排列来获得需要监控的表的list
SELECT
relname AS "table_name",
pg_size_pretty(pg_table_size(C.oid)) AS "table_size"
FROM
pg_class C
LEFT JOIN pg_namespace N ON (N.oid = C.relnamespace)
WHERE nspname NOT IN ('pg_catalog', 'information_schema') AND nspname !~ '^pg_toast' AND relkind IN ('r')
ORDER BY pg_table_size(C.oid)
DESC LIMIT 10;
接下来在系统中执行 autovacuum 时需要注意的是,系统中是否正在有正在工作的 autovacuum 的进程, 并且这些进程在做什么操作
SELECT psa.pid,granted,query FROM pg_locks pl LEFT JOIN pg_stat_activity psa ON pl.pid = psa.pid where locktype='relation' and query like '%vacuum%' and query not like '%SELECT%';
通过语句可以看到正在进行的 autovacuum 工作,并且还可以通过下面的语句来查看当前 autovacuum的工作状态。
select pid,datname,relid,phase,(heap_blks_scanned ::float 1::float)/(heap_blks_total::float 1::float) * 100 as scanned_percent from pg_stat_progress_vacuum ;
通过上面的语句可以查看当前 autovacuum 扫描了的百分比,这样就可以了解到多长时间 autovacuum 会完成。
SELECT now() - xact_start, state, usename,query FROM pg_stat_activity where query like 'autovacuum%';
最后就是时间的问题,通过上面的语句获得一个正在运行的autovacuum,已经工作的时间。
SELECT psa.pid,granted,query,now() - psa.xact_start as running_time, psa.state, psa.usename
FROM pg_locks pl
LEFT JOIN pg_stat_activity psa ON pl.pid = psa.pid
where locktype='relation' and query like '%vacuum%' and query not like '%SELECT%';
截止,目前AUTOVACUUM 已经写了5篇,基本上涵盖了大部分的autovacuum的原理和问题。