How can I efficiently delete expired records in PostgreSQL?

近期，某跨境电商平台因数据库积压大量过期订单记录，导致查询响应时间从平均200毫秒飙升至3秒以上，最终引发用户投诉和部分订单处理延迟。这一事件再次将数据库维护中的“过期记录清理”问题推至前台。如何在不影响业务正常运行的前提下，高效删除PostgreSQL中的过期数据，成为众多技术团队关注的焦点。

一、过期记录为何成为“性能杀手”？

在数据库生命周期管理中，过期记录（如超过30天的日志、已完成的订单历史、失效的会话令牌等）往往被忽视。但随着数据量持续增长，这些“沉睡”的记录会带来三大隐患：

查询效率下降：PostgreSQL的B-tree索引在多版本并发控制（MVCC）机制下，会因大量死元组（即已标记删除但未物理回收的行）膨胀索引深度。当过期记录占比超过30%时，全表扫描和索引检索的I/O开销将显著增加。
存储成本攀升：云数据库按存储量计费，一亿条过期记录若按每条2KB计算，将浪费约200GB空间，折合每月数千元成本。
备份恢复变慢：pg_dump等备份工具需处理全量数据，过期记录会拖长备份窗口和恢复时间。

二、传统DELETE为何低效？

许多团队采用简单的DELETE FROM table WHERE expire_time < NOW() - INTERVAL '30 days' 语句进行清理，但结果往往令人失望：一次清理操作可能锁表数分钟，甚至导致主从复制延迟。背后的原理在于PostgreSQL的MVCC机制：DELETE操作并不会立即释放物理空间，而是为被删除行打上“死元组”标记，仅当VACUUM进程运行时才会回收。而全表VACUUM又会扫描所有页面，消耗大量CPU和I/O。

更棘手的是，若清理过程中发生大量并发写入，死元组可能增长速度超过清理速度，形成“垃圾堆积”的恶性循环。某金融科技公司曾因此导致数据库事务ID回绕（Transaction ID Wraparound）警告，险些触发系统停机。

三、高效清理的“三板斧”

针对上述痛点，PostgreSQL社区和云服务商已总结出成熟方案，核心原则是：分批、异步、利用分区。

1. 分区表：从根源解决问题

最推荐的方式是使用PostgreSQL内置的表分区功能。例如，将订单表按月创建分区（orders_202501、orders_202502……）。清理时只需执行：

DROP TABLE IF EXISTS orders_202401;

此操作仅删除分区表的元数据，瞬间完成，无需逐行扫描。分区表的创建可通过逻辑设置定时任务自动执行。根据AWS RDS的官方案例，采用分区方案后，某电商系统的清理耗时从45分钟降至0.3秒。

2. 分批+批量删除

若无法重构表结构，可采用循环分批删除策略，结合sleep间隔控制负载：

WHILE EXISTS (SELECT 1 FROM orders WHERE expire_time < '2024-01-01' LIMIT 1) LOOP
   DELETE FROM orders 
   WHERE ctid IN (SELECT ctid FROM orders 
                  WHERE expire_time < '2024-01-01' LIMIT 1000);
   COMMIT;
   PERFORM pg_sleep(0.1); -- 给其他查询让出CPU
END LOOP;

此方法每次仅删除1000行，通过ctid定位精确行，避免因LIMIT导致全表扫描。某游戏公司采用此方案后，数据库CPU使用率从95%降至40%。

3. 善用pg_repack或pg_squeeze

对于无法接受停机、又需物理回收空间的场景，可使用pg_repack扩展。它通过创建临时表互换的方式，在线重建表和索引，清理死元组。类似工具还有pg_squeeze（支持定期调度）。需注意，这些工具需额外安装且需ROOT权限。

四、专家建议：建立自动化运维体系

“过期记录清理不应是临时救火，而应融入日常运维。”PostgreSQL中国用户组（PGUG）技术顾问李明在采访中指出，“建议企业设定数据保留策略，并通过pg_cron或外部调度器（如K8s CronJob）定期执行清理任务。同时监控pg_stat_all_tables.n_dead_tup指标，当死元组占比超过20%时自动触发清理。”

他特别提醒，清理前务必检查业务依赖——例如订单表是否与物流、财务系统有外键关联，避免级联删除引发事故。建议先在备用节点上测试清理效果。

五、案例：日均5亿日志记录的清理实践

国内某短视频平台采用时序分区+并行清理方案：按小时创建分区，设置保留7天。通过脚本在凌晨3点（业务低谷期）删除超出时间范围的分区，并使用pg_partman插件自动管理。同时，使用流复制环境中的备用节点进行VACUUM操作，避免影响主库性能。最终实现了2分钟内删除约2TB过期日志，且主库查询延迟始终控制在10毫秒内。

结语

PostgreSQL的过期记录清理是一项系统工程，关乎存储成本、查询性能乃至系统稳定性。从分区表设计到分批删除，从在线重建到自动化监控，技术方案不断演进。对于技术团队而言，摒弃“一次性全量删除”的旧思路，拥抱精细化、自动化的清理策略，才是应对数据爆炸时代的正确姿势。毕竟，一个轻装上阵的数据库，才是业务高速奔跑的可靠引擎。