How long can a master-master replication be disconnected? Are there settings for this?

在分布式数据库架构中，主主复制（Master-Master Replication）凭借其双向高可用、读写扩展能力，成为许多企业核心业务的基石。然而近期，国内外技术社区频繁出现同一类困惑：“主主复制可以断开连接多长时间？是否有相关设置？”这一问题看似简单，背后却涉及网络故障容忍、数据一致性、自动恢复机制等多重技术维度。本文将结合主流数据库系统（以MySQL、PostgreSQL为代表）的实践，揭开断连时长谜题的面纱。

一、为什么断连时长成为“灵魂拷问”？

主主复制要求两个节点实时同步写入变更。当网络抖动、节点宕机或维护操作导致连接中断时，系统需要决定：是立即标记失败，还是容忍一定时间的离线？若容忍时间过短，频繁切换会引发“脑裂”风险；若过长，离线期间积压的binlog或WAL日志可能撑爆磁盘，且重连后数据追赶耗时剧增。更关键的是，不同数据库、不同复制模式对“断开”的定义差异极大——心跳丢失、连接超时、副本滞后阈值等参数共同构成一套复杂的容错体系。

二、核心参数：断连时长由“三把锁”决定

以最典型的MySQL半同步复制和组复制为例，断开时长的控制并非单一参数，而是由三个层级共同约束：

网络连接超时（网络层）
MySQL的slave_net_timeout（默认60秒）定义了从节点等待主节点数据的超时时间。若超过此值未收到任何数据包（包括心跳），从节点会判定连接断开并尝试重连。对于主主双向复制，两个方向各有一个slave_net_timeout，实际断连容忍值即为该参数值。但注意，此参数仅控制连接层面的断线检测。更宽泛的“断开”还包括数据同步中断。
事务提交等待（半同步层）
若启用半同步复制（rpl_semi_sync_master_timeout），主节点在事务提交后会等待从节点ACK，默认超时10秒。超时后回退为异步模式，此时主从连接虽未物理断开，但逻辑同步已降级。这一超时值直接影响写入服务的可用性。
节点故障检测（组复制层）
MySQL组复制（Group Replication）采用分布式故障检测，通过group_replication_member_expel_timeout（默认5秒）和group_replication_autorejoin参数控制。当成员心跳连续丢失达5秒，集群会将其踢出；退出成员可尝试自动重连，重连窗口由group_replication_autorejoin_tries设定（最多5次，间隔60秒）。因此，组复制下容许的断连时长约为5秒（踢出阈值）+ 5分钟（重连窗口）可选。

PostgreSQL的主主复制场景（如BDR或Citus）则通过wal_receiver_timeout（默认60秒）检测连接，max_standby_streaming_delay控制滞后容忍；TDSQL、OceanBase等商业数据库更是提供“复制延迟告警+自动流量切换”的智能策略。

三、没有“万能值”，只有“权衡之道”

业界普遍认为，不存在适用于所有场景的理想断连时长。运维团队需根据业务对数据一致性和可用性的敏感度，动态调整参数：

金融、支付场景：通常要求极短的断连检测（5-10秒），配合半同步复制，宁可短暂不可用也不容忍数据丢失。
内容分发、日志聚合：可接受更长离线（5-30分钟），降低网络波动误判，同时设置较大slave_net_timeout和延迟阈值。
跨地域部署：因物理距离导致的网络延迟，需适当调高超时（例如120秒），并启用并行复制加快追赶。

值得警惕的是，无论设定多少秒，都不能完全避免“脑裂”。最可靠的做法是结合第三方仲裁（如ZooKeeper/Dynamic DNS）或数据库内置的演进机制（如MySQL Group Replication的Paxos协议）自动选出主节点，避免双边写入。

四、未来趋势：从“时间容忍”到“状态感知”

越来越多的现代数据库开始抛弃固定超时，转向基于状态的动态管理。例如，MongoDB副本集的electionTimeoutMillis虽然默认10秒，但可通过心跳探测和选举策略智能调整；Redis哨兵模式则通过down-after-milliseconds标记主观下线，再结合“法定人数”决策。开源项目和云数据库正推动“自适应断连探测”：根据网络健康状况、负载压力自动缩短或延长容忍窗口，减少误判。

结语

“主主复制可以断开连接多长时间？”这个问题的正确答案其实是一道开放题：它取决于你所采用的复制协议、业务优先级以及运维策略。没有一成不变的参数，只有持续监控与调优。对于工程师而言，理解这些“隐藏锁”的工作机制，才是避免生产落地翻车的关键。下一次当你面对断连时长配置时，请记住：这不是一个数值，而是一套基于系统心理学——即对网络不可靠性的妥协方案。

一、为什么断连时长成为“灵魂拷问”？

二、核心参数：断连时长由“三把锁”决定

三、没有“万能值”，只有“权衡之道”

四、未来趋势：从“时间容忍”到“状态感知”

结语

相关阅读