【best-practice】一次客户magma存储出错恢复的经验
1. 背景介绍
4 月 6 号的时候,客户的数据库出现了异常,初始的报错如下:
客户的环境配置:双 magma 节点,replica=2,数据库版本 4.9。
得到报错后,初步怀疑 magma 集群出了问题,因为事务系统和容错系统均在 magma 服务中。
2. 排查过程
作出初步怀疑后,得到了如下后续调查日志
magma 集群状态:
qd 日志:
magmafatal 日志:
可以确认的是:magma 有一个 node 无法启动,导致在去请求 snapshot 的时候报错,而 fatal 则指出了...