本来只是想趁换 NAS 的机会顺手优化一下系统,结果一不小心,折腾成了一场灾难级连锁事故。
一、事情的开端
事情起因其实挺简单的:
我新买了一台 NAS,准备把旧 NAS 上的数据和服务都迁移过去。
迁移过程总体很顺利,系统也跑得挺好。
真正出问题,是在迁移完之后——我想着「既然都换新了,不如把系统彻底整理一下」。
于是我决定把群晖的套件从 SATA 盘挪到 NVMe 上,毕竟快一点谁不喜欢。
结果,这个“顺手的小优化”直接引爆了第一场灾难。
二、第一场事故:Docker 的覆灭
我用了一个工具叫 Synology_app_mover 来迁移套件。
系统类的套件都挺顺利,但到 Docker 的时候出状况了:
迁移似乎没完全成功,@docker 里的文件丢了不少。
我当时一边查命令、一边清理没用的容器,结果手一抖,
把那些还没启动、其实还需要的容器也删掉了。
更离谱的是,我以为万无一失的自动备份居然没有覆盖这些数据库。 grocy 的数据就这么彻底没了。
那一刻真的只能盯着空空的文件夹发呆。
教训一:容器不是文件,备份得分开做。
尤其是数据库类容器,最好定期导出数据。
否则删容器就等于删命。
三、第二场事故:ESXi 的克隆灾难
NAS 的事还没缓过来,我又开始整理硬盘。
有块 480G 的 SATA SSD 想挪去 ESXi 里用。
想着方便,我直接用软件做了磁盘克隆,但总是报 I/O 错误。
我以为无伤大雅,就继续用了。
结果插上新盘后,虚拟机起不来。
再去看原来的盘,居然彻底挂了,数据都读不出来。
没办法,只能重装 ESXi。
我想着反正有 Active Backup 做备份,恢复应该很快。
结果打开一看——OpenWRT 和 爱快 的虚拟机居然都没备份成功。
任务显示“完成”,但其实只是跳过了失败的部分。
一切配置全没,只能重装、重配。
教训二:备份的“成功”不等于备份成功。
一定要定期检查日志,尤其是虚拟机类备份。
Active Backup 的“绿勾”,有时候是个幻觉。
教训三:I/O 错误不是玩笑。
一旦发现,要立刻停用并验证数据完整性。
那种“还能用”的侥幸心理,最终都要付出时间的代价。
四、这次经历的反思
这次迁移让我彻底理解了几件事:
- 备份不是一次性的。
要定期验证、抽查,甚至偶尔做一次恢复测试。 - 硬盘健康度永远是优先级第一。
比速度、比容量都重要。 - 旧系统不要太早退役。
新环境跑稳定了再动老设备。 - 别在疲惫的时候敲命令。
尤其是那些删除类操作,真的,出事的永远是那一瞬间的“顺手”。
五、结语
整个过程,从迁移、崩溃到重装,大概折腾了三天。
原本只是想做点整理,结果变成了一次完整的灾难恢复演练。
不过换个角度看,也算趁机梳理了一遍系统结构,
备份策略也重新规划了,算是有惊无险。
下次再动这种系统级操作,
我大概会先备份三份,再去按那行命令。
踩坑记录第二集,到此为止。
下一集也许是:「快照到底救不救命」——希望不是。