0

ceph 似乎对网络移动和变化不太适应。可能是因为 IP 地址被存储为组成 ceph 集群的系统的标识。

问题:最近我们的集群在几乎没有任何警告的情况下被物理移动,ceph 被关闭并且系统在移动之前被关闭。新位置分配了不同的 IP 地址,当集群重新启动并分配了新的 IP 地址时,ceph 无法正确启动。

可能的解决方案避免永久存储 IP 地址和主机名。相反,当 ceph 集群启动时,应该在运行时建立主机名和物理设备之间的关联。

如果 IP 地址和主机名必须保存在持久存储中,则应该有一个工具可以在不同的网络配置之间轻松迁移

有关失败案例 的更多信息 ceph-mon.*.asok 套接字不存在,因为监控服务无法启动。阻止监视器启动的错误似乎是监视器无法连接到集群 - 因为如前所述,我们的集群被快速关闭并且 IP 地址没有以受控方式更改。监视器日志充满了以以下绑定错误开始的尝试:处理器 -- 绑定在 3 次尝试后无法绑定:(99) 无法分配请求的地址

尝试迁移到新网络配置的事情 ​​起点是使用新的 IP 地址配置更新 ceph.conf 并重新运行ceph-deploy admin(ceph 版本是 Nautilus)以将新的管理员配置推送到网络。但是,这不会更新 ceph 粉碎地图。研究了各种旧讨论,例如https://tracker.ceph.com/issues/3550和用户文档https://docs.ceph.com/en/latest/rados/operations/add-or-rm-mons/ #changed-a-monitor-s-ip-address,但没有找到真正可行的解决方案。

所以我问这个问题,看看是否有其他人遇到过同样的问题,如果有,真正的专家认为只在运行时关联主机名/IP 地址和物理设备,并在 ceph 启动期间实现关联的发现阶段制作。或者当然也许还有另一个更好的解决方案?

4

0 回答 0