我需要一些关于部署具有显式模型控制的 Triton 推理服务器的建议。从外观上看,这种模式让用户可以最大程度地控制哪个模型上线。但我无法解决的问题是如何加载模型,以防服务器在生产中出现故障,从而触发新实例的生成。
我能想到的唯一解决方案是让服务定期轮询服务器,不断检查我的实时模型是否真正活跃,如果没有,则加载它们。但这似乎是一个相当复杂的过程。
我想知道其他人是如何解决这个问题的。
提前致谢
我需要一些关于部署具有显式模型控制的 Triton 推理服务器的建议。从外观上看,这种模式让用户可以最大程度地控制哪个模型上线。但我无法解决的问题是如何加载模型,以防服务器在生产中出现故障,从而触发新实例的生成。
我能想到的唯一解决方案是让服务定期轮询服务器,不断检查我的实时模型是否真正活跃,如果没有,则加载它们。但这似乎是一个相当复杂的过程。
我想知道其他人是如何解决这个问题的。
提前致谢